Mistral Small 4
微調可及性: 卓越
Mistral Small 4 的 6B 活躍參數 MoE 架構相對於其 119B 總參數,使其微調極為高效。QLoRA 在典型序列長度下能舒適地適配單張 24GB GPU——比微調等效品質的 30B-70B 範圍密集模型更易取得,後者通常需要 48GB 以上的 GPU。統一架構(涵蓋推理、程式設計與指令微調使用情境)意味著單一微調即可處理跨領域任務。Apache 2.0 授權無使用限制或歸屬要求。
Strengths
- QLoRA 微調在完整序列長度下適合單張 24GB GPU
- 6B 活躍參數推理可快速部署微調後的模型
- Apache 2.0 授權無商業限制
- 單一微調即可處理推理、程式設計與指令微調任務
Trade-offs
- MoE 專家路由需要平台感知的 微調設定(在 Ertas Studio 中自動處理)
- Q4_K_M 部署佔用(65GB)大於活躍參數量所暗示的數值