Mistral Small 4
微调可及性: 卓越
Mistral Small 4 的 6B 激活参数 MoE 架构相对其 119B 总参数而言微调起来格外高效。QLoRA 在典型序列长度下可舒适装入单块 24GB GPU——比微调质量相当的 30B-70B 范围稠密模型(通常需要 48GB+ GPU)更为易得。统一架构(涵盖推理、编程和指令调优用例)意味着单次微调即可处理跨领域任务。Apache 2.0 许可没有任何使用限制或署名要求。
Strengths
- QLoRA 微调可在单块 24GB GPU 上完整序列长度运行
- 6B 激活参数推理,便于快速部署微调后模型
- Apache 2.0 许可,无商业限制
- 单次微调即可处理推理、编程和指令调优任务
Trade-offs
- MoE 专家路由需要平台感知的微调配置(在 Ertas Studio 中自动处理)
- Q4_K_M 部署占用(65GB)大于激活参数量所暗示的水平