
如何 Fine-Tune LLM:2026 完整指南
学习如何逐步 fine-tune 大语言模型——从准备训练数据和选择基础模型到配置 LoRA、评估结果和本地部署。
要 fine-tune LLM,你需要准备指 令-响应对的 JSONL 数据集,选择基础模型(通常 7B-8B 参数),应用 LoRA 或 QLoRA 适配器,训练 1-5 个 epoch,然后导出为 GGUF 文件用于部署。整个过程根据数据集大小和硬件需要 30 分钟到几小时。
何时应该 Fine-Tune?
Fine-tuning 适用于: prompt engineering 达到瓶颈、需要特定输出格式、延迟和成本在规模化时重要、隐私要求禁止云 API。
步骤 1:准备训练数据
{"instruction": "将此支持工单分类为账单、技术或一般。", "input": "重置密码后无法登录账户。", "output": "技术"}
| 任务类型 | 最少示例 | 甜蜜点 |
|---|---|---|
| 分类 | 每类 100-200 | 每类 500-1,000 |
| 摘要 | 500 | 2,000-5,000 |
| 对话 | 1,000 | 5,000-10,000 |
步骤 2:选择基础模型
| 模型 | 大小 | 优势 | 许可 |
|---|---|---|---|
| Llama 3 | 8B, 70B | 通用、强推理 | Meta Community |
| Qwen 2.5 | 7B, 14B, 72B | 多语言 | Apache 2.0 |
| Mistral | 7B | 快速推理 | Apache 2.0 |
步骤 3:配置训练
LoRA 冻结基础模型只训练小适配器矩阵。QLoRA 进一步将基础模型量化到 4-bit。大多数团队应选择 LoRA 或 QLoRA。
Learning rate: 2e-4
Epochs: 3
LoRA rank: 16
LoRA alpha: 32
步骤 4:训练和监控
观察训练损失(应稳定下降)和验证损失(应跟踪训练损失)。
步骤 5:评估模型
保留测试集、A/B 对比、任务特定指标。
步骤 6:导出和部署
导出为 GGUF,使用 Ollama 部署:
echo 'FROM ./my-fine-tuned-model.gguf' > Modelfile
ollama create my-model -f Modelfile
ollama run my-model "分类此工单:无法重置密码"
Ertas Studio 更快的方式
上传 JSONL → 选择基础模型 → 可视化配置和启动 → 并排比较结果 → 导出 GGUF。无训练脚本,无基础设施管理。
锁定早鸟价 $14.50/月 加入等待列表 →
常见问题
Fine-tune LLM 需要多长时间?
在单个 A100 GPU 上用 5,000 示例和 LoRA 训练 7B 模型通常需要 30-90 分钟。
需要什么硬件?
LoRA/QLoRA fine-tuning 7B 模型需要至少 8 GB VRAM 的 GPU。
延伸阅读
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

如何构建用于 LLM 微调的本地数据准备管道
构建用于 LLM 微调的本地数据准备管道的完整指南——涵盖从摄入到导出的 5 个阶段、工具对比和受监管环境的架构。

使用微调本地模型构建可靠 AI Agent:完整指南
大多数 AI Agent 只是 GPT-4 封装——在规模上昂贵、不可靠且依赖云 API。微调本地模型在你的特定工具上达到 98%+ 准确率,零查询成本。这是完整架构。
Apple Silicon 微调:在 M 系列 Mac 上运行自定义模型
在 Apple Silicon Mac 上部署微调 AI 模型的实用指南。涵盖 M4 硬件能力、统一内存优势、Ollama 和 MLX 设置、量化选择以及 Core ML LoRA 适配器支持。