要 fine-tune LLM，你需要准备指令-响应对的 JSONL 数据集，选择基础模型（通常 7B-8B 参数），应用 LoRA 或 QLoRA 适配器，训练 1-5 个 epoch，然后导出为 GGUF 文件用于部署。整个过程根据数据集大小和硬件需要 30 分钟到几小时。

何时应该 Fine-Tune？

Fine-tuning 适用于： prompt engineering 达到瓶颈、需要特定输出格式、延迟和成本在规模化时重要、隐私要求禁止云 API。

步骤 1：准备训练数据

{"instruction": "将此支持工单分类为账单、技术或一般。", "input": "重置密码后无法登录账户。", "output": "技术"}

LoRA 冻结基础模型只训练小适配器矩阵。QLoRA 进一步将基础模型量化到 4-bit。大多数团队应选择 LoRA 或 QLoRA。

Learning rate: 2e-4
Epochs: 3
LoRA rank: 16
LoRA alpha: 32

观察训练损失（应稳定下降）和验证损失（应跟踪训练损失）。

保留测试集、A/B 对比、任务特定指标。

导出为 GGUF，使用 Ollama 部署：

echo 'FROM ./my-fine-tuned-model.gguf' > Modelfile
ollama create my-model -f Modelfile
ollama run my-model "分类此工单：无法重置密码"

上传 JSONL → 选择基础模型 → 可视化配置和启动 → 并排比较结果 → 导出 GGUF。无训练脚本，无基础设施管理。

锁定早鸟价 $14.50/月 加入等待列表 →

在单个 A100 GPU 上用 5,000 示例和 LoRA 训练 7B 模型通常需要 30-90 分钟。

LoRA/QLoRA fine-tuning 7B 模型需要至少 8 GB VRAM 的 GPU。