Fine-Tune Phi-4 with Ertas

Microsoft 的 140 亿参数小语言模型，通过合成数据训练强调推理质量，在数学和逻辑基准测试上达到了与数倍规模模型相当的性能。

14BMicrosoft

Overview

Phi-4 是 Microsoft Phi 小语言模型系列的最新成员，于 2024 年 12 月发布。拥有 140 亿参数，Phi-4 专门设计为在有限的模型规模下最大化推理能力。Microsoft 通过大量使用合成数据的训练方法实现了这一目标——精心生成的训练示例针对特定推理模式、数学问题求解和逻辑推导。

该模型在同等规模级别展示了卓越的基准测试性能。在 MATH 和 GSM8K 等数学推理基准测试上，Phi-4 与 70B 以上参数量级的模型竞争，甚至接近某些前沿模型。这使其在需要强大推理但计算资源有限的应用中特别有价值。

Phi-4 使用稠密 Transformer 架构，包含 40 层、5120 的隐藏维度和 40 个注意力头。支持 16K token 的上下文窗口，使用 tiktoken 分词器和 100K 词表。架构包含标准的现代特性，如 RoPE 位置编码和分组查询注意力。

该模型在 MIT 许可下发布，是目前许可最宽松的高质量模型之一。这推动了在研究和商业应用中的广泛采用，特别是在需要结构化推理的领域。

Key Features

Phi-4 的突出特性是其推理能力，通过 Microsoft 创新的合成数据训练管道实现。训练数据不仅依赖网络爬取的文本，还包括数百万合成生成的问答对、逐步数学证明、逻辑谜题和代码推理轨迹。这种有针对性的训练方法产生了比主要在自然文本上训练的模型更可靠推理的模型。

该模型在结构化任务上表现特别出色：数学问题求解、带有逻辑约束的代码生成、科学推理和形式逻辑。在 MATH 基准测试上，Phi-4 达到了可与 GPT-4 Turbo 媲美的分数，尽管参数量约小 100 倍。

Phi-4 相比 Phi-3 在指令遵循方面也有所改进，更好地遵循输出格式要求、更一致地处理多步骤指令，并减少了幻觉倾向。聊天调优变体有效支持系统提示和多轮对话。

Fine-Tuning with Ertas

Phi-4 是 Ertas Studio 中微调的优秀候选，特别适合需要特定领域推理的应用。140 亿参数处于一个甜蜜点——大到足以捕获复杂模式，但小到足以在单块 24GB GPU 上进行高效的 QLoRA 训练。使用 4 位量化，微调约需 10-14GB VRAM，可在 RTX 4090、RTX 3090 或 A5000 上实现。

在 Ertas Studio 中，上传以推理为重点的数据集（思维链示例在 Phi-4 上效果特别好），选择模型并配置 LoRA 参数。对于推理任务，模型对相对较低的 LoRA rank（8-32）反应良好，保持适配器大小小巧且训练快速。在单块 GPU 上处理 10,000 个示例的典型微调运行在 1-2 小时内完成。

训练完成后，导出为 GGUF 格式。Phi-4 的 14B 大小量化效率高——Q4_K_M 下生成的模型约 8.5GB，小到可以在笔记本电脑上运行。这使 Phi-4 非常适合创建可在任何地方部署且不依赖云的专业推理模型。

Use Cases

Phi-4 在需要结构化推理的应用中表现卓越：数学辅导系统、科学分析工具、代码审查和调试助手以及决策支持系统。其在逻辑任务上的强劲表现使其特别适合基于规则的处理、合规检查和结构化数据提取。

该模型是教育技术应用的绝佳选择，逐步问题求解解释在这些场景中很受重视。微调后的 Phi-4 可以作为数学导师、科学讲解员或编程教练，提供帮助用户理解解题过程的详细推理轨迹。

对于企业部署，Phi-4 将强大的推理能力与可控的资源需求相结合。它非常适合需要逻辑推理的文档分析管道、带有数据驱动结论的自动报告生成，以及需要验证逻辑一致性的质量保证工作流。

Hardware Requirements

Phi-4 在 Q4_K_M 量化下约需 8.5GB 内存，可在配备 16GB 内存的系统、大多数配备 10GB 以上 VRAM 的现代 GPU 和配备 16GB 统一内存的 Apple Silicon Mac 上舒适运行。在 Q8_0 下约需 15GB，在 24GB GPU 或 32GB 系统上仍然可控。

全精度 FP16 推理约需 28GB VRAM，可在单块 A6000 48GB 或 A100 40GB 上运行。消费级硬件上的推理速度出色——RTX 4090 上 Q4_K_M 下预计每秒 30-50 个 token，配备 32GB 内存的 M2 Pro MacBook 上每秒 10-20 个 token。

在 Ertas Studio 中使用 QLoRA 微调需要 12-16GB VRAM（RTX 4070 Ti、RTX 4080、RTX 4090）。完整 LoRA 微调约需 20-24GB VRAM。模型的适中大小允许在微调过程中快速迭代。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →