Fine-Tune Phi-3 with Ertas

    Microsoft 紧凑而强大的语言模型家族,提供 3.8B、7B 和 14B 三种规模,专为设备端和边缘部署设计,在推理和指令遵循任务上表现令人惊喜。

    3.8B7B14BMicrosoft

    Overview

    Phi-3 是 Microsoft 的第三代小语言模型家族,于 2024 年 4 月发布。产品线包括 Phi-3 Mini(3.8B)、Phi-3 Small(7B)和 Phi-3 Medium(14B)。Phi 系列率先提出了精心策划的训练数据可以弥补较小模型规模不足的理念,而 Phi-3 通过结合过滤的网络数据和由更大模型生成的广泛合成数据集的训练混合进一步推进了这一理念。

    Phi-3 Mini 是该家族的旗舰,仅有 3.8B 参数,却在许多基准测试上提供了与 Mixtral 8x7B 和 GPT-3.5 相当的性能,尽管规模小了 10 倍以上。这使其成为有史以来在每参数质量方面最高效的模型之一。模型通过 LongRoPE 扩展支持 128K token 的上下文窗口,即使在计算有限的设备上也能进行长文档处理。

    Phi-3 Small(7B)和 Phi-3 Medium(14B)进一步提升了质量同时保持高效。Phi-3 Small 使用新颖的块稀疏注意力机制,减少了长上下文推理期间的内存使用。Phi-3 Medium 接近 Llama 3 8B 和 Mistral 7B 的质量,同时以类似的推理成本提供有竞争力的性能。

    所有 Phi-3 模型均在 MIT 许可下发布,提供基础版和指令调优版。Microsoft 还提供了 ONNX 优化版本,用于在移动设备和浏览器上部署,并已展示 Phi-3 Mini 在智能手机和 Raspberry Pi 设备上的高效运行。

    Key Features

    Phi-3 家族最具特色的是其训练数据方法。Microsoft 采用多阶段训练管道,首先使用通过分类器过滤识别教育和高质量内容的网络数据,然后增加数百万合成生成的教科书式段落、推理链和代码示例。这种数据质量的专注使小模型能够从每个训练 token 中更有效地学习。

    Phi-3 Mini 通过 LongRoPE 支持最高 128K token 的上下文窗口,这是一种位置编码扩展,可在不显著降低质量的情况下高效处理长序列。这对 3.8B 模型来说非常了不起,支持通常仅限于更大模型的用例,如分析整个文档或维护超长对话历史。

    该家族所有模型都支持 ONNX Runtime 部署,可在各种设备上实现硬件加速推理,包括手机(通过 ONNX Runtime Mobile)、网络浏览器(通过 WebAssembly/WebGPU)和边缘设备。这使 Phi-3 特别适合云连接不可靠或数据隐私要求禁止云处理的设备端 AI 应用。

    Fine-Tuning with Ertas

    Phi-3 模型因其小巧的尺寸在 Ertas Studio 中是最易于微调的模型之一。Phi-3 Mini(3.8B)使用 QLoRA 仅需 4-6GB VRAM——几乎可在任何现代 GPU 上运行,包括 RTX 3060 6GB、GTX 1660 Ti 6GB,甚至具有足够共享内存的集成显卡系统。训练速度快,处理 10,000 个示例的数据集通常不到一小时即可完成。

    Phi-3 Medium(14B)使用 QLoRA 训练约需 10-14GB VRAM,在 RTX 4070 12GB 或 RTX 4080 16GB 等消费级 GPU 能力范围内。指令调优变体对领域适应反应良好,是专业助手的出色起点。

    Ertas Studio 的导出管道生成可通过 Ollama 或 llama.cpp 部署的 GGUF 文件。小巧的模型尺寸意味着生成的 GGUF 文件高度便携——Q4_K_M 量化的 Phi-3 Mini 仅约 2.3GB,小巧到可以作为桌面应用的一部分分发或嵌入到边缘计算管道中。这使 Phi-3 非常适合创建可完全离线运行的定制专业模型。

    Use Cases

    Phi-3 Mini 是设备端 AI 应用的首选。其 3.8B 参数大小支持在智能手机、平板电脑、嵌入式系统和物联网设备上部署,这些场景中更大的模型根本无法容纳。用例包括离线对话助手、设备端文档摘要、保护隐私的文本分析以及无互联网连接环境中的实时语言处理。

    该模型家族在资源受限环境中的结构化任务方面表现卓越:表单处理、数据提取、分类和简单代码生成。对于客户支持自动化、常见问题解答和内容审核等应用,微调后的 Phi-3 模型提供了出色的成本质量比。

    Phi-3 还可作为大型系统中的组件。它可以作为推测解码管道中的快速草稿模型、将查询导向适当专业模型的轻量级分类器或路由器,或在传递给更强能力模型进行复杂推理之前提取结构化信息的预处理步骤。

    Hardware Requirements

    Phi-3 Mini(3.8B)在 Q4_K_M 量化下约需 2.3GB 内存。这小到可以在几乎任何现代设备上运行:配备 4GB 以上内存的智能手机、Raspberry Pi 5(8GB)、老旧笔记本电脑,甚至某些基于 WebAssembly 的浏览器部署。在 Q8_0 下约需 4.1GB,仍然非常便携。

    Phi-3 Small(7B)在 Q4_K_M 下约需 4.3GB,Phi-3 Medium(14B)约需 8.4GB——两者在配备 16GB 内存或 8GB 以上 VRAM GPU 的消费级硬件上均很舒适。Medium 的全精度 FP16 推理约需 28GB VRAM。

    在 Ertas Studio 中微调时,Phi-3 Mini 使用 QLoRA 仅需 4-6GB VRAM,Phi-3 Small 需要 6-10GB,Phi-3 Medium 需要 10-14GB。这些低需求使整个 Phi-3 家族对个人开发者和没有专业硬件的小团队都很容易获取。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.