Fine-Tune Phi-3 with Ertas

Microsoft 的緊湊型語言模型家族，提供 3.8B、7B 和 14B 三種規格，專為裝置端和邊緣部署設計，在推理和指令跟隨任務上展現令人驚豔的強勁效能。

3.8B7B14BMicrosoft

Overview

Phi-3 是 Microsoft 的第三代小型語言模型家族，於 2024 年 4 月發布。產品線包括 Phi-3 Mini（3.8B）、Phi-3 Small（7B）和 Phi-3 Medium（14B）。Phi 系列開創了精心策劃的訓練資料可以彌補較小模型規格不足的概念，Phi-3 透過結合過濾網路資料和由更大模型生成的大量合成資料集的訓練混合進一步推進了這一理念。

Phi-3 Mini 是家族的旗艦，僅有 3.8B 參數，在許多基準測試上提供與 Mixtral 8x7B 和 GPT-3.5 相當的效能，儘管規模小了十倍以上。這使其成為每參數品質方面有史以來最高效的模型之一。模型透過 LongRoPE 擴展支援 128K token 的上下文視窗，即使在運算資源有限的裝置上也能進行長文件處理。

Phi-3 Small（7B）和 Phi-3 Medium（14B）在保持高效的同時進一步提升品質。Phi-3 Small 使用新穎的區塊稀疏注意力機制，減少長上下文推論期間的記憶體使用。Phi-3 Medium 的品質接近 Llama 3 8B 和 Mistral 7B，同時在相似的推論成本下提供具競爭力的效能。

所有 Phi-3 模型以 MIT 授權發布，提供基礎版和指令微調變體。Microsoft 還提供了針對行動裝置和瀏覽器部署的 ONNX 最佳化版本，並已展示 Phi-3 Mini 在智慧型手機和 Raspberry Pi 裝置上的高效執行。

Key Features

Phi-3 家族最具特色的功能是其訓練資料方法論。Microsoft 採用多階段訓練管線，首先使用經過分類器過濾的網路資料來識別教育性和高品質內容，然後以數百萬合成生成的教科書風格段落、推理鏈和程式碼範例進行增強。這種資料品質的關注使小型模型能更有效地從每個訓練 token 中學習。

Phi-3 Mini 透過 LongRoPE 支援最多 128K token 的上下文視窗，這是一種位置編碼擴展技術，能夠在不顯著降低品質的情況下高效處理長序列。這對 3.8B 模型來說非常了不起，實現了通常需要更大模型才能完成的用途，如分析整份文件或維護非常長的對話歷史。

家族中的所有模型都支援 ONNX Runtime 部署，使其能在包括手機（透過 ONNX Runtime Mobile）、網頁瀏覽器（透過 WebAssembly/WebGPU）和邊緣裝置在內的多種裝置上進行硬體加速推論。這使 Phi-3 特別適合雲端連接不可靠或資料隱私要求禁止雲端處理的裝置端 AI 應用。

Fine-Tuning with Ertas

Phi-3 模型因其小巧的規格而成為 Ertas Studio 中最易取得的微調模型之一。Phi-3 Mini（3.8B）使用 QLoRA 僅需 4-6GB VRAM 即可微調——這幾乎可在任何現代 GPU 上執行，包括 RTX 3060 6GB、GTX 1660 Ti 6GB，甚至具有足夠共享記憶體的整合式 GPU 系統。訓練速度快，10,000 個範例的資料集通常在不到一小時內完成。

Phi-3 Medium（14B）使用 QLoRA 訓練需要約 10-14GB VRAM，完全在 RTX 4070 12GB 或 RTX 4080 16GB 等消費級 GPU 的能力範圍內。指令微調變體對領域適應反應良好，是專用助手的出色起點。

Ertas Studio 的匯出管線生成可透過 Ollama 或 llama.cpp 部署的 GGUF 檔案。小巧的模型規格意味著產生的 GGUF 檔案高度可攜帶——Q4_K_M 量化的 Phi-3 Mini 僅約 2.3GB，小到可以作為桌面應用程式的一部分分發或嵌入邊緣運算管線中。這使 Phi-3 非常適合建立完全離線執行的自訂專用模型。

Use Cases

Phi-3 Mini 是裝置端 AI 應用的首選。其 3.8B 參數規格使其能夠部署在智慧型手機、平板電腦、嵌入式系統和較大模型根本無法容納的物聯網裝置上。用途包括離線對話助手、裝置端文件摘要、保護隱私的文本分析，以及在無網路連接環境中的即時語言處理。

該模型家族在資源受限環境中的結構化任務上表現出色：表單處理、資料提取、分類和簡單的程式碼生成。對於客戶支援自動化、FAQ 回答和內容審核等應用，微調後的 Phi-3 模型提供了出色的成本與品質比。

Phi-3 作為更大系統中的組件也很有價值。它可以作為投機解碼管線中的快速草稿模型、將查詢導向適當專用模型的輕量級分類器或路由器，或在傳遞給更強大模型進行複雜推理之前提取結構化資訊的預處理步驟。

Hardware Requirements

Phi-3 Mini（3.8B）在 Q4_K_M 量化下需要約 2.3GB RAM。這小到幾乎可在任何現代裝置上執行：配備 4GB 以上 RAM 的智慧型手機、Raspberry Pi 5（8GB）、較舊的筆記型電腦，甚至部分透過 WebAssembly 的瀏覽器部署。在 Q8_0 下需要約 4.1GB，仍然非常便攜。

Phi-3 Small（7B）在 Q4_K_M 下需要約 4.3GB，Phi-3 Medium（14B）需要約 8.4GB——兩者都可在配備 16GB RAM 的消費級硬體或配備 8GB 以上 VRAM 的 GPU 上舒適執行。Medium 的完整 FP16 推論需要約 28GB VRAM。

在 Ertas Studio 中進行微調，Phi-3 Mini 使用 QLoRA 僅需 4-6GB VRAM，Phi-3 Small 需要 6-10GB，Phi-3 Medium 需要 10-14GB。這些低需求使整個 Phi-3 家族對沒有專用硬體的個人開發者和小型團隊都易於取得。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →