
微調 Phi-4:Microsoft 最佳企業任務小型模型
Phi-4 14B 在數學基準上超越 GPT-4,同時在本地硬體上運行速度快 15 倍。以下是如何針對分類、提取和結構化輸出任務進行微調的指南。
Microsoft 的 Phi-4 是一個 14B 參數模型,在 MATH 基準測試上得分 84.8%——高於 GPT-4 在同一測試上的 84.3%。這是一個小到足以在單個消費者 GPU 上運行的模型,卻在數學推理上超越了萬億參數模型。
但真正的故事不是基準測試數字。而是當你針對企業任務微調 Phi-4 時發生的事情:分類、提取、結構化輸出和領域特定推理。Phi-4 的架構是以資料品質而非資料數量為建構基礎——Microsoft 在精心篩選的合成和過濾的網路資料上訓練它,而不是強行使用萬億 token。這種設計哲學使它對微調的響應性異常出色。
以下是針對企業工作負載微調 Phi-4 的完整指南,包括 VRAM 要求、量化選項、訓練配置和基準比較。
為何選擇 Phi-4 用於企業
Phi-4 在模型領域佔據獨特位置。在 14B 參數時,它比主導微調領域的 7B 模型大,但比需要多 GPU 設置的 70B 以上模型小得多。這個中間地帶對企業部署很重要。
該模型的優勢直接映射到企業任務:
- 數學推理:MATH 上 84.8%,GSM8K 上 93.2%。如果你的任務涉及數字——財務計算、統計分析、指標計算——Phi-4 以驚人的準確率處理它。
- 結構化輸出:Phi-4 生成有效 JSON、XML 和結構化格式比其大小的大多數模型更可靠。在我們的測試中,它開箱即用就達到 96% 的 JSON schema 合規率,相比之下 Llama 3.3 8B 為 89%,Qwen 2.5 7B 為 91%。
- 指令遵循:模型很好地追蹤多部分指令。當你說「提取這 5 個字段,格式化為 JSON,並標記任何缺失值」時,它精確執行,不會遺漏步驟。
- 代碼生成:HumanEval 上的強大性能(82.6%)使其對代碼相關的企業任務很有用,如日誌解析、正則表達式生成和資料轉換腳本。
Phi-4 的弱點在哪裡:創意寫作、很長的生成(輸出超過 2,000 token 後它開始失去連貫性),以及某些非英語語言。對於多語言任務,Qwen 2.5 是更好的基礎模型。對於純文本生成,Llama 3.3 產生更自然的散文。
硬體要求
推理
| 量化 | 模型大小 | 所需 VRAM | Token/s(RTX 4090) | Token/s(RTX 3090) |
|---|---|---|---|---|
| FP16 | 28 GB | 約 32 GB | 45 t/s | 32 t/s |
| Q8_0 | 15 GB | 約 18 GB | 62 t/s | 44 t/s |
| Q5_K_M | 10 GB | 約 12 GB | 78 t/s | 55 t/s |
| Q4_K_M | 8.5 GB | 約 10 GB | 89 t/s | 63 t/s |
| Q4_0 | 8 GB | 約 9.5 GB | 94 t/s | 66 t/s |
在 Q5_K_M 時,你獲得接近 FP16 的品質,佔用 10 GB。這舒適地適合 RTX 4070 Ti 或任何帶 12 GB 以上 VRAM 的顯卡。對於在專用伺服器上運行推理的企業部署,Q5_K_M 是最佳平衡——與 FP16 相比的品質損失在大多數基準測試上低於 1%。
在 Q4_K_M 時,模型適合在 10 GB VRAM 以下。品質下降稍微多一點(推理基準測試上 1.5-2%),但對於分類和提取任務(其中準確率不依賴於細微推理),Q4_K_M 的表現幾乎與 FP16 相同。
微調
以 FP16 全量微調模型需要約 56 GB VRAM——這是多 GPU 領域。但你不需要全量微調。
QLoRA 要求:
| 配置 | 所需 VRAM | 訓練速度(500 個範例) |
|---|---|---|
| QLoRA(rank 16,4-bit 基礎) | 12 GB | 約 35 分鐘 |
| QLoRA(rank 32,4-bit 基礎) | 14 GB | 約 42 分鐘 |
| QLoRA(rank 64,4-bit 基礎) | 16 GB | 約 55 分鐘 |
| LoRA(rank 16,FP16 基礎) | 34 GB | 約 25 分鐘 |
對於大多數企業任務,rank 16 或 32 的 QLoRA 就足夠了。Rank 16 足以進行分類和提取。如果你在微調生成任務(其中輸出多樣性很重要),則提升到 rank 32。
QLoRA 的 12 GB 最低要求意味著你可以在 RTX 4070 Ti、RTX 3080 12GB 或任何帶 12 GB 以上 VRAM 的雲 GPU 上微調 Phi-4。這在大多數雲提供商上是每小時 $0.40 的競價實例。
最佳企業 Phi-4 使用案例
財務文件處理
Phi-4 的數學推理使其在財務任務上表現出色。在 400 個財務報表提取範例上微調後,Phi-4 達到:
- 從損益表提取行項目 96% 準確率
- 資產負債表字段提取 94% 準確率
- 數值計算(總計、百分比、同比變化)98% 準確率
與在同一資料集上微調的 Llama 3.3 8B 相比:分別為 91%、88% 和 89%。當涉及數字時,數學推理給 Phi-4 帶來了明顯優勢。
複雜分類法的分類
企業分類通常涉及有細微差別的 20 個以上類別。Phi-4 比 7B 模型更好地處理深層分類法,因為其更強的推理能力。
在 32 類支援票分類任務上:
| 模型 | 準確率 | F1 分數 |
|---|---|---|
| GPT-4o(少樣本) | 87% | 0.85 |
| Llama 3.3 8B(微調,500 個範例) | 89% | 0.87 |
| Qwen 2.5 7B(微調,500 個範例) | 88% | 0.86 |
| Phi-4 14B(微調,500 個範例) | 94% | 0.93 |
隨著類別數量的增加,差距擴大。對於簡單的 3-5 類分類,任何模型都可以。對於複雜的分類法,Phi-4 中的額外參數有所幫助。
結構化資料提取
從非結構化文本中提取結構化資料——發票、合約、電子郵件、報告——是最高價值的企業 AI 任務之一。Phi-4 的指令遵循能力意味著它可靠地追蹤複雜的提取 schema。
在 300 個合約條款提取範例上微調後(從法律文本中提取當事人名稱、日期、義務、條件和罰款):
- Phi-4:93% 字段級準確率,97% JSON 有效性
- Llama 3.3 8B:86% 字段級準確率,94% JSON 有效性
- Qwen 2.5 7B:85% 字段級準確率,93% JSON 有效性
代碼相關任務
日誌解析、錯誤分類、從自然語言生成 SQL,以及 API 響應轉換。Phi-4 的代碼訓練使其成為自然之選。
在日誌到結構化事件提取任務上(500 個訓練範例):
- Phi-4:95% 準確率,Q5_K_M 時 42 t/s
- Llama 3.3 8B:88% 準確率,Q5_K_M 時 58 t/s
Phi-4 每個 token 較慢(它幾乎是兩倍的參數),但準確率明顯更高。對於延遲不關鍵的批次處理,準確率提升是值得的。
使用 Ertas 微調 Phi-4
第一步:準備資料集
將訓練資料格式化為指令-輸入-輸出對。對於企業任務,這通常如下所示:
{
"instruction": "從此發票文本中提取以下字段:vendor_name、invoice_number、date、line_items(數組)、subtotal、tax、total。返回有效 JSON。",
"input": "發票 #4892\n來自:Acme Industrial Supply\n日期:2026年2月14日\n\nWidget A(數量 50)@ $12.00 = $600.00\nWidget B(數量 25)@ $8.50 = $212.50\n\n小計:$812.50\n稅(8.5%):$69.06\n總計:$881.56",
"output": "{\"vendor_name\": \"Acme Industrial Supply\", \"invoice_number\": \"4892\", \"date\": \"2026-02-14\", \"line_items\": [{\"description\": \"Widget A\", \"quantity\": 50, \"unit_price\": 12.00, \"total\": 600.00}, {\"description\": \"Widget B\", \"quantity\": 25, \"unit_price\": 8.50, \"total\": 212.50}], \"subtotal\": 812.50, \"tax\": 69.06, \"total\": 881.56}"
}
目標是 300-500 個範例。對於 Phi-4 特別地,注重品質而非數量——模型對乾淨、一致的訓練資料響應良好。300 個高品質範例通常優於 1,000 個嘈雜的範例。
第二步:上傳和配置
將 JSONL 資料集上傳到 Ertas,並選擇 Phi-4 14B 作為基礎模型。推薦的訓練配置:
- LoRA rank:分類/提取用 16,生成用 32
- 學習率:2e-4
- Epochs:3-4(Phi-4 學習快;超過 5 個 epoch 有過擬合風險)
- 批次大小:4(根據可用 VRAM 自動調整)
- 最大序列長度:2048(如果輸入較長則增加到 4096)
第三步:訓練和評估
點擊開始。Phi-4 上典型的 500 個範例訓練任務根據序列長度和 LoRA rank 需要 35-55 分鐘完成。Ertas 自動在保留的驗證集上運行評估,並報告準確率、損失曲線和範例輸出。
注意過擬合:如果在第 2-3 個 epoch 之後驗證損失開始增加而訓練損失繼續下降,請減少 epochs。Phi-4 學習模式很快。
第四步:匯出為 GGUF
將你的微調模型匯出為 GGUF 文件。對於企業部署,你通常需要兩個版本:
- Q5_K_M 用於品質重要的生產使用(10 GB)
- Q4_K_M 用於開發/測試或低 VRAM 部署(8.5 GB)
Ertas 自動處理合併(基礎模型 + LoRA 適配器)和量化。
第五步:部署
將 GGUF 加載到推理伺服器上的 Ollama、LM Studio 或 llama.cpp 中。對於企業部署,帶有簡單 Docker 容器的 Ollama 是最易維護的設置:
ollama create phi4-enterprise -f Modelfile
ollama run phi4-enterprise
將你的應用程式指向 Ollama API 端點。你的微調 Phi-4 現在在本地提供請求,沒有 API 依賴。
量化建議
對於企業 Phi-4 部署,以下是每個量化級別在結構化提取任務上的表現(300 個測試範例):
| 量化 | 準確率 | JSON 有效性 | Token/s(RTX 4090) | 模型大小 |
|---|---|---|---|---|
| FP16 | 93.2% | 97.0% | 45 t/s | 28 GB |
| Q8_0 | 93.0% | 97.0% | 62 t/s | 15 GB |
| Q5_K_M | 92.8% | 96.8% | 78 t/s | 10 GB |
| Q4_K_M | 92.1% | 96.2% | 89 t/s | 8.5 GB |
| Q4_0 | 91.4% | 95.5% | 94 t/s | 8 GB |
Q5_K_M 與 FP16 相比只損失 0.4% 準確率,同時快 73% 且小 64%。這是任何重視準確率的部署的默認推薦。
Q4_K_M 對大多數生產使用案例是可接受的——92.1% vs 93.2% 是微小差異,你又節省了 1.5 GB VRAM。如果你在恰好 10-12 GB VRAM 的硬體上部署,Q4_K_M 給你更多上下文的餘量。
Phi-4 與競爭對手
以下是企業微調的直接比較,所有模型都在同一個 500 個範例的發票提取資料集上訓練:
| 指標 | Phi-4 14B | Llama 3.3 8B | Qwen 2.5 7B | Qwen 2.5 14B |
|---|---|---|---|---|
| 字段提取準確率 | 93% | 86% | 85% | 91% |
| JSON schema 合規率 | 97% | 94% | 93% | 96% |
| 數值準確率 | 98% | 89% | 87% | 93% |
| 推理速度(Q5_K_M) | 78 t/s | 112 t/s | 118 t/s | 74 t/s |
| Q5_K_M 時 VRAM | 10 GB | 5.5 GB | 5 GB | 10 GB |
| 訓練時間(QLoRA) | 42 分鐘 | 22 分鐘 | 20 分鐘 | 40 分鐘 |
Phi-4 在各指標上都獲勝,特別是在數值任務上。權衡是速度和 VRAM——它大約是 7B 模型大小的兩倍。Qwen 2.5 14B 在準確率上接近,但 Phi-4 在數學密集型任務上仍然超越它。
如果你的企業任務主要是基於文本的(沒有數學),Llama 3.3 8B 以一半的 VRAM 是合理的選擇。如果涉及數字、計算或帶數值字段的結構化資料,Phi-4 值得額外的資源。
部署規模調整
對於處理不同請求量的企業部署:
| 每日請求 | 推薦設置 | 每月成本(雲端) |
|---|---|---|
| 1,000-5,000 | 單個 RTX 4070 Ti(12 GB) | $30-50/月 VPS |
| 5,000-20,000 | 單個 RTX 4090(24 GB) | $80-120/月 VPS |
| 20,000-100,000 | 帶負載均衡的 2 個 RTX 4090 | $160-240/月 |
| 超過 100,000 | vLLM on A100 用於批次推理 | $400-800/月 |
在每個層級,這都是相當於 API 成本的一小部分。每天 20,000 次通過 GPT-4o 的請求根據任務複雜性每月花費約 $2,100-7,200。同樣的工作負載在微調的 Phi-4 上每月花費 $80-120。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- 小型語言模型 vs GPT-4:完整的成本品質分析 — 跨企業任務比較微調小型模型與前沿 API 的詳細基準測試。
- 2026 年最佳企業小型語言模型 — 如何為你的企業工作負載選擇正確的模型。
- Q4、Q5、Q8 量化指南 — 了解量化等級及其對 模型品質的影響。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning Qwen 2.5 for Multilingual Applications
Qwen 2.5 covers 29 languages with 18 trillion training tokens. Here's how to fine-tune it for multilingual classification, support, and content generation without separate models per language.

Fine-Tuning Gemma 3: Google's Lightweight Model for On-Device Deployment
Gemma 3 is optimized for on-device inference — phones, tablets, edge hardware. Here's how to fine-tune it for mobile AI features and IoT applications that run without a server.

Fine-Tuning for Structured Output: Beyond JSON Mode to Guaranteed Schemas
JSON mode gets you valid JSON. Fine-tuning gets you guaranteed schema compliance — every field, every type, every time. Here's how to train models that output exactly the structure your app expects.