微調 Phi-4：Microsoft 最佳企業任務小型模型

Microsoft 的 Phi-4 是一個 14B 參數模型，在 MATH 基準測試上得分 84.8%——高於 GPT-4 在同一測試上的 84.3%。這是一個小到足以在單個消費者 GPU 上運行的模型，卻在數學推理上超越了萬億參數模型。

但真正的故事不是基準測試數字。而是當你針對企業任務微調 Phi-4 時發生的事情：分類、提取、結構化輸出和領域特定推理。Phi-4 的架構是以資料品質而非資料數量為建構基礎——Microsoft 在精心篩選的合成和過濾的網路資料上訓練它，而不是強行使用萬億 token。這種設計哲學使它對微調的響應性異常出色。

以下是針對企業工作負載微調 Phi-4 的完整指南，包括 VRAM 要求、量化選項、訓練配置和基準比較。

為何選擇 Phi-4 用於企業

Phi-4 在模型領域佔據獨特位置。在 14B 參數時，它比主導微調領域的 7B 模型大，但比需要多 GPU 設置的 70B 以上模型小得多。這個中間地帶對企業部署很重要。

該模型的優勢直接映射到企業任務：

數學推理：MATH 上 84.8%，GSM8K 上 93.2%。如果你的任務涉及數字——財務計算、統計分析、指標計算——Phi-4 以驚人的準確率處理它。
結構化輸出：Phi-4 生成有效 JSON、XML 和結構化格式比其大小的大多數模型更可靠。在我們的測試中，它開箱即用就達到 96% 的 JSON schema 合規率，相比之下 Llama 3.3 8B 為 89%，Qwen 2.5 7B 為 91%。
指令遵循：模型很好地追蹤多部分指令。當你說「提取這 5 個字段，格式化為 JSON，並標記任何缺失值」時，它精確執行，不會遺漏步驟。
代碼生成：HumanEval 上的強大性能（82.6%）使其對代碼相關的企業任務很有用，如日誌解析、正則表達式生成和資料轉換腳本。

Phi-4 的弱點在哪裡：創意寫作、很長的生成（輸出超過 2,000 token 後它開始失去連貫性），以及某些非英語語言。對於多語言任務，Qwen 2.5 是更好的基礎模型。對於純文本生成，Llama 3.3 產生更自然的散文。

硬體要求

推理

量化	模型大小	所需 VRAM	Token/s（RTX 4090）	Token/s（RTX 3090）
FP16	28 GB	約 32 GB	45 t/s	32 t/s
Q8_0	15 GB	約 18 GB	62 t/s	44 t/s
Q5_K_M	10 GB	約 12 GB	78 t/s	55 t/s
Q4_K_M	8.5 GB	約 10 GB	89 t/s	63 t/s
Q4_0	8 GB	約 9.5 GB	94 t/s	66 t/s

在 Q5_K_M 時，你獲得接近 FP16 的品質，佔用 10 GB。這舒適地適合 RTX 4070 Ti 或任何帶 12 GB 以上 VRAM 的顯卡。對於在專用伺服器上運行推理的企業部署，Q5_K_M 是最佳平衡——與 FP16 相比的品質損失在大多數基準測試上低於 1%。

在 Q4_K_M 時，模型適合在 10 GB VRAM 以下。品質下降稍微多一點（推理基準測試上 1.5-2%），但對於分類和提取任務（其中準確率不依賴於細微推理），Q4_K_M 的表現幾乎與 FP16 相同。

微調

以 FP16 全量微調模型需要約 56 GB VRAM——這是多 GPU 領域。但你不需要全量微調。

QLoRA 要求：

配置	所需 VRAM	訓練速度（500 個範例）
QLoRA（rank 16，4-bit 基礎）	12 GB	約 35 分鐘
QLoRA（rank 32，4-bit 基礎）	14 GB	約 42 分鐘
QLoRA（rank 64，4-bit 基礎）	16 GB	約 55 分鐘
LoRA（rank 16，FP16 基礎）	34 GB	約 25 分鐘

對於大多數企業任務，rank 16 或 32 的 QLoRA 就足夠了。Rank 16 足以進行分類和提取。如果你在微調生成任務（其中輸出多樣性很重要），則提升到 rank 32。

QLoRA 的 12 GB 最低要求意味著你可以在 RTX 4070 Ti、RTX 3080 12GB 或任何帶 12 GB 以上 VRAM 的雲 GPU 上微調 Phi-4。這在大多數雲提供商上是每小時 $0.40 的競價實例。

最佳企業 Phi-4 使用案例

財務文件處理

Phi-4 的數學推理使其在財務任務上表現出色。在 400 個財務報表提取範例上微調後，Phi-4 達到：

從損益表提取行項目 96% 準確率
資產負債表字段提取 94% 準確率
數值計算（總計、百分比、同比變化）98% 準確率

與在同一資料集上微調的 Llama 3.3 8B 相比：分別為 91%、88% 和 89%。當涉及數字時，數學推理給 Phi-4 帶來了明顯優勢。

複雜分類法的分類

企業分類通常涉及有細微差別的 20 個以上類別。Phi-4 比 7B 模型更好地處理深層分類法，因為其更強的推理能力。

在 32 類支援票分類任務上：

模型	準確率	F1 分數
GPT-4o（少樣本）	87%	0.85
Llama 3.3 8B（微調，500 個範例）	89%	0.87
Qwen 2.5 7B（微調，500 個範例）	88%	0.86
Phi-4 14B（微調，500 個範例）	94%	0.93

隨著類別數量的增加，差距擴大。對於簡單的 3-5 類分類，任何模型都可以。對於複雜的分類法，Phi-4 中的額外參數有所幫助。

結構化資料提取

從非結構化文本中提取結構化資料——發票、合約、電子郵件、報告——是最高價值的企業 AI 任務之一。Phi-4 的指令遵循能力意味著它可靠地追蹤複雜的提取 schema。

在 300 個合約條款提取範例上微調後（從法律文本中提取當事人名稱、日期、義務、條件和罰款）：

Phi-4：93% 字段級準確率，97% JSON 有效性
Llama 3.3 8B：86% 字段級準確率，94% JSON 有效性
Qwen 2.5 7B：85% 字段級準確率，93% JSON 有效性

代碼相關任務

日誌解析、錯誤分類、從自然語言生成 SQL，以及 API 響應轉換。Phi-4 的代碼訓練使其成為自然之選。

在日誌到結構化事件提取任務上（500 個訓練範例）：

Phi-4：95% 準確率，Q5_K_M 時 42 t/s
Llama 3.3 8B：88% 準確率，Q5_K_M 時 58 t/s

Phi-4 每個 token 較慢（它幾乎是兩倍的參數），但準確率明顯更高。對於延遲不關鍵的批次處理，準確率提升是值得的。

使用 Ertas 微調 Phi-4

第一步：準備資料集

將訓練資料格式化為指令-輸入-輸出對。對於企業任務，這通常如下所示：

{
  "instruction": "從此發票文本中提取以下字段：vendor_name、invoice_number、date、line_items（數組）、subtotal、tax、total。返回有效 JSON。",
  "input": "發票 #4892\n來自：Acme Industrial Supply\n日期：2026年2月14日\n\nWidget A（數量 50）@ $12.00 = $600.00\nWidget B（數量 25）@ $8.50 = $212.50\n\n小計：$812.50\n稅（8.5%）：$69.06\n總計：$881.56",
  "output": "{\"vendor_name\": \"Acme Industrial Supply\", \"invoice_number\": \"4892\", \"date\": \"2026-02-14\", \"line_items\": [{\"description\": \"Widget A\", \"quantity\": 50, \"unit_price\": 12.00, \"total\": 600.00}, {\"description\": \"Widget B\", \"quantity\": 25, \"unit_price\": 8.50, \"total\": 212.50}], \"subtotal\": 812.50, \"tax\": 69.06, \"total\": 881.56}"
}

目標是 300-500 個範例。對於 Phi-4 特別地，注重品質而非數量——模型對乾淨、一致的訓練資料響應良好。300 個高品質範例通常優於 1,000 個嘈雜的範例。

第二步：上傳和配置

將 JSONL 資料集上傳到 Ertas，並選擇 Phi-4 14B 作為基礎模型。推薦的訓練配置：

LoRA rank：分類/提取用 16，生成用 32
學習率：2e-4
Epochs：3-4（Phi-4 學習快；超過 5 個 epoch 有過擬合風險）
批次大小：4（根據可用 VRAM 自動調整）
最大序列長度：2048（如果輸入較長則增加到 4096）

第三步：訓練和評估

點擊開始。Phi-4 上典型的 500 個範例訓練任務根據序列長度和 LoRA rank 需要 35-55 分鐘完成。Ertas 自動在保留的驗證集上運行評估，並報告準確率、損失曲線和範例輸出。

注意過擬合：如果在第 2-3 個 epoch 之後驗證損失開始增加而訓練損失繼續下降，請減少 epochs。Phi-4 學習模式很快。

第四步：匯出為 GGUF

將你的微調模型匯出為 GGUF 文件。對於企業部署，你通常需要兩個版本：

Q5_K_M 用於品質重要的生產使用（10 GB）
Q4_K_M 用於開發/測試或低 VRAM 部署（8.5 GB）

Ertas 自動處理合併（基礎模型 + LoRA 適配器）和量化。

第五步：部署

將 GGUF 加載到推理伺服器上的 Ollama、LM Studio 或 llama.cpp 中。對於企業部署，帶有簡單 Docker 容器的 Ollama 是最易維護的設置：

ollama create phi4-enterprise -f Modelfile
ollama run phi4-enterprise

將你的應用程式指向 Ollama API 端點。你的微調 Phi-4 現在在本地提供請求，沒有 API 依賴。

量化建議

對於企業 Phi-4 部署，以下是每個量化級別在結構化提取任務上的表現（300 個測試範例）：

量化	準確率	JSON 有效性	Token/s（RTX 4090）	模型大小
FP16	93.2%	97.0%	45 t/s	28 GB
Q8_0	93.0%	97.0%	62 t/s	15 GB
Q5_K_M	92.8%	96.8%	78 t/s	10 GB
Q4_K_M	92.1%	96.2%	89 t/s	8.5 GB
Q4_0	91.4%	95.5%	94 t/s	8 GB

Q5_K_M 與 FP16 相比只損失 0.4% 準確率，同時快 73% 且小 64%。這是任何重視準確率的部署的默認推薦。

Q4_K_M 對大多數生產使用案例是可接受的——92.1% vs 93.2% 是微小差異，你又節省了 1.5 GB VRAM。如果你在恰好 10-12 GB VRAM 的硬體上部署，Q4_K_M 給你更多上下文的餘量。

Phi-4 與競爭對手

以下是企業微調的直接比較，所有模型都在同一個 500 個範例的發票提取資料集上訓練：

指標	Phi-4 14B	Llama 3.3 8B	Qwen 2.5 7B	Qwen 2.5 14B
字段提取準確率	93%	86%	85%	91%
JSON schema 合規率	97%	94%	93%	96%
數值準確率	98%	89%	87%	93%
推理速度（Q5_K_M）	78 t/s	112 t/s	118 t/s	74 t/s
Q5_K_M 時 VRAM	10 GB	5.5 GB	5 GB	10 GB
訓練時間（QLoRA）	42 分鐘	22 分鐘	20 分鐘	40 分鐘

Phi-4 在各指標上都獲勝，特別是在數值任務上。權衡是速度和 VRAM——它大約是 7B 模型大小的兩倍。Qwen 2.5 14B 在準確率上接近，但 Phi-4 在數學密集型任務上仍然超越它。

如果你的企業任務主要是基於文本的（沒有數學），Llama 3.3 8B 以一半的 VRAM 是合理的選擇。如果涉及數字、計算或帶數值字段的結構化資料，Phi-4 值得額外的資源。

部署規模調整

對於處理不同請求量的企業部署：

每日請求	推薦設置	每月成本（雲端）
1,000-5,000	單個 RTX 4070 Ti（12 GB）	$30-50/月 VPS
5,000-20,000	單個 RTX 4090（24 GB）	$80-120/月 VPS
20,000-100,000	帶負載均衡的 2 個 RTX 4090	$160-240/月
超過 100,000	vLLM on A100 用於批次推理	$400-800/月

在每個層級，這都是相當於 API 成本的一小部分。每天 20,000 次通過 GPT-4o 的請求根據任務複雜性每月花費約 $2,100-7,200。同樣的工作負載在微調的 Phi-4 上每月花費 $80-120。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →