Back to blog
    微調 Phi-4:Microsoft 最佳企業任務小型模型
    phi-4microsoftfine-tuningenterpriseslmsegment:developer

    微調 Phi-4:Microsoft 最佳企業任務小型模型

    Phi-4 14B 在數學基準上超越 GPT-4,同時在本地硬體上運行速度快 15 倍。以下是如何針對分類、提取和結構化輸出任務進行微調的指南。

    EErtas Team·

    Microsoft 的 Phi-4 是一個 14B 參數模型,在 MATH 基準測試上得分 84.8%——高於 GPT-4 在同一測試上的 84.3%。這是一個小到足以在單個消費者 GPU 上運行的模型,卻在數學推理上超越了萬億參數模型。

    但真正的故事不是基準測試數字。而是當你針對企業任務微調 Phi-4 時發生的事情:分類、提取、結構化輸出和領域特定推理。Phi-4 的架構是以資料品質而非資料數量為建構基礎——Microsoft 在精心篩選的合成和過濾的網路資料上訓練它,而不是強行使用萬億 token。這種設計哲學使它對微調的響應性異常出色。

    以下是針對企業工作負載微調 Phi-4 的完整指南,包括 VRAM 要求、量化選項、訓練配置和基準比較。

    為何選擇 Phi-4 用於企業

    Phi-4 在模型領域佔據獨特位置。在 14B 參數時,它比主導微調領域的 7B 模型大,但比需要多 GPU 設置的 70B 以上模型小得多。這個中間地帶對企業部署很重要。

    該模型的優勢直接映射到企業任務:

    • 數學推理:MATH 上 84.8%,GSM8K 上 93.2%。如果你的任務涉及數字——財務計算、統計分析、指標計算——Phi-4 以驚人的準確率處理它。
    • 結構化輸出:Phi-4 生成有效 JSON、XML 和結構化格式比其大小的大多數模型更可靠。在我們的測試中,它開箱即用就達到 96% 的 JSON schema 合規率,相比之下 Llama 3.3 8B 為 89%,Qwen 2.5 7B 為 91%。
    • 指令遵循:模型很好地追蹤多部分指令。當你說「提取這 5 個字段,格式化為 JSON,並標記任何缺失值」時,它精確執行,不會遺漏步驟。
    • 代碼生成:HumanEval 上的強大性能(82.6%)使其對代碼相關的企業任務很有用,如日誌解析、正則表達式生成和資料轉換腳本。

    Phi-4 的弱點在哪裡:創意寫作、很長的生成(輸出超過 2,000 token 後它開始失去連貫性),以及某些非英語語言。對於多語言任務,Qwen 2.5 是更好的基礎模型。對於純文本生成,Llama 3.3 產生更自然的散文。

    硬體要求

    推理

    量化模型大小所需 VRAMToken/s(RTX 4090)Token/s(RTX 3090)
    FP1628 GB約 32 GB45 t/s32 t/s
    Q8_015 GB約 18 GB62 t/s44 t/s
    Q5_K_M10 GB約 12 GB78 t/s55 t/s
    Q4_K_M8.5 GB約 10 GB89 t/s63 t/s
    Q4_08 GB約 9.5 GB94 t/s66 t/s

    在 Q5_K_M 時,你獲得接近 FP16 的品質,佔用 10 GB。這舒適地適合 RTX 4070 Ti 或任何帶 12 GB 以上 VRAM 的顯卡。對於在專用伺服器上運行推理的企業部署,Q5_K_M 是最佳平衡——與 FP16 相比的品質損失在大多數基準測試上低於 1%。

    在 Q4_K_M 時,模型適合在 10 GB VRAM 以下。品質下降稍微多一點(推理基準測試上 1.5-2%),但對於分類和提取任務(其中準確率不依賴於細微推理),Q4_K_M 的表現幾乎與 FP16 相同。

    微調

    以 FP16 全量微調模型需要約 56 GB VRAM——這是多 GPU 領域。但你不需要全量微調。

    QLoRA 要求:

    配置所需 VRAM訓練速度(500 個範例)
    QLoRA(rank 16,4-bit 基礎)12 GB約 35 分鐘
    QLoRA(rank 32,4-bit 基礎)14 GB約 42 分鐘
    QLoRA(rank 64,4-bit 基礎)16 GB約 55 分鐘
    LoRA(rank 16,FP16 基礎)34 GB約 25 分鐘

    對於大多數企業任務,rank 16 或 32 的 QLoRA 就足夠了。Rank 16 足以進行分類和提取。如果你在微調生成任務(其中輸出多樣性很重要),則提升到 rank 32。

    QLoRA 的 12 GB 最低要求意味著你可以在 RTX 4070 Ti、RTX 3080 12GB 或任何帶 12 GB 以上 VRAM 的雲 GPU 上微調 Phi-4。這在大多數雲提供商上是每小時 $0.40 的競價實例。

    最佳企業 Phi-4 使用案例

    財務文件處理

    Phi-4 的數學推理使其在財務任務上表現出色。在 400 個財務報表提取範例上微調後,Phi-4 達到:

    • 從損益表提取行項目 96% 準確率
    • 資產負債表字段提取 94% 準確率
    • 數值計算(總計、百分比、同比變化)98% 準確率

    與在同一資料集上微調的 Llama 3.3 8B 相比:分別為 91%、88% 和 89%。當涉及數字時,數學推理給 Phi-4 帶來了明顯優勢。

    複雜分類法的分類

    企業分類通常涉及有細微差別的 20 個以上類別。Phi-4 比 7B 模型更好地處理深層分類法,因為其更強的推理能力。

    在 32 類支援票分類任務上:

    模型準確率F1 分數
    GPT-4o(少樣本)87%0.85
    Llama 3.3 8B(微調,500 個範例)89%0.87
    Qwen 2.5 7B(微調,500 個範例)88%0.86
    Phi-4 14B(微調,500 個範例)94%0.93

    隨著類別數量的增加,差距擴大。對於簡單的 3-5 類分類,任何模型都可以。對於複雜的分類法,Phi-4 中的額外參數有所幫助。

    結構化資料提取

    從非結構化文本中提取結構化資料——發票、合約、電子郵件、報告——是最高價值的企業 AI 任務之一。Phi-4 的指令遵循能力意味著它可靠地追蹤複雜的提取 schema。

    在 300 個合約條款提取範例上微調後(從法律文本中提取當事人名稱、日期、義務、條件和罰款):

    • Phi-4:93% 字段級準確率,97% JSON 有效性
    • Llama 3.3 8B:86% 字段級準確率,94% JSON 有效性
    • Qwen 2.5 7B:85% 字段級準確率,93% JSON 有效性

    代碼相關任務

    日誌解析、錯誤分類、從自然語言生成 SQL,以及 API 響應轉換。Phi-4 的代碼訓練使其成為自然之選。

    在日誌到結構化事件提取任務上(500 個訓練範例):

    • Phi-4:95% 準確率,Q5_K_M 時 42 t/s
    • Llama 3.3 8B:88% 準確率,Q5_K_M 時 58 t/s

    Phi-4 每個 token 較慢(它幾乎是兩倍的參數),但準確率明顯更高。對於延遲不關鍵的批次處理,準確率提升是值得的。

    使用 Ertas 微調 Phi-4

    第一步:準備資料集

    將訓練資料格式化為指令-輸入-輸出對。對於企業任務,這通常如下所示:

    {
      "instruction": "從此發票文本中提取以下字段:vendor_name、invoice_number、date、line_items(數組)、subtotal、tax、total。返回有效 JSON。",
      "input": "發票 #4892\n來自:Acme Industrial Supply\n日期:2026年2月14日\n\nWidget A(數量 50)@ $12.00 = $600.00\nWidget B(數量 25)@ $8.50 = $212.50\n\n小計:$812.50\n稅(8.5%):$69.06\n總計:$881.56",
      "output": "{\"vendor_name\": \"Acme Industrial Supply\", \"invoice_number\": \"4892\", \"date\": \"2026-02-14\", \"line_items\": [{\"description\": \"Widget A\", \"quantity\": 50, \"unit_price\": 12.00, \"total\": 600.00}, {\"description\": \"Widget B\", \"quantity\": 25, \"unit_price\": 8.50, \"total\": 212.50}], \"subtotal\": 812.50, \"tax\": 69.06, \"total\": 881.56}"
    }

    目標是 300-500 個範例。對於 Phi-4 特別地,注重品質而非數量——模型對乾淨、一致的訓練資料響應良好。300 個高品質範例通常優於 1,000 個嘈雜的範例。

    第二步:上傳和配置

    將 JSONL 資料集上傳到 Ertas,並選擇 Phi-4 14B 作為基礎模型。推薦的訓練配置:

    • LoRA rank:分類/提取用 16,生成用 32
    • 學習率:2e-4
    • Epochs:3-4(Phi-4 學習快;超過 5 個 epoch 有過擬合風險)
    • 批次大小:4(根據可用 VRAM 自動調整)
    • 最大序列長度:2048(如果輸入較長則增加到 4096)

    第三步:訓練和評估

    點擊開始。Phi-4 上典型的 500 個範例訓練任務根據序列長度和 LoRA rank 需要 35-55 分鐘完成。Ertas 自動在保留的驗證集上運行評估,並報告準確率、損失曲線和範例輸出。

    注意過擬合:如果在第 2-3 個 epoch 之後驗證損失開始增加而訓練損失繼續下降,請減少 epochs。Phi-4 學習模式很快。

    第四步:匯出為 GGUF

    將你的微調模型匯出為 GGUF 文件。對於企業部署,你通常需要兩個版本:

    • Q5_K_M 用於品質重要的生產使用(10 GB)
    • Q4_K_M 用於開發/測試或低 VRAM 部署(8.5 GB)

    Ertas 自動處理合併(基礎模型 + LoRA 適配器)和量化。

    第五步:部署

    將 GGUF 加載到推理伺服器上的 Ollama、LM Studio 或 llama.cpp 中。對於企業部署,帶有簡單 Docker 容器的 Ollama 是最易維護的設置:

    ollama create phi4-enterprise -f Modelfile
    ollama run phi4-enterprise

    將你的應用程式指向 Ollama API 端點。你的微調 Phi-4 現在在本地提供請求,沒有 API 依賴。

    量化建議

    對於企業 Phi-4 部署,以下是每個量化級別在結構化提取任務上的表現(300 個測試範例):

    量化準確率JSON 有效性Token/s(RTX 4090)模型大小
    FP1693.2%97.0%45 t/s28 GB
    Q8_093.0%97.0%62 t/s15 GB
    Q5_K_M92.8%96.8%78 t/s10 GB
    Q4_K_M92.1%96.2%89 t/s8.5 GB
    Q4_091.4%95.5%94 t/s8 GB

    Q5_K_M 與 FP16 相比只損失 0.4% 準確率,同時快 73% 且小 64%。這是任何重視準確率的部署的默認推薦。

    Q4_K_M 對大多數生產使用案例是可接受的——92.1% vs 93.2% 是微小差異,你又節省了 1.5 GB VRAM。如果你在恰好 10-12 GB VRAM 的硬體上部署,Q4_K_M 給你更多上下文的餘量。

    Phi-4 與競爭對手

    以下是企業微調的直接比較,所有模型都在同一個 500 個範例的發票提取資料集上訓練:

    指標Phi-4 14BLlama 3.3 8BQwen 2.5 7BQwen 2.5 14B
    字段提取準確率93%86%85%91%
    JSON schema 合規率97%94%93%96%
    數值準確率98%89%87%93%
    推理速度(Q5_K_M)78 t/s112 t/s118 t/s74 t/s
    Q5_K_M 時 VRAM10 GB5.5 GB5 GB10 GB
    訓練時間(QLoRA)42 分鐘22 分鐘20 分鐘40 分鐘

    Phi-4 在各指標上都獲勝,特別是在數值任務上。權衡是速度和 VRAM——它大約是 7B 模型大小的兩倍。Qwen 2.5 14B 在準確率上接近,但 Phi-4 在數學密集型任務上仍然超越它。

    如果你的企業任務主要是基於文本的(沒有數學),Llama 3.3 8B 以一半的 VRAM 是合理的選擇。如果涉及數字、計算或帶數值字段的結構化資料,Phi-4 值得額外的資源。

    部署規模調整

    對於處理不同請求量的企業部署:

    每日請求推薦設置每月成本(雲端)
    1,000-5,000單個 RTX 4070 Ti(12 GB)$30-50/月 VPS
    5,000-20,000單個 RTX 4090(24 GB)$80-120/月 VPS
    20,000-100,000帶負載均衡的 2 個 RTX 4090$160-240/月
    超過 100,000vLLM on A100 用於批次推理$400-800/月

    在每個層級,這都是相當於 API 成本的一小部分。每天 20,000 次通過 GPT-4o 的請求根據任務複雜性每月花費約 $2,100-7,200。同樣的工作負載在微調的 Phi-4 上每月花費 $80-120。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading