Fine-Tune Phi-4 with Ertas

    Microsoft 的 140 億參數小型語言模型,透過合成資料訓練強調推理品質,在數學和邏輯基準測試上達到與數倍於其規格的模型相競爭的效能。

    14BMicrosoft

    Overview

    Phi-4 是 Microsoft 在 Phi 小型語言模型系列中的最新成員,於 2024 年 12 月發布。擁有 140 億參數的 Phi-4 專門設計用於在模型規格內最大化推理能力。Microsoft 透過大量強調合成資料的訓練方法實現了這一目標——精心生成的訓練範例針對特定的推理模式、數學問題解決和邏輯推演。

    模型在其規格級別中展現了出色的基準效能。在 MATH 和 GSM8K 等數學推理基準測試上,Phi-4 與 70B 以上參數量的模型競爭,甚至接近某些前沿模型。這使其在需要強推理但運算資源有限的應用中特別有價值。

    Phi-4 使用具有 40 層、5120 隱藏維度和 40 個注意力頭的密集 Transformer 架構。支援 16K token 的上下文視窗,使用具有 100K 詞彙量的 tiktoken 分詞器。架構包含 RoPE 位置嵌入和分組查詢注意力等標準現代特性。

    模型以 MIT 授權發布,使其成為最寬鬆授權的高品質模型之一。這促進了在研究和商業應用中的廣泛採用,特別是在需要結構化推理的領域。

    Key Features

    Phi-4 的突出特色是其推理能力,透過 Microsoft 創新的合成資料訓練管線實現。訓練資料不僅依賴網路爬取的文本,還包括數百萬合成生成的問答對、逐步數學證明、邏輯謎題和程式碼推理軌跡。這種有針對性的訓練方法產生了一個比主要在自然文本上訓練的模型推理更可靠的模型。

    模型在結構化任務上展現了特別強的效能:數學問題解決、帶有邏輯約束的程式碼生成、科學推理和形式邏輯。在 MATH 基準測試上,Phi-4 達到了與 GPT-4 Turbo 相媲美的分數,儘管參數量大約小 100 倍。

    Phi-4 與 Phi-3 相比也展現了改進的指令跟隨能力,更好地遵循輸出格式要求、更一致地處理多步驟指令,以及減少了幻覺傾向。聊天調校變體有效支援系統提示和多輪對話。

    Fine-Tuning with Ertas

    Phi-4 是 Ertas Studio 中微調的出色候選,特別適合需要特定領域推理的應用。14B 參數使其處於最佳位置——大到足以捕捉複雜模式,但小到足以在單張 24GB GPU 上進行高效的 QLoRA 訓練。使用 4 位量化,微調需要約 10-14GB VRAM,可在 RTX 4090、RTX 3090 或 A5000 上實現。

    在 Ertas Studio 中,上傳您以推理為重點的資料集(思維鏈範例與 Phi-4 配合特別好),選擇模型並配置 LoRA 參數。模型對推理任務的較低 LoRA rank(8-32)反應良好,保持適配器規格小且訓練快速。在單張 GPU 上 10,000 個範例的典型微調執行在 1-2 小時內完成。

    訓練後,匯出為 GGUF 格式。Phi-4 的 14B 規格量化效率高——在 Q4_K_M 下,產生的模型約 8.5GB,小到可在筆記型電腦上執行。這使 Phi-4 非常適合建立可在任何地方部署而無需雲端依賴的專用推理模型。

    Use Cases

    Phi-4 在需要結構化推理的應用中表現出色:數學輔導系統、科學分析工具、程式碼審查和除錯助手以及決策支援系統。其在邏輯任務上的強勁效能使其特別適合基於規則的處理、合規性檢查和結構化資料提取。

    模型是教育科技應用的絕佳選擇,其中逐步問題解決說明很有價值。微調後的 Phi-4 可以作為數學家教、科學解說者或程式設計講師,提供幫助使用者理解解題過程的詳細推理軌跡。

    對於企業部署,Phi-4 提供了強推理與可管理資源需求的引人注目的組合。它非常適合需要邏輯推論的文件分析管線、帶有資料驅動結論的自動化報告生成,以及需要驗證邏輯一致性的品質保證工作流程。

    Hardware Requirements

    Phi-4 在 Q4_K_M 量化下需要約 8.5GB RAM,可在配備 16GB RAM 的系統、大多數配備 10GB 以上 VRAM 的現代 GPU 和搭載 16GB 統一記憶體的 Apple Silicon Mac 上舒適執行。在 Q8_0 下預計約 15GB,在 24GB GPU 或 32GB 系統上仍可管理。

    完整 FP16 推論需要約 28GB VRAM,適合單張 A6000 48GB 或 A100 40GB。消費級硬體上的推論速度出色——在 RTX 4090 上使用 Q4_K_M 預計每秒 30-50 個 token,在搭載 32GB RAM 的 M2 Pro MacBook 上每秒 10-20 個 token。

    在 Ertas Studio 中使用 QLoRA 進行微調,12-16GB VRAM 即足夠(RTX 4070 Ti、RTX 4080、RTX 4090)。完整 LoRA 微調需要約 20-24GB VRAM。模型的適中規格允許在微調過程中快速迭代。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.