Fine-Tune Phi-4 with Ertas
Microsoft 的 140 億參數小型語言模型,透過合成資料訓練強調推理品質,在數學和邏輯基準測試上達到與數倍於其規格的模型相競爭的效能。
Overview
Phi-4 是 Microsoft 在 Phi 小型語言模型系列中的最新成員,於 2024 年 12 月發布。擁有 140 億參數的 Phi-4 專門設計用於在模型規格內最大化推理能力。Microsoft 透過大量強調合成資料的訓練方法實現了這一目標——精心生成的訓練範例針 對特定的推理模式、數學問題解決和邏輯推演。
模型在其規格級別中展現了出色的基準效能。在 MATH 和 GSM8K 等數學推理基準測試上,Phi-4 與 70B 以上參數量的模型競爭,甚至接近某些前沿模型。這使其在需要強推理但運算資源有限的應用中特別有價值。
Phi-4 使用具有 40 層、5120 隱藏維度和 40 個注意力頭的密集 Transformer 架構。支援 16K token 的上下文視窗,使用具有 100K 詞彙量的 tiktoken 分詞器。架構包含 RoPE 位置嵌入和分組查詢注意力等標準現代特性。
模型以 MIT 授權發布,使其成為最寬鬆授權的高品質模型之一。這促進了在研究和商業應用中的廣泛採用,特別是在需要結構化推理的領域。
Key Features
Phi-4 的突出特色是其推理能力,透過 Microsoft 創新的合成資料訓練管線實現。訓練資料不僅依賴網路爬取的文本,還包括數百萬合成生成的問答對、逐步數學證明、邏輯謎題和程式碼推理軌跡。這種有針對性的訓練方法產生了一個比主要在自然文本上訓練的模型推理更可靠的模型。
模型在結構化任務上展現了特別強的效能:數學問題解決、帶有邏輯約束的程式碼生成、科學推理和形式邏輯。在 MATH 基準測試上,Phi-4 達到了與 GPT-4 Turbo 相媲美的分數,儘管參數量大約小 100 倍。
Phi-4 與 Phi-3 相比也展現了改進的指令跟隨能力,更好地遵循輸出格式要求、更一致地處理多步驟指令,以及減少了幻覺傾向。聊天調校變體有效支援系統提示和多輪對話。
Fine-Tuning with Ertas
Phi-4 是 Ertas Studio 中微調的出色候選,特別適合需要特定領域推理的應用。14B 參數使其處於最佳位置——大到足以捕捉複雜模式,但小到足以在單張 24GB GPU 上進行高效的 QLoRA 訓練。使用 4 位量化,微調需要約 10-14GB VRAM,可在 RTX 4090、RTX 3090 或 A5000 上實現。
在 Ertas Studio 中,上傳您以推理為重點的資料集(思維鏈範例與 Phi-4 配合特別好),選擇模型並配置 LoRA 參數。模型對推理任務的較低 LoRA rank(8-32)反應良好,保持適配器規格小且訓練快速。在單張 GPU 上 10,000 個範例的典型微調執行在 1-2 小時內完成。
訓練後,匯出為 GGUF 格式。Phi-4 的 14B 規格量化效率高——在 Q4_K_M 下,產生的模型約 8.5GB,小到可在筆記型電腦上執行。這使 Phi-4 非常適合建立可在任何地方部署而無需雲端依賴的專用推理模型。
Use Cases
Phi-4 在需要結構化推理的應用中表現出色:數學輔導系統、科學分析工具、程式碼審查和除錯助手以及決策支援系統。其在邏輯任務上的強勁效能使其特別適合基於規則的處理、合規性檢查和結構化資料提取。
模型是教育科技應用的絕佳選擇,其中逐步問題解決說明很有價值。微調後的 Phi-4 可以作為數學家教、科學解說者或程式設計講師,提供幫助使用者理解解題過程的詳細推理軌跡。