Back to blog
    Phi-4 Mini 行動端:Microsoft 的小型模型在 iOS 和 Android 上的應用
    PhiMicrosoftsmall modelsmobile AIGGUFreasoningsegment:mobile-builder

    Phi-4 Mini 行動端:Microsoft 的小型模型在 iOS 和 Android 上的應用

    Microsoft 的 Phi-4 Mini 在 3.8B 參數中封裝了強大的推理能力,並採用 MIT 授權。它與 Llama 和 Gemma 在行動部署方面的比較,以及何時應該選擇它。

    EErtas Team·

    Microsoft 的 Phi 系列一直以來都表現超出預期。Phi-4 Mini 以 3.8B 參數提供的推理能力,在多項基準測試中可以匹配兩倍大小的模型。再加上 MIT 授權(最寬鬆的授權),對於需要在小型封裝中實現強推理能力的行動開發者來說,它是一個極具吸引力的選擇。

    Phi-4 Mini 規格

    規格數值
    參數量3.8B
    GGUF Q4 大小約 2.2GB
    推論時 RAM約 2.8GB
    上下文視窗128K
    授權條款MIT
    訓練方法合成資料 + 精選網路資料

    什麼讓 Phi 與眾不同

    Phi 模型系列的訓練方式不同於 Llama、Gemma 和 Qwen。Microsoft 使用「教科書品質」的訓練方法:

    1. 合成資料生成: 由較大的模型生成高品質的訓練範例,專門設計用於教導推理模式
    2. 精選網路資料: 經過仔細篩選的網路資料,強調教育性和事實性內容
    3. 資料品質優先於數量: 與使用原始網路爬取訓練的模型相比,使用更少但品質更高的訓練 tokens

    結果是一個推理能力超越其參數量所暗示的模型,特別是在涉及邏輯、數學、程式碼和結構化輸出的任務上。

    基準測試表現

    推理與知識

    基準測試Phi-4 Mini(3.8B)Llama 3.2 3BGemma 3 4B
    MMLU68.563.467.2
    ARC-Challenge62.855.260.1
    GSM8K(數學)78.558.272.4
    HumanEval(程式碼)68.345.658.2

    Phi-4 Mini 在推理密集型基準測試(數學、程式碼)上領先,在知識基準測試(MMLU)上具有競爭力。差距在數學(GSM8K)上最為顯著,Phi-4 Mini 的合成訓練資料提供了明顯的優勢。

    指令遵循

    基準測試Phi-4 MiniLlama 3.2 3BGemma 3 4B
    IFEval79.277.480.1

    在這個尺寸範圍內,指令遵循能力在三個模型中是可比較的。差異在實際應用中處於雜訊範圍內。

    何時 Phi-4 Mini 是正確的選擇

    推理密集型任務

    如果你的 AI 功能涉及邏輯推理、計算或逐步推理,Phi-4 Mini 有明顯的優勢。範例:

    • 財務計算和分析
    • 程式碼生成或解釋
    • 數學輔導
    • 基於邏輯的問答
    • 複雜的結構化輸出(巢狀 JSON、格式化報告)

    結構化輸出

    Phi-4 Mini 產生的結構化輸出比同尺寸的競爭模型更可靠。JSON 生成尤其具有更少的格式錯誤和更好的架構遵循。如果你的應用程式將 AI 輸出解析為結構化資料,這種可靠性很重要。

    授權簡潔性

    MIT 是最寬鬆的開源授權。對商業使用無限制、無月活躍用戶門檻、無競爭性訓練限制。對於法務審查模型授權會產生摩擦的企業團隊,MIT 消除了這個話題。

    何時其他模型更好

    廣泛的裝置覆蓋

    Phi-4 Mini 只有一個適合行動端的尺寸(3.8B)。沒有 1B 的 Phi 模型。如果你需要支援 4GB RAM 的裝置,你必須使用不同的模型系列來覆蓋小型層級(Llama 3.2 1B 或 Qwen 2.5 1.5B)。

    多語言應用

    Phi-4 Mini 的訓練資料偏重英語。對於多語言應用,Qwen 2.5 或 Gemma 3 在非英語語言上提供更好的覆蓋。

    聊天與對話

    對於開放式的對話 AI,Llama 3.2 3B 傾向於產生更自然、更吸引人的回應。Phi-4 Mini 的強項是精確性和正確性,而非對話的溫度。如果你的功能是聊天助手,Llama 可能感覺更自然。

    微調 Phi-4 Mini

    訓練資料格式

    Phi-4 Mini 使用與 ChatML 格式相容的聊天範本:

    <|system|>
    You are a financial analysis assistant.<|end|>
    <|user|>
    Calculate the compound interest on $10,000 at 5% APR over 3 years.<|end|>
    <|assistant|>
    Principal: $10,000
    Rate: 5% annually
    Time: 3 years
    Formula: A = P(1 + r/n)^(nt)
    
    A = 10000(1 + 0.05/1)^(1*3)
    A = 10000(1.05)^3
    A = 10000 * 1.157625
    A = $11,576.25
    
    Total interest earned: $1,576.25<|end|>
    

    LoRA 設定

    參數數值
    LoRA 秩(r)16-64
    LoRA alpha32-128
    學習率1e-4 至 2e-4
    訓練輪數2-4
    目標模組q_proj, v_proj, k_proj, o_proj

    微調效果

    Phi-4 Mini 微調效果良好。其強大的推理基礎意味著模型能快速掌握領域模式:

    任務基礎模型微調後(1K 範例)
    領域分類76%93-96%
    結構化擷取80%94-97%
    領域問答72%90-94%

    結構化輸出的可靠性在基礎模型中已經很強,微調後變得更加出色。

    GGUF 匯出與部署

    Phi-4 Mini 轉換為 GGUF 並在 llama.cpp 上運行,與其他模型系列完全相同。部署流程如下:

    1. 使用 LoRA 微調
    2. 將適配器合併到基礎權重中
    3. 轉換為 GGUF
    4. 量化至 Q4_K_M(約 2.2GB)
    5. 透過 llama.cpp 在 iOS(Metal)和 Android(Vulkan)上部署

    像 Ertas 這樣的平台支援 Phi-4 Mini 作為基礎模型選項。微調和 GGUF 匯出流程與 Llama 或 Gemma 的運作方式相同。

    行動裝置上的效能

    Phi-4 Mini 3.8B(Q4_K_M,約 2.2GB)

    裝置Tokens/秒記憶體
    iPhone 16 Pro(A18 Pro)18-24約 2.8GB
    iPhone 15 Pro(A17 Pro)16-22約 2.8GB
    Galaxy S25(SD 8 Elite,Vulkan)20-26約 2.8GB
    Galaxy S24(SD 8 Gen 3,Vulkan)18-24約 2.8GB
    Pixel 9 Pro(Tensor G4)15-20約 2.8GB

    以 3.8B 參數來說,Phi-4 Mini 比 3B 模型略慢且使用略多的記憶體。差異很小(1-3 tok/s,多約 600MB RAM)。在 8GB+ 旗艦裝置上,這是舒適的。在 6GB 裝置上,記憶體壓力比 3B 模型更緊張。

    最低實用裝置: 8GB RAM 可舒適運行。6GB 可行但為作業系統和其他應用程式留下較少的餘裕。

    實際決策

    選擇 Phi-4 Mini 的情境:

    • 你的任務需要強大的推理能力(數學、邏輯、結構化分析)
    • 你需要高度可靠的結構化輸出(JSON、格式化資料)
    • MIT 授權對你的業務很重要
    • 你的目標裝置是 8GB+ 旗艦機

    選擇 Llama 3.2 的情境:

    • 你需要 1B 和 3B 兩個層級來實現廣泛的裝置覆蓋
    • 你的任務是對話式聊天
    • 自然語言生成品質比推理精確度更重要

    選擇 Gemma 3 的情境:

    • 你想要 Google 生態系統的工具鏈
    • 你需要 4B 模型以獲得略強的效能
    • 多語言支援是優先考量

    模型選擇不如微調品質重要。在你的領域資料上精心微調的 Phi-4 Mini 會在同一任務上優於粗糙微調的 Llama,反之亦然。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading