
Phi-4 Mini 行動端:Microsoft 的小型模型在 iOS 和 Android 上的應用
Microsoft 的 Phi-4 Mini 在 3.8B 參數中封裝了強大的推理能力,並採用 MIT 授權。它與 Llama 和 Gemma 在行動部署方面的比較,以及何時應該選擇它。
Microsoft 的 Phi 系列一直以來都表現超出預期。Phi-4 Mini 以 3.8B 參數提供的推理能力,在多項基準測試中可以匹配兩倍大小的模型。再加上 MIT 授權(最寬鬆的授權),對於需要在小型封裝中實現強推理能力的行動開發者來說,它是一個極具吸引力的選 擇。
Phi-4 Mini 規格
| 規格 | 數值 |
|---|---|
| 參數量 | 3.8B |
| GGUF Q4 大小 | 約 2.2GB |
| 推論時 RAM | 約 2.8GB |
| 上下文視窗 | 128K |
| 授權條款 | MIT |
| 訓練方法 | 合成資料 + 精選網路資料 |
什麼讓 Phi 與眾不同
Phi 模型系列的訓練方式不同於 Llama、Gemma 和 Qwen。Microsoft 使用「教科書品質」的訓練方法:
- 合成資料生成: 由較大的模型生成高品質的訓練範例,專門設計用於教導推理模式
- 精選網路資料: 經過仔細篩選的網路資料,強調教育性和事實性內容
- 資料品質優先於數量: 與使用原始網路爬取訓練的模型相比,使用更少但品質更高的訓練 tokens
結果是一個推理能力超越其參數量所暗示的模型,特別是在涉及邏輯、數學、程式碼和結構化輸出的任務上。
基準測試表現
推理與知識
| 基準測試 | Phi-4 Mini(3.8B) | Llama 3.2 3B | Gemma 3 4B |
|---|---|---|---|
| MMLU | 68.5 | 63.4 | 67.2 |
| ARC-Challenge | 62.8 | 55.2 | 60.1 |
| GSM8K(數學) | 78.5 | 58.2 | 72.4 |
| HumanEval(程式碼) | 68.3 | 45.6 | 58.2 |
Phi-4 Mini 在推理密集型基準測試(數學、程式碼)上領先,在知識基準測試(MMLU)上具有競爭力。差距在數學(GSM8K)上最為顯著,Phi-4 Mini 的合成訓練資料提供了明顯的優勢。
指令遵循
| 基準測試 | Phi-4 Mini | Llama 3.2 3B | Gemma 3 4B |
|---|---|---|---|
| IFEval | 79.2 | 77.4 | 80.1 |
在這個尺寸範圍內,指令遵循能力在三個模型中是可比較的。差異在實際應用中處於雜訊範圍內。
何時 Phi-4 Mini 是正確的選擇
推理密集型任務
如果你的 AI 功能涉及邏輯推理、計算或逐步推理,Phi-4 Mini 有明顯的優勢。範例:
- 財務計算和分析
- 程式碼生成或解釋
- 數學輔導
- 基於邏輯的問答
- 複雜的結構化輸出(巢狀 JSON、格式化報告)
結構化輸出
Phi-4 Mini 產生的結構化輸出比同尺寸的競爭模型更可靠。JSON 生成尤其具有更少的格式錯誤和更好的架構遵循。如果你的應用程式將 AI 輸出解析為結構化資料,這種可靠性很重要。
授權簡潔性
MIT 是最寬鬆的開源授權。對商業使用無限制、無月活躍用戶門檻、無競爭性訓練限制。對於法務審查模型授權會產生摩擦的企業團隊,MIT 消除了這個話題。
何時其他模型更好
廣泛的裝置覆蓋
Phi-4 Mini 只有一個適合行動端的尺寸(3.8B)。沒有 1B 的 Phi 模型。如果你需要支援 4GB RAM 的裝置,你必須使用不同的模型系列來覆蓋小型層級(Llama 3.2 1B 或 Qwen 2.5 1.5B)。
多語言應用
Phi-4 Mini 的訓練資料偏重英語。對於多語言應用,Qwen 2.5 或 Gemma 3 在非英語語言上提供更好的覆蓋。
聊天與對話
對於開放式的對話 AI,Llama 3.2 3B 傾向於產生更自然、更吸引人的回應。Phi-4 Mini 的強項是精確性和正確性,而非對話的溫度。如果你的功能是聊天助手,Llama 可能感覺更自然。
微調 Phi-4 Mini
訓練資料格式
Phi-4 Mini 使用與 ChatML 格式相容的聊天範本:
<|system|>
You are a financial analysis assistant.<|end|>
<|user|>
Calculate the compound interest on $10,000 at 5% APR over 3 years.<|end|>
<|assistant|>
Principal: $10,000
Rate: 5% annually
Time: 3 years
Formula: A = P(1 + r/n)^(nt)
A = 10000(1 + 0.05/1)^(1*3)
A = 10000(1.05)^3
A = 10000 * 1.157625
A = $11,576.25
Total interest earned: $1,576.25<|end|>
LoRA 設定
| 參數 | 數值 |
|---|---|
| LoRA 秩(r) | 16-64 |
| LoRA alpha | 32-128 |
| 學習率 | 1e-4 至 2e-4 |
| 訓練輪數 | 2-4 |
| 目標模組 | q_proj, v_proj, k_proj, o_proj |
微調效果
Phi-4 Mini 微調效果良好。其強大的推理基礎意味著模型能快速掌握領域模式:
| 任務 | 基礎模型 | 微調後(1K 範例) |
|---|---|---|
| 領域分類 | 76% | 93-96% |
| 結構化擷取 | 80% | 94-97% |
| 領域問答 | 72% | 90-94% |
結構化輸出的可靠性在基礎模型中已經很強,微調後變得更加出色。
GGUF 匯出與部署
Phi-4 Mini 轉換為 GGUF 並在 llama.cpp 上運行,與其他模型系列完全相同。部署流程如下:
- 使用 LoRA 微調
- 將適配器合併到基礎權重中
- 轉換為 GGUF
- 量化至 Q4_K_M(約 2.2GB)
- 透過 llama.cpp 在 iOS(Metal)和 Android(Vulkan)上部署
像 Ertas 這樣的平台支援 Phi-4 Mini 作為基礎模型選項。微調和 GGUF 匯出流程與 Llama 或 Gemma 的運作方式相同。
行動裝置上的效能
Phi-4 Mini 3.8B(Q4_K_M,約 2.2GB)
| 裝置 | Tokens/秒 | 記憶體 |
|---|---|---|
| iPhone 16 Pro(A18 Pro) | 18-24 | 約 2.8GB |
| iPhone 15 Pro(A17 Pro) | 16-22 | 約 2.8GB |
| Galaxy S25(SD 8 Elite,Vulkan) | 20-26 | 約 2.8GB |
| Galaxy S24(SD 8 Gen 3,Vulkan) | 18-24 | 約 2.8GB |
| Pixel 9 Pro(Tensor G4) | 15-20 | 約 2.8GB |
以 3.8B 參數來說,Phi-4 Mini 比 3B 模型略慢且使用略多的記憶體。差異很小(1-3 tok/s,多約 600MB RAM)。在 8GB+ 旗艦裝置上,這是舒適的。在 6GB 裝置上,記憶體壓力比 3B 模型更緊張。
最低實用裝置: 8GB RAM 可舒適運行。6GB 可行但為作業系統和其他應用程式留下較少的餘裕。
實際決策
選擇 Phi-4 Mini 的情境:
- 你的任務需要強大的推理能力(數學、邏輯、結構化分析)
- 你需要高度可靠的結構化輸出(JSON、格式化資料)
- MIT 授權對你的業務很重要
- 你的目標裝置是 8GB+ 旗艦機
選擇 Llama 3.2 的情境:
- 你需要 1B 和 3B 兩個層級來實現廣泛的裝置覆蓋
- 你的任務是對話式聊天
- 自然語言生成品質比推理精確度更重要
選擇 Gemma 3 的情境:
- 你想要 Google 生態系統的工具鏈
- 你需要 4B 模型以獲得略強的效能
- 多語言支援是優先考量
模型選擇不如微調品質重要。在你的領域資料上精心微調的 Phi-4 Mini 會在同一任務上優於粗糙微調的 Llama,反之亦然。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Device AI Model Size Guide: 1B vs 3B vs 7B for Mobile
How to choose the right model size for your mobile app. Capability breakdown, device requirements, quality benchmarks, and the fine-tuning factor that changes the math.

Quantization for Mobile: Q4, Q5, and Q8 Across Real Devices
A practical guide to GGUF quantization levels for mobile deployment. How Q4, Q5, and Q8 affect model size, speed, quality, and memory usage on iPhones and Android devices.

Best Models for On-Device Mobile AI in 2026
A practical comparison of the best small language models for mobile deployment. Llama 3.2, Gemma 3, Phi-4 Mini, and Qwen 2.5 evaluated for on-device inference via llama.cpp.