Phi-4 Mini 行動端：Microsoft 的小型模型在 iOS 和 Android 上的應用

Microsoft 的 Phi 系列一直以來都表現超出預期。Phi-4 Mini 以 3.8B 參數提供的推理能力，在多項基準測試中可以匹配兩倍大小的模型。再加上 MIT 授權（最寬鬆的授權），對於需要在小型封裝中實現強推理能力的行動開發者來說，它是一個極具吸引力的選擇。

Phi-4 Mini 規格

規格	數值
參數量	3.8B
GGUF Q4 大小	約 2.2GB
推論時 RAM	約 2.8GB
上下文視窗	128K
授權條款	MIT
訓練方法	合成資料 + 精選網路資料

什麼讓 Phi 與眾不同

Phi 模型系列的訓練方式不同於 Llama、Gemma 和 Qwen。Microsoft 使用「教科書品質」的訓練方法：

合成資料生成： 由較大的模型生成高品質的訓練範例，專門設計用於教導推理模式
精選網路資料： 經過仔細篩選的網路資料，強調教育性和事實性內容
資料品質優先於數量： 與使用原始網路爬取訓練的模型相比，使用更少但品質更高的訓練 tokens

結果是一個推理能力超越其參數量所暗示的模型，特別是在涉及邏輯、數學、程式碼和結構化輸出的任務上。

基準測試表現

推理與知識

基準測試	Phi-4 Mini（3.8B）	Llama 3.2 3B	Gemma 3 4B
MMLU	68.5	63.4	67.2
ARC-Challenge	62.8	55.2	60.1
GSM8K（數學）	78.5	58.2	72.4
HumanEval（程式碼）	68.3	45.6	58.2

Phi-4 Mini 在推理密集型基準測試（數學、程式碼）上領先，在知識基準測試（MMLU）上具有競爭力。差距在數學（GSM8K）上最為顯著，Phi-4 Mini 的合成訓練資料提供了明顯的優勢。

指令遵循

基準測試	Phi-4 Mini	Llama 3.2 3B	Gemma 3 4B
IFEval	79.2	77.4	80.1

在這個尺寸範圍內，指令遵循能力在三個模型中是可比較的。差異在實際應用中處於雜訊範圍內。

何時 Phi-4 Mini 是正確的選擇

推理密集型任務

如果你的 AI 功能涉及邏輯推理、計算或逐步推理，Phi-4 Mini 有明顯的優勢。範例：

財務計算和分析
程式碼生成或解釋
數學輔導
基於邏輯的問答
複雜的結構化輸出（巢狀 JSON、格式化報告）

結構化輸出

Phi-4 Mini 產生的結構化輸出比同尺寸的競爭模型更可靠。JSON 生成尤其具有更少的格式錯誤和更好的架構遵循。如果你的應用程式將 AI 輸出解析為結構化資料，這種可靠性很重要。

授權簡潔性

MIT 是最寬鬆的開源授權。對商業使用無限制、無月活躍用戶門檻、無競爭性訓練限制。對於法務審查模型授權會產生摩擦的企業團隊，MIT 消除了這個話題。

何時其他模型更好

廣泛的裝置覆蓋

Phi-4 Mini 只有一個適合行動端的尺寸（3.8B）。沒有 1B 的 Phi 模型。如果你需要支援 4GB RAM 的裝置，你必須使用不同的模型系列來覆蓋小型層級（Llama 3.2 1B 或 Qwen 2.5 1.5B）。

多語言應用

Phi-4 Mini 的訓練資料偏重英語。對於多語言應用，Qwen 2.5 或 Gemma 3 在非英語語言上提供更好的覆蓋。

聊天與對話

對於開放式的對話 AI，Llama 3.2 3B 傾向於產生更自然、更吸引人的回應。Phi-4 Mini 的強項是精確性和正確性，而非對話的溫度。如果你的功能是聊天助手，Llama 可能感覺更自然。

微調 Phi-4 Mini

訓練資料格式

Phi-4 Mini 使用與 ChatML 格式相容的聊天範本：

<|system|>
You are a financial analysis assistant.<|end|>
<|user|>
Calculate the compound interest on $10,000 at 5% APR over 3 years.<|end|>
<|assistant|>
Principal: $10,000
Rate: 5% annually
Time: 3 years
Formula: A = P(1 + r/n)^(nt)

A = 10000(1 + 0.05/1)^(1*3)
A = 10000(1.05)^3
A = 10000 * 1.157625
A = $11,576.25

Total interest earned: $1,576.25<|end|>

LoRA 設定

參數	數值
LoRA 秩（r）	16-64
LoRA alpha	32-128
學習率	1e-4 至 2e-4
訓練輪數	2-4
目標模組	q_proj, v_proj, k_proj, o_proj

微調效果

Phi-4 Mini 微調效果良好。其強大的推理基礎意味著模型能快速掌握領域模式：

任務	基礎模型	微調後（1K 範例）
領域分類	76%	93-96%
結構化擷取	80%	94-97%
領域問答	72%	90-94%

結構化輸出的可靠性在基礎模型中已經很強，微調後變得更加出色。

GGUF 匯出與部署

Phi-4 Mini 轉換為 GGUF 並在 llama.cpp 上運行，與其他模型系列完全相同。部署流程如下：

使用 LoRA 微調
將適配器合併到基礎權重中
轉換為 GGUF
量化至 Q4_K_M（約 2.2GB）
透過 llama.cpp 在 iOS（Metal）和 Android（Vulkan）上部署

像 Ertas 這樣的平台支援 Phi-4 Mini 作為基礎模型選項。微調和 GGUF 匯出流程與 Llama 或 Gemma 的運作方式相同。

行動裝置上的效能

Phi-4 Mini 3.8B（Q4_K_M，約 2.2GB）

裝置	Tokens/秒	記憶體
iPhone 16 Pro（A18 Pro）	18-24	約 2.8GB
iPhone 15 Pro（A17 Pro）	16-22	約 2.8GB
Galaxy S25（SD 8 Elite，Vulkan）	20-26	約 2.8GB
Galaxy S24（SD 8 Gen 3，Vulkan）	18-24	約 2.8GB
Pixel 9 Pro（Tensor G4）	15-20	約 2.8GB

以 3.8B 參數來說，Phi-4 Mini 比 3B 模型略慢且使用略多的記憶體。差異很小（1-3 tok/s，多約 600MB RAM）。在 8GB+ 旗艦裝置上，這是舒適的。在 6GB 裝置上，記憶體壓力比 3B 模型更緊張。

最低實用裝置： 8GB RAM 可舒適運行。6GB 可行但為作業系統和其他應用程式留下較少的餘裕。

實際決策

選擇 Phi-4 Mini 的情境：

你的任務需要強大的推理能力（數學、邏輯、結構化分析）
你需要高度可靠的結構化輸出（JSON、格式化資料）
MIT 授權對你的業務很重要
你的目標裝置是 8GB+ 旗艦機

選擇 Llama 3.2 的情境：

你需要 1B 和 3B 兩個層級來實現廣泛的裝置覆蓋
你的任務是對話式聊天
自然語言生成品質比推理精確度更重要

選擇 Gemma 3 的情境：

你想要 Google 生態系統的工具鏈
你需要 4B 模型以獲得略強的效能
多語言支援是優先考量

模型選擇不如微調品質重要。在你的領域資料上精心微調的 Phi-4 Mini 會在同一任務上優於粗糙微調的 Llama，反之亦然。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Phi-4 Mini 行動端：Microsoft 的小型模型在 iOS 和 Android 上的應用

Phi-4 Mini 規格

什麼讓 Phi 與眾不同

基準測試表現

推理與知識

指令遵循

何時 Phi-4 Mini 是正確的選擇

推理密集型任務

結構化輸出

授權簡潔性

何時其他模型更好

廣泛的裝置覆蓋

多語言應用

聊天與對話

微調 Phi-4 Mini

訓練資料格式

LoRA 設定

微調效果

GGUF 匯出與部署

行動裝置上的效能

Phi-4 Mini 3.8B（Q4_K_M，約 2.2GB）

實際決策

Ship AI that runs on your users' devices.

Ship AI that runs on your users' devices.

Keep reading

2026 年最佳裝置端行動 AI 模型

Gemma 3 行動端：微調與裝置端部署

Llama 3.2 行動應用：微調與裝置端部署