為 Phi-4 和 Qwen 2.5 策劃訓練資料：企業團隊必知事項

「只需在我們的資料上微調它」這句話跳過了一個關鍵細節：您要微調的模型決定了您應該如何準備資料。Phi-4 和 Qwen 2.5——2026 年企業微調中兩個最有能力的開放權重模型——具有不同的架構、不同的分詞器、不同的上下文視窗和不同的訓練資料偏差。針對 Phi-4 優化的資料集在 Qwen 2.5 上可能表現不佳，反之亦然。

這不是關於哪個模型「更好」，兩者都很出色。這是關於了解影響資料準備的模型特定考量，以便您的微調資料集與模型的預期相符。

Phi-4：需要了解的事項

背景

Phi-4 是 Microsoft 的 140 億參數模型，於 2024 年底發布，並在 2025 年初進行了改進。它代表了 Microsoft 的「小型模型、高品質資料」研究哲學的頂峰。Phi-4 主要在更大模型生成的合成資料和精選的教科書式內容上訓練。

要利用的優勢

推理和數學。 Phi-4 在 MATH 基準上得分 80.4，在 GPQA 上得分 82.6——與規模大 4–5 倍的模型競爭。該模型專門在多步推理和數學問題解決資料上訓練。

資料準備意涵： 您的微調資料在適當的情況下應包含思維鏈示例。如果您的任務涉及任何形式的推理（文件分析、帶解釋的分類、需要推斷的結構化提取），請將輸出格式化為包含推理步驟，而非只有最終答案。

示例——不要這樣：

Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
Output: {"payment_terms": "net-90", "discount": "2% early payment"}

改用這樣：

Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
Output: {"reasoning": "The clause states '90-day payment terms' indicating net-90. The '2% early payment discount' is a standard incentive for payment before the net-90 deadline.", "payment_terms": "net-90", "discount": "2% early payment"}

推理欄位利用了 Phi-4 的訓練優勢。包含它可以提高模型在提取任務本身的準確率，即使您在推論時丟棄推理部分。

結構化輸出。 Phi-4 的合成訓練資料包含大量結構化格式。該模型開箱即用地能很好地處理 JSON、YAML 和表格輸出。在結構化輸出任務上微調建立在現有優勢之上。

要考慮的限制

以英語為主的訓練。 Phi-4 主要在英語資料上訓練。雖然它能處理其他語言，但對非英語文本的效能明顯下降。如果您的企業文件是德語、法語、日語或其他語言，Phi-4 不是最佳選擇——或者您需要在微調資料中過度代表非英語示例。

資料準備意涵： 如果您在為多語言任務微調 Phi-4，每種非英語語言相比英語包含 2–3 倍更多的示例。該模型需要額外的訊號來克服其英語語言偏差。

上下文視窗：16K token。 Phi-4 的有效上下文視窗為 16,384 個 token。這對許多企業任務已足夠，但限制了您可以在單次處理中處理的輸入文件長度。

資料準備意涵： 確保沒有訓練樣本超過 16K token（輸入 + 輸出合計）。如果您的生產文件更長，您需要在處理前分塊。您的訓練資料應包含反映生產輸入如何格式化的分塊示例。

模板格式

Phi-4 使用 ChatML 模板格式：

<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
{input}<|im_end|>
<|im_start|>assistant
{output}<|im_end|>

您的訓練資料必須使用這個精確的模板。使用 Llama 的模板格式（[INST]...[/INST]）或 Mistral 的格式將使模型混亂並降低效能。這是最常見的微調錯誤之一——為目標模型使用了錯誤的聊天模板。

Qwen 2.5：需要了解的事項

背景

Qwen 2.5 是 Alibaba 的模型系列，大小從 5 億到 720 億參數不等。最常被微調的變體是 70 億和 140 億版本。Qwen 2.5 在 29 種語言的 18 兆個 token 上訓練，是目前最多語言的開放模型之一。

要利用的優勢

多語言能力。 Qwen 2.5 支援 29 種語言，在英語、中文、日語、韓語和歐洲語言中效能強勁。對於在多種語言間運營或處理多語言文件集合的企業，Qwen 2.5 是更強的選擇。

資料準備意涵： 在您的生產系統將遇到的所有語言中包含示例。與 Phi-4 不同，Qwen 2.5 不需要額外的非英語示例來補償訓練偏差——它本地處理多語言輸入。您甚至可以包含語言混合示例（例如英語標題和德語正文的文件），如果這符合您的生產資料。

使用 YaRN 的擴展上下文。 Qwen 2.5 透過 YaRN（Yet another RoPE extensioN）縮放支援高達 128K token 的上下文。這意味著與 Phi-4 的 16K 限制相比，您可以在單次處理中處理更長的文件。

資料準備意涵： 如果您的生產文件是 20K–100K token，Qwen 2.5 讓您無需分塊即可處理它們。然而，在長上下文示例上訓練需要更多 GPU 記憶體。一個實際的方法是：混合標準長度（2K–8K token）和長上下文（16K–64K token）示例。不要讓所有示例都是最大長度——模型需要優雅地處理各種長度。

CJK 語言支援。 Qwen 2.5 的分詞器專門針對中文、日文和韓文優化。對於 CJK 文本，Qwen 的 token 與字符的比例約為 1:1.5，而大多數以英語為中心的分詞器是 1:3。這意味著在相同的 token 預算下，您可以容納大約兩倍的 CJK 文本。

要考慮的限制

Qwen 的分詞器產生不同的 token 數量。 相同的英語文本用 Qwen 的分詞器和 Phi-4 的分詞器產生不同的 token 數量。1,000 個詞的英語段落用 Phi-4 的分詞器可能是 1,300 個 token，用 Qwen 的分詞器可能是 1,400 個 token。這影響成本估算、訓練時間和輸入長度規劃。

資料準備意涵： 使用 Qwen 的實際分詞器（在 transformers 庫中可用）對您的訓練資料進行分詞，以獲得準確的 token 數量。不要基於詞數或另一個模型的分詞器進行估算。

訓練資料偏差。 Qwen 2.5 在包含大量中文網路內容的網際網路規模資料上訓練。對某些任務，這表現為對中文網路慣例的輕微偏差——日期格式（YYYY/MM/DD）、數字格式（10,000 寫作 1 萬）和某些短語結構。

資料準備意涵： 如果您的輸出必須符合特定的格式慣例（美國日期格式、西方數字格式），在系統提示中包含明確的格式要求，並確保所有訓練示例都展示了正確的慣例。

模板格式

Qwen 2.5 使用 ChatML 模板格式——與 Phi-4 相同：

<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
{input}<|im_end|>
<|im_start|>assistant
{output}<|im_end|>

這種共享模板格式意味著如果您為一個正確地準備了資料，該模板對另一個也有效。差異在於分詞和模型對模板中內容的處理方式，而非模板結構本身。

分詞器差異：為何重要

Phi-4 和 Qwen 2.5 使用具有不同詞彙量和不同子詞分割的不同分詞器。這帶來了實際差異：

相同文本 = 不同 token 數量。 一份 10,000 詞的文件用 Phi-4 的分詞器可能是 13,200 個 token，用 Qwen 的分詞器是 14,100 個 token。在規劃最大輸入長度時，始終使用目標模型的分詞器進行分詞。

對特殊字符的不同處理。 領域特定符號（法律文本中用於節引用的 §，工程中用於公差的 ±，科學中用於微單位的 µ）可能被不同地分詞。如果這些符號在您的領域中有意義，請驗證分詞器正確處理它們，並且它們在訓練資料中保持一致。

對不同書寫系統的不同效率。 Qwen 的分詞器對 CJK 文本更高效；Phi-4 的對英語略微更高效。這意味著非英語文本的有效上下文視窗對 Qwen 更大，對 Phi-4 更小。

實際策略：兩者都微調，選出勝者

對大多數企業使用場景，最優方法不是猜測哪個模型效果更好——而是在相同資料集上微調兩者並進行比較。

步驟一： 按照兩個模型要求中更嚴格的要求準備一個高品質的資料集。使用 ChatML 模板格式（兩者都可用）。確保沒有示例超過 16K token（Phi-4 的限制——限制更嚴格的約束）。在適用的地方包含思維鏈推理（有利於 Phi-4，不損害 Qwen）。

步驟二： 在相同資料集上以可比的超參數微調兩個模型。使用相同的學習率排程、批次大小（根據模型大小調整）和訓練持續時間。

步驟三： 在相同的保留測試集上使用特定任務的指標評估兩個模型。不要在通用基準上評估——在您的任務和您的資料上評估。

步驟四： 選出勝者。對大多數僅英語的企業任務，效能差距很小，使得推論成本和延遲成為決定因素。對多語言任務，Qwen 2.5 通常勝出。對以推理為重的任務，Phi-4 通常略勝一籌。

這種雙重微調方法的訓練計算成本是 2 倍（對 SLM 規模的模型通常是幾百美元的差距），但消除了猜測。在部署後發現選錯了模型的成本，遠高於兩次訓練運行的成本。

常見錯誤

為非 Llama 模型使用 Llama 格式模板。 Llama 的 [INST]...[/INST] 模板不是通用的。Phi-4 和 Qwen 都使用 ChatML。使用錯誤的模板會產生一個能用但效能比應有的低 5–15% 的模型——一種難以診斷的微妙失敗。

使用錯誤的分詞器估算 token 數量。 如果您使用 GPT-4 的分詞器規劃輸入長度，但在 Qwen 上訓練，您的估算是錯的。始終使用目標模型的分詞器進行規劃。

忽視模型特定的優勢。 在沒有思維鏈示例的情況下微調 Phi-4，放棄了效能。在英語資料上微調 Qwen 2.5，而您的生產資料包含其他語言，浪費了模型的多語言能力。

過度針對一個模型優化。 如果您專門為 Phi-4 的優勢（英語、推理、16K 上下文）準備資料，您使資料集的可攜性降低。除非您對模型選擇有把握，否則準備對兩者都有效的資料。

Ertas Data Suite 自動處理模型特定的資料格式化。選擇您的目標模型（Phi-4、Qwen 2.5、Llama、Mistral 或其他），平台應用正確的聊天模板，根據模型的上下文視窗驗證 token 數量，並標記超過長度限制的示例。對於微調多個模型的團隊，相同的標注資料集可以以不同的模型特定格式匯出，無需重新標注——更改匯出目標，格式自動調整。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

為 Phi-4 和 Qwen 2.5 策劃訓練資料：企業團隊必知事項

Phi-4：需要了解的事項

背景

要利用的優勢

要考慮的限制

模板格式

Qwen 2.5：需要了解的事項

背景

要利用的優勢

要考慮的限制

模板格式

分詞器差異：為何重要

實際策略：兩者都微調，選出勝者

常見錯誤

延伸閱讀

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

從 700GB PDF 到 500 個 Fine-Tuning 訓練範例：資料精簡流程

從臨時資料準備到持續資料營運：建立永不停歇的流程

跨職能 AI 資料團隊：ML 工程師 + 領域專家 + 合規