
為 Phi-4 和 Qwen 2.5 策劃訓練資料:企業團隊必知事項
Phi-4 和 Qwen 2.5 具有不同的分詞器、上下文視窗和訓練資料偏差。您的微調資料集需要考慮這些差異。以下是每個模型需要注意的事項。
「只需在我們的資料上微調它」這句話跳過了一個關鍵細節:您要微調的模型決定了您應該如何準備資料。Phi-4 和 Qwen 2.5——2026 年企業微調中兩個最有能力的開放權重模型——具有不同的架構、不同的分詞器、不同的上下文視窗和不同的訓練資料偏差。針對 Phi-4 優化的資料集在 Qwen 2.5 上可能表現不佳,反之亦然。
這不是關於哪個模 型「更好」,兩者都很出色。這是關於了解影響資料準備的模型特定考量,以便您的微調資料集與模型的預期相符。
Phi-4:需要了解的事項
背景
Phi-4 是 Microsoft 的 140 億參數模型,於 2024 年底發布,並在 2025 年初進行了改進。它代表了 Microsoft 的「小型模型、高品質資料」研究哲學的頂峰。Phi-4 主要在更大模型生成的合成資料和精選的教科書式內容上訓練。
要利用的優勢
推理和數學。 Phi-4 在 MATH 基準上得分 80.4,在 GPQA 上得分 82.6——與規模大 4–5 倍的模型競爭。該模型專門在多步推理和數學問題解決資料上訓練。
資料準備意涵: 您的微調資料在適當的情況下應包含思維鏈示例。如果您的任務涉及任何形式的推理(文件分析、帶解釋的分類、需要推斷的結構化提取),請將輸出格式化為包含推理步驟,而非只有最終答案。
示例——不要這樣:
Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
Output: {"payment_terms": "net-90", "discount": "2% early payment"}
改用這樣:
Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
Output: {"reasoning": "The clause states '90-day payment terms' indicating net-90. The '2% early payment discount' is a standard incentive for payment before the net-90 deadline.", "payment_terms": "net-90", "discount": "2% early payment"}
推理欄位利用了 Phi-4 的訓練優勢。包含它可以提高模型在提取任務本身的準確率,即使您在推論時丟棄推理部分。
結構化輸出。 Phi-4 的合成訓練資料包含大量結構化格式。該模型開箱即用地能很好地處理 JSON、YAML 和表格輸出。在結構化輸出任務上微調建立在現有優勢之上。
要考慮的限制
以英語為主的訓練。 Phi-4 主要在英語資料上訓練。雖然它能處理其他語言,但對非英語文本的效能明顯下降。如果您的企業文件是德語、法語、日語或其他語言,Phi-4 不是最佳選擇——或者您需要在微調資料中過度代表非英語示例。
資料準備意涵: 如果您在為多語言任務微調 Phi-4,每種非英語語言相比英語包含 2–3 倍更多的示例。該模型需要額外的訊號來克服其英語語言偏差。
上下文視窗:16K token。 Phi-4 的有效上下文視窗為 16,384 個 token。這對許多企業任務已足夠,但限制了您可以在單次處理中處理的輸入文件長度。
資料準備意涵: 確保沒有訓練樣本超過 16K token(輸入 + 輸出合計)。如果您的生產文件更長,您需要在處理前分塊。您的訓練資料應包含反映生產輸入如何格式化的分塊示例。
模板格式
Phi-4 使用 ChatML 模板格式:
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
{input}<|im_end|>
<|im_start|>assistant
{output}<|im_end|>
您的訓練資料必須使用這個精確的模板。使用 Llama 的模板格式([INST]...[/INST])或 Mistral 的格式將使模型混亂並降低效能。這是最常見的微調錯誤之一——為目標模型使用了錯誤的聊天模板。
Qwen 2.5:需要了解的事項
背景
Qwen 2.5 是 Alibaba 的模型系列,大小從 5 億到 720 億參數不等。最常被微調的變體是 70 億和 140 億版本。Qwen 2.5 在 29 種語言的 18 兆個 token 上訓練,是目前最多語言的開放模型之一。
要利用的優勢
多語言能力。 Qwen 2.5 支援 29 種語言,在英語、中文、日語、韓語和歐洲語言中效能強勁。對於在多種語言間運營或處理多語言文件集合的企業,Qwen 2.5 是更強的選擇。
資料準 備意涵: 在您的生產系統將遇到的所有語言中包含示例。與 Phi-4 不同,Qwen 2.5 不需要額外的非英語示例來補償訓練偏差——它本地處理多語言輸入。您甚至可以包含語言混合示例(例如英語標題和德語正文的文件),如果這符合您的生產資料。
使用 YaRN 的擴展上下文。 Qwen 2.5 透過 YaRN(Yet another RoPE extensioN)縮放支援高達 128K token 的上下文。這意味著與 Phi-4 的 16K 限制相比,您可以在單次處理中處理更長的文件。
資料準備意涵: 如果您的生產文件是 20K–100K token,Qwen 2.5 讓您無需分塊即可處理它們。然而,在長上下文示例上訓練需要更多 GPU 記憶體。一個實際的方法是:混合標準長度(2K–8K token)和長上下文(16K–64K token)示例。不要讓所有示例都是最大長度——模型需要優雅地處理各種長度。
CJK 語言支援。 Qwen 2.5 的分詞器專門針對中文、日文和韓文優化。對於 CJK 文本,Qwen 的 token 與字符的比例約為 1:1.5,而大多數以英語為中心的分詞器是 1:3。這意味著在相同的 token 預算下,您可以容納大約兩倍的 CJK 文本。
要考慮的限制
Qwen 的分詞器產生不同的 token 數量。 相同的英語文本用 Qwen 的分詞器和 Phi-4 的分詞器產生不同的 token 數量。1,000 個詞的英語段落用 Phi-4 的分詞器可能是 1,300 個 token,用 Qwen 的分詞器可能是 1,400 個 token。這影響成本估算、訓練時間和輸入長度規劃。
資料準備意涵: 使用 Qwen 的實際分詞器(在 transformers 庫中可用)對您的訓練資料進行分詞,以獲得準確的 token 數量。不要基於詞數或另一個模型的分詞器進行估算。
訓練資料偏差。 Qwen 2.5 在包含大量中文網路內容的網際網路規模資料上訓練。對某些任務,這表現為對中文網路慣例的輕微偏差——日期格式(YYYY/MM/DD)、數字格式(10,000 寫作 1 萬)和某些短語結構。
資料準備意涵: 如果您的輸出必須符合特定的格式慣例(美國日期格式、西方數字格式),在系統提示中包含明確的格式要求,並確保所有訓練示例都展示了正確的慣例。
模板格式
Qwen 2.5 使用 ChatML 模板格式——與 Phi-4 相同:
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
{input}<|im_end|>
<|im_start|>assistant
{output}<|im_end|>
這種共享模板格式意味著如果您為一個正確地準備了資料,該模板對另一個也有效。差異在於分詞和模型對模板中內容的處理方式,而非模板結構本身。
分詞器差異:為何重要
Phi-4 和 Qwen 2.5 使用具有不同詞彙量和不同子詞分割的不同分詞器。這帶來了實際差異:
相同文本 = 不同 token 數量。 一份 10,000 詞的文件用 Phi-4 的分詞器可能是 13,200 個 token,用 Qwen 的分詞器是 14,100 個 token。在規劃最大輸入長度時,始終使用目標模型的分詞器進行分詞。
對特殊字符的不同處理。 領域特定符號(法律文本中用於節引用的 §,工程中用於公差的 ±,科學中用於微單位的 µ)可能被不同地分詞。如果這些符號在您的領域中有意義,請驗證分詞器正確處理它們,並且它們在訓練資料中保持一致。
對不同書寫系統的不同效率。 Qwen 的分詞器對 CJK 文本更高效;Phi-4 的對英語略微更高效。這意味著非英語文本的有效上下文視窗對 Qwen 更大,對 Phi-4 更小。