
為 Phi-4 和 Qwen 2.5 策劃訓練資料:企業團隊必知事項
Phi-4 和 Qwen 2.5 具有不同的分詞器、上下文視窗和訓練資料偏差。您的微調資料集需要考慮這些差異。以下是每個模型需要注意的事項。
「只需在我們的資料上微調它」這句話跳過了一個關鍵細節:您要微調的模型決定了您應該如何準備資料。Phi-4 和 Qwen 2.5——2026 年企業微調中兩個最有能力的開放權重模型——具有不同的架構、不同的分詞器、不同的上下文視窗和不同的訓練資料偏差。針對 Phi-4 優化的資料集在 Qwen 2.5 上可能表現不佳,反之亦然。
這不是關於哪個模型「更好」,兩者都很出色。這是關於了解影響資料準備的模型特定考量,以便您的微調資料集與模型的預期相符。
Phi-4:需要了解的事項
背景
Phi-4 是 Microsoft 的 140 億參數模型,於 2024 年底發布,並在 2025 年初進行了改進。它代表了 Microsoft 的「小型模型、高品質資料」研究哲學的頂峰。Phi-4 主要在更大模型生成的合成資料和精選的教科書式內容上訓練。
要利用的優勢
推理和數學。 Phi-4 在 MATH 基準上得分 80.4,在 GPQA 上得分 82.6——與規模大 4–5 倍的模型競爭。該模型專門在多步推理和數學問題解決資料上訓練。
資料準備意涵: 您的微調資料在適當的情況下應包含思維鏈示例。如果您的任務涉及任何形式的推理(文件分析、帶解釋的分類、需要推斷的結構化提取),請將輸出格式化為包含推理步驟,而非只有最終答案。
示例——不要這樣:
Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
Output: {"payment_terms": "net-90", "discount": "2% early payment"}
改用這樣:
Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
Output: {"reasoning": "The clause states '90-day payment terms' indicating net-90. The '2% early payment discount' is a standard incentive for payment before the net-90 deadline.", "payment_terms": "net-90", "discount": "2% early payment"}
推理欄位利用了 Phi-4 的訓練優勢。包含它可以提高模型在提取任務本身的準確率,即使您在推論時丟棄推理部分。
結構化輸出。 Phi-4 的合成訓練資料包含大量結 構化格式。該模型開箱即用地能很好地處理 JSON、YAML 和表格輸出。在結構化輸出任務上微調建立在現有優勢之上。
要考慮的限制
以英語為主的訓練。 Phi-4 主要在英語資料上訓練。雖然它能處理其他語言,但對非英語文本的效能明顯下降。如果您的企業文件是德語、法語、日語或其他語言,Phi-4 不是最佳選擇——或者您需要在微調資料中過度代表非英語示例。
資料準備意涵: 如果您在為多語言任務微調 Phi-4,每種非英語語言相比英語包含 2–3 倍更多的示例。該模型需要額外的訊號來克服其英語語言偏差。
上下文視窗:16K token。 Phi-4 的有效上下文視窗為 16,384 個 token。這對許多企業任務已足夠,但限制了您可以在單次處理中處理的輸入文件長度。
資料準備意涵: 確保沒有訓練樣本超過 16K token(輸入 + 輸出合計)。如果您的生產文件更長,您需要在處理前分塊。您的訓練資料應包含反映生產輸入如何格式化的分塊示例。