Back to blog
    為 Phi-4 和 Qwen 2.5 策劃訓練資料:企業團隊必知事項
    phi-4qwentraining-dataenterprisedata-preparationsegment:enterprise

    為 Phi-4 和 Qwen 2.5 策劃訓練資料:企業團隊必知事項

    Phi-4 和 Qwen 2.5 具有不同的分詞器、上下文視窗和訓練資料偏差。您的微調資料集需要考慮這些差異。以下是每個模型需要注意的事項。

    EErtas Team·

    「只需在我們的資料上微調它」這句話跳過了一個關鍵細節:您要微調的模型決定了您應該如何準備資料。Phi-4 和 Qwen 2.5——2026 年企業微調中兩個最有能力的開放權重模型——具有不同的架構、不同的分詞器、不同的上下文視窗和不同的訓練資料偏差。針對 Phi-4 優化的資料集在 Qwen 2.5 上可能表現不佳,反之亦然。

    這不是關於哪個模型「更好」,兩者都很出色。這是關於了解影響資料準備的模型特定考量,以便您的微調資料集與模型的預期相符。

    Phi-4:需要了解的事項

    背景

    Phi-4 是 Microsoft 的 140 億參數模型,於 2024 年底發布,並在 2025 年初進行了改進。它代表了 Microsoft 的「小型模型、高品質資料」研究哲學的頂峰。Phi-4 主要在更大模型生成的合成資料和精選的教科書式內容上訓練。

    要利用的優勢

    推理和數學。 Phi-4 在 MATH 基準上得分 80.4,在 GPQA 上得分 82.6——與規模大 4–5 倍的模型競爭。該模型專門在多步推理和數學問題解決資料上訓練。

    資料準備意涵: 您的微調資料在適當的情況下應包含思維鏈示例。如果您的任務涉及任何形式的推理(文件分析、帶解釋的分類、需要推斷的結構化提取),請將輸出格式化為包含推理步驟,而非只有最終答案。

    示例——不要這樣:

    Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
    Output: {"payment_terms": "net-90", "discount": "2% early payment"}
    

    改用這樣:

    Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
    Output: {"reasoning": "The clause states '90-day payment terms' indicating net-90. The '2% early payment discount' is a standard incentive for payment before the net-90 deadline.", "payment_terms": "net-90", "discount": "2% early payment"}
    

    推理欄位利用了 Phi-4 的訓練優勢。包含它可以提高模型在提取任務本身的準確率,即使您在推論時丟棄推理部分。

    結構化輸出。 Phi-4 的合成訓練資料包含大量結構化格式。該模型開箱即用地能很好地處理 JSON、YAML 和表格輸出。在結構化輸出任務上微調建立在現有優勢之上。

    要考慮的限制

    以英語為主的訓練。 Phi-4 主要在英語資料上訓練。雖然它能處理其他語言,但對非英語文本的效能明顯下降。如果您的企業文件是德語、法語、日語或其他語言,Phi-4 不是最佳選擇——或者您需要在微調資料中過度代表非英語示例。

    資料準備意涵: 如果您在為多語言任務微調 Phi-4,每種非英語語言相比英語包含 2–3 倍更多的示例。該模型需要額外的訊號來克服其英語語言偏差。

    上下文視窗:16K token。 Phi-4 的有效上下文視窗為 16,384 個 token。這對許多企業任務已足夠,但限制了您可以在單次處理中處理的輸入文件長度。

    資料準備意涵: 確保沒有訓練樣本超過 16K token(輸入 + 輸出合計)。如果您的生產文件更長,您需要在處理前分塊。您的訓練資料應包含反映生產輸入如何格式化的分塊示例。

    模板格式

    Phi-4 使用 ChatML 模板格式:

    <|im_start|>system
    You are a helpful assistant.<|im_end|>
    <|im_start|>user
    {input}<|im_end|>
    <|im_start|>assistant
    {output}<|im_end|>
    

    您的訓練資料必須使用這個精確的模板。使用 Llama 的模板格式([INST]...[/INST])或 Mistral 的格式將使模型混亂並降低效能。這是最常見的微調錯誤之一——為目標模型使用了錯誤的聊天模板。

    Qwen 2.5:需要了解的事項

    背景

    Qwen 2.5 是 Alibaba 的模型系列,大小從 5 億到 720 億參數不等。最常被微調的變體是 70 億和 140 億版本。Qwen 2.5 在 29 種語言的 18 兆個 token 上訓練,是目前最多語言的開放模型之一。

    要利用的優勢

    多語言能力。 Qwen 2.5 支援 29 種語言,在英語、中文、日語、韓語和歐洲語言中效能強勁。對於在多種語言間運營或處理多語言文件集合的企業,Qwen 2.5 是更強的選擇。

    資料準備意涵: 在您的生產系統將遇到的所有語言中包含示例。與 Phi-4 不同,Qwen 2.5 不需要額外的非英語示例來補償訓練偏差——它本地處理多語言輸入。您甚至可以包含語言混合示例(例如英語標題和德語正文的文件),如果這符合您的生產資料。

    使用 YaRN 的擴展上下文。 Qwen 2.5 透過 YaRN(Yet another RoPE extensioN)縮放支援高達 128K token 的上下文。這意味著與 Phi-4 的 16K 限制相比,您可以在單次處理中處理更長的文件。

    資料準備意涵: 如果您的生產文件是 20K–100K token,Qwen 2.5 讓您無需分塊即可處理它們。然而,在長上下文示例上訓練需要更多 GPU 記憶體。一個實際的方法是:混合標準長度(2K–8K token)和長上下文(16K–64K token)示例。不要讓所有示例都是最大長度——模型需要優雅地處理各種長度。

    CJK 語言支援。 Qwen 2.5 的分詞器專門針對中文、日文和韓文優化。對於 CJK 文本,Qwen 的 token 與字符的比例約為 1:1.5,而大多數以英語為中心的分詞器是 1:3。這意味著在相同的 token 預算下,您可以容納大約兩倍的 CJK 文本。

    要考慮的限制

    Qwen 的分詞器產生不同的 token 數量。 相同的英語文本用 Qwen 的分詞器和 Phi-4 的分詞器產生不同的 token 數量。1,000 個詞的英語段落用 Phi-4 的分詞器可能是 1,300 個 token,用 Qwen 的分詞器可能是 1,400 個 token。這影響成本估算、訓練時間和輸入長度規劃。

    資料準備意涵: 使用 Qwen 的實際分詞器(在 transformers 庫中可用)對您的訓練資料進行分詞,以獲得準確的 token 數量。不要基於詞數或另一個模型的分詞器進行估算。

    訓練資料偏差。 Qwen 2.5 在包含大量中文網路內容的網際網路規模資料上訓練。對某些任務,這表現為對中文網路慣例的輕微偏差——日期格式(YYYY/MM/DD)、數字格式(10,000 寫作 1 萬)和某些短語結構。

    資料準備意涵: 如果您的輸出必須符合特定的格式慣例(美國日期格式、西方數字格式),在系統提示中包含明確的格式要求,並確保所有訓練示例都展示了正確的慣例。

    模板格式

    Qwen 2.5 使用 ChatML 模板格式——與 Phi-4 相同:

    <|im_start|>system
    You are a helpful assistant.<|im_end|>
    <|im_start|>user
    {input}<|im_end|>
    <|im_start|>assistant
    {output}<|im_end|>
    

    這種共享模板格式意味著如果您為一個正確地準備了資料,該模板對另一個也有效。差異在於分詞和模型對模板中內容的處理方式,而非模板結構本身。

    分詞器差異:為何重要

    Phi-4 和 Qwen 2.5 使用具有不同詞彙量和不同子詞分割的不同分詞器。這帶來了實際差異:

    相同文本 = 不同 token 數量。 一份 10,000 詞的文件用 Phi-4 的分詞器可能是 13,200 個 token,用 Qwen 的分詞器是 14,100 個 token。在規劃最大輸入長度時,始終使用目標模型的分詞器進行分詞。

    對特殊字符的不同處理。 領域特定符號(法律文本中用於節引用的 §,工程中用於公差的 ±,科學中用於微單位的 µ)可能被不同地分詞。如果這些符號在您的領域中有意義,請驗證分詞器正確處理它們,並且它們在訓練資料中保持一致。

    對不同書寫系統的不同效率。 Qwen 的分詞器對 CJK 文本更高效;Phi-4 的對英語略微更高效。這意味著非英語文本的有效上下文視窗對 Qwen 更大,對 Phi-4 更小。

    實際策略:兩者都微調,選出勝者

    對大多數企業使用場景,最優方法不是猜測哪個模型效果更好——而是在相同資料集上微調兩者並進行比較。

    步驟一: 按照兩個模型要求中更嚴格的要求準備一個高品質的資料集。使用 ChatML 模板格式(兩者都可用)。確保沒有示例超過 16K token(Phi-4 的限制——限制更嚴格的約束)。在適用的地方包含思維鏈推理(有利於 Phi-4,不損害 Qwen)。

    步驟二: 在相同資料集上以可比的超參數微調兩個模型。使用相同的學習率排程、批次大小(根據模型大小調整)和訓練持續時間。

    步驟三: 在相同的保留測試集上使用特定任務的指標評估兩個模型。不要在通用基準上評估——在您的任務和您的資料上評估。

    步驟四: 選出勝者。對大多數僅英語的企業任務,效能差距很小,使得推論成本和延遲成為決定因素。對多語言任務,Qwen 2.5 通常勝出。對以推理為重的任務,Phi-4 通常略勝一籌。

    這種雙重微調方法的訓練計算成本是 2 倍(對 SLM 規模的模型通常是幾百美元的差距),但消除了猜測。在部署後發現選錯了模型的成本,遠高於兩次訓練運行的成本。

    常見錯誤

    為非 Llama 模型使用 Llama 格式模板。 Llama 的 [INST]...[/INST] 模板不是通用的。Phi-4 和 Qwen 都使用 ChatML。使用錯誤的模板會產生一個能用但效能比應有的低 5–15% 的模型——一種難以診斷的微妙失敗。

    使用錯誤的分詞器估算 token 數量。 如果您使用 GPT-4 的分詞器規劃輸入長度,但在 Qwen 上訓練,您的估算是錯的。始終使用目標模型的分詞器進行規劃。

    忽視模型特定的優勢。 在沒有思維鏈示例的情況下微調 Phi-4,放棄了效能。在英語資料上微調 Qwen 2.5,而您的生產資料包含其他語言,浪費了模型的多語言能力。

    過度針對一個模型優化。 如果您專門為 Phi-4 的優勢(英語、推理、16K 上下文)準備資料,您使資料集的可攜性降低。除非您對模型選擇有把握,否則準備對兩者都有效的資料。

    Ertas Data Suite 自動處理模型特定的資料格式化。選擇您的目標模型(Phi-4、Qwen 2.5、Llama、Mistral 或其他),平台應用正確的聊天模板,根據模型的上下文視窗驗證 token 數量,並標記超過長度限制的示例。對於微調多個模型的團隊,相同的標注資料集可以以不同的模型特定格式匯出,無需重新標注——更改匯出目標,格式自動調整。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading