微調用合成資料生成：真正有效的技術

每個微調專案都會撞上同一道牆：您需要數千個高品質的標注樣本，卻只有一百個左右。收集和標注真實資料速度緩慢、成本高昂，而且往往受到隱私限制。這是資料瓶頸，它扼殺的微調專案比任何技術挑戰都多。

合成資料生成透過使用前沿模型為較小模型生產訓練資料來解決這個問題。概念很簡單——使用 GPT-4、Claude 或其他有能力的模型作為教師，為學生模型生成將要學習的樣本。然而，執行需要刻意的技術，以避免合成資料出錯的諸多方式。

本指南涵蓋持續產生可用訓練資料的技術、重要的品質訊號，以及需要警惕的失敗模式。

使用合成資料的理由

在窄任務上微調 70 億參數模型通常需要 1,000 到 5,000 個樣本。對大多數團隊而言，組建這個規模的真實、標注資料是整個管線中最難的部分。資料要麼尚不存在，要麼存儲在有存取限制的系統中，要麼需要領域專家來標注——而這些專家的時間昂貴且有限。

合成資料生成顛覆了這種經濟學。前沿模型可以在幾分鐘內以幾分錢的成本生成數千個標注樣本。品質不等同於精心人工策劃的資料，但對許多任務而言已足夠接近——而速度優勢是數個數量級的。

關鍵洞察是：合成資料生成不是關於替換真實資料，而是關於引導一個足夠大的資料集以有效微調，然後隨時間用真實生產資料逐步改善它。

技術一：直接任務生成

最簡單的方法是提示前沿模型直接為您的任務生成輸入-輸出對。

對於支援票分類器，提示可能是：

Generate 20 diverse customer support tickets with their correct category labels.
Categories: billing, technical, shipping, account, general.
Format each as JSON: {"input": "ticket text", "output": "category"}
Include a mix of easy and ambiguous cases.
Vary the writing style, length, and tone across examples.

當前沿模型已經理解該領域時，此方法效果很好。關鍵是提示的具體性：精確描述輸出格式，明確要求多樣性，並按名稱包含邊緣案例。

使用時機： 當您沒有或很少有真實樣本時的早期資料集創建階段。適合快速獲得基準資料集。

限制： 模型從自身分布生成，這可能與您的實際生產分布不符。除非您積極推動多樣性，否則樣本趨向於聚集在常見模式周圍。

技術二：基於種子的擴展

從一小組真實樣本開始（甚至 30–50 個就足夠了），使用前沿模型生成變體。

提示結構如下：

Here are 5 real examples of [task]:
[example 1]
[example 2]
...

Generate 20 new examples that follow the same patterns but with different
content. Maintain the same format, difficulty distribution, and style
variation as the originals. Do not repeat or closely paraphrase the originals.

基於種子的擴展產生的資料與您的實際分布更好地校準，因為模型在真實樣本上錨定。生成的資料繼承了種子的格式慣例、難度級別和領域細節。

使用時機： 當您有一些真實資料但不夠時。這是實際微調專案中最常用的技術。

進階提示： 在生成批次之間輪換您包含的種子樣本。如果您總是顯示相同的 5 個種子，生成的資料將聚集在那些特定的模式周圍。每批次抽取不同的種子可以產生更好的覆蓋範圍。

技術三：思維鏈提取

對於推理很重要的任務——不只是最終答案——同時生成推理追蹤和輸出。

For each of the following questions, provide:
1. Step-by-step reasoning (2-4 sentences)
2. The final answer

Question: [input]

在包含推理鏈的樣本上微調學生模型，比僅在輸入-輸出對上訓練產生顯著更好的結果。學生不只學習輸出什麼，還學習如何得出正確輸出——這可以轉移到訓練期間未見過的新輸入。

這種技術對涉及細微分類、多步提取或任何類別邊界模糊的場景特別有效。推理鏈教導學生模型考慮與教師模型相同的因素。

使用時機： 任何正確答案需要判斷或多步推理的任務。對於格式轉換等簡單的模式匹配任務用處較小。

技術四：對抗性過濾

並非所有合成資料都是好資料。對抗性過濾使用第二個模型（或同一個模型在不同角色下）識別並移除生成資料集中的低品質樣本。

過程如下：

使用技術一到三生成一批合成樣本
用提示將每個樣本呈現給審查模型：「這是否是一個有效、真實的 [任務] 示例？評分 1–5 並解釋任何問題。」
移除評分低於 4 的樣本
對邊緣案例，修改而非丟棄：「此樣本有 [問題]。重寫以修復問題，同時保持相同的一般內容。」

這增加了成本——您為每個樣本執行兩次推論——但品質提升相當大。實際上，對抗性過濾移除了 15–30% 的生成樣本，而生成的資料集訓練出明顯更好的模型。

使用時機： 如果預算允許，始終使用。過濾成本與在壞資料上訓練並在後續調試品質問題的成本相比微不足道。

重要的品質訊號

除了對抗性過濾，對合成資料集應用以下自動品質檢查：

一致性檢查。 對於分類任務，用不同的提示對每個輸入生成兩次。如果分配的標籤改變，該樣本是模糊的——要麼修復它要麼移除它。

格式驗證。 以程式方式解析每個輸出。如果任務期望 JSON，驗證 JSON。如果它期望特定的標籤集，驗證標籤在允許集中。拒絕任何無法乾淨解析的內容。

去重。 合成生成通常產生近似重複項，尤其是在直接任務生成中。使用嵌入相似度識別並移除彼此過於相近的樣本。餘弦相似度閾值 0.95 能捕捉大多數有問題的重複項，同時保留合法的相似但不同的樣本。

分布均衡。 檢查生成的資料集是否均衡覆蓋輸入空間。如果您在 5 個類別上生成支援票，驗證沒有單一類別佔主導。不平衡的訓練資料產生有偏差的模型。

您需要多少合成資料

越多並不總是越好。對大多數微調任務，有明顯的收益遞減：

500–1,000 個樣本： 對簡單任務比基礎模型有明顯改進
2,000–5,000 個樣本： 大多數窄任務的最佳範圍，品質大幅提升
5,000–10,000 個樣本： 邊際改進，對生產關鍵應用值得
10,000 個以上樣本： 除非任務格外複雜或多樣，否則很少有必要

在開發過程中，繪製評估指標與資料集大小的關係圖。當曲線趨於平緩時，您有足夠的資料了。生成更多不會有幫助——提高資料品質才會。

混合真實資料與合成資料

最強大的微調資料集同時包含真實樣本和合成樣本。實際的比例是 80/20 原則：80% 合成資料用於量和多樣性，20% 真實生產資料用於分布校準。

真實資料將模型錨定在實際生產模式中。合成資料填補覆蓋範圍的空缺，並提供穩健訓練所需的量。兩者共同產生既校準良好又泛化良好的模型。

隨著您的生產系統隨時間積累更多真實資料，逐漸增加真實到合成的比例。合成資料是腳手架——對於入門非常寶貴，但理想情況下隨著真實資料變得可用而被替換。

常見失敗模式

模式崩潰。 前沿模型生成的樣本表面上看起來多樣，但實際上聚集在少數幾個模式周圍。透過嵌入生成資料並視覺化聚類來診斷。使用更多樣化的提示和帶有不同種子的種子擴展來修復。

分布不匹配。 合成資料反映前沿模型的先驗，而非您的生產分布。如果您的應用處理 60% 的帳單問題和 10% 的技術問題，但合成資料均勻分布，微調後的模型將在帳單查詢上表現不佳。透過將合成分布與您的真實流量模式匹配來修復。

在教師特徵上過度擬合。 前沿模型有風格傾向——特定的短語、格式習慣、對沖模式。如果您的合成資料保留了這些特徵，學生模型也會學習它們。透過改變生成提示、使用多個教師模型，以及後處理輸出以移除風格指紋來修復。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Ertas Vault 如何處理合成資料工作流程

Ertas Vault 旨在管理完整的合成資料生命週期。以自動格式驗證導入生成的資料集。上傳時執行去重和分布分析。對資料集進行版本控制，以便您可以追蹤哪些資料產生了哪個模型。比較不同資料集版本的模型效能，以識別哪些生成技術對您的特定任務效果最好。

該平台支援迭代改進：生成一批，訓練模型，評估，識別空缺，為這些空缺生成針對性資料，再重新訓練。這個反饋循環是合成資料生成從一次性引導過渡到持續改進過程的地方。