Back to blog
    空氣隔離環境中的微調合成資料生成
    synthetic-datadata-augmentationair-gappedfine-tuninglocal-llmon-premisesegment:service-provider

    空氣隔離環境中的微調合成資料生成

    如何在空氣隔離環境中生成合成訓練資料——涵蓋改述、指令生成、DPO 配對,以及僅使用本地 LLM 進行種子擴展。

    EErtas Team·

    企業資料集規模很小。不是「我們希望有更多」的小,而是結構性的小。一家醫院可能有 1,500 份相關的放射科報告。一家律師事務所可能有 800 份所需特定類型的合約。一家銀行可能有 3,000 份適合分類任務的交易敘述。

    對於微調而言,這往往不夠。根據任務複雜度,大多數微調方法在 5,000–50,000 個訓練樣本時效果更好。當真實資料稀缺時,合成資料生成填補了這一空缺——使用模型創建額外的訓練樣本,以擴大覆蓋範圍、平衡類別分布並引入變化。

    在不允許任何網路流量的空氣隔離環境中,所有生成必須使用本地模型。本指南涵蓋實際技術、工作流程和限制。


    為何合成資料對服務提供者很重要

    向企業客戶提供微調服務的服務提供者,幾乎在每個專案中都面臨資料量不足的問題。企業客戶有足夠的資料來展示任務,但很少有足夠的資料進行穩健的模型訓練。

    選擇如下:

    1. 用現有資料訓練 — 對資料量大的簡單任務有效。當資料稀缺時,產生脆弱的模型。
    2. 收集更多真實資料 — 理想但緩慢。需要客戶可能沒有的領域專家時間。可能需要數月才能積累足夠的資料。
    3. 生成合成資料 — 使用現有真實資料作為種子,立即擴展資料集。現在就可以使用,品質可控。

    合成資料不是真實資料的替代品,而是倍增器。由 1,500 個真實樣本和 5,000 個合成樣本組成的資料集,通常比單獨的 1,500 個真實樣本產生更好的微調結果——前提是合成資料經過品質過濾。


    合成資料生成技術

    改述

    取一個現有的訓練樣本,生成保留含義但改變表面形式的變體。這是最簡單、最安全的數據增強技術。

    工作原理:使用現有樣本提示本地 LLM,要求生成 3–5 個改述版本。過濾生成的改述,篩選相似度(太相似 = 無益,太不同 = 語意漂移)。

    使用時機:當您需要更多訓練量但標籤分布已經均衡時。改述不會改變分布——它只是增加密度。

    品質控制

    • 原文與改述之間的語意相似度應為 0.7–0.9(由本地嵌入模型測量)
    • 應丟棄完全相同或幾乎相同的副本
    • 應保留領域專屬術語,不應被改述掉

    從文件生成指令

    將原始文件轉換為指令/完成訓練對。這是從文件集建立微調資料集的主要技術。

    工作原理:給定一個源文件,提示模型生成文件可以回答的問題或指令。然後從文件中生成(或提取)完成部分。

    示例:給定一個關於終止權的合約條款,生成:

    • 「本協議中的終止條件是什麼?」
    • 「總結提前終止條款。」
    • 「在什麼情況下任何一方可以終止?」

    每個問答對成為一個訓練樣本。

    使用時機:當客戶有文件但沒有指令/完成對時。這是最常見的企業場景——組織的知識存在於文件中,但不是微調所需的格式。

    品質控制

    • 生成的問題必須可以從源文件中得到解答
    • 完成部分必須有文件事實依據,而非幻覺
    • 問題類型應多樣(事實性、分析性、摘要性)且複雜度各異

    DPO 配對創建

    直接偏好優化(DPO)訓練需要一個回應優於另一個的配對。當您想引導模型行為時,合成生成這些配對很有價值——偏好簡潔回答、偏好正式語氣、偏好引用來源的回答。

    工作原理:對於給定的指令,生成兩個回應:一個遵循所需行為,一個違反所需行為。將配對標記為選擇/拒絕。

    使用時機:當微調目標除了事實準確性之外,還包括行為對齊(語氣、格式、安全性、引用行為)時。

    品質控制

    • 選擇和拒絕之間的差異應清晰且一致
    • 兩個回應都應流暢——拒絕的回應不應明顯有缺陷
    • 偏好方向應與有記錄的風格指南一致

    種子樣本擴展

    從一小組高品質、經人工驗證的樣本開始,生成與種子的模式、分布和品質相匹配的額外樣本。

    工作原理:提供 10–20 個種子樣本作為上下文。提示模型生成遵循相同模式的新樣本。過濾品質和去重。

    使用時機:當您有少量專家創建的樣本需要擴大規模時。適合模式一致的專業任務(如臨床筆記摘要、合約條款提取)。

    品質控制

    • 生成樣本應與種子樣本的分布匹配(主題、長度、複雜度)
    • 手動審查隨機抽樣(10–20%)以驗證品質
    • 生成樣本與種子之間的語意相似度應在定義範圍內(不太近,不太遠)

    空氣隔離的限制

    上述所有技術都可以使用雲端 API。空氣隔離環境的限制是生成必須完全使用本地模型。這引入了特定的限制和注意事項:

    模型能力上限:本地模型(70 億–700 億參數)在生成任務上不如前沿 API 模型(GPT-4、Claude)。生成文本品質較低,幻覺率較高,指令遵從的可靠性較差。

    緩解方法:更嚴格的品質過濾。生成比所需更多的樣本,積極過濾至前 60–70% 的品質分數。

    吞吐量限制:在單個 GPU 上生成 10,000 個合成樣本,根據模型大小和輸出長度,需要數小時至數天。在專案時間表中規劃生成時間。

    緩解方法:使用較小的模型(70 億–80 億參數)以高吞吐量進行初始生成,然後使用較大的模型(130 億–700 億參數)進行品質過濾。生成模型不需要完美——過濾器才需要。

    無法更新模型:在空氣隔離環境中,您無法在專案期間下載新的模型權重。在網路斷開前預先載入所有可能需要的模型。


    比較:合成資料工具

    Distilabel(Argilla)

    用於使用 LLM 生成合成資料的開源庫。基於管線——將生成步驟定義為有向圖。

    優勢:靈活,支援多種 LLM 後端,文件完善。弱點:需要 Python 專業知識進行配置。無 GUI。管線定義是程式碼,而非配置。領域專家無法獨立使用。

    Gretel

    專注於隱私安全資料生成的商業合成資料平台。支援表格和文本資料。

    優勢:強大的隱私保證,適合表格資料增強。弱點:雲端/混合部署模型——不適合完全空氣隔離的環境。商業授權。

    自訂腳本

    許多團隊編寫自訂生成腳本——一個使用提示模板和品質過濾器呼叫 Ollama API 的 Python 循環。

    優勢:完全控制,除 LLM 執行環境外無依賴。弱點:維護負擔,無內建品質指標,無稽核追蹤,跨專案不可重用。


    實際工作流程

    空氣隔離環境中合成資料生成的逐步工作流程:

    步驟一:選擇種子樣本(1–2 小時) 從您的標注資料集中,選擇 20–50 個高品質、具代表性的樣本。這些應涵蓋資料集中的全部類別、複雜度級別和格式。

    步驟二:配置本地 LLM(30 分鐘) 透過 Ollama 或 llama.cpp 部署生成模型。用幾個樣本提示測試推論速度和輸出品質。調整溫度(0.7–0.9 適合生成)和最大 token 數。

    步驟三:設計生成提示(2–4 小時) 為您將使用的每種生成技術編寫和測試提示。對 20 個種子樣本進行測試。迭代直到輸出品質一致。

    步驟四:大規模生成(4–24 小時,取決於量) 對所有技術執行批次生成。目標是所需量的 3–5 倍——之後會過濾掉。

    步驟五:品質過濾(2–4 小時) 應用自動品質過濾器:

    • 與種子的語意相似度(保留 0.6–0.9 範圍)
    • 對真實資料和合成資料內部去重
    • 啟發式品質檢查(長度、連貫性、格式合規)
    • 可選:使用較大的本地模型作為品質評判者

    步驟六:人工審查(2–8 小時) 領域專家審查過濾後合成資料的隨機 10–20% 抽樣。拒絕事實錯誤、離題或風格不一致的樣本。

    步驟七:與真實資料合併(30 分鐘) 將過濾後的合成資料與真實標注資料合併。用元數據標記合成樣本(用於可追溯性)。典型的最終比例:20–40% 合成,60–80% 真實。


    品質過濾:不可妥協的步驟

    沒有品質過濾的合成資料比沒有合成資料更糟。未過濾的生成文本引入幻覺、事實錯誤和分布偏移,這些都會降低模型效能。

    最低限度的過濾管線:

    1. 格式合規:生成的樣本是否與所需模式匹配?
    2. 去重:此樣本是否與所有其他樣本(真實和合成)有所區別?
    3. 語意相關性:此樣本是否與訓練任務相關?
    4. 事實依據:對於從源文件生成的樣本,答案是否可以對照源文件驗證?
    5. 多樣性檢查:合成集是否覆蓋與真實資料相同的分布,還是聚集在一起?

    Ertas Data Suite 的增強模塊使用本地 LLM(透過 Ollama/llama.cpp)處理合成資料生成,內建品質過濾和去重功能。生成提示透過視覺介面配置,每個生成樣本都附有其源種子、生成方法和品質分數的標記——全部記錄到專案稽核追蹤中。


    連接到管線

    增強後的資料(真實 + 合成)進入匯出環節,在那裡組合後的資料集被格式化用於目標使用場景——用於微調的 JSONL、用於 RAG 的分塊文本,或根據需要的其他格式。

    有關完整管線概覽,請參閱如何為 LLM 微調建立本地資料準備管線

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading