空氣隔離環境中的微調合成資料生成

企業資料集規模很小。不是「我們希望有更多」的小，而是結構性的小。一家醫院可能有 1,500 份相關的放射科報告。一家律師事務所可能有 800 份所需特定類型的合約。一家銀行可能有 3,000 份適合分類任務的交易敘述。

對於微調而言，這往往不夠。根據任務複雜度，大多數微調方法在 5,000–50,000 個訓練樣本時效果更好。當真實資料稀缺時，合成資料生成填補了這一空缺——使用模型創建額外的訓練樣本，以擴大覆蓋範圍、平衡類別分布並引入變化。

在不允許任何網路流量的空氣隔離環境中，所有生成必須使用本地模型。本指南涵蓋實際技術、工作流程和限制。

為何合成資料對服務提供者很重要

向企業客戶提供微調服務的服務提供者，幾乎在每個專案中都面臨資料量不足的問題。企業客戶有足夠的資料來展示任務，但很少有足夠的資料進行穩健的模型訓練。

選擇如下：

用現有資料訓練 — 對資料量大的簡單任務有效。當資料稀缺時，產生脆弱的模型。
收集更多真實資料 — 理想但緩慢。需要客戶可能沒有的領域專家時間。可能需要數月才能積累足夠的資料。
生成合成資料 — 使用現有真實資料作為種子，立即擴展資料集。現在就可以使用，品質可控。

合成資料不是真實資料的替代品，而是倍增器。由 1,500 個真實樣本和 5,000 個合成樣本組成的資料集，通常比單獨的 1,500 個真實樣本產生更好的微調結果——前提是合成資料經過品質過濾。

合成資料生成技術

改述

取一個現有的訓練樣本，生成保留含義但改變表面形式的變體。這是最簡單、最安全的數據增強技術。

工作原理：使用現有樣本提示本地 LLM，要求生成 3–5 個改述版本。過濾生成的改述，篩選相似度（太相似 = 無益，太不同 = 語意漂移）。

使用時機：當您需要更多訓練量但標籤分布已經均衡時。改述不會改變分布——它只是增加密度。

品質控制：

原文與改述之間的語意相似度應為 0.7–0.9（由本地嵌入模型測量）
應丟棄完全相同或幾乎相同的副本
應保留領域專屬術語，不應被改述掉

從文件生成指令

將原始文件轉換為指令/完成訓練對。這是從文件集建立微調資料集的主要技術。

工作原理：給定一個源文件，提示模型生成文件可以回答的問題或指令。然後從文件中生成（或提取）完成部分。

示例：給定一個關於終止權的合約條款，生成：

「本協議中的終止條件是什麼？」
「總結提前終止條款。」
「在什麼情況下任何一方可以終止？」

每個問答對成為一個訓練樣本。

使用時機：當客戶有文件但沒有指令/完成對時。這是最常見的企業場景——組織的知識存在於文件中，但不是微調所需的格式。

品質控制：

生成的問題必須可以從源文件中得到解答
完成部分必須有文件事實依據，而非幻覺
問題類型應多樣（事實性、分析性、摘要性）且複雜度各異

DPO 配對創建

直接偏好優化（DPO）訓練需要一個回應優於另一個的配對。當您想引導模型行為時，合成生成這些配對很有價值——偏好簡潔回答、偏好正式語氣、偏好引用來源的回答。

工作原理：對於給定的指令，生成兩個回應：一個遵循所需行為，一個違反所需行為。將配對標記為選擇/拒絕。

使用時機：當微調目標除了事實準確性之外，還包括行為對齊（語氣、格式、安全性、引用行為）時。

品質控制：

選擇和拒絕之間的差異應清晰且一致
兩個回應都應流暢——拒絕的回應不應明顯有缺陷
偏好方向應與有記錄的風格指南一致

種子樣本擴展

從一小組高品質、經人工驗證的樣本開始，生成與種子的模式、分布和品質相匹配的額外樣本。

工作原理：提供 10–20 個種子樣本作為上下文。提示模型生成遵循相同模式的新樣本。過濾品質和去重。

使用時機：當您有少量專家創建的樣本需要擴大規模時。適合模式一致的專業任務（如臨床筆記摘要、合約條款提取）。

品質控制：

生成樣本應與種子樣本的分布匹配（主題、長度、複雜度）
手動審查隨機抽樣（10–20%）以驗證品質
生成樣本與種子之間的語意相似度應在定義範圍內（不太近，不太遠）

空氣隔離的限制

上述所有技術都可以使用雲端 API。空氣隔離環境的限制是生成必須完全使用本地模型。這引入了特定的限制和注意事項：

模型能力上限：本地模型（70 億–700 億參數）在生成任務上不如前沿 API 模型（GPT-4、Claude）。生成文本品質較低，幻覺率較高，指令遵從的可靠性較差。

緩解方法：更嚴格的品質過濾。生成比所需更多的樣本，積極過濾至前 60–70% 的品質分數。

吞吐量限制：在單個 GPU 上生成 10,000 個合成樣本，根據模型大小和輸出長度，需要數小時至數天。在專案時間表中規劃生成時間。

緩解方法：使用較小的模型（70 億–80 億參數）以高吞吐量進行初始生成，然後使用較大的模型（130 億–700 億參數）進行品質過濾。生成模型不需要完美——過濾器才需要。

無法更新模型：在空氣隔離環境中，您無法在專案期間下載新的模型權重。在網路斷開前預先載入所有可能需要的模型。

比較：合成資料工具

Distilabel（Argilla）

用於使用 LLM 生成合成資料的開源庫。基於管線——將生成步驟定義為有向圖。

優勢：靈活，支援多種 LLM 後端，文件完善。弱點：需要 Python 專業知識進行配置。無 GUI。管線定義是程式碼，而非配置。領域專家無法獨立使用。

Gretel

專注於隱私安全資料生成的商業合成資料平台。支援表格和文本資料。

優勢：強大的隱私保證，適合表格資料增強。弱點：雲端/混合部署模型——不適合完全空氣隔離的環境。商業授權。

自訂腳本

許多團隊編寫自訂生成腳本——一個使用提示模板和品質過濾器呼叫 Ollama API 的 Python 循環。

優勢：完全控制，除 LLM 執行環境外無依賴。弱點：維護負擔，無內建品質指標，無稽核追蹤，跨專案不可重用。

實際工作流程

空氣隔離環境中合成資料生成的逐步工作流程：

步驟一：選擇種子樣本（1–2 小時） 從您的標注資料集中，選擇 20–50 個高品質、具代表性的樣本。這些應涵蓋資料集中的全部類別、複雜度級別和格式。

步驟二：配置本地 LLM（30 分鐘） 透過 Ollama 或 llama.cpp 部署生成模型。用幾個樣本提示測試推論速度和輸出品質。調整溫度（0.7–0.9 適合生成）和最大 token 數。

步驟三：設計生成提示（2–4 小時） 為您將使用的每種生成技術編寫和測試提示。對 20 個種子樣本進行測試。迭代直到輸出品質一致。

步驟四：大規模生成（4–24 小時，取決於量） 對所有技術執行批次生成。目標是所需量的 3–5 倍——之後會過濾掉。

步驟五：品質過濾（2–4 小時） 應用自動品質過濾器：

與種子的語意相似度（保留 0.6–0.9 範圍）
對真實資料和合成資料內部去重
啟發式品質檢查（長度、連貫性、格式合規）
可選：使用較大的本地模型作為品質評判者

步驟六：人工審查（2–8 小時） 領域專家審查過濾後合成資料的隨機 10–20% 抽樣。拒絕事實錯誤、離題或風格不一致的樣本。

步驟七：與真實資料合併（30 分鐘） 將過濾後的合成資料與真實標注資料合併。用元數據標記合成樣本（用於可追溯性）。典型的最終比例：20–40% 合成，60–80% 真實。

品質過濾：不可妥協的步驟

沒有品質過濾的合成資料比沒有合成資料更糟。未過濾的生成文本引入幻覺、事實錯誤和分布偏移，這些都會降低模型效能。

最低限度的過濾管線：

格式合規：生成的樣本是否與所需模式匹配？
去重：此樣本是否與所有其他樣本（真實和合成）有所區別？
語意相關性：此樣本是否與訓練任務相關？
事實依據：對於從源文件生成的樣本，答案是否可以對照源文件驗證？
多樣性檢查：合成集是否覆蓋與真實資料相同的分布，還是聚集在一起？

Ertas Data Suite 的增強模塊使用本地 LLM（透過 Ollama/llama.cpp）處理合成資料生成，內建品質過濾和去重功能。生成提示透過視覺介面配置，每個生成樣本都附有其源種子、生成方法和品質分數的標記——全部記錄到專案稽核追蹤中。

連接到管線

增強後的資料（真實 + 合成）進入匯出環節，在那裡組合後的資料集被格式化用於目標使用場景——用於微調的 JSONL、用於 RAG 的分塊文本，或根據需要的其他格式。

有關完整管線概覽，請參閱如何為 LLM 微調建立本地資料準備管線。

空氣隔離環境中的微調合成資料生成

為何合成資料對服務提供者很重要

合成資料生成技術

改述

從文件生成指令

DPO 配對創建

種子樣本擴展

空氣隔離的限制

比較：合成資料工具

Distilabel（Argilla）

Gretel

自訂腳本

實際工作流程

品質過濾：不可妥協的步驟

連接到管線

Ship AI that runs on your users' devices.

Keep reading

在氣隔企業環境中使用 Ollama 進行 AI 輔助資料準備

企業 AI 資料準備的本地端運行時架構

政府和國防 AI 承包商的氣隙數據準備