What is Training Data(訓練資料)?
用於微調機器學習模型的精選範例資料集,通常為 JSONL 格式的結構化輸入-輸出對。
Definition
訓練資料是機器學習模型在微調過程中從中學習的範例集合。對於大型語言模型,訓練資料通常由結構化的輸入-輸出對組成:一個指令或提示搭配期望的回應。這些資料的格式、品質和多樣性是決定最終微調模型品質的最重要因素。即使是最強大的基礎模型,如果在嘈雜、有偏差或不足的資料上微調,也會產生糟糕的結果。
對於 LLM 微調,訓練資料最常以 JSONL(JSON Lines)格式儲存,其中每一行都是一個獨立的 JSON 物件,代表一個訓練範例。典型的範例可能包括 "instruction"(模型應該做什麼)、"input"(可選的上下文)和 "output"(理想的回應)等欄位。對話式微調使用帶有基於角色條目(system、user、assistant)的 "messages" 陣列。結構必須匹配目標模型架構期望的聊天模板。
在微調中,資料品質勝過資料數量。研究一致表明,幾千個高品質、經過仔細審查的範例優於數萬個嘈雜、自動生成的範例。最佳實踐包括移除重複項目、確保格式一致、平衡類別、過濾準確性,以及包含代表模型在生產中將遇到的真實世界輸入分佈的邊緣案例。
Why It Matters
「垃圾進,垃圾出」的格言特別適用於微調。在不準確、格式不佳或有偏差的訓練資料上微調的模型會在生產中自信地重現這些缺陷。相反,一個精心策展的甚至只有 1,000-5,000 個範例的資料集可以將通用基礎模型轉變為高效能的專家。對於組織而言,在資料策展上的投資——清理、標注、驗證和格式化——通常是任何微調專案中投資回報率最高的活動,遠超過超參數或訓練方法的選擇。
How It Works
訓練資料管線通常從原始資料收集開始——從內部知識庫、客服工單、領域專家或合成生成中收集範例。然後對這些原始資料進行清理、去重和格式化為所需的結構(通常是 JSONL)。常見做法是將資料分割為訓練集和驗證集(例如 90/10),其中驗證集用於在訓練期間監控過擬合。格式化的資料集然後上傳到訓練平台,在那裡被分詞(轉換為數值 token)並批次處理以進行高效的 GPU 處理。
Example Use Case
一家金融科技公司想要微調一個用於法規合規問答的模型。他們的資料團隊從內部合規文件中提取了 3,000 個問答對,由領域專家審查每一對的準確性,以設定合規顧問角色的系統提示將它們格式化為 JSONL,並將 10% 分割為驗證集。產生的訓練資料產出了一個在其基準上正確回答 89% 合規問題的模型——相比使用提示工程的基礎模型的 52%。
Key Takeaways
- 訓練資料品質是微調成功的最大單一因素。
- JSONL 是 LLM 微調資料集的標準格式,包含結構化的指令-輸出對。
- 幾千個高品質範例通常優於數萬個嘈雜範例。
- 資料在訓練前應經過清理、去重、平衡和領域專家驗證。
- 將資料分割為訓練集和驗證集對於偵測過擬合至關重要。
How Ertas Helps
Ertas Studio 提供內建工具用於上傳、預覽和驗證 JSONL 格式的訓練資料。平台在訓練開始前自動檢查格式錯誤、重複條目和結構不一致。Ertas 還提供資料預覽功能,讓使用者瀏覽範例並直觀地發現品質問題,降低在有缺陷的 資料上訓練的風險。這使得資料準備步驟——通常是微調中最繁瑣的部分——顯著更快更可靠。
Related Resources
Chat Template
Epoch
Fine-Tuning
JSONL
Overfitting
Synthetic Data
Tokenizer
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Introducing Ertas Studio: A Visual Canvas for Fine-Tuning AI Models
Synthetic Data Generation for Fine-Tuning: Techniques That Work
Hugging Face
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.