What is Data Labeling（資料標記）?

將有意義的標籤、類別或標註分配給原始資料的過程，使機器學習模型能夠從結構化範例中學習。

Definition

資料標記是將結構化元資料——分類、標籤、邊界框、實體跨度或品質分數——附加到原始資料上，使其能作為監督式機器學習訓練訊號的過程。在 LLM 微調中，標記通常意味著將文字組織成指令-回應對、按主題或難度分類、評分回應品質，或用實體類型標註文字跨度。

標籤品質直接決定模型表現上限。在標記不佳的資料上訓練的模型將學習錯誤的模式，無論架構或訓練配置如何。高品質標記需要清晰的標註指南、訓練有素的標註者和系統化的品質保證流程。

對於微調語言模型，標記資料集是傳達期望行為的主要機制。每個指令-回應對都是教導模型什麼是好回應的隱含標籤。標記也是資料集建立中最耗時和最昂貴的部分，每個範例 $5-50，這推動了半自動標記方法的發展。

典型的標記工作流程從定義標記方案開始，配置標記介面，標註者根據指南處理資料集。品質透過冗餘標記、金標準範例和自動一致性檢查來保證。標記的資料集以適合訓練的格式匯出——通常是 JSONL。

一家電商公司想將客戶詢問分為 15 類。他們提取 10,000 個工單，三個標註者獨立標記。分歧案例由資深客服審查。最終資料集達 94% 標註者間一致性，微調分類器準確度 91%——比零樣本提高 23%。

Ertas Data Suite 包含專門的標記階段，使用者可透過直觀介面分類、標記和評分訓練範例。內建品質指標和一致性檢查確保高標籤品質。

Active Learning

Annotation

Data Augmentation

Instruction Tuning

Training Data

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.