What is Annotation（標註）?

由人類標註者或自動化系統為原始資料添加結構化元資料、標籤或標記的過程，以建立用於監督式學習的訓練資料集。

Definition

標註是用結構化的標籤、標記或元資料來豐富原始資料，使其適合用於訓練機器學習模型的過程。在 NLP 和 LLM 微調的背景下，標註包括將文字分類到類別、標記實體跨度（命名實體識別）、在李克特量表上評分回應品質、識別事實錯誤、標記情感，以及將指令與適當的回應配對等任務。

標註是原始資料和可用訓練資料之間的橋樑。從網路抓取、從文件中提取或從資料庫中提取的原始文字不能直接用於監督式微調——它缺乏告訴模型應該學習什麼的結構化標籤。標註者透過根據定義的指南應用人類判斷，將這些原始材料轉化為訓練訊號。標註品質直接決定了最終模型的品質上限。

標註過程涉及多個組件：標註指南（定義每個標籤類別的詳細說明，包含範例和邊緣案例解決方案）、標註工具（向標註者呈現資料並有效捕獲其判斷的介面）、品質保證流程（標註者間一致性測量、金標準檢查和分歧裁決）以及專案管理（追蹤進度、管理標註者池和維持專案生命週期的一致性）。

Why It Matters

標註品質是監督式學習的基礎。模型只能學習訓練標註中一致存在的模式。如果標註者經常意見不合、不一致地應用標籤或誤解指南，模型將學習到相互矛盾的模式的混淆混合，產生不可靠的輸出。

標註的成本和可擴展性驅動著機器學習中許多重要的架構決策。高品質人工標註的費用（通常每個範例 $1-50，取決於任務複雜度）推動了主動學習（策略性選擇哪些範例進行標註）、半自動標註（使用模型生成草稿標註然後由人工修正）和資料增強（透過轉換來增加每個已標註範例的價值）等技術。

How It Works

典型的標註工作流程從建立指南開始。領域專家定義標註方案——存在哪些類別、如何處理邊緣案例、什麼構成高品質與低品質的回應。這些指南在小型試點集上進行測試以識別模糊之處，然後根據標註者的回饋進行修改。

在標註期間，標註者使用專門的介面處理資料集。對於 LLM 微調資料，這可能涉及為給定指令撰寫回應完成、在多個維度上評分回應品質，或按主題和難度分類範例。品質在整個過程中受到監控：標註者間一致性（通常用 Cohen's kappa 或 Fleiss' kappa 測量）必須超過閾值（通常 0.7 以上），定期的校準會議會在專案進行時重新對齊標註者。個別範例上的分歧透過資深標註者或領域專家的裁決來解決。

Example Use Case

一家公司為醫療問答模型準備資料，聘請了 10 位臨床醫師標註者。每位標註者審查 AI 生成的患者問題回覆，在準確性（1-5）、完整性（1-5）和安全性（通過/不通過）上進行評分。每個回覆由 3 位標註者評分，差異超過 2 分的案例由資深醫師審查。在標註 5,000 個回覆後，團隊達到了 Cohen's kappa 0.82——強一致性——並使用評分建立了偏好資料集用於 DPO 訓練，顯著改善了模型的醫療回應品質。