Back to blog
    主動學習迴圈:無資料外洩的模型輔助標註
    active-learninglabelingon-premisedomain-expertsdata-preparationsegment:enterprise

    主動學習迴圈:無資料外洩的模型輔助標註

    主動學習使用您的模型建議標籤,然後由領域專家確認或修正。它將標註時間縮短 75%——當模型在本地運行時,零資料離開您的基礎設施。

    EErtas Team·

    資料標註是任何企業 AI 流程中最昂貴的階段。它需要領域專家——每小時收費 $80-200 的人員——手動為數百或數千個範例分配標籤。一個有 10,000 份文件和 15 個類別的分類專案可能消耗超過 400 小時的專家時間。以每小時 $120 計算,僅勞動力成本就達 $48,000。

    主動學習將這個數字減少 75%。模型建議標籤,專家確認或修正,而不是從頭標註每個範例。專家審查 10,000 個項目而非標註 10,000 個項目——這是一個根本不同的任務,只需要一小部分時間。

    問題在於傳統的主動學習流程在建議步驟中將資料發送到雲端託管的模型。對於處理敏感文件的企業——法律合約、患者記錄、財務報告、機密資料——這造成了資料外洩問題。文件離開了組織的基礎設施,即使只是為了獲得標籤建議。

    解決方案:在本地運行建議模型。Ollama、vLLM 或任何本地推論伺服器在本地託管模型。主動學習迴圈完全在組織的網路內運行。零資料外洩。完全的效率提升。

    主動學習如何運作

    概念很簡單。主動學習是模型和人工標註者之間的回饋迴圈,旨在最大化每次人工決策所獲得的資訊。

    步驟 1:從一個小型已標註資料集開始。50-200 個範例,由領域專家手動標註。這是種子集。

    步驟 2:在種子集上訓練初始模型。它不會準確——在這麼少的資料下 50-65% 是典型的。沒關係。準確率還不是目標。信心度校準才是。

    步驟 3:模型對所有未標註資料預測標籤。對於每個預測,它還輸出信心度分數——它對標籤的確定程度。

    步驟 4:將預測呈現給領域專家,按不確定性排序(最低信心度優先)。專家看到文件、建議的標籤和信心度分數。他們要麼批准建議,要麼修正它。

    步驟 5:將新標註的範例(批准的和修正的)加入訓練集。

    步驟 6:在擴展的訓練集上重新訓練模型。

    步驟 7:從步驟 3 重複。

    每個週期,模型都會變得更好。經過 3-4 個週期,它通常在建議上達到 85-92% 的準確率,這意味著專家用一次點擊就批准 85-92% 的標籤,只需要仔細考慮剩餘的 8-15%。

    為什麼不確定性取樣很重要

    主動學習的關鍵洞察是並非所有範例都同等具有資訊量。模型從它最不確定的範例中學到最多——那些在決策邊界附近的、邊界案例、模糊的文件。

    考慮一個文件分類任務,類別包括「合約」、「發票」、「法律意見」和「通信」。在第一個訓練週期後,模型可能以 95% 的信心認為一張發票就是發票。標註那張發票幾乎不會教模型任何東西——它已經知道了。

    但一份模型評分為 52%「法律意見」和 48%「通信」的文件是真正模糊的。當專家標註它時,模型確切地學到了這些類別之間的邊界在哪裡。

    不確定性取樣利用了這一點,始終首先呈現最不確定的範例。專家的時間花在最困難的案例上——對模型改進最重要的案例——而不是模型已經弄清楚的簡單案例。

    效率提升是顯著的。隨機取樣(以任意順序標註範例)需要大約 4 倍多的已標註範例才能達到與不確定性取樣相同的模型準確率。換句話說,不確定性取樣以少 75% 的專家時間達到相同的準確率。

    本地端主動學習迴圈

    以下是在無資料外洩情況下運行主動學習的完整技術設定。

    基礎設施

    • 推論伺服器:Ollama 運行一個有能力的分類模型。對於文字分類任務,Llama 3.3 8B 或 Qwen 2.5 7B 運作良好。這些模型在單一 GPU 上以 16GB 以上的 VRAM 運行。
    • 訓練伺服器:一台帶 GPU 的機器用於 fine-tuning。如果您在不同時間排程推論和訓練,同一台機器可以兼用。
    • 標註介面:一個網頁應用程式,領域專家在其中審查建議。這可以簡單到帶有批准/修正按鈕的試算表,或者是在本地運行的專用工具如 Label Studio。
    • 協調:一個協調迴圈的腳本——運行推論、按不確定性排序、呈現給標註者、收集決策、觸發重新訓練。

    週期 1:種子集

    領域專家手動標註 100-200 個範例。選擇這些範例以覆蓋所有類別的完整範圍——每個類別至少 10 個範例,模糊類別更多。在這裡花時間確保品質。這些標籤會傳播到每個後續週期。

    時間估算:200 個範例約 4-8 小時的專家時間。

    週期 2:首次主動學習通過

    在 200 個種子範例上 fine-tune 本地模型。在單一 A100 上,這對一個 7B 參數模型需要 15-30 分鐘。

    對所有未標註資料運行推論。對於 10,000 份文件,推論在單一 GPU 上需要 2-4 小時。

    按信心度排序預測。將底部 200 個(最低信心度)呈現給專家。專家審查每一個:批准建議的標籤或修正它。在這個階段,預期 50-65% 的建議是正確的——專家在做實際工作。

    時間估算:200 次審查約 3-5 小時(比原始標註快,因為專家是評估而非從頭決定)。

    週期 3:第二次通過

    在擴展的資料集上重新訓練(現在有 400 個已標註範例)。對剩餘未標註資料運行推論。呈現下一批 300 個最不確定的範例。

    在這個階段,準確率會跳升。模型已經看到週期 2 的專家修正並從中學習。預期 70-80% 的建議是正確的。專家移動更快——大多數審查都是快速的「批准」。

    時間估算:300 次審查約 3-4 小時。

    週期 4:第三次通過

    在 700 個已標註範例上重新訓練。呈現 500 個不確定範例。準確率:80-88%。專家時間:500 次審查約 3-4 小時(因為大多數是批准)。

    週期 5:最終通過

    在 1,200 個範例上重新訓練。呈現剩餘的不確定範例(通常 500-1,000 個)。準確率:85-92%。專家時間:3-5 小時。

    在這個週期之後,自動批准所有模型信心度超過 95% 的預測。對於 10,000 份文件的資料集,這通常覆蓋 6,000-7,000 份專家永遠不需要查看的文件。

    總專家時間

    不使用主動學習:約 400 小時(以每小時約 25 份的速度標註 10,000 份文件)。

    使用主動學習:4-5 個週期共約 20-25 小時,加上種子集的 8 小時。總共約 30 小時。

    這是專家時間 92% 的減少。即使使用保守的 75% 基準,節省也是變革性的。

    領域專家工作流程

    領域專家不需要接觸終端機、寫程式碼或理解機器學習。他們的介面應該顯示:

    1. 文件(或相關摘錄)
    2. 建議的標籤
    3. 模型的信心度分數
    4. 一個「批准」按鈕和一個選擇不同標籤的下拉選單

    就是這樣。沒有 Python notebook。沒有命令列參數。沒有 JSON 編輯。

    專家的工作是領域判斷:「這個標籤正確嗎?」他們帶來專業知識。系統帶來效率。

    對於使用 Ertas Data Suite 的團隊,這個介面是內建的。主動學習迴圈自動運行——系統訓練模型、按不確定性排序並呈現標註佇列。專家只需打開應用程式就開始審查。

    品質指標

    兩個指標告訴你主動學習迴圈是否有效。

    標註者間一致性

    如果多位專家在審查同樣的資料,衡量他們多常同意。Cohen's kappa 高於 0.8 是強一致性。在 0.6 和 0.8 之間,有模糊的類別需要更清晰的定義。低於 0.6,標註指南需要在繼續之前全面修訂。

    即使只有一位標註者,你也可以通過重新呈現 5% 已標註範例(隨機混入佇列中)並檢查專家是否給出相同標籤來衡量一致性。一致性低於 90% 表示疲勞或指南不清楚。

    模型信心度校準

    模型的信心度分數應該經過校準——當它說 90% 信心度時,它應該 90% 的時間是正確的。如果模型說 90% 但實際只有 70% 的時間正確,不確定性取樣就無法正常運作,因為模型不知道自己不知道什麼。

    在每次重新訓練週期後檢查校準。將預測信心度與實際準確率按區間(0-10%、10-20% 等)繪圖。校準良好的模型顯示一條對角線。過度自信的模型顯示高預測信心度但較低的實際準確率。如果模型系統性地過度自信,考慮在訓練期間進行溫度縮放或標籤平滑。

    何時停止

    主動學習有遞減回報。每個週期增加的新資訊更少,因為剩餘的未標註範例越來越類似於模型已經見過的範例。

    當以下任何條件滿足時停止:

    • 模型準確率趨於平穩:連續兩個週期顯示不到 1% 的準確率提升。模型已經從這些資料中學到了它能學的。
    • 專家投入超過價值:當專家批准超過 95% 的建議時,剩餘的修正是邊界案例,可能不值得專家的時間。
    • 覆蓋度足夠:你有涵蓋所有類別、所有邊界案例和所有已知模糊情況的已標註範例。額外的標籤增加數量但不增加多樣性。

    對於大多數企業分類任務,3-4 個主動學習週期就足夠了。第五個週期很少產生有意義的改善。

    處理邊界案例

    主動學習自然地浮現邊界案例——它們就是呈現給專家的高不確定性範例。這是它被低估的好處之一。

    沒有主動學習,邊界案例隱藏在未標註資料中。模型在生產環境中遇到它們,錯誤分類,使用者回報錯誤。有了主動學習,模型在準備階段識別這些案例,專家在部署前解決它們。

    記錄邊界案例的決策。當專家標註一份模糊文件時,記錄推理過程。「這份文件同時包含發票元素和合約語言。標註為『合約』,因為約束性條款優先。」這些筆記成為未來標註者和模型迭代所依據的機構知識。

    經濟效益

    對於每年處理 50,000 份文件、跨 3 個分類任務的企業:

    不使用主動學習:3 個任務 x 50,000 份文件 x 每個標籤 2 分鐘 = 5,000 小時的專家時間。以 $120/小時 = $600,000/年。

    使用主動學習:3 個任務 x 每個任務約 30 小時 = 約 90 小時的專家時間。以 $120/小時 = $10,800/年。加上本地 GPU 時間約 $5,000/年的基礎設施成本。

    總節省:約 $584,000/年。基礎設施在第一週就收回成本。

    這些數字會擴大。更大的文件量增加節省,因為主動學習效率保持不變——無論自動批准池中有多少文件,模型仍然從固定數量的專家審查範例中學習。

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading