What is Active Learning(主動學習)?

    一種機器學習方法,模型有選擇性地向人類標註者查詢,標記最具資訊價值的範例,以最大化每個已標記樣本的學習效率。

    Definition

    主動學習是一種訓練策略,讓模型參與選擇下一步應標記哪些資料點,而非在隨機抽樣的已標記資料集上進行訓練。其核心理念是,並非所有訓練範例都具有同等的資訊價值——某些範例在被標記並加入訓練集後,能比其他範例更大幅度地提升模型表現。透過策略性地選擇最具資訊價值的範例進行標記,主動學習可以在使用顯著較少的已標記範例下達到相同的模型品質,從而降低標註成本。

    在大型語言模型(LLM)微調的背景下,主動學習通常以迭代循環的方式運作。模型首先在一小組已標記的種子集上進行訓練,然後使用不確定性或資訊量準則對一組未標記範例進行評分,選出最具資訊價值的候選者,並將其呈現給人類標註者進行標記。新標記的範例被加入訓練集,模型重新訓練,循環重複,直到達到品質目標或標註預算用盡。

    主動學習的選擇策略包括不確定性抽樣(選擇模型最不確定的範例)、多樣性抽樣(選擇彼此之間以及與現有訓練集差異最大的範例)、預期模型變化(選擇會導致最大梯度更新的範例)以及基於委員會的方法(選擇多個模型意見不一致的範例)。每種策略根據任務和資料分佈具有不同的優勢。

    Why It Matters

    標註是 LLM 微調中最主要的成本瓶頸。專業領域(醫療、法律、金融)的高品質標記資料在由領域專家標註時,每個範例可能花費 $10-50。與隨機抽樣相比,主動學習可以減少所需標記範例數量 50-80%,直接轉化為相應的成本節省。

    除了成本節省之外,主動學習透過將標註工作集中在最重要的範例上來提升資料品質。標註者不是在標記模型已經能處理好的數百個簡單、冗餘的範例,而是將時間花在模型需要幫助的具有挑戰性的邊緣案例和模糊範例上。這產生了一個資訊含量最優的訓練集,在每單位標註投入上產生更好的模型表現。

    How It Works

    主動學習循環有五個階段。(1) 初始化:標記一小組種子集(50-200 個範例)並用於訓練初始模型。(2) 評分:模型處理大量未標記範例,並為每個範例分配資訊量分數。對於不確定性抽樣,這通常是模型輸出分佈的熵或前兩個類別機率之間的差異。(3) 選擇:選出前 k 個最具資訊價值的範例進行標註。(4) 標註:人類標註者標記所選範例。(5) 重新訓練:模型在擴展的已標記資料集上重新訓練。

    此循環重複直至收斂——即增加更多已標記範例不再顯著改善模型表現的那個點。在實務中,主動學習通常只使用 20-30% 的標籤即可達到完整資料集表現的 90%,超過該點後回報遞減。

    Example Use Case

    一家法律 AI 新創公司需要微調合約分析模型,但預算僅夠 2,000 個標註範例(每個 $25,總計 $50K)。使用主動學習,他們從 200 個種子範例開始,執行 9 個主動學習循環,每個循環選擇 200 個範例。透過策略性地選擇含有不尋常條款、模糊語言和邊緣案例的合約,他們達到了與 6,000 個隨機抽樣範例相同的準確度——節省了 $100K 的標註成本,同時建立了一個能更好處理困難合約的模型。

    Key Takeaways

    • 主動學習策略性地選擇最具資訊價值的範例進行人工標註。
    • 與隨機抽樣相比,可以在維持模型品質的同時減少 50-80% 的標記成本。
    • 常見的選擇策略包括不確定性抽樣、多樣性抽樣和委員會分歧。
    • 此方法以評分、選擇、標註和重新訓練的迭代循環運作。
    • 主動學習透過聚焦於具有挑戰性的資訊性範例,產出更高品質的訓練集。

    How Ertas Helps

    Ertas Data Suite 在其標記階段支援主動學習工作流程,幫助團隊根據模型不確定性優先排序標註範例,在 Ertas Studio 中進行微調之前,最大化每個已標註範例的價值。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.