What is 主动学习?
一种机器学习方法,模型有选择地查询人类标注者来标注最具信息量的样本,从而最大化每个已标注样本的学习效率。
Definition
主动学习是一种训练策略,模型参与选择下一步应标注哪些数据点,而非在随机抽样的标注数据集上进行训练。核心思想是,并非所有训练样本的信息量都相同——某些样本在被标注并加入训练集后,比其他样本更能显著提升模型性能。通过策略性地选择最具信息量的样本进行标注,主动学习可以用显著更少的标注样本达到相同的模型质量,从而降低标注成本。
在LLM微调的场景下,主动学习通常以迭代循环的方式运作。模型首先在一小组种子标注样本上进行训练。然后,它使用不确定性或信息量标准对一批未标注样本进行评分,选择最具信息量的候选样本,并将其交给人类标注者进行标注。新标注的样本被添加到训练集中,模型重新训练,如此循环,直到达到质量目标或标注预算用完。
主动学习的选择策略包括不确定性采样 (选择模型最不确定的样本)、多样性采样(选择彼此之间以及与现有训练集差异最大的样本)、预期模型变化(选择会导致最大梯度更新的样本)和基于委员会的方法(选择多个模型意见不一致的样本)。每种策略根据任务和数据分布有不同的优势。
Why It Matters
标注是LLM微调的主要成本瓶颈。针对专业领域(医疗、法律、金融)的高质量标注数据在由领域专家标注时,每个样本的成本可达10至50美元。与随机采样相比,主动学习可以将所需标注样本数量减少50%至80%,直接转化为相应的成本节省。
除了成本节省之外,主动学习还通过将标注精力集中在最重要的样本上来提高数据质量。标注者不再花时间标注模型已经能很好处理的数百个简单、冗余的样本,而是将时间用于模型需要帮助的具有挑战性的边缘案例和模糊样本。这将产生一个信息含量最优的训练集,使得每一美元的标注投入都能获得更好的模型性能。
How It Works
主动学习循环包含五个阶段。(1) 初始化:标注一个小型种子集(50-200个样本),用于训练初始模型。(2) 评分:模型处理一大批未标注样本,为每个样本分配一个信息量分数。对于不确定性采样,这通常是模型输出分布的熵或前两个类别概率之差。(3) 选择:选择信息量最高的前k个样本进行标注。(4) 标注:人类标注者标注所选样本。(5) 重新训练:模型在扩充后的标注数据集上重新训练。
这个循环重复进行直到收敛——即添加更多标注样本不再显著提升模型性能的点。在实践中,主动学习通常仅使用20-30%的标签就能达到全数据集性能的90%,超过该点后收益递减。
Example Use Case
一家法律AI初创公司需要微调一个合同分析模型,但预算仅够2,000个标注样本(每个25美元,总计50,000美元)。使用主动学习,他们从200个种子样本开始,运行9个主动学习循环,每个循环选择200个样本。通过策略性地选择含有不寻常条款、模糊语言和边缘案例的合同,他们达到了与6,000个随机抽样样本相同的准确率——节省了100,000美元的标注成本,同时构建了一个更擅长处理复杂合同的模型。
Key Takeaways
- 主动学习策略性地选择最具信息量的样本供人类标注。
- 与随机采样相比,它可以在保持模型质量的同时将标注成本降低50-80%。
- 常见的选择策略包括不确定性采样、多样性采样和委员会分歧。
- 该方法以评分、选择、标注和重新训练的迭代循环方式运作。
- 主动学习通过聚焦于具有挑战性和高信息量的样本来产生更高质量的训练集。
How Ertas Helps
Ertas Data Suite在其Label阶段支持主动学习工作流,帮助团队根据模型不确定性确定哪些样本优先标注,在Ertas Studio中进行微调之前最大化每个已标注样本的价值。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.