What is 主动学习?

一种机器学习方法，模型有选择地查询人类标注者来标注最具信息量的样本，从而最大化每个已标注样本的学习效率。

Definition

主动学习是一种训练策略，模型参与选择下一步应标注哪些数据点，而非在随机抽样的标注数据集上进行训练。核心思想是，并非所有训练样本的信息量都相同——某些样本在被标注并加入训练集后，比其他样本更能显著提升模型性能。通过策略性地选择最具信息量的样本进行标注，主动学习可以用显著更少的标注样本达到相同的模型质量，从而降低标注成本。

在LLM微调的场景下，主动学习通常以迭代循环的方式运作。模型首先在一小组种子标注样本上进行训练。然后，它使用不确定性或信息量标准对一批未标注样本进行评分，选择最具信息量的候选样本，并将其交给人类标注者进行标注。新标注的样本被添加到训练集中，模型重新训练，如此循环，直到达到质量目标或标注预算用完。

主动学习的选择策略包括不确定性采样（选择模型最不确定的样本）、多样性采样（选择彼此之间以及与现有训练集差异最大的样本）、预期模型变化（选择会导致最大梯度更新的样本）和基于委员会的方法（选择多个模型意见不一致的样本）。每种策略根据任务和数据分布有不同的优势。

Why It Matters

标注是LLM微调的主要成本瓶颈。针对专业领域（医疗、法律、金融）的高质量标注数据在由领域专家标注时，每个样本的成本可达10至50美元。与随机采样相比，主动学习可以将所需标注样本数量减少50%至80%，直接转化为相应的成本节省。

除了成本节省之外，主动学习还通过将标注精力集中在最重要的样本上来提高数据质量。标注者不再花时间标注模型已经能很好处理的数百个简单、冗余的样本，而是将时间用于模型需要帮助的具有挑战性的边缘案例和模糊样本。这将产生一个信息含量最优的训练集，使得每一美元的标注投入都能获得更好的模型性能。

How It Works

主动学习循环包含五个阶段。(1) 初始化：标注一个小型种子集（50-200个样本），用于训练初始模型。(2) 评分：模型处理一大批未标注样本，为每个样本分配一个信息量分数。对于不确定性采样，这通常是模型输出分布的熵或前两个类别概率之差。(3) 选择：选择信息量最高的前k个样本进行标注。(4) 标注：人类标注者标注所选样本。(5) 重新训练：模型在扩充后的标注数据集上重新训练。

这个循环重复进行直到收敛——即添加更多标注样本不再显著提升模型性能的点。在实践中，主动学习通常仅使用20-30%的标签就能达到全数据集性能的90%，超过该点后收益递减。

Example Use Case

一家法律AI初创公司需要微调一个合同分析模型，但预算仅够2,000个标注样本（每个25美元，总计50,000美元）。使用主动学习，他们从200个种子样本开始，运行9个主动学习循环，每个循环选择200个样本。通过策略性地选择含有不寻常条款、模糊语言和边缘案例的合同，他们达到了与6,000个随机抽样样本相同的准确率——节省了100,000美元的标注成本，同时构建了一个更擅长处理复杂合同的模型。