
data-qualitysmall-language-modelson-device-aimodel-distillationdata-preparationsegment:enterprise
当你的模型只有 10 亿参数时,数据分布更加重要
700 亿参数的模型可以靠蛮力处理嘈杂数据。5 亿参数的模型则不行。以下是小语言模型对数据分布问题指数级更敏感的原因,以及如何通过针对性过滤和质量评分来解决。
EErtas Team·
700 亿参数的模型很宽容。给它嘈杂的数据、不平衡的类别、不一致的格式和变长的示例——它会透过噪声学习。它有 700 亿个参数来吸收模式、补偿数据质量问题,并仍然产生合理的输出。
5 亿参数的模型没有这种奢侈。它只有 5 亿个参数来编码完成任务所需的一切。每个嘈杂的训练示例都浪费容量。每个 类别不平衡都会创建盲点。每个格式不一致都会引入一种失败模式。
这不是一个微小的差异。它是模型在生产中能否工作的区别。
容量问题
将模型参数想象为预算。700 亿模型有 700 亿美元的预算来学习模式。它能负担花 5 亿美元在噪声容忍上,仍然有足够的预算用于实际任务。5 亿模型只有 5 亿美元的预算。如果它花 5000 万学习嘈杂示例,那就是总容量的 10%——没了。
这个类比直接映射到实际结果:
700 亿规模: 在训练集中添加 20% 的嘈杂示例通常会将准确率降低 1-3 个百分点。模型有足够的容量来尽管有噪声仍能学习信号。
5 亿规模: 同样 20% 的嘈杂示例将准确率降低 8-15 个百分点。模型没有足够的容量在这个比例下区分信号和噪声。它将噪声作为信号来学习。
这意味着对于不到 10 亿参数的模型,数据整理不是锦上添花的优化步骤。它是模型能否正常运作的必要工程步骤。