What is 超参数?
在训练开始前设定的配置值,控制学习过程本身,区别于在训练过程中学习到的模型参数。
Definition
超参数是控制训练过程但不从数据中学习的配置变量。与通过反向传播更新的模型参数(权重和偏置)不同,超参数由从业者在训练开始前设定,在整个训练过程中保持固定。它们控制的是模型如何学习,而非学什么。
LLM微调中常见的超参数包括学习率(权重更新的激进程度)、批量大小(每次更新前处理多少样本)、epoch数量(模型看完整数据集的次数)、权重衰减(防止过拟合的正则化)、预热步数(训练开始时学习率的逐步增加)以及LoRA特定设置如秩、alpha和目标模块。每个超参数都影响训练动态和最终模型质量。
超参数选择既是科学也是艺术。虽然存在网格搜索、随机搜索和贝叶斯优化等原则性方法,但实际的LLM微调通常依赖已建立的经验法则。例如,1e-5到5e-5之间的学习率适用于大多数微调任务,8-64的LoRA秩覆盖大多数用例,训练1-3个epoch可防止在 典型数据集规模上过拟合。这些经验法则比穷举搜索节省了大量计算资源。
Why It Matters
超参数选择可能决定模型是收敛到优秀性能还是无法学习、过拟合或产生不连贯的输出。学习率过高会导致训练不稳定和发散;过低则模型几乎不会从基础模型发生改变。批量大小过小产生噪声梯度;过大则模型收敛到泛化能力差的尖锐极小值。
对于没有深厚ML专业知识的团队来说,超参数选择通常是成功微调的最大障碍。超参数之间的交互效应——学习率和批量大小是耦合的、LoRA秩和alpha必须平衡、预热步数取决于数据集大小——使得没有经验或自动化工具的手动调优变得困难。
How It Works
超参数在训练循环开始前在训练配置中指定。训练期间,它们在每一步调节优化过程。学习率将梯度乘以一个系数来确定每次权重更新的幅度。批量大小决定多少训练样本贡献到每次梯度估计。权重衰减等正则化超参数向损失函数添加惩罚项。
超参数调优评估多种配置以找到最佳组合。网格搜索评估预定义值的所有组合——全面但指数级昂贵。随机搜索采样随机组合,通常更高效。贝叶斯优化使用超参数-性能关系的概率模型来智能选择下一个要尝试的配置。基于种群的训练在训练过程中演化超参数计划,随着训练进展进行适应。
Example Use Case
一个团队微调7B模型,最初使用2e-4的学习率(过高),导致损失曲线在100步后发散。他们将其降低到5e-5,看到了稳定的收敛但最终性能不佳。在测试了1e-5、2e-5和3e-5的学习率以及0.03和0.1的预热比后,他们发现2e-5配合0.03预热产生最佳验证指标——这个过程花了6次训练运行,但比初始尝试提高了15%。
Key Takeaways
- 超参数控制训练过程,在训练前设定,不同于学习到的模型参数。
- 关键的LLM微调超参数包括学习率、批量大小、epoch数和LoRA秩。
- 不正确的超参数可能导致训练失败、过拟合或模型质量差。
- 已建立的LLM微调经验法则减少了穷举超参数搜索的需要。
- 超参数之间的交互效应使得没有经验或自动化工具的调优变得复杂。
How Ertas Helps
Ertas Studio为每个基础模型和训练配置提供合理的超参数默认值,同时为有经验的用户开放 高级控制。可视化界面使跨训练运行调整和比较超参数设置变得简单。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.