What is 超参数?

在训练开始前设定的配置值，控制学习过程本身，区别于在训练过程中学习到的模型参数。

Definition

超参数是控制训练过程但不从数据中学习的配置变量。与通过反向传播更新的模型参数（权重和偏置）不同，超参数由从业者在训练开始前设定，在整个训练过程中保持固定。它们控制的是模型如何学习，而非学什么。

LLM微调中常见的超参数包括学习率（权重更新的激进程度）、批量大小（每次更新前处理多少样本）、epoch数量（模型看完整数据集的次数）、权重衰减（防止过拟合的正则化）、预热步数（训练开始时学习率的逐步增加）以及LoRA特定设置如秩、alpha和目标模块。每个超参数都影响训练动态和最终模型质量。

超参数选择既是科学也是艺术。虽然存在网格搜索、随机搜索和贝叶斯优化等原则性方法，但实际的LLM微调通常依赖已建立的经验法则。例如，1e-5到5e-5之间的学习率适用于大多数微调任务，8-64的LoRA秩覆盖大多数用例，训练1-3个epoch可防止在典型数据集规模上过拟合。这些经验法则比穷举搜索节省了大量计算资源。

Why It Matters

超参数选择可能决定模型是收敛到优秀性能还是无法学习、过拟合或产生不连贯的输出。学习率过高会导致训练不稳定和发散；过低则模型几乎不会从基础模型发生改变。批量大小过小产生噪声梯度；过大则模型收敛到泛化能力差的尖锐极小值。

对于没有深厚ML专业知识的团队来说，超参数选择通常是成功微调的最大障碍。超参数之间的交互效应——学习率和批量大小是耦合的、LoRA秩和alpha必须平衡、预热步数取决于数据集大小——使得没有经验或自动化工具的手动调优变得困难。

How It Works

超参数在训练循环开始前在训练配置中指定。训练期间，它们在每一步调节优化过程。学习率将梯度乘以一个系数来确定每次权重更新的幅度。批量大小决定多少训练样本贡献到每次梯度估计。权重衰减等正则化超参数向损失函数添加惩罚项。

超参数调优评估多种配置以找到最佳组合。网格搜索评估预定义值的所有组合——全面但指数级昂贵。随机搜索采样随机组合，通常更高效。贝叶斯优化使用超参数-性能关系的概率模型来智能选择下一个要尝试的配置。基于种群的训练在训练过程中演化超参数计划，随着训练进展进行适应。

Example Use Case

一个团队微调7B模型，最初使用2e-4的学习率（过高），导致损失曲线在100步后发散。他们将其降低到5e-5，看到了稳定的收敛但最终性能不佳。在测试了1e-5、2e-5和3e-5的学习率以及0.03和0.1的预热比后，他们发现2e-5配合0.03预热产生最佳验证指标——这个过程花了6次训练运行，但比初始尝试提高了15%。