What is 参数（Parameter）?

神经网络中的可学习值——包括权重和偏置——模型在训练过程中调整这些值以最小化预测误差。

Definition

在机器学习中，参数是模型中任何在训练过程中从数据中学习到的值。参数包括权重（缩放输入特征）和偏置（偏移激活值），它们共同定义了模型的行为。当从业者提到「70 亿参数模型」时，意味着该模型包含大约 70 亿个独立的可学习值，这些值通过在大规模语料库上训练而被调整。

语言模型的参数量是其最常被引用的规格，因为它与模型能力密切相关。研究一致表明，在训练数据充足的情况下，更大的模型（更多参数）能学习到更细微的表征，展现更好的推理能力，并在下游任务上表现更好。这种关系被称为神经缩放定律，它预测模型性能随参数量呈幂律提升。

然而，参数量本身并不能决定模型质量。训练数据质量、训练时长（以处理的 token 数衡量）、架构选择和训练后对齐都会显著影响最终模型。一个训练良好的 70 亿参数模型可以超越一个训练不佳的 130 亿参数模型。此外，并非所有参数都有同等贡献——混合专家架构拥有很大的总参数量但每次输入只激活一部分，而 LoRA 微调添加少量高影响力参数而非修改所有现有参数。

Why It Matters

参数量是决定模型硬件需求的主要因素。在推理期间，每个参数都必须以所选精度存储在内存中，而在训练期间，梯度和优化器状态需要额外的内存——通常是权重内存的 4-8 倍。一个 70 亿参数模型在 FP16 下推理大约需要 14 GB，训练则需要 56-112 GB。这些需求直接决定了硬件成本和部署可行性。

对于从业者来说，理解参数、质量和成本之间的关系能够实现明智的模型选择。一个在领域数据上微调的 30 亿参数模型可能在特定任务上超越通用的 130 亿参数模型，同时部署成本低 4 倍。参数量与专门化之间的这种权衡是微调价值主张的核心。

How It Works

参数被组织成张量（多维数组），对应于特定的模型组件。在 Transformer 中，关键的参数组包括嵌入矩阵（词汇量乘以隐藏维度）、注意力投影矩阵（每层 4 个，隐藏维度的平方）、前馈网络矩阵（每层 2 个，通常是隐藏维度乘以 4 倍隐藏维度）以及层归一化参数（每层 2 个小向量）。

在训练期间，每个参数通过梯度下降进行更新。梯度——通过反向传播计算——指示了减少损失的变化方向和幅度。优化器应用梯度（可能带有动量和自适应学习率）来产生新的参数值。这个过程在训练数据上重复数十亿次优化步骤，逐渐将参数塑造成能产生有用输出的配置。

Example Use Case

一家初创公司为其客户支持聊天机器人评估三种模型规模：30 亿、70 亿和 130 亿参数。30 亿参数模型在单个消费级 GPU 上运行但生成的回答质量一般。130 亿参数模型表现出色但需要昂贵的 A100 GPU。70 亿参数模型在 5,000 个领域特定示例上微调后，在支持任务上匹配了 130 亿参数模型的质量，同时可以在性价比高的 RTX 4090 上运行。他们选择了微调后的 70 亿参数模型，用任务特定的专门化换取了更少的参数量。