What is 参数(Parameter)?

    神经网络中的可学习值——包括权重和偏置——模型在训练过程中调整这些值以最小化预测误差。

    Definition

    在机器学习中,参数是模型中任何在训练过程中从数据中学习到的值。参数包括权重(缩放输入特征)和偏置(偏移激活值),它们共同定义了模型的行为。当从业者提到「70 亿参数模型」时,意味着该模型包含大约 70 亿个独立的可学习值,这些值通过在大规模语料库上训练而被调整。

    语言模型的参数量是其最常被引用的规格,因为它与模型能力密切相关。研究一致表明,在训练数据充足的情况下,更大的模型(更多参数)能学习到更细微的表征,展现更好的推理能力,并在下游任务上表现更好。这种关系被称为神经缩放定律,它预测模型性能随参数量呈幂律提升。

    然而,参数量本身并不能决定模型质量。训练数据质量、训练时长(以处理的 token 数衡量)、架构选择和训练后对齐都会显著影响最终模型。一个训练良好的 70 亿参数模型可以超越一个训练不佳的 130 亿参数模型。此外,并非所有参数都有同等贡献——混合专家架构拥有很大的总参数量但每次输入只激活一部分,而 LoRA 微调添加少量高影响力参数而非修改所有现有参数。

    Why It Matters

    参数量是决定模型硬件需求的主要因素。在推理期间,每个参数都必须以所选精度存储在内存中,而在训练期间,梯度和优化器状态需要额外的内存——通常是权重内存的 4-8 倍。一个 70 亿参数模型在 FP16 下推理大约需要 14 GB,训练则需要 56-112 GB。这些需求直接决定了硬件成本和部署可行性。

    对于从业者来说,理解参数、质量和成本之间的关系能够实现明智的模型选择。一个在领域数据上微调的 30 亿参数模型可能在特定任务上超越通用的 130 亿参数模型,同时部署成本低 4 倍。参数量与专门化之间的这种权衡是微调价值主张的核心。

    How It Works

    参数被组织成张量(多维数组),对应于特定的模型组件。在 Transformer 中,关键的参数组包括嵌入矩阵(词汇量乘以隐藏维度)、注意力投影矩阵(每层 4 个,隐藏维度的平方)、前馈网络矩阵(每层 2 个,通常是隐藏维度乘以 4 倍隐藏维度)以及层归一化参数(每层 2 个小向量)。

    在训练期间,每个参数通过梯度下降进行更新。梯度——通过反向传播计算——指示了减少损失的变化方向和幅度。优化器应用梯度(可能带有动量和自适应学习率)来产生新的参数值。这个过程在训练数据上重复数十亿次优化步骤,逐渐将参数塑造成能产生有用输出的配置。

    Example Use Case

    一家初创公司为其客户支持聊天机器人评估三种模型规模:30 亿、70 亿和 130 亿参数。30 亿参数模型在单个消费级 GPU 上运行但生成的回答质量一般。130 亿参数模型表现出色但需要昂贵的 A100 GPU。70 亿参数模型在 5,000 个领域特定示例上微调后,在支持任务上匹配了 130 亿参数模型的质量,同时可以在性价比高的 RTX 4090 上运行。他们选择了微调后的 70 亿参数模型,用任务特定的专门化换取了更少的参数量。

    Key Takeaways

    • 参数是模型中所有可学习的值——权重和偏置——在训练过程中被调整。
    • 参数量是大语言模型规模的主要规格,遵循神经缩放定律。
    • 更多参数通常意味着更好的能力,但也意味着更高的内存和计算成本。
    • 微调可以使较小参数模型在特定任务上与更大的通用模型竞争。
    • 由于梯度和优化器状态,训练所需的每参数内存是推理的 4-8 倍。

    How Ertas Helps

    Ertas Studio 显示每个基础模型的参数量和内存需求,帮助用户为其硬件和用例选择合适的模型规模。Studio 中的 LoRA 微调仅添加少量新参数,使大模型定制变得触手可及。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.