What is 权重?

神经网络中通过训练学习的数值参数，决定模型如何将输入数据转换为输出预测。

Definition

在神经网络中，权重是一个可学习的数值，控制神经元之间（更准确地说，是层中输入特征和输出激活之间）连接的强度。模型中所有权重的集合构成了模型学到的知识——当我们说模型「知道」某些东西时，我们的意思是该信息被编码在其数百万或数十亿权重的特定值中。

在基于 Transformer 的语言模型中，权重被组织成执行特定功能的矩阵。注意力权重（查询、键、值和输出投影矩阵）决定 token 之间如何相互关注。前馈权重（每个 Transformer 层两个大矩阵）应用编码事实和语言知识的非线性变换。嵌入权重将 token ID 映射到稠密向量，语言模型头权重将隐藏状态映射回词汇表概率用于下一个 token 预测。

模型中权重的数量——即参数量——是衡量模型规模的主要指标。7B 模型有 70 亿个权重，70B 模型有 700 亿个。更大的参数量通常意味着更大的知识容量和推理能力，但也需要相应更多的内存和计算用于训练和推理。每个权重存储为浮点数（训练时通常为 16 位，推理时常量化为 4-8 位），因此 7B 模型在 FP16 精度下大约需要 14 GB。

Why It Matters

权重实际上就是你在训练或微调模型时所付出的代价。预训练随机初始化权重，然后在数万亿训练 token 上调整它们，直到编码出有用的语言和知识表示。微调进一步调整这些权重（或者在 LoRA 的情况下调整一个子集）以编码领域特定的知识和行为。整个机器学习管道的存在就是为了产生一组将输入转换为有用输出的权重。

理解权重对于实际决策至关重要。权重精度（FP16 vs FP32 vs INT4）决定内存需求和推理速度。权重格式（SafeTensors、GGUF、PyTorch 检查点）决定与不同推理引擎的兼容性。权重许可证决定模型可以如何商业使用。当从业者讨论量化、剪枝或模型合并时，它们都是对权重的操作。

How It Works

权重在训练前使用旨在防止梯度消失或爆炸的策略进行初始化——通常是 Xavier 或 Kaiming 初始化，根据层维度缩放初始值。在训练期间，前向传播使用当前权重值计算预测，损失函数衡量预测误差，反向传播计算损失相对于每个权重的梯度。优化器随后将每个权重沿减少损失的方向更新一小步。

训练后，权重被序列化到磁盘上的模型文件中。不同的序列化格式以不同方式存储权重：PyTorch 的 .bin 格式使用 Python 的 pickle 序列化，SafeTensors 使用带完整性检查的内存映射格式，GGUF 以优化 CPU 推理的格式存储量化权重。当模型被加载用于推理时，权重张量被反序列化并放置在 GPU（或 CPU）内存中，在模型处理输入时保持固定。