What is 嵌入?

token、词或段落在连续数学空间中的稠密向量表示，其中语义相似性对应于几何上的接近程度。

Definition

嵌入是一种学习到的映射，将离散符号——如一个词、子词token或整段文本——转换为固定长度的实数向量（现代LLM通常为768到4,096维）。这些向量存在于一个连续空间中，几何关系编码了语义含义：含义相似的词聚集在一起，类比关系表现为一致的向量偏移（例如，「国王」 - 「男人」 + 「女人」 ≈ 「女王」）。

在基于Transformer的语言模型中，嵌入层是最初始的组件：它取分词器输出的每个token ID，在学习到的嵌入表中查找其对应的向量。这些初始嵌入随后被后续Transformer层逐层精炼，这些层将来自周围token的上下文信息融合进来。最终层的输出是上下文化嵌入——一个不仅代表token本身含义，还代表其在特定句子或段落中含义的向量。

除了在语言模型内部的作用外，嵌入还被广泛用作独立工具，用于语义搜索、检索增强生成（RAG）、聚类和分类。专用的嵌入模型（如OpenAI、Cohere的产品，或BGE和E5等开源替代方案）经过优化，使余弦相似度能可靠地衡量语义相关性。组织使用基于嵌入的向量数据库来查找相关文档、将用户查询与知识库进行比较以及驱动推荐系统。

Why It Matters

嵌入是人类语言和机器计算之间的数学桥梁。没有它们，语言模型将无法表示或推理意义。对于从业者来说，理解嵌入是构建有效RAG管道、搜索系统和分类工作流的关键。嵌入的质量也决定了模型的泛化能力：更好的嵌入能捕捉更细微的语义关系，在更广泛的输入范围内产生更准确、更贴合上下文的输出。

How It Works

嵌入层本质上是一个查找表，有V行（每个词表token一行）和D列（嵌入维度）。当ID为42的token进入模型时，该层返回第42行——一个D维向量。在预训练期间，这些向量随机初始化，然后通过反向传播更新，使出现在相似上下文中的token产生相似的向量。在使用LoRA等方法微调时，嵌入表通常被冻结（不更新），因为预训练的嵌入已经捕获了丰富的语义信息。对于独立的嵌入模型，整个模型使用对比损失进行训练（或微调），该损失明确地将相似文本在嵌入空间中推得更近，将不相似的文本推得更远。