What is 嵌入?
token、词或段落在连续数学空间中的稠密向量表示,其中语义相似性对应于几何上的接近程度。
Definition
嵌入是一种学习到的映射,将离散符号——如一个词、子词token或整段文本——转换为固定长度的实数向量(现代LLM通常为768到4,096维)。这些向量存在于一个连续空间中,几何关系编码了语义含义:含义相似的词聚集在一起,类比关系表现为一致的向量偏移(例如,「国王」 - 「男人」 + 「女人」 ≈ 「女王」)。
在基于Transformer的语言模型中,嵌入层是最初始的组件:它取分词器输出的每个token ID,在学习到的嵌入表中查找其对应的向量。这些初始嵌入随后被后续Transformer层逐层精炼,这些层将来自周围token的上下文信息融合进来。最终层的输出是上下文化嵌入——一个不仅代表token本身含义,还代表其在特定句子或段落中含义的向量。
除了在语言模型内部的作用外,嵌入还被广泛用作独立工具,用于语义搜索、检索增强生成(RAG)、聚类和分类。专用的嵌入模 型(如OpenAI、Cohere的产品,或BGE和E5等开源替代方案)经过优化,使余弦相似度能可靠地衡量语义相关性。组织使用基于嵌入的向量数据库来查找相关文档、将用户查询与知识库进行比较以及驱动推荐系统。
Why It Matters
嵌入是人类语言和机器计算之间的数学桥梁。没有它们,语言模型将无法表示或推理意义。对于从业者来说,理解嵌入是构建有效RAG管道、搜索系统和分类工作流的关键。嵌入的质量也决定了模型的泛化能力:更好的嵌入能捕捉更细微的语义关系,在更广泛的输入范围内产生更准确、更贴合上下文的输出。
How It Works
嵌入层本质上是一个查找表,有V行(每个词表token一行)和D列(嵌入维度)。当ID为42的token进入模型时,该层返回第42行——一个D维向量。在预训练期间,这些向量随机初始化,然后通过反向传播更新,使出现在相似上下文中的token产生相似的向量。在使用LoRA等方法微调时,嵌入表通常被冻结(不更新),因为预训练的嵌入已经捕获了丰富的语义信息。对于独立的嵌入模型,整个模型使用对比损失进行训练(或微调),该损失明确地将相似文本在嵌入空间中推得更近,将不相似的文本推得更远。
Example Use Case
一个客户支持平台使用微调的嵌入模型驱动对50,000篇帮助文章的语义搜索。当客户输入「我的付款没有成功」时 ,系统将查询嵌入为768维向量,并在向量数据库中执行最近邻搜索。前5个结果被作为上下文传递给微调的LLM,后者综合出一个个性化的答案——即使检索到的文章中没有包含客户使用的确切短语。
Key Takeaways
- 嵌入将离散token转换为连续向量,其中语义相似性表现为几何上的接近。
- 嵌入层是任何基于Transformer的语言模型的第一个组件。
- 上下文化嵌入(来自Transformer输出)捕获词在特定上下文中的含义。
- 独立的嵌入模型驱动语义搜索、RAG、聚类和分类工作流。
- 微调通常冻结嵌入层,依赖预训练的语义表示。
How Ertas Helps
虽然Ertas Studio主要关注生成式微调,但Ertas微调的模型所学到的嵌入是其领域特定性能的核心。在Ertas中微调的模型为领域词汇开发了更丰富的内部表示,既提高了生成质量,也提高了模型作为语义搜索和文档分类等下游基于嵌入的工作流骨干的能力 。
Related Resources
Attention
Context Window
Inference
Tokenizer
Transformer
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Hugging Face
Ollama
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.