What is Embedding(嵌入)?
token、詞或段落在連續數學空間中的密集向量表示,語義相似性對應幾何鄰近性。
Definition
嵌入是一種學習到的映射,將離散符號——如詞、子詞 token 或整段文字——轉換為固定長度的實數向量(現代 LLM 通常為 768 到 4,096 維)。這些向量存在於連續空間中,幾何關係編碼語義含義:含義相似的詞聚集在一起,類比表現為一致的向量偏移。
在 Transformer 語言模型中,嵌入層是第一個組件:接收分詞器的每個 token ID 並查找其對應向量。這些初始嵌入被後續 Transformer 層細化。嵌入也廣泛用作語義搜索、RAG、聚類和分類的獨立工具。專門的嵌入模型經過優化,使餘弦相似度能可靠衡量語義相關性。
Why It Matters
嵌入是人類語言和機器計算之間的數學橋樑。沒有它們,語言模型將無法表示或推理含義。對於從業者,理解嵌入是 建立有效的 RAG 管線、搜索系統和分類工作流程的關鍵。嵌入品質也決定了模型泛化的程度。
How It Works
嵌入層本質上是一個查找表,有 V 行(每個詞彙 token 一行)和 D 列(嵌入維度)。在預訓練期間,這些向量透過反向傳播更新,使出現在相似上下文中的 token 發展出相似的向量。在 LoRA 微調中,嵌入表通常被凍結(不更新),因為預訓練嵌入已捕獲豐富的語義資訊。對於獨立嵌入模型,使用對比損失訓練,明確將相似文字推近、不相似文字推遠。
Example Use Case
一個客戶支援平台使用微調的嵌入模型在 50,000 篇說明文章上驅動語義搜索。當客戶輸入「我的付款沒有通過」時,系統將查詢嵌入為 768 維向量並在向量資料庫中執行最近鄰搜索。前 5 個結果傳遞給微調的 LLM 作為上下文,合成個人化回答——即使檢索到的文章都不包含客戶使用的確切短語。
Key Takeaways
- 嵌入將離散 token 轉換為連續向量,語義相似性即幾何鄰近性。
- 嵌入層是任何 Transformer 語言模型的第一個組件。
- 上下文化嵌入(從 Transformer 輸出)捕獲特定上下文中的詞義。
- 獨立嵌入模型驅動語義搜索、RAG、聚類和分類工作流程。
- 微調通常凍結嵌入層,依賴預訓練的語義表示。
How Ertas Helps
雖然 Ertas Studio 主要專注於生成式微調,但 Ertas 調優的模型學到的嵌入是其領域特定效能的組成部分。在 Ertas 中微調的模型為領域詞彙發展出更豐富的內部表示,改善生成品質和作為語義搜索和文件分類等下游嵌入工作流程骨幹的能力。
Related Resources
Attention
Context Window
Inference
Tokenizer
Transformer
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Hugging Face
Ollama
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.