What is Embedding（嵌入）?

token、詞或段落在連續數學空間中的密集向量表示，語義相似性對應幾何鄰近性。

Definition

嵌入是一種學習到的映射，將離散符號——如詞、子詞 token 或整段文字——轉換為固定長度的實數向量（現代 LLM 通常為 768 到 4,096 維）。這些向量存在於連續空間中，幾何關係編碼語義含義：含義相似的詞聚集在一起，類比表現為一致的向量偏移。

在 Transformer 語言模型中，嵌入層是第一個組件：接收分詞器的每個 token ID 並查找其對應向量。這些初始嵌入被後續 Transformer 層細化。嵌入也廣泛用作語義搜索、RAG、聚類和分類的獨立工具。專門的嵌入模型經過優化，使餘弦相似度能可靠衡量語義相關性。

Why It Matters

嵌入是人類語言和機器計算之間的數學橋樑。沒有它們，語言模型將無法表示或推理含義。對於從業者，理解嵌入是建立有效的 RAG 管線、搜索系統和分類工作流程的關鍵。嵌入品質也決定了模型泛化的程度。

How It Works

嵌入層本質上是一個查找表，有 V 行（每個詞彙 token 一行）和 D 列（嵌入維度）。在預訓練期間，這些向量透過反向傳播更新，使出現在相似上下文中的 token 發展出相似的向量。在 LoRA 微調中，嵌入表通常被凍結（不更新），因為預訓練嵌入已捕獲豐富的語義資訊。對於獨立嵌入模型，使用對比損失訓練，明確將相似文字推近、不相似文字推遠。