What is Instruction Tuning（指令調優）?

在指令-回應對上訓練語言模型以遵循自然語言指示並產出特定任務輸出的微調方法。

Definition

指令調優是一種監督式微調方法，訓練預訓練語言模型遵循以自然語言給出的明確指令。訓練資料由指令-回應對組成——有時會加入系統提示或輸入上下文——教導模型理解被要求的內容並產生適當的回應。這將下一個 token 預測引擎轉變為能夠遵循多樣指示的互動助手。

這個概念由 Google 的 FLAN 論文正式確立，並透過 Alpaca、Vicuna 和 OpenHermes 系列的後續工作加以完善。這些專案證明，即使是相對較小的指令調優資料集（10,000-50,000 個高品質範例）也能顯著提高基礎模型遵循指令的能力，優於在數百萬個低品質範例上訓練的模型。這一發現使該領域轉向以品質優先於數量的資料策展策略。

指令調優與預訓練在目標上有所不同。預訓練透過在廣泛的網路文字上進行下一個 token 預測來教授一般語言理解。指令調優教導模型解讀人類意圖、適當地組織其回應並保持任務聚焦。基礎模型對「摘要這篇文章」的回應可能是繼續文章的文字；經過指令調優的模型理解它應該產生簡明的摘要。

Why It Matters

指令調優是使基礎模型可用於實際應用的關鍵。沒有它，模型是強大的文字完成器但糟糕的助手——它們難以遵循指示，經常偏離主題，並以不可預測的格式產生輸出。指令調優施加了生產應用所需的結構和可靠性。

對於為特定領域微調模型的組織，指令調優是編碼業務邏輯的主要機制。訓練資料的格式——指令如何措辭、提供什麼上下文、回應如何組織——直接決定模型在生產中的行為方式。因此，仔細的指令資料集設計是任何微調專案中槓桿效應最高的活動之一。

How It Works

指令調優使用與標準監督式微調相同的訓練機制——對預測 token 的交叉熵損失——但將其應用於精心組織的資料。每個訓練範例通常包含三個組成部分：定義模型角色和約束的系統提示、指定任務的使用者指令，以及展示期望輸出的助手回應。模型學習在給定系統提示和使用者指令的情況下預測助手回應的 token。

在訓練期間，損失通常只在助手回應的 token 上計算，而不在指令 token 上——這種技術稱為回應遮罩。這將模型的學習聚焦於產生好的輸出，而非記憶指令的措辭。訓練通常運行 1-3 輪，使用較低的學習率，資料被隨機打亂以防止依賴順序的學習偽影。

Example Use Case

一家醫療公司對模型進行指令調優以處理臨床筆記。他們的訓練資料包括「從以下臨床筆記中提取所有提及的藥物並列出其劑量」等指令，搭配經過專家標注的回應。在 8,000 個涵蓋 20 種臨床任務類型的範例上調優後，模型能準確處理多樣的臨床 NLP 任務——實體提取、摘要、編碼——遵循與其電子健康記錄系統整合的特定輸出格式。