What is Guardrails（護欄）?

應用於 LLM 輸入和輸出的安全機制和過濾器，防止有害、偏離主題或違反政策的內容到達使用者。

Definition

Guardrails 是應用於 LLM 系統的輸入驗證、輸出過濾和行為約束的集合，確保系統在可接受的邊界內運作。它們防止模型生成有害內容（暴力、仇恨言論、自殘指導）、洩露敏感資訊（PII、專有資料、系統提示）、產生偏離主題的回應，或進行未經授權的工具呼叫。Guardrails 作為模型與使用者之間的安全層運作，在政策違規造成傷害之前加以攔截。

Guardrails 可在多個層級實施。輸入護欄在使用者提示到達模型之前進行篩查，阻擋越獄嘗試、提示注入攻擊，以及試圖提取系統提示或訓練資料的查詢。輸出護欄在模型回應返回使用者之前進行篩查，攔截有毒內容、PII 洩露、虛構引用或違反業務規則的回應。行為護欄透過微調和 RLHF 嵌入模型中，教導模型拒絕有害請求並維持其定義的角色。

Guardrails 領域包括專有解決方案（OpenAI 的審核端點、Azure AI Content Safety）和開源框架（Guardrails AI、NeMo Guardrails、LlamaGuard）。這些系統的範圍從簡單的關鍵詞過濾到能夠理解上下文和細微差異的複雜分類器。生產環境部署通常會層疊多種護欄機制以實現縱深防禦。

Why It Matters

沒有護欄的 LLM 部署會面臨重大風險。模型可能透過提示注入被操縱，忽略其指令並產生有害內容。它們可能無意中從訓練資料或上下文視窗中暴露 PII。它們可能生成聽起來合理但實際上危險的錯誤醫療、法律或財務建議。這些失敗模式中的每一種都會造成法律責任、聲譽損害和對使用者的潛在傷害。

監管要求日益要求 AI 系統具備護欄。歐盟 AI 法案要求高風險 AI 系統具備風險緩解措施，而特定產業法規（醫療、金融、教育）則施加額外的安全要求。在沒有充分護欄的情況下部署 LLM 的組織面臨法律責任和監管處罰。

How It Works

典型的護欄系統作為 LLM 服務管線中的中介軟體層運作。輸入護欄使用經過訓練的分類器分析傳入的提示，以檢測提示注入、越獄嘗試和禁止的內容類別。觸發這些分類器的提示要麼被完全阻擋（返回禮貌的拒絕），要麼在到達模型之前進行淨化。

輸出護欄使用多種技術組合分析模型回應：毒性分類器檢查有害內容、PII 檢測器掃描個人可識別資訊、主題分類器驗證回應是否停留在允許的領域內，以及事實查核系統根據可信來源驗證事實宣稱。未能通過任何護欄檢查的回應要麼被替換為安全的備用回應、被編輯以移除有問題的部分，或在更嚴格的約束下重新生成。

Example Use Case

一個醫療聊天機器人部署了三層護欄。輸入護欄阻擋使用機器人進行醫療診斷的嘗試（重新導向至「請諮詢醫生」）。輸出護欄使用醫療安全分類器標記任何可能被解讀為特定治療建議的回應。PII 護欄檢測並遮蔽可能出現在模型上下文中的任何患者識別資訊。這些護欄共同確保機器人提供一般健康資訊，而不會跨越醫療執業或隱私侵犯的界限。