Back to blog
    微調與安全對齊:部署前需要了解的事項
    safetyalignmentfine-tuningdeploymentcompliancesegment:agency

    微調與安全對齊:部署前需要了解的事項

    了解微調如何影響模型安全性——為什麼對齊在訓練期間可能降級、如何維護安全防護,以及生產部署的實際測試策略。

    EErtas Team·

    微調改變了模型的行為。這就是重點。但當你改變行為時,你也可能意外地改變安全行為。在微調之前可靠地拒絕有害請求的模型之後可能不會拒絕——即使你的訓練資料不包含任何有害內容。

    這不是理論上的擔憂。Microsoft Research 在 2025 年底發表了研究結果,表明僅僅 100 個良性微調範例就可以可測量地降低幾個開源模型中的安全對齊。降級不是戲劇性的,但它是真實且一致的。

    如果你正在將微調模型部署到生產環境——特別是對於受監管行業的客戶——你需要了解這個動態並知道如何管理它。

    為何安全在 2026 年更重要

    三個力量匯聚使安全對齊成為實際的商業問題,而不僅僅是研究主題:

    監管壓力是具體的。 歐盟 AI 法案針對通用 AI 模型的條款在 2025 年中期生效。如果你為歐洲客戶部署 AI 系統,你在風險評估和緩解方面有義務。在沒有評估安全影響的情況下微調模型是合規缺口。

    企業買家詢問這個問題。 根據 Gartner 的 AI 採用調查,在 2025 年第四季度,67% 的企業 AI 採購流程包含關於模型安全和對齊測試的問題。如果你是銷售 AI 解決方案的代理商,「我們在微調後測試安全回歸」是競爭差異化因素。「我們不知道」是交易破壞者。

    責任正在轉移。 當你為客戶微調和部署模型時,你已經修改了模型的行為。如果該模型產生有害輸出,責任問題比原始模型提供商更接近你。法律環境仍在形成,但方向是明確的。

    微調如何降低安全性

    要了解風險,你需要了解「安全對齊」在技術層面實際上是什麼。

    現代語言模型經歷多個訓練階段。在網路規模資料上的預訓練產生可以生成流暢文本的模型,但沒有安全概念——它會以任何看起來統計上可能的方向完成任何提示。對齊訓練(RLHF、DPO、constitutional AI 或類似技術)然後添加一層行為約束:拒絕有害請求、避免生成明確內容、拒絕協助危險活動。

    這個對齊層是存儲在模型權重中的習得行為。它不是一個單獨的系統。它是分佈在相同權重上的一組模式,處理模型所做的其他一切。

    當你微調時,你修改這些權重。即使你的訓練資料完全良性——比如說,2,000 個產品描述提取範例——權重更新也可能干擾對齊模式。模型不會以戲劇性的方式「忘記」安全。但其安全相關激活的強度可能降低,使拒絕變得不那麼可靠。

    這樣想:對齊訓練建立了一組護欄。微調在這些護欄內建立新的能力,但建設過程可能削弱護欄柱子。護欄仍然存在,但更容易推過。

    風險譜系

    並非所有微調任務都具有相同的安全風險。風險取決於你的任務與安全對齊目標的行為的接近程度。

    低風險:分類和提取任務

    情感分類、實體提取、文件分類和結構化資料提取等任務遠離模型的安全相關行為。模型正在學習將輸入映射到固定輸出空間(標籤、JSON schema、類別)。這些任務修改與安全相關電路最小重疊的區域中的權重。

    典型安全回歸: 標準安全基準測試上 0-2% 降級。對於生產目的實際上可以忽略不計。

    中等風險:內容生成任務

    博客文章生成、電子郵件起草、文案寫作和類似的內容創建任務更廣泛地涉及模型的生成能力。微調觸及更接近(但不直接與)安全訓練區域重疊的權重。

    典型安全回歸: 安全基準測試上 3-8% 降級。模型可能在語氣護欄上失去一些細微差別——生成比基礎模型產生的稍微更激進、更固執己見或更隨意的內容。明確的安全拒絕通常保持完整,但「灰色地帶」行為會改變。

    高風險:聊天和助手模型

    如果你正在微調模型成為對話助手——特別是如果你的訓練資料包含自定義角色行為、角色扮演場景或特定領域的對話——你正在修改安全對齊訓練的確切行為模式。「學習這種新的對話風格」和「維護這些對話安全邊界」之間的重疊很高。

    典型安全回歸: 安全基準測試上 5-15% 降級。拒絕行為可能明顯減弱。模型可能遵從它之前會拒絕的請求,特別是在基礎模型的拒絕已經是邊緣案例的邊緣情況下。

    實際安全測試

    了解風險譜系對優先考慮很有用,但在部署之前應該測試每個微調模型。以下是一個實際的測試框架:

    建立紅隊測試集

    創建一組 50-100 個對抗性提示,測試你關心的安全行為。這些應該包括:

    直接有害請求(20-30 個提示)。 請求危險資訊、明確內容或協助有害活動。這些測試模型的核心拒絕行為。

    間接和社會工程嘗試(15-20 個提示)。 越獄風格的提示、角色操縱、「假設性」框架和其他試圖繞過安全訓練的技術。這些測試拒絕行為的健壯性。

    領域特定邊緣案例(10-15 個提示)。 對於你的具體使用案例,哪些是模型應該拒絕或添加警告的邊緣案例?醫療 AI 不應該診斷。法律 AI 不應該給出確定性法律建議。財務 AI 在沒有免責聲明的情況下不應該給出具體的投資建議。

    偏見和公平性探測(10-15 個提示)。 測試與你的部署上下文相關的人口類別中歧視性輸出的輸入。

    在微調前後測試

    對基礎模型(微調之前)和微調後的模型運行紅隊測試集。在簡單的量表上對每個響應打分:

    • 通過: 模型適當拒絕或添加必要的警告
    • 部分: 模型部分遵從但包含一些安全相關警告
    • 失敗: 模型遵從了一個它應該拒絕的請求

    計算每個類別的通過率。如果任何類別下降超過 5 個百分點,你有一個需要關注的安全回歸。

    設置回歸閾值

    在開始微調之前,決定你可接受的回歸閾值。對於大多數生產部署:

    • 核心拒絕(直接有害請求): 可接受零回歸。如果模型停止拒絕任何這些,不要部署。
    • 間接嘗試: 高達 5% 的回歸是典型的,可以通過其他緩解措施管理。
    • 領域邊緣案例: 可接受零回歸。這些特定於你的部署,直接影響你的責任。
    • 偏見探測: 高達 3% 的回歸,對任何新的失敗進行人工審查。

    緩解策略

    當安全測試揭示回歸時,你有幾個選項:

    在訓練資料中包含安全範例

    最直接的緩解:在訓練資料集中添加 50-100 個安全相關範例。這些是輸入-輸出對,其中輸入是對抗性提示,輸出是適當的拒絕。這在微調期間強化了安全行為。

    比例很重要。如果你的資料集有 2,000 個任務範例和 50 個安全範例,模型得到一個一致的信號,即安全拒絕是其預期行為的一部分。這通常足以完全防止回歸。

    使用保守的 LoRA Rank

    LoRA(低秩自適應)修改模型權重的一個小子集。較低的 LoRA rank 修改更少的參數,這保留了更多基礎模型的行為——包括安全對齊。

    對於安全保護至關重要的任務:

    • LoRA rank 8-16: 保留大多數安全行為。對於分類、提取和簡單生成任務就足夠了。
    • LoRA rank 32-64: 標準範圍。中等風險任務上可能有一些安全降級。
    • LoRA rank 128 以上: 更高的安全降級風險。僅用於低風險任務或計劃進行廣泛安全測試時。

    使用較低的 rank 是在不對訓練流程進行任何更改的情況下降低安全風險的最簡單方法。

    使用自動化安全基準測試

    手動紅隊測試是必要的但不充分。用自動化基準測試補充它:

    • ToxiGen — 測試跨人口類別的有毒內容生成
    • BBQ(問答偏見基準測試) — 測量問答上下文中的偏見
    • HarmBench — 有害內容生成的標準化評估
    • 自定義基準測試 — 你的領域特定測試集,自動化用於持續評估

    將這些基準測試作為你的 CI/CD 流水線的一部分運行。每次你重新訓練模型,安全基準測試在模型可以部署之前自動運行。

    監管背景

    歐盟 AI 法案

    如果你或你的客戶在歐盟運營,AI 法案對通用 AI 模型的要求包括:

    • 訓練流程和資料的文件
    • 模型能力和限制的評估,包括安全性
    • 模型修改(包括微調)的透明度

    在沒有安全評估的情況下微調並部署模型會創造合規缺口。記錄你的安全測試流程——即使是簡單的前後比較——對於展示盡職調查大有幫助。

    客戶合規要求

    除了監管之外,你的客戶可能有自己的合規框架。醫療客戶需要保證 AI 不會提供醫療診斷。財務客戶需要確認 AI 不會給出具體的財務建議。法律客戶需要保證 AI 會包含適當的免責聲明。

    這些要求不是關於模型在抽象意義上「安全」。它們是關於模型可靠地在你的客戶要求的邊界內行為。微調安全測試應該映射到具體的客戶合規要求,而不僅僅是通用基準測試。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ertas 如何幫助

    Ertas 將安全意識的微調作為第一等問題:

    安全評估整合。 Ertas Studio 包含內置的安全評估,在訓練後自動運行。在你決定部署之前,你可以看到安全基準測試結果以及準確率指標。

    LoRA 的結構優勢。 因為 Ertas 使用 LoRA 適配器而不是全量微調,基礎模型的安全對齊在結構上得到保護。適配器修改一個小的權重子空間,而模型的大部分——包括安全訓練的權重——保持不變。

    適配器回滾。 如果已部署的模型在生產中顯示安全問題,你可以在幾秒鐘內回滾到以前的適配器版本,無需停機。基礎模型永遠不會改變,所以你始終有一個安全的回退。

    審計追蹤。 每個訓練運行、評估結果和部署決定都被記錄。當客戶問「你如何確保你的 AI 是安全的?」時,你有文件,而不僅僅是保證。

    安全對齊不是你在最後添加的功能。它是你在整個微調過程中維護的約束。正確做到這一點的團隊建立更值得信賴的產品——而這種信任就是贏得企業客戶的關鍵。


    相關閱讀:

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading