Back to blog
    誰控制你的 AI 模型在生產中的行為?(可能不是你)
    model-controlai-governancevendor-dependencyresponsible-aimodel-ownership

    誰控制你的 AI 模型在生產中的行為?(可能不是你)

    生產中的模型行為由訓練資料、RLHF 選擇和安全過濾器決定——這些決定是由供應商而非你做出的。以下是這對你的業務意味著什麼。

    EErtas Team·

    當你將 AI 模型部署到生產環境時,有人控制它的行為方式。那個人不一定是你。

    模型的行為——它說什麼、它拒絕什麼、它如何框架模糊情況、它強調什麼——由一堆決策決定。其中一些決策是在訓練期間做出的。一些是在用人工反饋進行微調期間做出的。一些是通過安全過濾系統做出的。還有一些是通過你自己寫的系統提示限制做出的。

    以下是該堆疊的分解,以及你實際上控制哪些部分。

    行為堆疊

    訓練資料是基礎層。模型的世界模型——它知道什麼、它認為什麼是正常的、它學到了什麼關聯——來自它訓練的資料。訓練資料選擇是由供應商做出的。你沒有任何輸入。資料反映了供應商的優先事項、法律限制、地理背景和可用資料集。

    RLHF/RLAIF(來自人工反饋/AI 反饋的強化學習)是微調層。在預訓練後,使用人工評分員偏好對模型進行微調,以產生感覺有用、無害和誠實的輸出。那些評分員是由供應商招募、指導和評估的。他們的偏好——他們的審美感受、政治敏感性、對什麼算有害的閾值——現在被編碼在模型的行為中。你對評分員選擇、指導或校準沒有任何輸入。

    安全過濾器在許多商業系統中生成後應用。這些是基於規則或分類器的系統,在將模型輸出返回給調用者之前審查它們。過濾器針對一批使用場景進行校準,而非你的特定使用場景。它們可以拒絕在你的領域中完全適當的輸出。

    系統提示和推理參數是你控制的部分。溫度、top-p、最大 token 數、系統提示——這些在邊緣塑造行為。你可以引導模型。你無法覆蓋訓練。

    因此:當你的模型產生輸出時,行為是由(1)訓練資料、(2)RLHF 校準、(3)安全過濾器和(4)你的系統提示和參數決定的——按優先順序。你只控制最後一個要素。

    隱性影響者

    塑造這個模型的 RLHF 評分員不是你的領域專家。他們是評估跨多個領域回應的通才工作者。他們的偏好可能與你的情境中適當的內容系統性地不同。

    以下是一些具體表現:

    格式偏好:RLHF 評分員傾向於偏好結構化的、項目符號的回應。以這種偏好訓練的模型即使在散文更適合任務時也會生成項目符號列表。你的領域專家可能對此有強烈意見——但偏好已被烘焙進去。

    長度校準:在消費者使用場景上訓練的評分員傾向於偏好簡潔的回應。針對消費者簡潔性校準的模型可能系統性地在技術或專業領域不夠詳細,在那裡完整性比簡潔性更重要。

    套語行為:商業模型被高度校準為對不確定主張套語說明。「我不是醫生,但……」和「在……之前你應該咨詢專業人士……」是 RLHF 的產物。在用戶是持牌專業人員的臨床工作流程中,這些套語是噪音——但僅靠系統提示層面很難訓練去除。

    政治和社會敏感性:評分員帶來自己的價值觀。這些價值觀影響模型如何處理與有爭議的社會問題相鄰的話題。影響可能是微妙的——話題框架方式的系統性模式——但它是真實的。

    這些都不是失敗。它們是通用用途的合理預設值。它們只是沒有針對你的使用場景校準,你也沒有選擇它們。

    企業的安全過濾器問題

    安全過濾器針對最常見的使用場景進行校準。對於通用消費者 AI 助手,最常見的用戶不是持牌醫療專業人員、不是安全研究員、不是國防分析師。安全過濾器假設的是一般人群。

    這對消費者產品是合適的。它為企業專業應用創造了摩擦。

    一個因為安全過濾器將藥物討論視為潛在有害而拒絕討論藥物劑量或相互作用效應的醫療 AI 助手,對急診醫生沒有用。過濾器針對消費者校準;部署是臨床的。不匹配是結構性的——你無法寫一個完全覆蓋安全過濾器行為的系統提示,因為過濾器在模型生成回應後才運行。

    這個問題出現在每個受監管的領域。拒絕參與暴力犯罪案件事實的法律 AI。對持牌分析師使用的內部分析添加免責聲明的金融 AI。不討論已知漏洞的安全 AI。安全過濾器對消費者情境是正確的,對專業情境是錯誤的。

    當你擁有模型——當你在領域資料上微調並控制推理管線時——你也控制安全校準。你可以為你的用戶群體設置適當的閾值,那是持牌專業人員的群體,而非一般消費者受眾。

    當供應商改變行為時

    API 模型更新會發生。有時宣布,有時不宣布。當它們發生時,行為變化立即傳播到你的生產系統,你不需要採取任何部署行動。

    這在整個行業中反覆發生。GPT-4 更新改變了摘要風格、回應長度分佈和拒絕模式——有時以破壞可靠工作了幾個月的生產提示的方式。Claude 更新改變了邊緣情況的處理方式,影響了企業部署。從供應商角度和人群平均角度來看,更新通常是改進。對特定生產使用場景來說,它們是破壞性的。

    如果你有合規要求,需要證明你的 AI 系統在一段時間內行為一致且可預測——在醫療、金融和法律中,你通常有這樣的要求——這會創造文件問題。當時運行的是什麼模型版本?它什麼時候改變了?那個改變影響了什麼?

    使用基於 API 的 AI,準確回答這些問題是困難的。使用你擁有的模型,這些是可以回答的:版本是明確的,更改是明確的,文件是你的。

    OpenAI/國防部問題

    2026 年初,OpenAI 與美國國防部簽約,為軍事應用提供 AI 服務。這是一個事實性的商業決策。

    它為企業 AI 團隊提出的問題不是關於那個決定的倫理。而是關於這個決定對未來模型開發優先事項的信號意義。

    國防承包商有不同於消費者 AI 公司的優化目標。他們優先考慮在對抗條件下的可靠性、特定任務類型的特定性能特徵,以及——關鍵的——不同的安全校準。為國防應用優化的模型應該有不同於為消費者使用優化的閾值。

    OpenAI 的訓練過程是否會開始反映這些優先事項?他們的 RLHF 校準是否會轉變?安全過濾器是否會針對國防使用場景調整,並以傳播到民用 API 用戶的方式?你不知道。沒有任何機制讓你知道。模型是黑盒子,訓練過程是專有的。

    這不是陰謀論主張。這是一個治理觀察:當你的 AI 供應商改變他們的戰略方向時,你對那個改變是否以及如何影響你的生產系統所依賴的模型行為沒有可見性。

    模型所有權改變了什麼

    在你的領域資料上微調開源基礎模型,改變了行為堆疊每一層的控制方程。

    訓練資料現在是你的資料。你整理了它、標注了它,並且可以完整地記錄其血緣。模型的領域知識反映了你做出的選擇。

    RLHF 校準可以由你的領域專家作為評分員完成,針對你的標準評估輸出,而非一般人群偏好。編碼在模型中的行為偏好反映了你的操作要求。

    安全校準在你的控制下。你根據你對那些用戶是誰以及他們在做什麼的了解,為你的用戶群體設置適當的閾值。

    部署和更新是明確的。模型版本是你控制的文件。它不會改變,除非你重新訓練。更改是你的團隊在晉升之前進行前後行為比較的決策。

    這不意味著你需要運行完整的 MLOps 堆疊。Ertas Fine-Tuning SaaS 處理訓練基礎設施——你提供資料集,配置運行,然後下載生成的 GGUF 檢查點。模型是你的,可以在你自己的硬體上運行,按你的選擇版本化,按你的時間表更新。

    查看早鳥定價 →

    你組織的 AI 治理框架應該能夠回答:誰做出了決定這個模型行為方式的決策?如果答案主要是「供應商」,你的治理框架在最重要的層次上有一個缺口。

    相關:「我們使用 API」意味著你沒有控制生產中的 AI 模型治理

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading