如何根據治理而非只是能力評估 AI 供應商

大多數企業 AI 供應商評估遵循相同的流程：通過基準任務運行模型、針對你的特定使用案例評估輸出品質、比較定價、檢查安全認證頁面。如果模型表現良好且價格符合預算，你就繼續前進。

這個流程是必要的。它也是不完整的。能力基準告訴你模型在評估當天能做什麼。治理評估告訴你是否可以在企業軟體部署實際持續的 24-36 個月內安全地依賴生產中的模型。

以下是大多數團隊跳過的框架——六個治理評估維度及每個維度的具體問題。

基準陷阱

能力評估已變得複雜。MMLU 分數、GPQA 基準、代碼評估、上下文長度測試、多模態能力評估——業界已經開發出了在某個時間點測量模型能做什麼的好工具。

基準不告訴你的：當行為改變時供應商是否會通知你、你可以固定到特定版本多長時間、如果供應商錯誤處理你的資料你的法律地位是什麼、你的合規團隊需要的稽核追蹤是否可用，或者如果你的要求改變了退出有多困難。

這些問題不會出現在基準排名中。但它們決定了你的生產部署是否隨時間保持可行。

維度 1：版本控制和變更管理

模型會改變。安全重新校準、性能改進、微調更新——所有這些都影響模型行為，且大多數情況下在沒有新模型發布公告的情況下發生。

要問的問題：

模型更新如何傳達給客戶？ 尋找具體答案：對指定聯繫人的電子郵件通知、更新日誌、API 版本標頭更改。「我們在博客上發布」對企業生產依賴不是可接受的答案。

在行為更改影響生產部署之前，你提供多少通知？ 對於生產企業系統來說，少於 2 週太短了。4-8 週是合理的。一些供應商為企業合約客戶提供更長時間。

我們可以固定到特定的模型版本嗎？ 大多數供應商支持這一點。後續問題更重要：持續多長時間？3 個月的固定窗口與 12 個月的窗口非常不同。你需要時間評估新版本、調整提示詞，並有意識地遷移。

你的模型棄用時間線是什麼？ 當模型版本被終止時，你提前收到多少通知，你得到什麼遷移支持？這影響你應該如何為遷移工程工作預算。

在新模型版本部署到生產之前，你提供暫存或預覽訪問嗎？ 這越來越成為以企業為中心的供應商的差異化因素。預覽訪問讓你在新版本影響生產系統之前對照你的評估集進行驗證。

維度 2：稽核和記錄能力

企業 AI 部署需要稽核追蹤。監管機構要求它們。法律團隊需要它們。風險管理人員要求它們。問題是供應商是否可以提供它們——或者你是否需要在供應商的基本請求日誌之上建立稽核基礎設施。

你記錄什麼、記錄多長時間、訪問控制是什麼？ 受監管行業的最低要求：帶時間戳的請求/響應日誌，為你的稽核保留期保留，帶控制訪問。許多供應商默認提供 30-90 天保留。受監管行業可能需要 7 年。

我們可以匯出日誌用於我們自己的合規報告嗎？ 僅存在於供應商系統中的日誌對合規不完全有用。你需要能夠將結構化日誌匯出到你自己的合規基礎設施。

你提供稽核級別的記錄嗎？ 這意味著不可變的（日誌在創建後不能修改）、帶可驗證時間戳的、為程序化分析結構化的，以及帶有監管鏈文件的。這比標準請求記錄的門檻更高，並非所有供應商都能達到。

日誌中包含什麼模型版本信息？ 出於稽核目的，你需要能夠重建哪個特定的模型版本產生了給定的輸出。如果日誌不包含細粒度的模型版本識別符，你的稽核追蹤就有差距。

維度 3：戰略一致性和使命穩定性

這個維度在 2026 年變得更加明顯，但一直很重要。你的 AI 供應商是誰、他們服務誰以及他們走向哪裡，影響他們的模型被訓練和優化的內容。

你的主要客戶按行業是什麼？ 最大客戶在醫療保健和金融服務的供應商，與最大客戶在國防和政府的供應商有不同的訓練優先級。兩者都不是錯的——但優先級一致性對你的使用案例很重要。

你是否就你不會支持的使用案例做出公開承諾？ 有明確公開使用案例限制的供應商已經思考過他們的使命並使其可操作。沒有具體承諾的「負責任 AI」模糊聲明對你的風險評估用處不大。

你的資金結構是什麼，投資者義務如何影響你的產品方向？ 風險投資支持的公司面臨擴展到新市場的壓力。這種壓力可以影響他們銷售給誰以及他們開發什麼能力。了解誰資助供應商以及他們期望什麼，對 3 年依賴規劃很重要。

過去 12 個月內你簽署了哪些重要合約或合作關係？ OpenAI 的 DoD 合約是當前突出的例子，但影響訓練優先級的供應商合作關係和客戶關係可能更加微妙。這個問題使它們浮出水面。

這個維度的答案告訴你如何根據你組織的風險承受能力來衡量供應商的戰略一致性——而不是任何特定決定是否正確或錯誤。

維度 4：資料治理

這個維度通常通過安全認證的視角進行評估，但認證告訴你某個時間點的控制措施。治理問題更深入。

我們的資料是否用於模型訓練？ 許多供應商已轉向企業資料默認排除在訓練之外的選擇退出模型，除非你選擇加入。明確驗證這一點並以書面形式獲得——不只是在隱私政策中，而是在你的合約中。

我們的資料在哪裡處理，有什麼資料駐留選項？ 對於有資料本地化要求的組織——GDPR 下的歐盟客戶、有嚴格資料主權法的國家的組織、有明確處理位置要求的受監管行業——這是硬性限制，而非偏好。

帳戶終止後我們的資料會發生什麼？ 你想要一個具體的答案：你的資料在終止後 X 天內被刪除，帶書面確認。「我們根據隱私政策處理」不夠具體。

你的組織中誰可以訪問我們的資料？ 支持工程師？資料科學團隊？模型訓練管道？了解訪問面。

過去 24 個月內你是否發生過影響企業客戶資料的任何資料事件？ 直接詢問。獨立檢查新聞來源。答案和供應商的披露態度都是有信息量的。

維度 5：監管合規支持

幫助你的組織滿足自身監管義務的合規文件，不同於供應商本身合規。兩者都很重要。

你有 EU AI Act 合規框架嗎？ 對於有歐盟業務的組織，AI Act 在 AI 提供商和部署者上都創造了義務。了解供應商提供什麼以及你的義務是什麼。

你能支持我們的特定監管要求嗎？ 對於醫療保健：HIPAA、BAA 可用性以及任何特定的臨床系統要求。對於金融服務：SR 11-7 模型風險管理指南和你特定監管機構的 AI 指導。對於法律：律師協會 AI 使用指導。詢問你的特定要求，而非通用的「合規」支持。

你提供我們可以在自己稽核中使用的合規文件嗎？ 稽核就緒文件——供應商風險問卷響應、安全評估報告、控制認證——在你自己的合規流程中節省大量時間。一些供應商為企業客戶主動提供這些。其他人則要求你從他們的原始政策文件中自己生成它。

安全事件的事件披露時間線是什麼？ 監管要求通常要求在特定時間框架內通知客戶（例如，GDPR 下 72 小時）。了解你從供應商那裡得到什麼以及它是否滿足你自己的通知義務。

維度 6：退出策略

沒有供應商關係是永遠的。監管要求改變，更好的選項出現，供應商做出改變關係的戰略決定。你的採購框架應該在需要退出之前評估退出。

如果我們需要切換，模型遷移是什麼樣的？ 具體地說：遷移路徑是什麼，存在什麼文件，供應商提供什麼支持，企業遷移的典型時間線是什麼？

我們可以匯出我們的微調工作嗎？ 如果你通過供應商的微調 API 投資於定制模型，你得到的是權重還是只是性能收益？一些供應商給你微調的權重，其他人不給。

我們所做的定制的可移植性是什麼？ 系統提示詞、少樣本示例和檢索配置通常是可移植的。微調模型權重、自定義函數呼叫定義和供應商特定功能可能不是。

如果你被收購，我們的整合會發生什麼？ 收購改變供應商行為比幾乎任何其他事情都多。在你的合約中明確詢問存在什麼收購保護。

模型所有權的安全閥

如果你發現自己在多個治理維度上對供應商不確定，實際答案通常不是繼續評估供應商。而是將 API 用於開發和實驗——治理風險是可管理的——並為治理確定性重要的生產工作負載建立擁有模型的方向。

當你擁有模型權重時，這些治理問題中的大多數對你的生產系統變得無關緊要。版本控制是你的版本控制。稽核記錄是你的稽核記錄基礎設施。戰略一致性是你組織的一致性，而非供應商的。資料治理是你在你的基礎設施上的資料。

通往模型所有權的路徑詳見AI 模型所有權實際意味著什麼。企業 AI 供應商風險指南涵蓋治理風險在整體風險框架中的位置。

使評估可操作

框架只有在被操作化時才有用。實際實施：

在你的標準供應商問卷中添加治理問題。為每個維度建立評分標準。要求以書面形式做出回應，而非只是在銷售電話中口頭保證。在 AI 採購決策的文件記錄中包含治理評估結果。

每年審查你的供應商治理評估，或當供應商做出重大公告時。供應商戰略決策，如主要政府合約、收購或重大融資輪，需要臨時審查。

對於高風險環境——臨床、法律、金融、受監管業務——以與評估關鍵基礎設施供應商相同的嚴格程度對待治理評估。因為那正是生產 AI 的本質。

查看早鳥定價 →

預約與 Ertas 的探索通話 →

如何根據治理而非只是能力評估 AI 供應商

基準陷阱

維度 1：版本控制和變更管理

維度 2：稽核和記錄能力

維度 3：戰略一致性和使命穩定性

維度 4：資料治理

維度 5：監管合規支持

維度 6：退出策略

模型所有權的安全閥

使評估可操作

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

AI 供應商評估記分卡：按 6 個治理維度評分每個供應商

企業團隊AI治理政策範本

供應商RFP的AI治理要求：真正保護您的合同語言