AI 供應商評估記分卡：按 6 個治理維度評分每個供應商

大多數 AI 供應商評估關注基準分數和演示性能。這對於企業採購決策來說是錯誤的框架。二月份在 MMLU 上得分最高的模型可能與十一月份您正在運行的模型不同——而您的供應商可能沒有告訴您更改正在發生。

能力很重要。但治理是決定供應商關係是否可持續、可稽核以及對監管機構可辯護的因素。本記分卡對兩者都進行了評估。

為什麼能力基準還不夠

AI 模型性能不是靜態的。供應商持續更新模型——為了降低成本、提高其目標使用案例的性能、響應安全問題或遵守監管。除非您已協商了具有合同穩定性承諾的版本固定端點，否則您評估的模型不一定是您在生產中運行的模型。

對於任務關鍵型工作流——貸款決策、醫療分類支持、法律文件審查、欺詐偵測——這很重要。靜默的模型更新可以改變您系統的行為、使您的驗證失效，並在您的監控堆疊中沒有觸發任何警報的情況下創造合規差距。

超過版本穩定性，企業 AI 採購需要評估：

您的資料是否被用來訓練他們的下一個模型
如果您需要離開，是否可以匯出您的工作
供應商是否可以產生您的監管機構將接受的文件
供應商是否在三年後仍將存在並服務您的使用案例

本記分卡解決了所有這些問題。

如何使用本記分卡

使用提供的指導將每個標準從 1 評分到 5。將維度分數計算為其標準分數的平均值。將每個維度分數乘以其權重。對加權分數求和，得到滿分 5.0 的總分。

每個供應商評分一張記分卡。評估多個供應商時，使用相同的評分會議——讓同一個人在進入下一個標準之前，對所有供應商評分相同的標準，以減少錨定偏見。

維度 1：版本控制和變更管理 — 權重：20%

標準	1	3	5
版本固定端點可用？	無固定；僅「最新」	固定可用但保留有限	是，具有多年穩定性承諾
模型更改前的提前通知？	無通知	一些通知，無定義窗口	30 天以上通知加測試窗口
明確的行為更改文件？	無	發布說明，細節最少	帶前後範例的完整變更日誌
如果更新破壞您的使用案例，可以回滾？	無	可能手動回滾；無 SLA	具有定義 SLA 的合同回滾權

評分指導：不提供版本固定的供應商在第一個標準上得 1 分，不論任何其他品質。任何基準改善都無法補償無法知道您的生產系統中運行什麼模型。

維度 2：稽核和記錄 — 權重：20%

標準	1	3	5
詳細的輸入/輸出記錄可用？	無記錄	基本記錄，細節有限	不可變的、帶時間戳的完整 I/O 日誌
日誌可用於合規報告匯出？	無匯出	可能手動匯出	通過 API 的結構化匯出
保留期滿足監管要求？	不到 1 年	1-5 年	超過 10 年（或可配置）
稽核級日誌格式（防篡改）？	否	一些完整性控制	雜湊鏈或等效；防篡改

評分指導：SR 11-7 和歐盟 AI 法案都要求對後果性決策的模型輸入和輸出進行日誌記錄。如果供應商無法提供具有足夠保留期的防篡改日誌，您將不得不自己構建該基礎設施——而且無法保證供應商正在記錄您需要的內容。

維度 3：戰略一致性 — 權重：15%

標準	1	3	5
使命和客戶細分一致性？	供應商服務相反的使用案例	混合一致性	與您的使用案例和行業明確一致
主要客戶類型已披露？	不透明	部分披露	帶案例研究完全披露
關於他們不服務的使用的公開承諾？	無	非正式聲明	明確政策，發布且可在合同中約束
財務穩定性/治理結構？	高風險（未盈利，不明背景）	一些穩定性信號	稽核財務、穩定治理、長跑道

評分指導：為消費者構建的供應商不一定為企業合規要求構建。戰略不一致意味著治理功能將始終被去優先化。檢查供應商的公開客戶名單、職位發布和產品路線圖——這些揭示的實際優先事項比銷售幻燈片更多。

維度 4：資料治理 — 權重：20%

標準	1	3	5
您的資料用於模型訓練？	默認使用，無退出	退出可用	從不使用；在合同中確認，具有稽核權
資料居留選項？	無區域控制	一些選項	完整區域控制，記錄且在合同中
帳戶終止時資料刪除？	不清楚	記錄的流程，無 SLA	記錄的，有定義的 SLA 和確認
子處理器列表已披露？	否	部分披露	帶更改通知要求的完整列表

評分指導：資料治理標準具有最大的法律份量。在沒有退出的情況下使用您的輸入作為訓練資料的供應商與大多數企業資料處理政策和許多監管框架（GDPR、HIPAA、律師-客戶特權環境）不兼容。以書面形式獲取——供應商的隱私政策不是合同承諾。

維度 5：監管合規支持 — 權重：15%

標準	1	3	5
BAA 可用（HIPAA）？	否	可用但非標準	預批准表格，簡單流程
歐盟 AI 法案合規文件？	無	部分文件	是，附錄 IV 格式
SR 11-7/模型風險文件支持？	無	一些文件	專用材料，響應驗證器問題
獨立安全稽核（SOC 2、ISO 27001）？	無	過時或部分	當前認證，可供審查

評分指導：無法產生合規文件的供應商將使您花費大量內部資源來解決。在評 5 分之前，驗證文件是當前的——18 個月前的 SOC 2 報告可能無法滿足您的稽核員。

維度 6：退出策略 — 權重：10%

標準	1	3	5
微調工作可匯出？	無匯出	部分匯出	以開放格式完整匯出（GGUF、SafeTensors 等）
遷移支持已記錄？	無	基本指導	帶 SLA 的完整遷移文件
實質行為更改的合同退出條款？	無	非正式承諾	定義的退出權合同觸發器
可攜帶的 API 格式？	僅專有	部分兼容性	OpenAI 兼容或等效開放標準

評分指導：退出標準在供應商評估中通常被低估，因為切換感覺遙遠。誠實地模擬切換費用：如果這個供應商更改條款、被收購或品質實質降級，遷移實際上花費多少？這個數字應該直接影響您在退出標準上放多少權重。

評分解釋

計算每個供應商的總加權分數：

總分 = (D1 × 0.20) + (D2 × 0.20) + (D3 × 0.15) + (D4 × 0.20) + (D5 × 0.15) + (D6 × 0.10)

分數範圍	解釋
4.0 – 5.0	繼續。治理立場強大。
3.0 – 3.9	帶緩解計劃繼續。記錄差距的補償控制。
2.0 – 2.9	重大風險。在沒有實質補償控制的情況下，不要部署用於受監管或高風險使用案例。
低於 2.0	不要依賴此供應商進行任務關鍵型工作負載。

維度 2 或 4 中的任何單一標準分數為 1 的情況，無論總分如何，都應被視為潛在阻礙——這些是內部最難補償差距的領域。

應用記分卡：實際範例

考慮三個貸款資格支持工具的選項：

供應商 A（主要商業 LLM API）：在能力和合規文件（SOC 2、HIPAA BAA 可用）上表現強。在版本固定上弱（僅在 30 天通知後棄用別名，無回滾 SLA）。資料治理僅退出。總體得分約 3.2——帶緩解繼續：實施自己的輸入/輸出記錄，協商版本固定，以書面形式獲取資料處理附錄。

供應商 B（較小的 AI 初創公司）：出色的基準分數，引人注目的演示。無 BAA，無附錄 IV 文件，無稽核日誌，無資料居留選項。得分約 1.8——無論能力如何，對受監管的使用案例都不可行。

自有模型（微調，自託管）：根據定義，在維度 1、2 和 4 上得 5.0。您控制版本，您擁有日誌，您的資料從不離開您的基礎設施。監管合規支持（維度 5）取決於您的內部流程，而不是供應商的。退出風險（維度 6）為零——您以開放格式擁有權重。

自有模型基線

評分練習明確了在能力比較中容易遺漏的東西：您自有的模型通過構建消除了最關鍵的治理風險。

版本穩定性：您的模型不更新，除非您更新它。稽核記錄：您控制記錄堆疊。資料治理：您的訓練資料從不離開您的環境。退出策略：您以開放格式持有權重。

這不意味著自有模型總是正確的答案——它們需要投資微調基礎設施和專業知識。但對於供應商治理分數一致落在 2.5-3.5 範圍的受監管使用案例，補償控制的總成本通常超過自有模型的費用。

查看早鳥定價 →

預約 Ertas 探索通話 →

運行此流程

識別您的組織使用或正在評估的所有 AI 供應商（包括 SaaS 產品中的嵌入式 AI）
使用本記分卡為每個供應商評分——在供應商之間對每個維度使用相同的評估者
記錄您的評分理由，而不僅僅是數字——稽核員會想看到它
對於得分 2.0-3.9 的供應商，在部署之前記錄補償控制
每年重新評估，或在實質更改後立即評估（收購、政策更改、重大模型更新）

記分卡是決策支持工具，而不是否決機制。帶有可靠緩解計劃的 3.2 是可辯護的採購決策。沒有緩解計劃的 1.8 不是——當出現問題時，缺乏這種分析將是稽核員或監管機構首先尋找的東西。