
ai-incident-responseai-governancemodel-governanceenterprise-aimlops
AI 模型事件响应计划:企业团队实用指南
AI 事件不同于软件 bug。它们是统计性的、难以检测的,可能在任何人注意到之前影响数千个决策。以下是如何构建真正有效的响应计划。
EErtas Team·
你的软件事件响应计划不适用于 AI。AI 错误是概率性的。模型有时候对某些输入以某种概率出错。在生产系统中复现特定 AI 错误需要触发它的特定输入。
三个额外属性使 AI 事件在结构上不同于软件事件:
静默传播。 AI 错误通常不可见,直到统计分析揭示模式。
未定义的开始时间。 你很少精确知道开始时间。
修复改变了系统。 重新训练 AI 模型产出一个有自身行为的新模型。
四种 AI 事件类型
类型 1:静默模型行为变化
供应商推送了更新。你的应用生成不同输出但没有警报触发。
类型 2:分布偏移
模型接收的输入与训练数据不同。模型在当前生产输入上的准确率低于训练和评估数据。
类型 3:偏见和差异影响发现
分层分析显示模型在定义的人口群体中的准确率或决策分布显著不同。
类型 4:HITL 故障
人工监督就位但失败了。审查员在橡皮图章 AI 输出。
响应时间标准
P0——系统性故障:2小时内遏制,30分钟内内部升级
P1——影响定义群体的主动退化:24小时内遏制
P2——检测到的退化无主动伤害:48小时内评估
追溯影响评估
遏制后需识别事件窗口期间做出的每个不正确决策并评估是否需要纠正。