高风险 AI 系统的 EU AI Act 数据治理清单

如果你正在构建或部署 EU AI Act 下的高风险 AI 系统，第10条要求对你的训练、验证和测试数据集实施特定的数据治理实践。本清单直接映射到法规要求。

1. 数据收集和来源

记录所有训练数据的来源、收集方法、法律基础。

记录所有准备操作、使用的工具和版本、去重方法、PII/PHI 检测和脱敏方法。

定义标注模式、记录标注者资质、测量标注者间一致性率。

定义检查维度、运行偏差分析、记录发现和缓解措施。

定义质量标准、测量错误率、评估代表性。

记录数据集大小、类别分布、关键特征统计属性。

实施记录级血缘追踪、记录每个转换的时间戳、归属每个操作到已识别的操作员。

实施唯一版本标识符、记录哪个数据集版本训练了哪个模型版本。

将所有文档编制成结构化技术文档包。

建立部署后数据监控程序、定义数据集重新评估触发条件。

第1-7节的任何红色项目代表潜在的第10条违规。第9节的任何红色项目代表潜在的第30条违规。两者都面临最高1500万欧元或全球年营业额3%的罚款。