
EU AI Act 数据管道合规准备检查器
针对 AI 训练数据管道应用 EU AI Act 第 10 条和第 30 条的合规准备框架。包含高风险和有限风险系统的检查表,重点关注 2026 年 8 月的截止日期。
EU AI Act 对高风险 AI 系统的要求将于 2026 年 8 月生效——距本文发布日期还有五个月。如果您的组织开发、部署或提供根据该法规分类为高风险的 AI 系统,您的数据管道必须满足数据治理、文档和可追溯性方面的特定要求。
本准备检查器专门针对 EU AI Act 第 10 条和第 30 条中的数据管道要求。它不涵盖该法规的全部范围(包括风险评估、人工监督、稳健性等),但数据治理是大多数组织差距最大、工作量最多的领域。
使用本检查器评估您当前的准备情况,识别差距,并在 2026 年 8 月执行日期之前确定补救措施的优先级。
了解您的风险分类
在评估合规准备之前,您需要确定您的 AI 系统属于高风险还是有限风险分类。EU AI Act 在附件 III 中定义了高风险系统,涵盖以下领域:
- 生物特征识别和分类
- 关键基础设施的管理和运营
- 教育和职业培训(准入、评估)
- 就业、工人管理和自主就业(招聘、评估)
- 基本公共和私人服务的获取(信用评分、保险)
- 执法、移民和边境管控
- 司法管理和民主进程
如果您的 AI 系统在这些领域中的任何一个运行,它几乎肯定被分类为高风险 ,并受第 10 条和第 30 条的全部要求约束。
不在高风险类别中的系统可能仍受有限风险要求(主要是透明度义务)或通用 AI 模型要求的约束(如果涉及基础模型)。
第 10 条:数据和数据治理要求
第 10 条为高风险 AI 系统中使用的训练、验证和测试数据集建立了要求。以下检查表涵盖了每项要求以及您的数据管道的具体标准。
高风险系统检查表——第 10 条
| 要求 | 您的管道必须做什么 | 就绪 | 部分就绪 | 未就绪 |
|---|---|---|---|---|
| 10(2) 数据治理 | 实施文档化的数据治理框架,涵盖设计选择、数据收集、准备操作、假设制定以及数据可用性、数量和适用性评估 | 管道具有文档化的数据治理政策,涵盖端到端数据处理 | 存在一些文档但覆盖范围有差距 | 没有正式的数据治理框架 |
| 10(2)(a) 设计选择 | 记录数据收集和处理的设计选择,包括选择的数据源及原因 | 数据源选择和处理逻辑已文档化并进行版本控制 | 团队理解设计选择但未正式记录 | 设计选择是临时性的且未记录 |
| 10(2)(b) 数据收集 | 记录数据收集流程,包括数据的来源、目的和数量 | 管道记录数据来源:每个数据集的源、时间戳、数量和收集方法 | 部分来源追踪;一些源未记录 | 没有系统化的来源追踪 |
| 10(2)(c) 数据准备 | 记录所有数据准备操作,包括标注、标签、清洗、丰富和聚合 | 每个管道转换都记录了操作者 ID、时间戳和输入/输出描述 | 主要转换已记录但阶段之间存在差距 | 转换未被记录 |
| 10(2)(d) 假设 | 记录关于数据衡量和代表内容的假设 | 关于数据代表性和衡量的假设已记录 | 一些假设非正式记录 | 没有记录的假设 |
| 10(2)(e) 可用性评估 | 评估和记录数据的可用性、数量和适用性 | 关于训练数据是否充分和具有代表性的文档化评估 | 已进行评估但未正式记录 | 未进行评估 |
| 10(2)(f) 偏见检查 | 检查数据中可能影响健康、安全或基本权利的偏见 | 已进行并记录系统性偏见分析,并记录了缓解步骤 | 进行了一些偏见分析但不全面 | 没有偏见检查流程 |
| 10(2)(g) 数据差距 | 识别和解决可能影响合规性的数据差距 | 差距分析已记录并有补救计划 | 非正式地识别了差距但没有系统化流程 | 没有差距识别流程 |
| 10(3) 代表性 | 训练、验证和测试数据集必须相关、具有充分代表性且尽可能没有错误 | 数据集代表性的统计分析已记录;数据质量指标被追踪 | 对代表性的非正式评估 | 没有代表性分析 |
| 10(4) 数据属性考量 | 考虑 AI 系统的特定地理、上下文、行为或功能设置 | 数据集组成反映部署上下文;上下文因素的文档化分析 | 对上下文有一些考虑但不系统化 | 不考虑部署上下文 |
| 10(5) 个人数据处理 | 个人数据处理必须 遵循 GDPR;特殊类别数据仅在偏见检测和纠正严格必要时才可处理 | PII/PHI 检测和编辑内置于管道中;特殊类别数据处理已记录 | 有一些 PII 处理但覆盖范围或文档存在差距 | 管道中没有系统化的 PII 处理 |
有限风险系统检查表——第 10 条
有限风险系统具有较低的数据治理要求,但仍必须满足基本标准。
| 要求 | 您的管道必须做什么 | 就绪 | 部分就绪 | 未就绪 |
|---|---|---|---|---|
| 数据质量基线 | 确保训练数据对预期目的具有足够的质量 | 基本数据质量检查已到位 (完整性、一致性、格式验证) | 有一些质量检查但不系统化 | 没有数据质量流程 |
| 数据源透明度 | 如被要求,能够披露用于训练的数据 | 数据源已记录且可检索 | 数据源文档不完整 | 数据源未被追踪 |
| 个人数据的 GDPR 合规 | 在处理个人数据时遵守 GDPR | 符合 GDPR 的数据处理,包括同意、合法依据和数据主体权利 | 部分 GDPR 合规 | 未进行 GDPR 评估 |
第 30 条:文档和日志记录要求
第 30 条要求高风险 AI 系统的提供者设计能够自动记录与识别风险和促进上市后监控相关的事件(日志)的系统。
高风险系统检查表——第 30 条
| 要求 | 您的管道必须做什么 | 就绪 | 部分就绪 | 未就绪 |
|---|---|---|---|---|
| 30(1) 自动日志记录 | AI 系统必须在整个生命周期中自动记录事件 | 管道在每个阶段自动生成日志;不需要手动记录 | 一些阶段生成自动日志;其他阶段需要手动记录 | 日志记录是手动的或不存在 |
| 30(2) 可追溯性 | 日志必须能够追踪系统在整个生命周期中的运行 | 从原始输入到处理输出的完整数据谱系,每个转换步骤都有记录 | 一些管道阶段存在谱系但有差距 | 没有数据谱系追踪 |
| 30(3) 日志保留 | 日志必须保留与高风险 AI 系统预期目的相适应的期限 | 日志保留策略已定义并自动化;日志保留了所需的期限 | 日志已保留但没有正式的保留策略 | 日志被临时删除或未保留 |
| 30(4) 记录格式 | 日志记录功能必须符合公认的标准或通用规范 | 日志以结构化、机器可读的格式存储(例如 JSON、结构化数据库) | 日志存在但格式不一致 | 非结构化或不可访问的日志格式 |
| 操作者识别 | 记录必须识别谁或什么触发了每个操作 | 每次管道执行都标记了操作者/系统身份和时间戳 | 一些操作标记了操作者身份 | 日志中没有操作者识别 |
| 输入/输出记录 | 记录必须在相关管道阶段 捕获输入和输出 | 在每个阶段捕获输入和输出哈希(或在适当时捕获完整记录) | 一些阶段记录了输入/输出 | 没有输入/输出记录 |
有限风险系统检查表——第 30 条
| 要求 | 您的管道必须做什么 | 就绪 | 部分就绪 | 未就绪 |
|---|---|---|---|---|
| 基本运营日志 | 维护足以满足透明度义务的系统运营记录 | 系统生成基本运营日志 | 最少的日志记录已到位 | 没有日志记录 |
| 事件记录 | 记录和调查重大事件 | 存在事件报告流程 | 临时事件追踪 | 没有事件记录 |
准备评分
统计您在高风险检查表(第 10 条和第 30 条合并)中的回答。高风险系统共有 17 个项目。
| 结果 | 准备级别 | 含义 |
|---|---|---|
| 14-17 个项目"就绪" | 高准备度 | 在 2026 年 8 月之前需要弥补的差距较小。专注于剩余项目并进行最终审查。 |
| 9-13 个项目"就绪" | 中等准备度 | 仍有实质性工作要做。在 2026 年 8 月之前创建一个优先补救计划并设定截止日期。 |
| 4-8 个项目"就绪" | 低准备度 | 多项要求存在显著差距。建议聘请合规专家。预算 3-5 个月的补救工作。 |
| 少于 4 个项目"就绪" | 未准备 | 需要构建基础的数据治理和日志记录基础设施。这至少需要 4-6 个月的努力。随着 2026 年 8 月截止日期的临近,这应被视为紧急事项。 |
2026 年 8 月时间线
EU AI Act 下的高风险系统要求从 2026 年 8 月 2 日起适用。以下是今天评估准备情况的组织的实用时间线。
| 时间范围 | 行动 |
|---|---|
| 现在(2026 年 3 月) | 完成此准备检查器。分类您的 AI 系统。识别所有"未就绪"和"部分就绪"的项目。 |
| 2026 年 4 月 | 创建优先补救计划。为每个差距指定负责人。为工具、流程变更和可能的外部支持编制预算。 |
| 2026 年 5-6 月 | 实施补救。重点关注数据治理文档(第 10 条)和自动日志记录(第 30 条)作为基础要求。 |
| 2026 年 7 月 | 针对完整检查表进行内部审计。使用真实数据测试日志记录和谱系功能。 |
| 2026 年 8 月 | 执行开始。通过定期评估(建议每季度)维持持续合规。 |
"低准备度"或"未准备"评分的组织大约有五个月的时间达到合规。这是可以实现的,但需要立即行动和持续关注。
加速合规的架构决策
几项数据管道架构选择可以同时直接满足 EU AI Act 的多项要求。
带有内置日志记录的可视化管道。 一个管道平台,其中每个处理阶段自动生成带有时间戳、操作者识别和输入/输出记录的结构化日志,默认满足第 30 条的要求。您无需构建自定义日志记录基础设施即可获得可追溯性。
本地处理。 在本地基础设施上运行数据管道,通过消除跨境数据传输顾虑简化了 GDPR 合规(第 10(5) 条)。它还加强了您在数据治理文档方面的立场,因为数据边界清晰且可审计。
PII 编辑作为强制管道阶段。 将 PII 检测和编辑构建到管道本身中(而不是作为可选的后处理步骤),满足了第 10(5) 条关于个人数据和第 10(2)(f) 条关于特殊类别数据偏见检查的要求。编辑阶段还生成证明个人数据被适当处理所需的文档。
不可变的管道版本控制。 当您的管道配置进行了版本控制,每次执行都链接到特定的管道版本时,您就创建了第 30 条所要求的可追溯性。如果出现关于六个月前数据是如何处理的问题,您可以准确重建发生了什么。
检查表之外
本准备检查器涵盖了第 10 条和第 30 条中特定于数据管道的要求。高风险系统的完整 EU AI Act 合规 还需要:
- 一致性评估(第 43 条)
- 风险管理系统(第 9 条)
- 人工监督能力(第 14 条)
- 准确性、稳健性和网络安全(第 15 条)
- 质量管理系统(第 17 条)
- EU 一致性声明(第 47 条)
数据治理和日志记录是所有其他合规要求建立的基础。没有可追溯的、文档化的数据管道,一致性评估和风险管理无法完成。从这里开始,然后扩展到要求的全部范围。
2026 年 8 月的截止日期是固定的。您的准备情况不是。使用此检查器确定您今天的位置,并制定到达您需要到达之处的计划。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

PII 暴露风险评分卡:AI 管道自评估
一份包含 10 个评分风险因素的自评估评分卡,用于评估您的 AI 数据管道中的 PII 和 PHI 暴露情况。评估您的风险等级,在问题变成事故之前识别差距。

PII脱敏精度基准测试:Regex vs NER vs LLM vs 混合管道
比较五种PII脱敏方法的基准测试——regex模式、spaCy NER、transformer NER、基于LLM和混合管道——测量14种实体类型的精确率、召回率、F1分数、速度和误报率。

面向国防承包商的ITAR合规AI训练数据管道
一份以合规为核心的指南,介绍如何构建满足ITAR出口管制要求的AI训练数据管道。涵盖ITAR合规矩阵、受控技术数据的管道架构、审计要求以及面向国防承包商的本地部署方案。