为 AI 训练数据构建不可变审计轨迹：技术要求

当 EU AI Act 说 AI 系统必须维护运营记录时，它不是说"在某处保留一个日志文件"。它意味着审计员可以独立确认自创建以来未被修改的可验证、防篡改记录。

"不可变"在此上下文中的含义

一旦记录被写入，任何用户、管理员或系统进程都不能修改、覆盖或删除它。

技术机制：写入一次存储、加密链、数字签名、带行级安全的仅追加数据库。

架构选项

选项 1：带加密哈希的仅追加数据库

使用 PostgreSQL，SHA-256 哈希链。成本最低，使用现有基础设施。

选项 2：数据集版本控制的 Merkle 树

通过单个根哈希高效验证大型数据集。适用于数据集版本控制。

选项 3：签名日志条目

每条日志使用 HSM 管理的私钥签名。最强的法律和监管证据形式。

推荐方法： 结合选项 1 和 2。

每个管道阶段记录什么

摄入： 源文件路径、哈希、格式、提取方法、操作员 ID。

清洗： 输入数据集版本、操作类型、参数、修改记录、前后样本。

标注： 标注方法、标注者 ID、标签模式版本、标注者间一致性分数。

增强： 增强方法、参数、生成的合成记录数。

导出： 输出格式、记录数、输出文件哈希、Merkle 树根哈希。

存储需求

每年约 50MB 原始日志数据。10 年约 500MB。存储成本不是约束。约束是完整性——确保数据在 10 年间跨存储迁移和硬件替换保持未修改。

建议在至少两个独立位置存储审计日志并进行独立完整性验证。

Ertas Data Suite

Ertas Data Suite 原生实现不可变审计日志。每个操作生成带操作员标识的哈希链、带时间戳的日志条目。数据集版本通过 Merkle 树根哈希跟踪。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

为 AI 训练数据构建不可变审计轨迹：技术要求

"不可变"在此上下文中的含义

架构选项

选项 1：带加密哈希的仅追加数据库

选项 2：数据集版本控制的 Merkle 树

选项 3：签名日志条目

每个管道阶段记录什么

存储需求

Ertas Data Suite

延伸阅读

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

距 EU AI Act 合规还有5个月：数据管道实施冲刺

EU AI Act 第10条实施手册：从原始数据到合规管道

EU AI Act 运营证据：审计员实际要求什么