Back to blog
    为 AI 训练数据构建不可变审计轨迹:技术要求
    审计轨迹不可变合规技术数据管道segment:enterprise

    为 AI 训练数据构建不可变审计轨迹:技术要求

    EU AI Act 第 10 条和第 30 条要求可验证的、防篡改的训练数据收集、处理和使用记录。以下是不可变 AI 审计轨迹的技术架构。

    EErtas Team·

    当 EU AI Act 说 AI 系统必须维护运营记录时,它不是说"在某处保留一个日志文件"。它意味着审计员可以独立确认自创建以来未被修改的可验证、防篡改记录。

    "不可变"在此上下文中的含义

    一旦记录被写入,任何用户、管理员或系统进程都不能修改、覆盖或删除它。

    技术机制:写入一次存储加密链数字签名带行级安全的仅追加数据库

    架构选项

    选项 1:带加密哈希的仅追加数据库

    使用 PostgreSQL,SHA-256 哈希链。成本最低,使用现有基础设施。

    选项 2:数据集版本控制的 Merkle 树

    通过单个根哈希高效验证大型数据集。适用于数据集版本控制。

    选项 3:签名日志条目

    每条日志使用 HSM 管理的私钥签名。最强的法律和监管证据形式。

    推荐方法: 结合选项 1 和 2。

    每个管道阶段记录什么

    摄入: 源文件路径、哈希、格式、提取方法、操作员 ID。

    清洗: 输入数据集版本、操作类型、参数、修改记录、前后样本。

    标注: 标注方法、标注者 ID、标签模式版本、标注者间一致性分数。

    增强: 增强方法、参数、生成的合成记录数。

    导出: 输出格式、记录数、输出文件哈希、Merkle 树根哈希。

    存储需求

    每年约 50MB 原始日志数据。10 年约 500MB。存储成本不是约束。约束是完整性——确保数据在 10 年间跨存储迁移和硬件替换保持未修改。

    建议在至少两个独立位置存储审计日志并进行独立完整性验证。

    Ertas Data Suite

    Ertas Data Suite 原生实现不可变审计日志。每个操作生成带操作员标识的哈希链、带时间戳的日志条目。数据集版本通过 Merkle 树根哈希跟踪。

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading