
为 AI 训练数据构建不可变审计轨迹:技术要求
EU AI Act 第 10 条和第 30 条要求可验证的、防篡改的训练数据收集、处理和使用记录。以下是不可变 AI 审计轨迹的技术架构。
当 EU AI Act 说 AI 系统必须维护运营记录时,它不是说"在某处保留一个日志文件"。它意味着审计员可以独立确认自创建以来未被修改的可验证、防篡改记录。
"不可变"在此上下文中的含义
一旦记录被写入,任何用户、管理员或系统进程都不能修改、覆盖或删除它。
技术机制:写入一次存储、加密链、数字签名、带行级安全的仅追加数据库。
架构选项
选项 1:带加密哈希的仅追加数据库
使用 PostgreSQL,SHA-256 哈希链。成本最低,使用现有基础设施。
选项 2:数据集版本控制的 Merkle 树
通过单个根哈希高效验证大型数据集。适用于数据集版本控制。
选项 3:签名日志条目
每条日志使用 HSM 管理的私钥签名。最强的法律和监管证据形式。
推荐方法: 结合选项 1 和 2。
每个管道阶段记录什么
摄入: 源文件路径、哈希、格式、提取方法、操作员 ID。
清洗: 输入数据集版本、操作类型、参数、修改记录、前后样本。
标注: 标注方法、标注者 ID、标签模式版本、标注者间一致性分数。
增强: 增强方法、参数、生成的合成记录数。
导出: 输出格式、记录数、输出文件哈希、Merkle 树根哈希。
存储需求
每年约 50MB 原始日志数据。10 年约 500MB。存储成本不是约束。约束是完整性——确保数据在 10 年间跨存储迁移和硬件替换保持未修改。
建议在至少两个独立位置存储审计日志并进行独立完整性验证。
Ertas Data Suite
Ertas Data Suite 原生实现不可变审计日志。每个操作生成带操作员标识的哈希链、带时间戳的日志条目。数据集版本通过 Merkle 树根哈希跟踪。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.