
数据集版本控制实践:训练数据的 Git
你为代码做版本控制。你为模型做版本控制。但你为训练数据做版本控制吗?数据集版本控制——数据集的 diff、分支和回滚——是成熟 AI 团队保持可复现性的方式。
你用 Git 为代码做版本控制。你用模型注册表为模型做版本控制。但当有人问"什么数据训练了目前在生产中的模型?"——典型的回答是尴尬的沉默,然后有人查看四个月前的 Slack 记录。
这个差距不仅仅是不方便。它是可复现性、调试和合规的失败。
数据集版本控制——将代码版本控制中的分支、diff、标签和回滚概念应用于训练数据——是成熟 AI 团队弥合这一差距的方式。
为什么数据集版本控制很重要
可复现性
"重新创建训练模型 v2.3 的确切数据集。" 没有版本控制,这个请求会触发一场取证调查。有了版本控制,它是一个单独的 checkout 命令。
调试
模型 v3.1 在特定文档类型上比 v3.0 差 8%。有了版本化数据集,你可以 diff 两个版本。
合规
欧盟 AI 法案要求组织记录用于训练 AI 系统的数据。
回滚
回滚能力将数据准备错误从灾难变为小挫折。
版本控制工作流
主分支
包含当前生产数据集。受保护分支:不允许直接修改。
实验分支
当团队成员想修改数据集时,创建一个分支。分支创建应该自由:add-medical-terminology、relabel-contract-clauses、remove-duplicate-invoices。
审查和合并
合并前审查 diff。关键问题:添加/修改/删除了多少示例?类别分布是否显著变化?质量 指标是否达标?
标记发布
当数据集用于训练模型时,用模型版本标记:model-v3.1-dataset。
Diff 能力
数据集 diff 需要捕获:行级变更、标签变更、分布偏移、模式变更。
Ertas Data Suite 实现了完整的 diff 能力、分支合并工作流和自动血缘跟踪的数据集版本控制。所有数据保留在你的基础设施上。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.