数据集版本控制实践：训练数据的 Git

你用 Git 为代码做版本控制。你用模型注册表为模型做版本控制。但当有人问"什么数据训练了目前在生产中的模型？"——典型的回答是尴尬的沉默，然后有人查看四个月前的 Slack 记录。

这个差距不仅仅是不方便。它是可复现性、调试和合规的失败。

数据集版本控制——将代码版本控制中的分支、diff、标签和回滚概念应用于训练数据——是成熟 AI 团队弥合这一差距的方式。

为什么数据集版本控制很重要

可复现性

"重新创建训练模型 v2.3 的确切数据集。" 没有版本控制，这个请求会触发一场取证调查。有了版本控制，它是一个单独的 checkout 命令。

调试

模型 v3.1 在特定文档类型上比 v3.0 差 8%。有了版本化数据集，你可以 diff 两个版本。

合规

欧盟 AI 法案要求组织记录用于训练 AI 系统的数据。

回滚

回滚能力将数据准备错误从灾难变为小挫折。

版本控制工作流

主分支

包含当前生产数据集。受保护分支：不允许直接修改。

实验分支

当团队成员想修改数据集时，创建一个分支。分支创建应该自由：add-medical-terminology、relabel-contract-clauses、remove-duplicate-invoices。

审查和合并

合并前审查 diff。关键问题：添加/修改/删除了多少示例？类别分布是否显著变化？质量指标是否达标？

标记发布

当数据集用于训练模型时，用模型版本标记：model-v3.1-dataset。

Diff 能力

数据集 diff 需要捕获：行级变更、标签变更、分布偏移、模式变更。

Ertas Data Suite 实现了完整的 diff 能力、分支合并工作流和自动血缘跟踪的数据集版本控制。所有数据保留在你的基础设施上。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

数据集版本控制实践：训练数据的 Git

为什么数据集版本控制很重要

可复现性

调试

合规

回滚

版本控制工作流

主分支

实验分支

审查和合并

标记发布

Diff 能力

延伸阅读

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

从700GB PDF到500条微调数据集：数据精简流水线

主动学习循环：无数据外泄的模型辅助标注

从临时数据准备到持续数据运营：构建始终在线的流水线