Back to blog
    数据集版本控制实践:训练数据的 Git
    versioningdatasetsreproducibilitydata-managementsegment:enterprise

    数据集版本控制实践:训练数据的 Git

    你为代码做版本控制。你为模型做版本控制。但你为训练数据做版本控制吗?数据集版本控制——数据集的 diff、分支和回滚——是成熟 AI 团队保持可复现性的方式。

    EErtas Team·

    你用 Git 为代码做版本控制。你用模型注册表为模型做版本控制。但当有人问"什么数据训练了目前在生产中的模型?"——典型的回答是尴尬的沉默,然后有人查看四个月前的 Slack 记录。

    这个差距不仅仅是不方便。它是可复现性、调试和合规的失败。

    数据集版本控制——将代码版本控制中的分支、diff、标签和回滚概念应用于训练数据——是成熟 AI 团队弥合这一差距的方式。

    为什么数据集版本控制很重要

    可复现性

    "重新创建训练模型 v2.3 的确切数据集。" 没有版本控制,这个请求会触发一场取证调查。有了版本控制,它是一个单独的 checkout 命令。

    调试

    模型 v3.1 在特定文档类型上比 v3.0 差 8%。有了版本化数据集,你可以 diff 两个版本。

    合规

    欧盟 AI 法案要求组织记录用于训练 AI 系统的数据。

    回滚

    回滚能力将数据准备错误从灾难变为小挫折。

    版本控制工作流

    主分支

    包含当前生产数据集。受保护分支:不允许直接修改。

    实验分支

    当团队成员想修改数据集时,创建一个分支。分支创建应该自由:add-medical-terminologyrelabel-contract-clausesremove-duplicate-invoices

    审查和合并

    合并前审查 diff。关键问题:添加/修改/删除了多少示例?类别分布是否显著变化?质量指标是否达标?

    标记发布

    当数据集用于训练模型时,用模型版本标记:model-v3.1-dataset

    Diff 能力

    数据集 diff 需要捕获:行级变更、标签变更、分布偏移、模式变更。

    Ertas Data Suite 实现了完整的 diff 能力、分支合并工作流和自动血缘跟踪的数据集版本控制。所有数据保留在你的基础设施上。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading