What is 数据血缘?

跟踪数据从源头经过每个转换、处理步骤到模型训练使用的全过程，以维护完整的审计轨迹。

Definition

数据血缘是关于数据来源、如何转换以及在哪里使用的端到端记录。在AI和机器学习的场景中，血缘跟踪数据生命周期的每个阶段：从原始来源摄取、清洗和预处理、标注、增强，直到最终纳入产生特定模型版本的训练数据集。一个健全的血缘系统能回答诸如「哪些训练样本影响了这个模型的行为？」和「我们能否证明训练中没有使用受版权保护的材料？」等问题。

血缘元数据通常包括时间戳、转换日志、执行每个操作的人员或系统的身份标识、用于数据完整性验证的校验和，以及输入数据集和输出模型之间的链接。这创建了一个有向无环图（DAG）的数据流，可以正向遍历（从源到模型）或反向遍历（从模型预测到原始来源）。

在受监管行业——医疗、金融、法律、政府——数据血缘不是可选项。GDPR、HIPAA和欧盟AI法案等法规要求组织证明其训练数据的来源，证明数据主体的权利得到尊重，并展示有偏差或有问题的数据已被识别和适当处理。没有血缘记录，组织在部署AI系统时面临法律责任和声誉风险。

Why It Matters

随着全球AI监管加速，将每条训练数据追溯到其来源的能力正在成为部署的硬性要求。欧盟AI法案明确要求对高风险AI系统的训练数据来源进行文档化。无法提供此文档的组织面临罚款和部署禁令。

除了合规之外，数据血缘还有实际的工程用途。当模型表现出意外行为——虚构事实、产生偏见输出或在某些输入类型上失败——血缘能够进行根本原因分析。工程师可以将有问题的输出追溯到特定的训练样本，识别损坏或错误标注的数据，并在不从头重新训练的情况下精确修复问题。仅此调试能力就足以证明血缘基础设施的投资是值得的。