
gdpr合规ai-training-dataenterprise-ai数据治理segment:enterprise
GDPR 与 AI 训练数据:欧洲企业在 Fine-Tune 之前必须做什么
当个人数据用于训练 AI 模型时,GDPR 施加了特定义务。本指南涵盖合法依据、数据最小化、目的限制,以及「同意」对训练数据集实际意味着什么。
EErtas Team·
使用个人数据训练 AI 模型是欧洲企业可以进行的最复杂的数据处理活动之一。GDPR 的一般原则——合法依据、目的限制、数据最小化、存储限制——适用于 AI 训练,就像适用于任何其他处理一样。但 AI 训练产生了一般 GDPR 指南未完全解决的特定复杂性。
本指南涵盖在准备包含个人数据的训练数据时产生的具体 GDPR 义务。
基本问题:你的训练数据是个人数据吗?
GDPR 适用于个人数据的处理——任何与已识别或可识别自然人相关的信息。来自内部业务系统的训练数据几乎总是包含个人数据。
实际上:如果你不能保证训练数据不包含可用于识别任何自然人的信息,则 GDPR 适用。
六种合法依据——哪些适用于 AI 训练
同意(第 6(1)(a) 条)
同意必须是自由给予的、特定的、知情的和明确的。对于 AI 训练:数据主体必须被特别告知他们的数据将用于训练 AI。在实践中,对于大多数企业数据集来说,回溯性地建立 AI 训练同意是困难的。
合法利益(第 6(1)(f) 条)
需要三部分平衡测试。监管机构已表示合法利益原则上可用,但需要有记录和可辩护的平衡测试。
合同履行(第 6(1)(b) 条)
仅在处理对与数据主体履行合同严格必要时适用。在客户数据上训练 AI 模型通常不是履行合同所必需的。
目的限制:最大的实际问题
第 5(1)(b) 条要求个人数据"为特定、明确和合法目的而收集,并且不以与这些目的不相容的方式进一步处理。"
将数据用于 AI 训练几乎总是与最初收集的目的不同。本地处理不能消除目的限制问题——GDPR 的义务是关于处理的合法性,而不是处理发生在哪里。但本地处理确实消除了将数据传输给第三方供应商所触发的额外目的限制。