
GDPR 與 AI 訓練資料:歐洲企業在微調前必須完成的事項
當個人資料被用於訓練 AI 模型時,GDPR 施加了特定義務。本指南涵蓋合法依據、資料最小化、目的限制,以及「同意」對訓練資料集的真實含義。
使用個人資料訓練 AI 模型,是歐洲企業可以進行的最複雜的資料處理活動之一。GDPR 的一般原則——合法依據、目的限制、資料最小化、儲存限制——適用於 AI 訓練,就像適用於任何其他處理一樣。但 AI 訓練創造了一般 GDPR 指南無法完全解決的特定複雜性。
本指南涵蓋當您從含有個人資料的來源準備訓練資料時所 產生的具體 GDPR 義務。它面向積極建構或計劃建構 AI 系統的團隊——不是提供抽象建議的法律團隊,而是需要做出操作決策的 ML 工程師、資料科學家和合規官員。
根本問題:您的訓練資料是個人資料嗎?
GDPR 適用於個人資料的處理——任何與已識別或可識別自然人相關的資訊。在任何其他事項之前,您需要確定您的訓練資料是否屬於 GDPR 的範疇。
來自內部業務系統的訓練資料幾乎總是包含個人資料:員工記錄、客戶通訊、HR 資料、帶有具名方的合約文件、與個人相關聯的財務記錄。來自外部收集來源的訓練資料(爬取的文件、購買的資料集)也可能包含個人資料。
可識別性問題很重要。GDPR 不僅適用於明確識別的個人,也適用於任何可以識別的人,「特別是通過名字、識別號碼、位置資料、線上識別符,或針對該自然人的生理、心理、遺傳、精神、經濟、文化或社會身份的一個或多個特定因素」(第 4(1) 條)。
實際上:如果您不能保證您的訓練資料不包含任何可用於識別任何自然人的資訊,GDPR 就適用。
六個合法依據——以及哪些適用於 AI 訓練
第 6 條提供了六個處理個人資料的合法依據。對於 AI 訓練使用案例,相關依據是:
同意(第 6(1)(a) 條)
同意必須是自願給予、特定的、知情的且明確的。對於 AI 訓練,這意味著:
- 資料主體必須被明確告知其資料將用於訓練 AI
- 同意必須是為了那個特定目的收集的——而不是捆綁在一般服務條款同意中
- 資料主體必須能夠在不受負面後果的情況下拒絕
實際上,對於大多數企業資料集,事後確立 AI 訓練的同意很困難。在「用於 HR 行政管理」的隱私通知下收集的員工資料,沒有 AI 訓練的同意。為服務交付收集的客戶通訊,沒有模型微調的同意。在大規模上獲取新的、具體的同意在操作上很困難,對於某些資料集,這是不可能的。
合法利益(第 6(1)(f) 條)
合法利益要求三部分平衡測試:您必須有合法利益,處理對於實現它必須是必要的,且利益不得被資料主體的權利和利益所凌駕。
對於 AI 訓練,監管機構表示合法利益在原則上是可用的,但需要有記錄且可辯護的平衡測試。測試必須真正衡量對資料主體的影響,特別是對於敏感資料或大規模處理。自利性評估是不夠的。
合法利益不適用於公共機構在執行其任務時的處理,並且在勞工保護更強的司法管轄區(例如德國,許多 HR 資料使用需要工廠委員會協商),對於員工資料可能不適用。
法律義務(第 6(1)(c) 條)和公共任務(第 6(1)(e) 條)
這些適用於狹窄的情況——主要是公共機構或特定法律要求或授權處理的情況。大多數商業 AI 開發不符合資格。
履行合約(第 6(1)(b) 條)
這僅適用於處理嚴格必要以履行與資料主體合約的情況。在客戶資料上訓練 AI 模型通常對於履行與那些客戶的合約不是必要的——它是次要用途。
目的限制:最大的實際問題
第 5(1)(b) 條要求個人資料「以指定、明確且合法的目的收集,並且不以與那些目的不相容的方式進一步處理。」
使用資料進行 AI 訓練幾乎總是與資料最初收集的目的不同的目的。HR 資料是為就業管理收集的。客戶記錄是為服務交付收集的。臨床筆記是為患者護理創建的。將這些中的任何一個用於 AI 訓練是一個新目的。
新目的是否與原始目的「相容」,根據第 6(4) 條進行評估,考慮:
- 原始目的與新目的之間的關聯
- 資料收集的背景以及資料主體的合理期望
- 資料的性質(敏感類別需要更強的理由)
- 對資料主體的後果
- 適當保障措施的存在
在大多數情況下,使用操作資料進行 AI 訓練在沒有新的合法依據或有效匿名化的情況下,無法通過相容性測試(見下文)。這就是為什麼一家建築公司告訴我們,他們的外部 AI 使用資料審批流程需要長達一年的時間——目的限制問題需要對每個資料集進行新的同意或合法利益評估,需要資料保護官審查,通常需要工廠委員會參與,以及有記錄的決策記錄。
本地處理並不能消除 目的限制問題——GDPR 的義務是關於處理的合法性,而非處理發生在哪裡。但本地處理確實消除了將資料傳輸給第三方供應商所觸發的額外目的限制。
資料最小化
第 5(1)(c) 條要求個人資料「對於處理目的而言是適當的、相關的且限於必要的。」
對於 AI 訓練,這意味著您不能以更多資料總是更好為由,將所有可用資料倒入訓練管道。您需要:
- 明確定義為實現訓練目標所需的資料
- 為包含的每個欄位或資料類型提供理由
- 刪除或不收集對目的不必要的資料
實際上,AI 訓練的資料最小化意味著對要包含哪些文件、欄位和記錄做出審慎決定——而非簡單地擷取所有內容。這也意味著在標注之前從文件中刪除不必要的個人資料:一份包含當事人姓名、地址和日期的法律合約,應該將這些識別符去除,除非它們與您訓練模型做的事情特別相關。
假名化 vs 匿名化
GDPR 做出了關鍵區分:
假名化資料(第 26 條、第 4(5) 條):已被處理使其不再能在不使用另行保存的附加資訊的情況下歸因於特定資料主體的個人資料。假名化資料在 GDPR 下仍然是個人資料——所有義務繼續適用。
匿名化資料:已被不可逆地修改使得資料主體無法以任何合理可能使用的手段直接或間接識別的資料。真正的匿名化資料不在 GDPR 範圍之外。
GDPR 下真正匿名化的標準很高。第 26 條規定測試是「所有合理可能使用的手段」是否已被考慮,包括「所有客觀因素,如識別所需的成本和時間,考慮到處理時可用的技術。」
在 2026 年,隨著越來越強大的再識別技術和大規模可連結資料集公開可用,實現真正的匿名化——特別是對於文字資料,其中寫作風格、稀有的屬性組合或特定事件可以識別個人——在技術上是要求很高的。刪除姓名和明顯的識別符是不夠的。
對於大多數 AI 訓練情境,實際含義是:如果您使用個人資料,請計劃全程完全的 GDPR 合規。如果您想依靠匿名化作為豁免,請獲取有記錄的專家評估,證明您的特定資料集和匿名化技術真正滿足 GDPR 標準。