
GDPR 與 AI 訓練資料:歐洲企業在微調前必須完成的事項
當個人資料被用於訓練 AI 模型時,GDPR 施加了特定義務。本指南涵蓋合法依據、資料最小化、目的限制,以及「同意」對訓練資料集的真實含義。
使用個人資料訓練 AI 模型,是歐洲企業可以進行的最複雜的資料處理活動之一。GDPR 的一般原則——合法依據、目的限制、資料最小化、儲存限制——適用於 AI 訓練,就像適用於任何其他處理一樣。但 AI 訓練創造了一般 GDPR 指南無法完全解決的特定複雜性。
本指南涵蓋當您從含有個人資料的來源準備訓練資料時所產生的具體 GDPR 義務。它面向積極建構或計劃建構 AI 系統的團隊——不是提供抽象建議的法律團隊,而是需要做出操作決策的 ML 工程師、資料科學家和合規官員。
根本問題:您的訓練資料是個人資料嗎?
GDPR 適用於個人資料的處理——任何與已識別或可識別自然人相關的資訊。在任何其他事項之前,您需要確定您的訓練資料是否屬於 GDPR 的範疇。
來自內部業務系統的訓練資料幾乎總是包含個人資料:員工記錄、客戶通訊、HR 資料、帶有具名方的合約文件、與個人相關聯的財務記錄。來自外部收集來源的訓練資料(爬取的文件、購買的資料集)也可能包含個人資料。
可識別性問題很重要。GDPR 不僅適用於明確識別的個人,也適用於任何可以識別的人,「特別是通過名字、識別號碼、位置資料、線上識別符,或針對該自然人的生 理、心理、遺傳、精神、經濟、文化或社會身份的一個或多個特定因素」(第 4(1) 條)。
實際上:如果您不能保證您的訓練資料不包含任何可用於識別任何自然人的資訊,GDPR 就適用。
六個合法依據——以及哪些適用於 AI 訓練
第 6 條提供了六個處理個人資料的合法依據。對於 AI 訓練使用案例,相關依據是:
同意(第 6(1)(a) 條)
同意必須是自願給予、特定的、知情的且明確的。對於 AI 訓練,這意味著:
- 資料主體必須被明確告知其資料將用於訓練 AI
- 同意必須是為了那個特定目的收集的——而不是捆綁在一般服務條款同意中
- 資料主體必須能夠在不受負面後果的情況下拒絕
實際上,對於大多數企業資料集,事後確立 AI 訓練的同意很困難。在「用於 HR 行政管理」的隱私通知下收集的員工資料,沒有 AI 訓練的同意。為服務交付收集的客戶通訊,沒有模型微調的同意。在大規模上獲取新的、具體的同意在操作上很困難,對於某些資料集,這是不可能的。
合法利益(第 6(1)(f) 條)
合法利益要求三部分平衡測試:您必須有合法利益,處理對於實現它必須是必要的,且利益不得被資料主體的權利和利益所凌駕。
對於 AI 訓練,監管機構表示合法利益在原則上是可用的,但需要有記錄且可辯護的平衡測試。測試必須真正衡量對資料主體的影響,特別是對於敏感資料或大規模處理。自利性評估是不夠的。
合法利益不適用於公共機構在執行其任務時的處理,並且在勞工保護更強的司法管轄區(例如德國,許多 HR 資料使用需要工廠委員會協商),對於員工資料可能不適用。
法律義務(第 6(1)(c) 條)和公共任務(第 6(1)(e) 條)
這些適用於狹窄的情況——主要是公共機構或特定法律要求或授權處理的情況。大多數商業 AI 開發不符合資格。
履行合約(第 6(1)(b) 條)
這僅適用於處理嚴格必要以履行與資料主體合約的情況。在客戶資料上訓練 AI 模型通常對於履行與那些客戶的合約不是必要的——它是次要用途。
目的限制:最大的實際問題
第 5(1)(b) 條要求個人資料「以指定、明確且合法的目的收集,並且不以與那些目的不相容的方式進一步處理。」
使用資料進行 AI 訓練幾乎總是與資料最初收集的目的不同的目的。HR 資料是為就業管理收集的。客戶記錄是為服務交付收集的。臨床筆記是為患者護理創建的。將這些中的任何一個用於 AI 訓練是一個新目的。
新目的是否與原始目的「相容」,根據第 6(4) 條進行評估,考慮:
- 原始目的與新目的之間的關聯
- 資料收集的背景以及資料主體的合理期望
- 資料的性質(敏感類別需要更強的理由)
- 對資料主體的後果
- 適當保障措施的存在
在大多數情況下,使用操作資料 進行 AI 訓練在沒有新的合法依據或有效匿名化的情況下,無法通過相容性測試(見下文)。這就是為什麼一家建築公司告訴我們,他們的外部 AI 使用資料審批流程需要長達一年的時間——目的限制問題需要對每個資料集進行新的同意或合法利益評估,需要資料保護官審查,通常需要工廠委員會參與,以及有記錄的決策記錄。
本地處理並不能消除目的限制問題——GDPR 的義務是關於處理的合法性,而非處理發生在哪裡。但本地處理確實消除了將資料傳輸給第三方供應商所觸發的額外目的限制。
資料最小化
第 5(1)(c) 條要求個人資料「對於處理目的而言是適當的、相關的且限於必要的。」
對於 AI 訓練,這意味著您不能以更多資料總是更好為由,將所有可用資料倒入訓練管道。您需要:
- 明確定義為實現訓練目標所需的資料
- 為包含的每個欄位或資料類型提供理由
- 刪除或不收集對目的不必要的資料
實際上,AI 訓練的資料最小化意味著對要包含哪些文件、欄位和記錄做出審慎決定——而非簡單地擷取所有內容。這也意味著在標注之前從文件中刪除不必要的個人資料:一份包含當事人姓名、地址和日期的法律合 約,應該將這些識別符去除,除非它們與您訓練模型做的事情特別相關。
假名化 vs 匿名化
GDPR 做出了關鍵區分:
假名化資料(第 26 條、第 4(5) 條):已被處理使其不再能在不使用另行保存的附加資訊的情況下歸因於特定資料主體的個人資料。假名化資料在 GDPR 下仍然是個人資料——所有義務繼續適用。
匿名化資料:已被不可逆地修改使得資料主體無法以任何合理可能使用的手段直接或間接識別的資料。真正的匿名化資料不在 GDPR 範圍之外。
GDPR 下真正匿名化的標準很高。第 26 條規定測試是「所有合理可能使用的手段」是否已被考慮,包括「所有客觀因素,如識別所需的成本和時間,考慮到處理時可用的技術。」
在 2026 年,隨著越來越強大的再識別技術和大規模可連結資料集公開可用,實現真正的匿名化——特別是對於文字資料,其中寫作風格、稀有的屬性組合或特定事件可以識別個人——在技術上是要求很高的。刪除姓名和明顯的識別符是不夠的。
對於大多數 AI 訓練情境,實際含義是:如果您使用個人資料,請計劃全程完全的 GDPR 合規。如果您 想依靠匿名化作為豁免,請獲取有記錄的專家評估,證明您的特定資料集和匿名化技術真正滿足 GDPR 標準。
刪除權與 AI 模型
第 17 條賦予個人刪除其個人資料的權利。這為 AI 訓練創造了一個法規未預料到的問題:一旦模型在個人資料上被訓練,您能從模型中刪除那個個人嗎?
目前的監管立場是,在個人資料上訓練模型創造了持續的 GDPR 義務。歐洲數據保護委員會發布了初步指南,表明刪除權在原則上適用於 AI 訓練資料,儘管執行在實際操作上很複雜。
實際含義:如果您在個人資料上訓練,之後收到包含在其中的資料主體的刪除請求,您可能需要在沒有那份資料的情況下重新訓練或微調模型。合規風險是真實且持續的。
避免這個問題最乾淨的方法是確保訓練資料在訓練前真正匿名化——不只是去識別到感覺舒適的程度,而是達到 GDPR 匿名化標準。如果這無法實現,請以識別和刪除特定個人資料並重新訓練的能力建構您的資料管道。
資料傳輸與 AI 訓練管道
第 44 條禁止在沒有適當保護的情況下將個人資料傳輸到第三國,除非有特定的傳輸機制到位。充分性決定涵蓋了一些國家(英國、瑞士、日本、以色列和其他),但美國和大多數其他國家需要標準合約條款(SCC)或具有約束力的公司規則。
這意味著:任何在非歐盟基礎設施上處理您訓練資料的雲端資料準備工具都觸發了傳輸要求。即使供應商提供歐盟地區伺服器,如果公司受到美國法律約束,CLOUD Act 可能允許美國政府存取那些資料——這是歐盟監管機構自 Schrems II 決定以來認真對待的立場。
本地處理完全消除了傳輸問題。從不離開您基礎設施的資料不會被傳輸。
一年審批問題——以及如何避免它
對於需要使用來自受監管來源(HR 系統、客戶記錄、操作資料庫)的個人資料的企業,GDPR 合規流程——記錄合法依據、進行目的限制分析、讓 DPO 參與、可能獲得工廠委員會簽字,如果第 35 條要求則完成資料保護影響評估——需要時間。我們與之交談的一家建築公司指出,外部 AI 使用的資料審批需要長達一年的時間。
縮短該時程的方法是:
- 本地處理:將第三方傳輸問題完全從分析中刪除
- 最小化範圍內的資料:您訓練集中的個人資料越少,合規分析就越簡單
- 盡可能匿名化:真正匿名化的資料不在 GDPR 範圍之外,消除了對合法依據、目的限制分析和刪除權管理的需求
- 儘早開始合規流程:DPO 審查、工廠委員會協商(如果需要)和 DPIA 完成無法倉促進行——在專案開始時就啟動它們,而非在您準備好訓練時
Ertas Data Suite 如何融入符合 GDPR 的管道
Ertas Data Suite 的「清理」模組在標注和擴增之前自動偵測並從文件中刪除 PII——姓名、電子郵件地址、電話號碼、日期、識別符和其他下游會創造 GDPR 義務的個人資料。這是管道級別的資料最小化。
平台完全在本地運行——不向第三方傳輸資料、不雲端處理、沒有供應商子處理器。這消除了第 44 條的傳輸分析,並刪除了一個重要的合規複雜層。
管道產生的稽核追蹤支援 GDPR 的問責原則(第 5(2) 條),該原則要求控制者能夠證明遵守所有資料保護原則。每次轉換都被 記錄,使得展示來源中有哪些個人資料、刪除了什麼,以及訓練資料採用了什麼形式成為可能。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相關閱讀
- 本地 AI 資料準備:受監管行業的合規指南 — GDPR、HIPAA、EU AI Act 和資料主權要求的完整涵蓋
- EU AI Act 第 10 條:對您的 AI 訓練資料意味著什麼 — 與 GDPR 同時適用的 EU AI Act 下的資料治理要求
- AI 中的資料主權:為何受監管行業不能使用雲端資料準備工具 — 為何本地是具有資料主權要求的企業的唯一可行路徑
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
