GDPR y datos de entrenamiento de IA: Lo que las empresas europeas deben hacer antes de ajustar modelos

Usar datos personales para entrenar modelos de IA es una de las actividades de procesamiento de datos más legalmente complejas que una empresa europea puede emprender. Los principios generales del GDPR — base legal, limitación de propósito, minimización de datos, limitación de almacenamiento — se aplican al entrenamiento de IA igual que a cualquier otro procesamiento. Pero el entrenamiento de IA crea complicaciones específicas que la guía general del GDPR no aborda completamente.

Esta guía cubre las obligaciones concretas del GDPR que surgen cuando preparas datos de entrenamiento de fuentes que contienen datos personales. Está dirigida a equipos que están activamente construyendo o planificando construir sistemas de IA — no a equipos legales asesorando en abstracto, sino a ingenieros de ML, científicos de datos y oficiales de cumplimiento que necesitan tomar decisiones operacionales.

La pregunta fundamental: ¿Son tus datos de entrenamiento datos personales?

El GDPR se aplica al procesamiento de datos personales — cualquier información relacionada con una persona natural identificada o identificable. Antes de cualquier otra cosa, necesitas determinar si tus datos de entrenamiento caen bajo el GDPR.

Los datos de entrenamiento de sistemas internos de negocio casi siempre contienen datos personales: registros de empleados, comunicaciones con clientes, datos de RRHH, documentos contractuales con partes nombradas, registros financieros vinculados a individuos. Los datos de entrenamiento de fuentes recopiladas externamente (documentos scrapeados, datasets comprados) también pueden contener datos personales.

La cuestión de la identificabilidad es importante. El GDPR se aplica no solo a individuos claramente identificados sino a cualquiera que pueda ser identificado, "directa o indirectamente, en particular por referencia a un identificador como un nombre, un número de identificación, datos de ubicación, un identificador en línea o a uno o más factores específicos de la identidad física, fisiológica, genética, mental, económica, cultural o social de dicha persona natural" (Artículo 4(1)).

En la práctica: si no puedes garantizar que tus datos de entrenamiento no contienen información que pueda usarse para identificar a alguna persona natural, el GDPR se aplica.

Las seis bases legales — y cuáles aplican al entrenamiento de IA

El Artículo 6 proporciona seis bases legales para procesar datos personales. Para los casos de uso de entrenamiento de IA, las bases relevantes son:

Consentimiento (Artículo 6(1)(a))

El consentimiento debe ser libremente otorgado, específico, informado e inequívoco. Para entrenamiento de IA, esto significa:

El titular de los datos debe haber sido específicamente informado de que sus datos serían usados para entrenar IA
El consentimiento debe haber sido recopilado para ese propósito específico — no agrupado en un consentimiento general de términos de servicio
El titular de los datos debe haber podido rechazar sin consecuencias negativas

En la práctica, el consentimiento para entrenamiento de IA es difícil de establecer retroactivamente para la mayoría de los datasets empresariales. Los datos de empleados recopilados bajo un aviso de privacidad que dice "usados para administración de RRHH" no tienen consentimiento para entrenamiento de IA. Las comunicaciones de clientes recopiladas para la entrega de servicios no tienen consentimiento para fine-tuning de modelos. Obtener consentimiento nuevo y específico a escala es operacionalmente difícil y, para algunos datasets, imposible.

Intereses legítimos (Artículo 6(1)(f))

Los intereses legítimos requieren una prueba de balance de tres partes: debes tener un interés legítimo, el procesamiento debe ser necesario para lograrlo, y el interés no debe ser superado por los derechos e intereses de los titulares de datos.

Para entrenamiento de IA, las autoridades de supervisión han indicado que los intereses legítimos están disponibles en principio pero requieren una prueba de balance documentada y defendible. La prueba debe sopesar genuinamente el impacto en los titulares de datos, particularmente para datos sensibles o procesamiento a gran escala. Una evaluación autocomplaciente no es suficiente.

Los intereses legítimos no están disponibles para el procesamiento por autoridades públicas en el desempeño de sus tareas, y pueden no estar disponibles para datos de empleados en jurisdicciones con protecciones laborales más fuertes (Alemania, por ejemplo, requiere consulta con el comité de empresa para muchos usos de datos de RRHH).

Obligación legal (Artículo 6(1)(c)) y misión de interés público (Artículo 6(1)(e))

Estos se aplican en circunstancias limitadas — principalmente para organismos públicos o donde legislación específica requiere o autoriza el procesamiento. La mayoría del desarrollo comercial de IA no califica.

Ejecución de un contrato (Artículo 6(1)(b))

Esto se aplica solo donde el procesamiento es estrictamente necesario para cumplir un contrato con el titular de datos. Entrenar un modelo de IA con datos de clientes generalmente no es necesario para cumplir el contrato con esos clientes — es un uso secundario.

Limitación de propósito: El mayor problema práctico

El Artículo 5(1)(b) requiere que los datos personales sean "recopilados para fines determinados, explícitos y legítimos, y no sean tratados posteriormente de manera incompatible con dichos fines."

Usar datos para entrenamiento de IA es casi siempre un propósito diferente al propósito para el cual fueron recopilados originalmente. Los datos de RRHH fueron recopilados para la administración del empleo. Los registros de clientes fueron recopilados para la entrega de servicios. Las notas clínicas fueron creadas para la atención al paciente. Usar cualquiera de estos para entrenamiento de IA es un nuevo propósito.

Si el nuevo propósito es "compatible" con el propósito original se evalúa bajo el Artículo 6(4), que considera:

El vínculo entre el propósito original y el nuevo propósito
El contexto en el que se recopilaron los datos y las expectativas razonables de los titulares de datos
La naturaleza de los datos (las categorías sensibles requieren justificación más fuerte)
Las consecuencias para los titulares de datos
La existencia de salvaguardas apropiadas

En la mayoría de los casos, usar datos operacionales para entrenamiento de IA no pasa la prueba de compatibilidad sin una nueva base legal o una anonimización efectiva (ver más abajo). Por eso una empresa constructora nos dijo que su proceso de aprobación de datos para uso externo de IA toma hasta un año — el problema de limitación de propósito requiere un nuevo consentimiento o evaluación de intereses legítimos para cada dataset, con revisión del delegado de protección de datos, a menudo involucramiento del comité de empresa, y registros de decisiones documentados.

El procesamiento on-prem no elimina el problema de limitación de propósito — las obligaciones del GDPR son sobre la legalidad del procesamiento, no dónde ocurre el procesamiento. Pero el procesamiento on-prem sí elimina la limitación de propósito adicional que se activa al transferir datos a un proveedor tercero.

Minimización de datos

El Artículo 5(1)(c) requiere que los datos personales sean "adecuados, pertinentes y limitados a lo necesario en relación con los fines para los que son tratados."

Para entrenamiento de IA, esto significa que no puedes simplemente volcar todos los datos disponibles en un pipeline de entrenamiento bajo la teoría de que más datos siempre es mejor. Necesitas:

Definir específicamente qué datos se necesitan para lograr el objetivo de entrenamiento
Justificar cada campo o tipo de dato incluido
Eliminar o no recopilar datos que no son necesarios para el propósito

En la práctica, la minimización de datos para entrenamiento de IA significa tomar decisiones deliberadas sobre qué documentos, campos y registros incluir — no simplemente ingerir todo. También significa eliminar datos personales innecesarios de los documentos antes de la anotación: un contrato legal que contiene nombres de las partes, direcciones y fechas debería tener esos identificadores eliminados a menos que sean específicamente relevantes para lo que estás entrenando al modelo a hacer.

Seudonimización vs anonimización

El GDPR hace una distinción crítica:

Datos seudonimizados (considerando 26, Artículo 4(5)): Datos personales que han sido procesados de manera que ya no puedan atribuirse a un titular de datos específico sin el uso de información adicional, que se mantiene por separado. Los datos seudonimizados siguen siendo datos personales bajo el GDPR — todas las obligaciones continúan aplicándose.

Datos anonimizados: Datos que han sido modificados irreversiblemente de modo que el titular de datos no pueda ser identificado, directa o indirectamente, por ningún medio que razonablemente pueda ser utilizado. Los datos verdaderamente anonimizados quedan fuera del GDPR.

El estándar para una anonimización genuina bajo el GDPR es alto. El considerando 26 especifica que la prueba es si "todos los medios que razonablemente puedan ser utilizados" para la identificación han sido considerados, incluyendo "todos los factores objetivos, como los costos y el tiempo necesarios para la identificación, teniendo en cuenta la tecnología disponible en el momento del procesamiento."

En 2026, con técnicas de reidentificación cada vez más poderosas y datasets vinculables a gran escala disponibles públicamente, lograr una verdadera anonimización — particularmente para datos de texto donde el estilo de escritura, combinaciones raras de atributos o eventos específicos pueden identificar a individuos — es técnicamente demandante. Eliminar nombres e identificadores obvios no es suficiente.

Para la mayoría de los contextos de entrenamiento de IA, la implicación práctica es: si estás usando datos personales, planifica para cumplimiento completo del GDPR en todo momento. Si quieres depender de la anonimización como exención, obtén una evaluación experta documentada de que tu dataset específico y tu técnica de anonimización genuinamente satisfacen el estándar del GDPR.

El derecho al borrado y los modelos de IA

El Artículo 17 otorga a los individuos el derecho a que sus datos personales sean borrados. Esto crea un problema para el entrenamiento de IA que la regulación no anticipó: una vez que un modelo ha sido entrenado con datos personales, ¿puedes borrar a ese individuo del modelo?

La posición regulatoria actual es que entrenar un modelo con datos personales crea una obligación continua bajo el GDPR. El Comité Europeo de Protección de Datos ha emitido orientación preliminar indicando que el derecho al borrado se aplica en principio a los datos de entrenamiento de IA, aunque la aplicación es prácticamente compleja.

La implicación práctica: si entrenas con datos personales y posteriormente recibes solicitudes de borrado de titulares de datos cuyos datos fueron incluidos, puede que necesites reentrenar o ajustar el modelo sin esos datos. El riesgo de cumplimiento es real y continuo.

La forma más limpia de evitar este problema es asegurar que los datos de entrenamiento estén genuinamente anonimizados antes del entrenamiento — no solo desidentificados lo suficiente para sentirte cómodo, sino cumpliendo el estándar de anonimización del GDPR. Si eso no es alcanzable, construye tu pipeline de datos con la capacidad de identificar y eliminar datos de individuos específicos y reentrenar.

Transferencias de datos y pipelines de entrenamiento de IA

El Artículo 44 prohíbe transferir datos personales a terceros países sin protección adecuada a menos que mecanismos de transferencia específicos estén en vigor. Las decisiones de adecuación cubren algunos países (el Reino Unido, Suiza, Japón, Israel y otros), pero EE.UU. y la mayoría de los demás requieren Cláusulas Contractuales Tipo (SCCs) o Normas Corporativas Vinculantes.

Esto significa: cualquier herramienta de preparación de datos basada en la nube que procese tus datos de entrenamiento en infraestructura fuera de la UE activa requisitos de transferencia. Incluso si el proveedor ofrece servidores en región UE, si la empresa está sujeta a la ley de EE.UU., el CLOUD Act puede permitir el acceso del gobierno estadounidense a esos datos — una posición que las autoridades de supervisión de la UE han tomado en serio desde la decisión Schrems II.

El procesamiento on-prem elimina la cuestión de transferencia por completo. Los datos que nunca salen de tu infraestructura no son transferidos.

El problema de la aprobación de un año — y cómo evitarlo

Para empresas que necesitan usar datos personales de fuentes reguladas (sistemas de RRHH, registros de clientes, bases de datos operacionales), el proceso de cumplimiento del GDPR — documentar la base legal, realizar un análisis de limitación de propósito, involucrar al DPO, potencialmente obtener la aprobación del comité de empresa, y completar una Evaluación de Impacto de Protección de Datos si el Artículo 35 lo requiere — toma tiempo. Una empresa constructora con la que hablamos notó que la aprobación de datos para uso externo de IA toma hasta un año.

La forma de reducir ese cronograma es:

Procesa on-prem: Elimina la cuestión de transferencia a terceros del análisis por completo
Minimiza los datos en alcance: Menos datos personales en tu conjunto de entrenamiento, más simple el análisis de cumplimiento
Anonimiza donde sea posible: Los datos genuinamente anonimizados quedan fuera del GDPR, eliminando la necesidad de base legal, análisis de limitación de propósito y gestión de derechos de borrado
Inicia el proceso de cumplimiento temprano: La revisión del DPO, consulta del comité de empresa (donde se requiera) y finalización del DPIA no pueden apresurarse — inícielos cuando el proyecto comience, no cuando estés listo para entrenar

El módulo Clean de Ertas Data Suite detecta y elimina automáticamente PII de los documentos antes de la anotación y el aumento — nombres, direcciones de correo electrónico, números de teléfono, fechas, identificadores y otros datos personales que de otra manera crearían obligaciones bajo el GDPR downstream. Esto es minimización de datos a nivel del pipeline.

La plataforma funciona completamente on-prem — sin transferencia de datos a terceros, sin procesamiento en la nube, sin subprocesadores del proveedor. Esto elimina el análisis de transferencia del Artículo 44 y remueve una capa significativa de complejidad de cumplimiento.

La pista de auditoría producida por el pipeline soporta el principio de responsabilidad del GDPR (Artículo 5(2)), que requiere que los responsables puedan demostrar el cumplimiento con todos los principios de protección de datos. Cada transformación se registra, haciendo posible mostrar qué datos personales estaban en la fuente, qué se eliminó y qué forma tomaron los datos de entrenamiento.

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

Lectura relacionada

Preparación de datos de IA on-prem: La guía de cumplimiento para industrias reguladas — Cobertura completa de requisitos de GDPR, HIPAA, EU AI Act y soberanía de datos.
EU AI Act Artículo 10: Qué significa para tus datos de entrenamiento de IA — Requisitos de gobernanza de datos bajo el EU AI Act que aplican junto al GDPR.
Soberanía de datos en IA: Por qué las industrias reguladas no pueden usar herramientas de preparación de datos en la nube — Por qué on-prem es el único camino viable para empresas con requisitos de soberanía de datos.

GDPR y datos de entrenamiento de IA: Lo que las empresas europeas deben hacer antes de ajustar modelos

La pregunta fundamental: ¿Son tus datos de entrenamiento datos personales?

Las seis bases legales — y cuáles aplican al entrenamiento de IA

Consentimiento (Artículo 6(1)(a))

Intereses legítimos (Artículo 6(1)(f))

Obligación legal (Artículo 6(1)(c)) y misión de interés público (Artículo 6(1)(e))

Ejecución de un contrato (Artículo 6(1)(b))

Limitación de propósito: El mayor problema práctico

Minimización de datos

Seudonimización vs anonimización

El derecho al borrado y los modelos de IA

Transferencias de datos y pipelines de entrenamiento de IA

El problema de la aprobación de un año — y cómo evitarlo

Lectura relacionada

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

The Real Cost of Cloud Data Prep in Regulated Industries (2026)

Sovereign AI vs Cloud AI: Data Residency Requirements by Country and Region

EU AI Act Article 10: What It Means for Your AI Training Data

La pregunta fundamental: ¿Son tus datos de entrenamiento datos personales?

Las seis bases legales — y cuáles aplican al entrenamiento de IA

Consentimiento (Artículo 6(1)(a))

Intereses legítimos (Artículo 6(1)(f))

Obligación legal (Artículo 6(1)(c)) y misión de interés público (Artículo 6(1)(e))

Ejecución de un contrato (Artículo 6(1)(b))

Limitación de propósito: El mayor problema práctico

Minimización de datos

Seudonimización vs anonimización

El derecho al borrado y los modelos de IA

Transferencias de datos y pipelines de entrenamiento de IA

El problema de la aprobación de un año — y cómo evitarlo

Cómo encaja Ertas Data Suite en un pipeline compatible con GDPR

Lectura relacionada

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

The Real Cost of Cloud Data Prep in Regulated Industries (2026)

Sovereign AI vs Cloud AI: Data Residency Requirements by Country and Region

EU AI Act Article 10: What It Means for Your AI Training Data