Cumplimiento del Artículo 10 del EU AI Act: Documentación de Preparación de Datos como Entregable al Cliente

El EU AI Act requiere documentación específica para los datos de entrenamiento utilizados en sistemas de IA de alto riesgo. El Artículo 10 establece requisitos para la gobernanza de datos — cómo se recopilan, preparan, examinan en busca de sesgos y documentan los datos de entrenamiento. Los Artículos 11 y 53, más el Anexo IV, extienden estos requisitos a documentación técnica que debe mantenerse durante todo el ciclo de vida del sistema.

La fecha límite de aplicabilidad del 2 de agosto de 2026 para sistemas de IA de alto riesgo no es teórica. Se aplica a sistemas colocados en el mercado de la UE o puestos en servicio después de esa fecha. Si tu cliente empresarial está desplegando un sistema de IA que cae bajo las categorías de alto riesgo del Anexo III — que incluye sistemas utilizados en salud, empleo, aplicación de la ley, educación e infraestructura crítica — la documentación de datos de entrenamiento no es opcional.

Para los proveedores de servicios que preparan datos de entrenamiento para estos clientes, esto crea tanto una obligación como una oportunidad. La obligación: tu proceso de preparación de datos debe producir la documentación que requiere el Artículo 10. La oportunidad: entregar documentación conforme al Artículo 10 como parte de tu paquete de engagement te diferencia de los proveedores que entregan un archivo JSONL y nada más.

Qué Requiere Realmente el Artículo 10

El Artículo 10 ("Datos y Gobernanza de Datos") especifica que los sistemas de IA de alto riesgo deben desarrollarse utilizando datasets de entrenamiento, validación y prueba sujetos a prácticas apropiadas de gobernanza y gestión de datos. Específicamente:

Prácticas de Gobernanza de Datos (Artículo 10(2))

Decisiones de diseño para los datasets
Procesos de recopilación de datos y origen de los datos
Operaciones relevantes de procesamiento de preparación de datos (anotación, etiquetado, limpieza, enriquecimiento, agregación)
La formulación de supuestos sobre lo que los datos miden y representan
Una evaluación de disponibilidad, cantidad e idoneidad de los datasets
Examen de posibles sesgos
Identificación de brechas o deficiencias en los datos

Criterios de Calidad de Datos (Artículo 10(3))

Los datasets de entrenamiento deben ser:

Relevantes y suficientemente representativos para el propósito previsto
Libres de errores y completos en la medida que el propósito previsto requiera
Sujetos a propiedades estadísticas apropiadas para el entorno geográfico, conductual o funcional

Examen de Sesgo (Artículo 10(2)(f))

Los datasets deben ser examinados en busca de posibles sesgos "que probablemente afecten la salud y seguridad de las personas, tengan un impacto negativo en los derechos fundamentales o conduzcan a discriminación." Esto no es un ejercicio de marcar casillas. El examen debe documentarse con metodología y hallazgos.

Conectando el Artículo 10 con la Documentación Técnica (Artículo 11 / Anexo IV)

El Artículo 11 requiere que los proveedores elaboren documentación técnica antes de que el sistema se coloque en el mercado. El Anexo IV especifica qué debe contener esta documentación. La Sección 2 del Anexo IV cubre los datos de entrenamiento:

Sección del Anexo IV	Requisito
2(a)	Metodologías y técnicas de entrenamiento utilizadas
2(b)	Datasets de entrenamiento: características, descripción, fuente
2(c)	Información sobre origen, alcance, características principales
2(d)	Cómo se obtuvieron y seleccionaron los datos
2(e)	Procedimientos de etiquetado y metodologías de anotación
2(f)	Medidas de limpieza y preprocesamiento de datos
2(g)	Examen y verificación de calidad de datos

Para los proveedores de servicios, esto significa que la documentación técnica de la porción de datos de entrenamiento es efectivamente un entregable que debes producir.

La Realidad de la Fecha Límite de Agosto 2026

El EU AI Act entró en vigor el 1 de agosto de 2024. El cronograma de cumplimiento para sistemas de IA de alto riesgo es:

2 de febrero de 2025: Las prácticas de IA prohibidas entran en vigor
2 de agosto de 2025: Las obligaciones para modelos de IA de propósito general entran en vigor
2 de agosto de 2026: Aplicación completa de obligaciones para sistemas de IA de alto riesgo

Cualquier sistema de IA de alto riesgo colocado en el mercado de la UE o puesto en servicio después del 2 de agosto de 2026 debe cumplir con los requisitos completos — incluyendo la documentación de gobernanza de datos de entrenamiento del Artículo 10.

Para los proveedores de servicios, esto significa que los engagements que entregarán en el Q3 de 2026 o después ya deben estar planificando la documentación del Artículo 10. Si tu pipeline actual no produce la documentación requerida, tienes aproximadamente 5 meses para cerrar la brecha.

Los clientes empresariales ya están agregando requisitos de cumplimiento del EU AI Act en sus RFPs y evaluaciones de proveedores. Los proveedores de servicios que puedan demostrar que su proceso de preparación de datos produce documentación conforme al Artículo 10 serán seleccionados sobre los que no puedan.

Plantilla Práctica de Documentación

La siguiente estructura de plantilla cubre los requisitos del Artículo 10 y Anexo IV para la documentación de datos de entrenamiento. Adáptala por engagement.

Sección 1: Fuentes de Datos y Recopilación

1.1 Inventario de Fuentes de Datos
    - Nombre de la fuente, tipo, propietario, período de recopilación
    - Conteo de registros y características por fuente
    - Base legal para el procesamiento de datos (por GDPR si aplica)

1.2 Criterios de Selección de Datos
    - Criterios de inclusión/exclusión aplicados
    - Metodología de muestreo (si aplica)
    - Justificación de la selección de datos relativa al propósito previsto

1.3 Evaluación de Representatividad de Datos
    - Cobertura geográfica
    - Cobertura temporal
    - Cobertura demográfica (donde sea relevante)
    - Limitaciones y brechas conocidas

Sección 2: Operaciones de Preparación de Datos

2.1 Pasos de Preprocesamiento
    - Método y parámetros de análisis de documentos
    - Enfoque de extracción de texto
    - Operaciones de limpieza (deduplicación, normalización, filtrado)
    - IDs de operadores y marcas de tiempo para cada operación

2.2 Desidentificación y Redacción
    - Métodos de detección de PII/PHI
    - Tipos de entidades objetivo
    - Estrategia de reemplazo (enmascarar, pseudonimizar, eliminar)
    - Resultados de validación (tasa de detección, tamaño de muestra)

2.3 Medidas de Calidad de Datos
    - Criterios de puntuación de calidad
    - Registros eliminados y razones
    - Mediciones de tasa de error
    - Evaluación de completitud

Sección 3: Anotación y Etiquetado

3.1 Metodología de Anotación
    - Definición de tarea y esquema de etiquetas
    - Versión de las guías de anotación
    - Calificaciones y capacitación de anotadores

3.2 Proceso de Anotación
    - Número de anotadores
    - Metodología y resultados de acuerdo inter-anotador
    - Proceso de resolución de desacuerdos
    - Flujo de trabajo de revisión y aprobación

3.3 Distribución de Etiquetas
    - Conteos de registros por etiqueta
    - Evaluación de balance de clases
    - Identificación de categorías subrepresentadas

Sección 4: Examen de Sesgo

4.1 Metodología de Evaluación de Sesgo
    - Métodos utilizados para examinar sesgos potenciales
    - Características protegidas examinadas
    - Herramientas y métricas empleadas

4.2 Hallazgos
    - Sesgos identificados y su impacto potencial
    - Medidas de mitigación aplicadas
    - Evaluación de sesgo residual

4.3 Limitaciones
    - Brechas conocidas en el examen de sesgo
    - Áreas donde se recomienda evaluación adicional

Sección 5: Descripción del Dataset

5.1 Composición Final del Dataset
    - Total de registros, formato, esquema
    - Distribución de fuentes
    - Distribución de etiquetas
    - Distribución de puntuación de calidad

5.2 Versionado del Dataset
    - Identificador de versión
    - Relación con versiones anteriores (si las hay)
    - Registro de cambios desde la versión anterior

5.3 Limitaciones Conocidas
    - Brechas de cobertura
    - Limitaciones de calidad
    - Restricciones de uso recomendadas

Convirtiendo la Documentación en Ventaja Competitiva

La mayoría de los proveedores de servicios de IA entregan un dataset de entrenamiento y un breve README. La documentación de cumplimiento — si existe — se ensambla retroactivamente, a menudo semanas después de que termina el engagement, a partir de los registros y notas que se puedan encontrar.

Los proveedores que integran la producción de documentación en su pipeline — generándola automáticamente a medida que los datos fluyen a través de cada etapa — entregan un producto estructuralmente diferente. La documentación es:

Completa: Cada operación se captura, no solo las que alguien recordó registrar
Contemporánea: Las marcas de tiempo e IDs de operador se registran en el momento de la acción, no se reconstruyen después
Consistente: El mismo esquema y formato en todos los engagements, haciéndola auditable y comparable

Aquí es donde la elección de herramientas del proveedor de servicios tiene impacto directo en el negocio. Un pipeline fragmentado (Docling + scripts personalizados + Label Studio + scripts de aumento) requiere ensamblaje manual de documentación. Una plataforma integrada produce la documentación como subproducto de las operaciones normales.

Ertas Data Suite genera documentación conforme al EU AI Act automáticamente. Su característica de exportación de documentación del Artículo 30 produce informes estructurados que cubren gobernanza de datos, operaciones de preprocesamiento, metodología de anotación y examen de sesgo — formateados para inclusión en el paquete de documentación técnica requerido por el Anexo IV. Porque cada operación en el pipeline Ingest, Clean, Label, Augment, Export se registra en un rastro de auditoría unificado, la documentación es completa por construcción, no por esfuerzo retrospectivo.

Entregando al Cliente

Estructura la documentación del Artículo 10 como una sección independiente de tu entregable:

Informe resumen en PDF para el equipo de cumplimiento (no técnico, de alto nivel)
Exportación de datos estructurados (JSON/CSV) para el equipo técnico y para integración con el sistema de gestión de cumplimiento del cliente
Registro de auditoría sin procesar para revisión detallada si es necesario
Informe de examen de sesgo como documento separado (algunos clientes lo envían a un comité de revisión separado)

Inclúyelo en tu Declaración de Trabajo desde el principio. Si el cliente sabe que recibirá documentación del Artículo 10 como parte del engagement, cambia cómo evalúan tu propuesta.

Conclusión

El Artículo 10 del EU AI Act no es una preocupación regulatoria teórica. Es un conjunto concreto de requisitos de documentación con una fecha límite concreta, y se aplica a una categoría amplia de sistemas de IA en industrias reguladas. Para los proveedores de servicios que preparan datos de entrenamiento para estos sistemas, producir documentación conforme al Artículo 10 se está convirtiendo en un entregable estándar — y los proveedores que puedan producirla eficientemente capturarán los engagements.

El requisito subyacente es estructural: tu proceso de preparación de datos debe registrar suficiente información, con la granularidad adecuada, para producir esta documentación. Si no lo hace, ninguna cantidad de redacción posterior cerrará la brecha.