eu-ai-actdata-governancechecklisthigh-risk-aicompliancesegment:enterprise

Lista de Verificacion de Gobernanza de Datos del EU AI Act para Sistemas de IA de Alto Riesgo

Una lista de verificacion accionable que cubre calidad de datos, deteccion de sesgo, documentacion, rastros de auditoria y obligaciones de monitoreo para sistemas de IA de alto riesgo bajo el EU AI Act.

EErtas Team·March 15, 2026

Si estas construyendo o desplegando un sistema de IA de alto riesgo bajo el EU AI Act, el Articulo 10 requiere practicas especificas de gobernanza de datos para tus datasets de entrenamiento, validacion y prueba. Esta lista de verificacion se mapea directamente a los requisitos del reglamento.

Usala como herramienta de auditoria de cumplimiento — trabaja cada seccion e identifica brechas en tu pipeline actual.

1. Recopilacion y Origen de Datos

Documentar el origen de todos los datos de entrenamiento (fuentes, proveedores, fechas de recopilacion)
Registrar la metodologia de recopilacion de datos para cada fuente
Documentar el proposito para el cual se recopilaron originalmente los datos
Verificar la base legal para usar datos para entrenamiento de IA (consentimiento, interes legitimo, necesidad contractual)
Registrar el origen geografico de los datos cuando sea relevante para la representatividad
Documentar cualquier dato comprado a terceros, incluyendo evaluaciones de proveedores
Mantener registros de permisos de acceso a datos y terminos de licencia

2. Preparacion y Limpieza de Datos

Documentar todas las operaciones de preparacion de datos aplicadas (analisis, extraccion, normalizacion)
Registrar herramientas y versiones utilizadas para cada paso de preparacion
Registrar metodos de deduplicacion y resultados (duplicados encontrados, eliminados, justificacion)
Documentar umbrales de calidad de datos y criterios de filtrado
Registrar metodos de deteccion y redaccion de PII/PHI con conteos de entidades
Registrar todas las transformaciones de datos con ejemplos de antes/despues
Mantener historial de versiones de datasets limpios
Registrar la identidad del operador para cada paso de preparacion

3. Etiquetado y Anotacion

Definir y documentar el esquema de etiquetado (categorias, definiciones, guias)
Registrar las calificaciones y experiencia de dominio de los anotadores
Documentar el proceso de etiquetado (manual, asistido por IA, programatico)
Si es asistido por IA: documentar el modelo utilizado, umbrales de confianza y proceso de revision humana
Medir y registrar tasas de acuerdo inter-anotador
Documentar procedimientos de resolucion de desacuerdos y resultados
Registrar el numero de etiquetas por anotador y por categoria
Mantener un mapeo de etiquetas a identidad del anotador y marca de tiempo

4. Examen de Sesgo

Definir las dimensiones en las que se examinara el sesgo (edad, genero, etnia, geografia, etc.)
Seleccionar y documentar la metodologia de deteccion de sesgo
Ejecutar analisis de sesgo en los datasets de entrenamiento, validacion y prueba
Documentar hallazgos: sesgos identificados, magnitud, grupos afectados
Registrar medidas de mitigacion tomadas para cada sesgo identificado
Evaluar el sesgo residual despues de la mitigacion y documentar umbrales aceptables
Planificar monitoreo continuo de sesgo post-despliegue
Documentar la justificacion de las dimensiones no examinadas (si las hay)

5. Evaluacion de Calidad de Datos

Definir criterios de calidad de datos especificos para el proposito previsto del sistema de IA
Medir y registrar tasas de error en los datos de entrenamiento
Evaluar la completitud del dataset (valores faltantes, categorias subrepresentadas)
Evaluar la representatividad respecto a la poblacion objetivo
Documentar brechas de datos conocidas y su impacto potencial
Registrar la metodologia de scoring de calidad y umbrales
Evaluar la frescura de los datos (son lo suficientemente actuales para el proposito previsto?)
Documentar acciones tomadas para mejorar la calidad de los datos

6. Propiedades Estadisticas

Documentar el tamano del dataset (registros totales, registros por categoria)
Registrar la distribucion de clases y ratios de desbalance
Documentar propiedades estadisticas de caracteristicas clave (distribuciones, rangos, valores atipicos)
Evaluar y documentar la cobertura del dataset respecto al contexto de despliegue previsto
Registrar la metodologia y ratios de division train/validacion/test
Documentar cualquier aumento de datos aplicado y su impacto en la distribucion
Identificar y documentar casos extremos y su representacion en el dataset

7. Linaje y Trazabilidad de Datos

Implementar seguimiento de linaje a nivel de registro (fuente, ingestion, limpieza, etiquetado, exportacion)
Registrar marcas de tiempo para cada transformacion
Atribuir cada operacion a un operador identificado
Asegurar que el linaje se mantenga en todas las etapas del pipeline sin brechas
Verificar que cualquier registro de entrenamiento exportado pueda rastrearse hasta su fuente
Implementar registros de auditoria inmutables (no pueden modificarse despues de su creacion)
Probar el linaje muestreando aleatoriamente registros de salida y rastreandolos de extremo a extremo

8. Versionado de Datasets

Implementar control de versiones de datasets (identificadores de version unicos)
Registrar que version del dataset se uso para entrenar que version del modelo
Mantener la capacidad de reproducir cualquier version historica del dataset
Documentar cambios entre versiones del dataset (adiciones, eliminaciones, correcciones de etiquetas)
Registrar la justificacion de las actualizaciones del dataset

9. Documentacion Tecnica (Articulo 30)

Compilar toda la documentacion anterior en un paquete de documentacion tecnica estructurado
Incluir politicas y procedimientos de gobernanza de datos
Incluir metodologia y resultados del examen de sesgo
Incluir informes de evaluacion de calidad
Incluir perfiles estadisticos de todos los datasets
Incluir documentacion de linaje con trazas de muestra
Formatear documentacion para revision regulatoria (organizada, buscable, completa)
Establecer un proceso para mantener la documentacion actualizada a medida que evolucionan los datasets

10. Obligaciones Continuas

Establecer procedimientos de monitoreo de datos post-despliegue
Definir disparadores para re-evaluacion del dataset (deriva de datos, degradacion de rendimiento)
Planificar re-evaluacion periodica de sesgo
Establecer procedimientos de reporte de incidentes para problemas relacionados con datos
Asignar responsabilidad para mantener la documentacion de cumplimiento
Programar revisiones regulares de cumplimiento (se recomienda trimestralmente)

Como Usar Esta Lista de Verificacion

Trabaja cada seccion con tu equipo de datos y tu oficial de cumplimiento. Para cada elemento:

Verde: Completamente implementado y documentado
Amarillo: Parcialmente implementado o documentado — necesita mejora
Rojo: No implementado — brecha de cumplimiento

Cualquier elemento rojo en las secciones 1-7 representa una posible violacion del Articulo 10. Cualquier elemento rojo en la seccion 9 representa una posible violacion del Articulo 30. Ambos conllevan multas de hasta 15 millones de euros o el 3% de la facturacion anual global.

La Arquitectura del Pipeline Importa

Muchos de estos elementos de la lista de verificacion son sencillos de satisfacer si tu pipeline de datos tiene registro de auditoria y seguimiento de linaje integrados. Se vuelven costosos y propensos a errores cuando tu pipeline es una cadena de herramientas desconectadas donde cada frontera crea una brecha de documentacion.

Plataformas on-premise unificadas como Ertas Data Suite estan disenadas para satisfacer esta lista de verificacion por defecto — cada etapa registra operaciones, atribuye operadores, mantiene linaje y genera informes de cumplimiento exportables. Si estas evaluando herramientas, usa esta lista de verificacion como marco de evaluacion de caracteristicas.

La fecha limite de aplicacion de agosto de 2026 esta a cinco meses. Empieza tu auditoria ahora.

Turn unstructured data into AI-ready datasets — without it leaving the building.

On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

Book a Discovery Call See how Ertas Data Suite works →

Keep reading

Enterprise AI

EU AI Act Training Data Compliance: The Complete Guide (2026)

Everything enterprises need to know about EU AI Act training data requirements — data quality, bias testing, documentation mandates, and the August 2026 deadline.

Enterprise AI

EU AI Act Article 10 vs. Article 30: What Your Data Team Needs to Know

A detailed comparison of EU AI Act Articles 10 and 30 — the two most critical provisions for AI training data governance, documentation, and compliance.

Enterprise AI

EU AI Act Compliance Timeline: What's Due by August 2026

A clear timeline of EU AI Act enforcement dates, what's already in effect, what's coming in August 2026, and what enterprises need to have in place for training data compliance.