Back to blog
    Lista de Verificacion de Gobernanza de Datos del EU AI Act para Sistemas de IA de Alto Riesgo
    eu-ai-actdata-governancechecklisthigh-risk-aicompliancesegment:enterprise

    Lista de Verificacion de Gobernanza de Datos del EU AI Act para Sistemas de IA de Alto Riesgo

    Una lista de verificacion accionable que cubre calidad de datos, deteccion de sesgo, documentacion, rastros de auditoria y obligaciones de monitoreo para sistemas de IA de alto riesgo bajo el EU AI Act.

    EErtas Team·

    Si estas construyendo o desplegando un sistema de IA de alto riesgo bajo el EU AI Act, el Articulo 10 requiere practicas especificas de gobernanza de datos para tus datasets de entrenamiento, validacion y prueba. Esta lista de verificacion se mapea directamente a los requisitos del reglamento.

    Usala como herramienta de auditoria de cumplimiento — trabaja cada seccion e identifica brechas en tu pipeline actual.

    1. Recopilacion y Origen de Datos

    • Documentar el origen de todos los datos de entrenamiento (fuentes, proveedores, fechas de recopilacion)
    • Registrar la metodologia de recopilacion de datos para cada fuente
    • Documentar el proposito para el cual se recopilaron originalmente los datos
    • Verificar la base legal para usar datos para entrenamiento de IA (consentimiento, interes legitimo, necesidad contractual)
    • Registrar el origen geografico de los datos cuando sea relevante para la representatividad
    • Documentar cualquier dato comprado a terceros, incluyendo evaluaciones de proveedores
    • Mantener registros de permisos de acceso a datos y terminos de licencia

    2. Preparacion y Limpieza de Datos

    • Documentar todas las operaciones de preparacion de datos aplicadas (analisis, extraccion, normalizacion)
    • Registrar herramientas y versiones utilizadas para cada paso de preparacion
    • Registrar metodos de deduplicacion y resultados (duplicados encontrados, eliminados, justificacion)
    • Documentar umbrales de calidad de datos y criterios de filtrado
    • Registrar metodos de deteccion y redaccion de PII/PHI con conteos de entidades
    • Registrar todas las transformaciones de datos con ejemplos de antes/despues
    • Mantener historial de versiones de datasets limpios
    • Registrar la identidad del operador para cada paso de preparacion

    3. Etiquetado y Anotacion

    • Definir y documentar el esquema de etiquetado (categorias, definiciones, guias)
    • Registrar las calificaciones y experiencia de dominio de los anotadores
    • Documentar el proceso de etiquetado (manual, asistido por IA, programatico)
    • Si es asistido por IA: documentar el modelo utilizado, umbrales de confianza y proceso de revision humana
    • Medir y registrar tasas de acuerdo inter-anotador
    • Documentar procedimientos de resolucion de desacuerdos y resultados
    • Registrar el numero de etiquetas por anotador y por categoria
    • Mantener un mapeo de etiquetas a identidad del anotador y marca de tiempo

    4. Examen de Sesgo

    • Definir las dimensiones en las que se examinara el sesgo (edad, genero, etnia, geografia, etc.)
    • Seleccionar y documentar la metodologia de deteccion de sesgo
    • Ejecutar analisis de sesgo en los datasets de entrenamiento, validacion y prueba
    • Documentar hallazgos: sesgos identificados, magnitud, grupos afectados
    • Registrar medidas de mitigacion tomadas para cada sesgo identificado
    • Evaluar el sesgo residual despues de la mitigacion y documentar umbrales aceptables
    • Planificar monitoreo continuo de sesgo post-despliegue
    • Documentar la justificacion de las dimensiones no examinadas (si las hay)

    5. Evaluacion de Calidad de Datos

    • Definir criterios de calidad de datos especificos para el proposito previsto del sistema de IA
    • Medir y registrar tasas de error en los datos de entrenamiento
    • Evaluar la completitud del dataset (valores faltantes, categorias subrepresentadas)
    • Evaluar la representatividad respecto a la poblacion objetivo
    • Documentar brechas de datos conocidas y su impacto potencial
    • Registrar la metodologia de scoring de calidad y umbrales
    • Evaluar la frescura de los datos (son lo suficientemente actuales para el proposito previsto?)
    • Documentar acciones tomadas para mejorar la calidad de los datos

    6. Propiedades Estadisticas

    • Documentar el tamano del dataset (registros totales, registros por categoria)
    • Registrar la distribucion de clases y ratios de desbalance
    • Documentar propiedades estadisticas de caracteristicas clave (distribuciones, rangos, valores atipicos)
    • Evaluar y documentar la cobertura del dataset respecto al contexto de despliegue previsto
    • Registrar la metodologia y ratios de division train/validacion/test
    • Documentar cualquier aumento de datos aplicado y su impacto en la distribucion
    • Identificar y documentar casos extremos y su representacion en el dataset

    7. Linaje y Trazabilidad de Datos

    • Implementar seguimiento de linaje a nivel de registro (fuente, ingestion, limpieza, etiquetado, exportacion)
    • Registrar marcas de tiempo para cada transformacion
    • Atribuir cada operacion a un operador identificado
    • Asegurar que el linaje se mantenga en todas las etapas del pipeline sin brechas
    • Verificar que cualquier registro de entrenamiento exportado pueda rastrearse hasta su fuente
    • Implementar registros de auditoria inmutables (no pueden modificarse despues de su creacion)
    • Probar el linaje muestreando aleatoriamente registros de salida y rastreandolos de extremo a extremo

    8. Versionado de Datasets

    • Implementar control de versiones de datasets (identificadores de version unicos)
    • Registrar que version del dataset se uso para entrenar que version del modelo
    • Mantener la capacidad de reproducir cualquier version historica del dataset
    • Documentar cambios entre versiones del dataset (adiciones, eliminaciones, correcciones de etiquetas)
    • Registrar la justificacion de las actualizaciones del dataset

    9. Documentacion Tecnica (Articulo 30)

    • Compilar toda la documentacion anterior en un paquete de documentacion tecnica estructurado
    • Incluir politicas y procedimientos de gobernanza de datos
    • Incluir metodologia y resultados del examen de sesgo
    • Incluir informes de evaluacion de calidad
    • Incluir perfiles estadisticos de todos los datasets
    • Incluir documentacion de linaje con trazas de muestra
    • Formatear documentacion para revision regulatoria (organizada, buscable, completa)
    • Establecer un proceso para mantener la documentacion actualizada a medida que evolucionan los datasets

    10. Obligaciones Continuas

    • Establecer procedimientos de monitoreo de datos post-despliegue
    • Definir disparadores para re-evaluacion del dataset (deriva de datos, degradacion de rendimiento)
    • Planificar re-evaluacion periodica de sesgo
    • Establecer procedimientos de reporte de incidentes para problemas relacionados con datos
    • Asignar responsabilidad para mantener la documentacion de cumplimiento
    • Programar revisiones regulares de cumplimiento (se recomienda trimestralmente)

    Como Usar Esta Lista de Verificacion

    Trabaja cada seccion con tu equipo de datos y tu oficial de cumplimiento. Para cada elemento:

    • Verde: Completamente implementado y documentado
    • Amarillo: Parcialmente implementado o documentado — necesita mejora
    • Rojo: No implementado — brecha de cumplimiento

    Cualquier elemento rojo en las secciones 1-7 representa una posible violacion del Articulo 10. Cualquier elemento rojo en la seccion 9 representa una posible violacion del Articulo 30. Ambos conllevan multas de hasta 15 millones de euros o el 3% de la facturacion anual global.

    La Arquitectura del Pipeline Importa

    Muchos de estos elementos de la lista de verificacion son sencillos de satisfacer si tu pipeline de datos tiene registro de auditoria y seguimiento de linaje integrados. Se vuelven costosos y propensos a errores cuando tu pipeline es una cadena de herramientas desconectadas donde cada frontera crea una brecha de documentacion.

    Plataformas on-premise unificadas como Ertas Data Suite estan disenadas para satisfacer esta lista de verificacion por defecto — cada etapa registra operaciones, atribuye operadores, mantiene linaje y genera informes de cumplimiento exportables. Si estas evaluando herramientas, usa esta lista de verificacion como marco de evaluacion de caracteristicas.

    La fecha limite de aplicacion de agosto de 2026 esta a cinco meses. Empieza tu auditoria ahora.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading