Back to blog
    Como Generar Documentacion Tecnica del EU AI Act desde Tu Pipeline de Datos
    eu-ai-acttechnical-documentationdata-pipelinecomplianceaudit-trailsegment:enterprise

    Como Generar Documentacion Tecnica del EU AI Act desde Tu Pipeline de Datos

    Guia practica para producir documentacion tecnica conforme al EU AI Act desde tu pipeline de preparacion de datos — cubriendo linaje de datos, logs de transformacion, metricas de calidad y atribucion de operador.

    EErtas Team·

    El EU AI Act requiere que los proveedores de sistemas de IA de alto riesgo mantengan documentacion tecnica que cubra todo el ciclo de vida de desarrollo — incluyendo informacion detallada sobre los datos de entrenamiento. El Articulo 30 y el Anexo IV detallan lo que debe contener esta documentacion.

    La mayoria de los equipos entienden el requisito en teoria. La pregunta practica es: ¿como generas realmente esta documentacion desde tu pipeline de datos existente?

    Que Debe Cubrir la Documentacion

    El Anexo IV del EU AI Act especifica el contenido minimo de la documentacion tecnica para sistemas de IA de alto riesgo. Para datos de entrenamiento, las secciones relevantes requieren:

    Descripcion de datos:

    • Las metodologias y tecnicas de entrenamiento utilizadas
    • Los datasets de entrenamiento: origen, alcance y caracteristicas principales
    • Como se obtuvieron y seleccionaron los datos
    • Procedimientos de etiquetado y metodos de limpieza/enriquecimiento

    Gobernanza de datos:

    • Medidas tomadas para detectar, prevenir y mitigar el sesgo
    • Vacios o deficiencias en los datos identificados y como se abordaron
    • Propiedades estadisticas de los datasets (distribucion, cobertura, representatividad)

    Linaje y trazabilidad:

    • Como cualquier salida individual puede rastrearse a traves del pipeline hasta sus datos fuente
    • Historial de versiones de los datasets utilizados en el entrenamiento

    El Problema de Generacion de Documentacion

    Si tu pipeline de datos es una serie de scripts de Python, herramientas CLI y procesos manuales, generar esta documentacion significa volver atras y reconstruir lo que sucedio. Esto consume tiempo, es propenso a errores y a menudo es incompleto — porque los pasos no documentados no pueden reconstruirse con precision.

    El mejor enfoque es incorporar la generacion de documentacion en el propio pipeline.

    Que Registrar en Cada Etapa del Pipeline

    Etapa 1: Ingestion

    • Ruta del archivo fuente, formato y tamano
    • Marca de tiempo de la ingestion
    • Parser utilizado (motor OCR, detector de layout, extractor de tablas)
    • Version y configuracion del parser
    • Resultados de extraccion: paginas procesadas, tablas encontradas, imagenes detectadas
    • Tasa de error: paginas que fallaron en el parsing, puntuaciones de confianza

    Etapa 2: Limpieza

    • Registros recibidos de la ingestion
    • Deduplicacion: metodo utilizado, duplicados encontrados y eliminados
    • Scoring de calidad: algoritmo utilizado, distribucion de puntuaciones, umbral aplicado
    • Deteccion de PII/PHI: metodo utilizado, entidades encontradas, redaccion aplicada
    • Registros eliminados y razon (por debajo del umbral de calidad, duplicado, corrupto)
    • Registros enviados al etiquetado

    Etapa 3: Etiquetado

    • Esquema de etiquetas: categorias, definiciones, guias
    • Identidad del anotador (rol, no necesariamente nombre — "Abogado Senior" vs "Ingeniero ML")
    • Etiquetas aplicadas por registro, con marcas de tiempo
    • Acuerdo inter-anotador: metodo, puntuacion
    • Resolucion de desacuerdos: proceso y resultado
    • Etiquetado asistido por IA: modelo utilizado, umbral de confianza, tasa de revision humana

    Etapa 4: Aumento

    • Generacion de datos sinteticos: metodo, modelo utilizado, parametros
    • Volumen generado vs ratio de datos originales
    • Validacion de la calidad de datos sinteticos
    • Ajustes de balanceo: categorias subrepresentadas, metodo de aumento

    Etapa 5: Exportacion

    • Formato de exportacion (JSONL, texto fragmentado, COCO, YOLO, CSV)
    • Identificador de version del dataset
    • Conteo de registros: total, por categoria, por fuente
    • Marca de tiempo de exportacion y destino
    • Hash/checksum para verificacion de integridad

    Convirtiendo Logs en Documentacion

    Los logs crudos no son documentacion. Necesitan agregarse en un informe estructurado que se mapee a los requisitos del Anexo IV. Aqui tienes una estructura practica:

    Seccion 1: Resumen del Dataset

    Agregar desde los logs de ingestion y exportacion:

    • Total de documentos fuente (conteo, formatos, tamano total)
    • Resumen del pipeline de procesamiento (etapas, herramientas, cronologia)
    • Estadisticas finales del dataset (registros, categorias, formato)

    Seccion 2: Informe de Gobernanza de Datos

    Agregar desde los logs de limpieza y etiquetado:

    • Criterios y metodologia de seleccion de datos
    • Medidas de aseguramiento de calidad aplicadas
    • Examen de sesgo: dimensiones probadas, resultados, acciones de mitigacion
    • Vacios de datos identificados y abordados

    Seccion 3: Informe de Linaje

    Generado desde el rastro de auditoria completo:

    • Para cualquier registro de salida, la cadena completa: archivo fuente → contenido ingestado → registro limpio → entrada etiquetada → aumentado (si aplica) → formato exportado
    • Cada transformacion con marca de tiempo y operador

    Seccion 4: Perfil Estadistico

    Generado desde el analisis de la etapa de exportacion:

    • Distribucion de categorias (histograma/tabla)
    • Distribucion de fuentes (que documentos contribuyeron mas)
    • Distribucion de puntuaciones de calidad
    • Analisis de cobertura contra el caso de uso previsto

    Documentacion Automatizada vs. Manual

    Algunos elementos pueden automatizarse completamente:

    • Logs de ingestion, registros de transformacion, metadatos de exportacion
    • Resumenes estadisticos y analisis de distribucion
    • Cadenas de linaje y seguimiento de versiones

    Algunos elementos requieren entrada humana:

    • Descripciones de politicas de gobernanza de datos
    • Justificacion de la metodologia de examen de sesgo
    • Descripciones del proposito previsto y caso de uso
    • Contexto de la evaluacion de riesgos

    El objetivo es automatizar todo lo que se pueda automatizar, para que el esfuerzo humano se centre en las secciones basadas en juicio que requieren experiencia de dominio.

    Que Significa Esto para la Arquitectura de Tu Pipeline

    Si estas construyendo un nuevo pipeline de datos o evaluando herramientas existentes, los requisitos de documentacion del EU AI Act tienen implicaciones arquitectonicas:

    1. El registro unificado es esencial. Si tu pipeline cruza fronteras de herramientas (Docling → Label Studio → scripts personalizados), necesitas una capa de registro compartida — o tendras vacios.
    2. La atribucion de operador debe estar integrada. El procesamiento anonimo no satisface la Ley. Cada paso necesita registrar quien lo realizo.
    3. La exportacion debe incluir documentacion, no solo datos. La salida de tu pipeline no es solo un archivo JSONL — es el archivo JSONL mas la documentacion de cumplimiento que demuestra como se produjo.

    Plataformas de preparacion de datos on-premise como Ertas Data Suite manejan esto arquitectonicamente — cada etapa comparte la misma infraestructura de auditoria, y los informes de cumplimiento se generan directamente desde los logs internos del pipeline. Si estas evaluando herramientas, pregunta si la generacion de documentacion es una caracteristica central o una idea posterior.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading