Como Generar Documentacion Tecnica del EU AI Act desde Tu Pipeline de Datos

El EU AI Act requiere que los proveedores de sistemas de IA de alto riesgo mantengan documentacion tecnica que cubra todo el ciclo de vida de desarrollo — incluyendo informacion detallada sobre los datos de entrenamiento. El Articulo 30 y el Anexo IV detallan lo que debe contener esta documentacion.

La mayoria de los equipos entienden el requisito en teoria. La pregunta practica es: ¿como generas realmente esta documentacion desde tu pipeline de datos existente?

Que Debe Cubrir la Documentacion

El Anexo IV del EU AI Act especifica el contenido minimo de la documentacion tecnica para sistemas de IA de alto riesgo. Para datos de entrenamiento, las secciones relevantes requieren:

Descripcion de datos:

Las metodologias y tecnicas de entrenamiento utilizadas
Los datasets de entrenamiento: origen, alcance y caracteristicas principales
Como se obtuvieron y seleccionaron los datos
Procedimientos de etiquetado y metodos de limpieza/enriquecimiento

Gobernanza de datos:

Medidas tomadas para detectar, prevenir y mitigar el sesgo
Vacios o deficiencias en los datos identificados y como se abordaron
Propiedades estadisticas de los datasets (distribucion, cobertura, representatividad)

Linaje y trazabilidad:

Como cualquier salida individual puede rastrearse a traves del pipeline hasta sus datos fuente
Historial de versiones de los datasets utilizados en el entrenamiento

El Problema de Generacion de Documentacion

Si tu pipeline de datos es una serie de scripts de Python, herramientas CLI y procesos manuales, generar esta documentacion significa volver atras y reconstruir lo que sucedio. Esto consume tiempo, es propenso a errores y a menudo es incompleto — porque los pasos no documentados no pueden reconstruirse con precision.

El mejor enfoque es incorporar la generacion de documentacion en el propio pipeline.

Que Registrar en Cada Etapa del Pipeline

Etapa 1: Ingestion

Ruta del archivo fuente, formato y tamano
Marca de tiempo de la ingestion
Parser utilizado (motor OCR, detector de layout, extractor de tablas)
Version y configuracion del parser
Resultados de extraccion: paginas procesadas, tablas encontradas, imagenes detectadas
Tasa de error: paginas que fallaron en el parsing, puntuaciones de confianza

Etapa 2: Limpieza

Registros recibidos de la ingestion
Deduplicacion: metodo utilizado, duplicados encontrados y eliminados
Scoring de calidad: algoritmo utilizado, distribucion de puntuaciones, umbral aplicado
Deteccion de PII/PHI: metodo utilizado, entidades encontradas, redaccion aplicada
Registros eliminados y razon (por debajo del umbral de calidad, duplicado, corrupto)
Registros enviados al etiquetado

Etapa 3: Etiquetado

Esquema de etiquetas: categorias, definiciones, guias
Identidad del anotador (rol, no necesariamente nombre — "Abogado Senior" vs "Ingeniero ML")
Etiquetas aplicadas por registro, con marcas de tiempo
Acuerdo inter-anotador: metodo, puntuacion
Resolucion de desacuerdos: proceso y resultado
Etiquetado asistido por IA: modelo utilizado, umbral de confianza, tasa de revision humana

Etapa 4: Aumento

Generacion de datos sinteticos: metodo, modelo utilizado, parametros
Volumen generado vs ratio de datos originales
Validacion de la calidad de datos sinteticos
Ajustes de balanceo: categorias subrepresentadas, metodo de aumento

Etapa 5: Exportacion

Formato de exportacion (JSONL, texto fragmentado, COCO, YOLO, CSV)
Identificador de version del dataset
Conteo de registros: total, por categoria, por fuente
Marca de tiempo de exportacion y destino
Hash/checksum para verificacion de integridad

Convirtiendo Logs en Documentacion

Los logs crudos no son documentacion. Necesitan agregarse en un informe estructurado que se mapee a los requisitos del Anexo IV. Aqui tienes una estructura practica:

Seccion 1: Resumen del Dataset

Agregar desde los logs de ingestion y exportacion:

Total de documentos fuente (conteo, formatos, tamano total)
Resumen del pipeline de procesamiento (etapas, herramientas, cronologia)
Estadisticas finales del dataset (registros, categorias, formato)

Seccion 2: Informe de Gobernanza de Datos

Agregar desde los logs de limpieza y etiquetado:

Criterios y metodologia de seleccion de datos
Medidas de aseguramiento de calidad aplicadas
Examen de sesgo: dimensiones probadas, resultados, acciones de mitigacion
Vacios de datos identificados y abordados

Seccion 3: Informe de Linaje

Generado desde el rastro de auditoria completo:

Para cualquier registro de salida, la cadena completa: archivo fuente → contenido ingestado → registro limpio → entrada etiquetada → aumentado (si aplica) → formato exportado
Cada transformacion con marca de tiempo y operador

Seccion 4: Perfil Estadistico

Generado desde el analisis de la etapa de exportacion:

Distribucion de categorias (histograma/tabla)
Distribucion de fuentes (que documentos contribuyeron mas)
Distribucion de puntuaciones de calidad
Analisis de cobertura contra el caso de uso previsto

Documentacion Automatizada vs. Manual

Algunos elementos pueden automatizarse completamente:

Logs de ingestion, registros de transformacion, metadatos de exportacion
Resumenes estadisticos y analisis de distribucion
Cadenas de linaje y seguimiento de versiones

Algunos elementos requieren entrada humana:

Descripciones de politicas de gobernanza de datos
Justificacion de la metodologia de examen de sesgo
Descripciones del proposito previsto y caso de uso
Contexto de la evaluacion de riesgos

El objetivo es automatizar todo lo que se pueda automatizar, para que el esfuerzo humano se centre en las secciones basadas en juicio que requieren experiencia de dominio.

Que Significa Esto para la Arquitectura de Tu Pipeline

Si estas construyendo un nuevo pipeline de datos o evaluando herramientas existentes, los requisitos de documentacion del EU AI Act tienen implicaciones arquitectonicas:

El registro unificado es esencial. Si tu pipeline cruza fronteras de herramientas (Docling → Label Studio → scripts personalizados), necesitas una capa de registro compartida — o tendras vacios.
La atribucion de operador debe estar integrada. El procesamiento anonimo no satisface la Ley. Cada paso necesita registrar quien lo realizo.
La exportacion debe incluir documentacion, no solo datos. La salida de tu pipeline no es solo un archivo JSONL — es el archivo JSONL mas la documentacion de cumplimiento que demuestra como se produjo.

Plataformas de preparacion de datos on-premise como Ertas Data Suite manejan esto arquitectonicamente — cada etapa comparte la misma infraestructura de auditoria, y los informes de cumplimiento se generan directamente desde los logs internos del pipeline. Si estas evaluando herramientas, pregunta si la generacion de documentacion es una caracteristica central o una idea posterior.