Back to blog
    La Brecha de Trazabilidad de Auditoria: Como la Mayoria de los Pipelines de AI Empresarial Fallan el Cumplimiento del EU AI Act Sin Saberlo
    audit-traileu-ai-actcomplianceenterprise-aidata-lineagesegment:enterprise

    La Brecha de Trazabilidad de Auditoria: Como la Mayoria de los Pipelines de AI Empresarial Fallan el Cumplimiento del EU AI Act Sin Saberlo

    La mayoria de los pipelines de AI empresarial no tienen trazabilidad de auditoria para datos de entrenamiento. Este es un riesgo de cumplimiento oculto bajo el EU AI Act Articulo 10 y HIPAA — y corregirlo requiere cambios en la etapa de preparacion de datos, no en el modelo.

    EErtas Team·

    Pidele a la mayoria de los equipos de AI que produzcan un registro completo de sus datos de entrenamiento — de donde vinieron, que se les hizo, quien los toco y en que forma se usaron para entrenar el modelo — y no pueden hacerlo.

    No porque sean negligentes. Porque las herramientas que usan no producen ese registro. Cada herramienta en un stack tipico de preparacion de datos trabaja en aislamiento, escribiendo salidas a una carpeta compartida sin conexion con lo que vino antes. El resultado es un dataset de entrenamiento sin historial rastreable — sin linaje, sin trazabilidad de auditoria, sin documentacion de las decisiones que lo moldearon.

    Bajo el EU AI Act Articulo 10, para sistemas de AI de alto riesgo, esto no es solo una brecha tecnica. Es un fallo de cumplimiento. Bajo HIPAA, para AI en salud, puede constituir una violacion de los requisitos de control de auditoria de la Security Rule. Y con la fecha limite de aplicabilidad del 2 de agosto de 2026 acercandose, muchos equipos de AI empresarial van a descubrir este problema en el peor momento posible.


    Lo Que Debe Contener una Trazabilidad de Auditoria para Datos de Entrenamiento de AI

    Antes de examinar por que la mayoria de los pipelines no tienen trazabilidad de auditoria, vale la pena ser preciso sobre lo que debe contener una trazabilidad de auditoria conforme.

    Bajo el EU AI Act Articulo 10 y los requisitos de documentacion tecnica del Articulo 11 / Anexo IV, la documentacion de gobernanza de datos para un sistema de AI de alto riesgo debe permitir que un regulador o auditor reconstruya:

    • Fuentes de datos: De donde vinieron los documentos de entrenamiento? Que sistema, que propietario de datos, que metodologia de recoleccion?
    • Justificacion de seleccion de datos: Por que se incluyo esta data? Que criterios se aplicaron para incluir o excluir registros?
    • Operaciones de preprocesamiento: Que transformaciones se aplicaron antes de la anotacion? Parseo, limpieza, deduplicacion, normalizacion — con metodologia y parametros.
    • Operaciones de desidentificacion: Que PII o datos sensibles se detectaron, que se elimino, con que metodo y cuando?
    • Eventos de anotacion: Quien etiqueto cada registro, cuando, usando cuales guias de anotacion? Cual fue la metodologia de acuerdo inter-anotador?
    • Evaluacion de calidad: Que puntuacion de calidad se aplico, cuales fueron los resultados y como se manejaron los registros de baja calidad?
    • Operaciones de aumento: Se generaron datos sinteticos? Con que modelo, que parametros, a partir de cuales ejemplos fuente?
    • Version del dataset y exportacion: Que version especifica del dataset se uso para el entrenamiento? Cual fue su composicion?

    Bajo la Security Rule de HIPAA (45 CFR seccion 164.312(b)), los controles de auditoria deben registrar y examinar la actividad en sistemas de informacion que contienen o usan PHI electronico. Para un pipeline de entrenamiento de AI clinica, esto significa un registro de cada acceso y transformacion de documentos que contienen PHI — quien, que, cuando y que se hizo.

    Bajo el principio de responsabilidad del GDPR (Articulo 5(2)), los controladores deben poder demostrar el cumplimiento con todos los principios de proteccion de datos. Para entrenamiento de AI, esto incluye demostrar que el procesamiento tenia una base legal, que solo se procesaron los datos necesarios y que los datos se manejaron de acuerdo con los propositos declarados.

    Los requisitos combinados de estos marcos convergen en la misma necesidad operacional: un registro estructurado, completo y exportable de todo lo que le sucedio a tus datos de entrenamiento desde el documento fuente hasta el dataset exportado.


    Por Que la Mayoria de los Pipelines No Tienen Trazabilidad de Auditoria

    El pipeline tipico de preparacion de datos de AI empresarial no es un sistema unico. Es una secuencia de herramientas independientes, cada una resolviendo un problema, cada una escribiendo salida a un sistema de archivos compartido, y ninguna de ellas consciente de las otras.

    Un pipeline representativo se ve asi:

    Docling (o Unstructured.io) parsea los PDFs fuente y exporta markdown o JSON a un directorio. No produce ningun registro de que se parseo, que decisiones de parseo se tomaron (como se manejo un layout multi-columna? que se extrajo de las tablas?), ni cual era la procedencia del documento fuente.

    Un script de limpieza (Python personalizado, Cleanlab o similar) lee el texto parseado, deduplica y escribe registros limpios en otro directorio. Puede producir un log de resumen, pero ese log tipicamente es un archivo de texto que vive fuera de cualquier registro estructurado, no esta vinculado a documentos fuente especificos y no se preserva en forma consultable.

    Label Studio lee los registros limpios y permite que los anotadores los etiqueten. Mantiene su propia base de datos de eventos de anotacion, pero esa base de datos no esta vinculada a los documentos fuente en la salida de Docling, no contiene informacion sobre las transformaciones que ocurrieron entre la fuente y la anotacion, y produce exportaciones que eliminan metadatos internos de auditoria.

    Un script de aumento (Distilabel, un flujo de trabajo personalizado de LangChain, llamadas directas a API) genera variantes sinteticas y las escribe en un directorio. Tipicamente no hay registro de que ejemplos fuente se usaron para generar cuales registros sinteticos.

    Un script de exportacion combina registros anotados y datos sinteticos, aplica filtrado final y escribe el JSONL listo para entrenamiento. La procedencia de cada registro — de que documento fuente vino, que transformaciones sufrio, quien lo etiqueto — se pierde en el proceso.

    El resultado: un dataset de entrenamiento que puede ser interrogado por su contenido pero no por su historial. Un regulador preguntando "muestrame la trazabilidad de auditoria para este registro de entrenamiento" no tiene respuesta.


    El Problema del Linaje Compartido

    El problema central no es que las herramientas individuales carezcan de logging — la mayoria tiene alguna forma de registro interno de actividad. El problema es que estos registros no estan conectados. No hay un identificador compartido que siga un registro desde el documento fuente a traves del parseo, limpieza, anotacion, aumento y exportacion.

    Sin un identificador compartido, no puedes:

    • Rastrear un registro de entrenamiento hasta su documento fuente
    • Determinar que anotador etiqueto un registro especifico
    • Identificar que registros fueron generados sinteticamente vs. originados de documentos reales
    • Mostrar que PHI se detecto en un documento fuente y confirmar que fue eliminado antes de que el registro fuera anotado
    • Producir una linea de tiempo completa de todas las operaciones realizadas en un registro especifico

    Esto es linaje — la capacidad de rastrear datos hacia adelante y hacia atras a traves de un pipeline. Es lo que las herramientas de catalogo de datos buscan proporcionar para datos empresariales estructurados. Para pipelines de datos de entrenamiento de AI, el linaje esta casi completamente ausente.


    Por Que Retrofittear Linaje Es Mas Dificil Que Incorporarlo Desde el Inicio

    Cuando los equipos se dan cuenta de que necesitan una trazabilidad de auditoria, el instinto frecuentemente es retrofittear: agregar logging a scripts existentes, instrumentar las herramientas existentes, construir un catalogo de datos sobre el pipeline existente.

    Este enfoque consistentemente encuentra problemas:

    El logging retroactivo es incompleto: Puedes agregar logging a ejecuciones futuras, pero no puedes reconstruir el historial de datos de entrenamiento que ya fueron procesados sin el. Si tu modelo ya esta entrenado y ahora estas bajo escrutinio regulatorio, el historial que necesitas no existe.

    Las APIs de las herramientas no exponen decisiones internas: La salida de Docling no te dice como manejo una ambiguedad de layout especifica. La exportacion de Label Studio no te dice por que un registro fue omitido. Puedes registrar que una herramienta se ejecuto; no puedes registrar las decisiones que tomo internamente.

    La identidad entre herramientas no se mantiene: Si quieres vincular un registro de anotacion en Label Studio con un documento fuente en la salida de Docling con un registro limpio en tu script de deduplicacion, necesitas un identificador comun que fue asignado en la ingesta y propagado a traves de cada herramienta. La mayoria de las herramientas no aceptan ni preservan identificadores externos.

    El esfuerzo escala con el numero de herramientas: Cada herramienta adicional en el pipeline es otro punto de integracion que necesita instrumentacion personalizada. Un pipeline de 7 herramientas no es 7 veces el trabajo de logging — son 7 puntos potenciales de falla, cada uno requiriendo desarrollo personalizado, cada uno creando una brecha si falla.

    Incorporar linaje en el pipeline desde el inicio — usando un sistema unico que mantiene la procedencia a traves de todas las etapas — es arquitectonicamente mas simple y produce un registro mas completo que cualquier enfoque de retrofitting.


    Como Se Ve Realmente una Exportacion de Trazabilidad de Auditoria Conforme

    Una trazabilidad de auditoria util para cumplimiento del EU AI Act o HIPAA no es un log de texto. Es un registro estructurado que puede ser consultado, filtrado y presentado a auditores en un formato legible.

    Para cada registro en el dataset de entrenamiento final, la trazabilidad de auditoria deberia poder responder:

    CampoValor de Ejemplo
    ID del Registrorec_00432
    Documento fuentecontracts/2024/MSA_Acme_v3.pdf
    Documento fuente ingestado2026-01-14 09:32:11, operador: j.smith
    Metodo de parseoExtraccion de texto PDF + deteccion de tablas
    PHI/PII detectadoNinguno
    Operaciones de limpiezaDeduplicado (duplicado de rec_00198 eliminado), espacios en blanco normalizados
    Evento de anotacionEtiqueta NER: CLAUSE_TYPE=Indemnity, anotador: a.jones, 2026-01-15 14:22:05
    Version de guias de anotacionv2.1
    AumentoNo
    Version del datasetv3.2
    Fecha de exportacion2026-02-01

    Para un pipeline de AI clinica sujeto a HIPAA, la fila de PHI/PII necesita detalle adicional: que identificadores se encontraron, que metodo se uso para detectarlos, que se elimino y una confirmacion de que el registro de salida no contiene PHI residual.

    A nivel del dataset, la exportacion de auditoria deberia incluir:

    • Conteo total de registros por fuente
    • Distribucion de puntajes de calidad
    • Cobertura de anotacion y acuerdo inter-anotador (si aplica)
    • Porcentaje de registros sinteticos y parametros de generacion
    • Composicion del dataset por categoria, etiqueta o tipo de documento

    Esto es lo que la "documentacion de gobernanza de datos" del Articulo 11 / Anexo IV se ve en la practica — un registro estructurado de decisiones y operaciones, no una descripcion narrativa.


    La Urgencia de Agosto 2026

    Los sistemas de AI de alto riesgo deben cumplir los requisitos del EU AI Act para el 2 de agosto de 2026. Para los sistemas ya desplegados ("sistemas existentes"), hay un periodo de transicion — pero para los sistemas desarrollados o significativamente actualizados despues de la fecha de aplicabilidad, el cumplimiento es requerido desde el despliegue.

    La mayoria de los proyectos de AI empresarial en sectores regulados no son despliegues unicos. Involucran recoleccion continua de datos, reentrenamiento periodico, actualizaciones de modelos y alcance ampliado. Cada actualizacion al dataset de entrenamiento es un nuevo evento de procesamiento que requiere gobernanza de datos conforme al Articulo 10. Cada version de modelo reentrenada requiere documentacion tecnica actualizada del Articulo 11.

    Las organizaciones que esperen hasta agosto de 2026 para pensar en los requisitos de trazabilidad de auditoria se encontraran en una posicion dificil: o no pueden demostrar cumplimiento (porque el historial no existe) o deben retrasar el despliegue mientras construyen la infraestructura de cumplimiento que deberian haber construido desde el inicio.


    Como Ertas Data Suite Cierra la Brecha de Trazabilidad de Auditoria

    Ertas Data Suite mantiene un registro de proyecto unificado a traves de las cinco etapas del pipeline — Ingest, Clean, Label, Augment, Export. Cada operacion escribe en un log de auditoria compartido: los identificadores de documentos fuente se asignan en la ingesta y se propagan a traves de cada operacion subsiguiente. No hay transferencia entre herramientas separadas, no hay brecha de sistema de archivos compartido, no hay problema de identidad entre herramientas.

    La exportacion del log de auditoria incluye linaje a nivel de registro (fuente a registro de entrenamiento final), entradas a nivel de operacion (quien hizo que y cuando) y resumenes a nivel de dataset (composicion, metricas de calidad, cobertura de anotacion). El formato de exportacion esta estructurado para uso en documentacion tecnica en lugar de requerir compilacion manual.

    El modulo Clean registra cada evento de deteccion de PII/PHI — que se encontro, que se elimino, que metodo se uso. El modulo Label registra eventos de anotacion a nivel de registro con ID del anotador y timestamp. El modulo Augment registra que registros fuente se usaron para generar variantes sinteticas. El modulo Export incluye el manifiesto del dataset junto con los datos de entrenamiento.

    Para los equipos que enfrentan la fecha limite del EU AI Act de agosto 2026 — o los requisitos de auditoria de HIPAA hoy — la trazabilidad de auditoria no es una funcion para agregar despues. Es el prerrequisito para operacion conforme.


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    Lectura Relacionada

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading