
Verificador de preparacion para el cumplimiento de la Ley de IA de la UE para pipelines de datos
Un marco de preparacion para el cumplimiento de los Articulos 10 y 30 de la Ley de IA de la UE aplicado a pipelines de datos de entrenamiento de IA. Incluye tablas de verificacion para sistemas de alto riesgo y riesgo limitado con enfoque en la fecha limite de agosto de 2026.
Los requisitos de la Ley de IA de la UE para sistemas de IA de alto riesgo entran en vigor en agosto de 2026, cinco meses desde la fecha de este articulo. Si su organizacion desarrolla, despliega o proporciona sistemas de IA clasificados como de alto riesgo bajo la regulacion, sus pipelines de datos deben cumplir requisitos especificos en torno a la gobernanza de datos, la documentacion y la trazabilidad.
Este verificador de preparacion se centra especificamente en los requisitos de pipeline de datos de los Articulos 10 y 30 de la Ley de IA de la UE. No cubre el alcance completo de la regulacion (que abarca evaluacion de riesgos, supervision humana, robustez y mas), pero la gobernanza de datos es donde la mayoria de las organizaciones tienen las mayores brechas y la mayor cantidad de trabajo por hacer.
Use este verificador para evaluar su preparacion actual, identificar brechas y priorizar la remediacion antes de la fecha de aplicacion de agosto de 2026.
Comprendiendo su clasificacion de riesgo
Antes de evaluar la preparacion para el cumplimiento, necesita determinar si su sistema de IA cae bajo la clasificacion de alto riesgo o riesgo limitado. La Ley de IA de la UE define los sistemas de alto riesgo en el Anexo III, cubriendo areas como:
- Identificacion y categorizacion biometrica
- Gestion y operacion de infraestructura critica
- Educacion y formacion profesional (acceso, evaluacion)
- Empleo, gestion de trabajadores y trabajo autonomo (reclutamiento, evaluacion)
- Acceso a servicios privados y publicos esenciales (calificacion crediticia, seguros)
- Aplicacion de la ley, migracion y control fronterizo
- Administracion de justicia y procesos democraticos
Si su sistema de IA opera en cualquiera de estos dominios, casi con toda seguridad esta clasificado como de alto riesgo y sujeto a los requisitos completos de los Articulos 10 y 30.
Los sistemas que no estan en la categoria de alto riesgo pueden aun estar sujetos a requisitos de riesgo limitado (principalmente obligaciones de transparencia) o requisitos de modelos de IA de proposito general si involucran modelos fundacionales.
Articulo 10: Requisitos de datos y gobernanza de datos
El Articulo 10 establece requisitos para los conjuntos de datos de entrenamiento, validacion y prueba utilizados en sistemas de IA de alto riesgo. La siguiente lista de verificacion cubre cada requisito con criterios especificos para su pipeline de datos.
Lista de verificacion de sistema de alto riesgo - Articulo 10
| Requisito | Lo que debe hacer su pipeline | Listo | Parcialmente listo | No listo |
|---|---|---|---|---|
| 10(2) Gobernanza de datos | Implementar un marco de gobernanza de datos documentado que cubra las opciones de diseno, la recopilacion de datos, las operaciones de preparacion, la formulacion de supuestos y la evaluacion de la disponibilidad, cantidad e idoneidad de los datos | El pipeline tiene politicas de gobernanza de datos documentadas que cubren el manejo de datos de extremo a extremo | Existe alguna documentacion pero hay brechas en la cobertura | Sin marco formal de gobernanza de datos |
| 10(2)(a) Opciones de diseno | Documentar las opciones de diseno realizadas para la recopilacion y el procesamiento de datos, incluyendo las fuentes de datos seleccionadas y por que | La seleccion de fuentes de datos y la logica de procesamiento estan documentadas y bajo control de versiones | Las opciones de diseno son comprendidas por el equipo pero no estan formalmente documentadas | Las opciones de diseno son ad hoc y no estan documentadas |
| 10(2)(b) Recopilacion de datos | Documentar los procesos de recopilacion de datos incluyendo origen, proposito y volumen de datos | El pipeline registra la procedencia de los datos: fuente, marca de tiempo, volumen y metodo de recopilacion para cada conjunto de datos | Seguimiento parcial de procedencia; algunas fuentes no documentadas | Sin seguimiento sistematico de procedencia |
| 10(2)(c) Preparacion de datos | Documentar todas las operaciones de preparacion de datos incluyendo anotacion, etiquetado, limpieza, enriquecimiento y agregacion | Cada transformacion del pipeline se registra con ID del operador, marca de tiempo y descripcion de entrada/salida | Las transformaciones principales se registran pero hay brechas entre etapas | Las transformaciones no se registran |
| 10(2)(d) Supuestos | Documentar los supuestos sobre lo que los datos miden y representan | Los supuestos sobre la representatividad de los datos y las mediciones estan documentados | Algunos supuestos documentados informalmente | Sin supuestos documentados |
| 10(2)(e) Evaluacion de disponibilidad | Evaluar y documentar la disponibilidad, cantidad e idoneidad de los datos | Evaluacion documentada de si los datos de entrenamiento son suficientes y representativos | Evaluacion realizada pero no documentada formalmente | Sin evaluacion realizada |
| 10(2)(f) Examen de sesgos | Examinar los datos en busca de posibles sesgos que podrian afectar la salud, la seguridad o los derechos fundamentales | Analisis sistematico de sesgos realizado y documentado, con pasos de mitigacion registrados | Algun analisis de sesgos realizado pero no exhaustivo | Sin proceso de examen de sesgos |
| 10(2)(g) Brechas de datos | Identificar y abordar las brechas en los datos que podrian comprometer el cumplimiento | Analisis de brechas documentado con plan de remediacion | Brechas identificadas informalmente pero sin proceso sistematico | Sin proceso de identificacion de brechas |
| 10(3) Representatividad | Los conjuntos de datos de entrenamiento, validacion y prueba deben ser relevantes, suficientemente representativos y lo mas libres de errores posible | Analisis estadistico de la representatividad del conjunto de datos documentado; metricas de calidad de datos rastreadas | Evaluacion informal de representatividad | Sin analisis de representatividad |
| 10(4) Consideracion de propiedades de datos | Tener en cuenta el entorno geografico, contextual, conductual o funcional especifico del sistema de IA | La composicion del conjunto de datos refleja el contexto de despliegue; analisis documentado de factores contextuales | Alguna consideracion del contexto pero no sistematica | Sin consideracion del contexto de despliegue |
| 10(5) Procesamiento de datos personales | El procesamiento de datos personales debe seguir el GDPR; las categorias especiales de datos solo pueden procesarse cuando sea estrictamente necesario para la deteccion y correccion de sesgos | Deteccion y redaccion de PII/PHI integrada en el pipeline; manejo de datos de categorias especiales documentado | Algun manejo de PII pero brechas en cobertura o documentacion | Sin manejo sistematico de PII en el pipeline |
Lista de verificacion de sistema de riesgo limitado - Articulo 10
Los sistemas de riesgo limitado tienen requisitos de gobernanza de datos reducidos, pero aun deben cumplir estandares basicos.
| Requisito | Lo que debe hacer su pipeline | Listo | Parcialmente listo | No listo |
|---|---|---|---|---|
| Linea base de calidad de datos | Asegurar que los datos de entrenamiento sean de calidad suficiente para el proposito previsto | Verificaciones basicas de calidad de datos implementadas (completitud, consistencia, validacion de formato) | Algunas verificaciones de calidad pero no sistematicas | Sin proceso de calidad de datos |
| Transparencia de fuentes de datos | Poder divulgar que datos se usaron para el entrenamiento si se solicita | Fuentes de datos documentadas y recuperables | Documentacion parcial de fuentes de datos | Fuentes de datos no rastreadas |
| Cumplimiento del GDPR para datos personales | Cumplir con el GDPR cuando se procesan datos personales | Manejo de datos conforme al GDPR incluyendo consentimiento, base legal y derechos de los interesados | Cumplimiento parcial del GDPR | Sin evaluacion de GDPR realizada |
Articulo 30: Requisitos de documentacion y registro
El Articulo 30 requiere que los proveedores de sistemas de IA de alto riesgo disenen sistemas que registren automaticamente eventos (logs) relevantes para identificar riesgos y facilitar el monitoreo post-comercializacion.
Lista de verificacion de sistema de alto riesgo - Articulo 30
| Requisito | Lo que debe hacer su pipeline | Listo | Parcialmente listo | No listo |
|---|---|---|---|---|
| 30(1) Registro automatico | El sistema de IA debe registrar automaticamente eventos a lo largo de su ciclo de vida | El pipeline genera registros automaticamente en cada etapa; no se requiere registro manual | Algunas etapas generan registros automaticos; otras requieren documentacion manual | El registro es manual o esta ausente |
| 30(2) Trazabilidad | Los registros deben permitir rastrear la operacion del sistema a lo largo de su ciclo de vida | Linaje completo de datos desde la entrada sin procesar hasta la salida procesada, con cada paso de transformacion registrado | El linaje existe para algunas etapas del pipeline pero tiene brechas | Sin seguimiento de linaje de datos |
| 30(3) Retencion de registros | Los registros deben mantenerse durante un periodo apropiado al proposito previsto del sistema de IA de alto riesgo | Politicas de retencion de registros definidas y automatizadas; registros retenidos durante el periodo requerido | Registros retenidos pero sin politica formal de retencion | Registros eliminados ad hoc o no retenidos |
| 30(4) Formato de registros | Las capacidades de registro deben ajustarse a estandares reconocidos o especificaciones comunes | Registros almacenados en formato estructurado y legible por maquina (por ejemplo, JSON, base de datos estructurada) | Los registros existen pero en formatos inconsistentes | Formato de registro no estructurado o inaccesible |
| Identificacion del operador | Los registros deben identificar quien o que desencadeno cada operacion | Cada ejecucion del pipeline etiquetada con la identidad del operador/sistema y marca de tiempo | Algunas operaciones etiquetadas con identidad del operador | Sin identificacion del operador en los registros |
| Registro de entrada/salida | Los registros deben capturar entradas y salidas en las etapas relevantes del pipeline | Hashes de entrada y salida (o registros completos cuando sea apropiado) capturados en cada etapa | Algunas etapas registran entradas/salidas | Sin registro de entrada/salida |
Lista de verificacion de sistema de riesgo limitado - Articulo 30
| Requisito | Lo que debe hacer su pipeline | Listo | Parcialmente listo | No listo |
|---|---|---|---|---|
| Registro operativo basico | Mantener registros de la operacion del sistema suficientes para las obligaciones de transparencia | El sistema genera registros operativos basicos | Registro minimo implementado | Sin registro |
| Registro de incidentes | Registrar e investigar incidentes significativos | Existe un proceso de reporte de incidentes | Seguimiento de incidentes ad hoc | Sin registro de incidentes |
Puntuacion de preparacion
Cuente sus respuestas en las listas de verificacion de alto riesgo (Articulos 10 y 30 combinados). Hay 17 elementos para sistemas de alto riesgo.
| Resultado | Nivel de preparacion | Que significa |
|---|---|---|
| 14-17 elementos "Listo" | Alta preparacion | Brechas menores por cerrar antes de agosto de 2026. Concentrese en los elementos restantes y realice una revision final. |
| 9-13 elementos "Listo" | Preparacion moderada | Queda trabajo material. Cree un plan de remediacion priorizado con plazos antes de agosto de 2026. |
| 4-8 elementos "Listo" | Baja preparacion | Brechas significativas en multiples requisitos. Se recomienda contratar experiencia en cumplimiento. Presupueste para 3-5 meses de trabajo de remediacion. |
| Menos de 4 elementos "Listo" | No preparado | La infraestructura fundamental de gobernanza de datos y registro necesita ser construida. Este es un esfuerzo minimo de 4-6 meses. Con la fecha limite de agosto de 2026 acercandose, esto debe tratarse como urgente. |
La linea temporal de agosto de 2026
Los requisitos para sistemas de alto riesgo bajo la Ley de IA de la UE aplican desde el 2 de agosto de 2026. Aqui hay una linea temporal practica para las organizaciones que evaluan su preparacion hoy.
| Plazo | Accion |
|---|---|
| Ahora (marzo 2026) | Complete este verificador de preparacion. Clasifique sus sistemas de IA. Identifique todos los elementos "No listo" y "Parcialmente listo". |
| Abril 2026 | Cree un plan de remediacion priorizado. Asigne responsables a cada brecha. Presupueste para herramientas, cambios de procesos y posible soporte externo. |
| Mayo-junio 2026 | Implemente la remediacion. Concentrese en la documentacion de gobernanza de datos (Articulo 10) y el registro automatizado (Articulo 30) como requisitos fundamentales. |
| Julio 2026 | Realice una auditoria interna contra la lista de verificacion completa. Pruebe las capacidades de registro y linaje con datos reales. |
| Agosto 2026 | Comienza la aplicacion. Mantenga el cumplimiento continuo a traves de evaluaciones regulares (se recomienda trimestralmente). |
Las organizaciones con puntuaciones de "Baja preparacion" o "No preparado" tienen aproximadamente cinco meses para alcanzar el cumplimiento. Esto es alcanzable pero requiere accion inmediata y enfoque sostenido.
Decisiones arquitectonicas que aceleran el cumplimiento
Varias decisiones de arquitectura de pipeline de datos abordan directamente multiples requisitos de la Ley de IA de la UE simultaneamente.
Pipeline visual con registro integrado. Una plataforma de pipeline donde cada etapa de procesamiento genera automaticamente registros estructurados con marcas de tiempo, identificacion del operador y registro de entrada/salida aborda los requisitos del Articulo 30 por defecto. Obtiene trazabilidad sin construir infraestructura de registro personalizada.
Procesamiento en las instalaciones. Ejecutar pipelines de datos en infraestructura local simplifica el cumplimiento del GDPR (Articulo 10(5)) al eliminar las preocupaciones de transferencia de datos transfronteriza. Tambien fortalece su posicion en la documentacion de gobernanza de datos porque el limite de datos es claro y auditable.
Redaccion de PII como etapa obligatoria del pipeline. Integrar la deteccion y redaccion de PII en el propio pipeline (en lugar de como un paso de post-procesamiento opcional) aborda el Articulo 10(5) sobre datos personales y el Articulo 10(2)(f) sobre el examen de sesgos para categorias especiales de datos. La etapa de redaccion tambien genera la documentacion necesaria para demostrar que los datos personales fueron manejados adecuadamente.
Versionado inmutable del pipeline. Cuando la configuracion de su pipeline esta versionada y cada ejecucion esta vinculada a una version especifica del pipeline, se crea la trazabilidad que requiere el Articulo 30. Si surge una pregunta sobre como se procesaron los datos hace seis meses, puede reconstruir exactamente lo que sucedio.
Mas alla de la lista de verificacion
Este verificador de preparacion cubre los requisitos especificos de pipeline de datos de los Articulos 10 y 30. El cumplimiento completo de la Ley de IA de la UE para sistemas de alto riesgo tambien requiere:
- Evaluacion de conformidad (Articulo 43)
- Sistema de gestion de riesgos (Articulo 9)
- Capacidades de supervision humana (Articulo 14)
- Precision, robustez y ciberseguridad (Articulo 15)
- Sistema de gestion de calidad (Articulo 17)
- Declaracion de conformidad de la UE (Articulo 47)
La gobernanza de datos y el registro son la base sobre la que se construyen todos los demas requisitos de cumplimiento. Sin pipelines de datos trazables y documentados, la evaluacion de conformidad y la gestion de riesgos no pueden completarse. Comience aqui, luego expanda al alcance completo de los requisitos.
La fecha limite de agosto de 2026 es fija. Su preparacion no lo es. Use este verificador para identificar donde se encuentra hoy y construir el plan para llegar a donde necesita estar.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

PII Redaction Accuracy Benchmark: Regex vs NER vs LLM vs Hybrid Pipeline
Benchmark comparing five PII redaction approaches — regex patterns, spaCy NER, transformer NER, LLM-based, and hybrid pipeline — measuring precision, recall, F1 score, speed, and false positive rates across 14 entity types.

PII Exposure Risk Scorecard: Self-Assessment for AI Pipelines
A self-assessment scorecard with 10 scored risk factors for evaluating PII and PHI exposure in your AI data pipelines. Score your risk level and identify gaps before they become incidents.

Shadow AI Audit Checklist: Find Every Unauthorized AI Tool in Your Organization
A step-by-step audit process to discover unauthorized AI tools in your organization. Covers network traffic analysis, browser extension audits, SaaS spend analysis, employee surveys, DLP reviews, and API key audits — with a 25-item checklist you can use immediately.