
Los 5 niveles de madurez de datos de IA (y dónde se quedan atascadas la mayoría de las empresas)
Un modelo de madurez práctico para la preparación de datos de IA — desde archivos sin estructurar hasta datasets gobernados, versionados y listos para auditoría. La mayoría de las empresas están atascadas en el Nivel 1-2.
No todos los datos empresariales están igualmente listos para la IA. Algunas organizaciones tienen datasets limpios, etiquetados y versionados con pistas de auditoría completas. La mayoría tiene terabytes de PDFs en un servidor de archivos.
Este modelo de madurez proporciona un marco para evaluar dónde se encuentra tu organización y qué se necesita para avanzar al siguiente nivel. Basado en patrones de adopción de IA empresarial, la mayoría de las organizaciones están atascadas en el Nivel 1 o 2 — y el salto al Nivel 3 es donde los proyectos se estancan con más frecuencia.
Nivel 1: Crudo
Estado: Archivos sin estructurar en almacenamiento. PDFs, documentos de Word, correos electrónicos, papel escaneado, imágenes, hojas de cálculo — acumulados durante años o décadas sin ninguna organización específica para IA.
Características:
- Los datos viven en servidores de archivos, SharePoint, archivos de correo electrónico o almacenamiento físico
- No hay inventario de qué existe, en qué formato o en qué condición
- La variedad de formatos es extrema (docenas de tipos de archivo en diferentes departamentos)
- Duplicación significativa entre ubicaciones de almacenamiento
- No se ha realizado ninguna evaluación de calidad
Capacidad de IA a este nivel: Ninguna. Los datos crudos no se pueden usar para entrenamiento de modelos.
Lo que la mayoría de las empresas tiene: Mucha data de Nivel 1. La estimación de IBM/MIT de que el 80-90% de los datos empresariales no están estructurados se refiere principalmente a este nivel.
Lo que se necesita para avanzar: Inventario de datos y evaluación de formatos. Necesitas saber qué tienes antes de poder procesarlo.
Nivel 2: Catalogado
Estado: Los datos han sido inventariados. Sabes qué tipos de documentos existen, aproximadamente cuántos, en qué formatos y dónde están almacenados. Pero el contenido no ha sido extraído ni procesado.
Características:
- Existe un inventario de datos (tipos de documentos, volúmenes, ubicaciones)
- Algunos metadatos están disponibles (fechas, autores, tamaños de archivo)
- La distribución de formatos se entiende (X% PDF, Y% Excel, Z% escaneados)
- La calidad de los datos ha sido muestreada pero no evaluada sistemáticamente
- No se ha realizado extracción ni parsing
Capacidad de IA a este nivel: Mínima. Puedes tomar decisiones informadas sobre qué datos priorizar, pero aún no puedes entrenar modelos.
Lo que la mayoría de las empresas logra después de una evaluación inicial: Nivel 2. Saben lo que tienen pero no han empezado a procesarlo.
Lo que se necesita para avanzar: Pipeline de ingestión. OCR, detección de layout, extracción de tablas, parsing de formatos — convertir archivos sin estructurar en contenido extraído y buscable.
Nivel 3: Estructurado
Estado: El contenido ha sido extraído de los archivos crudos. El texto está parseado, las tablas están extraídas, las imágenes están catalogadas. Los datos son buscables y procesables — pero aún no están etiquetados ni anotados para casos de uso específicos de IA.
Características:
- Los documentos han sido ingeridos a través de OCR y parsing
- El texto está extraído y es buscable
- Las tablas están identificadas y estructuradas
- Se ha realizado limpieza básica (deduplicación, puntuación de calidad)
- Se puede haber ejecutado detección de PII/PHI
- Los datos están en formatos procesables (JSON, texto, registros estructurados)
Capacidad de IA a este nivel: Limitada. Puedes construir sistemas básicos de búsqueda/recuperación (RAG) usando el texto extraído. Pero los modelos supervisados (clasificación, extracción, generación) requieren datos etiquetados — que el Nivel 3 no tiene.
La trampa del Nivel 3: Muchos equipos se detienen aquí porque el RAG básico da la impresión de progreso. Pero el RAG sobre datos no curados y sin etiquetar tiene techos de calidad que los modelos ajustados con datos etiquetados no tienen.
Lo que se necesita para avanzar: Infraestructura de etiquetado. Los expertos de dominio necesitan herramientas para anotar los datos estructurados con categorías, entidades y evaluaciones de calidad específicas para el caso de uso de IA.
Nivel 4: Etiquetado
Estado: Los datos estructurados han sido anotados por expertos de dominio con las categorías, entidades o valores necesarios para aplicaciones específicas de IA. Existen datasets de entrenamiento y pueden usarse para ajustar o entrenar modelos.
Características:
- Esquema de etiquetado definido para los casos de uso objetivo de IA
- Los expertos de dominio han anotado los datos (no solo ingenieros de ML)
- Se ha medido el acuerdo inter-anotador
- Se ha realizado revisión de calidad
- Existen divisiones de entrenamiento, validación y prueba
- Los formatos de exportación coinciden con los requisitos del modelo (JSONL, COCO, etc.)
Capacidad de IA a este nivel: Fuerte. Puedes ajustar modelos, entrenar clasificadores y construir pipelines de extracción. Los datos etiquetados son la señal de entrenamiento que hace posible la IA específica de dominio.
Lo que la mayoría de los proyectos de IA necesitan: Datos de Nivel 4. Este es el nivel mínimo viable para la mayoría de las aplicaciones supervisadas de IA.
Lo que se necesita para avanzar: Infraestructura de gobernanza. Control de versiones, pistas de auditoría, documentación de cumplimiento y procesos de mantenimiento continuo.
Nivel 5: Gobernado
Estado: Los datasets etiquetados están versionados, son auditables y se mantienen continuamente. Existe una trazabilidad completa de datos desde la fuente hasta los datos de entrenamiento. La documentación de cumplimiento se genera automáticamente. La organización trata los datos de entrenamiento de IA como un activo gestionado, no como un resultado de proyecto único.
Características:
- Versionado de datasets con capacidad de diff (qué cambió entre versiones)
- Trazabilidad completa de datos (cualquier registro de entrenamiento rastreable hasta el documento fuente)
- Pista de auditoría para cada transformación y decisión de etiquetado
- Examen de sesgos documentado y repetible
- Documentación de cumplimiento exportable (EU AI Act, HIPAA, GDPR)
- Monitoreo continuo de deriva de datos y degradación de calidad
- Procesos definidos para actualizaciones de datasets y disparadores de reentrenamiento
Capacidad de IA a este nivel: Completa. Puedes desplegar IA con confianza, demostrar cumplimiento, depurar problemas rastreándolos hasta los datos de entrenamiento y mejorar continuamente los modelos con datos actualizados.
Lo que las industrias reguladas necesitan: Nivel 5. El EU AI Act, HIPAA y GDPR colectivamente requieren las capacidades de gobernanza descritas aquí. Las empresas en salud, legal, finanzas y gobierno no pueden desplegar IA de alto riesgo de manera responsable con nada menos.
Dónde se quedan atascadas la mayoría de las empresas
La transición del Nivel 1 al 2 (Evaluación)
Bloqueador: Nadie es dueño de la evaluación. Queda entre TI, ingeniería de datos y las unidades de negocio. Solución: Asigna un líder de preparación de datos — una persona responsable del inventario.
La transición del Nivel 2 al 3 (Ingestión)
Bloqueador: Diversidad de formatos. Las empresas tienen docenas de tipos de documentos en diferentes departamentos, y ninguna herramienta de parsing los maneja todos. Solución: Comienza con un tipo de documento para un caso de uso. No intentes ingerir todo a la vez.
La transición del Nivel 3 al 4 (Etiquetado)
Bloqueador: Disponibilidad de expertos de dominio. Las personas que pueden etiquetar datos (doctores, abogados, ingenieros, contadores) tienen trabajos de tiempo completo. Las herramientas de etiquetado requieren Python. Los ingenieros de ML se convierten en el cuello de botella. Solución: Usa herramientas de etiquetado accesibles para expertos de dominio — aplicaciones de escritorio con interfaces sin código. Asigna tiempo dedicado de etiquetado (es tan importante como cualquier otra tarea del proyecto).
La transición del Nivel 4 al 5 (Gobernanza)
Bloqueador: Tratar la preparación de datos como una actividad de una sola vez. Los equipos construyen un dataset, entrenan un modelo y siguen adelante — sin establecer procesos para control de versiones, monitoreo o actualizaciones. Solución: Incorpora la gobernanza en la arquitectura del pipeline desde el principio. Usa plataformas que generen pistas de auditoría e historial de versiones automáticamente.
Evaluando tu nivel
Haz estas preguntas:
- ¿Sabes qué datos tienes? → Si no: Nivel 1
- ¿Se han parseado y extraído los datos? → Si no: Nivel 2
- ¿Se ha realizado etiquetado específico de dominio? → Si no: Nivel 3
- ¿Los datasets están versionados y son auditables? → Si no: Nivel 4
- ¿Todo lo anterior? → Nivel 5
La mayoría de las empresas descubren que están en el Nivel 1-2 para la mayor parte de sus datos. El camino al Nivel 4-5 es para lo que están construidas las plataformas de preparación de datos como Ertas Data Suite — llevar datos empresariales crudos a través del pipeline completo hasta datasets gobernados y listos para IA, con cada paso registrado y cada cadena de trazabilidad preservada.
Avanzar cada nivel toma tiempo e inversión. Pero la alternativa — construir IA sobre datos no preparados — produce modelos que no funcionan, no se pueden depurar y no pasan la revisión regulatoria.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

EU AI Act Training Data Compliance: The Complete Guide (2026)
Everything enterprises need to know about EU AI Act training data requirements — data quality, bias testing, documentation mandates, and the August 2026 deadline.

EU AI Act Compliance Timeline: What's Due by August 2026
A clear timeline of EU AI Act enforcement dates, what's already in effect, what's coming in August 2026, and what enterprises need to have in place for training data compliance.

Data Lineage Is Now a Legal Requirement — Are You Ready?
The EU AI Act makes data lineage mandatory for high-risk AI systems. Most enterprise pipelines have lineage gaps at every tool boundary. Here's what needs to change.