Back to blog
    Docling + Label Studio + Cleanlab: El Impuesto Oculto de Integración
    doclinglabel-studiocleanlabintegrationdata-preparationtool-stacksegment:enterprise

    Docling + Label Studio + Cleanlab: El Impuesto Oculto de Integración

    Lo que realmente implica unir Docling, Label Studio y Cleanlab en un pipeline funcional de preparación de datos — conversión de formatos, brechas en la auditoría y los scripts personalizados que nadie quiere mantener.

    EErtas Team·

    Docling para parseo de documentos. Label Studio para anotación. Cleanlab para puntuación de calidad. Cada uno es excelente en lo que hace. Juntos, forman un stack común de preparación de datos open-source.

    El problema no es ninguna herramienta individual — es la integración entre ellas. Las conversiones de formato, la gestión de estado compartido, las brechas en la auditoría y los scripts personalizados de Python necesarios para hacerlas funcionar juntas representan un impuesto oculto que crece con cada proyecto.

    El Stack en Teoría

    El atractivo es directo:

    Docling (IBM Research): Parsea PDFs, documentos Word y otros formatos en salida estructurada. Maneja tablas, detección de layout y OCR. Open-source, bien mantenido, 97.9% de precisión en extracción de tablas.

    Label Studio (HumanSignal): Plataforma de anotación que soporta texto, imágenes, audio y video. Interfaz web, esquemas de etiquetado personalizables, gestión de equipos. Open-source con nivel enterprise.

    Cleanlab: Puntuación de calidad de datos y detección de errores en etiquetas. Identifica ejemplos mal etiquetados, mide la calidad de datos, sugiere correcciones. Biblioteca Python.

    En teoría: parsear con Docling → etiquetar con Label Studio → verificar calidad con Cleanlab → exportar.

    En la práctica, cada flecha (→) representa días de trabajo de ingeniería.

    Los Puntos de Integración

    Docling → Label Studio

    Docling genera documentos estructurados en su propio formato (DoclingDocument). Label Studio espera datos en el formato de importación de Label Studio (JSON con mapeos de campos específicos, o texto plano/HTML).

    Lo que necesitas construir:

    • Un convertidor que transforme la salida de Docling al formato de importación de Label Studio
    • Manejo de diferentes tipos de contenido (texto extraído, tablas, imágenes) — cada uno necesita una configuración de plantilla diferente en Label Studio
    • Preservación de metadatos — la confianza de extracción de Docling, números de página y referencias al archivo fuente necesitan trasladarse a Label Studio para que los anotadores tengan contexto
    • Lógica de importación por lotes para procesar miles de documentos

    Lo que sale mal:

    • Las actualizaciones de Docling cambian el esquema de salida — tu convertidor se rompe
    • El formato enriquecido (tablas, listas, estructuras anidadas) se aplana durante la conversión
    • Los documentos grandes exceden el tamaño de tarea recomendado de Label Studio — necesitas lógica de fragmentación personalizada
    • Las referencias al archivo fuente (página 3 del documento X) se pierden durante la conversión, dificultando que los anotadores verifiquen las extracciones

    Label Studio → Cleanlab

    Label Studio exporta anotaciones en formato JSON. Cleanlab espera un DataFrame de pandas o arrays de numpy con características y etiquetas.

    Lo que necesitas construir:

    • Un pipeline de exportación que extraiga anotaciones completadas de Label Studio (vía API o exportación de archivos)
    • Un transformador que convierta el formato de anotación de Label Studio a la entrada esperada por Cleanlab
    • Manejo de anotaciones parciales (no todos los documentos pueden estar etiquetados aún)
    • Lógica para mapear las estructuras de anotación potencialmente complejas de Label Studio (etiquetas anidadas, relaciones) al formato plano de etiquetas de Cleanlab

    Lo que sale mal:

    • El formato de exportación de Label Studio varía según la plantilla de anotación utilizada
    • Los escenarios con múltiples anotadores (varias personas etiquetando el mismo documento) necesitan resolverse antes de que Cleanlab pueda procesarlos
    • Las puntuaciones de calidad de Cleanlab necesitan mapearse de vuelta a tareas específicas de Label Studio para revisión — esto requiere mantener una tabla de mapeo

    Cleanlab → Flujo de Correcciones

    Cleanlab identifica posibles errores de etiquetas y problemas de calidad. Pero las correcciones necesitan hacerse en Label Studio.

    Lo que necesitas construir:

    • Un pipeline que tome los elementos marcados por Cleanlab y cree tareas de revisión en Label Studio
    • Lógica para priorizar qué elementos marcados necesitan revisión humana (no todos los elementos de baja confianza están realmente mal)
    • Un ciclo de retroalimentación que re-ejecute Cleanlab después de las correcciones para verificar la mejora
    • Seguimiento de qué elementos han sido revisados vs. pendientes

    Lo que sale mal:

    • El viaje de ida y vuelta (exportar de LS → analizar en Cleanlab → re-importar a LS para corrección → re-exportar → re-analizar) involucra 4+ transformaciones de datos, cada una un punto potencial de fallo
    • El seguimiento de versiones es manual — ¿en qué versión de las etiquetas se ejecutó Cleanlab? ¿Las etiquetas actuales en Label Studio son las corregidas o las originales?

    La Brecha en la Auditoría

    Este es el problema de integración más consecuente, especialmente para industrias reguladas.

    Cada herramienta mantiene sus propios logs:

    • Docling: Registra eventos de parseo y calidad de extracción
    • Label Studio: Registra eventos de anotación y acciones de usuario
    • Cleanlab: Registra resultados de análisis de calidad

    Pero ninguna herramienta registra lo que ocurre entre herramientas:

    • ¿Cuándo se convirtió la salida de Docling para Label Studio?
    • ¿Qué versión del script de conversión se usó?
    • ¿Se descartaron registros durante la conversión de formato?
    • ¿Cuándo se aplicaron las correcciones de Cleanlab de vuelta a Label Studio?
    • ¿Quién aprobó el dataset final para exportación?

    Estos eventos entre herramientas son donde las auditorías se rompen. Y bajo el EU AI Act, HIPAA o GDPR, estas brechas pueden constituir violaciones de cumplimiento.

    Construir una auditoría unificada entre tres herramientas requiere:

    • Un framework de logging personalizado que envuelva cada operación entre herramientas
    • Sincronización de timestamps entre herramientas
    • Seguimiento a nivel de registro (mapeando IDs entre herramientas)
    • Una capa de agregación que presente una vista unificada de linaje

    Esto representa ~2-4 semanas de trabajo de ingeniería y mantenimiento continuo a medida que las herramientas se actualizan.

    La Carga de Mantenimiento

    Cada herramienta se actualiza independientemente:

    • Docling lanza una nueva versión → probar compatibilidad del convertidor → actualizar si es necesario
    • Label Studio se actualiza → probar pipeline de exportación → probar pipeline de importación → actualizar si es necesario
    • Cleanlab se actualiza → probar transformación de datos → actualizar si es necesario

    En promedio, espera 2-3 cambios incompatibles por año entre las tres herramientas. Cada uno toma 1-3 días para diagnosticar y corregir.

    El código de integración personalizado (convertidores, transformadores, logging de auditoría, procesamiento por lotes) también necesita mantenimiento:

    • Correcciones de errores a medida que se descubren casos extremos
    • Optimización de rendimiento a medida que los volúmenes de datos crecen
    • Actualizaciones de documentación (si la documentación existe)

    Total de mantenimiento continuo: 4-8 semanas/año de tiempo de ingeniería.

    La Alternativa

    El impuesto de integración existe porque estas herramientas fueron diseñadas independientemente. Cada una es excelente en su función específica pero no está diseñada para funcionar con las otras.

    Una plataforma unificada que maneje las tres funciones — parseo, anotación y puntuación de calidad — en un solo sistema elimina el impuesto de integración por completo. Sin conversión de formato entre etapas. Sin brechas de auditoría entre herramientas. Sin scripts convertidores que mantener.

    Ertas Data Suite toma este enfoque: Ingerir, Limpiar, Etiquetar, Aumentar y Exportar, todo funciona en la misma aplicación, compartiendo el mismo modelo de datos e infraestructura de auditoría. El resultado es cero código de integración, linaje continuo y acceso para expertos de dominio sin Docker ni Python.

    Las herramientas individuales del stack son excelentes. El impuesto está en los signos "+" entre ellas.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading