
Preparación de Pipelines de Parsing Sintético: El Enfoque 2026 para Procesamiento de Documentos
El procesamiento de documentos en 2026 ya no es trabajo de un solo modelo. Los pipelines de parsing sintético dividen documentos en partes y enrutan cada una a un modelo especializado. Así es como preparar datos para esta arquitectura.
El procesamiento de documentos solía ser trabajo de un solo modelo. Alimentabas un PDF a un motor OCR. Obtenías texto. Quizás ejecutabas un extractor de tablas aparte. Cosías las salidas manualmente.
Ese enfoque alcanzó un techo alrededor de 2024. Los documentos empresariales son demasiado complejos — una sola especificación de construcción contiene texto narrativo, presupuestos de cantidades en tablas anidadas, dibujos técnicos con dimensiones, gráficos mostrando cronogramas de proyecto, y referencias cruzadas vinculando todo entre sí. Ningún modelo individual maneja bien todos estos tipos de contenido.
El enfoque 2026 es el pipeline de parsing sintético: una arquitectura multi-etapa donde el documento se divide en componentes, cada componente se enruta a un modelo especializado, y las salidas se recombinan en una representación estructurada única. "Sintético" porque la salida final se sintetiza a partir de las contribuciones de múltiples modelos, no es producida por un solo modelo.
Este artículo se enfoca en el lado de la preparación de datos: cómo crear los datos de entrenamiento que alimentan cada etapa del pipeline.
La Arquitectura del Pipeline
Un pipeline de parsing sintético tiene cuatro etapas, y cada etapa necesita sus propios datos de entrenamiento.
Etapa 1: Detector de Layout
El detector de layout examina cada página e identifica regiones: ¿dónde está el texto? ¿Dónde están las tablas? ¿Dónde están las figuras? ¿Dónde están los encabezados y pies de página?
La salida es un conjunto de bounding boxes, cada uno etiquetado con un tipo de región: text_block, table, figure, header, footer, caption, page_number, sidebar, watermark.
Este es un problema de detección de objetos, resuelto con modelos como LayoutLMv3, DiT (Document Image Transformer), o variantes de YOLO entrenadas en layouts de documentos.
Etapa 2: Extractor de Texto
Las regiones de texto identificadas por el detector de layout se envían a la etapa de extracción de texto. Esta etapa produce texto limpio y estructurado de cada región de texto — manejando fuentes, columnas, orden de lectura y caracteres especiales.
Etapa 3: Parser de Tablas
Las regiones de tablas van a un modelo especializado de parsing de tablas que entiende la estructura de filas/columnas, celdas fusionadas, encabezados multi-nivel y tablas multi-página.
Etapa 4: Analizador de Imágenes
Las regiones de figuras van a un modelo de visión que clasifica el tipo de figura (gráfico, diagrama, foto, dibujo) y extrae información estructurada relevante.
Combinador
El combinador fusiona las salidas de todas las etapas en una representación estructurada única del documento, resolviendo referencias cruzadas y manteniendo la estructura lógica del documento.
Cada una de estas etapas puede mejorarse mediante fine-tuning con datos específicos del dominio. Así es como se ve la preparación de datos de entrenamiento para cada una.
Preparación de Datos para el Detector de Layout
Lo Que Necesitas
Páginas de documentos anotadas donde cada región ha sido identificada con un bounding box y clasificada. Esta es una tarea de anotación de detección de objetos — el mismo tipo de anotación usado para entrenar modelos YOLO en imágenes naturales, pero aplicado a páginas de documentos.
Flujo de Trabajo de Anotación
Paso 1: Selecciona páginas representativas. No anotes cada página de cada documento. Selecciona 200-500 páginas que representen la variedad completa de layouts que tu pipeline encontrará. Incluye:
- Páginas con mucho texto (reportes, narrativas)
- Páginas con muchas tablas (estados financieros, presupuestos de cantidades)
- Páginas mixtas (tablas con texto circundante y leyendas)
- Páginas de figuras (dibujos técnicos, gráficos)
- Páginas complejas (layouts multi-columna, barras laterales, elementos anidados)
Paso 2: Define categorías de región. Un conjunto práctico de categorías para documentos empresariales:
text_block: Prosa continua (párrafos, listas con viñetas)table: Datos tabulares con estructura de filas/columnasfigure: Imágenes, gráficos, dibujos, diagramasheader: Encabezados de página, encabezados de secciónfooter: Pies de página, notas al piecaption: Texto que etiqueta una figura o tablapage_number: Numeración de páginasidebar: Contenido en columnas laterales o cuadros de llamadawatermark: Texto o imágenes de fondo a ignorar
Comienza con menos categorías y agrega más solo si el pipeline necesita la distinción. Nueve categorías usualmente son suficientes para documentos empresariales.
Paso 3: Anota bounding boxes. Para cada página, dibuja bounding boxes alrededor de cada región y asigna la categoría apropiada. Usa una herramienta de anotación de bounding boxes (CVAT, LabelImg, o una plataforma que soporte anotación de detección de objetos).
Directrices clave de anotación:
- Los cuadros deben ser ajustados — mínimo relleno de espacio en blanco
- Las regiones superpuestas deben anotarse como el tipo más específico (una leyenda superpuesta a una figura obtiene un cuadro
caption, no un cuadrofigure) - Las páginas multi-columna obtienen cuadros separados por columna
- Las tablas que cruzan saltos de página obtienen un cuadro en cada página
Paso 4: Validación de calidad. Haz que un segundo anotador revise el 20% de las anotaciones. El acuerdo inter-anotador debe estar por encima del 90% en clasificación de regiones y dentro del 5% en coordenadas de bounding box.
Requisitos de Escala
Para un detector de layout ajustado a tus tipos de documentos específicos:
- Mínimo: 200 páginas anotadas. Alcanza 88-92% de precisión en clasificación de regiones.
- Recomendado: 500 páginas anotadas. Alcanza 93-96% de precisión.
- Óptimo: 1,000+ páginas anotadas. Alcanza 96-98% de precisión en tipos de documentos consistentes.
Si tus documentos usan plantillas consistentes (mismo formato de reporte, mismo layout de factura), 200 páginas a menudo son suficientes. Para colecciones heterogéneas de documentos (múltiples proveedores, múltiples formatos), apunta a 500+.
Preparación de Datos para el Extractor de Texto
Lo Que Necesitas
Texto ground truth para cada región de texto — el texto plano correcto que debe extraerse de esa región de la página.
Creación de Ground Truth
Para PDFs digitales (con capa de texto): El texto embebido del PDF puede servir como ground truth, pero necesita validación. El texto embebido a veces tiene errores de codificación, orden de lectura incorrecto o caracteres faltantes.
Proceso: Extrae texto programáticamente del PDF, revisa manualmente una muestra de 50-100 regiones, y corrige cualquier error de extracción sistemático. Si el texto embebido es consistentemente correcto (más del 98% de precisión a nivel de carácter), úsalo como ground truth. Si no, se necesita transcripción manual.
Para documentos escaneados (solo imagen): El ground truth debe crearse por transcripción humana. Esto es intensivo en mano de obra pero necesario para entrenar modelos OCR precisos en tus tipos de documentos específicos.
Estimación de tiempo: la transcripción manual de una región de texto toma 1-3 minutos dependiendo de la longitud. Para 500 páginas anotadas con un promedio de 5 regiones de texto cada una, son 2,500 regiones x 2 minutos = ~83 horas. Distribuido en un equipo, esto es 2-3 semanas de trabajo.
Para fuentes o símbolos especializados: Si tus documentos usan símbolos específicos del dominio (notación de ingeniería, fórmulas matemáticas, notación musical), asegúrate de que estén correctamente representados en el ground truth. Los modelos OCR estándar frecuentemente fallan con símbolos especializados — tu modelo ajustado puede aprenderlos, pero solo si el ground truth los incluye.
Requisitos de Escala
- Mínimo: 500 regiones de texto con ground truth
- Recomendado: 2,000 regiones de texto
- Óptimo: 5,000+ regiones de texto para máxima precisión en variedad de fuentes y layouts
Preparación de Datos para el Parser de Tablas
Lo Que Necesitas
Ground truth estructurado para cada tabla — la estructura correcta de filas/columnas con valores de celdas, información de celdas fusionadas y relaciones de encabezados.
El Desafío
El ground truth de parsing de tablas es la anotación más compleja en el pipeline. Una sola tabla requiere:
- Identificar el número de filas y columnas
- Mapear el contenido de cada celda a su posición de fila/columna
- Marcar celdas fusionadas con su extensión (por ejemplo, una celda que abarca las columnas 2-4 en la fila 1)
- Identificar filas de encabezado versus filas de datos
- Manejar encabezados anidados (estructuras de columnas multi-nivel)
- Conectar tablas multi-página
Esto es significativamente más trabajo por anotación que la transcripción de texto o el dibujo de bounding boxes.
Flujo de Trabajo de Anotación
Paso 1: Identifica tipos de tablas en tus documentos. Tipos comunes de tablas empresariales:
- Tablas simples (cuadrícula regular, sin celdas fusionadas)
- Tablas con celdas de encabezado fusionadas
- Tablas con encabezados de fila/columna anidados
- Tablas con celdas multi-línea
- Tablas que abarcan múltiples páginas
- Tablas con subtotales y totales generales
Categoriza tus tablas para asegurar cobertura en todos los tipos.
Paso 2: Define el formato de salida. El ground truth debe estar en un formato estructurado que capture todas las relaciones de la tabla. Un formato práctico:
{
"rows": 15,
"columns": 5,
"headers": [
{"text": "Item", "row": 0, "col": 0, "rowspan": 1, "colspan": 1},
{"text": "Description", "row": 0, "col": 1, "rowspan": 1, "colspan": 1},
{"text": "Specifications", "row": 0, "col": 2, "rowspan": 1, "colspan": 3}
],
"cells": [
{"text": "1.01", "row": 1, "col": 0},
{"text": "Concrete Grade 30", "row": 1, "col": 1},
...
]
}
Paso 3: Anota tablas. Para cada tabla, produce el ground truth estructurado. Usa una herramienta de anotación de tablas que soporte celdas fusionadas y encabezados multi-nivel — o exporta a una hoja de cálculo para estructuración manual.
Estimación de tiempo: las tablas simples toman 5-10 minutos cada una. Las tablas complejas con celdas fusionadas y encabezados anidados toman 15-30 minutos. Presupuesta en consecuencia.
Paso 4: Valida. Validación de ida y vuelta: renderiza el ground truth estructurado de vuelta en una tabla visual y compara contra el original. Las discrepancias indican errores de anotación.
Requisitos de Escala
El parsing de tablas requiere más datos de entrenamiento que la detección de layout debido a la complejidad estructural:
- Mínimo: 300 tablas con ground truth. Maneja estructuras de tablas simples.
- Recomendado: 1,000 tablas. Maneja celdas fusionadas y estructuras de encabezado estándar.
- Óptimo: 2,000+ tablas. Maneja encabezados anidados complejos, tablas multi-página y estructuras irregulares.
Incluye al menos 50 ejemplos de cada tipo de tabla identificado en el Paso 1.
Preparación de Datos para el Analizador de Imágenes
Lo Que Necesitas
Para cada figura, dos tipos de ground truth:
- Clasificación: ¿Qué tipo de figura es? (gráfico de barras, gráfico de líneas, diagrama de flujo, dibujo técnico, foto, mapa)
- Extracción estructurada: ¿Qué información contiene la figura?
Ground Truth de Clasificación
Clasifica cada figura en su subcategoría. Esta es una tarea sencilla de clasificación de imágenes que requiere 20-50 ejemplos por categoría.
Para documentos empresariales, categorías típicas:
- Gráfico de barras
- Gráfico de líneas
- Gráfico circular
- Diagrama de flujo
- Organigrama
- Dibujo técnico
- Plano de planta / plano de sitio
- Fotografía
- Logo / imagen decorativa
Ground Truth de Extracción
Para figuras que contienen datos (gráficos y diagramas), crea ground truth estructurado:
Gráficos: Extrae la serie de datos. Un gráfico de barras mostrando ingresos trimestrales debe producir: [{"quarter": "Q1", "revenue": 1200000}, {"quarter": "Q2", "revenue": 1450000}, ...]
Diagramas de flujo: Extrae nodos y aristas. {"nodes": ["Start", "Review", "Approve", "Reject", "End"], "edges": [["Start", "Review"], ["Review", "Approve"], ["Review", "Reject"], ...]}
Dibujos técnicos: Extrae dimensiones clave, etiquetas y anotaciones.
Estimación de tiempo: la extracción de datos de gráficos toma 3-5 minutos por gráfico. La extracción de diagramas toma 5-15 minutos dependiendo de la complejidad.
Requisitos de Escala
- Clasificación: 20-50 ejemplos por tipo de figura (150-400 total)
- Extracción de datos de gráficos: 100-300 gráficos con ground truth
- Extracción de diagramas: 50-200 diagramas con ground truth
El análisis de imágenes típicamente requiere menos datos de entrenamiento que el parsing de tablas porque los modelos de visión pre-entrenados ya entienden las estructuras de gráficos y diagramas — el fine-tuning agrega calibración específica del dominio.
Validación de Calidad de Extremo a Extremo
Después de preparar datos de entrenamiento para cada etapa, valida el pipeline completo de extremo a extremo:
Paso 1: Procesa 50 documentos reservados a través del pipeline completo.
Paso 2: Compara la salida estructurada del pipeline contra el ground truth creado manualmente para esos documentos.
Paso 3: Mide la precisión en cada etapa:
- Detección de layout: precisión de clasificación de regiones e IoU de bounding box
- Extracción de texto: precisión a nivel de carácter
- Parsing de tablas: precisión a nivel de celda
- Análisis de imágenes: precisión de clasificación y precisión de extracción
Paso 4: Identifica la etapa más débil. La etapa más débil limita la precisión de todo el pipeline. Si la detección de layout tiene 97% de precisión pero el parsing de tablas tiene 82%, mejorar los datos de entrenamiento del parsing de tablas produce el mayor ROI.
Paso 5: Itera. Agrega más datos de entrenamiento a la etapa más débil, re-entrena, re-evalúa. Repite hasta que todas las etapas cumplan tu objetivo de precisión.
Cronograma y Recursos
Para un pipeline empresarial típico procesando documentos de construcción:
| Etapa | Volumen de Anotación | Estimación de Tiempo | Personal |
|---|---|---|---|
| Detector de layout | 500 páginas | 2-3 semanas | 1-2 anotadores |
| Extractor de texto | 2,000 regiones | 2-3 semanas | 2-3 anotadores |
| Parser de tablas | 1,000 tablas | 3-4 semanas | 2 anotadores + experto de dominio |
| Analizador de imágenes | 300 figuras | 1-2 semanas | 1 anotador + experto de dominio |
| Validación de extremo a extremo | 50 documentos | 1 semana | 1 ingeniero de ML + experto de dominio |
Total: 8-12 semanas con un equipo de 3-4 personas. Las etapas pueden superponerse — la anotación del extractor de texto puede comenzar mientras la anotación del detector de layout aún está en progreso.
Ertas Data Suite soporta la preparación de datos de pipelines multi-etapa con flujos de trabajo de anotación para cada etapa — anotación de bounding box para detección de layout, transcripción de texto para extracción de texto, anotación estructurada de tablas para parsing de tablas, y clasificación de figuras para análisis de imágenes. La plataforma mantiene las relaciones entre etapas (qué regiones de texto vinieron de qué páginas, qué tablas corresponden a qué bounding boxes), proporcionando la trazabilidad de extremo a extremo que los pipelines de parsing sintético requieren.
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
Lectura Adicional
- PDF a JSONL: Construyendo un Pipeline de Preparación de Datos Empresarial — La guía práctica para convertir PDFs empresariales en datos de entrenamiento estructurados.
- Exportación Multi-Formato: Pipeline JSONL, COCO, YOLO — Cómo exportar datos de entrenamiento en el formato que cada etapa del modelo requiere.
- Ingesta Local de Documentos para AI Empresarial — Configurando ingesta de documentos on-premise que mantiene los datos dentro de tu infraestructura.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Preparing RAG Datasets vs Fine-Tuning Datasets: Different Pipelines, Same Source Data
RAG needs chunked, retrieval-optimized text. Fine-tuning needs input/output pairs. Both start from the same raw documents. Here's how to run parallel preparation pipelines from a single source.

From Ad-Hoc Data Prep to Continuous Data Ops: Building an Always-On Pipeline
Most enterprises treat data preparation as a one-time project. But AI models need fresh data continuously. Here's how to evolve from ad-hoc data prep to a continuous data operations pipeline.

Multi-Modal Document Processing: Extracting Tables, Images, and Text from a Single PDF
Enterprise PDFs contain text, tables, charts, and images — each requiring different extraction methods. Here's how synthetic parsing pipelines route each element to the right model for accurate extraction.