Informe de Benchmark de Pipelines de Datos Empresariales 2026: Comparativa de Parsing, Redaccion, Chunking y Embedding

Los equipos de IA empresarial dedican entre el 60 y el 80 por ciento del tiempo de proyecto a la preparacion de datos. El panorama de herramientas para cada etapa del pipeline (parsing, redaccion, chunking y embedding) ha madurado significativamente, pero no existe una referencia unica que evalúe estas etapas en conjunto como un flujo de trabajo integrado.

Este informe cubre esa necesidad. Evaluamos herramientas y enfoques líderes en cuatro etapas del pipeline utilizando corpus documentales estandarizados, midiendo precision, rendimiento y modos de fallo relevantes en entornos de produccion.

Metodologia

Probamos cada etapa del pipeline de forma independiente y luego como pipelines integrados. El corpus de prueba consistio en:

500 PDFs empresariales que abarcan informes financieros, contratos legales, registros medicos y documentacion tecnica
200 documentos escaneados con calidad variable (escaneos limpios a 300 DPI hasta copias degradadas a 150 DPI)
150 conjuntos de documentos multiformato (Word, PowerPoint, Excel, HTML) de archivos empresariales reales
10,000 registros sinteticos de PII en 14 tipos de entidades (SSN, correo electronico, telefono, direccion, ID medico, etc.)

Todos los benchmarks se ejecutaron en una unica estacion de trabajo (Intel i9-13900K, 64GB RAM, NVIDIA RTX 4090) para proporcionar una linea base consistente. Las cifras de rendimiento reflejan el desempeno de una sola maquina, no procesamiento distribuido.

Etapa 1: Parsing de Documentos

El parsing de documentos convierte archivos sin procesar en texto estructurado adecuado para el procesamiento de IA posterior. Evaluamos cuatro enfoques.

Resultados del Benchmark de Parsing

Herramienta	Extraccion de Tablas	Multi-Columna	PDF Escaneado (OCR)	Eliminacion de Encabezados/Pies	Velocidad (paginas/seg)	Licencia
Docling (IBM)	97.9%	94.2%	89.1%	91.3%	3.2	MIT
Unstructured.io	93.4%	91.8%	86.7%	88.5%	4.8	Apache 2.0
Marker (Datalab)	91.7%	96.1%	84.3%	85.9%	6.1	GPL-3.0
Visual Pipeline (Ertas)	97.9%	94.2%	91.4%	93.7%	2.9	Propietaria

Hallazgos clave:

Docling lidera en precision de extraccion de tablas con un 97.9%, confirmado por los benchmarks publicados de IBM Research en el dataset DocLayNet. Ertas integra Docling como su motor de parsing de PDF, heredando esta precision y agregando nodos de pre y post-procesamiento para la eliminacion de encabezados/pies de pagina y puntuacion de calidad.
Marker es el parser mas rapido pero sacrifica precision por velocidad, particularmente en documentos escaneados donde la calidad del OCR se degrada.
Unstructured.io ofrece el soporte mas amplio de formatos de archivo (mas de 64 tipos) pero su precision en extraccion de tablas queda por detras de Docling en aproximadamente 4.5 puntos porcentuales.
La precision en PDFs escaneados es la metrica mas variable en todas las herramientas. La calidad del OCR depende en gran medida de la resolucion del escaneo, y ninguna herramienta supera consistentemente el 92% de precision en escaneos degradados por debajo de 200 DPI.

Donde Falla el Parsing

Los fallos de parsing mas comunes en todas las herramientas fueron:

Tablas anidadas — las tablas dentro de tablas causaron errores de extraccion en el 15 al 30 por ciento de los casos en todas las herramientas
Texto rotado y marcas de agua — todas las herramientas tuvieron dificultades con texto en orientaciones no estandar
Campos de formulario en PDFs escaneados — la extraccion de casillas de verificacion y botones de opcion fue poco confiable en general

Etapa 2: Redaccion de PII

La redaccion de PII es la etapa critica para el cumplimiento normativo. Probamos cinco enfoques contra un corpus de 10,000 instancias de PII anotadas.

Resultados del Benchmark de Redaccion

Enfoque	Precision	Recall	Puntuacion F1	Velocidad (docs/seg)	Tasa de Falsos Positivos
Patrones Regex	99.1%	72.4%	83.9%	145	0.9%
spaCy NER (en_core_web_trf)	91.3%	88.7%	89.9%	42	8.7%
Transformer NER (GLiNER)	94.8%	93.1%	93.9%	18	5.2%
Basado en LLM (clase GPT-4)	96.2%	95.8%	96.0%	2.1	3.8%
Pipeline Hibrido (Ertas)	97.4%	96.1%	96.7%	28	2.6%

Hallazgos clave:

Regex es el enfoque mas rapido y preciso, pero su recall es inaceptablemente bajo para uso empresarial: falla en detectar casi el 28% de las instancias de PII, principalmente nombres, referencias contextuales y formatos no estandar.
La redaccion basada en LLM alcanza la mayor precision individual pero es 14 veces mas lenta que transformer NER e introduce preocupaciones de transferencia de datos al usar modelos alojados en la nube.
Los enfoques hibridos que combinan regex para patrones estructurados (SSN, telefono, correo electronico) con transformer NER para entidades contextuales (nombres, direcciones, terminos medicos) logran el mejor equilibrio entre precision y rendimiento. Ertas utiliza este enfoque hibrido, ejecutando regex deterministico primero y luego transformer NER para los tipos de entidades restantes.
Las tasas de falsos positivos importan en produccion. Una tasa de falsos positivos del 8.7% (spaCy) significa que casi uno de cada once elementos marcados no es realmente PII, creando carga de revision para los equipos de cumplimiento.

Para un desglose detallado de cada enfoque de redaccion, consulte nuestro articulo complementario sobre benchmarks de precision de redaccion de PII.

Etapa 3: Estrategias de Chunking

El chunking determina como se dividen los documentos parseados para embedding y recuperacion. Evaluamos cuatro estrategias en un benchmark de recuperacion RAG usando 500 documentos empresariales con 2,000 pares de pregunta-respuesta anotados manualmente.

Resultados del Benchmark de Chunking

Estrategia	Precision de Recuperacion (Top-5)	Tamano Promedio de Chunk	Coherencia de Contexto	Complejidad de Implementacion
Tamano Fijo (512 tokens)	71.3%	512 tokens	Baja	Trivial
Caracter Recursivo	78.9%	380 tokens	Media	Baja
Semantico (basado en embedding)	84.2%	290 tokens	Alta	Media
Consciente del Documento (encabezado + semantico)	87.6%	340 tokens	Alta	Alta

Hallazgos clave:

El chunking de tamano fijo sigue siendo comun en sistemas de produccion pero consistentemente tiene un rendimiento inferior a otros enfoques. Divide a mitad de oracion y a mitad de parrafo, destruyendo el contexto del que depende la recuperacion.
El chunking semantico (dividiendo en puntos donde la similitud de embedding cae) mejora la precision de recuperacion en 13 puntos porcentuales sobre el tamano fijo, pero requiere una pasada de embedding durante el chunking, lo que agrega sobrecarga computacional.
El chunking consciente del documento que respeta la estructura del documento (encabezados, secciones, limites de listas) y luego aplica division semantica dentro de las secciones logra la mayor precision de recuperacion. El nodo RAG Chunker de Ertas implementa este enfoque, utilizando la estructura del documento parseado del nodo parser anterior.
La superposicion importa. Agregar entre un 10 y un 15 por ciento de superposicion de tokens entre chunks mejoro la precision de recuperacion entre 3 y 5 puntos porcentuales en todas las estrategias, a costa de un mayor tamano de indice.

Etapa 4: Rendimiento de Embedding

El embedding convierte chunks de texto en vectores para busqueda por similitud. Evaluamos modelos de embedding comunes en rendimiento y calidad de recuperacion.

Resultados del Benchmark de Embedding

Modelo	Dimensiones	Puntuacion MTEB	Rendimiento (chunks/seg, GPU)	Rendimiento (chunks/seg, CPU)	Tamano del Modelo
text-embedding-3-small (OpenAI)	1536	62.3	N/A (API)	N/A (API)	Nube
text-embedding-3-large (OpenAI)	3072	64.6	N/A (API)	N/A (API)	Nube
BGE-M3 (BAAI)	1024	68.2	320	24	567MB
E5-Mistral-7B-Instruct	4096	66.6	85	3.1	14GB
nomic-embed-text-v1.5	768	62.3	480	38	137MB

Hallazgos clave:

Para despliegues on-premise, BGE-M3 ofrece la mejor relacion calidad-tamano, logrando la puntuacion MTEB mas alta entre los modelos ejecutables localmente mientras permanece lo suficientemente pequeno para inferencia en CPU con un rendimiento aceptable.
nomic-embed-text-v1.5 es el campeon de velocidad para despliegue local. Con 137MB, se ejecuta eficientemente en CPU y proporciona una calidad de recuperacion adecuada para muchos casos de uso empresariales.
Los modelos de embedding de OpenAI requieren transferencia de datos a APIs en la nube, lo que los descalifica para casos de uso en industrias reguladas donde los documentos deben permanecer on-premise.
El nodo de Embedding de Ertas soporta multiples modelos de embedding locales, permitiendo a los equipos seleccionar el equilibrio adecuado entre calidad y rendimiento para sus restricciones de despliegue. Para entornos air-gapped, todo el procesamiento permanece en la maquina local.

Rendimiento del Pipeline Integrado

Ejecutar estas etapas de forma aislada cuenta solo una parte de la historia. En produccion, los fallos se acumulan a traves de las etapas: un error de parsing se propaga a traves del chunking y el embedding, degradando la calidad de recuperacion posterior.

Medimos la precision del pipeline de extremo a extremo ejecutando la secuencia completa (parsear, redactar, dividir en chunks, generar embeddings, recuperar) en nuestro corpus de 500 documentos con 2,000 pares de preguntas y respuestas.

Resultados del Pipeline de Extremo a Extremo

Configuracion del Pipeline	Precision de Recuperacion de Extremo a Extremo	Tasa de Fuga de PII	Rendimiento (docs/hora)
Docling + Regex + Chunk Fijo + BGE-M3	63.8%	0.41%	890
Unstructured + spaCy + Recursivo + nomic	68.2%	0.18%	720
Marker + GLiNER + Semantico + BGE-M3	72.1%	0.09%	410
Ertas Visual Pipeline (Docling + Hibrido + Doc-Aware + BGE-M3)	79.4%	0.04%	520

Hallazgos clave:

La precision de extremo a extremo siempre es inferior a la precision de cada etapa individual, confirmando que la propagacion de errores es una preocupacion real en pipelines de multiples etapas.
El pipeline de mayor rendimiento (Docling + Regex + Chunk Fijo) tuvo la peor precision de recuperacion y la mayor tasa de fuga de PII, demostrando el costo de optimizar solo por velocidad.
El pipeline integrado de Ertas logro la mayor precision de extremo a extremo porque la arquitectura de pipeline visual permite que cada nodo pase metadatos estructurados (secciones del documento, ubicaciones de entidades, puntuaciones de calidad) a los nodos posteriores, informacion que se pierde al unir herramientas independientes.
La tasa de fuga de PII (instancias de PII que sobreviven la redaccion y aparecen en la salida de recuperacion final) oscilo entre 0.04% y 0.41%. Para industrias reguladas, incluso 0.41% puede ser inaceptable.

Recomendaciones

Basandonos en estos benchmarks, recomendamos lo siguiente para equipos empresariales que construyen pipelines de datos para IA:

No optimice por velocidad de parsing a expensas de la precision. El costo posterior de los errores de parsing supera con creces el tiempo ahorrado. La precision de extraccion de tablas de Docling (97.9%) vale la pena frente al compromiso de rendimiento.
Use redaccion de PII hibrida. Regex puro es rapido pero falla demasiado. LLM puro es preciso pero lento e introduce riesgo de transferencia de datos. Un enfoque hibrido (regex para patrones estructurados, transformer NER para entidades contextuales) ofrece el mejor compromiso de produccion.
Invierta en chunking consciente del documento. El chunking de tamano fijo es facil de implementar pero deja 16 puntos porcentuales de precision de recuperacion sin aprovechar en comparacion con enfoques conscientes del documento.
Elija modelos de embedding locales para cargas de trabajo reguladas. BGE-M3 y nomic-embed-text-v1.5 proporcionan embeddings de calidad de produccion sin requerir llamadas a APIs en la nube ni transferencia de datos.
Mida de extremo a extremo, no por etapa. Los benchmarks individuales por etapa pueden ser enganosos. Un pipeline que obtiene buenas puntuaciones en cada etapa individualmente puede aun tener un rendimiento inferior si las transferencias entre etapas pierden metadatos o contexto.

Notas Metodologicas

Todos los numeros de precision son promedios del corpus de prueba completo. La varianza por tipo de documento fue significativa (los documentos financieros se parsearon con mayor precision que los registros medicos en todas las herramientas).
Las mediciones de velocidad excluyen el tiempo de E/S y reflejan el rendimiento puro de procesamiento.
Los benchmarks de redaccion de PII utilizaron los 14 tipos de entidades definidos en el estandar de desidentificacion NIST SP 800-188.
La precision de recuperacion se midio como recall en los top-5 chunks recuperados contra pasajes relevantes anotados manualmente.
Los benchmarks de Ertas reflejan la version 0.9 de la aplicacion de escritorio Data Suite ejecutandose localmente. No se involucro procesamiento en la nube.

Este informe se actualizara trimestralmente a medida que las herramientas lancen nuevas versiones y el corpus de benchmark se expanda. Los equipos interesados en reproducir estos benchmarks pueden contactarnos para acceder a la documentacion de la metodologia de prueba.

Informe de Benchmark de Pipelines de Datos Empresariales 2026: Comparativa de Parsing, Redaccion, Chunking y Embedding

Metodologia

Etapa 1: Parsing de Documentos

Resultados del Benchmark de Parsing

Donde Falla el Parsing

Etapa 2: Redaccion de PII

Resultados del Benchmark de Redaccion

Etapa 3: Estrategias de Chunking

Resultados del Benchmark de Chunking

Etapa 4: Rendimiento de Embedding

Resultados del Benchmark de Embedding

Rendimiento del Pipeline Integrado

Resultados del Pipeline de Extremo a Extremo

Recomendaciones

Notas Metodologicas

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

PII Redaction Accuracy Benchmark: Regex vs NER vs LLM vs Hybrid Pipeline

PDF Parsing Accuracy Benchmark: Docling vs Unstructured vs Marker vs Visual Pipeline

RAG Chunking Strategy Benchmark: Fixed-Size vs Semantic vs Document-Aware