Back to blog
    Informe de Benchmark de Pipelines de Datos Empresariales 2026: Comparativa de Parsing, Redaccion, Chunking y Embedding
    benchmarkdata-pipelineenterpriseparsingpii-redactionchunkingembeddingsegment:enterprise

    Informe de Benchmark de Pipelines de Datos Empresariales 2026: Comparativa de Parsing, Redaccion, Chunking y Embedding

    Un benchmark integral que compara enfoques de pipelines de datos empresariales en precision de parsing de documentos, fiabilidad de redaccion de PII, estrategias de chunking y rendimiento de embedding, con metodologia, resultados y hallazgos clave para equipos de ingenieria ML.

    EErtas Team·

    Los equipos de IA empresarial dedican entre el 60 y el 80 por ciento del tiempo de proyecto a la preparacion de datos. El panorama de herramientas para cada etapa del pipeline (parsing, redaccion, chunking y embedding) ha madurado significativamente, pero no existe una referencia unica que evalúe estas etapas en conjunto como un flujo de trabajo integrado.

    Este informe cubre esa necesidad. Evaluamos herramientas y enfoques líderes en cuatro etapas del pipeline utilizando corpus documentales estandarizados, midiendo precision, rendimiento y modos de fallo relevantes en entornos de produccion.

    Metodologia

    Probamos cada etapa del pipeline de forma independiente y luego como pipelines integrados. El corpus de prueba consistio en:

    • 500 PDFs empresariales que abarcan informes financieros, contratos legales, registros medicos y documentacion tecnica
    • 200 documentos escaneados con calidad variable (escaneos limpios a 300 DPI hasta copias degradadas a 150 DPI)
    • 150 conjuntos de documentos multiformato (Word, PowerPoint, Excel, HTML) de archivos empresariales reales
    • 10,000 registros sinteticos de PII en 14 tipos de entidades (SSN, correo electronico, telefono, direccion, ID medico, etc.)

    Todos los benchmarks se ejecutaron en una unica estacion de trabajo (Intel i9-13900K, 64GB RAM, NVIDIA RTX 4090) para proporcionar una linea base consistente. Las cifras de rendimiento reflejan el desempeno de una sola maquina, no procesamiento distribuido.

    Etapa 1: Parsing de Documentos

    El parsing de documentos convierte archivos sin procesar en texto estructurado adecuado para el procesamiento de IA posterior. Evaluamos cuatro enfoques.

    Resultados del Benchmark de Parsing

    HerramientaExtraccion de TablasMulti-ColumnaPDF Escaneado (OCR)Eliminacion de Encabezados/PiesVelocidad (paginas/seg)Licencia
    Docling (IBM)97.9%94.2%89.1%91.3%3.2MIT
    Unstructured.io93.4%91.8%86.7%88.5%4.8Apache 2.0
    Marker (Datalab)91.7%96.1%84.3%85.9%6.1GPL-3.0
    Visual Pipeline (Ertas)97.9%94.2%91.4%93.7%2.9Propietaria

    Hallazgos clave:

    • Docling lidera en precision de extraccion de tablas con un 97.9%, confirmado por los benchmarks publicados de IBM Research en el dataset DocLayNet. Ertas integra Docling como su motor de parsing de PDF, heredando esta precision y agregando nodos de pre y post-procesamiento para la eliminacion de encabezados/pies de pagina y puntuacion de calidad.
    • Marker es el parser mas rapido pero sacrifica precision por velocidad, particularmente en documentos escaneados donde la calidad del OCR se degrada.
    • Unstructured.io ofrece el soporte mas amplio de formatos de archivo (mas de 64 tipos) pero su precision en extraccion de tablas queda por detras de Docling en aproximadamente 4.5 puntos porcentuales.
    • La precision en PDFs escaneados es la metrica mas variable en todas las herramientas. La calidad del OCR depende en gran medida de la resolucion del escaneo, y ninguna herramienta supera consistentemente el 92% de precision en escaneos degradados por debajo de 200 DPI.

    Donde Falla el Parsing

    Los fallos de parsing mas comunes en todas las herramientas fueron:

    1. Tablas anidadas — las tablas dentro de tablas causaron errores de extraccion en el 15 al 30 por ciento de los casos en todas las herramientas
    2. Texto rotado y marcas de agua — todas las herramientas tuvieron dificultades con texto en orientaciones no estandar
    3. Campos de formulario en PDFs escaneados — la extraccion de casillas de verificacion y botones de opcion fue poco confiable en general

    Etapa 2: Redaccion de PII

    La redaccion de PII es la etapa critica para el cumplimiento normativo. Probamos cinco enfoques contra un corpus de 10,000 instancias de PII anotadas.

    Resultados del Benchmark de Redaccion

    EnfoquePrecisionRecallPuntuacion F1Velocidad (docs/seg)Tasa de Falsos Positivos
    Patrones Regex99.1%72.4%83.9%1450.9%
    spaCy NER (en_core_web_trf)91.3%88.7%89.9%428.7%
    Transformer NER (GLiNER)94.8%93.1%93.9%185.2%
    Basado en LLM (clase GPT-4)96.2%95.8%96.0%2.13.8%
    Pipeline Hibrido (Ertas)97.4%96.1%96.7%282.6%

    Hallazgos clave:

    • Regex es el enfoque mas rapido y preciso, pero su recall es inaceptablemente bajo para uso empresarial: falla en detectar casi el 28% de las instancias de PII, principalmente nombres, referencias contextuales y formatos no estandar.
    • La redaccion basada en LLM alcanza la mayor precision individual pero es 14 veces mas lenta que transformer NER e introduce preocupaciones de transferencia de datos al usar modelos alojados en la nube.
    • Los enfoques hibridos que combinan regex para patrones estructurados (SSN, telefono, correo electronico) con transformer NER para entidades contextuales (nombres, direcciones, terminos medicos) logran el mejor equilibrio entre precision y rendimiento. Ertas utiliza este enfoque hibrido, ejecutando regex deterministico primero y luego transformer NER para los tipos de entidades restantes.
    • Las tasas de falsos positivos importan en produccion. Una tasa de falsos positivos del 8.7% (spaCy) significa que casi uno de cada once elementos marcados no es realmente PII, creando carga de revision para los equipos de cumplimiento.

    Para un desglose detallado de cada enfoque de redaccion, consulte nuestro articulo complementario sobre benchmarks de precision de redaccion de PII.

    Etapa 3: Estrategias de Chunking

    El chunking determina como se dividen los documentos parseados para embedding y recuperacion. Evaluamos cuatro estrategias en un benchmark de recuperacion RAG usando 500 documentos empresariales con 2,000 pares de pregunta-respuesta anotados manualmente.

    Resultados del Benchmark de Chunking

    EstrategiaPrecision de Recuperacion (Top-5)Tamano Promedio de ChunkCoherencia de ContextoComplejidad de Implementacion
    Tamano Fijo (512 tokens)71.3%512 tokensBajaTrivial
    Caracter Recursivo78.9%380 tokensMediaBaja
    Semantico (basado en embedding)84.2%290 tokensAltaMedia
    Consciente del Documento (encabezado + semantico)87.6%340 tokensAltaAlta

    Hallazgos clave:

    • El chunking de tamano fijo sigue siendo comun en sistemas de produccion pero consistentemente tiene un rendimiento inferior a otros enfoques. Divide a mitad de oracion y a mitad de parrafo, destruyendo el contexto del que depende la recuperacion.
    • El chunking semantico (dividiendo en puntos donde la similitud de embedding cae) mejora la precision de recuperacion en 13 puntos porcentuales sobre el tamano fijo, pero requiere una pasada de embedding durante el chunking, lo que agrega sobrecarga computacional.
    • El chunking consciente del documento que respeta la estructura del documento (encabezados, secciones, limites de listas) y luego aplica division semantica dentro de las secciones logra la mayor precision de recuperacion. El nodo RAG Chunker de Ertas implementa este enfoque, utilizando la estructura del documento parseado del nodo parser anterior.
    • La superposicion importa. Agregar entre un 10 y un 15 por ciento de superposicion de tokens entre chunks mejoro la precision de recuperacion entre 3 y 5 puntos porcentuales en todas las estrategias, a costa de un mayor tamano de indice.

    Etapa 4: Rendimiento de Embedding

    El embedding convierte chunks de texto en vectores para busqueda por similitud. Evaluamos modelos de embedding comunes en rendimiento y calidad de recuperacion.

    Resultados del Benchmark de Embedding

    ModeloDimensionesPuntuacion MTEBRendimiento (chunks/seg, GPU)Rendimiento (chunks/seg, CPU)Tamano del Modelo
    text-embedding-3-small (OpenAI)153662.3N/A (API)N/A (API)Nube
    text-embedding-3-large (OpenAI)307264.6N/A (API)N/A (API)Nube
    BGE-M3 (BAAI)102468.232024567MB
    E5-Mistral-7B-Instruct409666.6853.114GB
    nomic-embed-text-v1.576862.348038137MB

    Hallazgos clave:

    • Para despliegues on-premise, BGE-M3 ofrece la mejor relacion calidad-tamano, logrando la puntuacion MTEB mas alta entre los modelos ejecutables localmente mientras permanece lo suficientemente pequeno para inferencia en CPU con un rendimiento aceptable.
    • nomic-embed-text-v1.5 es el campeon de velocidad para despliegue local. Con 137MB, se ejecuta eficientemente en CPU y proporciona una calidad de recuperacion adecuada para muchos casos de uso empresariales.
    • Los modelos de embedding de OpenAI requieren transferencia de datos a APIs en la nube, lo que los descalifica para casos de uso en industrias reguladas donde los documentos deben permanecer on-premise.
    • El nodo de Embedding de Ertas soporta multiples modelos de embedding locales, permitiendo a los equipos seleccionar el equilibrio adecuado entre calidad y rendimiento para sus restricciones de despliegue. Para entornos air-gapped, todo el procesamiento permanece en la maquina local.

    Rendimiento del Pipeline Integrado

    Ejecutar estas etapas de forma aislada cuenta solo una parte de la historia. En produccion, los fallos se acumulan a traves de las etapas: un error de parsing se propaga a traves del chunking y el embedding, degradando la calidad de recuperacion posterior.

    Medimos la precision del pipeline de extremo a extremo ejecutando la secuencia completa (parsear, redactar, dividir en chunks, generar embeddings, recuperar) en nuestro corpus de 500 documentos con 2,000 pares de preguntas y respuestas.

    Resultados del Pipeline de Extremo a Extremo

    Configuracion del PipelinePrecision de Recuperacion de Extremo a ExtremoTasa de Fuga de PIIRendimiento (docs/hora)
    Docling + Regex + Chunk Fijo + BGE-M363.8%0.41%890
    Unstructured + spaCy + Recursivo + nomic68.2%0.18%720
    Marker + GLiNER + Semantico + BGE-M372.1%0.09%410
    Ertas Visual Pipeline (Docling + Hibrido + Doc-Aware + BGE-M3)79.4%0.04%520

    Hallazgos clave:

    • La precision de extremo a extremo siempre es inferior a la precision de cada etapa individual, confirmando que la propagacion de errores es una preocupacion real en pipelines de multiples etapas.
    • El pipeline de mayor rendimiento (Docling + Regex + Chunk Fijo) tuvo la peor precision de recuperacion y la mayor tasa de fuga de PII, demostrando el costo de optimizar solo por velocidad.
    • El pipeline integrado de Ertas logro la mayor precision de extremo a extremo porque la arquitectura de pipeline visual permite que cada nodo pase metadatos estructurados (secciones del documento, ubicaciones de entidades, puntuaciones de calidad) a los nodos posteriores, informacion que se pierde al unir herramientas independientes.
    • La tasa de fuga de PII (instancias de PII que sobreviven la redaccion y aparecen en la salida de recuperacion final) oscilo entre 0.04% y 0.41%. Para industrias reguladas, incluso 0.41% puede ser inaceptable.

    Recomendaciones

    Basandonos en estos benchmarks, recomendamos lo siguiente para equipos empresariales que construyen pipelines de datos para IA:

    1. No optimice por velocidad de parsing a expensas de la precision. El costo posterior de los errores de parsing supera con creces el tiempo ahorrado. La precision de extraccion de tablas de Docling (97.9%) vale la pena frente al compromiso de rendimiento.

    2. Use redaccion de PII hibrida. Regex puro es rapido pero falla demasiado. LLM puro es preciso pero lento e introduce riesgo de transferencia de datos. Un enfoque hibrido (regex para patrones estructurados, transformer NER para entidades contextuales) ofrece el mejor compromiso de produccion.

    3. Invierta en chunking consciente del documento. El chunking de tamano fijo es facil de implementar pero deja 16 puntos porcentuales de precision de recuperacion sin aprovechar en comparacion con enfoques conscientes del documento.

    4. Elija modelos de embedding locales para cargas de trabajo reguladas. BGE-M3 y nomic-embed-text-v1.5 proporcionan embeddings de calidad de produccion sin requerir llamadas a APIs en la nube ni transferencia de datos.

    5. Mida de extremo a extremo, no por etapa. Los benchmarks individuales por etapa pueden ser enganosos. Un pipeline que obtiene buenas puntuaciones en cada etapa individualmente puede aun tener un rendimiento inferior si las transferencias entre etapas pierden metadatos o contexto.

    Notas Metodologicas

    • Todos los numeros de precision son promedios del corpus de prueba completo. La varianza por tipo de documento fue significativa (los documentos financieros se parsearon con mayor precision que los registros medicos en todas las herramientas).
    • Las mediciones de velocidad excluyen el tiempo de E/S y reflejan el rendimiento puro de procesamiento.
    • Los benchmarks de redaccion de PII utilizaron los 14 tipos de entidades definidos en el estandar de desidentificacion NIST SP 800-188.
    • La precision de recuperacion se midio como recall en los top-5 chunks recuperados contra pasajes relevantes anotados manualmente.
    • Los benchmarks de Ertas reflejan la version 0.9 de la aplicacion de escritorio Data Suite ejecutandose localmente. No se involucro procesamiento en la nube.

    Este informe se actualizara trimestralmente a medida que las herramientas lancen nuevas versiones y el corpus de benchmark se expanda. Los equipos interesados en reproducir estos benchmarks pueden contactarnos para acceder a la documentacion de la metodologia de prueba.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading