Back to blog
    Benchmark: rendimiento del pipeline de preparación de datos on-premise para datasets empresariales de más de 100GB
    benchmarkthroughputon-premisedata-preparationperformanceocrlabelingenterprisesegment:service-provider

    Benchmark: rendimiento del pipeline de preparación de datos on-premise para datasets empresariales de más de 100GB

    Benchmarks realistas de rendimiento para preparación de datos on-premise — velocidades de ingesta, OCR, limpieza, etiquetado y exportación por tipo de documento y configuración de hardware.

    EErtas Team·

    Todo proveedor de servicios que entrega preparación de datos para proyectos de IA empresarial enfrenta la misma pregunta durante el dimensionamiento: "¿Cuánto tiempo tomará esto?"

    La respuesta depende de los tipos de documento, tamaño del dataset, etapas del pipeline y hardware. Estimaciones vagas como "unas semanas" no ayudan al escribir declaraciones de trabajo con plazos fijos. Los números concretos de rendimiento sí.

    Esta guía proporciona datos de benchmark realistas para cada etapa del pipeline a través de diferentes tipos de documentos y configuraciones de hardware. Estos números provienen de configuraciones comunes, no de condiciones ideales de laboratorio. Úsalos como líneas base para dimensionar engagements.


    Nota metodológica

    Todos los benchmarks asumen:

    • Procesamiento en una sola máquina (no distribuido)
    • Documentos procesados secuencialmente a través de etapas del pipeline (ingestar todo, limpiar todo, etiquetar todo, exportar todo)
    • Configuraciones por defecto para motores OCR y backends de inferencia (sin ajuste exótico)
    • Rendimiento medido como tasa sostenida después del calentamiento inicial, no pico de ráfaga

    Configuraciones de hardware referenciadas:

    ConfigCPURAMGPUAlmacenamiento
    EntradaRyzen 7 7700 (8c/16t)32 GBRTX 4060 Ti 16GB2 TB NVMe
    Gama mediaRyzen 9 7950X (16c/32t)64 GBRTX 4080 16GB4 TB NVMe
    ProducciónThreadripper 7970X (32c/64t)128 GB2x RTX 4090 24GB8 TB NVMe

    Etapa 1: rendimiento de ingesta

    La ingesta cubre la lectura de archivos fuente, el parseo de su estructura y la extracción de contenido crudo (texto, imágenes, metadatos).

    Por tipo de documento

    Tipo de documentoTam. prom.Entrada (docs/min)Gama media (docs/min)Producción (docs/min)
    PDF nativo (basado en texto)500 KB200-400400-800800-1,500
    PDF escaneado (basado en imagen)5 MB60-120120-250250-500
    Word (.docx)200 KB300-600600-1,2001,200-2,000
    Excel (.xlsx)1 MB100-200200-400400-800
    Texto plano / CSV50 KB1,000-3,0003,000-8,0008,000-15,000
    Imágenes (JPEG/PNG)2 MB150-300300-600600-1,200
    HTML100 KB500-1,0001,000-2,0002,000-4,000
    Email (.eml/.msg)100 KB200-400400-800800-1,500

    Análisis de cuellos de botella de ingesta

    PDFs nativos: Limitados por CPU. El parseo de PDF es de un solo hilo por archivo, así que el rendimiento escala con el número de workers paralelos (limitado por núcleos de CPU e I/O).

    PDFs escaneados: Limitados por I/O. Cada página es una imagen grande que debe descomprimirse. La velocidad de almacenamiento domina.

    Archivos Excel: Limitados por memoria para hojas de cálculo grandes. Un archivo Excel de 50 MB puede descomprimirse a más de 500 MB en memoria. El procesamiento paralelo está limitado por RAM.

    Cómo se ven 100 GB

    Un archivo empresarial de 100 GB típicamente contiene una mezcla de tipos de documentos. Una distribución representativa:

    TipoPorcentaje~Conteo de archivos~Tamaño total
    PDF nativo40%80,000 archivos40 GB
    PDF escaneado25%5,000 archivos25 GB
    Word/Excel20%40,000 archivos20 GB
    Imágenes10%5,000 archivos10 GB
    Otros (texto, HTML, email)5%20,000 archivos5 GB
    Total~150,000 archivos100 GB

    Tiempo de ingesta de gama media para esta mezcla: ~4-8 horas. Los PDFs escaneados dominan la línea de tiempo a pesar de ser solo el 25% del volumen.


    Etapa 2: rendimiento de OCR

    El OCR aplica solo a documentos escaneados e imágenes. Los documentos basados en texto omiten esta etapa.

    Por motor y hardware

    MotorHardwarePáginas/segundoPrecisión (escaneos limpios)Precisión (baja calidad)
    Tesseract 5CPU (8 núcleos)1-390-95%70-80%
    Tesseract 5CPU (16 núcleos)2-590-95%70-80%
    PaddleOCRCPU (16 núcleos)3-692-96%75-85%
    PaddleOCRGPU (RTX 4070)15-2592-96%75-85%
    PaddleOCRGPU (RTX 4090)25-4092-96%75-85%
    EasyOCRGPU (RTX 4070)10-1890-94%70-82%
    Surya OCRGPU (RTX 4070)20-3094-97%80-88%
    Surya OCRGPU (RTX 4090)30-5094-97%80-88%

    Estimaciones de tiempo de OCR

    Tamaño del archivo (páginas escaneadas)Solo CPU (Tesseract)GPU gama mediaGPU producción
    10,000 páginas1-3 horas7-12 minutos4-7 minutos
    50,000 páginas5-14 horas35-55 minutos17-33 minutos
    100,000 páginas10-28 horas1.1-1.8 horas0.6-1.1 horas
    500,000 páginas2-6 días5.5-9.2 horas2.8-5.5 horas
    1,000,000 páginas4-12 días11-18 horas5.5-11 horas

    Insight clave: El OCR es el mayor consumidor de tiempo en pipelines con documentos escaneados. Si el archivo de tu cliente es mayormente PDFs escaneados, el rendimiento del OCR determina la línea de tiempo de tu proyecto.


    Etapa 3: rendimiento de limpieza

    La limpieza incluye deduplicación, normalización de formato, detección/redacción de PII y filtrado de calidad.

    Por operación

    OperaciónMétodoRendimiento (gama media)Uso de RAM
    Dedup exactaHash SHA-25650,000-100,000 docs/minBajo (menos de 1 GB para 1M docs)
    Dedup difusa (MinHash)128 permutaciones5,000-15,000 docs/min2-4 GB por 1M docs
    Detección PII (regex)Coincidencia de patrones10,000-30,000 docs/minBajo
    Detección PII (modelo NER)GLiNER / SpaCy NER500-2,000 docs/min2-4 GB VRAM
    Redacción PIIReemplazar PII detectadaIgual que detecciónIgual
    Normalización de formatoUnicode, limpieza de espacios20,000-50,000 docs/minBajo
    Filtrado de calidadLongitud, idioma, coherencia10,000-30,000 docs/minBajo

    Estimaciones de tiempo de limpieza

    Para un archivo de 150,000 documentos (la mezcla de 100 GB anterior):

    OperaciónTiempo gama media
    Dedup exacta2-3 minutos
    Dedup difusa10-30 minutos
    Detección PII por regex5-15 minutos
    Detección PII por NER1.5-5 horas
    Normalización de formato3-8 minutos
    Filtrado de calidad5-15 minutos
    Total (con NER PII)~2-6 horas
    Total (solo regex PII)~25-70 minutos

    La detección de PII basada en NER es el cuello de botella de la limpieza. Para proyectos donde la detección de PII basada en regex es suficiente (documentos financieros con PII estructurada como SSNs, números de cuenta), la limpieza es rápida. Para PII no estructurada en texto narrativo, NER agrega tiempo significativo.


    Etapa 4: rendimiento de etiquetado

    Etiquetado manual

    La velocidad de etiquetado humano varía enormemente según la complejidad de la tarea y la experiencia del anotador:

    TareaVelocidad (anotador experimentado)Documentos/día (8 hrs)
    Clasificación binaria5-10 segundos/doc2,800-5,700
    Multiclase (5-10 categorías)10-30 segundos/doc960-2,800
    Anotación de entidades nombradas1-5 minutos/doc96-480
    Etiquetado a nivel de span2-10 minutos/doc48-240
    Multi-etiqueta compleja30-120 segundos/doc240-960

    Etiquetado asistido por IA (pre-anotación + revisión humana)

    La fase de pre-anotación usa inferencia de LLM local. El tiempo de revisión humana depende de la precisión de la pre-anotación.

    Rendimiento de pre-anotación (inferencia LLM):

    TareaModeloCuant.HardwareDocs/hora
    Clasificación binariaMistral 7BQ4_K_MRTX 40702,500-3,500
    Multiclase (5 cats)Mistral 7BQ4_K_MRTX 40702,000-3,000
    Multiclase (5 cats)Qwen 2.5 14BQ4_K_MRTX 40801,000-1,800
    Extracción de entidadesQwen 2.5 14BQ5_K_MRTX 4080800-1,400
    Resumen de documentosQwen 2.5 14BQ4_K_MRTX 4080300-500

    Rendimiento de revisión humana (revisando pre-anotaciones):

    Precisión de pre-anotaciónVelocidad de revisiónRendimiento efectivo vs. manual
    Más del 90% correcto3-5 segundos/doc (confirmar o corregir)5-10x más rápido que manual
    80-90% correcto5-15 segundos/doc3-5x más rápido que manual
    70-80% correcto10-30 segundos/doc1.5-3x más rápido que manual
    Menos del 70% correcto15-60 segundos/docMejora marginal

    Punto de equilibrio: Por debajo de ~70% de precisión de pre-anotación, los revisores humanos pasan más tiempo entendiendo y corrigiendo errores de lo que tardarían etiquetando desde cero. La asistencia de IA se convierte en una distracción en lugar de un acelerador.

    Línea de tiempo combinada de etiquetado

    Para 150,000 documentos con clasificación binaria:

    EnfoqueEstimación de tiempo
    Manual (2 anotadores)13-27 días laborables
    Asistido por IA (90% precisión, 2 revisores)2-4 días laborables
    Asistido por IA (80% precisión, 2 revisores)4-8 días laborables

    El etiquetado asistido por IA con más del 80% de precisión de pre-anotación reduce el tiempo de etiquetado en 3-10x.


    Etapa 5: rendimiento de aumento

    El rendimiento de generación de datos sintéticos depende de la longitud de salida:

    TareaModeloHardwareLongitud de salidaDocs/hora
    Generación de paráfrasisMistral 7B Q4RTX 4070~100 tokens1,500-2,500
    Generación de documentos sintéticosQwen 2.5 14B Q4RTX 4080~500 tokens100-200
    Ejemplos aumentados (clasificación)Mistral 7B Q4RTX 4070~50 tokens3,000-5,000
    Generación de pares pregunta-respuestaQwen 2.5 14B Q4RTX 4080~200 tokens400-700

    Etapa 6: rendimiento de exportación

    La exportación rara vez es el cuello de botella:

    FormatoTamaño (150K docs)Escritura NVMeEscritura SSD SATA
    JSONL5-20 GB1-5 segundos10-40 segundos
    JSONL (comprimido gzip)1-5 GB30-120 segundos60-240 segundos
    Parquet3-12 GB1-5 segundos10-40 segundos
    HuggingFace Dataset5-20 GB5-15 segundos30-120 segundos
    CSV5-20 GB1-5 segundos10-40 segundos

    Estimaciones de pipeline de extremo a extremo

    Escenario A: 100 GB de documentos empresariales mixtos (150K archivos)

    Hardware de gama media (Ryzen 9, 64 GB RAM, RTX 4080):

    EtapaEstimación de tiempo
    Ingesta4-8 horas
    OCR (subconjunto escaneado: ~50K páginas)35-55 minutos
    Limpieza (con regex PII)25-70 minutos
    Etiquetado asistido por IA (clasificación binaria)50-75 minutos (pre-anotación) + 2-4 días (revisión humana)
    ExportaciónMenos de 5 minutos
    Tiempo total de cómputo~6-10 horas
    Tiempo total del proyecto (incl. revisión humana)3-5 días laborables

    Escenario B: 500 GB de archivo de documentos escaneados (500K páginas)

    Hardware de gama media:

    EtapaEstimación de tiempo
    Ingesta12-24 horas
    OCR (500K páginas, GPU)5.5-9 horas
    Limpieza (con NER PII)4-12 horas
    Etiquetado asistido por IA (multiclase)3-5 horas (pre-anotación) + 5-10 días (revisión humana)
    ExportaciónMenos de 10 minutos
    Tiempo total de cómputo~24-50 horas
    Tiempo total del proyecto1-2 semanas

    Escenario C: 1 TB de archivo empresarial mixto (más de 1M archivos)

    Hardware de producción (Threadripper, 128 GB RAM, 2x RTX 4090):

    EtapaEstimación de tiempo
    Ingesta24-48 horas
    OCR (subconjunto escaneado: ~200K páginas)1-2 horas
    Limpieza (con NER PII)8-24 horas
    Etiquetado asistido por IA (extracción de entidades)12-24 horas (pre-anotación) + 2-4 semanas (revisión humana)
    ExportaciónMenos de 30 minutos
    Tiempo total de cómputo~2-4 días
    Tiempo total del proyecto3-5 semanas

    Cómo estimar la línea de tiempo a partir del volumen de datos

    Un marco de estimación rápida para dimensionar propuestas:

    1. Evalúa tipos de documento: ¿Qué porcentaje es escaneado vs. texto nativo? Los documentos escaneados toman 5-10x más por documento.
    2. Estima conteo de archivos: Volumen total / tamaño promedio de archivo. Un archivo de 100 GB podría ser 10,000 archivos grandes o 500,000 archivos pequeños. El conteo de archivos afecta el tiempo de ingesta; el volumen total afecta el tiempo de OCR.
    3. Identifica la tarea de etiquetado: ¿Clasificación binaria? ¿Multi-etiqueta? ¿Extracción de entidades? La complejidad de la tarea determina tanto el tiempo de inferencia LLM como el tiempo de revisión humana.
    4. Calcula horas de revisión humana: Rendimiento de pre-anotación x nivel de precisión = horas de revisión. Esta es usualmente la fase más larga.
    5. Agrega margen: Los archivos del mundo real contienen archivos corruptos, formatos inesperados y casos extremos. Agrega 20-30% a las estimaciones de tiempo de cómputo.

    Mejorando el rendimiento sin hardware adicional

    Antes de comprar más hardware, optimiza lo que tienes:

    1. Arregla el cuello de botella de almacenamiento: Si los datos fuente están en HDD o almacenamiento de red, cópialos a NVMe local. Esto solo puede reducir el tiempo de ingesta en 5-20x.
    2. Omite OCR innecesario: Verifica si los PDFs escaneados ya tienen capas de texto. Muchos escáneres empresariales producen PDFs con OCR embebido. Extraer la capa de texto existente es 100x más rápido que re-ejecutar OCR.
    3. Usa la cuantización correcta: Q4_K_M en lugar de Q8_0 para tareas de clasificación. 40-60% de mejora de rendimiento con pérdida mínima de precisión.
    4. Aumenta el paralelismo de inferencia: Si la VRAM lo permite, ejecuta 2-4 solicitudes LLM concurrentes.
    5. Pre-filtra agresivamente: Elimina archivos duplicados e irrelevantes antes de procesar. Una reducción del 10% en el conteo de archivos ahorra 10% del tiempo del pipeline.

    Rendimiento de Ertas Data Suite

    La arquitectura de escritorio nativa de Ertas Data Suite evita la sobrecarga que las herramientas en contenedores introducen — sin capa de networking Docker, sin penalizaciones de I/O por montaje de volumen, sin sobrecarga del runtime de contenedor. La aplicación accede al sistema de archivos y GPU directamente, lo que se traduce en números de rendimiento en el extremo superior de los rangos listados en esta guía.

    El pipeline integrado procesa documentos a través de las etapas Ingest, Clean, Label, Augment y Export con agrupamiento automático y seguimiento de progreso. Para proveedores de servicios, esto significa que el pipeline se ejecuta durante la noche con rendimiento predecible y registro detallado de qué se procesó, qué falló y qué está listo para revisión humana.


    Usando estos números

    Estos benchmarks existen para responder una pregunta: "¿Cuánto tiempo tomará la fase de preparación de datos?" Al dimensionar un engagement, estima el tiempo de cómputo de estas tablas, agrega el tiempo de revisión humana basándote en tu tarea de etiquetado y tamaño de equipo, y aplica un margen de 20-30%. El resultado es una línea de tiempo defendible para tu declaración de trabajo.

    Para más sobre las decisiones de hardware y arquitectura detrás de estos números, consulta Dimensionamiento de hardware para preparación de datos on-premise y Arquitectura de runtime on-premise para preparación de datos de IA empresarial.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading