
Benchmark: rendimiento del pipeline de preparación de datos on-premise para datasets empresariales de más de 100GB
Benchmarks realistas de rendimiento para preparación de datos on-premise — velocidades de ingesta, OCR, limpieza, etiquetado y exportación por tipo de documento y configuración de hardware.
Todo proveedor de servicios que entrega preparación de datos para proyectos de IA empresarial enfrenta la misma pregunta durante el dimensionamiento: "¿Cuánto tiempo tomará esto?"
La respuesta depende de los tipos de documento, tamaño del dataset, etapas del pipeline y hardware. Estimaciones vagas como "unas semanas" no ayudan al escribir declaraciones de trabajo con plazos fijos. Los números concretos de rendimiento sí.
Esta guía proporciona datos de benchmark realistas para cada etapa del pipeline a través de diferentes tipos de documentos y configuraciones de hardware. Estos números provienen de configuraciones comunes, no de condiciones ideales de laboratorio. Úsalos como líneas base para dimensionar engagements.
Nota metodológica
Todos los benchmarks asumen:
- Procesamiento en una sola máquina (no distribuido)
- Documentos procesados secuencialmente a través de etapas del pipeline (ingestar todo, limpiar todo, etiquetar todo, exportar todo)
- Configuraciones por defecto para motores OCR y backends de inferencia (sin ajuste exótico)
- Rendimiento medido como tasa sostenida después del calentamiento inicial, no pico de ráfaga
Configuraciones de hardware referenciadas:
| Config | CPU | RAM | GPU | Almacenamiento |
|---|---|---|---|---|
| Entrada | Ryzen 7 7700 (8c/16t) | 32 GB | RTX 4060 Ti 16GB | 2 TB NVMe |
| Gama media | Ryzen 9 7950X (16c/32t) | 64 GB | RTX 4080 16GB | 4 TB NVMe |
| Producción | Threadripper 7970X (32c/64t) | 128 GB | 2x RTX 4090 24GB | 8 TB NVMe |
Etapa 1: rendimiento de ingesta
La ingesta cubre la lectura de archivos fuente, el parseo de su estructura y la extracción de contenido crudo (texto, imágenes, metadatos).
Por tipo de documento
| Tipo de documento | Tam. prom. | Entrada (docs/min) | Gama media (docs/min) | Producción (docs/min) |
|---|---|---|---|---|
| PDF nativo (basado en texto) | 500 KB | 200-400 | 400-800 | 800-1,500 |
| PDF escaneado (basado en imagen) | 5 MB | 60-120 | 120-250 | 250-500 |
| Word (.docx) | 200 KB | 300-600 | 600-1,200 | 1,200-2,000 |
| Excel (.xlsx) | 1 MB | 100-200 | 200-400 | 400-800 |
| Texto plano / CSV | 50 KB | 1,000-3,000 | 3,000-8,000 | 8,000-15,000 |
| Imágenes (JPEG/PNG) | 2 MB | 150-300 | 300-600 | 600-1,200 |
| HTML | 100 KB | 500-1,000 | 1,000-2,000 | 2,000-4,000 |
| Email (.eml/.msg) | 100 KB | 200-400 | 400-800 | 800-1,500 |
Análisis de cuellos de botella de ingesta
PDFs nativos: Limitados por CPU. El parseo de PDF es de un solo hilo por archivo, así que el rendimiento escala con el número de workers paralelos (limitado por núcleos de CPU e I/O).
PDFs escaneados: Limitados por I/O. Cada página es una imagen grande que debe descomprimirse. La velocidad de almacenamiento domina.
Archivos Excel: Limitados por memoria para hojas de cálculo grandes. Un archivo Excel de 50 MB puede descomprimirse a más de 500 MB en memoria. El procesamiento paralelo está limitado por RAM.
Cómo se ven 100 GB
Un archivo empresarial de 100 GB típicamente contiene una mezcla de tipos de documentos. Una distribución representativa:
| Tipo | Porcentaje | ~Conteo de archivos | ~Tamaño total |
|---|---|---|---|
| PDF nativo | 40% | 80,000 archivos | 40 GB |
| PDF escaneado | 25% | 5,000 archivos | 25 GB |
| Word/Excel | 20% | 40,000 archivos | 20 GB |
| Imágenes | 10% | 5,000 archivos | 10 GB |
| Otros (texto, HTML, email) | 5% | 20,000 archivos | 5 GB |
| Total | ~150,000 archivos | 100 GB |
Tiempo de ingesta de gama media para esta mezcla: ~4-8 horas. Los PDFs escaneados dominan la línea de tiempo a pesar de ser solo el 25% del volumen.
Etapa 2: rendimiento de OCR
El OCR aplica solo a documentos escaneados e imágenes. Los documentos basados en texto omiten esta etapa.
Por motor y hardware
| Motor | Hardware | Páginas/segundo | Precisión (escaneos limpios) | Precisión (baja calidad) |
|---|---|---|---|---|
| Tesseract 5 | CPU (8 núcleos) | 1-3 | 90-95% | 70-80% |
| Tesseract 5 | CPU (16 núcleos) | 2-5 | 90-95% | 70-80% |
| PaddleOCR | CPU (16 núcleos) | 3-6 | 92-96% | 75-85% |
| PaddleOCR | GPU (RTX 4070) | 15-25 | 92-96% | 75-85% |
| PaddleOCR | GPU (RTX 4090) | 25-40 | 92-96% | 75-85% |
| EasyOCR | GPU (RTX 4070) | 10-18 | 90-94% | 70-82% |
| Surya OCR | GPU (RTX 4070) | 20-30 | 94-97% | 80-88% |
| Surya OCR | GPU (RTX 4090) | 30-50 | 94-97% | 80-88% |
Estimaciones de tiempo de OCR
| Tamaño del archivo (páginas escaneadas) | Solo CPU (Tesseract) | GPU gama media | GPU producción |
|---|---|---|---|
| 10,000 páginas | 1-3 horas | 7-12 minutos | 4-7 minutos |
| 50,000 páginas | 5-14 horas | 35-55 minutos | 17-33 minutos |
| 100,000 páginas | 10-28 horas | 1.1-1.8 horas | 0.6-1.1 horas |
| 500,000 páginas | 2-6 días | 5.5-9.2 horas | 2.8-5.5 horas |
| 1,000,000 páginas | 4-12 días | 11-18 horas | 5.5-11 horas |
Insight clave: El OCR es el mayor consumidor de tiempo en pipelines con documentos escaneados. Si el archivo de tu cliente es mayormente PDFs escaneados, el rendimiento del OCR determina la línea de tiempo de tu proyecto.
Etapa 3: rendimiento de limpieza
La limpieza incluye deduplicación, normalización de formato, detección/redacción de PII y filtrado de calidad.
Por operación
| Operación | Método | Rendimiento (gama media) | Uso de RAM |
|---|---|---|---|
| Dedup exacta | Hash SHA-256 | 50,000-100,000 docs/min | Bajo (menos de 1 GB para 1M docs) |
| Dedup difusa (MinHash) | 128 permutaciones | 5,000-15,000 docs/min | 2-4 GB por 1M docs |
| Detección PII (regex) | Coincidencia de patrones | 10,000-30,000 docs/min | Bajo |
| Detección PII (modelo NER) | GLiNER / SpaCy NER | 500-2,000 docs/min | 2-4 GB VRAM |
| Redacción PII | Reemplazar PII detectada | Igual que detección | Igual |
| Normalización de formato | Unicode, limpieza de espacios | 20,000-50,000 docs/min | Bajo |
| Filtrado de calidad | Longitud, idioma, coherencia | 10,000-30,000 docs/min | Bajo |
Estimaciones de tiempo de limpieza
Para un archivo de 150,000 documentos (la mezcla de 100 GB anterior):
| Operación | Tiempo gama media |
|---|---|
| Dedup exacta | 2-3 minutos |
| Dedup difusa | 10-30 minutos |
| Detección PII por regex | 5-15 minutos |
| Detección PII por NER | 1.5-5 horas |
| Normalización de formato | 3-8 minutos |
| Filtrado de calidad | 5-15 minutos |
| Total (con NER PII) | ~2-6 horas |
| Total (solo regex PII) | ~25-70 minutos |
La detección de PII basada en NER es el cuello de botella de la limpieza. Para proyectos donde la detección de PII basada en regex es suficiente (documentos financieros con PII estructurada como SSNs, números de cuenta), la limpieza es rápida. Para PII no estructurada en texto narrativo, NER agrega tiempo significativo.
Etapa 4: rendimiento de etiquetado
Etiquetado manual
La velocidad de etiquetado humano varía enormemente según la complejidad de la tarea y la experiencia del anotador:
| Tarea | Velocidad (anotador experimentado) | Documentos/día (8 hrs) |
|---|---|---|
| Clasificación binaria | 5-10 segundos/doc | 2,800-5,700 |
| Multiclase (5-10 categorías) | 10-30 segundos/doc | 960-2,800 |
| Anotación de entidades nombradas | 1-5 minutos/doc | 96-480 |
| Etiquetado a nivel de span | 2-10 minutos/doc | 48-240 |
| Multi-etiqueta compleja | 30-120 segundos/doc | 240-960 |
Etiquetado asistido por IA (pre-anotación + revisión humana)
La fase de pre-anotación usa inferencia de LLM local. El tiempo de revisión humana depende de la precisión de la pre-anotación.
Rendimiento de pre-anotación (inferencia LLM):
| Tarea | Modelo | Cuant. | Hardware | Docs/hora |
|---|---|---|---|---|
| Clasificación binaria | Mistral 7B | Q4_K_M | RTX 4070 | 2,500-3,500 |
| Multiclase (5 cats) | Mistral 7B | Q4_K_M | RTX 4070 | 2,000-3,000 |
| Multiclase (5 cats) | Qwen 2.5 14B | Q4_K_M | RTX 4080 | 1,000-1,800 |
| Extracción de entidades | Qwen 2.5 14B | Q5_K_M | RTX 4080 | 800-1,400 |
| Resumen de documentos | Qwen 2.5 14B | Q4_K_M | RTX 4080 | 300-500 |
Rendimiento de revisión humana (revisando pre-anotaciones):
| Precisión de pre-anotación | Velocidad de revisión | Rendimiento efectivo vs. manual |
|---|---|---|
| Más del 90% correcto | 3-5 segundos/doc (confirmar o corregir) | 5-10x más rápido que manual |
| 80-90% correcto | 5-15 segundos/doc | 3-5x más rápido que manual |
| 70-80% correcto | 10-30 segundos/doc | 1.5-3x más rápido que manual |
| Menos del 70% correcto | 15-60 segundos/doc | Mejora marginal |
Punto de equilibrio: Por debajo de ~70% de precisión de pre-anotación, los revisores humanos pasan más tiempo entendiendo y corrigiendo errores de lo que tardarían etiquetando desde cero. La asistencia de IA se convierte en una distracción en lugar de un acelerador.
Línea de tiempo combinada de etiquetado
Para 150,000 documentos con clasificación binaria:
| Enfoque | Estimación de tiempo |
|---|---|
| Manual (2 anotadores) | 13-27 días laborables |
| Asistido por IA (90% precisión, 2 revisores) | 2-4 días laborables |
| Asistido por IA (80% precisión, 2 revisores) | 4-8 días laborables |
El etiquetado asistido por IA con más del 80% de precisión de pre-anotación reduce el tiempo de etiquetado en 3-10x.
Etapa 5: rendimiento de aumento
El rendimiento de generación de datos sintéticos depende de la longitud de salida:
| Tarea | Modelo | Hardware | Longitud de salida | Docs/hora |
|---|---|---|---|---|
| Generación de paráfrasis | Mistral 7B Q4 | RTX 4070 | ~100 tokens | 1,500-2,500 |
| Generación de documentos sintéticos | Qwen 2.5 14B Q4 | RTX 4080 | ~500 tokens | 100-200 |
| Ejemplos aumentados (clasificación) | Mistral 7B Q4 | RTX 4070 | ~50 tokens | 3,000-5,000 |
| Generación de pares pregunta-respuesta | Qwen 2.5 14B Q4 | RTX 4080 | ~200 tokens | 400-700 |
Etapa 6: rendimiento de exportación
La exportación rara vez es el cuello de botella:
| Formato | Tamaño (150K docs) | Escritura NVMe | Escritura SSD SATA |
|---|---|---|---|
| JSONL | 5-20 GB | 1-5 segundos | 10-40 segundos |
| JSONL (comprimido gzip) | 1-5 GB | 30-120 segundos | 60-240 segundos |
| Parquet | 3-12 GB | 1-5 segundos | 10-40 segundos |
| HuggingFace Dataset | 5-20 GB | 5-15 segundos | 30-120 segundos |
| CSV | 5-20 GB | 1-5 segundos | 10-40 segundos |
Estimaciones de pipeline de extremo a extremo
Escenario A: 100 GB de documentos empresariales mixtos (150K archivos)
Hardware de gama media (Ryzen 9, 64 GB RAM, RTX 4080):
| Etapa | Estimación de tiempo |
|---|---|
| Ingesta | 4-8 horas |
| OCR (subconjunto escaneado: ~50K páginas) | 35-55 minutos |
| Limpieza (con regex PII) | 25-70 minutos |
| Etiquetado asistido por IA (clasificación binaria) | 50-75 minutos (pre-anotación) + 2-4 días (revisión humana) |
| Exportación | Menos de 5 minutos |
| Tiempo total de cómputo | ~6-10 horas |
| Tiempo total del proyecto (incl. revisión humana) | 3-5 días laborables |
Escenario B: 500 GB de archivo de documentos escaneados (500K páginas)
Hardware de gama media:
| Etapa | Estimación de tiempo |
|---|---|
| Ingesta | 12-24 horas |
| OCR (500K páginas, GPU) | 5.5-9 horas |
| Limpieza (con NER PII) | 4-12 horas |
| Etiquetado asistido por IA (multiclase) | 3-5 horas (pre-anotación) + 5-10 días (revisión humana) |
| Exportación | Menos de 10 minutos |
| Tiempo total de cómputo | ~24-50 horas |
| Tiempo total del proyecto | 1-2 semanas |
Escenario C: 1 TB de archivo empresarial mixto (más de 1M archivos)
Hardware de producción (Threadripper, 128 GB RAM, 2x RTX 4090):
| Etapa | Estimación de tiempo |
|---|---|
| Ingesta | 24-48 horas |
| OCR (subconjunto escaneado: ~200K páginas) | 1-2 horas |
| Limpieza (con NER PII) | 8-24 horas |
| Etiquetado asistido por IA (extracción de entidades) | 12-24 horas (pre-anotación) + 2-4 semanas (revisión humana) |
| Exportación | Menos de 30 minutos |
| Tiempo total de cómputo | ~2-4 días |
| Tiempo total del proyecto | 3-5 semanas |
Cómo estimar la línea de tiempo a partir del volumen de datos
Un marco de estimación rápida para dimensionar propuestas:
- Evalúa tipos de documento: ¿Qué porcentaje es escaneado vs. texto nativo? Los documentos escaneados toman 5-10x más por documento.
- Estima conteo de archivos: Volumen total / tamaño promedio de archivo. Un archivo de 100 GB podría ser 10,000 archivos grandes o 500,000 archivos pequeños. El conteo de archivos afecta el tiempo de ingesta; el volumen total afecta el tiempo de OCR.
- Identifica la tarea de etiquetado: ¿Clasificación binaria? ¿Multi-etiqueta? ¿Extracción de entidades? La complejidad de la tarea determina tanto el tiempo de inferencia LLM como el tiempo de revisión humana.
- Calcula horas de revisión humana: Rendimiento de pre-anotación x nivel de precisión = horas de revisión. Esta es usualmente la fase más larga.
- Agrega margen: Los archivos del mundo real contienen archivos corruptos, formatos inesperados y casos extremos. Agrega 20-30% a las estimaciones de tiempo de cómputo.
Mejorando el rendimiento sin hardware adicional
Antes de comprar más hardware, optimiza lo que tienes:
- Arregla el cuello de botella de almacenamiento: Si los datos fuente están en HDD o almacenamiento de red, cópialos a NVMe local. Esto solo puede reducir el tiempo de ingesta en 5-20x.
- Omite OCR innecesario: Verifica si los PDFs escaneados ya tienen capas de texto. Muchos escáneres empresariales producen PDFs con OCR embebido. Extraer la capa de texto existente es 100x más rápido que re-ejecutar OCR.
- Usa la cuantización correcta: Q4_K_M en lugar de Q8_0 para tareas de clasificación. 40-60% de mejora de rendimiento con pérdida mínima de precisión.
- Aumenta el paralelismo de inferencia: Si la VRAM lo permite, ejecuta 2-4 solicitudes LLM concurrentes.
- Pre-filtra agresivamente: Elimina archivos duplicados e irrelevantes antes de procesar. Una reducción del 10% en el conteo de archivos ahorra 10% del tiempo del pipeline.
Rendimiento de Ertas Data Suite
La arquitectura de escritorio nativa de Ertas Data Suite evita la sobrecarga que las herramientas en contenedores introducen — sin capa de networking Docker, sin penalizaciones de I/O por montaje de volumen, sin sobrecarga del runtime de contenedor. La aplicación accede al sistema de archivos y GPU directamente, lo que se traduce en números de rendimiento en el extremo superior de los rangos listados en esta guía.
El pipeline integrado procesa documentos a través de las etapas Ingest, Clean, Label, Augment y Export con agrupamiento automático y seguimiento de progreso. Para proveedores de servicios, esto significa que el pipeline se ejecuta durante la noche con rendimiento predecible y registro detallado de qué se procesó, qué falló y qué está listo para revisión humana.
Usando estos números
Estos benchmarks existen para responder una pregunta: "¿Cuánto tiempo tomará la fase de preparación de datos?" Al dimensionar un engagement, estima el tiempo de cómputo de estas tablas, agrega el tiempo de revisión humana basándote en tu tarea de etiquetado y tamaño de equipo, y aplica un margen de 20-30%. El resultado es una línea de tiempo defendible para tu declaración de trabajo.
Para más sobre las decisiones de hardware y arquitectura detrás de estos números, consulta Dimensionamiento de hardware para preparación de datos on-premise y Arquitectura de runtime on-premise para preparación de datos de IA empresarial.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Batch Processing Large Document Archives On-Premise: Performance Tuning Guide
Performance tuning guide for batch processing 100GB–1TB+ document archives on-premise — parallel ingestion, memory management, I/O optimization, and resumability strategies.

Running Ollama for AI-Assisted Data Prep in Air-Gapped Enterprise Environments
Step-by-step guide to deploying Ollama for AI-assisted data labeling in air-gapped environments — model transfer, offline setup, GPU configuration, and common failure modes.

How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning
A complete guide to building on-premise data preparation pipelines for LLM fine-tuning — covering the 5 stages from ingestion to export, tool comparisons, and architecture for regulated environments.