Benchmark: rendimiento del pipeline de preparación de datos on-premise para datasets empresariales de más de 100GB

Todo proveedor de servicios que entrega preparación de datos para proyectos de IA empresarial enfrenta la misma pregunta durante el dimensionamiento: "¿Cuánto tiempo tomará esto?"

La respuesta depende de los tipos de documento, tamaño del dataset, etapas del pipeline y hardware. Estimaciones vagas como "unas semanas" no ayudan al escribir declaraciones de trabajo con plazos fijos. Los números concretos de rendimiento sí.

Esta guía proporciona datos de benchmark realistas para cada etapa del pipeline a través de diferentes tipos de documentos y configuraciones de hardware. Estos números provienen de configuraciones comunes, no de condiciones ideales de laboratorio. Úsalos como líneas base para dimensionar engagements.

Nota metodológica

Todos los benchmarks asumen:

Procesamiento en una sola máquina (no distribuido)
Documentos procesados secuencialmente a través de etapas del pipeline (ingestar todo, limpiar todo, etiquetar todo, exportar todo)
Configuraciones por defecto para motores OCR y backends de inferencia (sin ajuste exótico)
Rendimiento medido como tasa sostenida después del calentamiento inicial, no pico de ráfaga

Configuraciones de hardware referenciadas:

Config	CPU	RAM	GPU	Almacenamiento
Entrada	Ryzen 7 7700 (8c/16t)	32 GB	RTX 4060 Ti 16GB	2 TB NVMe
Gama media	Ryzen 9 7950X (16c/32t)	64 GB	RTX 4080 16GB	4 TB NVMe
Producción	Threadripper 7970X (32c/64t)	128 GB	2x RTX 4090 24GB	8 TB NVMe

Etapa 1: rendimiento de ingesta

La ingesta cubre la lectura de archivos fuente, el parseo de su estructura y la extracción de contenido crudo (texto, imágenes, metadatos).

Por tipo de documento

Tipo de documento	Tam. prom.	Entrada (docs/min)	Gama media (docs/min)	Producción (docs/min)
PDF nativo (basado en texto)	500 KB	200-400	400-800	800-1,500
PDF escaneado (basado en imagen)	5 MB	60-120	120-250	250-500
Word (.docx)	200 KB	300-600	600-1,200	1,200-2,000
Excel (.xlsx)	1 MB	100-200	200-400	400-800
Texto plano / CSV	50 KB	1,000-3,000	3,000-8,000	8,000-15,000
Imágenes (JPEG/PNG)	2 MB	150-300	300-600	600-1,200
HTML	100 KB	500-1,000	1,000-2,000	2,000-4,000
Email (.eml/.msg)	100 KB	200-400	400-800	800-1,500

Análisis de cuellos de botella de ingesta

PDFs nativos: Limitados por CPU. El parseo de PDF es de un solo hilo por archivo, así que el rendimiento escala con el número de workers paralelos (limitado por núcleos de CPU e I/O).

PDFs escaneados: Limitados por I/O. Cada página es una imagen grande que debe descomprimirse. La velocidad de almacenamiento domina.

Archivos Excel: Limitados por memoria para hojas de cálculo grandes. Un archivo Excel de 50 MB puede descomprimirse a más de 500 MB en memoria. El procesamiento paralelo está limitado por RAM.

Cómo se ven 100 GB

Un archivo empresarial de 100 GB típicamente contiene una mezcla de tipos de documentos. Una distribución representativa:

Tipo	Porcentaje	~Conteo de archivos	~Tamaño total
PDF nativo	40%	80,000 archivos	40 GB
PDF escaneado	25%	5,000 archivos	25 GB
Word/Excel	20%	40,000 archivos	20 GB
Imágenes	10%	5,000 archivos	10 GB
Otros (texto, HTML, email)	5%	20,000 archivos	5 GB
Total		~150,000 archivos	100 GB

Tiempo de ingesta de gama media para esta mezcla: ~4-8 horas. Los PDFs escaneados dominan la línea de tiempo a pesar de ser solo el 25% del volumen.

Etapa 2: rendimiento de OCR

El OCR aplica solo a documentos escaneados e imágenes. Los documentos basados en texto omiten esta etapa.

Por motor y hardware

Motor	Hardware	Páginas/segundo	Precisión (escaneos limpios)	Precisión (baja calidad)
Tesseract 5	CPU (8 núcleos)	1-3	90-95%	70-80%
Tesseract 5	CPU (16 núcleos)	2-5	90-95%	70-80%
PaddleOCR	CPU (16 núcleos)	3-6	92-96%	75-85%
PaddleOCR	GPU (RTX 4070)	15-25	92-96%	75-85%
PaddleOCR	GPU (RTX 4090)	25-40	92-96%	75-85%
EasyOCR	GPU (RTX 4070)	10-18	90-94%	70-82%
Surya OCR	GPU (RTX 4070)	20-30	94-97%	80-88%
Surya OCR	GPU (RTX 4090)	30-50	94-97%	80-88%

Estimaciones de tiempo de OCR

Tamaño del archivo (páginas escaneadas)	Solo CPU (Tesseract)	GPU gama media	GPU producción
10,000 páginas	1-3 horas	7-12 minutos	4-7 minutos
50,000 páginas	5-14 horas	35-55 minutos	17-33 minutos
100,000 páginas	10-28 horas	1.1-1.8 horas	0.6-1.1 horas
500,000 páginas	2-6 días	5.5-9.2 horas	2.8-5.5 horas
1,000,000 páginas	4-12 días	11-18 horas	5.5-11 horas

Insight clave: El OCR es el mayor consumidor de tiempo en pipelines con documentos escaneados. Si el archivo de tu cliente es mayormente PDFs escaneados, el rendimiento del OCR determina la línea de tiempo de tu proyecto.

Etapa 3: rendimiento de limpieza

La limpieza incluye deduplicación, normalización de formato, detección/redacción de PII y filtrado de calidad.

Por operación

Operación	Método	Rendimiento (gama media)	Uso de RAM
Dedup exacta	Hash SHA-256	50,000-100,000 docs/min	Bajo (menos de 1 GB para 1M docs)
Dedup difusa (MinHash)	128 permutaciones	5,000-15,000 docs/min	2-4 GB por 1M docs
Detección PII (regex)	Coincidencia de patrones	10,000-30,000 docs/min	Bajo
Detección PII (modelo NER)	GLiNER / SpaCy NER	500-2,000 docs/min	2-4 GB VRAM
Redacción PII	Reemplazar PII detectada	Igual que detección	Igual
Normalización de formato	Unicode, limpieza de espacios	20,000-50,000 docs/min	Bajo
Filtrado de calidad	Longitud, idioma, coherencia	10,000-30,000 docs/min	Bajo

Estimaciones de tiempo de limpieza

Para un archivo de 150,000 documentos (la mezcla de 100 GB anterior):

Operación	Tiempo gama media
Dedup exacta	2-3 minutos
Dedup difusa	10-30 minutos
Detección PII por regex	5-15 minutos
Detección PII por NER	1.5-5 horas
Normalización de formato	3-8 minutos
Filtrado de calidad	5-15 minutos
Total (con NER PII)	~2-6 horas
Total (solo regex PII)	~25-70 minutos

La detección de PII basada en NER es el cuello de botella de la limpieza. Para proyectos donde la detección de PII basada en regex es suficiente (documentos financieros con PII estructurada como SSNs, números de cuenta), la limpieza es rápida. Para PII no estructurada en texto narrativo, NER agrega tiempo significativo.

Etapa 4: rendimiento de etiquetado

Etiquetado manual

La velocidad de etiquetado humano varía enormemente según la complejidad de la tarea y la experiencia del anotador:

Tarea	Velocidad (anotador experimentado)	Documentos/día (8 hrs)
Clasificación binaria	5-10 segundos/doc	2,800-5,700
Multiclase (5-10 categorías)	10-30 segundos/doc	960-2,800
Anotación de entidades nombradas	1-5 minutos/doc	96-480
Etiquetado a nivel de span	2-10 minutos/doc	48-240
Multi-etiqueta compleja	30-120 segundos/doc	240-960

Etiquetado asistido por IA (pre-anotación + revisión humana)

La fase de pre-anotación usa inferencia de LLM local. El tiempo de revisión humana depende de la precisión de la pre-anotación.

Rendimiento de pre-anotación (inferencia LLM):

Tarea	Modelo	Cuant.	Hardware	Docs/hora
Clasificación binaria	Mistral 7B	Q4_K_M	RTX 4070	2,500-3,500
Multiclase (5 cats)	Mistral 7B	Q4_K_M	RTX 4070	2,000-3,000
Multiclase (5 cats)	Qwen 2.5 14B	Q4_K_M	RTX 4080	1,000-1,800
Extracción de entidades	Qwen 2.5 14B	Q5_K_M	RTX 4080	800-1,400
Resumen de documentos	Qwen 2.5 14B	Q4_K_M	RTX 4080	300-500

Rendimiento de revisión humana (revisando pre-anotaciones):

Precisión de pre-anotación	Velocidad de revisión	Rendimiento efectivo vs. manual
Más del 90% correcto	3-5 segundos/doc (confirmar o corregir)	5-10x más rápido que manual
80-90% correcto	5-15 segundos/doc	3-5x más rápido que manual
70-80% correcto	10-30 segundos/doc	1.5-3x más rápido que manual
Menos del 70% correcto	15-60 segundos/doc	Mejora marginal

Punto de equilibrio: Por debajo de ~70% de precisión de pre-anotación, los revisores humanos pasan más tiempo entendiendo y corrigiendo errores de lo que tardarían etiquetando desde cero. La asistencia de IA se convierte en una distracción en lugar de un acelerador.

Línea de tiempo combinada de etiquetado

Para 150,000 documentos con clasificación binaria:

Enfoque	Estimación de tiempo
Manual (2 anotadores)	13-27 días laborables
Asistido por IA (90% precisión, 2 revisores)	2-4 días laborables
Asistido por IA (80% precisión, 2 revisores)	4-8 días laborables

El etiquetado asistido por IA con más del 80% de precisión de pre-anotación reduce el tiempo de etiquetado en 3-10x.

Etapa 5: rendimiento de aumento

El rendimiento de generación de datos sintéticos depende de la longitud de salida:

Tarea	Modelo	Hardware	Longitud de salida	Docs/hora
Generación de paráfrasis	Mistral 7B Q4	RTX 4070	~100 tokens	1,500-2,500
Generación de documentos sintéticos	Qwen 2.5 14B Q4	RTX 4080	~500 tokens	100-200
Ejemplos aumentados (clasificación)	Mistral 7B Q4	RTX 4070	~50 tokens	3,000-5,000
Generación de pares pregunta-respuesta	Qwen 2.5 14B Q4	RTX 4080	~200 tokens	400-700

Etapa 6: rendimiento de exportación

La exportación rara vez es el cuello de botella:

Formato	Tamaño (150K docs)	Escritura NVMe	Escritura SSD SATA
JSONL	5-20 GB	1-5 segundos	10-40 segundos
JSONL (comprimido gzip)	1-5 GB	30-120 segundos	60-240 segundos
Parquet	3-12 GB	1-5 segundos	10-40 segundos
HuggingFace Dataset	5-20 GB	5-15 segundos	30-120 segundos
CSV	5-20 GB	1-5 segundos	10-40 segundos

Estimaciones de pipeline de extremo a extremo

Escenario A: 100 GB de documentos empresariales mixtos (150K archivos)

Hardware de gama media (Ryzen 9, 64 GB RAM, RTX 4080):

Etapa	Estimación de tiempo
Ingesta	4-8 horas
OCR (subconjunto escaneado: ~50K páginas)	35-55 minutos
Limpieza (con regex PII)	25-70 minutos
Etiquetado asistido por IA (clasificación binaria)	50-75 minutos (pre-anotación) + 2-4 días (revisión humana)
Exportación	Menos de 5 minutos
Tiempo total de cómputo	~6-10 horas
Tiempo total del proyecto (incl. revisión humana)	3-5 días laborables

Escenario B: 500 GB de archivo de documentos escaneados (500K páginas)

Hardware de gama media:

Etapa	Estimación de tiempo
Ingesta	12-24 horas
OCR (500K páginas, GPU)	5.5-9 horas
Limpieza (con NER PII)	4-12 horas
Etiquetado asistido por IA (multiclase)	3-5 horas (pre-anotación) + 5-10 días (revisión humana)
Exportación	Menos de 10 minutos
Tiempo total de cómputo	~24-50 horas
Tiempo total del proyecto	1-2 semanas

Escenario C: 1 TB de archivo empresarial mixto (más de 1M archivos)

Hardware de producción (Threadripper, 128 GB RAM, 2x RTX 4090):

Etapa	Estimación de tiempo
Ingesta	24-48 horas
OCR (subconjunto escaneado: ~200K páginas)	1-2 horas
Limpieza (con NER PII)	8-24 horas
Etiquetado asistido por IA (extracción de entidades)	12-24 horas (pre-anotación) + 2-4 semanas (revisión humana)
Exportación	Menos de 30 minutos
Tiempo total de cómputo	~2-4 días
Tiempo total del proyecto	3-5 semanas

Cómo estimar la línea de tiempo a partir del volumen de datos

Un marco de estimación rápida para dimensionar propuestas:

Evalúa tipos de documento: ¿Qué porcentaje es escaneado vs. texto nativo? Los documentos escaneados toman 5-10x más por documento.
Estima conteo de archivos: Volumen total / tamaño promedio de archivo. Un archivo de 100 GB podría ser 10,000 archivos grandes o 500,000 archivos pequeños. El conteo de archivos afecta el tiempo de ingesta; el volumen total afecta el tiempo de OCR.
Identifica la tarea de etiquetado: ¿Clasificación binaria? ¿Multi-etiqueta? ¿Extracción de entidades? La complejidad de la tarea determina tanto el tiempo de inferencia LLM como el tiempo de revisión humana.
Calcula horas de revisión humana: Rendimiento de pre-anotación x nivel de precisión = horas de revisión. Esta es usualmente la fase más larga.
Agrega margen: Los archivos del mundo real contienen archivos corruptos, formatos inesperados y casos extremos. Agrega 20-30% a las estimaciones de tiempo de cómputo.

Mejorando el rendimiento sin hardware adicional

Antes de comprar más hardware, optimiza lo que tienes:

Arregla el cuello de botella de almacenamiento: Si los datos fuente están en HDD o almacenamiento de red, cópialos a NVMe local. Esto solo puede reducir el tiempo de ingesta en 5-20x.
Omite OCR innecesario: Verifica si los PDFs escaneados ya tienen capas de texto. Muchos escáneres empresariales producen PDFs con OCR embebido. Extraer la capa de texto existente es 100x más rápido que re-ejecutar OCR.
Usa la cuantización correcta: Q4_K_M en lugar de Q8_0 para tareas de clasificación. 40-60% de mejora de rendimiento con pérdida mínima de precisión.
Aumenta el paralelismo de inferencia: Si la VRAM lo permite, ejecuta 2-4 solicitudes LLM concurrentes.
Pre-filtra agresivamente: Elimina archivos duplicados e irrelevantes antes de procesar. Una reducción del 10% en el conteo de archivos ahorra 10% del tiempo del pipeline.

Rendimiento de Ertas Data Suite

La arquitectura de escritorio nativa de Ertas Data Suite evita la sobrecarga que las herramientas en contenedores introducen — sin capa de networking Docker, sin penalizaciones de I/O por montaje de volumen, sin sobrecarga del runtime de contenedor. La aplicación accede al sistema de archivos y GPU directamente, lo que se traduce en números de rendimiento en el extremo superior de los rangos listados en esta guía.

El pipeline integrado procesa documentos a través de las etapas Ingest, Clean, Label, Augment y Export con agrupamiento automático y seguimiento de progreso. Para proveedores de servicios, esto significa que el pipeline se ejecuta durante la noche con rendimiento predecible y registro detallado de qué se procesó, qué falló y qué está listo para revisión humana.

Usando estos números

Estos benchmarks existen para responder una pregunta: "¿Cuánto tiempo tomará la fase de preparación de datos?" Al dimensionar un engagement, estima el tiempo de cómputo de estas tablas, agrega el tiempo de revisión humana basándote en tu tarea de etiquetado y tamaño de equipo, y aplica un margen de 20-30%. El resultado es una línea de tiempo defendible para tu declaración de trabajo.

Para más sobre las decisiones de hardware y arquitectura detrás de estos números, consulta Dimensionamiento de hardware para preparación de datos on-premise y Arquitectura de runtime on-premise para preparación de datos de IA empresarial.