Dimensionamiento de hardware para preparación de datos on-prem: Requisitos de CPU, GPU y memoria

"¿Necesitamos una A100?" es la pregunta de hardware más común de clientes empresariales que inician un proyecto de preparación de datos. La respuesta es casi siempre no.

Las cargas de trabajo de preparación de datos — ingestión, OCR, limpieza, etiquetado, aumento, exportación — tienen perfiles de cómputo diferentes al entrenamiento de modelos. Las ejecuciones de entrenamiento se benefician del paralelismo masivo de GPU y alto ancho de banda de memoria. La preparación de datos es secuencial, intensiva en I/O, y frecuentemente está limitada por la velocidad del disco más que por el cómputo. El hardware correcto para entrenamiento es usualmente excesivo y sub-optimizado para preparación de datos.

Esta guía cubre los requisitos específicos de hardware para cada etapa del pipeline y proporciona recomendaciones concretas en tres niveles de presupuesto.

Requisitos por etapa del pipeline

Ingestión: CPU + I/O

La ingestión lee documentos fuente (PDFs, archivos Word, imágenes, hojas de cálculo, HTML) y extrae su contenido en un formato normalizado. El trabajo es intensivo en parsing e I/O.

CPU: 4+ núcleos para procesamiento paralelo de archivos. La mayoría de los parsers de documentos son single-threaded por archivo, así que el paralelismo viene de procesar múltiples archivos concurrentemente. La velocidad de reloj importa más que la cantidad de núcleos para el throughput individual por archivo.

RAM: 16 GB mínimo. PDFs grandes (100+ páginas con imágenes incrustadas) pueden consumir 500 MB-2 GB cada uno durante el parsing. Procesar múltiples archivos grandes concurrentemente multiplica esto.

Almacenamiento: Este es el cuello de botella principal. NVMe SSD entrega 3-7 GB/s de lectura secuencial. SATA SSD entrega 500-550 MB/s. HDD entrega 100-200 MB/s. Para un archivo de documentos de 500 GB, la diferencia entre NVMe y HDD es 2 minutos vs. 40+ minutos para throughput bruto de lectura (el tiempo real de parsing es mayor, pero la I/O domina).

GPU: No requerida para ingestión.

OCR: GPU altamente recomendada

OCR convierte documentos escaneados e imágenes en texto legible por máquina. Es la etapa más intensiva en cómputo para datasets con muchos documentos.

Motor	Hardware	Velocidad (páginas/seg)	Precisión
Tesseract 5	CPU (8 núcleos)	1-3	Buena para escaneos limpios
PaddleOCR	CPU	3-5	Mejor para layouts variados
PaddleOCR	GPU (RTX 4070)	15-25	Mejor para layouts variados
EasyOCR	GPU (RTX 4070)	10-20	Buen soporte multilingüe
Surya OCR	GPU (RTX 4070)	20-30	Fuerte en layouts complejos

Cálculo de OCR solo con CPU: Un archivo de 100,000 páginas a 2 páginas/segundo = ~14 horas. A 20 páginas/segundo con GPU = ~1.4 horas. Para ingestión única, 14 horas durante la noche puede ser aceptable. Para flujos de trabajo iterativos donde estás reprocesando después de ajustar configuraciones de OCR, la aceleración por GPU importa.

GPU: 8 GB de VRAM mínimo para OCR acelerado por GPU. 12 GB preferidos para procesamiento por lotes con buffers de página más grandes.

RAM: 32 GB recomendados. Los motores de OCR cargan pesos de modelo en memoria junto con los buffers de página.

Limpieza: CPU + RAM alta

La limpieza incluye deduplicación, normalización de formato, detección de PII y filtrado de calidad.

Deduplicación exacta (basada en hash): Limitada por CPU, baja memoria. Calcula un hash por documento, compara hashes. Un millón de documentos toma segundos.

Deduplicación difusa (MinHash/SimHash): Intensiva en CPU y memoria. MinHash con 128 permutaciones sobre 1 millón de documentos requiere ~2-4 GB de RAM para la matriz de firmas. A 10 millones de documentos, esto crece a 20-40 GB.

Detección de PII: La detección de PII basada en regex es rápida y ligera para la CPU. La detección de PII basada en NER (usando un modelo pequeño como GLiNER o un modelo NER ajustado) agrega requisitos de GPU: 2-4 GB de VRAM para un modelo NER típico.

RAM: 32 GB como base. 64 GB para datasets que excedan 1 millón de documentos o cuando se ejecute detección de PII basada en NER junto con deduplicación.

Etiquetado con LLM local: GPU requerida

El etiquetado asistido por IA — donde un LLM local pre-anota documentos que humanos luego revisan — es la etapa sobre la que más preguntan las personas al planificar hardware.

Tamaño del modelo	Cuantización	VRAM requerida	Velocidad (tokens/seg)	Notas
7B (Mistral, Llama 3.1)	Q4_K_M	4-5 GB	30-60	Bueno para clasificación, extracción simple
7B	Q8_0	7-8 GB	25-45	Mejor precisión, aún rápido
14B (Qwen 2.5, Llama 3.1)	Q4_K_M	8-10 GB	20-35	Mejor para etiquetado con matices
14B	Q8_0	14-16 GB	15-25	Mejor calidad en rango medio
32B (Qwen 2.5)	Q4_K_M	18-20 GB	10-18	Rendimientos decrecientes para la mayoría de tareas de etiquetado

El techo práctico: Para etiquetado de preparación de datos (clasificación, extracción de entidades, sentimiento, asignación de temas), los modelos 7B-14B proporcionan 90-95% de la precisión de modelos más grandes a 2-4x el throughput. Pasar a modelos de 30B+ rara vez mejora la calidad de etiquetado lo suficiente para justificar el costo de hardware y la reducción de velocidad.

GPU: 8 GB de VRAM mínimo (para 7B Q4). 16 GB de VRAM recomendados (para 14B Q4 o 7B Q8). RTX 4060 Ti 16GB, RTX 4070 o RTX 4080 son los puntos óptimos en relación precio-VRAM.

RAM del sistema: 32 GB mínimo. El modelo corre en GPU, pero la aplicación necesita memoria para procesamiento de documentos, ensamblaje de contexto y gestión de lotes.

Aumento: GPU para generación basada en LLM

La generación de datos sintéticos y el aumento usan la misma infraestructura de LLM local que el etiquetado pero con salidas más largas. Generar un documento sintético de 500 palabras toma 5-10x más tiempo que generar una etiqueta de clasificación.

Los requisitos de hardware son los mismos que para la etapa de etiquetado. Si dimensionaste para etiquetado, estás dimensionado para aumento. La diferencia es el throughput: espera 5-15 documentos sintéticos por minuto a 7B Q4, menos con tamaños de modelo mayores.

Exportación: Limitada por I/O

La exportación convierte datos procesados en formatos de entrenamiento. El cuello de botella es la velocidad de escritura.

Almacenamiento: NVMe SSD para salida. Escribir 100 GB de JSONL toma 15-30 segundos en NVMe, 3-5 minutos en SATA SSD.

CPU: Moderado. La compresión (gzip, zstd) agrega carga de CPU. 4+ núcleos manejan compresión paralela.

RAM: 16 GB suficiente para la mayoría de operaciones de exportación.

Tres niveles de hardware

Nivel de entrada (~$3,000)

Caso de uso: Datasets pequeños (menos de 100 GB fuente), documentos predominantemente de texto, etiquetado manual o con asistencia ligera de IA.

Componente	Especificación	Costo est.
CPU	AMD Ryzen 7 7700 o Intel i7-13700 (8-16 núcleos)	$300-$350
RAM	32 GB DDR5-5600	$100-$130
GPU	NVIDIA RTX 4060 Ti 16GB	$400-$450
Almacenamiento	2 TB NVMe SSD (Gen4)	$120-$150
Motherboard + PSU + Gabinete	Ensamblaje mid-tower	$400-$500
Total		~$1,500-$1,700

O una workstation pre-armada de Dell/HP/Lenovo a ~$2,500-$3,500 para una especificación comparable con garantía y soporte.

Este nivel maneja proyectos de prueba de concepto, engagements pequeños con clientes y datasets dominados por texto. La inferencia de LLM solo con CPU es posible (vía llama.cpp en modo CPU) pero lenta — planifica para 2-5 tokens/segundo a 7B.

Nivel medio (~$8,000)

Caso de uso: Preparación de datos en producción, 100 GB-1 TB de datos fuente, OCR y etiquetado acelerados por GPU.

Componente	Especificación	Costo est.
CPU	AMD Ryzen 9 7950X o Intel i9-13900K (16-24 núcleos)	$450-$550
RAM	64 GB DDR5-5600	$200-$260
GPU	NVIDIA RTX 4080 16GB o RTX 4090 24GB	$1,000-$1,800
Almacenamiento	4 TB NVMe SSD (Gen4)	$250-$300
Motherboard + PSU (850W+) + Gabinete	Ensamblaje de calidad	$600-$800
Total		~$2,500-$3,700

Equivalente en workstation pre-armada: $5,000-$8,000 de OEMs principales.

Este es el nivel de trabajo pesado para proveedores de servicios. Maneja OCR acelerado por GPU a 15-25 páginas/segundo, ejecuta modelos 14B a Q4 cómodamente y procesa datasets de 100 GB+ sin cuello de botella en RAM. La mayoría de los engagements de preparación de datos empresariales están completamente cubiertos por esta configuración.

Nivel de producción (~$20,000+)

Caso de uso: Preparación de datos a gran escala (1 TB+ fuente), etapas de pipeline concurrentes, inferencia de modelos 14B+ con alto throughput.

Componente	Especificación	Costo est.
CPU	AMD Threadripper 7970X (32 núcleos) o dual Xeon	$1,500-$3,000
RAM	128-256 GB DDR5 ECC	$500-$1,200
GPU	2x NVIDIA RTX 4090 24GB o 1x A6000 48GB	$3,600-$5,500
Almacenamiento	8 TB NVMe (RAID 0 para velocidad o RAID 1 para redundancia)	$600-$1,000
Motherboard + PSU (1200W+) + Gabinete	Chasis de servidor/workstation	$1,000-$1,500
Total		~$7,200-$12,200

Equivalente en servidor/workstation pre-armado: $15,000-$25,000+ de OEMs principales.

Las configuraciones multi-GPU permiten inferencia paralela (diferentes modelos en diferentes GPUs) o tamaños de modelo mayores (32B+ vía paralelismo de tensores). Dos RTX 4090 proporcionan 48 GB de VRAM total — suficiente para modelos 32B con cuantización Q8.

"¿Necesitamos una A100?"

La NVIDIA A100 (40 GB u 80 GB) cuesta $10,000-$15,000 por unidad. Está diseñada para cargas de trabajo de entrenamiento que se benefician del alto ancho de banda de memoria (2 TB/s en la variante de 80 GB) y tensor cores grandes.

Para preparación de datos, las fortalezas de la A100 son en gran medida irrelevantes:

Ancho de banda de memoria: La inferencia de preparación de datos usa tamaños de lote pequeños (frecuentemente 1), así que el ancho de banda de memoria importa menos que durante el entrenamiento.
Tensor cores: La inferencia con lotes pequeños no satura los tensor cores. La ventaja de throughput FP16 de la A100 sobre GPUs de consumo se desperdicia con tamaño de lote 1.
VRAM: La variante de 80 GB es útil para modelos muy grandes (70B+), pero estos modelos son más lentos para tareas de etiquetado y rara vez más precisos que los modelos 14B en clasificación y extracción.

Una RTX 4090 (24 GB de VRAM, $1,800) proporciona 80-90% del rendimiento de inferencia de la A100 para tareas de preparación de datos al 12-15% del costo. Dos RTX 4090 ($3,600) proporcionan más VRAM total y throughput comparable.

Guarda el presupuesto de la A100 para ejecuciones de entrenamiento reales.

Soporte de NPU para hardware más nuevo

Las Unidades de Procesamiento Neural (NPUs) están apareciendo en CPUs recientes de laptop y escritorio — Intel Meteor Lake y Arrow Lake, AMD Ryzen AI, Qualcomm Snapdragon X Elite. Estos aceleradores de inferencia dedicados prometen inferencia local eficiente de IA sin una GPU discreta.

Estado actual para preparación de datos:

Throughput: Las NPUs en 2026 entregan 10-45 TOPS, comparado con 100+ TOPS para una GPU de rango medio. Adecuadas para modelos livianos (1B-3B parámetros) pero demasiado lentas para modelos 7B+ que requiere el etiquetado de preparación de datos.
Soporte de software: Ollama y llama.cpp tienen soporte experimental de NPU. La estabilidad varía por fabricante de hardware. ONNX Runtime proporciona la compatibilidad más amplia con NPU.
Caso de uso: Las NPUs son útiles para inferencia edge en modelos desplegados. Para preparación de datos — donde estás procesando documentos en lote, no sirviendo solicitudes en tiempo real — una GPU discreta es más práctica.

Las NPUs se volverán más relevantes a medida que su calificación de TOPS aumente y el soporte de software madure. Por ahora, planifica alrededor de inferencia basada en GPU para cargas de trabajo de preparación de datos.

Dimensionamiento de RAM para procesamiento de documentos grandes

La RAM del sistema es el cuello de botella silencioso que toma por sorpresa a los equipos:

Procesamiento de PDF: Un PDF de 200 páginas con imágenes incrustadas puede consumir 1-2 GB durante el parsing. Procesar 16 archivos concurrentemente requiere 16-32 GB solo para buffers de PDF.
Deduplicación: La deduplicación difusa sobre 5 millones de documentos requiere 10-20 GB para almacenamiento de firmas.
Contexto de LLM: Aunque el modelo corre en GPU, la aplicación ensambla prompts en RAM del sistema. Documentos largos con ventanas de contexto extensas (8K-32K tokens) consumen 100-500 MB por inferencia concurrente.
Overhead del SO y aplicación: 4-8 GB para el SO, runtime de la aplicación y cachés del sistema de archivos.

Regla de dimensionamiento: Comienza en 32 GB. Sube a 64 GB para cargas de trabajo de producción. Sube a 128 GB+ solo para procesamiento concurrente de conjuntos de documentos muy grandes (10 millones+ de documentos) o configuraciones de inferencia multi-GPU.

Integrando todo

La arquitectura de escritorio nativa de Ertas Data Suite accede a todo este hardware directamente — CPU, GPU, NPU y sistema de archivos — sin la sobrecarga de capas de contenedores o virtualización. La aplicación detecta el hardware disponible al iniciar y configura las etapas del pipeline en consecuencia: OCR acelerado por GPU cuando una GPU está presente, respaldo por CPU cuando no.

Para proveedores de servicios dimensionando hardware para un engagement con cliente, el nivel medio ($5,000-$8,000 como workstation pre-armada) maneja la gran mayoría de proyectos de preparación de datos. Comienza ahí. Si el throughput de OCR o la velocidad de etiquetado se convierte en un cuello de botella medido en un engagement específico, actualiza la GPU. No pre-compres para escala hipotética.

La decisión de hardware debería seguir a la evaluación de datos, no precederla. Conoce tus tipos de documentos, volúmenes y complejidad de etiquetado antes de seleccionar componentes. Un archivo de 500 GB de PDFs de texto limpio tiene requisitos completamente diferentes a un archivo de 50 GB de formularios manuscritos escaneados.