
Dimensionamiento de hardware para preparación de datos on-prem: Requisitos de CPU, GPU y memoria
Recomendaciones concretas de hardware para preparación de datos de IA on-prem — requisitos de CPU, GPU, RAM y almacenamiento por etapa del pipeline con tres niveles de presupuesto desde $3K hasta $20K+.
"¿Necesitamos una A100?" es la pregunta de hardware más común de clientes empresariales que inician un proyecto de preparación de datos. La respuesta es casi siempre no.
Las cargas de trabajo de preparación de datos — ingestión, OCR, limpieza, etiquetado, aumento, exportación — tienen perfiles de cómputo diferentes al entrenamiento de modelos. Las ejecuciones de entrenamiento se benefician del paralelismo masivo de GPU y alto ancho de banda de memoria. La preparación de datos es secuencial, intensiva en I/O, y frecuentemente está limitada por la velocidad del disco más que por el cómputo. El hardware correcto para entrenamiento es usualmente excesivo y sub-optimizado para preparación de datos.
Esta guía cubre los requisitos específicos de hardware para cada etapa del pipeline y proporciona recomendaciones concretas en tres niveles de presupuesto.
Requisitos por etapa del pipeline
Ingestión: CPU + I/O
La ingestión lee documentos fuente (PDFs, archivos Word, imágenes, hojas de cálculo, HTML) y extrae su contenido en un formato normalizado. El trabajo es intensivo en parsing e I/O.
CPU: 4+ núcleos para procesamiento paralelo de archivos. La mayoría de los parsers de documentos son single-threaded por archivo, así que el paralelismo viene de procesar múltiples archivos concurrentemente. La velocidad de reloj importa más que la cantidad de núcleos para el throughput individual por archivo.
RAM: 16 GB mínimo. PDFs grandes (100+ páginas con imágenes incrustadas) pueden consumir 500 MB-2 GB cada uno durante el parsing. Procesar múltiples archivos grandes concurrentemente multiplica esto.
Almacenamiento: Este es el cuello de botella principal. NVMe SSD entrega 3-7 GB/s de lectura secuencial. SATA SSD entrega 500-550 MB/s. HDD entrega 100-200 MB/s. Para un archivo de documentos de 500 GB, la diferencia entre NVMe y HDD es 2 minutos vs. 40+ minutos para throughput bruto de lectura (el tiempo real de parsing es mayor, pero la I/O domina).
GPU: No requerida para ingestión.
OCR: GPU altamente recomendada
OCR convierte documentos escaneados e imágenes en texto legible por máquina. Es la etapa más intensiva en cómputo para datasets con muchos documentos.
| Motor | Hardware | Velocidad (páginas/seg) | Precisión |
|---|---|---|---|
| Tesseract 5 | CPU (8 núcleos) | 1-3 | Buena para escaneos limpios |
| PaddleOCR | CPU | 3-5 | Mejor para layouts variados |
| PaddleOCR | GPU (RTX 4070) | 15-25 | Mejor para layouts variados |
| EasyOCR | GPU (RTX 4070) | 10-20 | Buen soporte multilingüe |
| Surya OCR | GPU (RTX 4070) | 20-30 | Fuerte en layouts complejos |
Cálculo de OCR solo con CPU: Un archivo de 100,000 páginas a 2 páginas/segundo = ~14 horas. A 20 páginas/segundo con GPU = ~1.4 horas. Para ingestión única, 14 horas durante la noche puede ser aceptable. Para flujos de trabajo iterativos donde estás reprocesando después de ajustar configuraciones de OCR, la aceleración por GPU importa.
GPU: 8 GB de VRAM mínimo para OCR acelerado por GPU. 12 GB preferidos para procesamiento por lotes con buffers de página más grandes.
RAM: 32 GB recomendados. Los motores de OCR cargan pesos de modelo en memoria junto con los buffers de página.
Limpieza: CPU + RAM alta
La limpieza incluye deduplicación, normalización de formato, detección de PII y filtrado de calidad.
Deduplicación exacta (basada en hash): Limitada por CPU, baja memoria. Calcula un hash por documento, compara hashes. Un millón de documentos toma segundos.
Deduplicación difusa (MinHash/SimHash): Intensiva en CPU y memoria. MinHash con 128 permutaciones sobre 1 millón de documentos requiere ~2-4 GB de RAM para la matriz de firmas. A 10 millones de documentos, esto crece a 20-40 GB.
Detección de PII: La detección de PII basada en regex es rápida y ligera para la CPU. La detección de PII basada en NER (usando un modelo pequeño como GLiNER o un modelo NER ajustado) agrega requisitos de GPU: 2-4 GB de VRAM para un modelo NER típico.
RAM: 32 GB como base. 64 GB para datasets que excedan 1 millón de documentos o cuando se ejecute detección de PII basada en NER junto con deduplicación.
Etiquetado con LLM local: GPU requerida
El etiquetado asistido por IA — donde un LLM local pre-anota documentos que humanos luego revisan — es la etapa sobre la que más preguntan las personas al planificar hardware.
| Tamaño del modelo | Cuantización | VRAM requerida | Velocidad (tokens/seg) | Notas |
|---|---|---|---|---|
| 7B (Mistral, Llama 3.1) | Q4_K_M | 4-5 GB | 30-60 | Bueno para clasificación, extracción simple |
| 7B | Q8_0 | 7-8 GB | 25-45 | Mejor precisión, aún rápido |
| 14B (Qwen 2.5, Llama 3.1) | Q4_K_M | 8-10 GB | 20-35 | Mejor para etiquetado con matices |
| 14B | Q8_0 | 14-16 GB | 15-25 | Mejor calidad en rango medio |
| 32B (Qwen 2.5) | Q4_K_M | 18-20 GB | 10-18 | Rendimientos decrecientes para la mayoría de tareas de etiquetado |
El techo práctico: Para etiquetado de preparación de datos (clasificación, extracción de entidades, sentimiento, asignación de temas), los modelos 7B-14B proporcionan 90-95% de la precisión de modelos más grandes a 2-4x el throughput. Pasar a modelos de 30B+ rara vez mejora la calidad de etiquetado lo suficiente para justificar el costo de hardware y la reducción de velocidad.
GPU: 8 GB de VRAM mínimo (para 7B Q4). 16 GB de VRAM recomendados (para 14B Q4 o 7B Q8). RTX 4060 Ti 16GB, RTX 4070 o RTX 4080 son los puntos óptimos en relación precio-VRAM.
RAM del sistema: 32 GB mínimo. El modelo corre en GPU, pero la aplicación necesita memoria para procesamiento de documentos, ensamblaje de contexto y gestión de lotes.
Aumento: GPU para generación basada en LLM
La generación de datos sintéticos y el aumento usan la misma infraestructura de LLM local que el etiquetado pero con salidas más largas. Generar un documento sintético de 500 palabras toma 5-10x más tiempo que generar una etiqueta de clasificación.
Los requisitos de hardware son los mismos que para la etapa de etiquetado. Si dimensionaste para etiquetado, estás dimensionado para aumento. La diferencia es el throughput: espera 5-15 documentos sintéticos por minuto a 7B Q4, menos con tamaños de modelo mayores.
Exportación: Limitada por I/O
La exportación convierte datos procesados en formatos de entrenamiento. El cuello de botella es la velocidad de escritura.
Almacenamiento: NVMe SSD para salida. Escribir 100 GB de JSONL toma 15-30 segundos en NVMe, 3-5 minutos en SATA SSD.
CPU: Moderado. La compresión (gzip, zstd) agrega carga de CPU. 4+ núcleos manejan compresión paralela.
RAM: 16 GB suficiente para la mayoría de operaciones de exportación.
Tres niveles de hardware
Nivel de entrada (~$3,000)
Caso de uso: Datasets pequeños (menos de 100 GB fuente), documentos predominantemente de texto, etiquetado manual o con asistencia ligera de IA.
| Componente | Especificación | Costo est. |
|---|---|---|
| CPU | AMD Ryzen 7 7700 o Intel i7-13700 (8-16 núcleos) | $300-$350 |
| RAM | 32 GB DDR5-5600 | $100-$130 |
| GPU | NVIDIA RTX 4060 Ti 16GB | $400-$450 |
| Almacenamiento | 2 TB NVMe SSD (Gen4) | $120-$150 |
| Motherboard + PSU + Gabinete | Ensamblaje mid-tower | $400-$500 |
| Total | ~$1,500-$1,700 |
O una workstation pre-armada de Dell/HP/Lenovo a ~$2,500-$3,500 para una especificación comparable con garantía y soporte.
Este nivel maneja proyectos de prueba de concepto, engagements pequeños con clientes y datasets dominados por texto. La inferencia de LLM solo con CPU es posible (vía llama.cpp en modo CPU) pero lenta — planifica para 2-5 tokens/segundo a 7B.
Nivel medio (~$8,000)
Caso de uso: Preparación de datos en producción, 100 GB-1 TB de datos fuente, OCR y etiquetado acelerados por GPU.
| Componente | Especificación | Costo est. |
|---|---|---|
| CPU | AMD Ryzen 9 7950X o Intel i9-13900K (16-24 núcleos) | $450-$550 |
| RAM | 64 GB DDR5-5600 | $200-$260 |
| GPU | NVIDIA RTX 4080 16GB o RTX 4090 24GB | $1,000-$1,800 |
| Almacenamiento | 4 TB NVMe SSD (Gen4) | $250-$300 |
| Motherboard + PSU (850W+) + Gabinete | Ensamblaje de calidad | $600-$800 |
| Total | ~$2,500-$3,700 |
Equivalente en workstation pre-armada: $5,000-$8,000 de OEMs principales.
Este es el nivel de trabajo pesado para proveedores de servicios. Maneja OCR acelerado por GPU a 15-25 páginas/segundo, ejecuta modelos 14B a Q4 cómodamente y procesa datasets de 100 GB+ sin cuello de botella en RAM. La mayoría de los engagements de preparación de datos empresariales están completamente cubiertos por esta configuración.
Nivel de producción (~$20,000+)
Caso de uso: Preparación de datos a gran escala (1 TB+ fuente), etapas de pipeline concurrentes, inferencia de modelos 14B+ con alto throughput.
| Componente | Especificación | Costo est. |
|---|---|---|
| CPU | AMD Threadripper 7970X (32 núcleos) o dual Xeon | $1,500-$3,000 |
| RAM | 128-256 GB DDR5 ECC | $500-$1,200 |
| GPU | 2x NVIDIA RTX 4090 24GB o 1x A6000 48GB | $3,600-$5,500 |
| Almacenamiento | 8 TB NVMe (RAID 0 para velocidad o RAID 1 para redundancia) | $600-$1,000 |
| Motherboard + PSU (1200W+) + Gabinete | Chasis de servidor/workstation | $1,000-$1,500 |
| Total | ~$7,200-$12,200 |
Equivalente en servidor/workstation pre-armado: $15,000-$25,000+ de OEMs principales.
Las configuraciones multi-GPU permiten inferencia paralela (diferentes modelos en diferentes GPUs) o tamaños de modelo mayores (32B+ vía paralelismo de tensores). Dos RTX 4090 proporcionan 48 GB de VRAM total — suficiente para modelos 32B con cuantización Q8.
"¿Necesitamos una A100?"
La NVIDIA A100 (40 GB u 80 GB) cuesta $10,000-$15,000 por unidad. Está diseñada para cargas de trabajo de entrenamiento que se benefician del alto ancho de banda de memoria (2 TB/s en la variante de 80 GB) y tensor cores grandes.
Para preparación de datos, las fortalezas de la A100 son en gran medida irrelevantes:
- Ancho de banda de memoria: La inferencia de preparación de datos usa tamaños de lote pequeños (frecuentemente 1), así que el ancho de banda de memoria importa menos que durante el entrenamiento.
- Tensor cores: La inferencia con lotes pequeños no satura los tensor cores. La ventaja de throughput FP16 de la A100 sobre GPUs de consumo se desperdicia con tamaño de lote 1.
- VRAM: La variante de 80 GB es útil para modelos muy grandes (70B+), pero estos modelos son más lentos para tareas de etiquetado y rara vez más precisos que los modelos 14B en clasificación y extracción.
Una RTX 4090 (24 GB de VRAM, $1,800) proporciona 80-90% del rendimiento de inferencia de la A100 para tareas de preparación de datos al 12-15% del costo. Dos RTX 4090 ($3,600) proporcionan más VRAM total y throughput comparable.
Guarda el presupuesto de la A100 para ejecuciones de entrenamiento reales.
Soporte de NPU para hardware más nuevo
Las Unidades de Procesamiento Neural (NPUs) están apareciendo en CPUs recientes de laptop y escritorio — Intel Meteor Lake y Arrow Lake, AMD Ryzen AI, Qualcomm Snapdragon X Elite. Estos aceleradores de inferencia dedicados prometen inferencia local eficiente de IA sin una GPU discreta.
Estado actual para preparación de datos:
- Throughput: Las NPUs en 2026 entregan 10-45 TOPS, comparado con 100+ TOPS para una GPU de rango medio. Adecuadas para modelos livianos (1B-3B parámetros) pero demasiado lentas para modelos 7B+ que requiere el etiquetado de preparación de datos.
- Soporte de software: Ollama y llama.cpp tienen soporte experimental de NPU. La estabilidad varía por fabricante de hardware. ONNX Runtime proporciona la compatibilidad más amplia con NPU.
- Caso de uso: Las NPUs son útiles para inferencia edge en modelos desplegados. Para preparación de datos — donde estás procesando documentos en lote, no sirviendo solicitudes en tiempo real — una GPU discreta es más práctica.
Las NPUs se volverán más relevantes a medida que su calificación de TOPS aumente y el soporte de software madure. Por ahora, planifica alrededor de inferencia basada en GPU para cargas de trabajo de preparación de datos.
Dimensionamiento de RAM para procesamiento de documentos grandes
La RAM del sistema es el cuello de botella silencioso que toma por sorpresa a los equipos:
- Procesamiento de PDF: Un PDF de 200 páginas con imágenes incrustadas puede consumir 1-2 GB durante el parsing. Procesar 16 archivos concurrentemente requiere 16-32 GB solo para buffers de PDF.
- Deduplicación: La deduplicación difusa sobre 5 millones de documentos requiere 10-20 GB para almacenamiento de firmas.
- Contexto de LLM: Aunque el modelo corre en GPU, la aplicación ensambla prompts en RAM del sistema. Documentos largos con ventanas de contexto extensas (8K-32K tokens) consumen 100-500 MB por inferencia concurrente.
- Overhead del SO y aplicación: 4-8 GB para el SO, runtime de la aplicación y cachés del sistema de archivos.
Regla de dimensionamiento: Comienza en 32 GB. Sube a 64 GB para cargas de trabajo de producción. Sube a 128 GB+ solo para procesamiento concurrente de conjuntos de documentos muy grandes (10 millones+ de documentos) o configuraciones de inferencia multi-GPU.
Integrando todo
La arquitectura de escritorio nativa de Ertas Data Suite accede a todo este hardware directamente — CPU, GPU, NPU y sistema de archivos — sin la sobrecarga de capas de contenedores o virtualización. La aplicación detecta el hardware disponible al iniciar y configura las etapas del pipeline en consecuencia: OCR acelerado por GPU cuando una GPU está presente, respaldo por CPU cuando no.
Para proveedores de servicios dimensionando hardware para un engagement con cliente, el nivel medio ($5,000-$8,000 como workstation pre-armada) maneja la gran mayoría de proyectos de preparación de datos. Comienza ahí. Si el throughput de OCR o la velocidad de etiquetado se convierte en un cuello de botella medido en un engagement específico, actualiza la GPU. No pre-compres para escala hipotética.
La decisión de hardware debería seguir a la evaluación de datos, no precederla. Conoce tus tipos de documentos, volúmenes y complejidad de etiquetado antes de seleccionar componentes. Un archivo de 500 GB de PDFs de texto limpio tiene requisitos completamente diferentes a un archivo de 50 GB de formularios manuscritos escaneados.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Premise Runtime Architecture for Enterprise AI Data Preparation
Architectural guide for running AI data preparation on-premise — deployment models, compute tiers, local LLM inference, and storage strategies for enterprise datasets.

How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning
A complete guide to building on-premise data preparation pipelines for LLM fine-tuning — covering the 5 stages from ingestion to export, tool comparisons, and architecture for regulated environments.

Multi-Client Project Isolation in On-Premise Data Prep Pipelines
How ML service providers can manage 5–20 client projects simultaneously with proper data isolation, audit trails, and zero cross-contamination.