
Ejecutando Modelos Ajustados en Hardware Empresarial: Guía CPU vs GPU vs NPU
Una guía técnica comparando CPUs, GPUs y NPUs para ejecutar modelos de lenguaje pequeños ajustados en entornos empresariales. Incluye benchmarks de rendimiento, análisis de costos y un marco de decisión para equipos de infraestructura.
Ajustaste tu modelo de lenguaje pequeño. Funciona bien en tus benchmarks. Ahora viene la pregunta de infraestructura: ¿en qué hardware deberías ejecutarlo?
No es tan simple como "solo compra GPUs." La respuesta correcta depende de tu escala de despliegue, tamaño del modelo, requisitos de latencia e infraestructura existente. Un modelo de 3B parámetros sirviendo a un solo equipo tiene necesidades de hardware muy diferentes a un modelo de 14B sirviendo a toda una organización.
Esta guía compara tres tipos de aceleradores — CPUs, GPUs y NPUs — con números reales de rendimiento, análisis de costos y un marco de decisión para equipos de infraestructura.
Los Tres Tipos de Aceleradores
CPU: La Línea Base Universal
Cada servidor en tu centro de datos tiene CPUs. Cada estación de trabajo, cada laptop, cada VM. Las CPUs son el recurso de cómputo más disponible en cualquier empresa, y las CPUs modernas con instrucciones AVX-512 o AMX (Advanced Matrix Extensions) pueden ejecutar SLMs cuantizados a velocidades utilizables.
Fortalezas:
- Cero adquisición de hardware adicional — ya los tienes
- Sin problemas de drivers, sin problemas de compatibilidad CUDA
- Escala horizontalmente a través de la flota de servidores existente
- Bien entendido por cualquier equipo de operaciones
Limitaciones:
- Significativamente más lento que las GPUs para operaciones matriciales
- Prácticamente limitado a modelos de menos de 3B parámetros para uso interactivo
- Mayor consumo de energía por token que aceleradores dedicados
Mejor para: Modelos pequeños (sub-3B), despliegues de bajo volumen, prototipado y situaciones donde quieres evitar la adquisición de GPUs por completo.
Shunya Labs y proveedores similares han demostrado arquitecturas CPU-first que afirman una reducción de costos de 20x comparadas con despliegues basados en GPU para cargas de trabajo apropiadas. El calificador clave es "apropiadas" — esto funciona para modelos pequeños a volumen moderado, no para ejecutar un modelo 14B a alto rendimiento.
GPU: El Estándar de Rendimiento
Las GPUs de NVIDIA siguen siendo la opción predeterminada para inferencia de IA, y con buena razón. La combinación de alto ancho de banda de memoria, paralelismo masivo y ecosistema de software maduro (CUDA, cuDNN, TensorRT) significa que las GPUs ofrecen el mejor rendimiento bruto para inferencia de modelos de lenguaje.
Los niveles relevantes de GPU para despliegue empresarial de SLM:
| GPU | VRAM | FP16 TFLOPS | Precio (aprox.) | Uso Objetivo |
|---|---|---|---|---|
| RTX 4060 Ti | 16GB | 22 | $400–$500 | Usuario único, modelos pequeños |
| RTX 4090 | 24GB | 83 | $1,600–$2,000 | Equipo pequeño, hasta modelos 14B |
| L40S | 48GB | 91 | $7,000–$9,000 | Departamento, servicio multi-modelo |
| A100 | 40/80GB | 78/78 | $8,000–$15,000 | Producción de alto rendimiento |
| H100 | 80GB | 267 | $25,000–$35,000 | Toda la organización, máximo rendimiento |
La MI300X de AMD (192GB HBM3) está emergiendo como alternativa rentable al H100 de NVIDIA, particularmente para cargas de inferencia donde el stack de software ROCm de AMD ha madurado lo suficiente para ser viable en producción. El precio se sitúa entre los niveles del A100 y H100 con rendimiento competitivo.
Fortalezas:
- Mayor rendimiento absoluto para modelos de cualquier tamaño
- Ecosistema de software maduro con herramientas extensas de optimización
- Escala desde usuario único (RTX 4060) hasta empresa (clúster H100)
- Soporta tanto inferencia como fine-tuning en el mismo hardware
Limitaciones:
- Costo de adquisición, especialmente para GPUs de centro de datos
- Consumo de energía (300–700W por tarjeta para GPUs de centro de datos)
- Gestión de drivers de GPU y versiones de CUDA a través de una flota
- Restricciones de suministro para tarjetas de alta gama (aunque mejorando en 2026)
Mejor para: Cualquier despliegue donde el rendimiento o tamaño del modelo exceda lo que CPUs o NPUs pueden manejar. Esta es la opción predeterminada para modelos 7B+ a cualquier volumen significativo.
NPU: La Jugada de Eficiencia
Las Unidades de Procesamiento Neural son aceleradores de inferencia dedicados integrados en procesadores modernos. A diferencia de las GPUs (que son procesadores paralelos de propósito general adaptados para IA), las NPUs están diseñadas específicamente para las operaciones matriciales y patrones de acceso a memoria de la inferencia de redes neuronales.
Implementaciones actuales de NPU:
| NPU | Presente En | TOPS (INT8) | Potencia | Estado |
|---|---|---|---|---|
| Intel NPU (Meteor Lake) | Laptops/estaciones Intel Core Ultra | 10–11 | 5–15W | Disponible |
| Intel NPU (Arrow Lake) | Serie Intel Core Ultra 200 | 13 | 5–15W | Disponible |
| Qualcomm Hexagon (Snapdragon X) | Laptops Snapdragon X Elite/Plus | 45 | 15–25W | Disponible |
| Apple Neural Engine (M4) | MacBooks M4/M4 Pro/M4 Max | 38 | 10–20W | Disponible |
| AMD XDNA 2 (Ryzen AI) | Serie AMD Ryzen AI 300 | 50 | 15–25W | Disponible |
Fortalezas:
- Consumo de energía dramáticamente menor que las GPUs
- Integrado en hardware que tu empresa puede estar comprando (nuevas laptops y estaciones de trabajo)
- Sin adquisición separada — está en el chip
- Operación silenciosa (sin ruido de ventilador de GPU en entornos de oficina)
- Suficientemente bueno para inferencia interactiva de un solo usuario con SLMs cuantizados
Limitaciones:
- Menor rendimiento absoluto que GPUs discretas
- Ecosistema de software aún madurando (soporte de frameworks varía)
- Limitado a modelos más pequeños (techo práctico alrededor de 7B cuantizado)
- El rendimiento varía significativamente entre proveedores
- Servicio multi-usuario no es práctico — las NPUs están diseñadas para cargas de un solo usuario
Mejor para: Despliegue en estaciones de trabajo individuales, inferencia en el borde, escenarios donde los modelos se ejecutan en laptops/escritorios de empleados sin requerir infraestructura de servidor.
La iniciativa Foundry Local de Microsoft proporciona una señal útil aquí: está diseñada para ejecutar modelos localmente en PCs Windows, apuntando exactamente al hardware NPU y GPU integrada en dispositivos modernos. Cuando un gran proveedor de plataforma optimiza para hardware específico, es un indicador confiable de hacia dónde se dirige el ecosistema.
Benchmarks de Rendimiento
Aquí es donde la comparación abstracta se vuelve concreta. Los siguientes benchmarks muestran tokens por segundo para un modelo 7B cuantizado (cuantización Q4_K_M, un buen equilibrio de calidad y velocidad) en diferente hardware.
Tokens Por Segundo — Modelo 7B Cuantizado (Q4_K_M)
| Hardware | Tokens/Segundo | Notas |
|---|---|---|
| CPU: Xeon W 32-core (servidor) | 8–15 tok/s | Usando llama.cpp con AVX-512 |
| CPU: Intel Core Ultra 7 (laptop) | 5–10 tok/s | Usando llama.cpp |
| CPU: AMD Ryzen 9 7950X (desktop) | 10–18 tok/s | 16 cores, memoria rápida ayuda |
| GPU: RTX 4060 Ti (16GB) | 60–80 tok/s | GPU discreta nivel de entrada |
| GPU: RTX 4090 (24GB) | 80–120 tok/s | Mejor GPU de consumidor |
| GPU: A100 (40GB) | 100–150 tok/s | Estándar de centro de datos |
| GPU: H100 (80GB) | 150–200 tok/s | Pico de rendimiento por GPU |
| NPU: Qualcomm Snapdragon X Elite | 20–40 tok/s | NPU Hexagon, depende del framework |
| NPU: Apple M4 Max (Neural Engine) | 40–60 tok/s | La arquitectura de memoria unificada ayuda |
| NPU: Intel Core Ultra (NPU Meteor Lake) | 8–15 tok/s | Generación temprana de NPU, mejorando |
Qué Significan Estos Números en la Práctica
Para uso interactivo (chatbot, análisis de documentos donde un humano espera):
- Cómodo: 30+ tokens/segundo. El usuario ve una respuesta rápida y fluida.
- Aceptable: 15–30 tokens/segundo. Velocidad de generación notable pero aún usable.
- Frustrante: Menos de 15 tokens/segundo. El usuario ve el texto aparecer palabra por palabra.
Para procesamiento por lotes (clasificación de documentos, trabajos de extracción nocturnos):
- El rendimiento importa más que la velocidad por consulta
- Una CPU haciendo 10 tok/s puede procesar miles de documentos durante la noche
- El paralelismo a través de múltiples cores de CPU o instancias de GPU escala linealmente
Los Modelos Más Pequeños Cambian la Ecuación
Los benchmarks anteriores son para un modelo 7B. Los modelos más pequeños se ejecutan proporcionalmente más rápido:
| Hardware | 7B (Q4) tok/s | 3.8B (Q4) tok/s | 1.5B (Q4) tok/s |
|---|---|---|---|
| CPU: Xeon 32-core | 8–15 | 15–30 | 30–60 |
| GPU: RTX 4090 | 80–120 | 140–200 | 250–400 |
| NPU: Snapdragon X Elite | 20–40 | 40–70 | 60–100 |
| Apple M4 Max | 40–60 | 70–100 | 100–160 |
Un modelo 3.8B (como Phi-3 mini) en una CPU de laptop moderna entrega 15–30 tokens/segundo — cómodo para uso interactivo. En una NPU o Apple Silicon, son 40–100 tokens/segundo, lo suficientemente rápido como para que el usuario apenas note la latencia de generación.
Costo Por Token
La velocidad bruta no cuenta toda la historia. Lo que importa para la planificación presupuestaria es la eficiencia de costos: ¿cuánto cuesta cada token cuando amortizas el hardware durante su vida útil?
Costo Por Millón de Tokens (Amortizado en 3 Años)
Supuestos: el hardware funciona al 70% de utilización durante 12 horas/día, costo de energía $0.12/kWh.
| Hardware | Costo del Hardware | Amortizado Mensual | Energía/Mes | Tokens/Mes (est.) | Costo por 1M Tokens |
|---|---|---|---|---|---|
| CPU: Servidor Xeon 32-core | $5,000 | $139 | $40 | 130M | $1.38 |
| GPU: RTX 4090 + servidor | $6,000 | $167 | $55 | 1.3B | $0.17 |
| GPU: L40S + servidor | $13,000 | $361 | $70 | 1.9B | $0.23 |
| GPU: A100 + servidor | $18,000 | $500 | $80 | 2.4B | $0.24 |
| GPU: H100 + servidor | $38,000 | $1,056 | $120 | 3.2B | $0.37 |
| NPU: Laptop (Snapdragon X) | $1,500 | $42 | $8 | 52M | $0.96 |
| NPU: MacBook Pro M4 Max | $3,500 | $97 | $10 | 96M | $1.11 |
Algunos patrones emergen:
La RTX 4090 es la campeona de eficiencia de costos. A $0.17 por millón de tokens, entrega el menor costo por token de cualquier opción. Esta es una GPU de consumidor de $1,600 en un servidor de $4,400 — costo total del sistema alrededor de $6,000. Para despliegues pequeños a medianos, es difícil de superar.
Las GPUs de centro de datos (A100, H100) intercambian eficiencia de costos por rendimiento y confiabilidad. La H100 cuesta 2x por token comparada con la RTX 4090, pero entrega mayor rendimiento absoluto, soporta tamaños de lote más grandes, tiene memoria ECC y está diseñada para operación 24/7 en centro de datos. Para cargas de producción críticas, la prima está justificada.
Las CPUs son las más caras por token pero tienen cero costo incremental de hardware si estás usando servidores existentes. Si tus servidores tienen capacidad CPU ociosa durante horas no laborales, el costo marginal de ejecutar inferencia es esencialmente solo energía — $40/mes.
Las NPUs están en rango medio de costo pero su valor real es la simplicidad de despliegue. Sin infraestructura de servidor, sin adquisición de GPU, sin refrigeración dedicada. El modelo se ejecuta en la misma laptop que el empleado ya usa.
El Factor de Cuantización
La cuantización es la técnica de reducir los pesos del modelo de su precisión original (usualmente FP16 o BF16, 16 bits por peso) a menor precisión (8, 5 o 4 bits). Esto afecta directamente el tamaño del modelo, velocidad de inferencia y calidad del output.
Niveles de Cuantización Comparados (Modelo 7B)
| Cuantización | Bits/Peso | Tamaño del Modelo | Impacto en Velocidad | Impacto en Calidad |
|---|---|---|---|---|
| FP16 (sin cuant.) | 16 | ~14GB | Línea base | Línea base (mejor) |
| Q8_0 | 8 | ~7.5GB | ~1.5x más rápido | Pérdida de calidad insignificante |
| Q5_K_M | 5 | ~5.3GB | ~2x más rápido | Pérdida de calidad muy menor |
| Q4_K_M | 4 | ~4.4GB | ~2.5x más rápido | Pérdida de calidad menor, aceptable para la mayoría de tareas |
| Q4_0 | 4 | ~4.0GB | ~2.8x más rápido | Pérdida de calidad notable en tareas matizadas |
| Q3_K_M | 3 | ~3.3GB | ~3x más rápido | Pérdida de calidad significativa |
| Q2_K | 2 | ~2.7GB | ~3.5x más rápido | Pérdida de calidad sustancial, no recomendado |
El Punto Dulce Empresarial: Q4_K_M
Para la mayoría de las cargas de trabajo empresariales, Q4_K_M proporciona el equilibrio óptimo:
- Reducción de tamaño: 3.2x más pequeño que FP16, cabiendo en 4–5GB de VRAM para un modelo 7B
- Mejora de velocidad: Inferencia 2–2.5x más rápida que FP16
- Retención de calidad: Degradación mínima en tareas estructuradas (clasificación, extracción). Las caídas de precisión típicamente son menos del 1% comparado con FP16 en tareas empresariales específicas.
¿Cuándo deberías usar mayor precisión?
- Q5_K_M: Si tu tarea involucra generación de texto matizada o tu fine-tuning mostró sensibilidad a la cuantización. Cuesta ~20% más de VRAM por una mejora marginal de calidad.
- Q8_0: Para evaluación y benchmarking para establecer un techo de calidad, o para tareas donde cada fracción de porcentaje de precisión importa (decisiones críticas médicas, legales).
- FP16: Casi nunca para inferencia en producción. La penalización de rendimiento no justifica la ganancia marginal de calidad en cargas de producción.
¿Cuándo puedes ir más bajo?
- Q3_K_M o Q2_K: Solo cuando las restricciones de hardware lo requieren absolutamente (ej., ejecutar en un dispositivo con 2GB de memoria disponible). La compensación de calidad es real y medible. Prueba exhaustivamente antes de desplegar.
Marco de Decisión
Así es como emparejar tu escenario de despliegue con el hardware correcto.
Estación de Trabajo de Usuario Único
Escenario: Un empleado usando un modelo ajustado para su trabajo diario — análisis de documentos, clasificación de correos, revisión de código.
Recomendación:
- Si tiene una laptop moderna (2024+): Usa la NPU o GPU integrada. Despliega un modelo 3.8B cuantizado Q4 (Phi-3 mini) vía Ollama. No se necesita hardware adicional.
- Si tiene un escritorio con GPU: Cualquier GPU discreta con 8GB+ de VRAM ejecuta un modelo 7B Q4 cómodamente. Incluso una RTX 3060 (12GB) funciona bien.
- Si no tiene GPU y CPU antiguo: Quédate con un modelo 1.5B o 3B en cuantización Q4, o considera una actualización a Snapdragon X o Mac M4.
Rendimiento esperado: 15–60 tokens/segundo dependiendo del tamaño del modelo y hardware. Suficiente para uso interactivo.
Equipo Pequeño (5–20 Usuarios)
Escenario: Un equipo compartiendo un modelo ajustado para una carga de trabajo común — revisión de contratos legales, triaje de soporte al cliente, verificación de cumplimiento.
Recomendación:
- Opción económica: Una sola RTX 4090 en un servidor del equipo. $6,000 total. Maneja 5–15 usuarios concurrentes en un modelo 7B Q4 con latencia aceptable.
- Opción de producción: Una sola L40S en un servidor rackmount. $13,000 total. Maneja 15–30 usuarios concurrentes con margen para tráfico de picos.
Rendimiento esperado: 30–80 tokens/segundo por usuario (dependiendo de la concurrencia), con latencia sub-100ms para consultas cortas.
Departamento (50–200 Usuarios)
Escenario: Despliegue a nivel departamental — todos los agentes de soporte al cliente, todos los analistas, todo el personal legal.
Recomendación:
- 2–4 RTX 4090s en un servidor multi-GPU, o 1–2 tarjetas L40S. Ejecuta vLLM para scheduling eficiente de lotes y batching continuo.
- Costo total: $15,000–$30,000 por el servidor.
- Con 200 usuarios concurrentes, espera 15–30 tokens/segundo por usuario con batching apropiado.
Rendimiento esperado: Comparable a la latencia de API en la nube (100–300ms por consulta corta) con la ventaja de costos del hardware local.
Toda la Organización (500+ Usuarios)
Escenario: Despliegue a nivel de toda la empresa de uno o más modelos ajustados, posiblemente sirviendo múltiples aplicaciones.
Recomendación:
- Clúster GPU: 4–8 GPUs de centro de datos (A100 o H100) en un servidor dedicado o rack pequeño.
- Usa vLLM o TGI con balanceo de carga entre instancias de GPU.
- Considera redundancia: configuración N+1 de GPU para failover.
- Costo total: $80,000–$200,000 para infraestructura, que se paga sola en 3–6 meses contra costos equivalentes de API en la nube a este volumen.
Rendimiento esperado: Latencia y rendimiento competitivos con la nube, con soberanía de datos completa y sin costo marginal por token.
Consideraciones de Energía y Refrigeración
Los equipos de infraestructura frecuentemente pasan por alto la energía y refrigeración al planificar despliegues de GPU. Esto es lo que hay que presupuestar:
| Hardware | Consumo de Energía | Costo Anual de Energía (@$0.12/kWh) | Sobrecarga de Refrigeración |
|---|---|---|---|
| RTX 4090 | 450W TDP | ~$473 | HVAC de oficina estándar |
| L40S | 350W TDP | ~$368 | Refrigeración de rack |
| A100 | 300W TDP | ~$315 | Refrigeración de centro de datos |
| H100 | 700W TDP | ~$735 | Se requiere refrigeración de centro de datos |
| NPU (laptop) | 15–25W | ~$26 | Ninguna (pasiva) |
Para 1–4 GPUs, la infraestructura de oficina existente usualmente maneja la carga de energía y refrigeración. Más allá de eso, necesitarás espacio dedicado en rack con distribución de energía y capacidad de refrigeración apropiadas.
En Resumen
No hay un "mejor" hardware único para ejecutar modelos ajustados. La elección correcta se mapea directamente a tu escala de despliegue:
- Uso individual: NPU o CPU en el dispositivo que ya tienen. Costo: $0 incremental.
- Uso de equipo: Una sola RTX 4090 en un servidor compartido. Costo: ~$6,000.
- Uso departamental: Servidor multi-GPU con 2–4 GPUs. Costo: $15,000–$30,000.
- Toda la organización: Clúster GPU de centro de datos. Costo: $80,000–$200,000.
En todos los casos, el costo total de propiedad es una fracción del gasto equivalente en API en la nube al mismo volumen de consultas. La decisión de hardware no se trata de si desplegar on-premise — la economía ya lo favorece para cargas de alto volumen. Se trata de dimensionar correctamente el hardware a tu escala real y trayectoria de crecimiento.
Comienza con la configuración más pequeña que cumpla tus necesidades actuales. Un solo servidor con RTX 4090 es un experimento de $6,000 que puede servir a un equipo de 15 personas. Si los resultados justifican escalar, agrega capacidad incrementalmente. Los servidores GPU no requieren compromisos a largo plazo ni contratos multi-anuales — son equipamiento de capital que posees y puedes reutilizar.
El silicio está listo. Los modelos están listos. La decisión es un ejercicio directo de planificación de infraestructura, no una apuesta tecnológica.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

GPU Selection Guide for On-Premise AI: H100 vs A100 vs L40S vs Consumer GPUs
A detailed comparison of NVIDIA H100, A100, L40S, RTX 4090, and RTX 5090 GPUs for enterprise AI workloads. Includes performance benchmarks, cost analysis, power requirements, and use case recommendations for on-premise deployments.

Enterprise AI Capacity Planning: How to Size Your On-Premise Infrastructure
A step-by-step technical guide for sizing on-premise AI infrastructure. Covers compute, storage, network, and power requirements with a sizing worksheet and common planning mistakes to avoid.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.