Ejecutando Modelos Ajustados en Hardware Empresarial: Guía CPU vs GPU vs NPU

Ajustaste tu modelo de lenguaje pequeño. Funciona bien en tus benchmarks. Ahora viene la pregunta de infraestructura: ¿en qué hardware deberías ejecutarlo?

No es tan simple como "solo compra GPUs." La respuesta correcta depende de tu escala de despliegue, tamaño del modelo, requisitos de latencia e infraestructura existente. Un modelo de 3B parámetros sirviendo a un solo equipo tiene necesidades de hardware muy diferentes a un modelo de 14B sirviendo a toda una organización.

Esta guía compara tres tipos de aceleradores — CPUs, GPUs y NPUs — con números reales de rendimiento, análisis de costos y un marco de decisión para equipos de infraestructura.

Los Tres Tipos de Aceleradores

CPU: La Línea Base Universal

Cada servidor en tu centro de datos tiene CPUs. Cada estación de trabajo, cada laptop, cada VM. Las CPUs son el recurso de cómputo más disponible en cualquier empresa, y las CPUs modernas con instrucciones AVX-512 o AMX (Advanced Matrix Extensions) pueden ejecutar SLMs cuantizados a velocidades utilizables.

Fortalezas:

Cero adquisición de hardware adicional — ya los tienes
Sin problemas de drivers, sin problemas de compatibilidad CUDA
Escala horizontalmente a través de la flota de servidores existente
Bien entendido por cualquier equipo de operaciones

Limitaciones:

Significativamente más lento que las GPUs para operaciones matriciales
Prácticamente limitado a modelos de menos de 3B parámetros para uso interactivo
Mayor consumo de energía por token que aceleradores dedicados

Mejor para: Modelos pequeños (sub-3B), despliegues de bajo volumen, prototipado y situaciones donde quieres evitar la adquisición de GPUs por completo.

Shunya Labs y proveedores similares han demostrado arquitecturas CPU-first que afirman una reducción de costos de 20x comparadas con despliegues basados en GPU para cargas de trabajo apropiadas. El calificador clave es "apropiadas" — esto funciona para modelos pequeños a volumen moderado, no para ejecutar un modelo 14B a alto rendimiento.

GPU: El Estándar de Rendimiento

Las GPUs de NVIDIA siguen siendo la opción predeterminada para inferencia de IA, y con buena razón. La combinación de alto ancho de banda de memoria, paralelismo masivo y ecosistema de software maduro (CUDA, cuDNN, TensorRT) significa que las GPUs ofrecen el mejor rendimiento bruto para inferencia de modelos de lenguaje.

Los niveles relevantes de GPU para despliegue empresarial de SLM:

GPU	VRAM	FP16 TFLOPS	Precio (aprox.)	Uso Objetivo
RTX 4060 Ti	16GB	22	$400–$500	Usuario único, modelos pequeños
RTX 4090	24GB	83	$1,600–$2,000	Equipo pequeño, hasta modelos 14B
L40S	48GB	91	$7,000–$9,000	Departamento, servicio multi-modelo
A100	40/80GB	78/78	$8,000–$15,000	Producción de alto rendimiento
H100	80GB	267	$25,000–$35,000	Toda la organización, máximo rendimiento

La MI300X de AMD (192GB HBM3) está emergiendo como alternativa rentable al H100 de NVIDIA, particularmente para cargas de inferencia donde el stack de software ROCm de AMD ha madurado lo suficiente para ser viable en producción. El precio se sitúa entre los niveles del A100 y H100 con rendimiento competitivo.

Fortalezas:

Mayor rendimiento absoluto para modelos de cualquier tamaño
Ecosistema de software maduro con herramientas extensas de optimización
Escala desde usuario único (RTX 4060) hasta empresa (clúster H100)
Soporta tanto inferencia como fine-tuning en el mismo hardware

Limitaciones:

Costo de adquisición, especialmente para GPUs de centro de datos
Consumo de energía (300–700W por tarjeta para GPUs de centro de datos)
Gestión de drivers de GPU y versiones de CUDA a través de una flota
Restricciones de suministro para tarjetas de alta gama (aunque mejorando en 2026)

Mejor para: Cualquier despliegue donde el rendimiento o tamaño del modelo exceda lo que CPUs o NPUs pueden manejar. Esta es la opción predeterminada para modelos 7B+ a cualquier volumen significativo.

NPU: La Jugada de Eficiencia

Las Unidades de Procesamiento Neural son aceleradores de inferencia dedicados integrados en procesadores modernos. A diferencia de las GPUs (que son procesadores paralelos de propósito general adaptados para IA), las NPUs están diseñadas específicamente para las operaciones matriciales y patrones de acceso a memoria de la inferencia de redes neuronales.

Implementaciones actuales de NPU:

NPU	Presente En	TOPS (INT8)	Potencia	Estado
Intel NPU (Meteor Lake)	Laptops/estaciones Intel Core Ultra	10–11	5–15W	Disponible
Intel NPU (Arrow Lake)	Serie Intel Core Ultra 200	13	5–15W	Disponible
Qualcomm Hexagon (Snapdragon X)	Laptops Snapdragon X Elite/Plus	45	15–25W	Disponible
Apple Neural Engine (M4)	MacBooks M4/M4 Pro/M4 Max	38	10–20W	Disponible
AMD XDNA 2 (Ryzen AI)	Serie AMD Ryzen AI 300	50	15–25W	Disponible

Fortalezas:

Consumo de energía dramáticamente menor que las GPUs
Integrado en hardware que tu empresa puede estar comprando (nuevas laptops y estaciones de trabajo)
Sin adquisición separada — está en el chip
Operación silenciosa (sin ruido de ventilador de GPU en entornos de oficina)
Suficientemente bueno para inferencia interactiva de un solo usuario con SLMs cuantizados

Limitaciones:

Menor rendimiento absoluto que GPUs discretas
Ecosistema de software aún madurando (soporte de frameworks varía)
Limitado a modelos más pequeños (techo práctico alrededor de 7B cuantizado)
El rendimiento varía significativamente entre proveedores
Servicio multi-usuario no es práctico — las NPUs están diseñadas para cargas de un solo usuario

Mejor para: Despliegue en estaciones de trabajo individuales, inferencia en el borde, escenarios donde los modelos se ejecutan en laptops/escritorios de empleados sin requerir infraestructura de servidor.

La iniciativa Foundry Local de Microsoft proporciona una señal útil aquí: está diseñada para ejecutar modelos localmente en PCs Windows, apuntando exactamente al hardware NPU y GPU integrada en dispositivos modernos. Cuando un gran proveedor de plataforma optimiza para hardware específico, es un indicador confiable de hacia dónde se dirige el ecosistema.

Benchmarks de Rendimiento

Aquí es donde la comparación abstracta se vuelve concreta. Los siguientes benchmarks muestran tokens por segundo para un modelo 7B cuantizado (cuantización Q4_K_M, un buen equilibrio de calidad y velocidad) en diferente hardware.

Tokens Por Segundo — Modelo 7B Cuantizado (Q4_K_M)

Hardware	Tokens/Segundo	Notas
CPU: Xeon W 32-core (servidor)	8–15 tok/s	Usando llama.cpp con AVX-512
CPU: Intel Core Ultra 7 (laptop)	5–10 tok/s	Usando llama.cpp
CPU: AMD Ryzen 9 7950X (desktop)	10–18 tok/s	16 cores, memoria rápida ayuda
GPU: RTX 4060 Ti (16GB)	60–80 tok/s	GPU discreta nivel de entrada
GPU: RTX 4090 (24GB)	80–120 tok/s	Mejor GPU de consumidor
GPU: A100 (40GB)	100–150 tok/s	Estándar de centro de datos
GPU: H100 (80GB)	150–200 tok/s	Pico de rendimiento por GPU
NPU: Qualcomm Snapdragon X Elite	20–40 tok/s	NPU Hexagon, depende del framework
NPU: Apple M4 Max (Neural Engine)	40–60 tok/s	La arquitectura de memoria unificada ayuda
NPU: Intel Core Ultra (NPU Meteor Lake)	8–15 tok/s	Generación temprana de NPU, mejorando

Qué Significan Estos Números en la Práctica

Para uso interactivo (chatbot, análisis de documentos donde un humano espera):

Cómodo: 30+ tokens/segundo. El usuario ve una respuesta rápida y fluida.
Aceptable: 15–30 tokens/segundo. Velocidad de generación notable pero aún usable.
Frustrante: Menos de 15 tokens/segundo. El usuario ve el texto aparecer palabra por palabra.

Para procesamiento por lotes (clasificación de documentos, trabajos de extracción nocturnos):

El rendimiento importa más que la velocidad por consulta
Una CPU haciendo 10 tok/s puede procesar miles de documentos durante la noche
El paralelismo a través de múltiples cores de CPU o instancias de GPU escala linealmente

Los Modelos Más Pequeños Cambian la Ecuación

Los benchmarks anteriores son para un modelo 7B. Los modelos más pequeños se ejecutan proporcionalmente más rápido:

Hardware	7B (Q4) tok/s	3.8B (Q4) tok/s	1.5B (Q4) tok/s
CPU: Xeon 32-core	8–15	15–30	30–60
GPU: RTX 4090	80–120	140–200	250–400
NPU: Snapdragon X Elite	20–40	40–70	60–100
Apple M4 Max	40–60	70–100	100–160

Un modelo 3.8B (como Phi-3 mini) en una CPU de laptop moderna entrega 15–30 tokens/segundo — cómodo para uso interactivo. En una NPU o Apple Silicon, son 40–100 tokens/segundo, lo suficientemente rápido como para que el usuario apenas note la latencia de generación.

Costo Por Token

La velocidad bruta no cuenta toda la historia. Lo que importa para la planificación presupuestaria es la eficiencia de costos: ¿cuánto cuesta cada token cuando amortizas el hardware durante su vida útil?

Costo Por Millón de Tokens (Amortizado en 3 Años)

Supuestos: el hardware funciona al 70% de utilización durante 12 horas/día, costo de energía $0.12/kWh.

Hardware	Costo del Hardware	Amortizado Mensual	Energía/Mes	Tokens/Mes (est.)	Costo por 1M Tokens
CPU: Servidor Xeon 32-core	$5,000	$139	$40	130M	$1.38
GPU: RTX 4090 + servidor	$6,000	$167	$55	1.3B	$0.17
GPU: L40S + servidor	$13,000	$361	$70	1.9B	$0.23
GPU: A100 + servidor	$18,000	$500	$80	2.4B	$0.24
GPU: H100 + servidor	$38,000	$1,056	$120	3.2B	$0.37
NPU: Laptop (Snapdragon X)	$1,500	$42	$8	52M	$0.96
NPU: MacBook Pro M4 Max	$3,500	$97	$10	96M	$1.11

Algunos patrones emergen:

La RTX 4090 es la campeona de eficiencia de costos. A $0.17 por millón de tokens, entrega el menor costo por token de cualquier opción. Esta es una GPU de consumidor de $1,600 en un servidor de $4,400 — costo total del sistema alrededor de $6,000. Para despliegues pequeños a medianos, es difícil de superar.

Las GPUs de centro de datos (A100, H100) intercambian eficiencia de costos por rendimiento y confiabilidad. La H100 cuesta 2x por token comparada con la RTX 4090, pero entrega mayor rendimiento absoluto, soporta tamaños de lote más grandes, tiene memoria ECC y está diseñada para operación 24/7 en centro de datos. Para cargas de producción críticas, la prima está justificada.

Las CPUs son las más caras por token pero tienen cero costo incremental de hardware si estás usando servidores existentes. Si tus servidores tienen capacidad CPU ociosa durante horas no laborales, el costo marginal de ejecutar inferencia es esencialmente solo energía — $40/mes.

Las NPUs están en rango medio de costo pero su valor real es la simplicidad de despliegue. Sin infraestructura de servidor, sin adquisición de GPU, sin refrigeración dedicada. El modelo se ejecuta en la misma laptop que el empleado ya usa.

El Factor de Cuantización

La cuantización es la técnica de reducir los pesos del modelo de su precisión original (usualmente FP16 o BF16, 16 bits por peso) a menor precisión (8, 5 o 4 bits). Esto afecta directamente el tamaño del modelo, velocidad de inferencia y calidad del output.

Niveles de Cuantización Comparados (Modelo 7B)

Cuantización	Bits/Peso	Tamaño del Modelo	Impacto en Velocidad	Impacto en Calidad
FP16 (sin cuant.)	16	~14GB	Línea base	Línea base (mejor)
Q8_0	8	~7.5GB	~1.5x más rápido	Pérdida de calidad insignificante
Q5_K_M	5	~5.3GB	~2x más rápido	Pérdida de calidad muy menor
Q4_K_M	4	~4.4GB	~2.5x más rápido	Pérdida de calidad menor, aceptable para la mayoría de tareas
Q4_0	4	~4.0GB	~2.8x más rápido	Pérdida de calidad notable en tareas matizadas
Q3_K_M	3	~3.3GB	~3x más rápido	Pérdida de calidad significativa
Q2_K	2	~2.7GB	~3.5x más rápido	Pérdida de calidad sustancial, no recomendado

El Punto Dulce Empresarial: Q4_K_M

Para la mayoría de las cargas de trabajo empresariales, Q4_K_M proporciona el equilibrio óptimo:

Reducción de tamaño: 3.2x más pequeño que FP16, cabiendo en 4–5GB de VRAM para un modelo 7B
Mejora de velocidad: Inferencia 2–2.5x más rápida que FP16
Retención de calidad: Degradación mínima en tareas estructuradas (clasificación, extracción). Las caídas de precisión típicamente son menos del 1% comparado con FP16 en tareas empresariales específicas.

¿Cuándo deberías usar mayor precisión?

Q5_K_M: Si tu tarea involucra generación de texto matizada o tu fine-tuning mostró sensibilidad a la cuantización. Cuesta ~20% más de VRAM por una mejora marginal de calidad.
Q8_0: Para evaluación y benchmarking para establecer un techo de calidad, o para tareas donde cada fracción de porcentaje de precisión importa (decisiones críticas médicas, legales).
FP16: Casi nunca para inferencia en producción. La penalización de rendimiento no justifica la ganancia marginal de calidad en cargas de producción.

¿Cuándo puedes ir más bajo?

Q3_K_M o Q2_K: Solo cuando las restricciones de hardware lo requieren absolutamente (ej., ejecutar en un dispositivo con 2GB de memoria disponible). La compensación de calidad es real y medible. Prueba exhaustivamente antes de desplegar.

Marco de Decisión

Así es como emparejar tu escenario de despliegue con el hardware correcto.

Estación de Trabajo de Usuario Único

Escenario: Un empleado usando un modelo ajustado para su trabajo diario — análisis de documentos, clasificación de correos, revisión de código.

Recomendación:

Si tiene una laptop moderna (2024+): Usa la NPU o GPU integrada. Despliega un modelo 3.8B cuantizado Q4 (Phi-3 mini) vía Ollama. No se necesita hardware adicional.
Si tiene un escritorio con GPU: Cualquier GPU discreta con 8GB+ de VRAM ejecuta un modelo 7B Q4 cómodamente. Incluso una RTX 3060 (12GB) funciona bien.
Si no tiene GPU y CPU antiguo: Quédate con un modelo 1.5B o 3B en cuantización Q4, o considera una actualización a Snapdragon X o Mac M4.

Rendimiento esperado: 15–60 tokens/segundo dependiendo del tamaño del modelo y hardware. Suficiente para uso interactivo.

Equipo Pequeño (5–20 Usuarios)

Escenario: Un equipo compartiendo un modelo ajustado para una carga de trabajo común — revisión de contratos legales, triaje de soporte al cliente, verificación de cumplimiento.

Recomendación:

Opción económica: Una sola RTX 4090 en un servidor del equipo. $6,000 total. Maneja 5–15 usuarios concurrentes en un modelo 7B Q4 con latencia aceptable.
Opción de producción: Una sola L40S en un servidor rackmount. $13,000 total. Maneja 15–30 usuarios concurrentes con margen para tráfico de picos.

Rendimiento esperado: 30–80 tokens/segundo por usuario (dependiendo de la concurrencia), con latencia sub-100ms para consultas cortas.

Departamento (50–200 Usuarios)

Escenario: Despliegue a nivel departamental — todos los agentes de soporte al cliente, todos los analistas, todo el personal legal.

Recomendación:

2–4 RTX 4090s en un servidor multi-GPU, o 1–2 tarjetas L40S. Ejecuta vLLM para scheduling eficiente de lotes y batching continuo.
Costo total: $15,000–$30,000 por el servidor.
Con 200 usuarios concurrentes, espera 15–30 tokens/segundo por usuario con batching apropiado.

Rendimiento esperado: Comparable a la latencia de API en la nube (100–300ms por consulta corta) con la ventaja de costos del hardware local.

Toda la Organización (500+ Usuarios)

Escenario: Despliegue a nivel de toda la empresa de uno o más modelos ajustados, posiblemente sirviendo múltiples aplicaciones.

Recomendación:

Clúster GPU: 4–8 GPUs de centro de datos (A100 o H100) en un servidor dedicado o rack pequeño.
Usa vLLM o TGI con balanceo de carga entre instancias de GPU.
Considera redundancia: configuración N+1 de GPU para failover.
Costo total: $80,000–$200,000 para infraestructura, que se paga sola en 3–6 meses contra costos equivalentes de API en la nube a este volumen.

Rendimiento esperado: Latencia y rendimiento competitivos con la nube, con soberanía de datos completa y sin costo marginal por token.

Consideraciones de Energía y Refrigeración

Los equipos de infraestructura frecuentemente pasan por alto la energía y refrigeración al planificar despliegues de GPU. Esto es lo que hay que presupuestar:

Hardware	Consumo de Energía	Costo Anual de Energía (@$0.12/kWh)	Sobrecarga de Refrigeración
RTX 4090	450W TDP	~$473	HVAC de oficina estándar
L40S	350W TDP	~$368	Refrigeración de rack
A100	300W TDP	~$315	Refrigeración de centro de datos
H100	700W TDP	~$735	Se requiere refrigeración de centro de datos
NPU (laptop)	15–25W	~$26	Ninguna (pasiva)

Para 1–4 GPUs, la infraestructura de oficina existente usualmente maneja la carga de energía y refrigeración. Más allá de eso, necesitarás espacio dedicado en rack con distribución de energía y capacidad de refrigeración apropiadas.

En Resumen

No hay un "mejor" hardware único para ejecutar modelos ajustados. La elección correcta se mapea directamente a tu escala de despliegue:

Uso individual: NPU o CPU en el dispositivo que ya tienen. Costo: $0 incremental.
Uso de equipo: Una sola RTX 4090 en un servidor compartido. Costo: ~$6,000.
Uso departamental: Servidor multi-GPU con 2–4 GPUs. Costo: $15,000–$30,000.
Toda la organización: Clúster GPU de centro de datos. Costo: $80,000–$200,000.

En todos los casos, el costo total de propiedad es una fracción del gasto equivalente en API en la nube al mismo volumen de consultas. La decisión de hardware no se trata de si desplegar on-premise — la economía ya lo favorece para cargas de alto volumen. Se trata de dimensionar correctamente el hardware a tu escala real y trayectoria de crecimiento.

Comienza con la configuración más pequeña que cumpla tus necesidades actuales. Un solo servidor con RTX 4090 es un experimento de $6,000 que puede servir a un equipo de 15 personas. Si los resultados justifican escalar, agrega capacidad incrementalmente. Los servidores GPU no requieren compromisos a largo plazo ni contratos multi-anuales — son equipamiento de capital que posees y puedes reutilizar.

El silicio está listo. Los modelos están listos. La decisión es un ejercicio directo de planificación de infraestructura, no una apuesta tecnológica.

Ejecutando Modelos Ajustados en Hardware Empresarial: Guía CPU vs GPU vs NPU

Los Tres Tipos de Aceleradores

CPU: La Línea Base Universal

GPU: El Estándar de Rendimiento

NPU: La Jugada de Eficiencia

Benchmarks de Rendimiento

Tokens Por Segundo — Modelo 7B Cuantizado (Q4_K_M)

Qué Significan Estos Números en la Práctica

Los Modelos Más Pequeños Cambian la Ecuación

Costo Por Token

Costo Por Millón de Tokens (Amortizado en 3 Años)

El Factor de Cuantización

Niveles de Cuantización Comparados (Modelo 7B)

El Punto Dulce Empresarial: Q4_K_M

Marco de Decisión

Estación de Trabajo de Usuario Único

Equipo Pequeño (5–20 Usuarios)

Departamento (50–200 Usuarios)

Toda la Organización (500+ Usuarios)

Consideraciones de Energía y Refrigeración

En Resumen

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

GPU Selection Guide for On-Premise AI: H100 vs A100 vs L40S vs Consumer GPUs

Enterprise AI Capacity Planning: How to Size Your On-Premise Infrastructure

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call