Guía de selección de GPU para IA on-prem: H100 vs A100 vs L40S vs GPUs de consumo

Elegir la GPU correcta para IA on-prem no se trata de comprar el hardware más potente disponible. Se trata de emparejar las capacidades de la GPU con tus cargas de trabajo reales — y las diferencias de precio son lo suficientemente grandes como para que equivocarse cueste decenas o cientos de miles de dólares.

Esta guía cubre las cinco GPUs más comúnmente desplegadas en infraestructura de IA on-prem empresarial, con recomendaciones específicas basadas en tipo de carga de trabajo, tamaño de modelo y presupuesto.

Especificaciones de GPU de un vistazo

Especificación	H100 SXM	A100 SXM	L40S	RTX 4090	RTX 5090
VRAM	80 GB HBM3	80 GB HBM2e	48 GB GDDR6	24 GB GDDR6X	32 GB GDDR7
Ancho de banda de memoria	3,350 GB/s	2,039 GB/s	864 GB/s	1,008 GB/s	~1,790 GB/s
Rendimiento FP8	3,958 TFLOPS	N/A	733 TFLOPS	330 TFLOPS	~380 TFLOPS (est.)
Rendimiento FP16	1,979 TFLOPS	624 TFLOPS	362 TFLOPS	165 TFLOPS	~190 TFLOPS (est.)
TDP (consumo)	700W	400W	350W	450W	575W
Soporte NVLink	Sí (900 GB/s)	Sí (600 GB/s)	No	No	No
Precio por GPU	$25,000–$30,000	$10,000–$15,000	$7,000–$10,000	$1,600–$2,000	$2,000–$2,500
Factor de forma	SXM (requiere baseboard)	SXM (requiere baseboard)	PCIe	PCIe	PCIe
Memoria ECC	Sí	Sí	Sí	No	No
Multi-Instance GPU	Sí (7 instancias)	Sí (7 instancias)	No	No	No

Algunas cosas saltan a la vista de esta tabla. Primero, el ancho de banda de memoria del H100 es casi 4x el del L40S — esto importa enormemente para inferencia de modelos de lenguaje grandes donde el rendimiento está limitado por el ancho de banda de memoria. Segundo, las GPUs de consumo carecen de NVLink, lo que limita el entrenamiento multi-GPU. Tercero, la diferencia de precios es masiva: un solo H100 cuesta lo mismo que 15 RTX 4090.

Costos de configuración de clúster

Los precios individuales de GPU no cuentan la historia completa. Los despliegues empresariales requieren servidores, redes, almacenamiento e infraestructura de soporte. Aquí hay tres configuraciones representativas:

Componente	Clúster 8x H100	Clúster 16x A100	Servidor 8x L40S
GPUs	$200,000–$240,000	$160,000–$240,000	$56,000–$80,000
Servidor/Chasis	$40,000–$60,000	$50,000–$70,000	$15,000–$25,000
NVLink/NVSwitch	$30,000–$40,000	$20,000–$30,000	N/A (PCIe)
Red	$15,000–$25,000	$15,000–$25,000	$5,000–$10,000
Almacenamiento (NVMe)	$10,000–$20,000	$10,000–$20,000	$5,000–$10,000
Total	~$335,000	~$232,000	~$79,000

La configuración 8xL40S a $79,000 es frecuentemente el punto de partida correcto para organizaciones que entran a la IA on-prem. Proporciona suficiente cómputo para cargas de trabajo de inferencia que cubren la mayoría de los casos de uso empresariales y suficiente VRAM (48GB por GPU, 384GB en total) para ajustar modelos de hasta 14B parámetros.

Mapeo de casos de uso

Fine-tuning por tamaño de modelo

La GPU que necesitas depende principalmente del tamaño del modelo que estás entrenando y de si estás haciendo fine-tuning completo o métodos eficientes en parámetros como LoRA/QLoRA.

Modelos de 7B parámetros (Llama 3.1 7B, Mistral 7B, Qwen2.5 7B)

Fine-tuning completo: 2x A100 80GB o 2x H100 80GB (modelo + estados del optimizador necesitan ~120GB)
Fine-tuning con LoRA/QLoRA: 1x L40S 48GB o 1x RTX 4090 24GB (QLoRA con cuantización de 4 bits)
Recomendado: L40S o RTX 4090 — excesivo usar H100s para entrenamiento de modelos 7B

Modelos de 14B parámetros (Llama 3.1 14B, Qwen2.5 14B)

Fine-tuning completo: 4x A100 80GB o 4x H100 80GB
Fine-tuning con LoRA: 2x L40S 48GB o 1x A100 80GB
Fine-tuning con QLoRA: 1x L40S 48GB (justo) o 1x RTX 5090 32GB
Recomendado: Clúster L40S o par de A100 — punto óptimo para fine-tuning empresarial

Modelos de 70B parámetros (Llama 3.1 70B, Qwen2.5 72B)

Fine-tuning completo: 8x H100 80GB con NVLink (se necesitan 640GB de VRAM agregada)
Fine-tuning con LoRA: 4x A100 80GB o 4x H100 80GB
Fine-tuning con QLoRA: 2x L40S 48GB o 2x A100 80GB
Recomendado: Clúster H100 para fine-tuning completo, A100 para LoRA — aquí es donde las GPUs de datacenter justifican su precio premium

Servicio de inferencia

Los requisitos de GPU para inferencia dependen del tamaño del modelo, nivel de cuantización y necesidades de throughput.

Inferencia de modelo único (un modelo, múltiples usuarios concurrentes)

Tamaño del modelo	Cuantización	VRAM mín.	GPU recomendada	Tokens/seg (aprox.)
7B	FP16	14 GB	RTX 4090 o L40S	80-120 t/s
7B	INT4 (GPTQ/AWQ)	4 GB	RTX 4090	150-200 t/s
14B	FP16	28 GB	RTX 5090 o L40S	40-70 t/s
14B	INT4	8 GB	RTX 4090	70-110 t/s
70B	FP16	140 GB	2x H100 o 2x A100	20-40 t/s
70B	INT4	35 GB	L40S o RTX 5090	30-50 t/s

Inferencia multi-modelo (sirviendo múltiples modelos simultáneamente)

Aquí es donde la VRAM se convierte en la restricción principal. Si estás ejecutando un pipeline RAG con un modelo de embeddings, un reranker y un modelo de generación simultáneamente, necesitas sumar los requisitos de VRAM. Un servidor 8xL40S con 384GB de VRAM total puede servir 8-12 modelos cuantizados concurrentemente — útil para organizaciones que ejecutan diferentes modelos para diferentes departamentos o casos de uso.

La característica Multi-Instance GPU (MIG) del H100 también ayuda aquí. Puedes particionar un solo H100 en hasta 7 instancias aisladas, cada una con su propia asignación de VRAM, permitiendo que múltiples modelos compartan una GPU sin interferencia.

Energía y refrigeración: El costo oculto

El consumo de energía de las GPUs es un costo continuo significativo que muchas organizaciones subestiman durante la adquisición.

Configuración	Consumo GPU	Total del sistema (est.)	Costo energético anual*	Costo de refrigeración anual*
8x H100	5,600W	~8,000W	$35,000–$50,000	$12,000–$18,000
16x A100	6,400W	~9,000W	$39,000–$55,000	$14,000–$20,000
8x L40S	2,800W	~4,000W	$17,000–$25,000	$6,000–$9,000
4x RTX 4090	1,800W	~2,500W	$11,000–$15,000	$4,000–$6,000

Basado en tarifas de electricidad comercial de $0.10–$0.14/kWh, operación 24/7

El clúster 8xH100 consume aproximadamente 8kW de potencia total del sistema. Eso requiere un circuito dedicado de 30-40A a 208V, refrigeración apropiada (ya sea unidades de enfriamiento en fila o intercambiadores de calor en puerta trasera) y flujo de aire adecuado. Si tu sala de servidores no fue diseñada para esta densidad, los costos de adaptación pueden agregar $20,000-$50,000.

El clúster L40S a 4kW en total es mucho más manejable — cabe en entornos de sala de servidores estándar y no requiere refrigeración especializada en la mayoría de los casos.

El argumento de las GPUs de consumo

Las tarjetas RTX 4090 y RTX 5090 son técnicamente productos de consumo, pero aparecen cada vez más en cargas de trabajo de IA empresarial. He aquí por qué:

Costo por GB de VRAM:

H100: $312–$375 por GB
A100: $125–$188 por GB
L40S: $146–$208 por GB
RTX 4090: $67–$83 por GB
RTX 5090: $63–$78 por GB

En una base pura de $/GB, las GPUs de consumo son 3-5x más baratas que las GPUs de datacenter. Para cargas de trabajo de solo inferencia donde necesitas VRAM para mantener los pesos del modelo pero no necesitas NVLink ni ancho de banda HBM, esa diferencia de costo es significativa.

Donde las GPUs de consumo funcionan bien:

Fine-tuning a pequeña escala (modelos 7B con QLoRA)
Servicio de inferencia para modelos de hasta 14B parámetros
Entornos de desarrollo y pruebas
Organizaciones comenzando su camino en IA on-prem antes de comprometerse con hardware de datacenter

Donde las GPUs de consumo se quedan cortas:

Sin NVLink significa que el entrenamiento multi-GPU se comunica por PCIe, que es 5-10x más lento que NVLink
Sin memoria ECC significa mayor riesgo de errores de cómputo silenciosos (importa para IA financiera o médica)
Las garantías de GPUs de consumo son de 2-3 años versus 5 años para GPUs de datacenter
El EULA de NVIDIA técnicamente prohíbe tarjetas RTX en entornos de datacenter (la aplicación varía, pero es un riesgo legal)
Menor ancho de banda de memoria limita el throughput de inferencia para modelos grandes

Muchas empresas comienzan con GPUs de consumo para validación inicial, luego migran a hardware L40S o A100 para producción. Este es un enfoque racional — valida la carga de trabajo antes de comprometerte con $200,000+ en hardware de datacenter.

La alternativa AMD: MI300X

El AMD Instinct MI300X merece mención. En papel, es convincente:

192GB de memoria HBM3 (más del doble de los 80GB del H100)
5,300 GB/s de ancho de banda de memoria
Precios competitivos con el H100 (reportados entre $10,000-$15,000 por GPU)

La ventaja de VRAM es significativa para inferencia de modelos grandes — un solo MI300X puede alojar un modelo 70B FP16 que requeriría dos H100.

Sin embargo, la brecha del ecosistema es real:

Dominio de CUDA: La mayoría de los frameworks de IA, bibliotecas y herramientas de optimización están construidos para CUDA de NVIDIA. El stack ROCm de AMD está mejorando pero aún va por detrás en compatibilidad y optimización de rendimiento.
Herramientas empresariales: El ecosistema de NVIDIA incluye TensorRT para optimización de inferencia, Triton Inference Server, NeMo para entrenamiento y RAPIDS para procesamiento de datos. Las herramientas equivalentes de AMD son menos maduras.
Comunidad y soporte: Cuando algo falla con CUDA, Stack Overflow tiene la respuesta. La depuración de ROCm aún requiere más experiencia y frecuentemente soporte del proveedor.
Estabilidad de drivers: Los drivers empresariales de NVIDIA tienen décadas de maduración. Los drivers ROCm de AMD, aunque mejorando, tienen un historial más corto en entornos de producción.

Para organizaciones con equipos de ingeniería fuertes dispuestos a invertir en experiencia con ROCm, el MI300X puede ofrecer una relación precio-rendimiento excepcional. Para la mayoría de las empresas, la ventaja del ecosistema de NVIDIA aún justifica el precio premium.

Resumen de recomendaciones

Tu situación	GPU recomendada	Configuración	Presupuesto
Comenzando, probando viabilidad de IA	RTX 4090 o RTX 5090	2-4 GPUs en una workstation	$5,000–$10,000
Inferencia en producción, modelos de 14B o menos	L40S	4-8 GPUs en un servidor	$40,000–$80,000
Fine-tuning + inferencia, modelos de 14B o menos	L40S o A100	8 GPUs con almacenamiento rápido	$80,000–$150,000
Entrenamiento + inferencia, modelos hasta 70B	H100	8 GPUs con NVLink	~$335,000
Máximo throughput de inferencia a escala	H100 con MIG	8+ GPUs, particionadas por modelo	$335,000+
Consciente del presupuesto, dispuesto a invertir en ROCm	MI300X	4-8 GPUs	$60,000–$120,000

El punto de partida práctico

Si estás leyendo esta guía porque tu organización está evaluando IA on-prem por primera vez, aquí está el camino práctico:

Comienza con 2-4x RTX 4090/5090 ($5,000-$10,000). Úsalas para prototipar, probar la calidad del modelo y validar que la IA on-prem resuelve tu problema de negocio.
Migra a 4-8x L40S ($40,000-$80,000) cuando hayas validado el caso de uso y necesites fiabilidad de grado de producción. El L40S te da memoria ECC, mejor gestión térmica y suficiente VRAM para la mayoría de los modelos empresariales.
Escala a A100 o H100 ($150,000-$335,000+) solo cuando tengas cargas de trabajo probadas que demanden el ancho de banda de memoria, la interconexión NVLink o las características de multi-instance GPU que las GPUs de datacenter proporcionan.

Este enfoque escalonado te permite validar en cada paso antes de comprometer presupuestos mayores. El peor resultado es comprar un clúster H100 de $335,000 para una carga de trabajo que podría correr en $79,000 de hardware L40S — o peor, para un proyecto de IA que no entrega valor de negocio en absoluto.

No compres la GPU que quieres. Compra la GPU que tu carga de trabajo necesita.

Guía de selección de GPU para IA on-prem: H100 vs A100 vs L40S vs GPUs de consumo

Especificaciones de GPU de un vistazo

Costos de configuración de clúster

Mapeo de casos de uso

Fine-tuning por tamaño de modelo

Servicio de inferencia

Energía y refrigeración: El costo oculto

El argumento de las GPUs de consumo

La alternativa AMD: MI300X

Resumen de recomendaciones

El punto de partida práctico

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

Running Fine-Tuned Models on Enterprise Hardware: CPU vs GPU vs NPU Guide

Enterprise AI Capacity Planning: How to Size Your On-Premise Infrastructure

Why 93% of Enterprises Are Moving AI Off the Cloud