What is GPU Memory (VRAM)?
La memoria dedicada de alto ancho de banda en una unidad de procesamiento gráfico que almacena los pesos del modelo, las activaciones y los gradientes durante el entrenamiento y la inferencia.
Definition
La memoria GPU, también conocida como VRAM (Video Random Access Memory), es la memoria de alto ancho de banda ubicada físicamente en una unidad de procesamiento gráfico. En aprendizaje automático, la memoria GPU es el principal cuello de botella que determina qué modelos se pueden entrenar o servir en un hardware determinado. Durante el entrenamiento, la memoria GPU debe contener simultáneamente los pesos del modelo, los estados del optimizador, los gradientes y las activaciones intermedias. Durante la inferencia, contiene los pesos del modelo y el KV cache que crece con la longitud del contexto.
Los requisitos de memoria de los LLM han crecido drásticamente. Un modelo de 7B parámetros en precisión FP16 requiere aproximadamente 14 GB de VRAM solo para los pesos. Durante el entrenamiento con el optimizador Adam, el requisito de memoria se dispara a aproximadamente 84 GB (pesos + gradientes + dos estados del optimizador + activaciones), superando con creces los 24 GB disponibles en una RTX 4090 de consumo o incluso los 48 GB de una A6000. Este muro de memoria es la razón principal por la que existen técnicas como la cuantización, el gradient checkpointing y el fine-tuning eficiente en parámetros.
Las arquitecturas de GPU modernas relevantes para el trabajo con LLM incluyen la A100 de NVIDIA (40 u 80 GB HBM2e), la H100 (80 GB HBM3) y opciones de consumo como la RTX 4090 (24 GB GDDR6X). El ancho de banda de memoria — qué tan rápido se pueden leer y escribir datos en la VRAM — es igualmente importante, ya que la inferencia de LLM típicamente está limitada por el ancho de banda de memoria en lugar del cómputo. Los 3.35 TB/s de ancho de banda de la H100 son una razón principal de su dominio en el servicio de LLM.
Why It Matters
La memoria GPU es la restricción de hardware más importante en el trabajo con LLM. Determina si un modelo puede cargarse en absoluto, qué tan grande puede ser el tamaño de lote durante el entrenamiento, qué tan larga puede ser la ventana de contexto durante la inferencia y cuántas solicitudes concurrentes puede manejar un sistema de servicio. Todas las demás técnicas de optimización — cuantización, LoRA, gradient accumulation, compresión de KV cache — existen fundamentalmente para superar las limitaciones de memoria GPU.
Para equipos con presupuesto limitado, entender los requisitos de memoria GPU es esencial para la planificación de hardware. Elegir entre un modelo de 7B y uno de 13B, entre LoRA y fine-tuning completo, o entre FP16 y cuantización de 4 bits — todo se reduce a cuánta VRAM está disponible y con qué eficiencia se puede utilizar. Tomar la decisión incorrecta significa no poder cargar el modelo en absoluto o desperdiciar capacidad de GPU costosa.
How It Works
Durante el entrenamiento, la memoria GPU se distribuye en varias categorías. Los parámetros del modelo consumen memoria proporcional al conteo de parámetros multiplicado por la precisión (por ejemplo, 7B parámetros por 2 bytes para FP16 equivale a 14 GB). Los gradientes requieren la misma memoria que los parámetros. El optimizador Adam mantiene dos copias adicionales de los parámetros (estimaciones de primer y segundo momento), triplicando aproximadamente la memoria de los parámetros. Las activaciones intermedias — las salidas de cada capa guardadas para el pase backward — consumen memoria variable dependiendo del tamaño de lote y la longitud de secuencia.
Durante la inferencia, el uso de memoria está dominado por los pesos del modelo y el KV cache. El KV cache almacena los tensores de clave y valor computados para cada token en el contexto, y crece linealmente con la longitud del contexto y el tamaño de lote. Para aplicaciones de contexto largo (más de 32K tokens), el KV cache puede superar la memoria de los pesos del modelo. Técnicas como la cuantización reducen la memoria de los pesos, mientras que la compresión del KV cache y la atención paginada (usada por vLLM) optimizan el uso de memoria de la caché.
Example Use Case
Un equipo quiere ajustar Llama 3 8B en un servidor con 2 GPUs RTX 4090 (48 GB de VRAM total). El fine-tuning completo requeriría aproximadamente 100 GB de VRAM — imposible en su hardware. Usando QLoRA (pesos cuantizados a 4 bits + adaptadores LoRA) y gradient checkpointing, reducen el uso de memoria a 18 GB, cabiendo cómodamente en una sola GPU y dejando espacio para un tamaño de lote razonable de 4 con secuencias de 2048 tokens.
Key Takeaways
- La memoria GPU (VRAM) es el principal cuello de botella de hardware para el entrenamiento e inferencia de LLM.
- Un modelo de 7B requiere aproximadamente 14 GB para inferencia y 84 GB para fine-tuning completo en FP16.
- Técnicas eficientes en memoria como la cuantización, LoRA y gradient checkpointing existen para superar las limitaciones de VRAM.
- El ancho de banda de memoria es tan importante como la capacidad — la inferencia de LLM típicamente está limitada por el ancho de banda.
- La planificación de hardware en torno a las restricciones de VRAM es esencial para un despliegue rentable de LLM.
How Ertas Helps
Ertas Studio estima automáticamente los requisitos de memoria GPU para cada configuración de entrenamiento y recomienda ajustes de optimización como QLoRA y gradient accumulation para ajustarse a la VRAM disponible, haciendo el fine-tuning accesible en hardware de consumo y gama media.
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.