What is Context Window?
El número máximo de tokens que un modelo de lenguaje puede procesar en una sola secuencia de entrada-salida, determinando cuánto texto puede 'ver' el modelo a la vez.
Definition
La ventana de contexto (también llamada longitud de contexto o longitud de secuencia) define el límite superior del número total de tokens — incluyendo tanto el prompt de entrada como la salida generada — que un modelo de lenguaje puede manejar en una sola interacción. Un modelo con una ventana de contexto de 4,096 tokens puede procesar aproximadamente 3,000 palabras de entrada y salida combinadas; un modelo con una ventana de 128,000 tokens puede manejar el equivalente a una novela corta.
La ventana de contexto es una restricción arquitectónica incorporada en el modelo durante el preentrenamiento. Está determinada por el esquema de codificación posicional y el tamaño de las matrices de atención. En el mecanismo de auto-atención estándar, la memoria y el cómputo escalan cuadráticamente con la longitud de la secuencia (O(n cuadrado)), razón por la cual las ventanas de contexto estaban históricamente limitadas. Técnicas modernas como las rotary positional embeddings (RoPE), la atención de ventana deslizante y FlashAttention han permitido que las ventanas de contexto crezcan de 2K-4K tokens en los primeros modelos a 128K-1M tokens en arquitecturas recientes, manteniendo el uso de recursos manejable.
Para el fine-tuning, la ventana de contexto tiene implicaciones prácticas para la preparación de datos de entrenamiento. Cada ejemplo de entrenamiento debe caber dentro de la ventana de contexto del modelo — si un ejemplo excede el límite, será truncado, perdiendo potencialmente información crítica. La longitud de contexto de entrenamiento a veces puede ser más corta que el máximo del modelo para ahorrar memoria (por ejemplo, entrenar a 2,048 tokens en un modelo que soporta 8,192), con la contrapartida de que el modelo ajustado puede funcionar menos confiablemente a longitudes más allá de las que fue entrenado.
Why It Matters
La ventana de contexto determina qué tareas puede realizar un modelo de manera realista. Resumir un documento de 50 páginas requiere una ventana de contexto lo suficientemente grande para contener el documento completo más el resumen. Los asistentes conversacionales de múltiples turnos necesitan contexto para mantener el historial completo de la conversación. Para aplicaciones empresariales que involucran documentos largos — contratos legales, registros médicos, bases de código — la longitud de la ventana de contexto es a menudo un factor decisivo en la selección del modelo. Además, los límites de la ventana de contexto afectan la economía del fine-tuning: los ejemplos de entrenamiento más largos consumen más memoria GPU por batch, aumentando el costo de entrenamiento.
How It Works
Cuando se envía texto a un modelo, el tokenizer lo convierte en una secuencia de IDs de token. Si esta secuencia excede la ventana de contexto, debe truncarse o la solicitud fallará. Durante el procesamiento, el mecanismo de atención calcula relaciones entre todos los tokens dentro de la ventana — cada token puede atender a cada token precedente (en modelos causales). Los embeddings posicionales codifican la posición de cada token para que el modelo pueda entender el orden de las palabras. En tiempo de inferencia, el caché de clave-valor (KV cache) almacena los estados de atención para tokens previamente generados para evitar cómputo redundante, pero este caché crece linealmente con la longitud del contexto y puede dominar el uso de memoria GPU para secuencias largas.
Example Use Case
Una empresa de tecnología legal que construye un asistente de revisión de contratos descubre que su contrato promedio tiene 12,000 tokens. Seleccionan un modelo base con una ventana de contexto de 32K para acomodar cómodamente el contrato completo más un prompt de sistema y el análisis generado. Durante el fine-tuning, establecen la longitud máxima de secuencia en 16,384 tokens (el ejemplo más largo en su dataset más un margen de seguridad) para equilibrar el uso de memoria de entrenamiento contra la cobertura. En producción, el modelo procesa contratos completos en un solo paso sin perder cláusulas críticas por truncamiento.
Key Takeaways
- La ventana de contexto limita el total de tokens (entrada + salida) que un modelo puede procesar a la vez.
- Los modelos modernos van desde 4K hasta 1M tokens, siendo 8K-128K lo más común.
- La memoria de atención escala cuadráticamente con la longitud de la secuencia, haciendo costosos los contextos largos.
- Los ejemplos de entrenamiento deben caber dentro de la ventana de contexto o serán truncados.
- La longitud de la ventana de contexto es un factor crítico en la selección de modelos para aplicaciones con documentos extensos.
How Ertas Helps
Ertas Studio muestra la ventana de contexto de cada modelo base en su catálogo de modelos, ayudando a los usuarios a seleccionar el modelo correcto para su caso de uso. El paso de validación de datos de la plataforma señala los ejemplos de entrenamiento que exceden la longitud de contexto configurada, previniendo el truncamiento silencioso. Los usuarios pueden configurar la longitud de secuencia de entrenamiento en el panel de hiperparámetros de Studio, y Ertas proporciona orientación sobre cómo equilibrar la longitud de contexto contra la memoria GPU para optimizar la eficiencia del entrenamiento.
Related Resources
Attention
Base Model
Embedding
Tokenizer
Transformer
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Hugging Face
llama.cpp
Ollama
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.