Llama 4 Scout
Contexto anunciado: 10M tokens
La ventana de contexto de 10 millones de tokens de Llama 4 Scout es la mayor publicada en cualquier modelo de pesos abiertos. Aunque el contexto efectivo (el rango sobre el que el modelo conserva una precisi ón de recuperación superior al 90 %) es más corto que los 10M anunciados, el margen de Scout no tiene rival: para casos de uso que necesitan razonar sobre documentos o bases de código genuinamente masivos como una sola unidad, Scout no tiene par. La arquitectura MoE con 17B de parámetros activos mantiene la economía de inferencia manejable pese a la escala.
Strengths
- Contexto de 10M tokens: el mayor en cualquier modelo de pesos abiertos publicado
- Capacidad multimodal nativa a lo largo del contexto largo
- Economía de inferencia con 17B de parámetros activos
- Ecosistema de despliegue maduro (llama.cpp, vLLM, TensorRT-LLM)
Trade-offs
- La Llama Community License impone topes de uso y requisitos de atribución
- Contexto efectivo sustancialmente más corto que el límite anunciado de 10M
- Requiere despliegue multi-GPU para inferencia con contexto largo a calidad completa