Llama 4 Scout
Contexto anunciado: 10M tokens
La ventana de contexto de 10 millones de tokens de Llama 4 Scout es la mayor publicada en cualquier modelo de pesos abiertos. Aunque el contexto efectivo (el rango sobre el que el modelo conserva una precisión de recuperación superior al 90 %) es más corto que los 10M anunciados, el margen de Scout no tiene rival: para casos de uso que necesitan razonar sobre documentos o bases de código genuinamente masivos como una sola unidad, Scout no tiene par. La arquitectura MoE con 17B de parámetros activos mantiene la economía de inferencia manejable pese a la escala.
Strengths
- Contexto de 10M tokens: el mayor en cualquier modelo de pesos abiertos publicado
- Capacidad multimodal nativa a lo largo del contexto largo
- Economía de inferencia con 17B de parámetros activos
- Ecosistema de despliegue maduro (llama.cpp, vLLM, TensorRT-LLM)
Trade-offs
- La Llama Community License impone topes de uso y requisitos de atribución
- Contexto efectivo sustancialmente más corto que el límite anunciado de 10M
- Requiere despliegue multi-GPU para inferencia con contexto largo a calidad completa