Llama 4 Scout
宣称上下文: 10M tokens
Llama 4 Scout 的 1000 万 token 上下文窗口是任何公开发布的开源权重模型中最大的。尽管有效上下文(模型保持 >90% 检索准确率的范围)短于宣称的 10M,Scout 的容量上限在同类中无出其右——对于需要把真正巨大的单一文档或代码库作为整体进行推理的用例,Scout 没有对手。17B 激活参数的 MoE 架构使其在如此规模下仍能保持可控的推理经济性。
Strengths
- 10M token 上下文——任何公开开源权重模型中最大
- 在长上下文中原生支持多模态
- 17B 激活参数带来的推理经济性
- 成熟的部署生态(llama.cpp、vLLM、TensorRT-LLM)
Trade-offs
- Llama 社区许可证存在用量上限与署名要求
- 有效上下文显著短于宣称的 10M 上限
- 在长上下文下达到完整质量需要多卡部署