Fine-Tune Llama 4 with Ertas
Meta 第四代开放权重模型家族,采用混合专家架构,包括用于高效部署的 Scout(109B 总参数,17B 活跃)和用于高能力任务的 Maverick(400B 总参数,17B 活跃)。
Overview
Llama 4 标志着 Meta 旗舰开放权重模型家族向混合专家(MoE)架构的转型。该家族于 2025 年初发布,包括两个模型:Llama 4 Scout(总参数 109B,每次前向传播 17B 活跃参数,跨 16 个专家)和 Llama 4 Maverick(总参数 400B,每次前向传播 17B 活跃参数,跨 128 个专家)。两个模型都使用共享路由机制,每个 token 仅激活一部分专家,大幅提升了推理效率。
MoE 架构意味着 Llama 4 提供的性能远超其活跃参数量的预期。Scout 仅有 17B 活跃参数,却在许多基准测试上与 70B 以上的稠密模型竞争,而 Maverick 以稠密 400B 以上模型计算成本的一小部分接近前沿模型性能。
Llama 4 使用 128K token 的原生上下文窗口进行训练,Scout 通过位置编码的创新技术支持扩展至 1000 万 token 的上下文。模型原生支持多模态,支持文本和图像输入,开箱即可执行视觉-语言任务。
两个模型都在比 Llama 3 更大、更多样化的数据集上训练,涵盖超过 200 种语言的多语言数据。指令调优变体在智能体工作流、工具使用、结构化输出生成和复杂多轮推理方面表现出色。
Key Features
混合专家架构是 Llama 4 的标志性创新。通过将每个 token 仅路由到完整专家池中的 1-2 个专家,模型在保持推理成本与更小稠密模型相当的同时实现了高质量。这使得 Llama 4 Scout 对生产部署特别有吸引力——您可以获得 70B 级别的性能,但推理速度和内存使用与约 17B 级别的活跃参数相当。
原生多模态是另一个重大进步。Llama 4 可以处理交错的文本和图像输入,无需单独的视觉编码器管道。这支持视觉问答、图表和图形理解、带推理的文档 OCR 以及图像引导代码生成等用例。
Scout 的扩展上下文能力(最高 1000 万 token)开辟了全新的应用类别,包括完整代码库分析、书籍长度的文档处理和超长对话历史。Maverick 的 128K 原生上下文对大多数生产应用已足够,同时在复杂推理任务上提供更高的质量。
Fine-Tuning with Ertas
得益于 MoE 架构,在 Ertas Studio 中微调 Llama 4 Scout 非常高效。由于每次前向传播仅有 17B 参数活跃,QLoRA 微调针对活跃专家路径和共享层,约需 24-32GB VRAM——单块 A100 40GB 或双 RTX 4090 配置即可实现。上传数据集,选择 Llama 4 Scout 作为基础模型,Ertas Studio 会自动处理 MoE 感知的 LoRA 配置。
对于 Maverick,由于总参数量更大(400B),微调需要更多资源,但 4 位量化的 QLoRA 将需求降低至约 80-96GB VRAM,双 A100 80GB GPU 即可实现。Ertas Studio 管理专家路由并确保 LoRA 适配器正确应用于 MoE 层。
训练完成后,Ertas Studio 将微调模型导出为 GGUF 格式。MoE 架构量化效率很高——未对给定 token 激活的专家权重在推理期间不消耗计算资源,因此量化后的 Llama 4 Scout 模型在消费级硬件上运行速度出人意料地快。通过 Ollama 或 llama.cpp 部署进行即时本地推理。
Use Cases
Llama 4 Scout 非常适合需要高质量响应同时高效利用资源的生产部署。其 17B 活跃参数的占用使其适合大规模 API 服务、面向客户的聊天机器人、RAG 管道和实时应用。扩展的上下文窗口使其在文档处理、法律分析和代码库理解任务方面特别强大。
Llama 4 Maverick 面向高能力应用:复杂的多步骤推理、高级代码生成和调试、研究综合以及需要规划和工具编排的智能体工作流。其质量接近前沿模型,同时仍可本地部署。
原生多模态能力使两个模型都非常适合视觉-语言应用:分析商业报告中的图表和图形、从文档图像中提取结构化数据、无障碍应用的视觉问答以及多模态内容生成管道。
Hardware Requirements
Llama 4 Scout 在 Q4_K_M 量化下约需 60-65GB 内存用于完整模型权重(即使每个 token 仅有一部分活跃,也需加载所有专家)。可在配备 64-128GB 内存的系统上进行 CPU 推理,或在 A100 80GB 等 GPU 上运行。在 Q8_0 下约需 115GB。尽管内存占用比 17B 稠密模型更大,但推理速度与稠密 17B 模型相当,因为仅计算活跃专家。
Llama 4 Maverick 在 Q4_K_M 下约需 220-240GB 内存,需要多 GPU 配置(例如 4x A100 80GB)或大内存 CPU 推理节点。模型的质量与计算比使这项投资物有所值,适合需要前沿级性能但不依赖云 API 的组织。
在 Ertas Studio 中使用 QLoRA 微调时,Scout 需要 24-32GB VRAM(单块 A100 40GB),Maverick 需要 80-96GB VRAM(双 A100 80GB)。这些需求远低于同等质量的稠密模型。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.