Fine-Tune Llama 4 with Ertas

Meta 第四代开放权重模型家族，采用混合专家架构，包括用于高效部署的 Scout（109B 总参数，17B 活跃）和用于高能力任务的 Maverick（400B 总参数，17B 活跃）。

Scout 109B (17B active)Maverick 400B (17B active)Meta

Overview

Llama 4 标志着 Meta 旗舰开放权重模型家族向混合专家（MoE）架构的转型。该家族于 2025 年初发布，包括两个模型：Llama 4 Scout（总参数 109B，每次前向传播 17B 活跃参数，跨 16 个专家）和 Llama 4 Maverick（总参数 400B，每次前向传播 17B 活跃参数，跨 128 个专家）。两个模型都使用共享路由机制，每个 token 仅激活一部分专家，大幅提升了推理效率。

MoE 架构意味着 Llama 4 提供的性能远超其活跃参数量的预期。Scout 仅有 17B 活跃参数，却在许多基准测试上与 70B 以上的稠密模型竞争，而 Maverick 以稠密 400B 以上模型计算成本的一小部分接近前沿模型性能。

Llama 4 使用 128K token 的原生上下文窗口进行训练，Scout 通过位置编码的创新技术支持扩展至 1000 万 token 的上下文。模型原生支持多模态，支持文本和图像输入，开箱即可执行视觉-语言任务。

两个模型都在比 Llama 3 更大、更多样化的数据集上训练，涵盖超过 200 种语言的多语言数据。指令调优变体在智能体工作流、工具使用、结构化输出生成和复杂多轮推理方面表现出色。

Key Features

混合专家架构是 Llama 4 的标志性创新。通过将每个 token 仅路由到完整专家池中的 1-2 个专家，模型在保持推理成本与更小稠密模型相当的同时实现了高质量。这使得 Llama 4 Scout 对生产部署特别有吸引力——您可以获得 70B 级别的性能，但推理速度和内存使用与约 17B 级别的活跃参数相当。

原生多模态是另一个重大进步。Llama 4 可以处理交错的文本和图像输入，无需单独的视觉编码器管道。这支持视觉问答、图表和图形理解、带推理的文档 OCR 以及图像引导代码生成等用例。

Scout 的扩展上下文能力（最高 1000 万 token）开辟了全新的应用类别，包括完整代码库分析、书籍长度的文档处理和超长对话历史。Maverick 的 128K 原生上下文对大多数生产应用已足够，同时在复杂推理任务上提供更高的质量。

Fine-Tuning with Ertas

得益于 MoE 架构，在 Ertas Studio 中微调 Llama 4 Scout 非常高效。由于每次前向传播仅有 17B 参数活跃，QLoRA 微调针对活跃专家路径和共享层，约需 24-32GB VRAM——单块 A100 40GB 或双 RTX 4090 配置即可实现。上传数据集，选择 Llama 4 Scout 作为基础模型，Ertas Studio 会自动处理 MoE 感知的 LoRA 配置。

对于 Maverick，由于总参数量更大（400B），微调需要更多资源，但 4 位量化的 QLoRA 将需求降低至约 80-96GB VRAM，双 A100 80GB GPU 即可实现。Ertas Studio 管理专家路由并确保 LoRA 适配器正确应用于 MoE 层。

训练完成后，Ertas Studio 将微调模型导出为 GGUF 格式。MoE 架构量化效率很高——未对给定 token 激活的专家权重在推理期间不消耗计算资源，因此量化后的 Llama 4 Scout 模型在消费级硬件上运行速度出人意料地快。通过 Ollama 或 llama.cpp 部署进行即时本地推理。

Use Cases

Llama 4 Scout 非常适合需要高质量响应同时高效利用资源的生产部署。其 17B 活跃参数的占用使其适合大规模 API 服务、面向客户的聊天机器人、RAG 管道和实时应用。扩展的上下文窗口使其在文档处理、法律分析和代码库理解任务方面特别强大。

Llama 4 Maverick 面向高能力应用：复杂的多步骤推理、高级代码生成和调试、研究综合以及需要规划和工具编排的智能体工作流。其质量接近前沿模型，同时仍可本地部署。

原生多模态能力使两个模型都非常适合视觉-语言应用：分析商业报告中的图表和图形、从文档图像中提取结构化数据、无障碍应用的视觉问答以及多模态内容生成管道。

Hardware Requirements

Llama 4 Scout 在 Q4_K_M 量化下约需 60-65GB 内存用于完整模型权重（即使每个 token 仅有一部分活跃，也需加载所有专家）。可在配备 64-128GB 内存的系统上进行 CPU 推理，或在 A100 80GB 等 GPU 上运行。在 Q8_0 下约需 115GB。尽管内存占用比 17B 稠密模型更大，但推理速度与稠密 17B 模型相当，因为仅计算活跃专家。

Llama 4 Maverick 在 Q4_K_M 下约需 220-240GB 内存，需要多 GPU 配置（例如 4x A100 80GB）或大内存 CPU 推理节点。模型的质量与计算比使这项投资物有所值，适合需要前沿级性能但不依赖云 API 的组织。

在 Ertas Studio 中使用 QLoRA 微调时，Scout 需要 24-32GB VRAM（单块 A100 40GB），Maverick 需要 80-96GB VRAM（双 A100 80GB）。这些需求远低于同等质量的稠密模型。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →