Fine-Tune Llama 4 with Ertas

Meta 的第四代開放權重模型家族，採用混合專家架構，Scout（總計 109B，活躍 17B）用於高效部署，Maverick（總計 400B，活躍 17B）用於高能力任務。

Scout 109B (17B active)Maverick 400B (17B active)Meta

Overview

Llama 4 標誌著 Meta 旗艦開放權重模型家族向混合專家（MoE）架構的轉型。於 2025 年初發布，家族包含兩個模型：Llama 4 Scout，總計 109B 參數，每次前向傳播透過 16 個專家活躍 17B 參數；Llama 4 Maverick，總計 400B 參數，每次前向傳播透過 128 個專家活躍 17B 參數。兩個模型都使用共享路由機制，每個 token 僅激活一部分專家，大幅提高推論效率。

MoE 架構意味著 Llama 4 提供的效能遠超其活躍參數量所暗示的水準。Scout 僅有 17B 活躍參數，卻在許多基準測試上與 70B 以上的密集模型競爭，而 Maverick 以密集 400B 以上模型運算成本的一小部分接近前沿模型效能。

Llama 4 以 128K token 的原生上下文視窗進行訓練，Scout 透過位置編碼的創新技術支援擴展上下文至 1,000 萬 token。模型原生支援多模態，支援文字和圖像輸入，開箱即用地實現視覺語言任務。

兩個模型都在比 Llama 3 更大且更多樣化的資料集上進行訓練，納入了涵蓋超過 200 種語言的多語言資料。指令微調變體在代理工作流程、工具使用、結構化輸出生成和複雜多輪推理方面展現了強勁效能。

Key Features

混合專家架構是 Llama 4 的核心創新。透過將每個 token 僅路由到完整專家池中的 1-2 個專家，模型在保持推論成本與更小密集模型相當的同時實現高品質。這使 Llama 4 Scout 對生產部署特別具吸引力——您以大約 17B 級的推論速度和記憶體用量獲得 70B 級效能。

原生多模態是另一個重要進步。Llama 4 可以處理交錯的文字和圖像輸入，無需單獨的視覺編碼器管線。這實現了視覺問答、圖表和圖示理解、帶推理的文件 OCR 和圖像引導的程式碼生成等用途。

Scout 的擴展上下文能力（最多 1,000 萬 token）開啟了全新的應用類別，包括完整程式碼庫分析、書籍長度的文件處理和極長的對話歷史。Maverick 的 128K 原生上下文足以滿足大多數生產應用，同時在複雜推理任務上提供更高品質。

Fine-Tuning with Ertas

由於 MoE 架構，在 Ertas Studio 中微調 Llama 4 Scout 非常高效。由於每次前向傳播僅有 17B 參數處於活躍狀態，QLoRA 微調針對活躍專家路徑和共享層，需要約 24-32GB VRAM——可在單張 A100 40GB 或雙 RTX 4090 配置上實現。上傳您的資料集，選擇 Llama 4 Scout 作為基礎模型，Ertas Studio 會自動處理 MoE 感知的 LoRA 配置。

對於 Maverick，由於總參數量較大（400B），微調需要更多資源，但 4 位量化的 QLoRA 將需求降低至約 80-96GB VRAM，可在雙 A100 80GB GPU 上實現。Ertas Studio 管理專家路由並確保 LoRA 適配器正確應用於 MoE 層。

訓練後，Ertas Studio 將您的微調模型匯出為 GGUF 格式。MoE 架構量化效率高——不活躍的專家權重在推論期間不消耗運算，因此量化的 Llama 4 Scout 模型在消費級硬體上執行速度出奇地快。透過 Ollama 或 llama.cpp 部署即可實現即時本地推論。

Use Cases

Llama 4 Scout 非常適合需要高品質回應和高效資源使用的生產部署。其 17B 活躍參數的佔用使其適合大規模 API 服務、面向客戶的聊天機器人、RAG 管線和即時應用。擴展的上下文視窗使其在文件處理、法律分析和程式碼庫理解任務上特別強大。

Llama 4 Maverick 針對高能力應用：複雜多步驟推理、高級程式碼生成和除錯、研究綜合和需要規劃與工具協調的代理工作流程。其品質接近前沿模型，同時仍可在本地部署。

原生多模態能力使兩個模型都適合視覺語言應用：分析商業報告中的圖表和圖形、從文件圖像中提取結構化資料、用於無障礙應用的視覺問答，以及多模態內容生成管線。

Hardware Requirements

Llama 4 Scout 在 Q4_K_M 量化下需要約 60-65GB RAM 來載入完整的模型權重（所有專家都必須載入，即使每個 token 僅有一部分處於活躍狀態）。可在配備 64-128GB RAM 的系統上進行 CPU 推論，或在 A100 80GB 等 GPU 上執行。在 Q8_0 下，預計約 115GB。儘管記憶體佔用比 17B 密集模型大，但推論速度與密集 17B 模型相當，因為僅計算活躍專家。

Llama 4 Maverick 在 Q4_K_M 下需要約 220-240GB RAM，需要多 GPU 配置（例如 4 張 A100 80GB）或高記憶體 CPU 推論節點。對於需要前沿級效能而不依賴雲端 API 的組織，模型的品質與運算比使這項投資物有所值。

在 Ertas Studio 中進行微調，Scout 使用 QLoRA 需要 24-32GB VRAM（單張 A100 40GB），Maverick 需要 80-96GB VRAM（雙 A100 80GB）。這些需求遠低於同等品質的密集模型所需的資源。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →