Fine-Tune Llama 4 with Ertas

    Meta 的第四代開放權重模型家族,採用混合專家架構,Scout(總計 109B,活躍 17B)用於高效部署,Maverick(總計 400B,活躍 17B)用於高能力任務。

    Scout 109B (17B active)Maverick 400B (17B active)Meta

    Overview

    Llama 4 標誌著 Meta 旗艦開放權重模型家族向混合專家(MoE)架構的轉型。於 2025 年初發布,家族包含兩個模型:Llama 4 Scout,總計 109B 參數,每次前向傳播透過 16 個專家活躍 17B 參數;Llama 4 Maverick,總計 400B 參數,每次前向傳播透過 128 個專家活躍 17B 參數。兩個模型都使用共享路由機制,每個 token 僅激活一部分專家,大幅提高推論效率。

    MoE 架構意味著 Llama 4 提供的效能遠超其活躍參數量所暗示的水準。Scout 僅有 17B 活躍參數,卻在許多基準測試上與 70B 以上的密集模型競爭,而 Maverick 以密集 400B 以上模型運算成本的一小部分接近前沿模型效能。

    Llama 4 以 128K token 的原生上下文視窗進行訓練,Scout 透過位置編碼的創新技術支援擴展上下文至 1,000 萬 token。模型原生支援多模態,支援文字和圖像輸入,開箱即用地實現視覺語言任務。

    兩個模型都在比 Llama 3 更大且更多樣化的資料集上進行訓練,納入了涵蓋超過 200 種語言的多語言資料。指令微調變體在代理工作流程、工具使用、結構化輸出生成和複雜多輪推理方面展現了強勁效能。

    Key Features

    混合專家架構是 Llama 4 的核心創新。透過將每個 token 僅路由到完整專家池中的 1-2 個專家,模型在保持推論成本與更小密集模型相當的同時實現高品質。這使 Llama 4 Scout 對生產部署特別具吸引力——您以大約 17B 級的推論速度和記憶體用量獲得 70B 級效能。

    原生多模態是另一個重要進步。Llama 4 可以處理交錯的文字和圖像輸入,無需單獨的視覺編碼器管線。這實現了視覺問答、圖表和圖示理解、帶推理的文件 OCR 和圖像引導的程式碼生成等用途。

    Scout 的擴展上下文能力(最多 1,000 萬 token)開啟了全新的應用類別,包括完整程式碼庫分析、書籍長度的文件處理和極長的對話歷史。Maverick 的 128K 原生上下文足以滿足大多數生產應用,同時在複雜推理任務上提供更高品質。

    Fine-Tuning with Ertas

    由於 MoE 架構,在 Ertas Studio 中微調 Llama 4 Scout 非常高效。由於每次前向傳播僅有 17B 參數處於活躍狀態,QLoRA 微調針對活躍專家路徑和共享層,需要約 24-32GB VRAM——可在單張 A100 40GB 或雙 RTX 4090 配置上實現。上傳您的資料集,選擇 Llama 4 Scout 作為基礎模型,Ertas Studio 會自動處理 MoE 感知的 LoRA 配置。

    對於 Maverick,由於總參數量較大(400B),微調需要更多資源,但 4 位量化的 QLoRA 將需求降低至約 80-96GB VRAM,可在雙 A100 80GB GPU 上實現。Ertas Studio 管理專家路由並確保 LoRA 適配器正確應用於 MoE 層。

    訓練後,Ertas Studio 將您的微調模型匯出為 GGUF 格式。MoE 架構量化效率高——不活躍的專家權重在推論期間不消耗運算,因此量化的 Llama 4 Scout 模型在消費級硬體上執行速度出奇地快。透過 Ollama 或 llama.cpp 部署即可實現即時本地推論。

    Use Cases

    Llama 4 Scout 非常適合需要高品質回應和高效資源使用的生產部署。其 17B 活躍參數的佔用使其適合大規模 API 服務、面向客戶的聊天機器人、RAG 管線和即時應用。擴展的上下文視窗使其在文件處理、法律分析和程式碼庫理解任務上特別強大。

    Llama 4 Maverick 針對高能力應用:複雜多步驟推理、高級程式碼生成和除錯、研究綜合和需要規劃與工具協調的代理工作流程。其品質接近前沿模型,同時仍可在本地部署。

    原生多模態能力使兩個模型都適合視覺語言應用:分析商業報告中的圖表和圖形、從文件圖像中提取結構化資料、用於無障礙應用的視覺問答,以及多模態內容生成管線。

    Hardware Requirements

    Llama 4 Scout 在 Q4_K_M 量化下需要約 60-65GB RAM 來載入完整的模型權重(所有專家都必須載入,即使每個 token 僅有一部分處於活躍狀態)。可在配備 64-128GB RAM 的系統上進行 CPU 推論,或在 A100 80GB 等 GPU 上執行。在 Q8_0 下,預計約 115GB。儘管記憶體佔用比 17B 密集模型大,但推論速度與密集 17B 模型相當,因為僅計算活躍專家。

    Llama 4 Maverick 在 Q4_K_M 下需要約 220-240GB RAM,需要多 GPU 配置(例如 4 張 A100 80GB)或高記憶體 CPU 推論節點。對於需要前沿級效能而不依賴雲端 API 的組織,模型的品質與運算比使這項投資物有所值。

    在 Ertas Studio 中進行微調,Scout 使用 QLoRA 需要 24-32GB VRAM(單張 A100 40GB),Maverick 需要 80-96GB VRAM(雙 A100 80GB)。這些需求遠低於同等品質的密集模型所需的資源。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.