Fine-Tune Llama 3 with Ertas
Meta 的第三代開放權重大型語言模型家族,以 8B、70B 和 405B 三種參數配置,在推理、程式碼生成和多語言任務上提供頂尖效能。
Overview
Llama 3 代表了 Meta 開放權重模型系列的重大飛躍。於 2024 年發布,Llama 3 家族涵蓋三種規格——8B、70B 和 405B 參數——使用超過 15 兆個公開可用資料的 token 進行訓練,是 Llama 2 訓練資料量的七倍以上。架構在所有規格上使用標準的密集 Transformer 解碼器搭配分組查詢注意力(GQA),擴展至 128K token 的詞彙量和高達 128K token 的上下文視窗。
8B 模型提供了與前一代更大模型相競爭的效能,使其成為資源受限部署的卓越選擇。70B 變體在許多基準測試上與 GPT-3.5 Turbo 等專有模型競爭,而 405B 旗艦在推理、數學和程式碼生成任務上與 GPT-4 級模型競爭。
Llama 3 使用監督微調(SFT)和基於人類回饋的強化學習(RLHF)的組合進行訓練,Meta 應用了直接偏好最佳化(DPO)進行對齊。指令微調變體(Llama 3 Instruct)支援工具使用、結構化 JSON 輸出和多輪對話,使其非常適合生產應用。
模型的開放權重授權允許商業使用且限制極少,這使 Llama 3 成為生態系統中被最廣泛採用的開源模型家族之一。在 Hugging Face 上存在大量的微調變體社群,涵蓋從醫學到法律再到創意寫作等專業領域。
Key Features
Llama 3 引入了多項相較前代的架構和訓練改進。所有模型規格都使用分組查詢注意力(GQA),透過減少鍵值快取佔用來提高推論吞吐量。 分詞器詞彙量從 32K 擴展到 128K token,將非英語語言和程式碼的編碼效率提高了約 15%。透過 RoPE 頻率縮放,上下文視窗擴展到 128K token,能夠處理長文件、程式碼庫和延伸對話。
指令微調模型支援結構化工具呼叫,允許與外部 API 和函數呼叫工作流程整合。Llama 3 在多語言基準測試上也展現了與 Llama 2 相比的顯著改進,在英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語方面具有強大能力。
安全性是關鍵的設計考量。Meta 開發了 Llama Guard 3(配套內容安全分類器)和 Prompt Guard(注入偵測模型),兩者均隨 Llama 3 一同發布以支持負責任的部署。
Fine-Tuning with Ertas
Ertas Studio 為 Llama 3 模型微調提供了無需編寫任何程式碼的精簡工作流程。8B 變體是最受歡迎的微調選擇,可在配備 24GB VRAM 的單張 GPU(如 RTX 4090 或 A5000)上使用 QLoRA 進行訓練。只需以 JSONL 或 CSV 格式上傳您的資料集,選擇 Llama 3 8B 作為基礎模型,並透過視覺化介面配置您的 LoRA 超參數。
對於 70B 模型,Ertas Studio 支援 4 位量化的 QLoRA 訓練,將記憶體需求降低至約 40-48GB VRAM——可在單張 A100 80GB 或雙 A6000 配置上實現。平台自動處理基於 Llama 3 聊天格式的聊天範本格式化、填充和分詞。
訓練完成後,Ertas Studio 可直接將您的微調模型匯出為您選擇的量化等級的 GGUF 格式。然後您可以透過 Ollama、llama.cpp 或 LM Studio 一鍵部署模型到本地。從原始資料到可部署的量化模型的整個管線可以在數小 時而非數天內完成。
Use Cases
Llama 3 8B 模型作為通用任務的快速高效助手表現出色:摘要、問答、簡單程式碼生成和對話介面。它是邊緣部署、行動應用和延遲比尖端能力更重要的場景的理想選擇。
70B 模型非常適合需要高品質推理、複雜程式碼生成、文件分析和檢索增強生成(RAG)管線的企業應用。它在需要多步驟邏輯推理和細膩文本理解的任務上表現特別好。
405B 模型針對需要最高品質的用途:研究輔助、高級數學問題解決、大規模程式碼重構和合成資料生成以訓練較小模型。組織經常使用 405B 生成高品質訓練資料,然後用於微調特定領域的 8B 或 70B 模型。
Hardware Requirements
Llama 3 8B 模型在 Q4_K_M 量化下需要約 4.5GB RAM,在 Q8_0 量化下約 8.5GB,可在大多數現代筆記型電腦和消費級 GPU 上執行,包括 RTX 3060 12GB 或搭載 16GB 統一記憶體的 Apple M1。完整 FP16 推論需要約 16GB VRAM。
70B 模型在 Q4_K_M 量化下需要約 40GB RAM,適合配備 64GB RAM 的系統(CPU 推論)或 A100 80GB 等 GPU。在 Q8_0 量化下,預計約 75GB 記憶體用量。完整 FP16 推論需要約 140GB VRAM,通常需要多 GPU 配置。
405B 模型需求最高,在 Q4_K_M 量化下需要約 230GB。這通常需要多 GPU 伺服器配置(例如 4 張 A100 80GB 或 8 張 A6000 48GB)或配備 512GB 以上 RAM 的大記憶體 CPU 推論系統。對於大多數實際 部署,量化後的 70B 模型提供最佳的品質與資源比。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.