Fine-Tune Llama 3 with Ertas

Meta 的第三代開放權重大型語言模型家族，以 8B、70B 和 405B 三種參數配置，在推理、程式碼生成和多語言任務上提供頂尖效能。

8B70B405BMeta

Overview

Llama 3 代表了 Meta 開放權重模型系列的重大飛躍。於 2024 年發布，Llama 3 家族涵蓋三種規格——8B、70B 和 405B 參數——使用超過 15 兆個公開可用資料的 token 進行訓練，是 Llama 2 訓練資料量的七倍以上。架構在所有規格上使用標準的密集 Transformer 解碼器搭配分組查詢注意力（GQA），擴展至 128K token 的詞彙量和高達 128K token 的上下文視窗。

8B 模型提供了與前一代更大模型相競爭的效能，使其成為資源受限部署的卓越選擇。70B 變體在許多基準測試上與 GPT-3.5 Turbo 等專有模型競爭，而 405B 旗艦在推理、數學和程式碼生成任務上與 GPT-4 級模型競爭。

Llama 3 使用監督微調（SFT）和基於人類回饋的強化學習（RLHF）的組合進行訓練，Meta 應用了直接偏好最佳化（DPO）進行對齊。指令微調變體（Llama 3 Instruct）支援工具使用、結構化 JSON 輸出和多輪對話，使其非常適合生產應用。

模型的開放權重授權允許商業使用且限制極少，這使 Llama 3 成為生態系統中被最廣泛採用的開源模型家族之一。在 Hugging Face 上存在大量的微調變體社群，涵蓋從醫學到法律再到創意寫作等專業領域。

Key Features

Llama 3 引入了多項相較前代的架構和訓練改進。所有模型規格都使用分組查詢注意力（GQA），透過減少鍵值快取佔用來提高推論吞吐量。分詞器詞彙量從 32K 擴展到 128K token，將非英語語言和程式碼的編碼效率提高了約 15%。透過 RoPE 頻率縮放，上下文視窗擴展到 128K token，能夠處理長文件、程式碼庫和延伸對話。

指令微調模型支援結構化工具呼叫，允許與外部 API 和函數呼叫工作流程整合。Llama 3 在多語言基準測試上也展現了與 Llama 2 相比的顯著改進，在英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語方面具有強大能力。

安全性是關鍵的設計考量。Meta 開發了 Llama Guard 3（配套內容安全分類器）和 Prompt Guard（注入偵測模型），兩者均隨 Llama 3 一同發布以支持負責任的部署。

Fine-Tuning with Ertas

Ertas Studio 為 Llama 3 模型微調提供了無需編寫任何程式碼的精簡工作流程。8B 變體是最受歡迎的微調選擇，可在配備 24GB VRAM 的單張 GPU（如 RTX 4090 或 A5000）上使用 QLoRA 進行訓練。只需以 JSONL 或 CSV 格式上傳您的資料集，選擇 Llama 3 8B 作為基礎模型，並透過視覺化介面配置您的 LoRA 超參數。

對於 70B 模型，Ertas Studio 支援 4 位量化的 QLoRA 訓練，將記憶體需求降低至約 40-48GB VRAM——可在單張 A100 80GB 或雙 A6000 配置上實現。平台自動處理基於 Llama 3 聊天格式的聊天範本格式化、填充和分詞。

訓練完成後，Ertas Studio 可直接將您的微調模型匯出為您選擇的量化等級的 GGUF 格式。然後您可以透過 Ollama、llama.cpp 或 LM Studio 一鍵部署模型到本地。從原始資料到可部署的量化模型的整個管線可以在數小時而非數天內完成。

Use Cases

Llama 3 8B 模型作為通用任務的快速高效助手表現出色：摘要、問答、簡單程式碼生成和對話介面。它是邊緣部署、行動應用和延遲比尖端能力更重要的場景的理想選擇。

70B 模型非常適合需要高品質推理、複雜程式碼生成、文件分析和檢索增強生成（RAG）管線的企業應用。它在需要多步驟邏輯推理和細膩文本理解的任務上表現特別好。

405B 模型針對需要最高品質的用途：研究輔助、高級數學問題解決、大規模程式碼重構和合成資料生成以訓練較小模型。組織經常使用 405B 生成高品質訓練資料，然後用於微調特定領域的 8B 或 70B 模型。

Hardware Requirements

Llama 3 8B 模型在 Q4_K_M 量化下需要約 4.5GB RAM，在 Q8_0 量化下約 8.5GB，可在大多數現代筆記型電腦和消費級 GPU 上執行，包括 RTX 3060 12GB 或搭載 16GB 統一記憶體的 Apple M1。完整 FP16 推論需要約 16GB VRAM。

70B 模型在 Q4_K_M 量化下需要約 40GB RAM，適合配備 64GB RAM 的系統（CPU 推論）或 A100 80GB 等 GPU。在 Q8_0 量化下，預計約 75GB 記憶體用量。完整 FP16 推論需要約 140GB VRAM，通常需要多 GPU 配置。

405B 模型需求最高，在 Q4_K_M 量化下需要約 230GB。這通常需要多 GPU 伺服器配置（例如 4 張 A100 80GB 或 8 張 A6000 48GB）或配備 512GB 以上 RAM 的大記憶體 CPU 推論系統。對於大多數實際部署，量化後的 70B 模型提供最佳的品質與資源比。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →