Fine-Tune Llama 3 with Ertas

    Meta 第三代开放权重大语言模型家族,在推理、代码生成和多语言任务方面实现了最先进的性能,提供 8B、70B 和 405B 三种参数规格。

    8B70B405BMeta

    Overview

    Llama 3 代表了 Meta 开放权重模型系列的重大飞跃。该家族于 2024 年发布,涵盖三种规模——8B、70B 和 405B 参数——在超过 15 万亿个 token 的公开数据上进行训练,是 Llama 2 训练数据量的七倍以上。架构采用标准的稠密 Transformer 解码器,所有规模均使用分组查询注意力(GQA)、扩展至 128K token 的词表以及最高 128K token 的上下文窗口。

    8B 模型的性能可与上一代更大规模的模型相媲美,是资源受限部署场景的优秀选择。70B 变体在许多基准测试中可与 GPT-3.5 Turbo 等专有模型抗衡,而 405B 旗舰版则在推理、数学和代码生成任务上与 GPT-4 级别的模型展开竞争。

    Llama 3 使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)的组合进行训练,Meta 应用了直接偏好优化(DPO)进行对齐。指令调优变体(Llama 3 Instruct)支持工具使用、结构化 JSON 输出和多轮对话,非常适合生产环境应用。

    该模型的开放权重许可允许商业使用且限制极少,使 Llama 3 成为生态系统中最广泛采用的开源模型家族之一。Hugging Face 上存在大量微调变体社区,涵盖从医学到法律再到创意写作的专业领域。

    Key Features

    Llama 3 在架构和训练方面相比前代引入了多项改进。所有模型规模均使用分组查询注意力(GQA),通过减少键值缓存占用来提升推理吞吐量。分词器词表从 32K 扩展到 128K token,非英语语言和代码的编码效率提升约 15%。通过 RoPE 频率缩放,上下文窗口扩展至 128K token,可处理长文档、代码库和扩展对话。

    指令调优模型支持结构化工具调用,允许与外部 API 和函数调用工作流集成。与 Llama 2 相比,Llama 3 在多语言基准测试上表现显著提升,在英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语方面具有强大能力。

    安全性是关键设计考量。Meta 开发了 Llama Guard 3(内容安全分类器)和 Prompt Guard(注入检测模型),两者均与 Llama 3 一同发布以支持负责任的部署。

    Fine-Tuning with Ertas

    Ertas Studio 提供了无需编写代码即可微调 Llama 3 模型的简化工作流程。8B 变体是最受欢迎的微调选择,使用 QLoRA 在单块 24GB VRAM 的 GPU(如 RTX 4090 或 A5000)上即可训练。只需上传 JSONL 或 CSV 格式的数据集,选择 Llama 3 8B 作为基础模型,通过可视化界面配置 LoRA 超参数即可。

    对于 70B 模型,Ertas Studio 支持 4 位量化的 QLoRA 训练,将内存需求降低至约 40-48GB VRAM——单块 A100 80GB 或双 A6000 配置即可实现。平台自动处理基于 Llama 3 聊天格式的聊天模板格式化、填充和分词。

    训练完成后,Ertas Studio 可将微调模型直接导出为 GGUF 格式,并可选择量化级别。随后您可以通过 Ollama、llama.cpp 或 LM Studio 一键在本地部署模型。从原始数据到可部署的量化模型,整个流程可在数小时而非数天内完成。

    Use Cases

    Llama 3 8B 模型擅长作为快速高效的通用任务助手:摘要、问答、简单代码生成和对话接口。它是边缘部署、移动应用和延迟优先于峰值能力的场景的理想选择。

    70B 模型非常适合需要高质量推理、复杂代码生成、文档分析和检索增强生成(RAG)管道的企业应用。它在需要多步骤逻辑推理和细腻文本理解的任务上表现尤为出色。

    405B 模型面向对质量要求最高的应用场景:研究辅助、高级数学问题求解、大规模代码重构以及为训练较小模型而生成合成数据。组织机构常使用 405B 生成高质量训练数据,再用于针对特定领域微调 8B 或 70B 模型。

    Hardware Requirements

    Llama 3 8B 模型在 Q4_K_M 量化下约需 4.5GB 内存,在 Q8_0 量化下约需 8.5GB,可在大多数现代笔记本电脑和消费级 GPU 上运行,包括 RTX 3060 12GB 或配备 16GB 统一内存的 Apple M1。全精度 FP16 推理约需 16GB VRAM。

    70B 模型在 Q4_K_M 量化下约需 40GB 内存,适合配备 64GB 内存的系统(CPU 推理)或 A100 80GB 等 GPU。在 Q8_0 量化下,预计约需 75GB 内存。全精度 FP16 推理约需 140GB VRAM,通常需要多 GPU 配置。

    405B 模型需求最高,Q4_K_M 量化下约需 230GB。这通常需要多 GPU 服务器配置(例如 4x A100 80GB 或 8x A6000 48GB)或配备 512GB 以上内存的大内存 CPU 推理系统。对于大多数实际部署,量化后的 70B 模型提供了最佳的质量与资源比。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.