Fine-Tune Llama 3 with Ertas

Meta 第三代开放权重大语言模型家族，在推理、代码生成和多语言任务方面实现了最先进的性能，提供 8B、70B 和 405B 三种参数规格。

8B70B405BMeta

Overview

Llama 3 代表了 Meta 开放权重模型系列的重大飞跃。该家族于 2024 年发布，涵盖三种规模——8B、70B 和 405B 参数——在超过 15 万亿个 token 的公开数据上进行训练，是 Llama 2 训练数据量的七倍以上。架构采用标准的稠密 Transformer 解码器，所有规模均使用分组查询注意力（GQA）、扩展至 128K token 的词表以及最高 128K token 的上下文窗口。

8B 模型的性能可与上一代更大规模的模型相媲美，是资源受限部署场景的优秀选择。70B 变体在许多基准测试中可与 GPT-3.5 Turbo 等专有模型抗衡，而 405B 旗舰版则在推理、数学和代码生成任务上与 GPT-4 级别的模型展开竞争。

Llama 3 使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）的组合进行训练，Meta 应用了直接偏好优化（DPO）进行对齐。指令调优变体（Llama 3 Instruct）支持工具使用、结构化 JSON 输出和多轮对话，非常适合生产环境应用。

该模型的开放权重许可允许商业使用且限制极少，使 Llama 3 成为生态系统中最广泛采用的开源模型家族之一。Hugging Face 上存在大量微调变体社区，涵盖从医学到法律再到创意写作的专业领域。

Key Features

Llama 3 在架构和训练方面相比前代引入了多项改进。所有模型规模均使用分组查询注意力（GQA），通过减少键值缓存占用来提升推理吞吐量。分词器词表从 32K 扩展到 128K token，非英语语言和代码的编码效率提升约 15%。通过 RoPE 频率缩放，上下文窗口扩展至 128K token，可处理长文档、代码库和扩展对话。

指令调优模型支持结构化工具调用，允许与外部 API 和函数调用工作流集成。与 Llama 2 相比，Llama 3 在多语言基准测试上表现显著提升，在英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语方面具有强大能力。

安全性是关键设计考量。Meta 开发了 Llama Guard 3（内容安全分类器）和 Prompt Guard（注入检测模型），两者均与 Llama 3 一同发布以支持负责任的部署。

Fine-Tuning with Ertas

Ertas Studio 提供了无需编写代码即可微调 Llama 3 模型的简化工作流程。8B 变体是最受欢迎的微调选择，使用 QLoRA 在单块 24GB VRAM 的 GPU（如 RTX 4090 或 A5000）上即可训练。只需上传 JSONL 或 CSV 格式的数据集，选择 Llama 3 8B 作为基础模型，通过可视化界面配置 LoRA 超参数即可。

对于 70B 模型，Ertas Studio 支持 4 位量化的 QLoRA 训练，将内存需求降低至约 40-48GB VRAM——单块 A100 80GB 或双 A6000 配置即可实现。平台自动处理基于 Llama 3 聊天格式的聊天模板格式化、填充和分词。

训练完成后，Ertas Studio 可将微调模型直接导出为 GGUF 格式，并可选择量化级别。随后您可以通过 Ollama、llama.cpp 或 LM Studio 一键在本地部署模型。从原始数据到可部署的量化模型，整个流程可在数小时而非数天内完成。

Use Cases

Llama 3 8B 模型擅长作为快速高效的通用任务助手：摘要、问答、简单代码生成和对话接口。它是边缘部署、移动应用和延迟优先于峰值能力的场景的理想选择。

70B 模型非常适合需要高质量推理、复杂代码生成、文档分析和检索增强生成（RAG）管道的企业应用。它在需要多步骤逻辑推理和细腻文本理解的任务上表现尤为出色。

405B 模型面向对质量要求最高的应用场景：研究辅助、高级数学问题求解、大规模代码重构以及为训练较小模型而生成合成数据。组织机构常使用 405B 生成高质量训练数据，再用于针对特定领域微调 8B 或 70B 模型。

Hardware Requirements

Llama 3 8B 模型在 Q4_K_M 量化下约需 4.5GB 内存，在 Q8_0 量化下约需 8.5GB，可在大多数现代笔记本电脑和消费级 GPU 上运行，包括 RTX 3060 12GB 或配备 16GB 统一内存的 Apple M1。全精度 FP16 推理约需 16GB VRAM。

70B 模型在 Q4_K_M 量化下约需 40GB 内存，适合配备 64GB 内存的系统（CPU 推理）或 A100 80GB 等 GPU。在 Q8_0 量化下，预计约需 75GB 内存。全精度 FP16 推理约需 140GB VRAM，通常需要多 GPU 配置。

405B 模型需求最高，Q4_K_M 量化下约需 230GB。这通常需要多 GPU 服务器配置（例如 4x A100 80GB 或 8x A6000 48GB）或配备 512GB 以上内存的大内存 CPU 推理系统。对于大多数实际部署，量化后的 70B 模型提供了最佳的质量与资源比。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →