Fine-Tune OLMo with Ertas

Allen Institute for AI 的全面开放语言模型家族，提供 1B、7B 和 13B 三种规模，完全开放训练数据、代码、权重和评估——为可复现的 AI 研究树立了标杆。

1B7B13BAllen AI

Overview

OLMo（Open Language Model）是由 Allen Institute for AI（AI2）开发的语言模型家族，以全面开放为使命。与大多数仅发布最终模型权重的开放权重模型不同，OLMo 提供了一切：完整的训练数据（Dolma 数据集）、训练代码、整个训练过程中保存的中间检查点、评估代码和详细的训练日志。这种透明度水平是前所未有的，使 OLMo 对 AI 研究具有独特的价值。

OLMo 2 家族包括 1B、7B 和 13B 参数的模型。7B 和 13B 模型在 Dolma 数据集的约 5 万亿个 token 上训练，该数据集是一个精心策划的网络文本、学术论文、代码、书籍和百科内容的集合。尽管规模适中，OLMo 2 模型在同级别模型中实现了有竞争力的性能，证明了完全透明不必牺牲模型质量。

在架构上，OLMo 2 使用标准的稠密 Transformer 解码器，包含 RoPE 位置编码、SwiGLU 激活函数和分组查询注意力等改进。模型在基础配置中支持最高 4K token 的上下文窗口，可通过 RoPE 缩放微调进行扩展。

所有 OLMo 制品均在 Apache 2.0 许可下发布。AI2 对开放性的承诺不仅限于许可——他们提供了详细的技术报告、训练方案文档和活跃的社区支持，帮助研究人员复现和在此基础上开展工作。

Key Features

全面的训练透明度是 OLMo 的标志性特征。发布内容不仅包括最终模型权重，还包括完整的 Dolma 训练数据集（约 3 万亿个 token 的去重过滤文本）、完整的训练代码库、训练期间保存的数百个中间检查点、全面的评估套件以及包括损失曲线和硬件利用率数据在内的详细训练日志。这使研究人员能够研究训练动态、复现结果并进行仅凭权重发布无法实现的实验。

Dolma 数据集本身就是一项重要贡献。AI2 记录了数据管道的每一步：数据来源、过滤标准、去重方法、质量评分方法和内容类型分类。这种透明度让研究人员能够准确了解模型学到了什么，并创建数据集的改进版本。

OLMo 2 尽管采用了完全开放的方法，仍展示了有竞争力的性能。13B 模型在标准基准测试上与 Llama 2 13B 及同级别其他模型相竞争，表明透明度和质量并非相互排斥。使用 Tulu 2 微调的 OLMo Instruct 变体提供了出色的指令遵循行为。

Fine-Tuning with Ertas

OLMo 模型是 Ertas Studio 中优秀的微调目标，结合了可访问的模型大小和完全透明的训练谱系。1B 模型使用 QLoRA 仅需 3-5GB VRAM，7B 需要 8-12GB，13B 需要 10-14GB——均在消费级 GPU 能力范围内。小巧的尺寸支持快速实验和迭代。

OLMo 的完全开放为微调提供了独特优势：因为您确切知道基础模型是在什么数据上训练的，所以可以设计微调数据集来补充而非与基础训练冲突。如果 Dolma 在您的特定领域代表性不足，您可以通过有针对性的微调数据精确填补这一空白。

在 Ertas Studio 中微调后，导出为 GGUF 格式进行本地部署。OLMo 模型在所有标准量化格式下均表现良好。Q4_K_M 量化的 OLMo 7B 约 4.3GB——小巧到可以作为研究工具、教育软件或特定领域应用的一部分进行分发。通过 Ollama 或 llama.cpp 部署进行标准推理。

Use Cases

OLMo 是需要理解训练动态、数据影响和模型行为基本原理的 AI 研究的首选模型。研究记忆化、数据归因、涌现能力、缩放定律和训练不稳定性等主题的研究人员从 OLMo 完整的训练制品中获益匪浅。

对于对训练数据溯源有严格要求的组织，OLMo 提供了无与伦比的透明度。训练集中的每个文档都有记录且可追溯，数据管道可完全审计。这使 OLMo 适合对模型可解释性和数据治理有严格要求的受监管行业。

OLMo 还非常适合作为 AI 和机器学习教育的教学工具。学生和从业者可以使用真实的生产质量制品——而非简化的玩具示例——来研究现代大语言模型的完整生命周期，从数据策划到训练再到评估。大学和研究实验室使用 OLMo 作为大语言模型实践课程的平台。

Hardware Requirements

OLMo 1B 在 Q4_K_M 下约需 700MB 内存，可在几乎任何计算设备上运行。7B 模型在 Q4_K_M 下约需 4.3GB，13B 约需 7.8GB。这些适度的需求使 OLMo 在消费级笔记本电脑、桌面 GPU 上均可访问，最小规模甚至可在某些移动设备上运行。

在 Q8_0 下，需求分别约为 1.2GB（1B）、7.5GB（7B）和 14GB（13B）。全精度 FP16 推理分别约需 2.2GB（1B）、14.5GB（7B）和 26GB（13B）。7B 和 13B 模型分别可在 RTX 4070 Ti 12GB 和 RTX 4090 24GB 等消费级 GPU 上舒适运行。

在 Ertas Studio 中微调时，1B 模型使用 QLoRA 需要 3-5GB VRAM，7B 需要 8-12GB，13B 需要 10-14GB。小巧的尺寸使 OLMo 非常适合需要在有限硬件预算上运行实验的研究人员和学生。在单块消费级 GPU 上一天内可完成多个实验。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →