Fine-Tune OLMo with Ertas

Allen Institute for AI 的完全開放語言模型家族，提供 1B、7B 和 13B 三種規格，完全公開訓練資料、程式碼、權重和評估——為可重現的 AI 研究樹立標準。

1B7B13BAllen AI

Overview

OLMo（Open Language Model）是由 Allen Institute for AI（AI2）以完全開放為使命開發的語言模型家族。與大多數僅發布最終模型權重的開放權重模型不同，OLMo 提供一切：完整的訓練資料（Dolma 資料集）、訓練程式碼、訓練過程中儲存的中間檢查點、評估程式碼和詳細的訓練日誌。這種透明度是前所未有的，使 OLMo 對 AI 研究具有獨特的價值。

OLMo 2 家族包含 1B、7B 和 13B 參數的模型。7B 和 13B 模型使用 Dolma 資料集的約 5 兆個 token 進行訓練，這是一個精心策劃的網路文本、學術論文、程式碼、書籍和百科全書內容的集合。儘管規格適中，OLMo 2 模型在其規格級別中達到了具競爭力的效能，證明了完全的透明度不必犧牲模型品質。

在架構方面，OLMo 2 使用標準的密集 Transformer 解碼器，包含 RoPE 位置嵌入、SwiGLU 激活函數和分組查詢注意力等改進。模型在基本配置下支援最多 4K token 的上下文視窗，可透過 RoPE 縮放的微調進行擴展。

所有 OLMo 產出物均以 Apache 2.0 授權發布。AI2 對開放性的承諾超越了授權——他們提供詳細的技術報告、訓練方法文件和積極的社群支援，幫助研究人員重現和在其工作基礎上進行建設。

Key Features

完全的訓練透明度是 OLMo 的核心特色。發布內容不僅包括最終模型權重，還包括完整的 Dolma 訓練資料集（約 3 兆個去重過濾文本 token）、完整的訓練程式碼庫、訓練過程中儲存的數百個中間檢查點、全面的評估套件以及包含損失曲線和硬體利用率資料的詳細訓練日誌。這使研究人員能夠研究訓練動態、重現結果並進行僅權重發布無法實現的實驗。

Dolma 資料集本身是一項重要貢獻。AI2 記錄了其資料管線的每個步驟：資料來源、過濾標準、去重方法、品質評分方法和內容類型分類。這種透明度讓研究人員能夠準確了解模型學習了什麼，並建立改進版本的資料集。

OLMo 2 儘管採用完全開放的方法仍展現了具競爭力的效能。13B 模型在標準基準測試上與 Llama 2 13B 和同級別其他模型競爭力相當，證明透明度和品質並非互斥。使用 Tulu 2 微調的 OLMo Instruct 變體提供了出色的指令跟隨能力。

Fine-Tuning with Ertas

OLMo 模型是 Ertas Studio 中出色的微調目標，結合了易取得的模型規格和完全透明的訓練歷史。1B 模型使用 QLoRA 僅需 3-5GB VRAM，7B 需要 8-12GB，13B 需要 10-14GB——都在消費級 GPU 的能力範圍內。小巧的規格使快速實驗和迭代成為可能。

OLMo 的完全開放性為微調提供了獨特的優勢：因為您確切知道基礎模型是用什麼訓練的，您可以設計微調資料集來補充基礎訓練而非與之衝突。如果 Dolma 在您的特定領域代表性不足，您可以透過有針對性的微調資料精確填補這一差距。

在 Ertas Studio 中微調後，匯出為 GGUF 格式進行本地部署。OLMo 模型與所有標準量化格式配合良好。Q4_K_M 量化的 OLMo 7B 約 4.3GB——足夠小，可作為研究工具、教育軟體或特定領域應用的一部分進行分發。透過 Ollama 或 llama.cpp 部署進行標準推論。

Use Cases

OLMo 是需要理解訓練動態、資料影響和模型行為的 AI 研究的首選模型。研究記憶化、資料歸因、湧現能力、縮放法則和訓練不穩定性等主題的研究人員從 OLMo 的完整訓練產出物中受益匪淺。

對於對訓練資料來源有嚴格要求的組織，OLMo 提供了無與倫比的透明度。訓練集中的每份文件都有記錄和可追溯，資料管線完全可審計。這使 OLMo 適合模型可解釋性和資料治理為關鍵要求的受監管行業。

OLMo 也非常適合作為 AI 和機器學習教育的教學工具。學生和從業者可以使用真實的生產品質產出物——而非簡化的玩具範例——來研究現代 LLM 的完整生命週期，從資料策劃到訓練再到評估。大學和研究實驗室使用 OLMo 作為 LLM 實作課程的平台。

Hardware Requirements

OLMo 1B 在 Q4_K_M 下需要約 700MB RAM，幾乎可在任何運算裝置上執行。7B 模型在 Q4_K_M 下需要約 4.3GB，13B 需要約 7.8GB。這些適度的需求使 OLMo 在消費級筆記型電腦、桌上型 GPU 甚至最小規格的某些行動裝置上都可使用。

在 Q8_0 下，需求分別約為 1.2GB（1B）、7.5GB（7B）和 14GB（13B）。完整 FP16 推論需要約 2.2GB（1B）、14.5GB（7B）和 26GB（13B）。7B 和 13B 模型分別在 RTX 4070 Ti 12GB 和 RTX 4090 24GB 等消費級 GPU 上舒適執行。

在 Ertas Studio 中進行微調，1B 模型使用 QLoRA 需要 3-5GB VRAM，7B 需要 8-12GB，13B 需要 10-14GB。小巧的規格使 OLMo 非常適合需要在有限硬體預算上執行實驗的研究人員和學生。在單張消費級 GPU 上一天內可以執行多個實驗。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →