Fine-Tune OLMo with Ertas

Familia de modelos de lenguaje completamente abiertos del Allen Institute for AI en tamaños de 1B, 7B y 13B, con datos de entrenamiento, código, pesos y evaluación completamente abiertos — estableciendo el estándar para investigación de IA reproducible.

1B7B13BAllen AI

Overview

OLMo (Open Language Model) es una familia de modelos de lenguaje desarrollados por el Allen Institute for AI (AI2) con la misión de apertura total. A diferencia de la mayoría de modelos de pesos abiertos que publican solo los pesos finales del modelo, OLMo proporciona todo: los datos de entrenamiento completos (dataset Dolma), código de entrenamiento, checkpoints intermedios guardados durante el entrenamiento, código de evaluación y registros detallados de entrenamiento. Este nivel de transparencia es sin precedentes y hace a OLMo únicamente valioso para la investigación en IA.

La familia OLMo 2 incluye modelos de 1B, 7B y 13B parámetros. Los modelos de 7B y 13B fueron entrenados con aproximadamente 5 billones de tokens del dataset Dolma, una colección cuidadosamente curada de texto web, artículos académicos, código, libros y contenido enciclopédico. A pesar de sus tamaños moderados, los modelos OLMo 2 logran rendimiento competitivo con otros modelos en sus clases de tamaño, demostrando que la transparencia total no necesariamente compromete la calidad del modelo.

Arquitectónicamente, OLMo 2 usa un decoder transformer denso estándar con mejoras incluyendo embeddings posicionales RoPE, activaciones SwiGLU y atención de consultas agrupadas. Los modelos soportan ventanas de contexto de hasta 4K tokens en la configuración base, extensible mediante fine-tuning con escalado RoPE.

Todos los artefactos de OLMo se publican bajo la licencia Apache 2.0. El compromiso de AI2 con la apertura se extiende más allá de la licencia — proporcionan informes técnicos detallados, documentación de recetas de entrenamiento y soporte activo a la comunidad para ayudar a los investigadores a reproducir y construir sobre su trabajo.

Key Features

La transparencia total de entrenamiento es la característica definitoria de OLMo. El lanzamiento incluye no solo los pesos finales del modelo sino también el dataset de entrenamiento Dolma completo (aproximadamente 3 billones de tokens de texto filtrado y deduplicado), el código de entrenamiento completo, cientos de checkpoints intermedios guardados durante el entrenamiento, suites de evaluación exhaustivas y registros detallados de entrenamiento incluyendo curvas de pérdida y datos de utilización de hardware. Esto permite a los investigadores estudiar dinámicas de entrenamiento, reproducir resultados y realizar experimentos que son imposibles con lanzamientos solo de pesos.

El dataset Dolma en sí es una contribución significativa. AI2 documentó cada paso de su pipeline de datos: fuentes de datos, criterios de filtrado, métodos de deduplicación, enfoques de puntuación de calidad y clasificación por tipo de contenido. Esta transparencia permite a los investigadores entender exactamente de qué aprendió el modelo y crear versiones mejoradas del dataset.

OLMo 2 demuestra rendimiento competitivo a pesar de su enfoque completamente abierto. El modelo de 13B, en particular, rinde competitivamente con Llama 2 13B y otros modelos en su clase de tamaño en benchmarks estándar, mostrando que transparencia y calidad no son mutuamente excluyentes. Las variantes OLMo Instruct, ajustadas con Tulu 2, proporcionan capacidad competente de seguimiento de instrucciones.

Fine-Tuning with Ertas

Los modelos OLMo son excelentes objetivos de fine-tuning en Ertas Studio, combinando tamaños de modelo accesibles con un linaje de entrenamiento completamente transparente. El modelo de 1B requiere solo 3-5GB de VRAM con QLoRA, el de 7B necesita 8-12GB y el de 13B necesita 10-14GB — todo dentro de las capacidades de GPUs de consumo. Los tamaños pequeños permiten experimentación e iteración rápidas.

La apertura total de OLMo proporciona una ventaja única para fine-tuning: como sabes exactamente con qué fue entrenado el modelo base, puedes diseñar tu dataset de fine-tuning para complementar el entrenamiento base en lugar de entrar en conflicto con él. Si Dolma subrepresenta tu dominio específico, puedes llenar esa brecha con precisión usando datos de fine-tuning dirigidos.

Después del fine-tuning en Ertas Studio, exporta a formato GGUF para despliegue local. Los modelos OLMo funcionan bien con todos los formatos de cuantización estándar. Un OLMo 7B cuantizado en Q4_K_M es de aproximadamente 4.3GB — lo suficientemente pequeño para distribuir como parte de herramientas de investigación, software educativo o aplicaciones específicas de dominio. Despliega a través de Ollama o llama.cpp para inferencia estándar.

Use Cases

OLMo es el modelo de elección para investigación en IA que requiere comprensión de dinámicas de entrenamiento, influencia de datos y comportamiento del modelo a un nivel fundamental. Investigadores que estudian temas como memorización, atribución de datos, capacidades emergentes, leyes de escalado e inestabilidad de entrenamiento se benefician enormemente de los artefactos de entrenamiento completos de OLMo.

Para organizaciones con requisitos estrictos sobre la procedencia de datos de entrenamiento, OLMo ofrece transparencia inigualable. Cada documento en el conjunto de entrenamiento está documentado y es trazable, y el pipeline de datos es completamente auditable. Esto hace a OLMo adecuado para industrias reguladas donde la explicabilidad del modelo y la gobernanza de datos son requisitos críticos.

OLMo también sirve bien como herramienta de enseñanza para educación en IA y aprendizaje automático. Estudiantes y profesionales pueden estudiar el ciclo de vida completo de un LLM moderno — desde curación de datos pasando por entrenamiento hasta evaluación — usando artefactos reales de calidad de producción en lugar de ejemplos simplificados de juguete. Universidades y laboratorios de investigación usan OLMo como plataforma para cursos prácticos de LLM.

Hardware Requirements

OLMo 1B en Q4_K_M requiere aproximadamente 700MB de RAM, ejecutable en prácticamente cualquier dispositivo de computación. El modelo de 7B en Q4_K_M necesita unos 4.3GB, y el de 13B necesita unos 7.8GB. Estos modestos requisitos hacen a OLMo accesible en laptops de consumo, GPUs de escritorio e incluso algunos dispositivos móviles en el tamaño más pequeño.

En Q8_0, los requisitos son aproximadamente 1.2GB (1B), 7.5GB (7B) y 14GB (13B). La inferencia completa en FP16 requiere aproximadamente 2.2GB (1B), 14.5GB (7B) y 26GB (13B). Los modelos de 7B y 13B funcionan cómodamente en GPUs de consumo como la RTX 4070 Ti de 12GB y RTX 4090 de 24GB respectivamente.

Para fine-tuning en Ertas Studio, el modelo de 1B necesita 3-5GB de VRAM con QLoRA, el de 7B necesita 8-12GB y el de 13B necesita 10-14GB. Los tamaños pequeños hacen a OLMo ideal para investigadores y estudiantes que necesitan ejecutar experimentos con presupuestos de hardware limitados. Múltiples experimentos pueden ejecutarse en una sola GPU de consumo en un día.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →