Fine-Tune DeepSeek-R1 with Ertas

Modelo de razonamiento dedicado de DeepSeek, entrenado con aprendizaje por refuerzo para realizar razonamiento extendido de cadena de pensamiento, disponible en tamaños destilados desde 1.5B hasta 70B y la arquitectura completa de mezcla de expertos de 671B.

1.5B7B8B14B32B70B671BDeepSeek

Overview

DeepSeek-R1, lanzado en enero de 2025, es un modelo de razonamiento dedicado que utiliza procesamiento extendido de cadena de pensamiento (CoT) para resolver problemas complejos. A diferencia de los modelos estándar ajustados con instrucciones que generan respuestas directamente, R1 produce trazas de razonamiento interno detalladas — pensando paso a paso en los problemas — antes de llegar a su respuesta final. Este enfoque produce mejoras dramáticas en tareas que requieren razonamiento matemático, deducción lógica, generación de código y resolución de problemas científicos.

El modelo completo DeepSeek-R1 utiliza una arquitectura de mezcla de expertos de 671B parámetros (la misma base que DeepSeek-V3) con aproximadamente 37B parámetros activos por paso de inferencia. Sin embargo, DeepSeek también lanzó una serie de variantes destiladas creadas al entrenar modelos densos más pequeños (basados en Qwen y Llama) con las trazas de razonamiento de R1. Estos modelos destilados van desde 1.5B hasta 70B parámetros y retienen gran parte de la capacidad de razonamiento del modelo completo a un costo computacional dramáticamente menor.

La metodología de entrenamiento es particularmente innovadora. DeepSeek-R1 fue entrenado usando aprendizaje por refuerzo (RL) a gran escala con mínimo SFT, permitiendo al modelo desarrollar sus propias estrategias de razonamiento en lugar de imitar ejemplos de cadena de pensamiento escritos por humanos. Una versión intermedia, DeepSeek-R1-Zero, fue entrenada con RL puro y sin SFT, demostrando que las capacidades de razonamiento pueden emerger solo de señales de recompensa.

DeepSeek-R1 iguala o supera al o1 de OpenAI en varios benchmarks incluyendo AIME 2024 (competencias de matemáticas), Codeforces (programación competitiva) y GPQA Diamond (preguntas de ciencia a nivel de posgrado). El modelo y sus variantes destiladas se publican bajo la licencia MIT.

Key Features

El razonamiento extendido de cadena de pensamiento es la característica definitoria de R1. Cuando se le presenta un problema complejo, el modelo genera trazas de razonamiento interno que pueden abarcar cientos o miles de tokens antes de producir su respuesta final. Estas trazas incluyen generación de hipótesis, autocorrección, pasos de verificación y exploración de enfoques alternativos — imitando cómo los expertos humanos abordan problemas difíciles. Los usuarios pueden observar el proceso de razonamiento en tiempo real, proporcionando transparencia en la toma de decisiones del modelo.

La serie de modelos destilados es excepcionalmente valiosa para la comunidad de código abierto. DeepSeek destiló las capacidades de razonamiento de R1 en seis modelos más pequeños: R1-Distill-Qwen-1.5B, R1-Distill-Qwen-7B, R1-Distill-Llama-8B, R1-Distill-Qwen-14B, R1-Distill-Qwen-32B y R1-Distill-Llama-70B. El modelo destilado de 32B, en particular, es destacado — logra un rendimiento de razonamiento que rivaliza con modelos mucho más grandes a una fracción del costo computacional.

R1 también demuestra un fuerte rendimiento en tareas que se benefician del pensamiento deliberativo: depuración de código complejo, demostraciones matemáticas de múltiples pasos, evaluación de hipótesis científicas y planificación estratégica. El modelo sabe cuándo pensar más tiempo en problemas difíciles y cuándo responder rápidamente en consultas más simples.

Fine-Tuning with Ertas

Ajustar los modelos destilados de DeepSeek-R1 en Ertas Studio es una forma efectiva de crear modelos de razonamiento específicos de dominio. Las variantes destiladas de 7B y 8B son los puntos de partida más populares, requiriendo 8-12GB de VRAM con QLoRA y ajustándose en GPUs de consumo estándar. El modelo destilado de 14B necesita aproximadamente 10-14GB de VRAM, y la excepcional variante destilada de 32B requiere 20-28GB de VRAM.

Para mejores resultados al ajustar modelos R1, incluye trazas de razonamiento de cadena de pensamiento en tus datos de entrenamiento. Ertas Studio soporta datasets con tokens de pensamiento explícitos, donde cada ejemplo de entrenamiento incluye tanto el proceso de razonamiento como la respuesta final. Esto enseña al modelo a aplicar razonamiento estilo R1 a tu dominio específico — por ejemplo, entrenando con razonamiento diagnóstico médico paso a paso, cadenas de argumentación legal o fundamentos de diseño de ingeniería.

Después del fine-tuning, Ertas Studio exporta a formato GGUF. Los modelos destilados R1 funcionan bien con formatos de cuantización estándar. Un R1-Distill-Qwen-32B cuantizado en Q4_K_M de aproximadamente 19GB es un potente modelo de razonamiento que funciona en una sola GPU de 24GB o un Mac con 32GB de RAM, entregando capacidades de razonamiento sofisticadas en un paquete desplegable localmente.

Use Cases

DeepSeek-R1 destaca en cualquier aplicación donde la precisión y profundidad de razonamiento importan más que la velocidad de respuesta. La resolución de problemas matemáticos es su punto más fuerte — el modelo puede abordar matemáticas de nivel competitivo, cómputo simbólico y análisis cuantitativo con alta fiabilidad. Es ideal para plataformas educativas, sistemas de tutoría STEM y herramientas de asistencia a la investigación.

La generación y depuración de código se benefician significativamente del enfoque de razonamiento de R1. El modelo puede analizar bases de código complejas, identificar errores sutiles, razonar sobre complejidad algorítmica y generar implementaciones correctas para problemas de programación desafiantes. Las variantes R1 ajustadas son excelentes asistentes de revisión de código que pueden explicar su razonamiento para cada problema identificado.

Las variantes destiladas son adecuadas para aplicaciones que requieren capacidad de razonamiento local: análisis financiero con verificación de cálculos paso a paso, revisión de documentos legales con cadenas de razonamiento explícitas, soporte a decisiones médicas con lógica diagnóstica transparente, y cálculos de ingeniería con derivaciones verificables.

Hardware Requirements

Los modelos destilados R1 tienen requisitos de hardware estándar para sus conteos de parámetros: el 1.5B en Q4_K_M necesita unos 1.1GB, los modelos de 7B/8B necesitan unos 4.5-5GB, el 14B necesita unos 8.5GB, el 32B necesita unos 19GB y el 70B necesita unos 40GB. Sin embargo, ten en cuenta que las tareas de razonamiento generan significativamente más tokens que las tareas estándar (frecuentemente 5-10x más), por lo que el rendimiento y no solo la carga del modelo debe considerarse.

El modelo completo MoE de 671B en Q4_K_M requiere aproximadamente 370GB, demandando grandes configuraciones multi-GPU (por ejemplo, 8x A100 de 80GB). El conteo de 37B parámetros activos significa que la velocidad de generación es razonable una vez cargado, comparable a un modelo denso de 37B, pero la huella de memoria es sustancial.

Para fine-tuning en Ertas Studio, las configuraciones recomendadas son: variantes destiladas de 7B/8B necesitan 8-12GB de VRAM, 14B necesita 12-16GB, 32B necesita 20-28GB y 70B necesita 40-48GB con QLoRA. La variante destilada de 32B ofrece la mejor relación calidad-recursos para tareas de razonamiento.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →