Fine-Tune DeepSeek-V3 with Ertas

Modelo insignia de DeepSeek con 671 mil millones de parámetros y arquitectura de mezcla de expertos con 37B de parámetros activos por token, ofreciendo rendimiento de nivel frontera a costos de inferencia notablemente eficientes.

671B (37B active)DeepSeek

Overview

DeepSeek-V3, lanzado en diciembre de 2024, es uno de los modelos de pesos abiertos más impresionantes jamás publicados. Con 671 mil millones de parámetros totales organizados en una arquitectura de mezcla de expertos que activa 37 mil millones de parámetros por paso de inferencia, ofrece un rendimiento competitivo con GPT-4o y Claude 3.5 Sonnet en muchos benchmarks — un logro notable para un modelo de pesos abiertos.

El modelo utiliza un mecanismo de Multi-head Latent Attention (MLA) que comprime los pares clave-valor en un espacio latente de menor dimensión, reduciendo dramáticamente la huella de memoria del KV-cache durante la inferencia. Combinado con DeepMix, una estrategia de segmentación de expertos de grano fino que usa 256 expertos enrutados (seleccionando 8 por token) más 1 experto compartido, la arquitectura logra una eficiencia excepcional de calidad-por-cómputo.

DeepSeek-V3 fue entrenado con 14.8 billones de tokens usando un pipeline de entrenamiento multietapa innovador. Notablemente, todo el proceso de entrenamiento costó solo aproximadamente $5.5 millones en cómputo — una fracción de lo que modelos frontera comparables requirieron — gracias a la eficiencia arquitectónica y optimizaciones de entrenamiento incluyendo entrenamiento de precisión mixta FP8 y patrones de comunicación optimizados.

El modelo soporta una ventana de contexto de 128K tokens y demuestra fuerte rendimiento en conocimiento general, matemáticas, generación de código, escritura creativa y tareas multilingües. Se publica bajo la licencia MIT, haciéndolo libremente disponible tanto para investigación como para uso comercial.

Key Features

Multi-head Latent Attention (MLA) es la innovación arquitectónica más significativa de DeepSeek-V3. La atención multi-cabeza estándar almacena tensores completos de clave y valor en el KV cache, que crece linealmente con la longitud de secuencia y el número de capas. MLA proyecta claves y valores en una representación latente comprimida, reduciendo la memoria del KV cache en aproximadamente un 93% comparado con la atención estándar con conteos de cabezas equivalentes. Esto permite procesar secuencias muy largas con requisitos de memoria manejables.

La arquitectura de expertos de grano fino usa 256 expertos enrutados más 1 experto compartido por capa MoE, con cada token enrutado a 8 expertos. Esto es mucho más granular que modelos como Mixtral (8 expertos, enruta a 2), permitiendo una especialización de expertos más precisa y una utilización más uniforme de expertos durante el entrenamiento. Una estrategia de balanceo de carga libre de pérdida auxiliar asegura una utilización uniforme de expertos sin degradar la calidad del modelo.

DeepSeek-V3 fue pionero en el entrenamiento de precisión mixta FP8 a escala, usando punto flotante de 8 bits para la mayoría de multiplicaciones de matrices durante el entrenamiento mientras mantiene precisión completa para componentes críticos. Esto redujo el tiempo y costo de entrenamiento en aproximadamente un 40% comparado con el entrenamiento estándar BF16, estableciendo un nuevo estándar de eficiencia de entrenamiento.

Fine-Tuning with Ertas

El fine-tuning de DeepSeek-V3 en Ertas Studio se realiza principalmente vía QLoRA, dado el conteo total de 671B parámetros del modelo. Con cuantización de 4 bits, el fine-tuning requiere aproximadamente 180-200GB de memoria GPU combinada, típicamente logrado con 4x GPUs A100 de 80GB. Ertas Studio gestiona la configuración de entrenamiento distribuido, el enrutamiento de expertos y la colocación de adaptadores compatible con MLA automáticamente.

Para la mayoría de usuarios, un enfoque más práctico es usar modelos más pequeños (como las variantes destiladas de DeepSeek-R1 u otros modelos de 7B-70B) para fine-tuning y reservar DeepSeek-V3 como modelo profesor para generación de datos sintéticos. Ertas Studio soporta este flujo de trabajo: usa V3 para generar datos de entrenamiento de alta calidad, luego ajusta un modelo más pequeño con esos datos para un despliegue eficiente.

Cuando se desea fine-tuning directo, Ertas Studio aplica adaptadores LoRA a las capas de atención compartida y las capas feed-forward de expertos. La arquitectura MLA significa que los adaptadores de atención tienen una huella menor que en modelos estándar, manteniendo los tamaños generales de adaptadores manejables. Después del entrenamiento, exporta a GGUF para despliegue a través de llama.cpp u Ollama, ambos con soporte para la arquitectura de DeepSeek-V3.

Use Cases

DeepSeek-V3 es un modelo de clase frontera adecuado para las aplicaciones más exigentes. Destaca en tareas de razonamiento complejo, generación de código sofisticada en múltiples lenguajes de programación, resolución avanzada de problemas matemáticos y escritura creativa con matices. Las organizaciones que necesitan rendimiento de clase GPT-4 mientras mantienen los datos completamente en sus instalaciones encuentran en DeepSeek-V3 una opción convincente.

El modelo es particularmente fuerte como motor de generación de datos sintéticos. Su amplio conocimiento y fuerte seguimiento de instrucciones lo hacen ideal para generar datasets de entrenamiento de alta calidad para ajustar modelos más pequeños y eficientes. Este flujo de trabajo profesor-alumno es uno de los patrones de producción más comunes con DeepSeek-V3.

DeepSeek-V3 también funciona bien como modelo de evaluación y aseguramiento de calidad de alto nivel. Las organizaciones lo usan para evaluar salidas de modelos de producción más pequeños, generar casos de prueba diversos y realizar revisión automatizada de contenido donde se requiere máxima precisión sin importar el costo de inferencia.

Hardware Requirements

DeepSeek-V3 con cuantización Q4_K_M requiere aproximadamente 370-390GB de RAM. Esto típicamente se sirve usando 8x GPUs A100 de 80GB, 4x GPUs H100 de 80GB o nodos de inferencia CPU con 512GB+ de RAM. A pesar de la gran huella de memoria, la velocidad de generación es razonable porque solo 37B parámetros están activos por token — se esperan 20-40 tokens por segundo en una configuración 8x A100.

En Q8_0, el modelo requiere aproximadamente 710GB, necesitando despliegues multi-nodo de alto nivel. La inferencia completa en FP16 requiere aproximadamente 1.34TB, típicamente impráctica fuera de clústeres de investigación dedicados. Para la mayoría de despliegues, la cuantización Q4_K_M o Q5_K_M proporciona un excelente equilibrio entre calidad y recursos.

Para fine-tuning con QLoRA en Ertas Studio, se necesitan aproximadamente 180-200GB de memoria GPU (4x A100 de 80GB). Aunque este es un requisito de hardware significativo, es mucho menor que el 1TB+ que demandaría el fine-tuning completo, haciendo de QLoRA el único enfoque práctico para adaptar este modelo a dominios específicos.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →