Fine-Tune DeepSeek V4 with Ertas

Modelo insignia de DeepSeek de abril de 2026: una mezcla de expertos de 1,6 billones de parámetros con 49B parámetros activos y 1M de tokens de contexto, que actualmente lidera los benchmarks compuestos de inteligencia open-weight y, según se informa, está cerrando la brecha con los modelos propietarios de frontera.

284B-A13B (Flash)1.6T-A49B (Pro)DeepSeek

Overview

DeepSeek V4, lanzado el 24 de abril de 2026, es el modelo open-weight más grande y capaz disponible al momento del lanzamiento. La variante insignia V4 Pro utiliza una arquitectura de mezcla de expertos de 1,6 billones de parámetros con aproximadamente 49B parámetros activos por token, junto con una ventana de contexto de 1 millón de tokens. Una variante más pequeña V4 Flash se publica junto a ella con 284B parámetros totales / 13B activos, también con 1M de contexto, dirigida a escenarios de despliegue donde la huella de memoria del modelo Pro resulta poco práctica.

El lanzamiento V4 continúa la innovación arquitectónica que hizo de la generación anterior de DeepSeek un momento definitorio en la IA open-source. V4 se basa en el mecanismo DeepSeek Sparse Attention (DSA) introducido en V3.2, refina la topología de enrutamiento de expertos del MoE, y aplica un pipeline de post-entrenamiento por refuerzo sustancialmente expandido. El efecto acumulativo es un modelo que, en el índice agregado de inteligencia BenchLM (87) al momento del lanzamiento, lidera todos los modelos open-weight y reduce significativamente la brecha con sistemas propietarios de frontera como GPT-5.5 y Claude Opus 4.7.

A diferencia de DeepSeek-R1, V4 no es un modelo dedicado solo al razonamiento. En su lugar, V4 incorpora un conmutador de modo de pensamiento similar al de Qwen 3+: el mismo checkpoint sirve tanto el modo de respuesta directa (chat) como el de razonamiento extendido (reasoner) mediante una bandera de control en tiempo de inferencia. Esta unificación reduce la complejidad operativa para despliegues en producción comparado con mantener modelos de razonamiento separados estilo R1 junto con modelos ajustados a instrucciones estilo V3.

V4 se publica bajo la Licencia DeepSeek, una licencia comercial estilo MIT permisiva. Los pesos del modelo están disponibles en Hugging Face bajo `deepseek-ai/DeepSeek-V4-Pro` y `deepseek-ai/DeepSeek-V4-Flash`, con variantes correspondientes `-Base` para fine-tuning adicional. Los términos de la licencia permiten un uso comercial amplio, incluyendo servicio del modelo, entrenamiento derivado e integración propietaria.

Key Features

La ventana de contexto de 1M tokens es una de las más grandes desplegadas públicamente en cualquier modelo open-weight. Combinada con el mecanismo de atención dispersa DSA, V4 mantiene un rendimiento utilizable en tareas de recuperación y razonamiento de contexto largo mucho mejor que los modelos extendidos con RoPE de forma ingenua. Aunque el contexto efectivo (el rango sobre el cual el modelo conserva >90% de precisión de recuperación) es menor que el 1M anunciado, el modelo es genuinamente utilizable para análisis de bases de código completas, QA de documentos largos y síntesis multi-documento a escalas que ningún lanzamiento open-weight anterior podía manejar.

DeepSeek Sparse Attention reduce el coste de cómputo cuadrático de la atención de contexto largo enrutando cada token de consulta a un subconjunto aprendido de tokens clave en lugar de atender a todos ellos. Esto entrega el doble beneficio de admitir contextos mucho más largos de los que la atención densa permitiría en hardware equivalente, mientras también reduce el coste de inferencia en secuencias más cortas comparado con una línea base de atención densa a la misma escala de modelo.

El modo de pensamiento unificado es operativamente significativo. Los despliegues en producción pueden enviar la mayoría de las consultas directamente a través de inferencia rápida sin pensamiento, luego escalar las consultas difíciles al modo de razonamiento pasando un único parámetro de control, sin intercambiar pesos del modelo o enrutar a través de endpoints separados. Este patrón simplifica significativamente la topología operativa de los sistemas agénticos comparado con la generación anterior, donde R1 y V3 eran dos despliegues distintos.

V4 también continúa el fuerte rendimiento de DeepSeek en programación (SWE-Bench Verified ~73%), razonamiento (AIME 2025 en el rango alto del 70%) y benchmarks matemáticos, mientras mejora en capacidades multilingües y fidelidad en uso de herramientas. El modelo es una de las opciones open-weight más fuertes para agentes que usan herramientas y requieren alta confiabilidad en esquemas de llamadas a funciones.

Fine-Tuning with Ertas

La escala de DeepSeek V4 hace que el fine-tuning completo sea poco práctico para la mayoría de los equipos, pero Ertas Studio admite fine-tuning QLoRA sobre V4 Flash, la variante de 284B/13B, en configuraciones de servidor multi-GPU (8x A100 80GB o equivalente). El QLoRA de V4 Flash con cuantización base de 4 bits más adaptadores LoRA en proyecciones de atención y de expertos MoE requiere aproximadamente 280-340GB de VRAM total en longitudes de secuencia típicas, distribuidos entre el conjunto de GPUs con paralelismo tensorial.

Para la mayoría de los equipos interesados en la capacidad de DeepSeek V4 sin la huella multi-GPU, el enfoque recomendado por Ertas Studio es ajustar una de las variantes destiladas de DeepSeek-R1 (Qwen 7B, 14B, 32B, o Llama 70B destilados) usando V4 Pro como modelo maestro para generación de datos sintéticos. Este enfoque ofrece el estilo de razonamiento de V4 al coste de despliegue de un modelo denso en el rango de 7B-70B: tratable en una sola GPU y mucho más barato de servir.

Después del fine-tuning, Ertas Studio exporta a formato GGUF. V4 Flash cuantizado a Q4_K_M es de aproximadamente 145GB, requiriendo un servidor multi-GPU o un host de inferencia CPU con gran memoria (256GB+ de RAM). Los modelos destilados ajustados se exportan a tamaños estándar para sus conteos base de parámetros y se despliegan limpiamente en Ollama, llama.cpp o vLLM. Para equipos que ejecutan V4 Pro como maestro y un alumno destilado más pequeño en producción, Ertas Studio admite el pipeline completo, incluyendo generación de datos sintéticos, entrenamiento de destilación y cuantización final.

Use Cases

La ventana de contexto de 1M de V4 Pro desbloquea casos de uso que antes eran inviables en infraestructura open-weight: revisión de código de bases completas donde el modelo considera todos los archivos fuente simultáneamente, análisis legal o financiero de documentos largos donde el contrato o expediente entero cabe en un solo prompt, y tareas de síntesis multi-documento como revisiones bibliográficas o inteligencia competitiva donde docenas de fuentes deben razonarse conjuntamente.

V4 Flash es la opción más práctica para servicio de propósito general en producción. Con 13B de parámetros activos, sirve a tasas competitivas de tokens por segundo mientras entrega calidad que se acerca a V4 Pro en benchmarks estándar. El contexto de 1M se preserva, haciendo de Flash una elección ideal para sistemas RAG con conjuntos de resultados de recuperación muy grandes.

El modo de pensamiento unificado hace de V4 una opción fuerte para sistemas agénticos que necesitan profundidad de razonamiento adaptativa. Los agentes de soporte al cliente pueden ejecutarse principalmente en modo de respuesta directa rápida, escalando al modo de razonamiento solo para tickets genuinamente complejos. Los agentes de programación pueden usar el modo directo para completados simples y el modo de razonamiento para decisiones arquitectónicas o depuración. Este patrón reduce significativamente el coste de inferencia comparado con ejecutar inferencia en modo razonamiento puro de forma uniforme.

Hardware Requirements

V4 Pro con cuantización Q4_K_M requiere aproximadamente 820GB de memoria total, lo que en la práctica significa un servidor 8x H100 80GB o 8x A100 80GB, o un host de inferencia CPU con 1TB+ de RAM. El conteo de parámetros activos de 49B determina el rendimiento de generación, así que una vez cargado el modelo sirve a velocidades comparables a un modelo denso de 49B. Esto es territorio de servidores grandes, no despliegue de consumo o estación de trabajo única.

V4 Flash en Q4_K_M es de aproximadamente 145GB. Esto cabe en un 4x A100 80GB o 2x H100 con margen, o un host CPU con 256GB+ de RAM. Los parámetros activos de 13B significan que la velocidad de inferencia es comparable a un modelo denso de 13B, bien adaptado para servicio API de alto rendimiento con latencia razonable por solicitud. Para equipos que quieren la calidad de DeepSeek V4 sin la huella de hardware de V4 Pro, Flash es la recomendación práctica.

Para fine-tuning en Ertas Studio: V4 Flash con QLoRA necesita aproximadamente 280-340GB de VRAM total (servidor multi-GPU). El QLoRA de V4 Pro es poco práctico para la mayoría de los equipos: el enfoque recomendado es la destilación sobre un modelo base más pequeño. El fine-tuning destilado estilo R1 de Qwen 32B o Llama 70B en Ertas Studio requiere los 20-48GB de VRAM estándar para esos modelos base con QLoRA.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →