Fine-Tune DeepSeek V3.2 with Ertas

El lanzamiento de DeepSeek de finales de 2025 que introdujo DeepSeek Sparse Attention (DSA) — un mecanismo de atención dispersa aprendido que permite inferencia eficiente de contexto largo, junto con un toggle unificado de modo de pensamiento. Predecesor directo de DeepSeek V4. Licencia tipo MIT.

671B-A37BDeepSeek

Overview

DeepSeek V3.2, lanzado a finales de 2025, es el predecesor arquitectónico de DeepSeek V4 e introdujo dos innovaciones que se volvieron centrales en el linaje DeepSeek: DeepSeek Sparse Attention (DSA) y el modo de pensamiento unificado que integra la capacidad de razonamiento en un checkpoint estándar de chat. El modelo usa la misma arquitectura de mezcla de expertos 671B-A37B que DeepSeek V3, pero con un rendimiento de contexto largo sustancialmente mejorado vía DSA y simplificación operacional vía modo de pensamiento unificado.

DSA es un mecanismo de atención dispersa aprendido que enruta cada token de consulta a un subconjunto de tokens clave en lugar de atender a todos ellos. Esto reduce dramáticamente el costo de cómputo de la inferencia de contexto largo y fue el avance arquitectónico que habilitó la ventana de contexto de 1M tokens en DeepSeek V4. Aunque V3.2 en sí no iguala el contexto de 1M de V4, DSA en V3.2 produce una calidad de recuperación de contexto largo medible mejor que los modelos de atención densa en longitudes de contexto equivalentes.

El modo de pensamiento unificado en V3.2 reemplazó el patrón anterior de despliegue separado (chat V3 + razonamiento R1) con un solo checkpoint que alterna entre modos. Los mismos pesos de V3.2 sirven tanto consultas de respuesta directa rápida como de razonamiento extendido mediante un parámetro de control en tiempo de ejecución — un patrón que ahora se ha vuelto estándar en la generación de modelos insignia de 2026. V3.2 se publica bajo la Licencia DeepSeek, una licencia tipo MIT permisiva para uso comercial.

DeepSeek V3.2 fue reemplazado como insignia de DeepSeek por V4 en abril de 2026, pero V3.2 sigue ampliamente desplegado en entornos de producción donde los equipos quieren la simplicidad operacional y las innovaciones arquitectónicas sin la huella multi-GPU de V4 Pro. La variante DeepSeek-V3.2-Exp continúa siendo referenciada en investigación y despliegues de producción que prueban la arquitectura DSA.

Key Features

DeepSeek Sparse Attention (DSA) es la innovación arquitectónica definitoria de V3.2. Al aprender qué tokens clave son relevantes para cada consulta, DSA reduce el cómputo de atención de contexto largo sustancialmente por debajo del costo cuadrático de la atención densa mientras mantiene una calidad de recuperación utilizable. Esta fue la base arquitectónica sobre la que V4 construyó para soportar contexto de 1M.

El modo de pensamiento unificado en V3.2 fue la primera implementación importante del patrón ahora estándar. En lugar de mantener despliegues separados de R1 (razonamiento) y V3 (chat) con enrutamiento entre modelos, V3.2 distribuye ambos comportamientos en un solo checkpoint. Operacionalmente, esto simplifica dramáticamente la infraestructura de agentes en producción — la mayoría de las consultas reciben respuestas directas rápidas, y solo el subconjunto más difícil que se beneficia del razonamiento consume el cómputo extendido de razonamiento.

La arquitectura MoE 671B-A37B se hereda de V3 y sigue siendo un excelente trade-off calidad-cómputo. Con 37B de parámetros activos, la generación corre a velocidades comparables a un modelo denso de 37B mientras accede al conocimiento de los 671B completos. Para despliegues de servidor multi-GPU con la infraestructura para alojar el modelo, V3.2 entrega un sólido rendimiento de razonamiento y código.

La Licencia DeepSeek tipo MIT combinada con la simplicidad operacional del modelo hicieron de V3.2 una opción popular de producción durante principios de 2026 para equipos que querían la capacidad de DeepSeek sin comprometerse con la huella de infraestructura más grande de V4 Pro.

Fine-Tuning with Ertas

DeepSeek V3.2 está en el extremo superior del fine-tuning práctico. Ertas Studio admite fine-tuning con QLoRA en configuraciones de servidor multi-GPU (8x A100 80GB o 8x H100 80GB), con aproximadamente 380-450GB de VRAM total requeridos en longitudes de secuencia típicas.

Para la mayoría de equipos sin acceso a servidores de 8 GPUs, el patrón recomendado es usar V3.2 como profesor para generación de datos sintéticos, luego ajustar una de las variantes destiladas DeepSeek-R1 (Qwen 7B-32B o Llama 70B destilada) sobre esos datos. Esto produce un modelo especializado por dominio a costo de despliegue en una sola GPU mientras hereda los patrones de razonamiento y codificación de V3.2 vía destilación.

Al ajustar V3.2 directamente, Ertas Studio maneja automáticamente las consideraciones de la arquitectura DSA en tiempo de entrenamiento — incluyendo la estabilidad del enrutamiento de expertos y la preservación del patrón de atención dispersa durante la adaptación de bajo rango. Después del entrenamiento, Ertas Studio exporta a formato GGUF. La cuantización Q4_K_M de V3.2 es de aproximadamente 360GB, requiriendo despliegue en servidor multi-GPU.

Use Cases

DeepSeek V3.2 se destaca en cargas de trabajo que se benefician de capacidad de calidad V4 pero donde la infraestructura de V4 Pro (servidor de 8 GPUs) no está disponible. Los despliegues de producción que corren en configuraciones de 4-6 GPUs a menudo eligen V3.2 sobre V4 Pro por la huella de hardware más baja, especialmente cuando el contexto de 1M no es un requisito estricto.

El modo de pensamiento unificado hace a V3.2 adecuado para despliegues de agentes adaptativos — respuestas directas rápidas para tickets rutinarios, escalado a modo de razonamiento para consultas complejas. Este patrón entrega ahorros sustanciales de costo frente a ejecutar inferencia en modo de razonamiento puro de manera uniforme, manteniendo la calidad en las consultas que realmente se benefician del pensamiento extendido.

Para equipos que ejecutan variantes destiladas DeepSeek-R1 en producción, V3.2 también es un sólido modelo profesor para ciclos continuos de destilación — generando nuevos datos sintéticos de entrenamiento conforme tu dominio evoluciona y refrescando los modelos desplegados más pequeños con esos datos.

Hardware Requirements

DeepSeek V3.2 en Q4_K_M requiere aproximadamente 360GB de memoria, ajustándose a un servidor 8x A100 80GB o 8x H100 80GB, o un host de inferencia CPU con 512GB+ de RAM. El recuento de 37B parámetros activos determina el rendimiento de generación de tokens una vez cargado.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 270GB) intercambia calidad modesta por memoria reducida, ajustándose a un servidor 4x H100 80GB con margen. Bajar de Q3 no se recomienda para despliegues de producción — la degradación de calidad en la recuperación de contexto largo se vuelve perceptible, particularmente en los benchmarks dependientes de DSA donde se origina la ventaja competitiva de V3.2.

Para fine-tuning en Ertas Studio: V3.2 QLoRA necesita aproximadamente 380-450GB de VRAM total (servidor multi-GPU). Para la mayoría de equipos, la destilación a bases más pequeñas (R1-Distill-Qwen-32B, R1-Distill-Llama-70B) vía datos sintéticos generados por profesor es el camino más práctico.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →