What is DeepSeek Sparse Attention (DSA)?

Mecanismo de atención dispersa aprendida introducido en DeepSeek-V3.2 y continuado en V4 que enruta cada token de consulta a un subconjunto de tokens clave en lugar de atenderlos todos, reduciendo dramáticamente el coste computacional de la inferencia de contexto largo.

Definition

DeepSeek Sparse Attention (DSA) es un mecanismo aprendido de esparcimiento de atención que reduce el coste computacional cuadrático de la atención estándar de transformer haciendo que cada token de consulta atienda solo a un subconjunto aprendido de tokens clave en lugar de la secuencia completa. La selección es aprendida — el modelo decide durante el entrenamiento qué claves son relevantes para cada consulta, produciendo un patrón de atención que es disperso pero consciente de la tarea.

DSA fue introducido con DeepSeek-V3.2 a finales de 2025 y continuado como característica arquitectónica central en DeepSeek V4 (abril de 2026). Es una razón clave por la cual DeepSeek V4 puede soportar prácticamente una ventana de contexto de 1 millón de tokens — la atención densa ingenua a esa longitud sería prohibitivamente costosa.

Why It Matters

La atención dispersa es una palanca arquitectónica fundamental para hacer económicos los modelos de contexto largo. Los modelos que soportan 1M de tokens son inútiles si la inferencia es demasiado costosa para usar realmente ese contexto. DSA hace que la inferencia de contexto largo sea suficientemente tratable para que los despliegues de producción puedan usarla rutinariamente — revisión de código de base completa, análisis de documentos largos, síntesis multi-documento.

Key Takeaways

DSA es un mecanismo de atención dispersa aprendida — el modelo decide qué claves atender
Reduce sustancialmente el coste de inferencia de contexto largo vs. atención densa
Introducido en DeepSeek-V3.2, continuado en DeepSeek V4 (soporte de contexto de 1M)
Diferente de atención dispersa heurística (p.ej. ventana deslizante) — consciente de la tarea en vez de la posición
Patrón arquitectónico que probablemente se extenderá a medida que ventanas de contexto de 1M+ se vuelvan estándar

How Ertas Helps

DeepSeek V4 — tanto las variantes V4 Pro como V4 Flash — usa DSA, y está soportado en el pipeline de fine-tuning de Ertas Studio. Ajustar un modelo DSA preserva el comportamiento de atención dispersa, pero el cómputo de tiempo de entrenamiento e inferencia está dominado por el patrón de atención activo, así que los ahorros vs. atención densa se trasladan también a los flujos de fine-tuning.