Fine-Tune StepFun Step-3.5-Flash with Ertas

Lanzamiento small-giant de StepFun de febrero de 2026: una mezcla de expertos de 196 mil millones de parámetros con 11B de parámetros activos, que supera a Kimi K2.5 (1T) y DeepSeek V3.2 (671B) en benchmarks agénticos, de razonamiento y de programación a una escala 3-5 veces menor. Apache 2.0 con 100 tok/seg en contexto de 128K en GPUs Hopper.

196B-A11BStepFun

Overview

StepFun Step-3.5-Flash, lanzado por StepFun el 1 de febrero de 2026, es uno de los lanzamientos open-weight más eficientes arquitectónicamente del año: una mezcla de expertos de 196 mil millones de parámetros con solo 11B de parámetros activos por token que rinde sustancialmente por encima de su categoría en benchmarks. El modelo supera a Kimi K2.5 (1T parámetros totales, 32B activos) y DeepSeek V3.2 (671B totales, 37B activos) en múltiples evaluaciones agénticas, de razonamiento y de programación, mientras que es 3-5 veces más pequeño en conteo total de parámetros y requiere sustancialmente menos costo de inferencia.

La afirmación destacada de eficiencia es de 100 tokens por segundo en contexto de 128K en GPUs Hopper (H100/H200), aproximadamente 3 veces más rápido que los 33 tok/seg de DeepSeek V3.2 en hardware equivalente. Esta dramática mejora en rendimiento refleja tanto el menor conteo de parámetros activos como las inversiones específicas de StepFun en arquitectura y optimización de inferencia. Para servicio en producción donde la economía de costo por token importa, Step-3.5-Flash es una de las opciones más atractivas de 2026.

La licencia Apache 2.0 combinada con la economía de inferencia small-giant hace a Step-3.5-Flash particularmente convincente para el despliegue auto-hospedado en producción. La licencia no tiene restricciones de uso, requisitos de atribución ni topes comerciales: despliegue comercial directo a cualquier escala. El conteo total de 196B parámetros cabe en un servidor de 2 GPUs (2x A100 80GB o 2x H100 80GB) con cuantización Q4, lo que lo hace accesible a equipos de despliegue sustancialmente más pequeños que las alternativas de un billón de parámetros.

StepFun ha sido históricamente un laboratorio chino de IA menos prominente comparado con DeepSeek, Qwen y Kimi, pero Step-3.5-Flash establece a la compañía como un competidor serio en el eje de eficiencia arquitectónica. Aunque el modelo no domina ninguna categoría específica de benchmark frente a la frontera absoluta, la combinación de fuerte capacidad y excepcional economía de inferencia produce un compromiso costo-calidad particularmente atractivo. Los pesos están disponibles en Hugging Face bajo `stepfun-ai/Step-3.5-Flash`.

Key Features

La proporción total-a-activo de 17.8:1 (196B / 11B) es más agresiva que la de la mayoría de contemporáneos y contribuye sustancialmente a las ventajas de costo de inferencia. Combinado con enrutamiento de expertos cuidadosamente optimizado y optimizaciones en tiempo de inferencia, Step-3.5-Flash logra un rendimiento de generación de tokens sustancialmente mejor que las alternativas con calidad de benchmark equivalente.

El posicionamiento '3-5 veces más pequeño superando' frente a Kimi K2.5 y DeepSeek V3.2 es la afirmación destacada de benchmark. Aunque diferentes categorías de benchmark producen resultados específicos diferentes, y Step-3.5-Flash no reclama dominio absoluto en tablas de clasificación, el patrón consistente a través de múltiples evaluaciones agénticas, de razonamiento y de programación es que Step-3.5-Flash iguala o supera a modelos con sustancialmente más costo de inferencia. Para la economía de despliegue en producción, esto se traduce directamente en menores costos por solicitud.

100 tok/seg en contexto de 128K en GPUs Hopper es una afirmación operativa específica que se traduce bien al servicio en producción. La mayoría de los modelos open-weight con calidad equivalente sirven a 30-50 tok/seg en el mismo hardware. La ventaja de rendimiento se acumula a altos volúmenes de solicitudes: a escala suficiente, Step-3.5-Flash puede servir la misma carga de usuarios en sustancialmente menos GPUs que los buques insignia competidores.

La licencia Apache 2.0 posiciona favorablemente a Step-3.5-Flash para despliegue comercial. A diferencia de algunos lanzamientos de laboratorios chinos con términos de licencia personalizados que requieren revisión legal, Step-3.5-Flash usa la licencia open-source permisiva estándar que los equipos de despliegue comercial pueden desplegar sin sobrecarga de revisión de licencia.

Fine-Tuning with Ertas

El conteo de 11B parámetros activos de Step-3.5-Flash lo hace particularmente eficiente para fine-tuning en Ertas Studio. El entrenamiento QLoRA cabe cómodamente en una sola GPU de 80GB en longitudes de secuencia típicas, o se divide entre dos GPUs de 48GB con paralelismo de modelo. El rendimiento de paso de entrenamiento está dominado por el conteo de parámetros activos, así que el entrenamiento procede a velocidades aproximadamente de clase 11B a pesar de la huella total de 196B parámetros.

Para la arquitectura MoE, Ertas Studio maneja la estabilidad del enrutamiento de expertos durante la adaptación de bajo rango automáticamente. Los formatos de datos de entrenamiento con conversaciones multi-turno, trazas de ejecución agéntica y ejemplos de razonamiento funcionan de forma nativa. La proporción agresiva de total-a-activo significa que el fine-tuning puede especializar efectivamente expertos específicos para patrones específicos de dominio sin afectar la capacidad general del modelo más amplio.

Para la mayoría de los equipos interesados en especialización de dominio, Step-3.5-Flash es una de las elecciones de base más atractivas en el ecosistema de 2026: combina fuerte capacidad base con requisitos de hardware de fine-tuning accesibles y licencia Apache 2.0 para despliegue comercial de la variante ajustada resultante.

Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de Step-3.5-Flash. La cuantización Q4_K_M es de aproximadamente 110GB, cabiendo en un servidor de 2 GPUs (2x A100 80GB o 2x H100 80GB), con el conteo de 11B parámetros activos entregando un rendimiento sustancialmente mejor que las alternativas con huella de memoria equivalente.

Use Cases

El servicio API en producción de alto rendimiento es el caso de uso más natural de Step-3.5-Flash. La combinación de fuerte capacidad transversal y excepcional economía de inferencia lo hace particularmente atractivo para automatización de soporte al cliente, pipelines de generación de contenido, sistemas de procesamiento de documentos y cargas de trabajo similares donde el costo por token importa significativamente a escala. Los equipos que ejecutan modelos de precios por solicitud o que comparan costos de API con alternativas auto-hospedadas encuentran a Step-3.5-Flash entre las opciones económicamente más atractivas.

Para despliegues agénticos donde la capacidad de razonamiento importa pero el costo completo de inferencia de un billón de parámetros es prohibitivo, Step-3.5-Flash proporciona un compromiso particularmente favorable. El modelo maneja razonamiento multi-paso, uso de herramientas y adherencia a salidas estructuradas con calidad competitiva con economía sustancialmente mejor que las alternativas más grandes.

Para equipos de despliegue más pequeños, la accesibilidad de Step-3.5-Flash relativa a las alternativas de un billón de parámetros es estructuralmente significativa. Donde DeepSeek V4, Kimi K2.6 y similares requieren configuraciones de servidor de 8 GPUs para despliegue de calidad completa, Step-3.5-Flash funciona en configuraciones de 2 GPUs, abriendo capacidad de nivel frontera a equipos con presupuestos de infraestructura sustancialmente más pequeños.

Hardware Requirements

Step-3.5-Flash con cuantización Q4_K_M requiere aproximadamente 110GB de memoria, cabiendo en un servidor 2x A100 80GB o 2x H100 80GB, o un host de inferencia en CPU con 192GB+ de RAM. El conteo de 11B parámetros activos determina el rendimiento de generación de tokens: combinado con las optimizaciones de inferencia de StepFun, esto entrega la afirmación destacada de 100 tok/seg en contexto de 128K en configuraciones de GPU Hopper.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 85GB) intercambia calidad modesta por memoria reducida, cabiendo en una sola GPU de 80GB con margen. El conteo de 11B parámetros activos significa que las ventajas de velocidad de inferencia persisten incluso en niveles de cuantización más bajos: una característica particularmente atractiva para despliegues en producción sensibles al costo.

Para fine-tuning en Ertas Studio: Step-3.5-Flash QLoRA necesita aproximadamente 60-90GB de VRAM total, cabiendo en una sola GPU de 80GB en longitudes de secuencia típicas. El rendimiento de paso de entrenamiento a 11B parámetros activos es sustancialmente más rápido que hacer fine-tuning de alternativas densas o con activos más grandes de calidad equivalente. El fine-tuning de contexto largo (secuencias de 32K-64K) es tratable en GPUs de 80GB con gradient checkpointing.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →