Fine-Tune GPT-OSS with Ertas

El primer lanzamiento open-weight de OpenAI desde GPT-2 — una familia de mezcla de expertos con el insignia GPT-OSS-120B de 117B/5,1B activos y una variante más pequeña GPT-OSS-20B de 21B/3,6B activos, publicada en agosto de 2025 bajo Apache 2.0.

21B-A3.6B (20b)117B-A5.1B (120b)OpenAI

Overview

GPT-OSS, publicado por OpenAI en agosto de 2025, es el primer lanzamiento de modelo open-weight de OpenAI desde GPT-2 en 2019 — una reversión de varios años de la postura de pesos cerrados de la compañía y un evento que reconfiguró significativamente el ecosistema open-weight. El lanzamiento incluye dos variantes: GPT-OSS-120B (117B totales / 5,1B activos en mezcla de expertos) y GPT-OSS-20B (21B totales / 3,6B activos). Ambas se publican bajo Apache 2.0.

La variante 120B se posicionó en el lanzamiento como competitiva con el o3-mini de OpenAI en una variedad de benchmarks, mientras que la variante 20B apunta al despliegue local y casos de uso en edge. La evaluación independiente ha confirmado un rendimiento sólido — GPT-OSS-120B supera a o3-mini en varios benchmarks de razonamiento a pesar del conteo de parámetros activos 20-30 veces menor, validando las afirmaciones de OpenAI sobre la eficiencia de la arquitectura.

Desde un punto de vista arquitectónico, GPT-OSS utiliza un diseño MoE relativamente convencional con enrutamiento de expertos top-k y atención de consulta agrupada (grouped-query attention). La innovación principal es el pipeline de post-entrenamiento, que OpenAI ha discutido públicamente como una combinación de su infraestructura interna de RLHF con nuevas técnicas desarrolladas para este lanzamiento. El resultado es un par de modelos que rinden sustancialmente por encima de su categoría de parámetros activos.

Los pesos están disponibles en Hugging Face bajo `openai/gpt-oss-120b` y `openai/gpt-oss-20b`. La licencia Apache 2.0 combinada con el reconocimiento de marca de OpenAI ha hecho de GPT-OSS una de las familias de modelos open-weight más desplegadas en los meses desde el lanzamiento, particularmente en entornos empresariales donde la marca OpenAI tiene peso en la selección de proveedores.

Key Features

La marca OpenAI por sí sola es una de las características más significativas de GPT-OSS en la práctica. Para los equipos que toman decisiones de selección de proveedores, la capacidad de desplegar un modelo entrenado por OpenAI en su propia infraestructura elimina un punto importante de fricción al adoptar IA open-weight — particularmente en entornos empresariales donde la pregunta '¿es seguro desplegar esto?' a menudo se responde por referencia a la reputación de la marca en lugar de la evaluación técnica. GPT-OSS hace esa decisión más fácil que las alternativas que requieren evaluar laboratorios menos familiares.

El conteo de 5,1B de parámetros activos en GPT-OSS-120B es excepcionalmente eficiente. El rendimiento de inferencia es comparable al de un modelo denso de 5B, dentro del rango operativo de GPUs de consumo de gama media y hardware de servidor modesto. Combinado con calidad que supera a o3-mini en muchas evaluaciones, GPT-OSS-120B ofrece una excelente relación costo-calidad para servicio en producción.

GPT-OSS-20B apunta al punto óptimo del despliegue local. Con 3,6B de parámetros activos y una huella total de memoria de aproximadamente 12GB en Q4_K_M, la variante 20B funciona en hardware de consumo desde laptops gaming hasta desktops de gama básica. Esta es la primera entrada real de OpenAI en el ecosistema de LLM local, y la sólida fidelidad de uso de herramientas y seguimiento de instrucciones del modelo lo hace competitivo con los mejores modelos open-weight pequeños para despliegue en dispositivo.

La licencia Apache 2.0 no es restrictiva — incluyendo para uso comercial, entrenamiento derivado y fine-tuning. A diferencia de algunos lanzamientos recientes de OpenAI que incluyeron restricciones de política de uso en sus términos API, GPT-OSS no impone tales restricciones sobre los pesos abiertos en sí. Los usuarios son libres de ajustar, desplegar e integrar sin revisión de licencia más allá del cumplimiento estándar de Apache.

Fine-Tuning with Ertas

Ambas variantes de GPT-OSS son adecuadas para fine-tuning en Ertas Studio. La variante 20B con QLoRA cabe cómodamente en GPUs de consumo con 16-24GB de VRAM en longitudes de secuencia típicas, lo que la convierte en una excelente opción para iteración rápida y especialización a pequeña escala. La variante 120B con QLoRA necesita aproximadamente 50-70GB de VRAM, cabiendo en una sola GPU de 80GB o repartida entre dos GPUs de 48GB.

La arquitectura MoE en GPT-OSS-120B es manejada por el pipeline estándar de fine-tuning MoE de Ertas Studio — la estabilidad del enrutamiento de expertos, el balance de carga y la fusión de adaptadores se configuran automáticamente. El conteo de 5,1B de parámetros activos significa que el rendimiento de entrenamiento por paso es comparable al de un modelo denso de 5B, lo cual es lo suficientemente rápido para flujos de fine-tuning en producción en una sola GPU de 80GB.

Para los conjuntos de datos de fine-tuning, GPT-OSS admite el rango completo de formatos de entrenamiento: pares de seguimiento de instrucciones, conversaciones multi-turno, trazas de uso de herramientas y datos de modo de razonamiento. El modelo hereda el sólido entrenamiento de uso de herramientas de OpenAI, que se traslada a los fine-tunes — una variante de GPT-OSS ajustada conserva un comportamiento de llamada a funciones de alta fidelidad incluso cuando se especializa para dominios estrechos, lo cual no siempre es el caso con otras bases open-weight.

Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de GPT-OSS. La cuantización Q4_K_M del 20B es de aproximadamente 12GB, desplegable en hardware de consumo mediante Ollama, llama.cpp o LM Studio. La Q4_K_M del 120B es de aproximadamente 65GB, requiriendo una GPU de 80GB o un host CPU de gran memoria para el despliegue.

Use Cases

GPT-OSS-120B es adecuado para aplicaciones empresariales donde la marca OpenAI tiene peso en la revisión de despliegue. La recuperación de conocimiento interno, el análisis de documentos, la automatización de soporte al cliente y la asistencia de código son todos opciones naturales. La combinación del modelo de sólida capacidad de razonamiento, alta fidelidad de uso de herramientas y economía de inferencia de clase 5B lo hace atractivo para servicio en producción de alto rendimiento donde alternativas open-weight requerirían mayores conteos de parámetros activos.

GPT-OSS-20B apunta a patrones de despliegue local. Asistentes de chat en dispositivo, herramientas de IA basadas en navegador, procesamiento en edge y herramientas de desarrollo que se distribuyen con capacidad de LLM integrada se benefician todos de la combinación de la variante 20B de sólida calidad y requisitos modestos de hardware. El modelo también es una opción natural para fine-tuning en modelos pequeños especializados — sus sólidas capacidades base hacen la adaptación de dominio más eficiente en muestras que partir de una base densa comparable.

Para equipos que construyen productos que previamente usaron la API de OpenAI y ahora se mueven a despliegue auto-alojado por razones de costo o soberanía de datos, GPT-OSS proporciona una ruta de migración relativamente sin fricciones. El formato de prompts y los patrones de comportamiento del modelo son familiares para los equipos con experiencia en la API de OpenAI, reduciendo el trabajo de ingeniería necesario para portar prompts e integraciones existentes.

Hardware Requirements

GPT-OSS-20B con cuantización Q4_K_M requiere aproximadamente 12GB de VRAM, cabiendo en GPUs de consumo desde la RTX 3060 12GB en adelante. Con Q8_0, espera aproximadamente 22GB. El conteo de 3,6B de parámetros activos otorga al modelo una inferencia rápida incluso en hardware modesto, haciéndolo adecuado para aplicaciones locales interactivas.

GPT-OSS-120B con Q4_K_M requiere aproximadamente 65GB de VRAM, cabiendo en una sola GPU de 80GB (A100 80GB, H100 80GB) o repartida entre dos GPUs de 48GB con paralelismo tensorial. Con Q8_0, espera aproximadamente 120GB. El conteo de parámetros activos de 5,1B determina el rendimiento de generación de tokens, así que una vez cargado el modelo sirve aproximadamente a velocidades de clase 5B — excepcionalmente rápido para un modelo de este rango de calidad efectiva.

Para fine-tuning en Ertas Studio: GPT-OSS-20B con QLoRA necesita 16-24GB de VRAM en longitudes de secuencia típicas, cabiendo cómodamente en una sola GPU de 24GB. GPT-OSS-120B con QLoRA necesita 50-70GB de VRAM, cabiendo en una sola GPU de 80GB o repartida entre dos GPUs de 48GB. Los requisitos favorables de hardware de fine-tuning en relación con la calidad efectiva del modelo son una de las razones más sólidas para elegir GPT-OSS para flujos de fine-tuning en producción.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →