Fine-Tune Gemma 4 with Ertas

Familia de modelos open-weight de Google de abril de 2026: la primera generación de Gemma publicada bajo Apache 2.0, que abarca un modelo insignia denso de 31B, una variante de mezcla de expertos de 26B-A3.8B y modelos optimizados para edge de 4B y 2B, todos con capacidades multimodales nativas.

2B (e2b)4B (e4b)26B-A3.8B31BGoogle

Overview

Gemma 4, lanzado el 2 de abril de 2026, es el lanzamiento open-weight más significativo de Google hasta la fecha y un cambio importante en su postura de licenciamiento. Mientras que las generaciones anteriores de Gemma se publicaban bajo la licencia Gemma personalizada (que incluía restricciones de uso y prohibía ciertas aplicaciones), Gemma 4 se publica bajo Apache 2.0, la licencia open-source estándar más permisiva. Esto sitúa a Gemma en paridad de licencias con Qwen, Mistral y OLMo, y elimina un punto importante de fricción para la integración comercial.

La familia abarca cuatro tamaños: un modelo insignia denso de 31B dirigido al despliegue en estaciones de trabajo y servidores pequeños; una variante de mezcla de expertos de 26B-A3.8B diseñada para inferencia en GPUs de consumo con calidad de modelo grande; un modelo edge de 4B parámetros efectivos (e4b); y un modelo de 2B parámetros efectivos (e2b) dirigido a despliegue en dispositivo, sobre teléfonos y portátiles. Las cuatro variantes comparten una arquitectura multimodal común: se admiten entradas de texto, imágenes y audio de formato corto en toda la familia.

Gemma 4 se basa en el entrenamiento multilingüe de Gemma 3 (más de 140 idiomas) y la ventana de contexto de 128K, mientras mejora sustancialmente en razonamiento, programación y seguimiento de instrucciones. La variante MoE en particular está posicionada como la respuesta de Google a la línea de modelos MoE eficientes de Qwen 3 / DeepSeek V3, combinando la eficiencia de la activación dispersa con el trabajo de ingeniería y seguridad que distingue a la serie Gemma.

Los pesos están disponibles en Hugging Face bajo `google/gemma-4-31b`, `google/gemma-4-26b-moe`, `google/gemma-4-e4b` y `google/gemma-4-e2b`. Las compilaciones GGUF cuantizadas, las compilaciones MLX (para Apple Silicon) y las exportaciones ONNX están ampliamente disponibles, reflejando la inversión de Google en despliegue multiplataforma.

Key Features

El licenciamiento bajo Apache 2.0 es el cambio destacado. Para usuarios comerciales, esto elimina la incertidumbre de la política de uso que había limitado la adopción de Gemma 3 en industrias reguladas y casos de uso que la licencia anterior restringía. Los pesos de Gemma 4, los derivados y las variantes ajustadas pueden usarse comercialmente sin los términos restrictivos que distinguían a la licencia Gemma de los lanzamientos open-weight estándar.

La variante MoE de 26B-A3.8B está específicamente diseñada para despliegue en hardware de consumo. Con solo 3,8B parámetros activos por token, la velocidad de inferencia está dominada por el conteo activo, comparable a un modelo denso de 4B, mientras que la calidad efectiva del modelo se acerca a la variante densa de 31B en la mayoría de benchmarks. Esto hace práctica la inferencia local de alta calidad en una sola GPU de consumo de 24GB, que es el punto óptimo de despliegue para herramientas de desarrollador auto-hospedadas y aplicaciones on-premise.

El soporte multimodal nativo en los cuatro tamaños es inusual. La mayoría de las familias de modelos restringe la capacidad multimodal a una variante insignia, dejando los modelos más pequeños solo para texto. La variante e2b de Gemma 4, con solo 2B parámetros efectivos, acepta entrada de imagen, convirtiéndola en el modelo open-weight multimodal creíble más pequeño y desbloqueando patrones en dispositivo como OCR, asistentes de lectura de pantalla y aplicaciones de realidad aumentada basadas en cámara que antes requerían inferencia del lado del servidor.

La ventana de contexto de 128K es consistente en toda la familia, y Gemma 4 incluye el stack estándar de seguridad de Google: un clasificador ShieldGemma actualizado, post-entrenamiento de seguridad de contenido, y soporte de salida estructurada estilo PaliGemma para uso de herramientas de alta fidelidad. Estas adiciones hacen a Gemma 4 particularmente atractivo para despliegues en producción donde la revisión de seguridad es parte del ciclo de integración.

Fine-Tuning with Ertas

La familia de tamaños de Gemma 4 cubre casi todos los escenarios de fine-tuning en Ertas Studio. Los modelos edge e2b y e4b pueden ajustarse con QLoRA en GPUs de consumo con 6-12GB de VRAM, haciéndolos ideales para iteración rápida y especialización a pequeña escala. La variante MoE de 26B-A3.8B es particularmente bien adaptada para fine-tuning dado su bajo conteo de parámetros activos: QLoRA cabe cómodamente en una GPU de 24GB con secuencias de longitud completa, entrenando a velocidades sustancialmente más rápidas que los modelos densos de tamaño equivalente.

El modelo insignia denso de 31B requiere más memoria para fine-tuning. QLoRA en longitudes de secuencia típicas (4K tokens) necesita aproximadamente 28-40GB de VRAM, cabiendo en una sola GPU de 48GB o dos GPUs de 24GB con paralelismo de modelo. El fine-tuning de parámetros completos es poco práctico en configuraciones de una sola GPU, pero está soportado en las configuraciones multi-GPU de Ertas Studio.

Para fine-tuning multimodal, Ertas Studio admite formatos de datos de entrenamiento intercalados de texto e imagen nativos de Gemma 4. Esto es particularmente valioso para adaptación de dominio en tareas de razonamiento visual: fine-tuning sobre imágenes médicas anotadas, diagramas técnicos, catálogos de productos minoristas o disposiciones de documentos específicas de la industria. Tras el entrenamiento, los modelos se exportan a GGUF (con preservación del proyector multimodal) o MLX para despliegue en Apple Silicon, con compatibilidad de un clic para Ollama, llama.cpp y LM Studio.

Use Cases

La variante densa de 31B se posiciona para despliegue on-premise de alta calidad en aplicaciones empresariales: asistentes de chat para industrias reguladas, recuperación de conocimiento interna, análisis de documentos y asistencia de código para equipos de ingeniería. La licencia Apache 2.0 combinada con fuertes capacidades multilingües la hace una elección natural para empresas que antes elegían Llama o Mistral principalmente por razones de licenciamiento.

La variante MoE de 26B-A3.8B sobresale en servicio en producción sensible al coste. La automatización de soporte al cliente, los pipelines de moderación de contenido y los flujos de trabajo de procesamiento de documentos, todos se benefician de la velocidad de inferencia de clase 4B combinada con calidad competitiva con el modelo denso de 31B. Para equipos que ejecutan inferencia auto-hospedada y vigilan la economía del coste de tokens, la variante MoE es a menudo la elección por defecto correcta.

Los modelos edge e4b y e2b apuntan a patrones de despliegue en dispositivo: asistentes móviles de chat con privacidad por diseño (sin datos saliendo del dispositivo), herramientas de IA basadas en navegador, integración con dispositivos domésticos inteligentes y escenarios de despliegue en campo donde la conectividad no es fiable. El soporte multimodal nativo a través de estos tamaños pequeños los hace particularmente valiosos para aplicaciones basadas en cámara y de lectura de pantalla.

Hardware Requirements

El modelo Gemma 4 e2b con cuantización Q4_K_M requiere aproximadamente 1,5GB de memoria, ejecutable en teléfonos, portátiles y cualquier GPU con 4GB+ de VRAM. El e4b en Q4_K_M necesita aproximadamente 2,5GB, adecuado para cualquier dispositivo de consumo moderno.

La variante MoE de 26B-A3.8B requiere cargar todos los pesos de los expertos: aproximadamente 16GB en Q4_K_M y 28GB en Q8_0. Una GPU de consumo de 24GB (RTX 4090, RTX 5090) es el punto óptimo de despliegue. La velocidad de inferencia está dominada por el conteo de 3,8B parámetros activos, así que la generación de tokens funciona aproximadamente a velocidades de clase 4B, haciendo esta variante inusualmente rápida para su huella de memoria.

El modelo denso de 31B en Q4_K_M necesita aproximadamente 18-20GB de VRAM, cabiendo en una sola GPU de 24GB con margen para contexto. En Q8_0, espera aproximadamente 33GB. Para fine-tuning en Ertas Studio: e2b/e4b necesitan 6-12GB de VRAM, el MoE de 26B-A3.8B necesita 20-24GB y el denso de 31B necesita 28-40GB en longitudes de secuencia de entrenamiento típicas.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

MLX

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →