Fine-Tune Gemma 3 with Ertas

La más reciente familia de modelos de pesos abiertos de Google, construida sobre la tecnología Gemini, disponible en tamaños de 1B, 4B, 12B y 27B con capacidades multimodales nativas de visión-lenguaje y una ventana de contexto de 128K tokens.

1B4B12B27BGoogle

Overview

Gemma 3 es la tercera generación de la familia de modelos de pesos abiertos de Google, lanzada en marzo de 2025. Construida sobre la misma investigación y tecnología que impulsa los modelos Gemini de Google, Gemma 3 ofrece rendimiento de vanguardia en todo su rango de tamaños. La familia incluye cuatro tamaños — 1B, 4B, 12B y 27B parámetros — con los modelos de 4B y superiores soportando entradas multimodales nativas (texto e imágenes).

El modelo insignia de 27B es particularmente notable, igualando o superando a Llama 3 70B en muchos benchmarks a pesar de tener menos de la mitad de parámetros. Esta eficiencia proviene de innovaciones arquitectónicas, calidad de datos de entrenamiento y la amplia experiencia de Google en optimización de transformers. El modelo soporta una ventana de contexto de 128K tokens en todos los tamaños.

Gemma 3 utiliza una arquitectura de transformer densa con varias innovaciones específicas de Google, incluyendo limitación suave de logits para mejorar la estabilidad del entrenamiento, capas de atención local y global intercaladas para procesamiento eficiente de contexto largo, y un tokenizer SentencePiece con un vocabulario de 262K. El gran vocabulario proporciona una eficiencia de tokenización excepcional entre idiomas.

Todos los modelos se publican bajo la licencia Gemma, que permite uso comercial con restricciones ligeras de uso responsable. Google proporciona versiones optimizadas para múltiples frameworks incluyendo JAX, PyTorch y Keras, y los modelos cuentan con buen soporte del ecosistema más amplio incluyendo Ollama, llama.cpp y LM Studio.

Key Features

La capacidad multimodal nativa es una característica destacada de Gemma 3 (disponible en tamaños de 4B, 12B y 27B). Los modelos pueden procesar entradas intercaladas de texto e imagen, habilitando respuesta visual a preguntas, razonamiento basado en imágenes, comprensión de gráficos y documentos, y generación de contenido multimodal. Esto es impulsado por un codificador de visión SigLIP integrado directamente en la arquitectura del modelo, no añadido como algo secundario.

El mecanismo de atención local-global intercalada es una innovación arquitectónica que alterna entre atención de ventana deslizante local (para procesamiento eficiente de contexto cercano) y atención global completa (para capturar dependencias de largo alcance). Este enfoque híbrido logra calidad cercana a la atención completa mientras reduce significativamente el costo computacional y de memoria del procesamiento de secuencias largas.

Gemma 3 demuestra un rendimiento particularmente fuerte en seguimiento de instrucciones, alineación de seguridad y precisión factual. El proceso de entrenamiento de Google incluye extenso aprendizaje por refuerzo con retroalimentación humana y evaluaciones de seguridad cuidadosamente diseñadas, produciendo modelos bien calibrados y resistentes a técnicas comunes de jailbreak mientras permanecen útiles.

Fine-Tuning with Ertas

Los modelos Gemma 3 son excelentes candidatos para fine-tuning en Ertas Studio. El modelo de 1B puede ajustarse con LoRA completo en GPUs con solo 4-6GB de VRAM, el modelo de 4B requiere 8-10GB con QLoRA, el de 12B necesita 12-16GB, y el de 27B requiere 16-24GB con QLoRA de 4 bits. La capacidad del modelo de 27B de igualar la calidad de clase 70B lo convierte en un valor excepcional para fine-tuning — obtienes rendimiento cercano a la frontera a un costo de entrenamiento muy manejable.

Para fine-tuning multimodal, Ertas Studio soporta datasets de imagen-texto con Gemma 3. Sube ejemplos pareados de imagen-texto, y la plataforma maneja la integración del codificador de visión y el preprocesamiento de datos. Esto permite crear modelos de IA visual personalizados — por ejemplo, un Gemma 3 12B ajustado que puede identificar defectos específicos de productos en imágenes, leer imágenes médicas especializadas o procesar formatos de documentos específicos de la industria.

Después del entrenamiento, Ertas Studio exporta a formato GGUF con cuantización optimizada. Gemma 3 27B en Q4_K_M produce un modelo de aproximadamente 16GB que funciona bien en hardware de consumo, entregando calidad que típicamente requeriría un archivo de modelo de 40GB+ de otras familias. Despliega a través de Ollama o llama.cpp para inferencia local inmediata.

Use Cases

Gemma 3 es ideal para aplicaciones que requieren un equilibrio entre alta calidad y uso moderado de recursos. El modelo de 27B está particularmente bien posicionado para organizaciones que quieren calidad cercana a la frontera sin el costo de ejecutar modelos de 70B+. Destaca en seguimiento de instrucciones complejas, escritura analítica, generación de código y tareas de razonamiento de múltiples pasos.

Las capacidades multimodales abren ricas posibilidades de aplicación: pipelines de procesamiento de documentos que pueden leer y razonar sobre formularios, facturas y contratos; sistemas de QA visual para accesibilidad; enriquecimiento de catálogos de productos desde imágenes; e inspección de calidad automatizada en manufactura. Los modelos Gemma 3 4B o 12B ajustados ofrecen una excelente relación costo-calidad para tareas de visión específicas de dominio.

El modelo de 1B sirve como una opción rápida y eficiente para tareas simples: clasificación de texto, extracción de entidades, análisis de sentimiento y respuesta básica a preguntas. Funciona en prácticamente cualquier hardware y puede manejar cargas de trabajo de alto rendimiento de manera rentable.

Hardware Requirements

Gemma 3 1B en Q4_K_M requiere aproximadamente 800MB de RAM, adecuado para dispositivos edge y despliegue móvil. El modelo de 4B necesita unos 2.5GB, el de 12B unos 7.5GB, y el de 27B unos 16GB en Q4_K_M. En Q8_0, el modelo de 27B requiere aproximadamente 29GB, ajustándose en una sola A6000 de 48GB o sistemas con 32GB+ de RAM.

La inferencia completa en FP16 para el modelo de 27B requiere aproximadamente 54GB de VRAM, adecuada para A100 de 80GB o configuraciones duales de A6000. El despliegue en GPU de consumo en Q4_K_M es cómodo en RTX 4090 de 24GB, e incluso funciona bien en MacBooks serie M con 32GB de memoria unificada a unos 15-25 tokens por segundo.

Para fine-tuning en Ertas Studio, el modelo de 27B con QLoRA necesita 16-24GB de VRAM (una sola RTX 4090 o A5000), mientras el de 12B necesita 12-16GB y el de 4B necesita 8-10GB. Los modelos más pequeños permiten iteración rápida en hardware de consumo antes de escalar al de 27B para calidad de producción.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →