API de Google Gemini para movil: Precios, limites y cuando ir al dispositivo

Gemini de Google es la API de IA principal mas economica. Gemini 2.0 Flash cuesta $0.10 por millon de tokens de entrada y $0.40 por millon de tokens de salida. Eso es 33% mas barato que GPT-4o-mini. Tambien tiene un nivel gratuito con limites generosos.

Para desarrolladores Android, Google ofrece un SDK nativo que se integra directamente con tu codigo Kotlin. Sin necesidad de manejar REST manualmente.

Esto suena ideal para apps moviles. Aqui es donde la realidad se vuelve mas matizada.

La ventaja de precios

Modelo	Entrada (por 1M tokens)	Salida (por 1M tokens)
Gemini 2.0 Flash	$0.10	$0.40
Gemini 2.0 Flash-Lite	$0.075	$0.30
Gemini 1.5 Pro	$1.25	$5.00
GPT-4o-mini (comparacion)	$0.15	$0.60
Claude 3.5 Haiku (comparacion)	$0.80	$4.00

Gemini Flash es genuinamente la opcion mas economica para inferencia por token de un proveedor principal. Flash-Lite es aun mas barato si puedes aceptar capacidad ligeramente reducida.

El nivel gratuito

Google ofrece un nivel gratuito para la API de Gemini a traves de Google AI Studio:

Limite de tasa: 15 solicitudes por minuto
Limite diario: 1,500 solicitudes por dia
Limite de tokens: 1 millon de tokens por minuto
Sin tarjeta de credito requerida

Esto es generoso para desarrollo y pruebas. Incluso puede soportar una app en produccion pequena con trafico limitado. A 1,500 solicitudes por dia, podrias servir aproximadamente 50 MAU a 30 solicitudes por usuario por dia.

La trampa: el nivel gratuito no tiene SLA, no tiene tiempo de actividad garantizado, y Google puede cambiar los terminos en cualquier momento. No es una base para produccion.

El SDK nativo para Android

Google proporciona el Google AI Client SDK para Android, que es la integracion movil mas limpia de cualquier proveedor de IA:

val model = GenerativeModel(
    modelName = "gemini-2.0-flash",
    apiKey = BuildConfig.GEMINI_API_KEY
)

// Generacion simple
val response = model.generateContent("Resume este articulo: $text")
println(response.text)

// Streaming
model.generateContentStream("Redacta una respuesta a: $email").collect { chunk ->
    responseText += chunk.text ?: ""
}

Esto es mas limpio que llamadas REST crudas a OpenAI. El SDK maneja la serializacion, gestion de errores y streaming.

Para iOS, hay un SDK de Swift disponible a traves de Swift Package Manager que sigue el mismo patron.

Costo a escala

Incluso con la tarifa por token mas economica, el escalado lineal con usuarios sigue sumando.

Usando la misma linea base (3 interacciones/dia, 1,000 tokens cada una, Gemini Flash a $0.10/$0.40):

MAU	Costo mensual ingenuo	Costo real (multiplicador 3x)
1,000	$22.50	$67.50
5,000	$112.50	$337.50
10,000	$225.00	$675.00
50,000	$1,125.00	$3,375.00
100,000	$2,250.00	$6,750.00

A 100K MAU, Gemini Flash cuesta $6,750/mes con el multiplicador de costo real. Eso es mas barato que GPT-4o-mini ($10,125) pero sigue siendo un gasto material que crece con cada usuario.

Gemini Nano: La opcion en el dispositivo de Google

Google tiene su propio modelo en el dispositivo: Gemini Nano. Se ejecuta directamente en el telefono via Android AICore. Cero costos de API, cero latencia.

Las limitaciones son significativas:

Restricciones de dispositivo: Solo disponible en las series Pixel 8/9 y Samsung Galaxy S24/S25. Eso es una fraccion del mercado Android.

Sin modelos personalizados: No puedes fine-tunear Gemini Nano. No puedes usar tus propios modelos. Obtienes las capacidades preconfiguradas de Google.

Tareas limitadas: Resumen, respuesta inteligente y algunas otras capacidades predefinidas. Sin generacion de texto abierta con comportamiento personalizado.

Restricciones de API: El acceso es a traves de la API AICore, que no es lo mismo que la API de Gemini Cloud. Integracion diferente, capacidades diferentes.

Para desarrolladores que necesitan IA en el dispositivo que funcione en todos los dispositivos Android con comportamiento de modelo personalizado, Gemini Nano no es la solucion.

API de Gemini vs Gemini Nano vs GGUF en el dispositivo

Factor	API de Gemini (Flash)	Gemini Nano	GGUF + llama.cpp
Costo por inferencia	$0.0001-$0.001	$0	$0
Cobertura de dispositivos	Todos (con internet)	Pixel 8+, Galaxy S24+	Cualquier dispositivo 4GB+
Modelos personalizados	No	No	Si (cualquier GGUF)
Fine-tuning	No	No	LoRA/QLoRA completo
Sin conexion	No	Si	Si
Tareas soportadas	Todas (modelo en la nube)	Predefinidas limitadas	Toda generacion de texto
Control del modelo	Ninguno	Ninguno	Completo
Precision de dominio	Buena (con prompts)	N/A	Excelente (fine-tuned)

Cuando usar cada uno

API de Gemini es la mejor opcion de API en la nube para apps moviles sensibles al costo. Si necesitas una API en la nube para prototipos o funciones de bajo volumen, Gemini Flash es la opcion mas economica. El SDK nativo de Android hace la integracion mas fluida que los proveedores competidores.

Gemini Nano es util si tu app apunta exclusivamente a dispositivos Pixel y Samsung flagship y solo necesitas resumen o respuesta inteligente. Para la mayoria de desarrolladores, las restricciones de dispositivo lo hacen impractico como estrategia de IA principal.

GGUF + llama.cpp es la eleccion correcta cuando necesitas comportamiento de IA personalizado en todos los dispositivos, soporte sin conexion, privacidad y cero costo por inferencia. Fine-tunea un modelo con tus datos de dominio usando una plataforma como Ertas, exporta como GGUF y ejecuta en cualquier dispositivo con suficiente RAM.

El camino practico

Comienza con Gemini Flash para la validacion de IA en la nube mas economica posible. Usa el nivel gratuito durante el desarrollo y las pruebas iniciales. Monitorea tu uso de tokens y costo por usuario desde el primer dia.

Cuando cruces los 5,000 MAU o cuando tu factura mensual de Gemini exceda el costo unico de fine-tuning, es momento de evaluar el dispositivo. Tus logs de la API de Gemini contienen los datos de entrenamiento que necesitas para fine-tuning. La ruta de migracion es directa: extrae datos de entrenamiento, fine-tunea con LoRA, exporta GGUF, integra llama.cpp y haz pruebas A/B contra tu linea base de Gemini.