
Que pasa cuando OpenAI depreca el modelo del que depende tu app
La deprecacion de modelos no es hipotetica. OpenAI ha deprecado mas de 15 modelos desde 2023. Cuando tu app depende de una version especifica de modelo, la deprecacion significa una migracion forzada bajo un plazo que no elegiste.
El 6 de junio de 2024, OpenAI depreco gpt-4-32k, gpt-4-vision-preview y varios otros modelos. Las apps que usaban estos modelos tenian hasta una fecha especifica para migrar. Despues de esa fecha, las llamadas a la API devolvian errores.
Esta no fue la primera deprecacion. OpenAI ha retirado mas de 15 versiones de modelo desde 2023. GPT-3.5-turbo-0301, GPT-4-0314, text-davinci-003, code-davinci-002. Cada deprecacion forzo a cada app dependiente a migrar.
Si tu app movil depende de un modelo especifico de OpenAI, esto te pasara. La pregunta no es "si" sino "cuando" y "que tan disruptivo."
El patron de deprecacion
El ciclo de vida de modelos de OpenAI sigue un patron:
- Se lanza un nuevo modelo con una version fechada (ej., gpt-4o-2024-08-06)
- El alias apunta al mas reciente (ej., gpt-4o apunta a la ultima version fechada)
- Las versiones fechadas antiguas se deprecan con 3-6 meses de aviso
- Despues de la fecha de deprecacion, las llamadas al modelo antiguo devuelven errores o se redirigen automaticamente a un reemplazo
El periodo de aviso suena generoso. En la practica, no lo es.
Por que 3-6 meses no es suficiente
Una deprecacion no solo significa cambiar un string de modelo en tu codigo. Cuando cambias de modelo, el comportamiento cambia:
Cambios de formato de salida: Tus prompts fueron afinados para las tendencias de un modelo especifico. Un nuevo modelo puede formatear JSON diferente, usar frases diferentes o manejar casos extremos de forma diferente.
Cambios de precision: Un prompt que logra 90% de precision en gpt-4-0613 podria lograr 85% o 95% en gpt-4o. No sabes cual hasta que pruebes.
Cambios en uso de tokens: Diferentes modelos tokenizan diferente y generan respuestas de diferente longitud. Tu modelo de costos cambia.
Cambios de latencia: Los modelos mas nuevos pueden ser mas rapidos o mas lentos. Tus suposiciones de tiempo de UX pueden romperse.
Cada uno de estos requiere pruebas, re-afinacion de prompts y potencialmente cambios de codigo. Para una app movil, esto tambien significa una nueva version de la app a traves del proceso de revision de App Store.
El problema de las apps moviles
Las web apps pueden desplegar una correccion en minutos. Las apps moviles no.
Revision de App Store: La revision de iOS App Store toma 24-48 horas en promedio. Si necesitas cambiar tu string de modelo, necesitas enviar un nuevo build, esperar la revision y esperar que los usuarios actualicen.
Retraso de actualizacion de usuarios: Incluso despues de enviar una actualizacion, los usuarios no actualizan inmediatamente. El tiempo mediano para que el 80% de usuarios actualicen una app iOS es 1-2 semanas. Android es peor. Puedes tener usuarios en la version antigua llamando a un modelo deprecado por semanas despues de que tu correccion salga.
Requisitos de pruebas: Cada nueva version de modelo necesita pruebas de regresion en todo tu conjunto de funciones de IA. Las pruebas automatizadas ayudan, pero la IA basada en prompts es inherentemente no determinista. El QA manual frecuentemente es requerido.
El riesgo en cascada
Si tu app llama al modelo deprecado directamente (string de modelo hardcodeado), la linea de tiempo luce asi:
- OpenAI anuncia deprecacion (Dia 0)
- Notas el anuncio (Dia 1-14, dependiendo del monitoreo)
- Pruebas el modelo de reemplazo contra tus prompts (Dia 14-30)
- Re-afinas los prompts que no funcionan con el nuevo modelo (Dia 30-60)
- Envias un nuevo build de la app (Dia 60-65)
- Apple revisa el build (Dia 65-67)
- Los usuarios actualizan (Dia 67-80+)
Con una ventana de deprecacion de 90 dias, estas justo en el limite. Con una ventana de 60 dias, podrias no lograrlo.
No es solo OpenAI
Todos los proveedores de IA en la nube deprecan modelos:
Anthropic ha deprecado Claude 2, Claude 2.1 y Claude Instant. Los modelos de Claude 3 seguiran.
Google ha deprecado PaLM, Bard y versiones antiguas de Gemini. La linea de modelos Gemini cambia regularmente.
El patron es de toda la industria: El desarrollo de modelos de IA se mueve rapido. Los proveedores no tienen incentivo para mantener modelos antiguos indefinidamente. El costo de computo de servir modelos obsoletos es real, y el reemplazo siempre es "mejor" desde la perspectiva del proveedor.
Estrategias de mitigacion (dentro del modelo de nube)
Usa alias, no versiones fechadas
Llama a gpt-4o en lugar de gpt-4o-2024-08-06. El alias apunta automaticamente a la ultima version. Obtienes el nuevo modelo sin cambios de codigo.
La desventaja: Pierdes control sobre cuando cambia el comportamiento. El modelo puede cambiar debajo de ti sin aviso. Tus prompts que funcionaban ayer pueden funcionar diferente hoy.
Configuracion de modelo del lado del servidor
No hardcodees el nombre del modelo en tu app movil. Almacenalo en una configuracion del lado del servidor que la app obtiene al iniciar:
{
"ai_model": "gpt-4o-mini",
"ai_provider": "openai"
}
Esto te permite cambiar modelos sin enviar una actualizacion de app. Pero no resuelve el problema de pruebas de comportamiento. Sigues enviando un modelo no probado a produccion.
Versionado de prompts
Mantiene un registro de prompts que empareja cada prompt con el modelo contra el que fue probado. Cuando cambias modelos, el registro marca que prompts necesitan re-pruebas.
Es buena practica de ingenieria pero agrega complejidad operativa.
La solucion estructural
El problema de deprecacion existe porque dependes de la infraestructura de alguien mas y del calendario de alguien mas. Cuando eres dueno del modelo, no hay deprecacion.
Los modelos en el dispositivo que fine-tuneas y despliegas son tuyos:
- El archivo GGUF en el dispositivo del usuario no expira
- Ningun tercero puede deprecar tu modelo
- Tu controlas cuando y si actualizar
- Las actualizaciones de modelo ocurren en tu calendario, no el de un proveedor
El camino de actualizacion del modelo se convierte en:
- Tu decides actualizar (basado en tus propias pruebas, no en un plazo)
- Fine-tuneas la nueva version
- Pruebas contra tus benchmarks de calidad
- Envias la actualizacion a usuarios via tu pipeline normal de entrega de modelos
- El modelo antiguo continua funcionando para usuarios que no han actualizado
Sin plazos forzados. Sin migraciones de emergencia. Sin presion de revision de App Store.
El costo de la estabilidad
Fine-tunear un modelo cuesta $5-50 por ejecucion en plataformas como Ertas. Ese es el costo de completa independencia de calendarios de deprecacion, cambios de comportamiento y plazos de proveedores.
Compara eso con el costo de ingenieria de una migracion forzada: 2-4 semanas de tiempo de desarrollador para pruebas, re-afinacion de prompts y despliegue. A costos tipicos de desarrollador, una sola respuesta a deprecacion cuesta $5,000-$20,000 en tiempo de ingenieria.
La ruta de fine-tuning no es solo mas estable. Es mas economica por evento de migracion.
Que hacer ahora
- Inventaria tus dependencias de modelo. Que modelos llama tu app? Son versiones fechadas o alias?
- Configura monitoreo de deprecaciones. Suscribete al changelog de OpenAI, anuncios de Anthropic y actualizaciones de API de Google.
- Construye un plan de migracion. Si tu modelo principal fuera deprecado manana, cuanto tomaria enviar una correccion?
- Comienza a recopilar datos de entrenamiento. Cada llamada a la API que haces hoy es un potencial ejemplo de fine-tuning para el modelo que seras dueno manana.
- Evalua la ruta al dispositivo. Fine-tunea un modelo pequeno con tus datos de dominio, exporta GGUF, prueba en el dispositivo. Cuando iguale tu barra de calidad, despliegalo.
El objetivo no es evitar las APIs en la nube completamente. El objetivo es dejar de depender de infraestructura que no controlas para funciones de las que dependen tus usuarios.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Claude API vs OpenAI API for Mobile Apps
A side-by-side comparison of Anthropic's Claude and OpenAI's GPT models for mobile app integration. Pricing, rate limits, capabilities, and when neither is the right answer.

Your AI API Bill Will 10x When Your App Gets Users
The cost math most AI tutorials skip. Your API bill scales linearly with every user, and the real multipliers are worse than the pricing page suggests. Here's what happens at 1K, 10K, and 100K MAU.

Google Gemini API for Mobile: Pricing, Limits, and When to Go On-Device
Google's Gemini API offers aggressive pricing and native Android integration. Here's what the pricing actually looks like at scale, where the free tier ends, and when on-device models make more sense.