
De Lovable a producción: qué pasa después del prototipo
Tu prototipo de Lovable funciona. Los usuarios se están registrando. Ahora necesitas que sobreviva tráfico real, costos reales y usuarios reales — sin reescribir todo desde cero.
Lovable te llevó de la idea a una app funcional en horas. Describiste lo que querías, viste cómo generaba una app React completa con un backend de Supabase, y al final del día tenías una demo que parecía construida por un equipo de tres personas.
Se la mostraste a la gente. Se registraron. Alguien incluso pagó.
Entonces llega el momento que todo constructor de Lovable enfrenta: la brecha entre "funciona en el día de la demo" y "funciona en producción". El prototipo es real — pero producción es un juego completamente diferente.
Esto no es una crítica a Lovable. Lovable hace exactamente lo que promete: construye prototipos funcionales a una velocidad extraordinaria. Pero los prototipos están optimizados para "¿funciona?" y producción está optimizada para "¿funciona de manera confiable, asequible, segura y a escala?"
Son preguntas diferentes, y requieren respuestas diferentes.
Las 5 brechas entre el prototipo de Lovable y la app en producción
Después de hablar con docenas de constructores que han llevado prototipos de Lovable a producción, las mismas cinco brechas aparecen cada vez. Algunas son obvias. Algunas no se manifiestan hasta que tienes usuarios de pago.
- Escalado de costos de IA — Tus funciones de IA se vuelven caras a medida que crece el uso
- Confiabilidad bajo carga — Límites de tasa de API, caídas y timeouts rompen la experiencia del usuario
- Datos y privacidad — Los datos de usuario que fluyen a través de APIs de terceros crean riesgo de cumplimiento
- Rendimiento a escala — Los viajes de ida y vuelta de API agregan latencia que los usuarios perciben
- Dependencia de proveedores — Las funciones principales de tu app dependen de una empresa cuyo precio y disponibilidad no controlas
Repasemos cada una y hablemos de qué hacer al respecto.
Brecha 1: escalado de costos de IA
Esta es la brecha más común y generalmente la primera que duele.
Tu app de Lovable tiene funciones de IA — un chatbot, un resumidor, un motor de recomendaciones, una capa de clasificación. Durante la creación del prototipo, estas funciones llaman a la API de OpenAI y los costos son invisibles. Unos pocos dólares al mes como máximo.
Pero cada interacción de usuario que activa una función de IA cuesta tokens. Y los costos por token escalan linealmente con los usuarios.
| Usuarios activos mensuales | Solicitudes IA promedio/día | Costo API mensual (GPT-4) |
|---|---|---|
| 100 | 500 | ~$12 |
| 1,000 | 5,000 | ~$120 |
| 5,000 | 25,000 | ~$600 |
| 10,000 | 50,000 | ~$1,200 |
| 25,000 | 125,000 | ~$3,000 |
Esos $12 con 100 usuarios se sentían como nada. Esos $620 con 5,000 usuarios se comen tu margen. Esos $3,000 con 25,000 usuarios podrían superar todos tus ingresos.
La solución no es eliminar las funciones de IA — probablemente son la razón por la que los usuarios aman tu app. La solución es dejar de pagar por token.
La solución para producción: Ajusta un modelo pequeño (7B parámetros) para tu caso de uso específico y despliégalo localmente. Tus costos de IA se convierten en un fijo de $44.50/mes ($14.50 por Ertas + $30 por un VPS) sin importar la cantidad de usuarios. Cubriremos esto en detalle en la sección de arquitectura más abajo.
Brecha 2: confiabilidad bajo carga
Durante la creación del prototipo, las llamadas API a OpenAI generalmente funcionan sin problemas. Pero en producción, necesitas planificar para cuando no funcionen.
Límites de tasa. OpenAI impone límites de tasa basados en el nivel de tu cuenta. Si tu app genera una ráfaga de solicitudes — digamos, 50 usuarios activando la función de IA en el mismo minuto — obtendrás errores 429. Tus usuarios ven "algo salió mal".
Caídas de API. OpenAI ha tenido múltiples caídas importantes en el último año. Cuando OpenAI se cae, cada función de IA en tu app se cae. No tienes respaldo, no tienes redundancia y no tienes control sobre cuándo vuelve.
Manejo de timeouts. Las respuestas de GPT-4 pueden tardar 3-10 segundos. Bajo carga pesada, pueden tardar 15-30 segundos. Tu frontend generado por Lovable probablemente no tiene manejo sofisticado de timeouts, lógica de reintentos o estados de carga para estos escenarios.
La solución para producción: Un modelo ejecutándose localmente en tu propia infraestructura no tiene límites de tasa (tú controlas el rendimiento), no se cae cuando OpenAI tiene un incidente, y típicamente responde en 0.5-2 segundos para un modelo 7B ajustado. También puedes agregar un respaldo: intentar primero con el modelo local, y recurrir a OpenAI si el modelo local no está disponible.
Así se ve esa diferencia de confiabilidad en la práctica:
| Factor de confiabilidad | API de OpenAI | Modelo local ajustado |
|---|---|---|
| Uptime (tu control) | 0% — depende de OpenAI | 100% — tu infraestructura |
| Límites de tasa | Sí (varía por nivel) | Ninguno |
| Tiempo de respuesta promedio | 2-8 segundos (GPT-4) | 0.5-2 segundos (modelo 7B) |
| Respaldo ante caídas | Ninguno | Puede recurrir a API si es necesario |
| Manejo de ráfagas | Limitado al tope | Escala con tu hardware |
Brecha 3: datos y privacidad
Esta te toma por sorpresa.
Cada vez que tu app envía la entrada de un usuario a la API de OpenAI, esos datos viajan a través de la infraestructura de OpenAI. Para una demo de prototipo, a nadie le importa. Para una app en producción con usuarios de pago, esto crea problemas reales:
Cumplimiento de GDPR. Si tienes usuarios europeos, estás enviando sus datos personales a un tercero con sede en EE.UU. Eso activa requisitos de acuerdo de procesamiento de datos, obligaciones de aviso de privacidad y potencialmente restricciones de transferencia transfronteriza. La superficie legal es significativa.
Confianza del usuario. Tu política de privacidad probablemente no menciona que las entradas de los usuarios son procesadas por OpenAI. Una vez que los usuarios se enteren (y eventualmente lo harán), algunos se irán. Particularmente en verticales sensibles como salud, legal, finanzas o recursos humanos.
Retención de datos. Las políticas de retención de datos de OpenAI han cambiado múltiples veces. ¿Qué pasa con los datos del usuario después de ser procesados? No controlas completamente la respuesta.
Cumplimiento industrial. Si estás construyendo para salud (HIPAA), finanzas (SOC 2) o gobierno (FedRAMP), enviar datos a APIs externas puede ser un punto de partida no viable. Algunas empresas ni siquiera evaluarán tu producto si el procesamiento de IA ocurre fuera de sus instalaciones.
La solución para producción: Cuando tu modelo de IA se ejecuta localmente, los datos del usuario nunca salen de tu infraestructura. No hay procesador de datos de terceros del que preocuparse. Tu discurso de privacidad se vuelve simple: "Tus datos permanecen en nuestros servidores. Punto." Eso es una ventaja competitiva en cada industria regulada y una señal de confianza para cada usuario.
Brecha 4: rendimiento a escala
Los viajes de ida y vuelta de API agregan latencia que se acumula a medida que tu app crece.
Una función de IA típica en una app de Lovable funciona así:
- El usuario activa una acción (500ms para que la solicitud llegue a tu servidor)
- Tu servidor envía la solicitud a OpenAI (100-200ms de latencia de red)
- OpenAI procesa la solicitud (2,000-8,000ms para GPT-4)
- La respuesta viaja de vuelta a tu servidor (100-200ms)
- Tu servidor envía la respuesta al usuario (500ms)
Total: 3-9 segundos para una sola interacción de IA. Los usuarios notan cualquier cosa por encima de 2 segundos. A más de 5 segundos, empiezan a preguntarse si la app está rota.
Y esto empeora bajo carga. Cuando los servidores de OpenAI están ocupados, ese tiempo de procesamiento de 2-8 segundos puede estirarse a 15-30 segundos. Tu cola se acumula. Los usuarios empiezan a hacer clic furiosamente. Las tasas de error se disparan.
La solución para producción: Un modelo local ajustado elimina por completo el viaje de ida y vuelta a OpenAI. El procesamiento ocurre en el mismo servidor (o VPS cercano) que tu app. Tiempos de respuesta típicos para un modelo 7B en un VPS decente:
| Tipo de tarea | Tiempo de respuesta modelo local | Tiempo de respuesta API de OpenAI |
|---|---|---|
| Clasificación (salida corta) | 200-500ms | 1,500-3,000ms |
| Extracción (salida estructurada) | 300-800ms | 2,000-5,000ms |
| Generación corta (1-2 párrafos) | 500-1,500ms | 3,000-8,000ms |
| Resumen | 400-1,000ms | 2,500-6,000ms |
Tus usuarios experimentan funciones de IA que se sienten instantáneas en lugar de lentas. Eso es una mejora significativa de UX que afecta directamente la retención.
Brecha 5: dependencia de proveedores
Las funciones de IA de tu prototipo de Lovable dependen enteramente de OpenAI. Eso significa:
-
Los cambios de precio te afectan inmediatamente. Cuando OpenAI sube los precios (o cambia su modelo de precios), tus márgenes cambian de la noche a la mañana. No puedes negociar. No puedes cambiar sin un trabajo significativo.
-
La depreciación de modelos rompe tu app. OpenAI ha depreciado múltiples versiones de modelos. Cuando la versión de tu modelo llega al fin de vida, tienes que migrar — y la nueva versión podría comportarse diferente, rompiendo tus prompts y las expectativas de tus usuarios.
-
La disponibilidad de funciones no está garantizada. OpenAI puede cambiar límites de tasa, políticas de uso o acceso a funciones en cualquier momento. Startups han tenido acceso a API restringido o revocado con aviso mínimo.
-
No puedes diferenciarte. Cada app que usa GPT-4 con el mismo prompt obtiene aproximadamente la misma salida. Tus funciones de IA no son una ventaja competitiva — son un commodity. Cualquier competidor puede replicarlas copiando tu prompt.
La solución para producción: Un modelo ajustado que posees elimina la dependencia de proveedores por completo. Tú controlas el modelo, los datos de entrenamiento, el despliegue y los precios. Si quieres actualizar el modelo, reentrenar en tu calendario. Si quieres cambiar de modelo base (de Qwen a Llama, por ejemplo), puedes — tus datos de entrenamiento permanecen iguales.
Más importante aún, un modelo ajustado es tu propiedad intelectual. Codifica tu experiencia en el dominio, los patrones de tus usuarios y los comportamientos específicos de tu producto. Eso es una ventaja competitiva. Ningún competidor puede replicarla llamando a la misma API.
La arquitectura de IA lista para producción
Así se ve un stack de IA listo para producción para una app de Lovable:
┌────────────────────────────────────┐
│ Tu app de Lovable (Vercel/Netlify)│
│ React + Supabase │
└──────────────┬─────────────────────┘
│
▼
┌────────────────────────────────────┐
│ Tu VPS ($30/mes) │
│ ┌──────────┐ ┌────────────────┐ │
│ │ Ollama │ │ Modelo │ │
│ │ Server │──│ ajustado(GGUF)│ │
│ └──────────┘ └────────────────┘ │
└────────────────────────────────────┘
El cambio respecto a tu prototipo es quirúrgico:
- El frontend de tu app permanece exactamente igual (fue construido por Lovable — no lo toques)
- Tu ruta API que llamaba a OpenAI ahora llama a tu endpoint de Ollama
- Todo lo demás — autenticación, base de datos, lógica de negocio — permanece sin cambios
El cambio de la llamada API es típicamente una modificación de una línea:
// Antes (prototipo)
const endpoint = "https://api.openai.com/v1/chat/completions"
// Después (producción)
const endpoint = "http://tu-ip-vps:11434/v1/chat/completions"
Ollama soporta el formato de API compatible con OpenAI, así que el cuerpo de tu solicitud, headers y parseo de respuesta permanecen iguales. Lo único que cambia es la URL.
Cómo Ertas cierra la brecha
La brecha entre "sé que debería ajustar un modelo" y "tengo un modelo ajustado ejecutándose en producción" es donde la mayoría de los constructores se quedan atascados. El fine-tuning tradicionalmente requiere:
- Conocimiento de ingeniería de ML
- Acceso a GPU
- Scripts de Python
- Ajuste de hiperparámetros
- Pipelines de evaluación de modelos
- Herramientas de conversión de formato
Ertas elimina todo eso. Si puedes exportar tus registros de API y subir un archivo, puedes ajustar un modelo.
Aquí está el flujo de trabajo para un constructor de Lovable que va del prototipo a producción:
-
Exporta tus registros de API de OpenAI de las últimas semanas. Necesitas los prompts de entrada y las respuestas de la IA como pares. 200-500 ejemplos como mínimo.
-
Sube a Ertas Studio. Arrastra y suelta tu archivo JSONL o CSV. Ertas valida tus datos y te muestra una vista previa.
-
Elige un modelo base. Para la mayoría de las apps de Lovable, Qwen 2.5 7B es la opción correcta — es rápido, preciso en tareas específicas y se ejecuta en hardware asequible.
-
Entrena. Haz clic en el botón. Ertas maneja la configuración de LoRA, la selección de tasa de aprendizaje, el conteo de épocas y la división de validación. El entrenamiento toma 15-45 minutos.
-
Evalúa. Ertas te muestra comparaciones lado a lado: la salida de tu modelo ajustado vs. la salida original de GPT-4 para tus casos de prueba. Puedes ver inmediatamente si la calidad está donde necesita estar.
-
Exporta a GGUF. Un clic. Descarga un único archivo. Ese es tu modelo de producción.
-
Despliega con Ollama. Carga el archivo GGUF en tu VPS, inicia Ollama, actualiza tu endpoint de API. Listo.
Todo el proceso — desde exportar registros de API hasta tener un modelo local listo para producción — toma unas pocas horas de tu tiempo distribuidas en un día o dos (la mayor parte es esperar a que el entrenamiento se complete).
La checklist de producción
Antes de poner en marcha tu IA ejecutándose localmente, revisa esta checklist:
Infraestructura
- VPS aprovisionado con mínimo 4 vCPU, 16GB RAM
- Ollama instalado y configurado para iniciar con el arranque
- Modelo cargado y respondiendo a solicitudes de prueba
- Endpoint de Ollama asegurado (reglas de firewall, o solo red interna)
- Monitoreo configurado para VPS (CPU, memoria, disco)
Validación de calidad
- Probadas más de 50 entradas reales contra tanto OpenAI como el modelo local
- La calidad de salida iguala o supera a OpenAI para tu caso de uso
- Casos extremos manejados (entradas vacías, entradas muy largas, formatos inesperados)
- El formato de respuesta coincide con lo que tu app espera (estructura JSON, etc.)
Cambios en la aplicación
- Endpoint de API actualizado para apuntar a Ollama
- Manejo de timeouts configurado (el modelo local es más rápido, pero establece límites razonables)
- Manejo de errores para la indisponibilidad del modelo (reiniciar Ollama, o recurrir a OpenAI)
- Parseo de respuesta actualizado si es necesario (formato Ollama vs. formato OpenAI)
Monitoreo e iteración
- Registro de entradas y salidas de IA para reentrenamiento futuro
- Monitoreo de tasa de errores en endpoints de IA
- Recolección de feedback de usuarios sobre la calidad de la IA
- Plan para reentrenamiento mensual del modelo a medida que recopilas más datos
Seguimiento de costos
- Clave de API de OpenAI eliminada o degradada a solo respaldo
- Costo del VPS registrado en tu presupuesto operativo
- Suscripción de Ertas activa para fine-tuning continuo
- Costos de API del mes anterior documentados para comparación
Los números que importan
Aquí está el antes y después para una app típica de Lovable que va del prototipo a producción:
| Métrica | Prototipo (API de OpenAI) | Producción (local ajustado) |
|---|---|---|
| Costo mensual de IA (5K usuarios) | ~$600 | ~$44.50 |
| Costo mensual de IA (25K usuarios) | ~$3,000 | ~$44.50 |
| Latencia de respuesta | 2-8 segundos | 0.3-1.5 segundos |
| Dependencia de uptime | SLA de OpenAI | Tu infraestructura |
| Privacidad de datos | Procesamiento por terceros | On-premises |
| Dependencia de proveedores | Alta | Ninguna |
| Previsibilidad de costos | Variable (por token) | Fijo (mensual plano) |
La versión de producción cuesta 93% menos, responde 3-5x más rápido, mantiene los datos privados y tiene costos mensuales predecibles. Eso no es una optimización — es un modelo de negocio diferente.
Cuándo hacer el cambio
No necesitas esperar hasta que los costos duelan. El mejor momento para cambiar es cuando tienes suficientes datos para ajustar un modelo — típicamente después de 200-500 interacciones reales de usuarios con tus funciones de IA.
Algunos constructores hacen el cambio con 100 usuarios. Algunos esperan hasta 1,000. Cuanto antes cambies, más dinero ahorras — pero también necesitas suficientes datos para un buen modelo ajustado.
Una regla general razonable: si tu factura de OpenAI supera los $50/mes y va en aumento, es el momento. El costo de configuración es unas pocas horas de trabajo, y el período de recuperación es generalmente menor a un mes.
Tu prototipo de Lovable demostró que la idea funciona. Ahora haz que funcione a escala.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura adicional
- Tu app vibe-coded llegó a 10K usuarios. Ahora tu factura de IA es $3K/mes. — El desglose completo de costos para apps que escalan con precios de IA por token.
- IA auto-alojada para apps indie — Por qué los modelos auto-alojados son la opción correcta para desarrolladores indie y equipos pequeños.
- De Cursor a producción: IA sin dependencia de proveedores — Una guía paralela para constructores que usan Cursor en lugar de Lovable.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Your Lovable App Has a $600/Month Problem
Lovable makes building AI apps effortless — until your API bill arrives. Here's the cost math every Lovable builder needs to see, and the fix that keeps AI costs flat at any scale.

The Vibecoder's AI Stack: Lovable + n8n + Ertas + Ollama
The complete 2026 tech stack for builders who want AI-powered apps without per-token pricing. Build with Lovable, automate with n8n, fine-tune with Ertas, deploy with Ollama.

Fine-Tune a Support Bot for Your Lovable App (No API Costs in Production)
Build an AI support bot that actually knows your product — trained on your docs, your tickets, your tone. Then run it locally for zero ongoing API costs.