Cada herramienta principal de vibe-coding tiene el mismo problema. No está en su marketing. No aparece durante la demo. Aparece tres meses después de que lanzas, cuando tu app tiene usuarios reales, y tu dashboard de OpenAI parece una pista de esquí yendo en la dirección equivocada.

El patrón es universal: fase de construcción barata, fase de escala brutal.

Esta guía cubre cada plataforma principal de vibecoder — Lovable, Bolt.new, Cursor, Replit, Windsurf, v0 y Bubble — mapea cuándo el problema de costos golpea en cada una, y explica la solución que funciona en todas.

El Patrón Universal de Costos de AI

Antes de las especificidades por plataforma, el patrón merece explicación porque atrapa a la mayoría de los constructores desprevenidos.

Cuando construyes tu app, eres el único usuario. Ejecutas 50-100 consultas de prueba. La factura de OpenAI es $2-10. Se siente bien. Lanzas. Ganas tracción. A 100 usuarios, la factura es $15-30. Todavía bien. A 500 usuarios, es $75-150. Incómodo pero manejable. A 2,000 usuarios, es $600-1,200. Ahora tienes un problema real: tus funciones de AI cuestan más que toda tu infraestructura combinada, y los costos escalan linealmente con los usuarios mientras los ingresos no.

Las matemáticas subyacentes: una función típica de AI (chat, resumen, clasificación, extracción) usa 200-1,000 tokens por solicitud. A los precios de OpenAI, eso es $0.0002-$0.002 por solicitud. A 100 solicitudes/usuario/mes a través de 2,000 usuarios, estás ejecutando 200,000 solicitudes a $40-$400/mes. A 10,000 usuarios: $200-$2,000/mes.

Este es el precipicio de costos. Cada plataforma en esta guía produce apps que lo alcanzan.

La Solución Que Funciona en Todas las Plataformas

La solución es la misma independientemente de qué herramienta usaste para construir:

Recopila tus interacciones de AI existentes como datos de entrenamiento (pares entrada-salida en formato JSONL)
Ajusta un modelo local pequeño (7B-14B parámetros) con estos datos usando Ertas — toma 30-90 minutos
Exporta como GGUF y ejecútalo localmente con Ollama en un VPS de $26/mes
Actualiza el endpoint de API de tu app de api.openai.com a tu instancia local de Ollama

Ollama es compatible con OpenAI. El cambio de endpoint es usualmente un cambio de una línea en tu código. El costo mensual de inferencia se vuelve cero por token — solo el costo fijo del VPS.

El modelo ajustado iguala o supera la precisión de GPT-4 para tu caso de uso estrecho específico porque ha sido entrenado exactamente en tu tarea. Los LLMs genéricos son excesivos para la mayoría de las funciones de tarea estrecha de SaaS.

Plataforma por Plataforma

Lovable

Lovable es donde vas de prompt a app full-stack en horas. Las funciones de AI que agregas a una app de Lovable son típicamente llamadas de API de OpenAI en el código backend generado.

Cuándo golpea el costo: La velocidad de Lovable hace fácil agregar funciones de AI a cada flujo de trabajo. Más funciones = más llamadas de API = costos compuestos. Las apps de Lovable frecuentemente tienen 3-5 puntos de contacto de AI por sesión de usuario.

La solución: Exporta más de 300 pares de entrada/salida de tus logs de backend de Lovable, ajusta en Ertas, ejecuta Ollama. El código generado por Lovable usa el SDK de OpenAI — cambia el baseURL para apuntar a tu instancia de Ollama. Recorrido completo: Problema de Costos de AI de App Lovable

Punto de equilibrio: A ~800 usuarios activos mensuales haciendo más de 30 llamadas de AI cada uno.

Bolt.new

Bolt.new construye apps similares a Lovable pero con ligeramente más control del desarrollador. El código generado típicamente usa el SDK de OpenAI o llamadas fetch directas a la API.

Cuándo golpea el costo: Las apps de Bolt.new tienden a tener menor frecuencia de llamadas de API que las de Lovable (menos puntos de contacto de AI por defecto) pero el mismo problema de escalamiento. A más de 1,000 usuarios con cualquier función de AI, la factura se vuelve significativa.

La solución: Bolt.new genera código legible y limpio. Encontrar y reemplazar el endpoint de API de OpenAI es directo. La migración a un endpoint local de Ollama toma 15-30 minutos de cambio de código después de que el modelo está entrenado. Recorrido completo: Problema de Costos de AI de Bolt.new

Punto de equilibrio: A ~600-1,000 usuarios activos mensuales.

Cursor

Los usuarios de Cursor construyen con más control de código que los usuarios de Lovable/Bolt, así que sus integraciones de AI son más intencionales. Pero Cursor también hace muy fácil agregar funciones de AI usando los patrones del SDK de OpenAI que sugiere por defecto.

Cuándo golpea el costo: Las apps construidas con Cursor tienden a ser más complejas y frecuentemente tienen AI embebido más profundamente en los flujos de trabajo principales. Cuando el AI es una función crítica (no un extra), el uso por usuario es mayor, y el costo golpea antes.

La solución: Porque las apps de Cursor son bases de código propiamente dichas, la migración es limpia. Refactoriza la inicialización del cliente de OpenAI para apuntar a un endpoint local de Ollama. Ajusta en tu tarea específica. Recorrido completo: Cursor a Producción Sin Dependencia de Proveedor

Punto de equilibrio: Varía ampliamente dependiendo de la complejidad de la función. Generalmente 500-1,500 MAU.

Replit

Las apps de Replit están siempre activas por defecto. Esto introduce un problema específico de costos de AI: procesos en segundo plano, tareas programadas y mecanismos de keep-alive pueden estar haciendo llamadas de API incluso sin usuarios activos.

Cuándo golpea el costo: Antes que la mayoría de las plataformas debido al modelo de despliegue siempre activo. Las apps de Replit pueden acumular costos de AI de procesos en segundo plano antes de que siquiera tengan tráfico de usuarios significativo.

La solución: Audita tu app de Replit por llamadas de AI en segundo plano antes de arreglar el problema de escala. Luego sigue el mismo patrón: ajusta, exporta GGUF, apunta a VPS externo de Ollama. Recorrido completo: Costos de AI de App Replit

Punto de equilibrio: Frecuentemente tan temprano como 200-400 MAU debido a la sobrecarga de llamadas en segundo plano.

Windsurf

Windsurf (de Codeium) es un potente editor de código asistido por AI. Las apps construidas con Windsurf siguen patrones de codificación estándar, con funciones de AI usualmente implementadas vía el SDK de OpenAI o similar.

Cuándo golpea el costo: Mismo patrón que Cursor — las apps construidas con Windsurf tienden a ser más sofisticadas, así que el AI frecuentemente está más profundo en el stack y es más difícil de extraer. Pero la misma ruta de migración aplica.

La solución: La salida de código limpia de Windsurf hace la refactorización directa. El cambio de endpoint de API es igual que cualquier base de código Python/JavaScript. Recorrido completo: Configuración de Modelo Ajustado con Windsurf

v0 de Vercel

v0 genera componentes React desplegados en Vercel. El SDK de AI de Vercel es la elección natural para funciones de AI en apps de v0, y es compatible con OpenAI por diseño.

Cuándo golpea el costo: El SDK de AI de Vercel hace fácil agregar funciones de AI con streaming, lo que tiende a incrementar el uso de tokens por sesión. A escala, las respuestas en streaming son más caras que las respuestas de llamada única.

La solución: El SDK de AI de Vercel soporta endpoints de API personalizados. Apúntalo a una instancia de Ollama sirviendo tu modelo ajustado. La implementación de streaming funciona sin cambios — Ollama soporta streaming SSE en el mismo formato. Recorrido completo: Reducción de Costos de AI de v0

Punto de equilibrio: A ~700-1,200 MAU para uso típico de funciones.

Bubble

Bubble es no-code, así que las integraciones de AI suceden vía el API Connector o plugins oficiales. El plugin de OpenAI para Bubble llama a la API en cada disparador de flujo de trabajo.

Cuándo golpea el costo: Los flujos de trabajo de Bubble pueden dispararse frecuentemente — al cargar la página, en acciones del usuario, al crear registros. Los disparadores de alta frecuencia multiplican los costos de AI rápidamente.

La solución: El API Connector de Bubble puede llamar cualquier endpoint compatible con OpenAI, incluyendo una instancia de Ollama ejecutándose localmente. Este es un cambio de configuración, no un cambio de código. Recorrido completo: AI en Bubble Sin Costos de API

Punto de equilibrio: A ~400-800 MAU dependiendo de la frecuencia de disparadores de flujo de trabajo.

Comparación de Costos por Plataforma

Plataforma	Uso Típico de Función AI	Precipicio de Costos Comienza En	Costo Mensual a 5K Usuarios (API)	Costo Mensual a 5K Usuarios (Local Ajustado)
Lovable	Alto (múltiples puntos de contacto)	~500 MAU	$400-900	$40/mes fijo
Bolt.new	Medio	~700 MAU	$250-600	$40/mes fijo
Cursor	Alto (funciones intencionales)	~400 MAU	$400-1,200	$40/mes fijo
Replit	Medio + sobrecarga en segundo plano	~200 MAU	$300-800	$40/mes fijo
Windsurf	Alto	~500 MAU	$400-1,000	$40/mes fijo
v0	Medio-Alto (streaming)	~700 MAU	$350-900	$40/mes fijo
Bubble	Variable (dependiente de disparadores)	~300-500 MAU	$200-700	$40/mes fijo

El Plan de Migración de Fin de Semana

Independientemente de en qué plataforma esté tu app, la migración sigue los mismos cuatro pasos:

Paso 1 (1-2 horas): Recopilar datos de entrenamiento. Exporta tus logs de interacción de AI como JSONL. La mayoría de las plataformas registran las llamadas de API; tu base de datos backend probablemente tiene salidas almacenadas. Apunta a más de 500 pares de entrada/salida. Ertas valida tu dataset y te dice si la calidad es suficiente.

Paso 2 (2-4 horas incluyendo espera de entrenamiento): Fine-tune. Sube a Ertas, selecciona Qwen 2.5 7B o Llama 3.1 8B, configura el entrenamiento. El entrenamiento toma 30-90 minutos. Evalúa los resultados contra un conjunto de prueba retenido. La calidad debería coincidir con tu API actual para tareas específicas del dominio.

Paso 3 (1 hora): Desplegar Ollama. Levanta un VPS Hetzner CX32 ($14/mes) o CX42 ($26/mes). Instala Ollama, carga tu archivo GGUF. Confirma que la API compatible con OpenAI está respondiendo.

Paso 4 (30 minutos): Actualizar tu app. Cambia el endpoint de API de api.openai.com a la IP de tu VPS. Cambia la clave de API si es necesario (Ollama no tiene autenticación por defecto; agrega un proxy inverso si tu VPS es público). Prueba. Despliega.

Tiempo activo total: 4-8 horas. Cambio de costo total: de gasto lineal de API a infraestructura fija.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura Adicional

Costos de AI de App Vibe-Coded Escalando — El desglose completo de lo que pasa a 10K usuarios
Arquitectura de AI a Costo Fijo para Apps Indie — Diseñando para costos de AI sub-lineales desde el inicio
Un Modelo 7B Supera a la Llamada de API — Cuándo los modelos pequeños ajustados superan a las APIs en la nube
AI Auto-Hospedado para Apps Indie — El lado de infraestructura de ejecutar modelos localmente
Ajusta AI Sin Código — El flujo de trabajo de fine-tuning de Ertas de principio a fin

Guía de Costos de AI para Vibecoders: Todas las Plataformas Cubiertas (2026)