Back to blog
    Apps de Bolt.new y el Precipicio de Costos de OpenAI: Qué Pasa a Escala
    bolt-newai-costsindie-devopenaifine-tuningsegment:vibecoder

    Apps de Bolt.new y el Precipicio de Costos de OpenAI: Qué Pasa a Escala

    Bolt.new facilita agregar funciones de IA. Esto es exactamente lo que pasa con tu factura de OpenAI a medida que crecen los usuarios — y cómo reemplazarla con un modelo local ajustado a costo fijo.

    EErtas Team·

    Bolt.new es excelente para lanzar rápido. Describes lo que quieres, Bolt genera la app full-stack y estás desplegado en unas pocas horas. El código generado es limpio, la arquitectura es razonable y las funciones de IA funcionan directo.

    Pero hay un problema estructural incorporado en cada app de Bolt.new que usa OpenAI. No aparece durante el desarrollo. No aparece en el lanzamiento. Aparece alrededor del mes tres, cuando tienes unos cientos de usuarios y tu dashboard de API se ve peor cada semana.

    El Camino Feliz de Bolt.new

    Así es como las funciones de IA entran en las apps de Bolt.new. Describes tu app: "Un asistente de escritura que ayuda a los usuarios a mejorar su contenido con sugerencias de IA." Bolt genera la app, incluyendo un endpoint de backend que llama a la API de chat completions de OpenAI con tu system prompt. El código se ve algo así:

    // Generated by Bolt.new
    const response = await openai.chat.completions.create({
      model: "gpt-4o-mini",
      messages: [
        { role: "system", content: "You are a writing assistant..." },
        { role: "user", content: userContent }
      ]
    });
    

    Limpio, funcional y exactamente correcto para validar la idea. Lo lanzas, los usuarios lo prueban, el feedback es positivo. Vas a toda velocidad.

    El problema es lo que pasa después.

    Dónde Golpea la Factura

    Tracemos los números reales para una app de asistente de escritura de Bolt.new.

    Los supuestos:

    • gpt-4o-mini para eficiencia de costos
    • Solicitud promedio: 300 tokens de entrada + 400 tokens de salida = 700 tokens
    • Precios de gpt-4o-mini: $0.15/1M tokens de entrada, $0.60/1M tokens de salida
    • Costo por solicitud: ~$0.045 + $0.24 = ~$0.000285 por solicitud
    • Usuario promedio: 40 solicitudes por mes
    UsuariosSolicitudes API MensualesCosto Mensual OpenAI
    1004,000$1.14
    50020,000$5.70
    1,00040,000$11.40
    3,000120,000$34.20
    5,000200,000$57.00
    10,000400,000$114.00
    50,0002,000,000$570.00

    Estos números se ven manejables. El problema es que (a) estas son las estimaciones del mejor caso usando el modelo más barato capaz, y (b) el costo escala linealmente mientras que el crecimiento de usuarios es el objetivo.

    Si estás construyendo algo con funciones de mayor valor (GPT-4o en lugar de gpt-4o-mini, prompts más largos, llamadas más frecuentes), multiplica estos números por 10-20x.

    Para una app en producción más realista usando GPT-4o a 700 tokens por solicitud:

    • $2.50/1M entrada, $10.00/1M salida
    • Costo por solicitud: ~$0.00175 + $0.004 = ~$0.0058
    • Con 10,000 usuarios x 40 solicitudes/mes: $2,320/mes

    Ese es el precipicio de costos.

    Por Qué Bolt.new Empeora Esto

    La velocidad de Bolt.new hace que sea peligrosamente fácil agregar funciones de IA en todas partes. Escribes: "Agrega un resumen de IA a cada vista del dashboard." Bolt lo agrega. "Agrega sugerencias impulsadas por IA en la barra lateral." Bolt lo agrega. "Haz que la barra de búsqueda use IA para entender la intención." Bolt lo agrega.

    Cada adición es otra llamada API por sesión de usuario. Para cuando tu app está pulida, podrías tener 4-6 puntos de contacto de IA por usuario por sesión. Cada uno es otro costo de escalamiento lineal.

    La facilidad de adición se convierte en una responsabilidad a escala. Has construido una app donde la IA está profundamente integrada — lo cual es genial para UX, terrible para los márgenes.

    La Solución: Ajusta Una Vez, Ejecuta Localmente

    La solución es reemplazar la llamada a la API de OpenAI con un modelo local ajustado. La calidad es equivalente para tu caso de uso específico; la estructura de costos es fundamentalmente diferente.

    Aquí está el proceso:

    Paso 1: Recolecta datos de entrenamiento de tus logs de API existentes.

    Si tu app ha estado funcionando durante 2-4 semanas con usuarios reales, tienes los datos que necesitas. Exporta tus logs de llamadas API y extrae los pares de entrada/salida. Filtra los casos donde los usuarios interactuaron con la salida de IA (no reintentaron inmediatamente, continuaron usando la app). Formatea como JSONL:

    {"instruction": "Improve the following paragraph for clarity:", "input": "user paragraph here", "output": "improved paragraph here"}
    

    Apunta a 400-800 ejemplos. La calidad importa más que la cantidad.

    Paso 2: Ajusta en Ertas (30-90 minutos).

    Sube el JSONL a Ertas, selecciona Qwen 2.5 7B como modelo base, configura los ajustes de entrenamiento. La interfaz visual maneja el resto. El entrenamiento toma 45-90 minutos. Descarga el archivo GGUF.

    Paso 3: Despliega Ollama en un VPS.

    Levanta un Hetzner CX32 o CX42 ($14-26/mes). Instala Ollama, crea un Modelfile para tu GGUF, comienza a servir.

    Paso 4: Actualiza el código de tu app de Bolt.new.

    Esta es la parte que sorprende a la mayoría de los desarrolladores: a menudo es un cambio de una línea. Ollama sirve una API compatible con OpenAI. Actualiza el baseURL en tu cliente de OpenAI:

    // Before (OpenAI):
    const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
    
    // After (Ollama — one line changes):
    const openai = new OpenAI({
      apiKey: "not-needed", // Ollama doesn't require auth by default
      baseURL: "http://your-vps-ip:11434/v1",
    });
    
    // The rest of your code stays exactly the same
    const response = await openai.chat.completions.create({
      model: "my-fine-tuned-model", // your model name in Ollama
      messages: [...],
    });
    

    Tu código generado por Bolt.new existente funciona sin cambios. Solo se actualiza la configuración del cliente.

    Costo Después de la Migración

    EscenarioAPI de OpenAI (Mensual)Ertas + VPS (Mensual)
    1,000 usuarios$11-115$40.50
    5,000 usuarios$57-580$40.50
    10,000 usuarios$114-1,160$40.50
    50,000 usuarios$570-5,800$66.50 (VPS más grande)

    Los costos del modelo local ajustado: $14.50/mes (Ertas Builder, Early Bird) + $26/mes (VPS). Total: $40.50/mes independientemente del volumen de solicitudes.

    Punto de equilibrio: Para una app usando gpt-4o-mini con uso moderado, el punto de equilibrio es alrededor de 500-700 usuarios. Para gpt-4o con mayor uso, el punto de equilibrio puede ser menor a 100 usuarios.

    ¿Sufrirá la Calidad?

    Para tareas estrechas y específicas del dominio — que es lo que casi siempre son las funciones de IA de Bolt.new — no. Un modelo de 7B ajustado con 500-800 ejemplos de tu tarea específica funcionará al 90-95% de la precisión de GPT-4 en esa tarea.

    La advertencia: si tu app requiere razonamiento amplio, escritura creativa de alto nivel, o tareas que genuinamente necesitan inteligencia de modelo de frontera, el compromiso es diferente. La mayoría de las funciones de IA de Bolt.new son extracción, clasificación, resumen o coincidencia de estilo — todas tareas donde los modelos pequeños ajustados destacan.

    Puedes verificar antes de comprometerte: usa las herramientas de evaluación de Ertas para comparar tu modelo ajustado contra un conjunto de prueba retenido, con las salidas de GPT-4 como referencia. Si la calidad está dentro del rango aceptable, lanza la migración.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura Adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading