Back to blog
    Tu App Vibe-Coded Llegó a 1,000 Usuarios — ¿Y Ahora Qué?
    vibe-codingscalingcost-reductionindie-devsegment:vibecoder

    Tu App Vibe-Coded Llegó a 1,000 Usuarios — ¿Y Ahora Qué?

    Lanzaste rápido con Cursor y Bolt. A los usuarios les encanta. Pero tu factura de OpenAI acaba de cruzar los $200/mes y sigue subiendo. Aquí está la guía de supervivencia de costos para apps vibe-coded que alcanzan escala real.

    EErtas Team·

    Lo lograste. Lanzaste algo, la gente lo usa, y el contador de usuarios acaba de pasar los 1,000. Quizás lo construiste en un fin de semana con Cursor y Bolt. Quizás Lovable armó el frontend mientras tú conectabas la API de OpenAI para las partes inteligentes. De cualquier forma — funciona. La gente se está registrando. Puede que incluso tengas clientes que pagan.

    Entonces abres tu dashboard de OpenAI y ves el número: $200/mes. Y era $80 el mes pasado. Y $30 el mes anterior.

    Bienvenido al momento de los 1,000 usuarios. Aquí es donde tu proyecto personal se convierte en un producto real con costos reales, y las decisiones que tomes ahora determinan si esta cosa sobrevive.

    La Curva de Costos de 1,000 Usuarios

    Seamos específicos. Así se ve una app vibe-coded típica con 1,000 usuarios activos mensuales. Asumiremos una carga de trabajo de AI moderada — algo como una herramienta de escritura, un asistente de código, o una función de chatbot.

    MétricaValor Típico
    Usuarios activos mensuales1,000
    Solicitudes de AI promedio por usuario/día8-12
    Tokens de entrada promedio por solicitud600-1,200
    Tokens de salida promedio por solicitud200-500
    Solicitudes diarias totales de AI~10,000
    Volumen mensual de tokens~450M entrada, ~100M salida

    Con precios de GPT-4o ($2.50/1M entrada, $10/1M salida), eso es aproximadamente $112/mes en el mejor caso. Pero esto es lo que la hoja de cálculo no te dice:

    • Tu 20% superior de usuarios genera el 60% de tus tokens. Los usuarios avanzados son los que más aman tu producto — y los que más te cuestan.
    • Las cadenas de prompts multiplican todo. Si tu función "inteligente" hace 3 llamadas de API por acción del usuario, triplica esos números.
    • Las ventanas de contexto crecen. La primera semana, tus prompts promedian 600 tokens. Para el mes tres, los usuarios tienen historial, preferencias y contexto de conversación. Ahora estás en más de 1,500 tokens por solicitud.

    Total realista a 1,000 MAU con estos factores: $180-$280/mes. Y creciendo aproximadamente linealmente con los usuarios.

    Eso puede no sonar fatal. Pero si estás cobrando $9.99/mes y solo el 15% de tus usuarios están pagando, tus costos de AI están consumiendo el 120-180% de tus ingresos. Literalmente estás pagándole a la gente para usar tu app.

    Los Tres Caminos (Y Por Qué la Mayoría de los Vibecoders Elige el Equivocado)

    Cuando la factura de API llega a territorio incómodo, la mayoría de los desarrolladores indie ven tres opciones:

    Camino 1: Subir precios. Lógico, pero da miedo. Trabajaste duro para conseguir estos 1,000 usuarios. Subir de $9.99 a $19.99 puede arreglar la economía, pero perderás usuarios. Y las matemáticas se rompen de nuevo a 5,000 usuarios de todos modos.

    Camino 2: Agregar límites de uso. Este es el que la mayoría elige. Limita a los usuarios gratuitos a 20 solicitudes de AI por día. Agrega un modal de "has alcanzado tu límite." Quizás agrega un nivel premium con límites más altos.

    Esto es generalmente la respuesta equivocada: estás castigando a tus mejores usuarios. Las personas que alcanzan los límites son las que aman tu producto. Los límites de uso crean frustración exactamente donde deberías crear satisfacción. Y sigues pagando por token — solo has trasladado el dolor de tu billetera a la experiencia de tus usuarios.

    Camino 3: Reducir tus costos reales. Este es el que escala. En lugar de pagar $0.01 por interacción a OpenAI, pagas una tarifa mensual fija que no crece con el uso. ¿Cómo? Fine-tuning.

    El Camino del Fine-Tuning: Cómo Se Ve Realmente

    Si nunca has hecho fine-tuning a un modelo, suena intimidante. No lo es. Especialmente no en 2026. Esto es lo que realmente haces.

    Paso 1: Exporta Tus Logs de API

    Has estado enviando solicitudes a OpenAI durante semanas o meses. Esos son datos de entrenamiento. Cada par de entrada-salida que tu app ha generado es un ejemplo de exactamente lo que necesitas que tu modelo haga.

    La mayoría de las configuraciones del SDK de OpenAI te permiten registrar solicitudes. Si no has estado registrando, comienza ahora — incluso 2 semanas de logs a tu volumen actual te dan miles de ejemplos.

    Necesitas aproximadamente 1,500-3,000 ejemplos de alta calidad para un fine-tune sólido. A 10,000 solicitudes por día, eso es menos de un solo día de datos. Pero sé selectivo — elige los ejemplos donde la salida fue realmente buena.

    Paso 2: Limpia y Formatea los Datos

    Tus datos de entrenamiento deben ser pares de entrada-salida en formato JSONL. Cada línea se ve así:

    {"input": "the prompt your app sent", "output": "the response that came back"}
    

    Elimina los prompts del sistema que referencian OpenAI específicamente. Elimina cualquier ejemplo donde la salida fue claramente incorrecta o donde el usuario se quejó. Calidad sobre cantidad — 2,000 ejemplos limpios superan a 10,000 desordenados.

    Paso 3: Elige un Modelo Base

    Para la mayoría de las apps vibe-coded, un modelo de 7B-8B parámetros es el punto ideal:

    • Llama 3.3 8B: Gran rendimiento de propósito general. Razonamiento más fuerte en la clase 8B.
    • Qwen 2.5 7B: Excelente para tareas multilingües o salida estructurada.
    • Phi-4 (3.8B): Si tu tarea es simple y quieres máxima velocidad.

    Un modelo 7B ajustado con tus datos igualará o superará a GPT-4o en tu tarea específica aproximadamente el 85% del tiempo. Eso no es hype — es el resultado consistente que vemos entre los usuarios de Ertas.

    Paso 4: Haz Fine-Tune

    Con Ertas, esto son genuinamente unos pocos clics. Sube tu dataset JSONL a Vault. Selecciona tu modelo base. Configura tu ejecución de entrenamiento LoRA (los valores predeterminados funcionan bien para la mayoría de los casos). Presiona entrenar. Ve a prepararte un café.

    El entrenamiento típicamente toma 30-90 minutos dependiendo del tamaño del dataset y modelo base. Obtendrás métricas de evaluación mostrando cómo tu modelo ajustado rinde contra ejemplos de prueba retenidos.

    Paso 5: Exporta y Despliega

    Exporta tu modelo como un archivo GGUF (la cuantización Q5_K_M es el punto ideal — pérdida de calidad insignificante, archivo mucho más pequeño). Descárgalo. Colócalo en un VPS ejecutando Ollama.

    Tu app ahora habla con localhost:11434 en lugar de api.openai.com. El formato de API es compatible con OpenAI, así que estás cambiando una URL y una clave de API en tu código. Quizás 5 líneas de configuración.

    El Antes y Después

    Aquí está la parte que importa — lo que esto le hace a tus costos:

    Antes (API)Después (Ajustado)
    Costo mensual de AI a 1K MAU$180-$280$44.50
    Costo mensual de AI a 5K MAU$900-$1,400$44.50
    Costo mensual de AI a 10K MAU$1,800-$2,800$44.50
    Modelo de costosPor token (escala con usuarios)Fijo (servidor + suscripción Ertas)

    Esos $44.50 son tu plan Ertas Builder ($14.50/mes) más un VPS ARM de Hetzner ($30/mes). Maneja hasta aproximadamente 50,000 solicitudes por día en un modelo 7B. Eso es suficiente para 5,000-10,000 MAU dependiendo de la intensidad de uso.

    Tus costos acaban de convertirse en una línea plana en lugar de un palo de hockey.

    Lo Que Se Queda en la API

    Seamos honestos — el fine-tuning no reemplaza todo. Mantén la API para:

    • Casos extremos que necesitan razonamiento de modelo frontier (análisis complejo multi-paso, escritura creativa con matices)
    • Nuevas funciones que aún estás prototipando (usa la API para validar, luego haz fine-tuning cuando la función se estabilice)
    • Respaldo para cuando la calidad de respuesta de tu modelo cae por debajo de un umbral

    Un enfoque híbrido funciona bien: enruta el 80-90% de las solicitudes a tu modelo ajustado, mantén el 10-20% en la API para lo difícil. Incluso esta migración parcial reduce tu factura un 70-80%.

    Tus Costos Se Estabilizan en Lugar de Subir

    Este es el cambio real. Cuando estás en APIs por token, cada nuevo usuario es un nuevo costo. El crecimiento es una amenaza financiera. Te encuentras esperando que los usuarios no usen tu producto demasiado.

    Con un modelo ajustado en un servidor de costo fijo, el crecimiento es simplemente... crecimiento. El usuario 1,001 te cuesta exactamente $0 extra. El usuario 5,000 te cuesta $0 extra. Eventualmente necesitas mejorar el servidor, pero eso es una función escalonada — $30/mes a $80/mes cuando necesitas más capacidad — no un drenaje continuo.

    Dejas de temer la factura de OpenAI. Empiezas a pensar en funciones en lugar de límites. Ese es el espacio mental donde se construyen buenos productos.

    El Proyecto de Este Fin de Semana

    Lanzaste tu app en un fin de semana. Puedes migrarla en un fin de semana también.

    1. Viernes por la noche: Exporta tus logs de API. Formatéalos como JSONL. Sube a Ertas.
    2. Sábado por la mañana: Ajusta en Llama 3.3 8B. Mientras entrena, levanta un VPS de Hetzner de $30 e instala Ollama.
    3. Sábado por la tarde: Descarga tu modelo GGUF, cárgalo en Ollama, pruébalo contra los prompts reales de tu app.
    4. Domingo: Actualiza la configuración de tu app para apuntar a tu VPS. Despliega. Observa cómo el dashboard de OpenAI se aplana.

    Ya demostraste que puedes construir rápido. Ahora demuestra que puedes construir de forma sostenible.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura Adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading