Back to blog
    Fine-Tuning vs Prompt Engineering para Apps Móviles
    fine-tuningprompt engineeringmobile AIcost optimizationsegment:mobile-builder

    Fine-Tuning vs Prompt Engineering para Apps Móviles

    Prompt engineering es rápido y flexible. Fine-tuning es preciso y barato a escala. Esta es la comparación práctica para desarrolladores móviles decidiendo entre ambos enfoques.

    EErtas Team·

    Prompt engineering es la primera herramienta a la que recurre todo desarrollador. Escribe un system prompt que le diga al modelo cómo comportarse, qué generar y qué evitar. Funciona sorprendentemente bien para prototipos.

    Fine-tuning es la segunda herramienta, usada cuando el prompting alcanza sus límites. Entrena al modelo con ejemplos del comportamiento exacto que deseas. Requiere más trabajo inicial pero ofrece mejores resultados a menor costo.

    Para apps móviles, la elección tiene implicaciones más allá de la precisión. Prompt engineering requiere system prompts largos enviados en cada llamada a la API (costo). Fine-tuning integra las instrucciones en los pesos del modelo (gratis en el momento de la inferencia).

    Prompt Engineering: El camino rápido

    Cómo funciona

    Escribes un system prompt que instruye al modelo:

    Eres un asistente de cocina para RecipeApp. Cuando los usuarios
    pregunten sobre recetas, proporciona instrucciones paso a paso.
    Siempre incluye tiempo de preparación y tiempo de cocción. Formatea
    los ingredientes como lista con viñetas. Mantén las respuestas por
    debajo de 200 palabras. Nunca sugieras recetas que incluyan
    alérgenos sin advertencia. Si el usuario pregunta sobre temas que
    no son de cocina, redirige amablemente hacia la cocina.
    

    Este prompt se envía con cada llamada a la API. El modelo sigue (la mayoría de) estas instrucciones la mayor parte del tiempo.

    Fortalezas

    • Velocidad: Minutos para escribir y probar
    • Flexibilidad: Cambia el comportamiento editando texto
    • No requiere datos de entrenamiento: Funciona con cero ejemplos
    • Sin infraestructura: Solo llamadas a la API
    • Velocidad de iteración: Prueba un nuevo prompt en segundos

    Debilidades

    • Costo de tokens: Tu system prompt de 800-1,500 tokens se cobra en cada solicitud. Con 10K MAU y 90K solicitudes diarias, eso son 72-135 millones de tokens extra por mes.
    • Inconsistencia: El modelo sigue las instrucciones de forma probabilística. La adherencia típica es del 70-85%. Los casos extremos se escapan.
    • Conocimiento de dominio limitado: El modelo solo sabe lo que está en el prompt. No puedes meter tu catálogo completo de productos en un system prompt.
    • Vulnerabilidad a inyección de prompts: Los usuarios a veces pueden anular las instrucciones del system prompt.
    • Techo de precisión: Ninguna cantidad de prompt engineering puede enseñar a un modelo general tu terminología de dominio específica, estilo o casos extremos.

    Fine-Tuning: El camino preciso

    Cómo funciona

    Creas ejemplos del comportamiento exacto de entrada-salida que deseas:

    {"messages": [
      {"role": "user", "content": "Receta rápida de pasta para una persona"},
      {"role": "assistant", "content": "**Pasta al Ajo Express**\n\nPrep: 5 min | Cocción: 12 min\n\n- 100g de espagueti\n- 2 dientes de ajo picados\n- 2 cdas de aceite de oliva\n- Hojuelas de chile\n- Parmesano\n\n1. Hervir la pasta en agua con sal\n2. Saltear el ajo en aceite de oliva (2 min)\n3. Mezclar la pasta escurrida con el aceite de ajo\n4. Cubrir con hojuelas de chile y parmesano"}
    ]}
    

    Entrena el modelo con 500-5,000 ejemplos similares. El modelo aprende tu formato, estilo, conocimiento de dominio y manejo de casos extremos.

    Fortalezas

    • Precisión: 90-96% en tareas de dominio vs 70-85% con prompting
    • Sin system prompt necesario: Las instrucciones están en los pesos. Cero tokens extra por solicitud.
    • Conocimiento de dominio: El modelo conoce tu producto, terminología y estilo
    • Consistencia: Las respuestas siguen el formato entrenado de forma confiable
    • Despliegue en dispositivo: Los modelos con fine-tuning se ejecutan localmente. Sin costo de API, sin latencia, sin dependencia de red.
    • Resistencia a inyección de prompts: El comportamiento está en los pesos, no en una instrucción de texto que se puede anular

    Debilidades

    • Tiempo inicial: La preparación de datos de entrenamiento toma horas a días
    • Costo de entrenamiento: $5-50 por ejecución de fine-tuning (una sola vez)
    • Menos flexible: Cambiar el comportamiento requiere reentrenar
    • Requisito de datos: Mínimo 200-500 ejemplos de calidad

    Comparación directa

    Precisión en tareas de dominio

    MétricaGPT-4o con promptGPT-4o-mini con promptFine-Tuned 3BFine-Tuned 1B
    Precisión de clasificación80-85%71-78%93-96%90-94%
    Adherencia al formato85-90%75-85%95-98%92-96%
    Uso de terminología de dominio60-70%50-60%95%+90%+
    Manejo de casos extremos65-75%55-65%85-92%80-88%

    Fine-tuning supera consistentemente al prompting en métricas específicas de dominio. La brecha más grande está en adherencia al formato y terminología de dominio, donde fine-tuning fija exactamente los patrones que necesitas.

    Costo por mes (10K MAU, 90K solicitudes diarias)

    EnfoqueCosto de tokensInfraestructuraTotal mensual
    GPT-4o con prompt$5,625+Solo API$5,625+
    GPT-4o-mini con prompt$338+Solo API$338+
    Gemini Flash con prompt$225+Solo API$225+
    Fine-tuned 3B (en dispositivo)$0CDN para entrega del modelo~$10-50
    Fine-tuned 1B (en dispositivo)$0CDN para entrega del modelo~$10-50

    Fine-tuning tiene un costo único ($5-50 por ejecución de entrenamiento). Después del despliegue, el costo por inferencia es cero. El costo mensual es solo el ancho de banda CDN para descargas del modelo por nuevos usuarios.

    Latencia

    EnfoqueTiempo hasta el primer token
    API en la nube (cualquier modelo)500-2,000ms
    Fine-tuned en dispositivo 1B80-150ms
    Fine-tuned en dispositivo 3B150-300ms

    Cuándo gana cada uno

    Prompt engineering gana cuando:

    • Estás prototipando y no sabes si los usuarios quieren la función
    • La tarea es general (no específica de dominio)
    • No tienes datos de entrenamiento
    • El comportamiento necesita cambiar semanalmente
    • El número de usuarios es muy bajo (menos de 500 MAU)

    Fine-tuning gana cuando:

    • Has validado la función y estás escalando
    • La tarea es específica de dominio (tu producto, tu terminología, tu formato)
    • La precisión importa (clasificación, extracción, contenido sensible al cumplimiento)
    • Tienes más de 500 ejemplos del comportamiento deseado (o puedes crearlos)
    • El costo, la latencia, el soporte offline o la privacidad importan

    La ruta de migración

    Los dos enfoques no son mutuamente excluyentes. Son secuenciales:

    1. Empieza con prompt engineering. Construye la función rápido. Valida el interés del usuario. Lanza con una API en la nube.

    2. Recopila datos de entrenamiento. Cada llamada a la API con tus prompts genera un par de entrada-salida. Los logs de tu API con prompt engineering se convierten en tu dataset de fine-tuning.

    3. Haz fine-tuning cuando la señal sea clara. Cuando sabes que los usuarios quieren la función, cuando tu prompt es estable, cuando el costo o la latencia importan, haz fine-tuning de un modelo pequeño con tus datos recopilados.

    4. Despliega en el dispositivo. Exporta GGUF, distribúyelo a los usuarios. El system prompt desaparece. La precisión mejora. El costo baja a cero.

    Plataformas como Ertas hacen accesible el paso de fine-tuning: sube tus datos de entrenamiento (que pueden venir directamente de los logs de tu API), selecciona un modelo base, entrena con LoRA, exporta GGUF. La infraestructura de fine-tuning se gestiona por ti.

    El pipeline de Prompt a Fine-Tune

    Los logs de tu API son una mina de oro. Cada entrada de log contiene:

    • La entrada del usuario (entrada de entrenamiento)
    • El system prompt (codificado implícitamente en la salida esperada)
    • La salida del modelo (salida de entrenamiento, después de filtrar calidad)

    Filtra las salidas de alta calidad (donde el modelo siguió tus instrucciones correctamente), formatea como ejemplos de entrenamiento, y tienes un dataset de fine-tuning. Cuanto mejor haya sido tu prompt engineering, mejores serán tus datos de fine-tuning.

    Por eso los dos enfoques se complementan. Buenos prompts crean buenos datos de entrenamiento. Buenos datos de entrenamiento crean un modelo que ya no necesita prompts.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading