
Fine-Tuning vs Prompt Engineering para Apps Móviles
Prompt engineering es rápido y flexible. Fine-tuning es preciso y barato a escala. Esta es la comparación práctica para desarrolladores móviles decidiendo entre ambos enfoques.
Prompt engineering es la primera herramienta a la que recurre todo desarrollador. Escribe un system prompt que le diga al modelo cómo comportarse, qué generar y qué evitar. Funciona sorprendentemente bien para prototipos.
Fine-tuning es la segunda herramienta, usada cuando el prompting alcanza sus límites. Entrena al modelo con ejemplos del comportamiento exacto que deseas. Requiere más trabajo inicial pero ofrece mejores resultados a menor costo.
Para apps móviles, la elección tiene implicaciones más allá de la precisión. Prompt engineering requiere system prompts largos enviados en cada llamada a la API (costo). Fine-tuning integra las instrucciones en los pesos del modelo (gratis en el momento de la inferencia).
Prompt Engineering: El camino rápido
Cómo funciona
Escribes un system prompt que instruye al modelo:
Eres un asistente de cocina para RecipeApp. Cuando los usuarios
pregunten sobre recetas, proporciona instrucciones paso a paso.
Siempre incluye tiempo de preparación y tiempo de cocción. Formatea
los ingredientes como lista con viñetas. Mantén las respuestas por
debajo de 200 palabras. Nunca sugieras recetas que incluyan
alérgenos sin advertencia. Si el usuario pregunta sobre temas que
no son de cocina, redirige amablemente hacia la cocina.
Este prompt se envía con cada llamada a la API. El modelo sigue (la mayoría de) estas instrucciones la mayor parte del tiempo.
Fortalezas
- Velocidad: Minutos para escribir y probar
- Flexibilidad: Cambia el comportamiento editando texto
- No requiere datos de entrenamiento: Funciona con cero ejemplos
- Sin infraestructura: Solo llamadas a la API
- Velocidad de iteración: Prueba un nuevo prompt en segundos
Debilidades
- Costo de tokens: Tu system prompt de 800-1,500 tokens se cobra en cada solicitud. Con 10K MAU y 90K solicitudes diarias, eso son 72-135 millones de tokens extra por mes.
- Inconsistencia: El modelo sigue las instrucciones de forma probabilística. La adherencia típica es del 70-85%. Los casos extremos se escapan.
- Conocimiento de dominio limitado: El modelo solo sabe lo que está en el prompt. No puedes meter tu catálogo completo de productos en un system prompt.
- Vulnerabilidad a inyección de prompts: Los usuarios a veces pueden anular las instrucciones del system prompt.
- Techo de precisión: Ninguna cantidad de prompt engineering puede enseñar a un modelo general tu terminología de dominio específica, estilo o casos extremos.
Fine-Tuning: El camino preciso
Cómo funciona
Creas ejemplos del comportamiento exacto de entrada-salida que deseas:
{"messages": [
{"role": "user", "content": "Receta rápida de pasta para una persona"},
{"role": "assistant", "content": "**Pasta al Ajo Express**\n\nPrep: 5 min | Cocción: 12 min\n\n- 100g de espagueti\n- 2 dientes de ajo picados\n- 2 cdas de aceite de oliva\n- Hojuelas de chile\n- Parmesano\n\n1. Hervir la pasta en agua con sal\n2. Saltear el ajo en aceite de oliva (2 min)\n3. Mezclar la pasta escurrida con el aceite de ajo\n4. Cubrir con hojuelas de chile y parmesano"}
]}
Entrena el modelo con 500-5,000 ejemplos similares. El modelo aprende tu formato, estilo, conocimiento de dominio y manejo de casos extremos.
Fortalezas
- Precisión: 90-96% en tareas de dominio vs 70-85% con prompting
- Sin system prompt necesario: Las instrucciones están en los pesos. Cero tokens extra por solicitud.
- Conocimiento de dominio: El modelo conoce tu producto, terminología y estilo
- Consistencia: Las respuestas siguen el formato entrenado de forma confiable
- Despliegue en dispositivo: Los modelos con fine-tuning se ejecutan localmente. Sin costo de API, sin latencia, sin dependencia de red.
- Resistencia a inyección de prompts: El comportamiento está en los pesos, no en una instrucción de texto que se puede anular
Debilidades
- Tiempo inicial: La preparación de datos de entrenamiento toma horas a días
- Costo de entrenamiento: $5-50 por ejecución de fine-tuning (una sola vez)
- Menos flexible: Cambiar el comportamiento requiere reentrenar
- Requisito de datos: Mínimo 200-500 ejemplos de calidad
Comparación directa
Precisión en tareas de dominio
| Métrica | GPT-4o con prompt | GPT-4o-mini con prompt | Fine-Tuned 3B | Fine-Tuned 1B |
|---|---|---|---|---|
| Precisión de clasificación | 80-85% | 71-78% | 93-96% | 90-94% |
| Adherencia al formato | 85-90% | 75-85% | 95-98% | 92-96% |
| Uso de terminología de dominio | 60-70% | 50-60% | 95%+ | 90%+ |
| Manejo de casos extremos | 65-75% | 55-65% | 85-92% | 80-88% |
Fine-tuning supera consistentemente al prompting en métricas específicas de dominio. La brecha más grande está en adherencia al formato y terminología de dominio, donde fine-tuning fija exactamente los patrones que necesitas.
Costo por mes (10K MAU, 90K solicitudes diarias)
| Enfoque | Costo de tokens | Infraestructura | Total mensual |
|---|---|---|---|
| GPT-4o con prompt | $5,625+ | Solo API | $5,625+ |
| GPT-4o-mini con prompt | $338+ | Solo API | $338+ |
| Gemini Flash con prompt | $225+ | Solo API | $225+ |
| Fine-tuned 3B (en dispositivo) | $0 | CDN para entrega del modelo | ~$10-50 |
| Fine-tuned 1B (en dispositivo) | $0 | CDN para entrega del modelo | ~$10-50 |
Fine-tuning tiene un costo único ($5-50 por ejecución de entrenamiento). Después del despliegue, el costo por inferencia es cero. El costo mensual es solo el ancho de banda CDN para descargas del modelo por nuevos usuarios.
Latencia
| Enfoque | Tiempo hasta el primer token |
|---|---|
| API en la nube (cualquier modelo) | 500-2,000ms |
| Fine-tuned en dispositivo 1B | 80-150ms |
| Fine-tuned en dispositivo 3B | 150-300ms |
Cuándo gana cada uno
Prompt engineering gana cuando:
- Estás prototipando y no sabes si los usuarios quieren la función
- La tarea es general (no específica de dominio)
- No tienes datos de entrenamiento
- El comportamiento necesita cambiar semanalmente
- El número de usuarios es muy bajo (menos de 500 MAU)
Fine-tuning gana cuando:
- Has validado la función y estás escalando
- La tarea es específica de dominio (tu producto, tu terminología, tu formato)
- La precisión importa (clasificación, extracción, contenido sensible al cumplimiento)
- Tienes más de 500 ejemplos del comportamiento deseado (o puedes crearlos)
- El costo, la latencia, el soporte offline o la privacidad importan
La ruta de migración
Los dos enfoques no son mutuamente excluyentes. Son secuenciales:
-
Empieza con prompt engineering. Construye la función rápido. Valida el interés del usuario. Lanza con una API en la nube.
-
Recopila datos de entrenamiento. Cada llamada a la API con tus prompts genera un par de entrada-salida. Los logs de tu API con prompt engineering se convierten en tu dataset de fine-tuning.
-
Haz fine-tuning cuando la señal sea clara. Cuando sabes que los usuarios quieren la función, cuando tu prompt es estable, cuando el costo o la latencia importan, haz fine-tuning de un modelo pequeño con tus datos recopilados.
-
Despliega en el dispositivo. Exporta GGUF, distribúyelo a los usuarios. El system prompt desaparece. La precisión mejora. El costo baja a cero.
Plataformas como Ertas hacen accesible el paso de fine-tuning: sube tus datos de entrenamiento (que pueden venir directamente de los logs de tu API), selecciona un modelo base, entrena con LoRA, exporta GGUF. La infraestructura de fine-tuning se gestiona por ti.
El pipeline de Prompt a Fine-Tune
Los logs de tu API son una mina de oro. Cada entrada de log contiene:
- La entrada del usuario (entrada de entrenamiento)
- El system prompt (codificado implícitamente en la salida esperada)
- La salida del modelo (salida de entrenamiento, después de filtrar calidad)
Filtra las salidas de alta calidad (donde el modelo siguió tus instrucciones correctamente), formatea como ejemplos de entrenamiento, y tienes un dataset de fine-tuning. Cuanto mejor haya sido tu prompt engineering, mejores serán tus datos de fine-tuning.
Por eso los dos enfoques se complementan. Buenos prompts crean buenos datos de entrenamiento. Buenos datos de entrenamiento crean un modelo que ya no necesita prompts.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Your AI API Bill Will 10x When Your App Gets Users
The cost math most AI tutorials skip. Your API bill scales linearly with every user, and the real multipliers are worse than the pricing page suggests. Here's what happens at 1K, 10K, and 100K MAU.

AI API Pricing for Mobile: The Real Cost Per User
How to calculate the true cost of AI per mobile app user. Provider comparison, hidden multipliers, and the unit economics that determine whether your AI feature is sustainable.

Fine-Tuning vs RAG for Mobile: Why RAG Still Needs a Server
RAG is the go-to solution for giving AI domain knowledge. But on mobile, RAG reintroduces the server dependency you are trying to eliminate. Fine-tuning bakes the knowledge into the model itself.