Fine-Tuning vs Prompt Engineering para Apps Móviles

Prompt engineering es la primera herramienta a la que recurre todo desarrollador. Escribe un system prompt que le diga al modelo cómo comportarse, qué generar y qué evitar. Funciona sorprendentemente bien para prototipos.

Fine-tuning es la segunda herramienta, usada cuando el prompting alcanza sus límites. Entrena al modelo con ejemplos del comportamiento exacto que deseas. Requiere más trabajo inicial pero ofrece mejores resultados a menor costo.

Para apps móviles, la elección tiene implicaciones más allá de la precisión. Prompt engineering requiere system prompts largos enviados en cada llamada a la API (costo). Fine-tuning integra las instrucciones en los pesos del modelo (gratis en el momento de la inferencia).

Prompt Engineering: El camino rápido

Cómo funciona

Escribes un system prompt que instruye al modelo:

Eres un asistente de cocina para RecipeApp. Cuando los usuarios
pregunten sobre recetas, proporciona instrucciones paso a paso.
Siempre incluye tiempo de preparación y tiempo de cocción. Formatea
los ingredientes como lista con viñetas. Mantén las respuestas por
debajo de 200 palabras. Nunca sugieras recetas que incluyan
alérgenos sin advertencia. Si el usuario pregunta sobre temas que
no son de cocina, redirige amablemente hacia la cocina.

Este prompt se envía con cada llamada a la API. El modelo sigue (la mayoría de) estas instrucciones la mayor parte del tiempo.

Fortalezas

Velocidad: Minutos para escribir y probar
Flexibilidad: Cambia el comportamiento editando texto
No requiere datos de entrenamiento: Funciona con cero ejemplos
Sin infraestructura: Solo llamadas a la API
Velocidad de iteración: Prueba un nuevo prompt en segundos

Debilidades

Costo de tokens: Tu system prompt de 800-1,500 tokens se cobra en cada solicitud. Con 10K MAU y 90K solicitudes diarias, eso son 72-135 millones de tokens extra por mes.
Inconsistencia: El modelo sigue las instrucciones de forma probabilística. La adherencia típica es del 70-85%. Los casos extremos se escapan.
Conocimiento de dominio limitado: El modelo solo sabe lo que está en el prompt. No puedes meter tu catálogo completo de productos en un system prompt.
Vulnerabilidad a inyección de prompts: Los usuarios a veces pueden anular las instrucciones del system prompt.
Techo de precisión: Ninguna cantidad de prompt engineering puede enseñar a un modelo general tu terminología de dominio específica, estilo o casos extremos.

Fine-Tuning: El camino preciso

Cómo funciona

Creas ejemplos del comportamiento exacto de entrada-salida que deseas:

{"messages": [
  {"role": "user", "content": "Receta rápida de pasta para una persona"},
  {"role": "assistant", "content": "**Pasta al Ajo Express**\n\nPrep: 5 min | Cocción: 12 min\n\n- 100g de espagueti\n- 2 dientes de ajo picados\n- 2 cdas de aceite de oliva\n- Hojuelas de chile\n- Parmesano\n\n1. Hervir la pasta en agua con sal\n2. Saltear el ajo en aceite de oliva (2 min)\n3. Mezclar la pasta escurrida con el aceite de ajo\n4. Cubrir con hojuelas de chile y parmesano"}
]}

Entrena el modelo con 500-5,000 ejemplos similares. El modelo aprende tu formato, estilo, conocimiento de dominio y manejo de casos extremos.

Fortalezas

Precisión: 90-96% en tareas de dominio vs 70-85% con prompting
Sin system prompt necesario: Las instrucciones están en los pesos. Cero tokens extra por solicitud.
Conocimiento de dominio: El modelo conoce tu producto, terminología y estilo
Consistencia: Las respuestas siguen el formato entrenado de forma confiable
Despliegue en dispositivo: Los modelos con fine-tuning se ejecutan localmente. Sin costo de API, sin latencia, sin dependencia de red.
Resistencia a inyección de prompts: El comportamiento está en los pesos, no en una instrucción de texto que se puede anular

Debilidades

Tiempo inicial: La preparación de datos de entrenamiento toma horas a días
Costo de entrenamiento: $5-50 por ejecución de fine-tuning (una sola vez)
Menos flexible: Cambiar el comportamiento requiere reentrenar
Requisito de datos: Mínimo 200-500 ejemplos de calidad

Comparación directa

Precisión en tareas de dominio

Métrica	GPT-4o con prompt	GPT-4o-mini con prompt	Fine-Tuned 3B	Fine-Tuned 1B
Precisión de clasificación	80-85%	71-78%	93-96%	90-94%
Adherencia al formato	85-90%	75-85%	95-98%	92-96%
Uso de terminología de dominio	60-70%	50-60%	95%+	90%+
Manejo de casos extremos	65-75%	55-65%	85-92%	80-88%

Fine-tuning supera consistentemente al prompting en métricas específicas de dominio. La brecha más grande está en adherencia al formato y terminología de dominio, donde fine-tuning fija exactamente los patrones que necesitas.

Costo por mes (10K MAU, 90K solicitudes diarias)

Enfoque	Costo de tokens	Infraestructura	Total mensual
GPT-4o con prompt	$5,625+	Solo API	$5,625+
GPT-4o-mini con prompt	$338+	Solo API	$338+
Gemini Flash con prompt	$225+	Solo API	$225+
Fine-tuned 3B (en dispositivo)	$0	CDN para entrega del modelo	~$10-50
Fine-tuned 1B (en dispositivo)	$0	CDN para entrega del modelo	~$10-50

Fine-tuning tiene un costo único ($5-50 por ejecución de entrenamiento). Después del despliegue, el costo por inferencia es cero. El costo mensual es solo el ancho de banda CDN para descargas del modelo por nuevos usuarios.

Latencia

Enfoque	Tiempo hasta el primer token
API en la nube (cualquier modelo)	500-2,000ms
Fine-tuned en dispositivo 1B	80-150ms
Fine-tuned en dispositivo 3B	150-300ms

Cuándo gana cada uno

Prompt engineering gana cuando:

Estás prototipando y no sabes si los usuarios quieren la función
La tarea es general (no específica de dominio)
No tienes datos de entrenamiento
El comportamiento necesita cambiar semanalmente
El número de usuarios es muy bajo (menos de 500 MAU)

Fine-tuning gana cuando:

Has validado la función y estás escalando
La tarea es específica de dominio (tu producto, tu terminología, tu formato)
La precisión importa (clasificación, extracción, contenido sensible al cumplimiento)
Tienes más de 500 ejemplos del comportamiento deseado (o puedes crearlos)
El costo, la latencia, el soporte offline o la privacidad importan

La ruta de migración

Los dos enfoques no son mutuamente excluyentes. Son secuenciales:

Empieza con prompt engineering. Construye la función rápido. Valida el interés del usuario. Lanza con una API en la nube.
Recopila datos de entrenamiento. Cada llamada a la API con tus prompts genera un par de entrada-salida. Los logs de tu API con prompt engineering se convierten en tu dataset de fine-tuning.
Haz fine-tuning cuando la señal sea clara. Cuando sabes que los usuarios quieren la función, cuando tu prompt es estable, cuando el costo o la latencia importan, haz fine-tuning de un modelo pequeño con tus datos recopilados.
Despliega en el dispositivo. Exporta GGUF, distribúyelo a los usuarios. El system prompt desaparece. La precisión mejora. El costo baja a cero.

Plataformas como Ertas hacen accesible el paso de fine-tuning: sube tus datos de entrenamiento (que pueden venir directamente de los logs de tu API), selecciona un modelo base, entrena con LoRA, exporta GGUF. La infraestructura de fine-tuning se gestiona por ti.

El pipeline de Prompt a Fine-Tune

Los logs de tu API son una mina de oro. Cada entrada de log contiene:

La entrada del usuario (entrada de entrenamiento)
El system prompt (codificado implícitamente en la salida esperada)
La salida del modelo (salida de entrenamiento, después de filtrar calidad)

Filtra las salidas de alta calidad (donde el modelo siguió tus instrucciones correctamente), formatea como ejemplos de entrenamiento, y tienes un dataset de fine-tuning. Cuanto mejor haya sido tu prompt engineering, mejores serán tus datos de fine-tuning.

Por eso los dos enfoques se complementan. Buenos prompts crean buenos datos de entrenamiento. Buenos datos de entrenamiento crean un modelo que ya no necesita prompts.

Fine-Tuning vs Prompt Engineering para Apps Móviles

Prompt Engineering: El camino rápido

Cómo funciona

Fortalezas

Debilidades

Fine-Tuning: El camino preciso

Cómo funciona

Fortalezas

Debilidades

Comparación directa

Precisión en tareas de dominio

Costo por mes (10K MAU, 90K solicitudes diarias)

Latencia

Cuándo gana cada uno

La ruta de migración

El pipeline de Prompt a Fine-Tune

Ship AI that runs on your users' devices.

Keep reading

Your AI API Bill Will 10x When Your App Gets Users

AI API Pricing for Mobile: The Real Cost Per User

Fine-Tuning vs RAG for Mobile: Why RAG Still Needs a Server