Back to blog
    De Prompt Caching a Fine-Tuning: Cuándo Hacer el Cambio
    fine-tuningprompt-cachingcost-reductiondecision-guidesegment:saas

    De Prompt Caching a Fine-Tuning: Cuándo Hacer el Cambio

    El prompt caching reduce costos 60-90% para contexto repetitivo. El fine-tuning elimina los costos por token completamente. Aquí te explicamos cómo saber cuándo has superado el caching y deberías ajustar en su lugar.

    EErtas Team·

    El prompt caching es la primera optimización a la que la mayoría de equipos recurre cuando los costos de API de IA empiezan a subir. Y funciona: el prompt caching de Anthropic reduce costos hasta un 90% en tokens cacheados, y OpenAI ofrece ahorros similares. Para muchas cargas de trabajo, el caching es la respuesta correcta durante meses o incluso años.

    Pero el caching tiene un techo. Optimiza el costo por token pero no elimina la economía de pago por token. A cierta escala, o para ciertos perfiles de carga de trabajo, llegarás a ese techo y necesitarás tomar una decisión arquitectónica diferente: ajustar un modelo que posees y ejecutas localmente.

    Esta guía recorre cuándo el caching es suficiente, cuándo no lo es y cómo hacer la transición.

    Cómo Funciona el Prompt Caching

    Tanto Anthropic como OpenAI ahora ofrecen prompt caching que reduce significativamente los costos para contexto repetido.

    El mecanismo es directo: si los primeros N tokens de tu prompt son idénticos entre solicitudes, esos tokens se cachean en la infraestructura del proveedor. Las solicitudes posteriores que comparten el mismo prefijo solo pagan una fracción del costo normal de token de entrada.

    Prompt caching de Anthropic:

    • Tokens de entrada cacheados: 90% de descuento (pagas 10% del precio normal de entrada)
    • Prefijo mínimo cacheable: 1,024 tokens para Claude Sonnet, 2,048 para Haiku
    • TTL del cache: 5 minutos (se refresca con cada hit)

    Prompt caching de OpenAI:

    • Tokens de entrada cacheados: 50% de descuento
    • Caching automático en prompts de más de 1,024 tokens
    • Sin opt-in explícito requerido desde finales de 2025

    Para un caso de uso SaaS típico con un prompt de sistema de 2,000 tokens que permanece constante entre solicitudes, los ahorros son significativos:

    Sin cachingCon caching (Anthropic)
    2,000 tokens de sistema + 500 tokens de usuario2,000 tokens cacheados (90% de descuento) + 500 tokens de usuario
    Precio completo en los 2,500 tokens de entrada~90% de descuento en 2,000 tokens, precio completo en 500
    Índice de costo: 100%Índice de costo: ~28%

    Eso es una reducción de costos del 72% solo por cachear el prompt de sistema. Sin cambios de código, sin cambios de modelo, sin impacto en calidad.

    Cuándo el Prompt Caching Es la Respuesta Correcta

    El caching es la opción óptima cuando estas condiciones son verdaderas:

    1. Tienes un prompt de sistema grande y estable. Cuanto más grande es tu prompt de sistema relativo a la entrada del usuario, más ahorras. Un prompt de sistema de 5,000 tokens con entradas de usuario de 200 tokens ahorra más que un prompt de sistema de 800 tokens con entradas de usuario de 2,000 tokens.

    2. Tu volumen de solicitudes es moderado. A 10,000-100,000 solicitudes por mes, el caching puede reducir tus costos lo suficiente para que la factura restante sea aceptable. El fine-tuning tiene una inversión de tiempo inicial que necesita justificarse con ahorros continuos.

    3. Tu caso de uso cambia frecuentemente. Si estás iterando en tus funciones de IA semanalmente, cambiando prompts de sistema, agregando nuevos tipos de tarea, experimentando con formatos, el caching te permite iterar sin reentrenar. El fine-tuning fija comportamiento que requiere esfuerzo para cambiar.

    4. Aún no tienes datos de entrenamiento. El caching funciona desde el día uno sin datos. El fine-tuning requiere 500-5,000 ejemplos de entrenamiento de alta calidad. Si estás en las etapas tempranas de construir tu función de IA, el caching te da tiempo para acumular esos datos.

    5. Necesitas capacidades de modelo frontera. El caching te da acceso más barato a los mejores modelos. El fine-tuning te da un modelo más pequeño entrenado en tu tarea específica. Si tu tarea genuinamente necesita razonamiento nivel Claude Opus o GPT-4o, el caching te mantiene en esos modelos a costo reducido.

    Las Cinco Señales de que Has Superado el Caching

    Señal 1: Tu factura de API sigue siendo demasiado alta después del caching

    Haz la matemática. Si tu costo mensual de API después del caching es AU$5,000+ y creciendo con el uso, el caching ha reducido la pendiente pero no ha cambiado la curva de costo lineal fundamental. Sigues pagando por token por cada solicitud, solo a una tasa menor.

    Ejemplo: Un producto SaaS haciendo 500,000 solicitudes/mes con un prompt de sistema de 3,000 tokens:

    • Sin caching: ~AU$15,000/mes
    • Con caching (Anthropic, 90% en tokens cacheados): ~AU$5,200/mes
    • Con un modelo local ajustado: ~AU$1,200/mes (infraestructura fija)

    El caching redujo costos 65%. Pero el modelo local reduce costos 92%. A este volumen, los ahorros adicionales de AU$4,000/mes justifican la inversión en fine-tuning.

    Señal 2: La mayoría de tus tokens están en la entrada del usuario, no en el prompt de sistema

    El caching solo ayuda con el prefijo repetido. Si tus solicitudes tienen prompts de sistema cortos y entradas de usuario largas y únicas, como procesamiento de documentos, análisis de email o revisión de código, la porción cacheable es pequeña. Podrías cachear 1,000 tokens de 8,000 totales. El descuento aplica al 12.5% de tus tokens de entrada.

    En estos casos, el caching ahorra 5-15% en lugar de 60-90%. Eso no es suficiente para cambiar tu perfil de margen.

    Señal 3: Tus tareas están bien definidas y son repetitivas

    Si el 80% de tus solicitudes de IA siguen el mismo patrón, mismo formato de entrada, mismo formato de salida, mismo tipo de tarea, esa es una señal de fine-tuning. Estos patrones son exactamente lo que el fine-tuning captura. Un modelo ajustado produce la misma calidad de salida sin el prompt de sistema, porque el comportamiento está internalizado en los pesos del modelo.

    El caching optimiza la entrega de instrucciones a un modelo general. El fine-tuning elimina la necesidad de instrucciones en tareas que el modelo ya ha aprendido.

    Señal 4: Quieres ser dueño de tu modelo y pipeline de datos

    El caching te mantiene en la infraestructura de otra persona, sujeto a sus cambios de precios, cronogramas de deprecación y límites de tasa. El fine-tuning te da un modelo que controlas completamente. Puedes ejecutarlo en tu propio hardware, desplegarlo en entornos air-gapped y nunca preocuparte por un proveedor de API cambiando términos.

    Señal 5: La latencia importa y el caching no es suficiente

    Los prompts cacheados son más rápidos que los no cacheados, pero siguen siendo llamadas a API en la nube. Latencia típica: 500-2,000ms para una solicitud cacheada. Un modelo local ajustado en hardware decente: 50-200ms para la misma solicitud. Si tu producto necesita respuestas de IA de menos de 200ms, como sugerencias en tiempo real, autocompletado inline o flujos de trabajo interactivos, la inferencia local es el camino.

    El Framework de Decisión

    Aquí está el framework en forma tabular:

    FactorQuedarse con cachingCambiar a fine-tuning
    Costo mensual de API después de cachingMenos de AU$3,000Más de AU$5,000 y creciendo
    % de tokens que son cacheablesMás del 60%Menos del 30%
    Variedad de tareasAlta, cambiando frecuentementeBaja, patrones bien definidos
    Datos de entrenamiento disponiblesMenos de 500 ejemplosMás de 1,000 ejemplos
    Necesidad de razonamiento fronteraSí, tareas genuinamente complejasNo, tareas específicas y aprendibles
    Requisito de latenciaMás de 500ms aceptableMenos de 200ms necesario
    Sensibilidad de datosProcesamiento en la nube aceptableOn-premise o privado requerido
    Trayectoria de usoEstable o crecimiento lentoCrecimiento rápido, 2x+ en 6 meses

    Si marcas 3+ elementos en la columna "Cambiar a fine-tuning", es hora de planificar la migración.

    El Camino de Migración: Caching a Fine-Tuning

    La transición no es un interruptor binario. Aquí está el proceso paso a paso:

    Paso 1: Audita tu carga de trabajo cacheada (1 semana)

    Analiza tus logs de API de los últimos 30-60 días:

    • Cuántos tipos de tarea distintos tienes?
    • Qué porcentaje de tokens son cacheados vs únicos?
    • Cuál es la distribución de complejidad de solicitudes?
    • Qué tareas tienen los patrones de entrada/salida más consistentes?

    Paso 2: Construye tu dataset de entrenamiento (1-2 semanas)

    Tus respuestas de API existentes son tus datos de entrenamiento. Para cada tipo de tarea que quieras migrar:

    • Exporta 2,000-5,000 pares de solicitud-respuesta de tus logs de API
    • Filtra por respuestas de alta calidad (las que los usuarios no regeneraron ni editaron)
    • Formatea como pares de instrucción-respuesta

    Ya tienes estos datos, están en tus logs de API. Has estado pagando por ellos con cada llamada a API. Ahora se convierten en el activo que elimina costos futuros de API.

    Paso 3: Ajusta y evalúa (1 semana)

    Ajusta un modelo 7B o 14B con tu dataset. Usando QLoRA, esto toma menos de 2 horas de tiempo de GPU. Luego evalúa:

    • Ejecuta el modelo ajustado en un conjunto de prueba de 200-500 ejemplos
    • Compara salidas contra tu estándar de oro de API
    • Puntúa calidad en tus criterios específicos (precisión, cumplimiento de formato, tono)
    • Objetivo: 90-95%+ de paridad de calidad para tareas bien definidas

    Paso 4: Despliega y enruta (1 semana)

    Despliega el modelo ajustado vía Ollama o llama.cpp detrás de un endpoint API compatible con OpenAI. Actualiza tu enrutamiento para enviar los tipos de tarea migrados al modelo local. Mantén la API en la nube como respaldo.

    Paso 5: Monitorea e itera (continuo)

    Rastrea métricas de calidad en producción. Enfoque común de monitoreo:

    • Puntúa en sombra el 5% de las respuestas del modelo local contra la API en la nube
    • Rastrea señales de retroalimentación de usuarios (tasa de regeneración, distancia de edición, puntuaciones de satisfacción)
    • Reentrena mensualmente con nuevos ejemplos de producción que el modelo manejó mal

    Lo Que Mantienes en la API en la Nube

    El fine-tuning no reemplaza la API en la nube completamente. Mantén esto en llamadas cacheadas a la API en la nube:

    • Funciones nuevas y experimentales donde aún estás iterando en la definición del prompt y la tarea
    • Casos extremos de cola larga de los que tu modelo ajustado no ha visto suficientes ejemplos
    • Tareas que requieren conocimiento amplio del mundo que cambia con el tiempo (eventos actuales, datos recientes)
    • Razonamiento complejo de múltiples pasos que genuinamente se beneficia de modelos de más de 200B parámetros

    El estado final para la mayoría de productos SaaS es un híbrido: 70-90% de solicitudes en modelos locales ajustados, 10-30% en llamadas cacheadas a la API en la nube. Obtienes la estructura de costos de inferencia local para el grueso de tu tráfico y la capacidad de modelos frontera para las tareas que la necesitan.

    Comparación de Costos a Escala

    Aquí hay una proyección de costos a 12 meses para un producto SaaS creciendo de 100,000 a 500,000 solicitudes por mes:

    MesSolicitudesSolo APIAPI + cachingFine-tuned + API híbrido
    1100KAU$3,000AU$1,050AU$1,800 (mes de setup)
    3200KAU$6,000AU$2,100AU$1,400
    6350KAU$10,500AU$3,675AU$1,500
    12500KAU$15,000AU$5,250AU$1,600
    Total 12 mesesAU$108,000AU$37,800AU$18,300

    El caching ahorra AU$70,200 en 12 meses comparado con llamadas API directas. El híbrido ajustado ahorra AU$19,500 adicionales sobre el caching, un total de AU$89,700 en ahorros versus solo API.

    La brecha se amplía con la escala. A 1 millón de solicitudes por mes, el híbrido ajustado cuesta aproximadamente lo mismo que a 500,000 (la infraestructura es la misma). Las opciones de API y API cacheada se duplican.

    La Transición No Es Permanente

    Una ventaja de este camino de migración: es reversible. Si un modelo ajustado tiene bajo rendimiento en un tipo de tarea, enrutas ese tipo de tarea de vuelta a la API en la nube y agregas más datos de entrenamiento. No estás bloqueado.

    Tu capa de enrutamiento te da un dial, no un interruptor. Gíralo gradualmente hacia inferencia local a medida que tus modelos ajustados mejoran, y mantén la API en la nube disponible para tareas que la necesiten.

    Los equipos que ejecutan esta transición bien terminan con lo mejor de ambos mundos: calidad de modelo frontera en tareas complejas, eficiencia de modelo ajustado en todo lo demás, y una estructura de costos que escala con su negocio en lugar de contra él.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lecturas Adicionales

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading