Back to blog
    La Calculadora de Margenes de Agencia de AI: Costos de API vs Economia de Modelos Ajustados
    agencycalculatormarginscost-comparisonsegment:agency

    La Calculadora de Margenes de Agencia de AI: Costos de API vs Economia de Modelos Ajustados

    Deja de adivinar tus margenes. Esta calculadora desglosa exactamente lo que gastas por cliente en llamadas de API vs modelos ajustados — y muestra el punto de cruce donde el fine-tuning se paga solo.

    EErtas Team·

    La mayoria de los duenos de agencias de AI pueden decirte sus ingresos mensuales con $500 de margen. Preguntales su costo de infraestructura de AI por cliente y obtienes una pausa, una adivinanza y algo que suena a un numero inventado.

    Esto no es un defecto de caracter. Los dashboards de facturacion de API estan disenados para mostrarte el gasto agregado, no la rentabilidad por cliente. Cuando enrutas 15 clientes a traves de la misma cuenta de OpenAI, descubrir que cliente esta quemando $400/mes y cual esta quemando $80/mes requiere trabajo manual que nadie hace.

    El resultado: estas fijando precios a ciegas. No sabes que clientes son rentables, cuales estan en perdida y donde esta el punto de cruce entre la economia de API y la de modelos ajustados.

    Este articulo es una calculadora. Recorreremos los numeros para ambos modelos — basado en API y ajustado — para que puedas calcular tus propios numeros y tomar una decision informada.

    Seccion 1: Calculo de Costos de API

    La formula central para el costo de API por cliente por mes:

    Costo Mensual de API = (Tokens Prom. por Interaccion) x (Interacciones por Dia) x (30 dias) x (Precio por Token)

    Desglosemos cada variable con numeros realistas.

    Tokens Promedio por Interaccion

    Esto varia por caso de uso, pero aqui hay benchmarks de despliegues en produccion:

    Caso de UsoTokens de Entrada Prom.Tokens de Salida Prom.Total por Interaccion
    Chatbot de soporte al cliente350250600
    Q&A de documentos / RAG8004001,200
    Calificacion de leads200150350
    Generacion de contenido3008001,100
    Extraccion / clasificacion de datos500100600

    Estos son promedios. Tus numeros reales dependen de la longitud de conversacion, uso de ventana de contexto y cuanto del prompt son instrucciones del sistema vs entrada del usuario.

    Interacciones por Dia

    De nuevo, varia por tamano de cliente y caso de uso:

    Tipo de ClienteInteracciones/Dia
    Pequena empresa (1-10 empleados)20-50
    Mercado medio (50-500 empleados)100-300
    Empresa (500+ empleados)500-2,000

    Para una agencia de AI tipica sirviendo clientes pequenos y de mercado medio, 50-150 interacciones por dia por cliente es un numero razonable de planificacion.

    Precio por Token (Marzo 2026)

    ModeloEntrada (por 1M tokens)Salida (por 1M tokens)
    GPT-4o$2.50$10.00
    GPT-4o-mini$0.15$0.60
    Claude 3.5 Sonnet$3.00$15.00
    Claude 3.5 Haiku$0.25$1.25

    Ejemplo Trabajado: Chatbot de Soporte al Cliente

    Cliente: empresa de mercado medio, 100 interacciones/dia, usando GPT-4o.

    • Tokens de entrada: 350 tokens x 100 interacciones x 30 dias = 1,050,000 tokens/mes
    • Tokens de salida: 250 tokens x 100 interacciones x 30 dias = 750,000 tokens/mes
    • Costo de entrada: 1.05M x $2.50/1M = $2.63
    • Costo de salida: 0.75M x $10.00/1M = $7.50
    • Costo mensual base: $10.13

    Espera — eso parece bajo. Y lo es, si solo cuentas los tokens en bruto. Aqui es donde entran los multiplicadores.

    Los Multiplicadores Ocultos

    Tasa de reintentos: 3-8% de las llamadas de API fallan y necesitan reintentarse por limites de tasa, tiempos de espera o respuestas mal formadas. Agrega 5% a tu costo base.

    Crecimiento de la ventana de contexto: Las conversaciones se alargan durante la sesion. El primer mensaje podria ser 600 tokens en total, pero para el mensaje 8 en la misma conversacion, estas enviando mas de 4,000 tokens de contexto. Para chatbots de multiples turnos, multiplica tu promedio por 2.5-3x.

    Overhead del system prompt: Cada solicitud incluye el system prompt, que tipicamente tiene 500-2,000 tokens. Esto es constante en todas las interacciones y frecuentemente se excluye de los calculos de costo ingenuos.

    Usuarios intensivos: 10-15% de los usuarios generan mas del 50% del volumen de tokens. Tu promedio de "100 interacciones/dia" oculta el hecho de que algunos usuarios tienen conversaciones de 20 mensajes mientras otros hacen una sola pregunta.

    Costos de embeddings: Si estas ejecutando RAG, tambien pagas por la generacion de embeddings. A $0.02-0.13 por 1M tokens, esto agrega 5-15% al costo total.

    Recalculemos con multiplicadores:

    • System prompt: 1,000 tokens x 100 interacciones x 30 dias = 3,000,000 tokens de entrada adicionales
    • Contexto multi-turno: tokens base x 2.5 = 2,625,000 entrada + 1,875,000 salida
    • Tasa de reintentos: x 1.05
    • Ajuste por usuarios intensivos: x 1.15

    Entrada revisada: (1,050,000 + 3,000,000) x 2.5 x 1.05 x 1.15 = 12,251,063 tokens Salida revisada: 750,000 x 2.5 x 1.05 x 1.15 = 2,268,281 tokens

    • Costo de entrada: 12.25M x $2.50/1M = $30.63
    • Costo de salida: 2.27M x $10.00/1M = $22.68
    • Costo mensual realista por cliente: $53.31 (GPT-4o)

    Para clientes usando Claude 3.5 Sonnet a $3.00/$15.00 por 1M tokens:

    • Costo de entrada: 12.25M x $3.00/1M = $36.75
    • Costo de salida: 2.27M x $15.00/1M = $34.02
    • Costo mensual realista por cliente: $70.77

    Ahora multiplica por tu cartera de clientes. 15 clientes a un promedio de $60/mes = $900/mes en costos de API. Ese es el escenario conservador. Clientes de alto volumen o cargas de trabajo mas pesadas pueden empujar costos individuales de clientes a $200-500/mes, llevando el total a $2,000-4,000/mes.

    Pero aqui esta el punto clave: estos costos crecen a medida que tus clientes crecen. Un despliegue exitoso impulsa mas uso, lo que impulsa mas costo. Cuanto mejor trabajo hagas, mas te cuesta.

    Seccion 2: Calculo de Costos de Modelos Ajustados

    La estructura de costos de modelos ajustados es fundamentalmente diferente: es fija, no variable.

    Costos Fijos Mensuales

    Item de CostoCosto MensualNotas
    Plan Ertas (por puesto)$14.50Fine-tuning, evaluacion, gestion de adaptadores
    VPS con GPU$50-120Hetzner, Lambda, RunPod, etc.
    Dominio/SSL$1-2Endpoint de API por cliente
    Monitoreo$0-10Monitoreo de uptime, APM basico

    Para una agencia de 3 personas: $43.50 (Ertas) + $80 (VPS) + $10 (misc) = $133.50/mes total.

    Costos Unicos por Cliente

    Item de CostoCosto UnicoNotas
    Limpieza de datos5-10 horas de mano de obraNo es un costo en efectivo si lo haces tu mismo
    Computo de fine-tuningIncluido en el plan ErtasSin cargo adicional
    Despliegue/integracion2-4 horas de mano de obraEndpoint de API, integracion del cliente

    Los costos unicos son mano de obra, no infraestructura. Deberias recuperarlos a traves de tarifas de configuracion ($3,000-10,000 por cliente).

    Costo Marginal por Cliente

    Una vez que tu infraestructura base esta corriendo, agregar un nuevo cliente cuesta:

    • Almacenamiento de adaptador LoRA: ~150MB (insignificante)
    • Computo de inferencia: compartido entre todos los clientes (sin costo marginal hasta que la GPU se sature)
    • Configuracion de dominio: $1-2/mes
    • Costo marginal total por cliente: ~$2-5/mes

    Este es el numero que cambia la economia. Cada cliente adicional te cuesta $2-5/mes en infraestructura. Compara eso con $60-500/mes en costos de API.

    Seccion 3: El Analisis de Cruce

    A cuantos clientes el fine-tuning supera los costos de API? Modelemoslo.

    Supuestos

    • Costo promedio de API por cliente: $180/mes (rango medio, contando multiplicadores)
    • Infraestructura de modelos ajustados: $133.50/mes base + $5/mes por cliente
    • Ingresos del cliente: $1,500/mes de retainer promedio

    Los Numeros a Escala

    ClientesCOGS Total APIMargen Bruto APICOGS Total AjustadoMargen Bruto Ajustado
    1$18088.0%$138.5090.8%
    3$54088.0%$148.5096.7%
    5$90088.0%$158.5097.9%
    8$1,44088.0%$173.5098.6%
    15$2,70088.0%$208.5099.1%
    25$4,50088.0%$258.5099.3%

    El punto de cruce es a 1 cliente. El ajustado cuesta menos que la API a toda escala en este modelo porque la infraestructura base ($133.50) es menor que incluso el costo de API de un solo cliente ($180).

    Pero eso asume un promedio de $180/mes. Que pasa si tus costos de API son menores porque usas GPT-4o-mini o Claude Haiku?

    Escenario de API de Bajo Costo

    Si tu costo promedio de API por cliente es $40/mes (cargas ligeras en modelos mas baratos):

    ClientesCOGS Total APICOGS Total AjustadoCruce?
    1$40$138.50API gana
    3$120$148.50API gana
    4$160$153.50Ajustado gana
    5$200$158.50Ajustado gana
    10$400$183.50Ajustado gana

    En el escenario de bajo costo, el cruce es a 4 clientes. Por debajo de 4 clientes ejecutando cargas ligeras en modelos baratos, los costos de API son en realidad menores que mantener infraestructura ajustada.

    Escenario de API de Alto Costo

    Si tu costo promedio de API por cliente es $350/mes (cargas pesadas en modelos de frontera):

    ClientesCOGS Total APICOGS Total AjustadoCruce?
    1$350$138.50Ajustado gana
    5$1,750$158.50Ajustado gana
    15$5,250$208.50Ajustado gana

    El ajustado gana desde el cliente 1 en el escenario de alto costo. Los ahorros son sustanciales: $5,041.50/mes con 15 clientes.

    El Veredicto

    Para la mayoria de las agencias, el fine-tuning supera los costos de API por encima de 3-5 clientes. El cruce exacto depende de:

    • Que modelos de API estas usando actualmente
    • Volumen promedio de interacciones por cliente
    • Complejidad de las cargas de trabajo (Q&A simple vs conversacion multi-turno vs procesamiento de documentos)

    Si estas ejecutando algun cliente en GPT-4o, Claude 3.5 Sonnet o modelos de frontera comparables, el cruce es casi con certeza a 1-2 clientes.

    Seccion 4: Costos Ocultos en Cada Lado

    La calculadora anterior cubre costos directos de infraestructura. Pero hay costos ocultos en ambos lados que afectan la economia real.

    Costos Ocultos de API

    Limites de tasa. Cuando llegas a los limites de tasa, o encolas solicitudes (degradando la experiencia del usuario) o pagas por un nivel superior. El limite de tasa Tier 5 de OpenAI es 10,000 RPM — suficiente para la mayoria de las agencias, pero alcanzar los limites Tier 3/4 durante picos de trafico significa solicitudes descartadas o actualizaciones costosas.

    Deprecacion de modelos. OpenAI depreco GPT-4-0613 en junio de 2025. Si los prompts de tus clientes estaban optimizados para ese modelo, la migracion requirio pruebas y ajustes en cada cliente. Esto es mano de obra no compensada que no aparece en los calculos de costos.

    Tiempos de inactividad. Las interrupciones de API en la nube no son tu culpa, pero son tu problema. Una interrupcion de OpenAI de 2 horas significa 2 horas de los chatbots de tus clientes devolviendo errores. Tu absorbes el costo de soporte de explicar lo que paso.

    Dependencia del proveedor. Todo tu negocio se ejecuta en una plataforma que no controlas. Cambios de precios, cambios de politicas, restricciones de uso — cualquiera de estos puede alterar fundamentalmente tu economia de la noche a la manana. Este no es un costo que puedas poner en una hoja de calculo, pero es real.

    Costos Ocultos de Modelos Ajustados

    Cadencia de reentrenamiento. Los modelos necesitan reentrenamiento periodico a medida que los datos del cliente cambian. Presupuesta 30-60 minutos de computo por cliente por trimestre, mas 2-4 horas de mano de obra de preparacion de datos. Este es trabajo continuo que debe incluirse en tus precios de retainer.

    Mantenimiento de hardware. Si estas ejecutando tu propio servidor de GPU, presupuesta para fallos ocasionales, actualizaciones de SO y actualizaciones de drivers. Si usas una GPU en la nube (Hetzner, Lambda), el proveedor maneja el hardware, pero tu sigues gestionando la pila de software.

    Monitoreo de inferencia. Necesitas saber cuando tu servidor de inferencia esta lento, sobrecargado o devolviendo errores. El monitoreo basico (Uptime Robot + health checks simples) es gratis. El monitoreo mas sofisticado (percentiles de latencia, dashboards por cliente) requiere algo de configuracion.

    Aseguramiento de calidad. Los modelos ajustados pueden exhibir modos de fallo diferentes a los modelos de API. El muestreo regular de calidad (50-100 consultas de produccion por cliente por mes) detecta problemas antes de que los clientes los noten. Esto es mano de obra, no costo de infraestructura, pero es real.

    Calculando tus Propios Numeros

    Aqui esta el marco para calcular tu punto de cruce especifico:

    Paso 1: Inicia sesion en el dashboard de tu proveedor de API. Exporta los datos de uso de los ultimos 3 meses. Calcula tu gasto mensual promedio.

    Paso 2: Si es posible, etiqueta el uso por cliente. Si no puedes etiquetar directamente, estima basandote en ratios de volumen del cliente. Incluso un desglose aproximado (Cliente A usa ~40% del total, Cliente B usa ~25%, etc.) es mejor que un solo numero agregado.

    Paso 3: Divide el gasto mensual total de API entre el numero de clientes activos. Este es tu costo promedio de API por cliente.

    Paso 4: Calcula tu costo base ajustado: Plan Ertas ($14.50/puesto x tamano del equipo) + VPS ($50-120/mes dependiendo de la clase de GPU).

    Paso 5: Calcula el cruce: Costo Base Ajustado / Costo Promedio de API por Cliente = Numero de clientes donde el fine-tuning alcanza el equilibrio.

    Paso 6: Agrega 20% de buffer al lado ajustado para computo de reentrenamiento, monitoreo y mantenimiento. Recalcula.

    Si tu punto de cruce esta en o por debajo de tu cantidad actual de clientes, la economia favorece el fine-tuning. Si esta bien por encima de tu cantidad actual de clientes, quedate en APIs hasta que crezcas hacia la zona de cruce.

    El Marco de Decision

    Los costos de API escalan linealmente. Los costos ajustados son mayormente fijos. Esto significa que la respuesta es casi siempre la misma: el fine-tuning gana a medida que escalas.

    Las excepciones:

    • Tienes 1-2 clientes en modelos ligeros. Si estas ejecutando 2 clientes en GPT-4o-mini con bajo volumen, el costo de API es $30-60/mes en total. No agregues $133/mes de infraestructura para ahorrar $30.
    • Necesitas razonamiento de frontera. Algunas tareas genuinamente requieren razonamiento de clase GPT-4o o Claude 3.5 Sonnet. Un modelo de 7B ajustado no los igualara en tareas complejas de razonamiento de multiples pasos. Para estas cargas de trabajo, los costos de API son el precio de acceso a inteligencia de frontera.
    • Tus clientes requieren el ultimo modelo. Si tu propuesta de valor es "te mantenemos en la ultima AI" y los clientes esperan actualizaciones de modelo cada trimestre, el fine-tuning crea una carga de reentrenamiento que podria no valer la pena.

    Para todos los demas — que es la mayoria de las agencias de AI ejecutando cargas de produccion para clientes de negocios — los numeros favorecen el fine-tuning por encima de 3-5 clientes. La mejora de margen es de 10-15 puntos porcentuales, lo que se traduce en miles de dolares por mes en ganancia bruta adicional.

    Calcula los numeros con tu propia cartera. La calculadora no miente.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura Adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading