
La Calculadora de Margenes de Agencia de AI: Costos de API vs Economia de Modelos Ajustados
Deja de adivinar tus margenes. Esta calculadora desglosa exactamente lo que gastas por cliente en llamadas de API vs modelos ajustados — y muestra el punto de cruce donde el fine-tuning se paga solo.
La mayoria de los duenos de agencias de AI pueden decirte sus ingresos mensuales con $500 de margen. Preguntales su costo de infraestructura de AI por cliente y obtienes una pausa, una adivinanza y algo que suena a un numero inventado.
Esto no es un defecto de caracter. Los dashboards de facturacion de API estan disenados para mostrarte el gasto agregado, no la rentabilidad por cliente. Cuando enrutas 15 clientes a traves de la misma cuenta de OpenAI, descubrir que cliente esta quemando $400/mes y cual esta quemando $80/mes requiere trabajo manual que nadie hace.
El resultado: estas fijando precios a ciegas. No sabes que clientes son rentables, cuales estan en perdida y donde esta el punto de cruce entre la economia de API y la de modelos ajustados.
Este articulo es una calculadora. Recorreremos los numeros para ambos modelos — basado en API y ajustado — para que puedas calcular tus propios numeros y tomar una decision informada.
Seccion 1: Calculo de Costos de API
La formula central para el costo de API por cliente por mes:
Costo Mensual de API = (Tokens Prom. por Interaccion) x (Interacciones por Dia) x (30 dias) x (Precio por Token)
Desglosemos cada variable con numeros realistas.
Tokens Promedio por Interaccion
Esto varia por caso de uso, pero aqui hay benchmarks de despliegues en produccion:
| Caso de Uso | Tokens de Entrada Prom. | Tokens de Salida Prom. | Total por Interaccion |
|---|---|---|---|
| Chatbot de soporte al cliente | 350 | 250 | 600 |
| Q&A de documentos / RAG | 800 | 400 | 1,200 |
| Calificacion de leads | 200 | 150 | 350 |
| Generacion de contenido | 300 | 800 | 1,100 |
| Extraccion / clasificacion de datos | 500 | 100 | 600 |
Estos son promedios. Tus numeros reales dependen de la longitud de conversacion, uso de ventana de contexto y cuanto del prompt son instrucciones del sistema vs entrada del usuario.
Interacciones por Dia
De nuevo, varia por tamano de cliente y caso de uso:
| Tipo de Cliente | Interacciones/Dia |
|---|---|
| Pequena empresa (1-10 empleados) | 20-50 |
| Mercado medio (50-500 empleados) | 100-300 |
| Empresa (500+ empleados) | 500-2,000 |
Para una agencia de AI tipica sirviendo clientes pequenos y de mercado medio, 50-150 interacciones por dia por cliente es un numero razonable de planificacion.
Precio por Token (Marzo 2026)
| Modelo | Entrada (por 1M tokens) | Salida (por 1M tokens) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o-mini | $0.15 | $0.60 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| Claude 3.5 Haiku | $0.25 | $1.25 |
Ejemplo Trabajado: Chatbot de Soporte al Cliente
Cliente: empresa de mercado medio, 100 interacciones/dia, usando GPT-4o.
- Tokens de entrada: 350 tokens x 100 interacciones x 30 dias = 1,050,000 tokens/mes
- Tokens de salida: 250 tokens x 100 interacciones x 30 dias = 750,000 tokens/mes
- Costo de entrada: 1.05M x $2.50/1M = $2.63
- Costo de salida: 0.75M x $10.00/1M = $7.50
- Costo mensual base: $10.13
Espera — eso parece bajo. Y lo es, si solo cuentas los tokens en bruto. Aqui es donde entran los multiplicadores.
Los Multiplicadores Ocultos
Tasa de reintentos: 3-8% de las llamadas de API fallan y necesitan reintentarse por limites de tasa, tiempos de espera o respuestas mal formadas. Agrega 5% a tu costo base.
Crecimiento de la ventana de contexto: Las conversaciones se alargan durante la sesion. El primer mensaje podria ser 600 tokens en total, pero para el mensaje 8 en la misma conversacion, estas enviando mas de 4,000 tokens de contexto. Para chatbots de multiples turnos, multiplica tu promedio por 2.5-3x.
Overhead del system prompt: Cada solicitud incluye el system prompt, que tipicamente tiene 500-2,000 tokens. Esto es constante en todas las interacciones y frecuentemente se excluye de los calculos de costo ingenuos.
Usuarios intensivos: 10-15% de los usuarios generan mas del 50% del volumen de tokens. Tu promedio de "100 interacciones/dia" oculta el hecho de que algunos usuarios tienen conversaciones de 20 mensajes mientras otros hacen una sola pregunta.
Costos de embeddings: Si estas ejecutando RAG, tambien pagas por la generacion de embeddings. A $0.02-0.13 por 1M tokens, esto agrega 5-15% al costo total.
Recalculemos con multiplicadores:
- System prompt: 1,000 tokens x 100 interacciones x 30 dias = 3,000,000 tokens de entrada adicionales
- Contexto multi-turno: tokens base x 2.5 = 2,625,000 entrada + 1,875,000 salida
- Tasa de reintentos: x 1.05
- Ajuste por usuarios intensivos: x 1.15
Entrada revisada: (1,050,000 + 3,000,000) x 2.5 x 1.05 x 1.15 = 12,251,063 tokens Salida revisada: 750,000 x 2.5 x 1.05 x 1.15 = 2,268,281 tokens
- Costo de entrada: 12.25M x $2.50/1M = $30.63
- Costo de salida: 2.27M x $10.00/1M = $22.68
- Costo mensual realista por cliente: $53.31 (GPT-4o)
Para clientes usando Claude 3.5 Sonnet a $3.00/$15.00 por 1M tokens:
- Costo de entrada: 12.25M x $3.00/1M = $36.75
- Costo de salida: 2.27M x $15.00/1M = $34.02
- Costo mensual realista por cliente: $70.77
Ahora multiplica por tu cartera de clientes. 15 clientes a un promedio de $60/mes = $900/mes en costos de API. Ese es el escenario conservador. Clientes de alto volumen o cargas de trabajo mas pesadas pueden empujar costos individuales de clientes a $200-500/mes, llevando el total a $2,000-4,000/mes.
Pero aqui esta el punto clave: estos costos crecen a medida que tus clientes crecen. Un despliegue exitoso impulsa mas uso, lo que impulsa mas costo. Cuanto mejor trabajo hagas, mas te cuesta.
Seccion 2: Calculo de Costos de Modelos Ajustados
La estructura de costos de modelos ajustados es fundamentalmente diferente: es fija, no variable.
Costos Fijos Mensuales
| Item de Costo | Costo Mensual | Notas |
|---|---|---|
| Plan Ertas (por puesto) | $14.50 | Fine-tuning, evaluacion, gestion de adaptadores |
| VPS con GPU | $50-120 | Hetzner, Lambda, RunPod, etc. |
| Dominio/SSL | $1-2 | Endpoint de API por cliente |
| Monitoreo | $0-10 | Monitoreo de uptime, APM basico |
Para una agencia de 3 personas: $43.50 (Ertas) + $80 (VPS) + $10 (misc) = $133.50/mes total.
Costos Unicos por Cliente
| Item de Costo | Costo Unico | Notas |
|---|---|---|
| Limpieza de datos | 5-10 horas de mano de obra | No es un costo en efectivo si lo haces tu mismo |
| Computo de fine-tuning | Incluido en el plan Ertas | Sin cargo adicional |
| Despliegue/integracion | 2-4 horas de mano de obra | Endpoint de API, integracion del cliente |
Los costos unicos son mano de obra, no infraestructura. Deberias recuperarlos a traves de tarifas de configuracion ($3,000-10,000 por cliente).
Costo Marginal por Cliente
Una vez que tu infraestructura base esta corriendo, agregar un nuevo cliente cuesta:
- Almacenamiento de adaptador LoRA: ~150MB (insignificante)
- Computo de inferencia: compartido entre todos los clientes (sin costo marginal hasta que la GPU se sature)
- Configuracion de dominio: $1-2/mes
- Costo marginal total por cliente: ~$2-5/mes
Este es el numero que cambia la economia. Cada cliente adicional te cuesta $2-5/mes en infraestructura. Compara eso con $60-500/mes en costos de API.
Seccion 3: El Analisis de Cruce
A cuantos clientes el fine-tuning supera los costos de API? Modelemoslo.
Supuestos
- Costo promedio de API por cliente: $180/mes (rango medio, contando multiplicadores)
- Infraestructura de modelos ajustados: $133.50/mes base + $5/mes por cliente
- Ingresos del cliente: $1,500/mes de retainer promedio
Los Numeros a Escala
| Clientes | COGS Total API | Margen Bruto API | COGS Total Ajustado | Margen Bruto Ajustado |
|---|---|---|---|---|
| 1 | $180 | 88.0% | $138.50 | 90.8% |
| 3 | $540 | 88.0% | $148.50 | 96.7% |
| 5 | $900 | 88.0% | $158.50 | 97.9% |
| 8 | $1,440 | 88.0% | $173.50 | 98.6% |
| 15 | $2,700 | 88.0% | $208.50 | 99.1% |
| 25 | $4,500 | 88.0% | $258.50 | 99.3% |
El punto de cruce es a 1 cliente. El ajustado cuesta menos que la API a toda escala en este modelo porque la infraestructura base ($133.50) es menor que incluso el costo de API de un solo cliente ($180).
Pero eso asume un promedio de $180/mes. Que pasa si tus costos de API son menores porque usas GPT-4o-mini o Claude Haiku?
Escenario de API de Bajo Costo
Si tu costo promedio de API por cliente es $40/mes (cargas ligeras en modelos mas baratos):
| Clientes | COGS Total API | COGS Total Ajustado | Cruce? |
|---|---|---|---|
| 1 | $40 | $138.50 | API gana |
| 3 | $120 | $148.50 | API gana |
| 4 | $160 | $153.50 | Ajustado gana |
| 5 | $200 | $158.50 | Ajustado gana |
| 10 | $400 | $183.50 | Ajustado gana |
En el escenario de bajo costo, el cruce es a 4 clientes. Por debajo de 4 clientes ejecutando cargas ligeras en modelos baratos, los costos de API son en realidad menores que mantener infraestructura ajustada.
Escenario de API de Alto Costo
Si tu costo promedio de API por cliente es $350/mes (cargas pesadas en modelos de frontera):
| Clientes | COGS Total API | COGS Total Ajustado | Cruce? |
|---|---|---|---|
| 1 | $350 | $138.50 | Ajustado gana |
| 5 | $1,750 | $158.50 | Ajustado gana |
| 15 | $5,250 | $208.50 | Ajustado gana |
El ajustado gana desde el cliente 1 en el escenario de alto costo. Los ahorros son sustanciales: $5,041.50/mes con 15 clientes.
El Veredicto
Para la mayoria de las agencias, el fine-tuning supera los costos de API por encima de 3-5 clientes. El cruce exacto depende de:
- Que modelos de API estas usando actualmente
- Volumen promedio de interacciones por cliente
- Complejidad de las cargas de trabajo (Q&A simple vs conversacion multi-turno vs procesamiento de documentos)
Si estas ejecutando algun cliente en GPT-4o, Claude 3.5 Sonnet o modelos de frontera comparables, el cruce es casi con certeza a 1-2 clientes.
Seccion 4: Costos Ocultos en Cada Lado
La calculadora anterior cubre costos directos de infraestructura. Pero hay costos ocultos en ambos lados que afectan la economia real.
Costos Ocultos de API
Limites de tasa. Cuando llegas a los limites de tasa, o encolas solicitudes (degradando la experiencia del usuario) o pagas por un nivel superior. El limite de tasa Tier 5 de OpenAI es 10,000 RPM — suficiente para la mayoria de las agencias, pero alcanzar los limites Tier 3/4 durante picos de trafico significa solicitudes descartadas o actualizaciones costosas.
Deprecacion de modelos. OpenAI depreco GPT-4-0613 en junio de 2025. Si los prompts de tus clientes estaban optimizados para ese modelo, la migracion requirio pruebas y ajustes en cada cliente. Esto es mano de obra no compensada que no aparece en los calculos de costos.
Tiempos de inactividad. Las interrupciones de API en la nube no son tu culpa, pero son tu problema. Una interrupcion de OpenAI de 2 horas significa 2 horas de los chatbots de tus clientes devolviendo errores. Tu absorbes el costo de soporte de explicar lo que paso.
Dependencia del proveedor. Todo tu negocio se ejecuta en una plataforma que no controlas. Cambios de precios, cambios de politicas, restricciones de uso — cualquiera de estos puede alterar fundamentalmente tu economia de la noche a la manana. Este no es un costo que puedas poner en una hoja de calculo, pero es real.
Costos Ocultos de Modelos Ajustados
Cadencia de reentrenamiento. Los modelos necesitan reentrenamiento periodico a medida que los datos del cliente cambian. Presupuesta 30-60 minutos de computo por cliente por trimestre, mas 2-4 horas de mano de obra de preparacion de datos. Este es trabajo continuo que debe incluirse en tus precios de retainer.
Mantenimiento de hardware. Si estas ejecutando tu propio servidor de GPU, presupuesta para fallos ocasionales, actualizaciones de SO y actualizaciones de drivers. Si usas una GPU en la nube (Hetzner, Lambda), el proveedor maneja el hardware, pero tu sigues gestionando la pila de software.
Monitoreo de inferencia. Necesitas saber cuando tu servidor de inferencia esta lento, sobrecargado o devolviendo errores. El monitoreo basico (Uptime Robot + health checks simples) es gratis. El monitoreo mas sofisticado (percentiles de latencia, dashboards por cliente) requiere algo de configuracion.
Aseguramiento de calidad. Los modelos ajustados pueden exhibir modos de fallo diferentes a los modelos de API. El muestreo regular de calidad (50-100 consultas de produccion por cliente por mes) detecta problemas antes de que los clientes los noten. Esto es mano de obra, no costo de infraestructura, pero es real.
Calculando tus Propios Numeros
Aqui esta el marco para calcular tu punto de cruce especifico:
Paso 1: Inicia sesion en el dashboard de tu proveedor de API. Exporta los datos de uso de los ultimos 3 meses. Calcula tu gasto mensual promedio.
Paso 2: Si es posible, etiqueta el uso por cliente. Si no puedes etiquetar directamente, estima basandote en ratios de volumen del cliente. Incluso un desglose aproximado (Cliente A usa ~40% del total, Cliente B usa ~25%, etc.) es mejor que un solo numero agregado.
Paso 3: Divide el gasto mensual total de API entre el numero de clientes activos. Este es tu costo promedio de API por cliente.
Paso 4: Calcula tu costo base ajustado: Plan Ertas ($14.50/puesto x tamano del equipo) + VPS ($50-120/mes dependiendo de la clase de GPU).
Paso 5: Calcula el cruce: Costo Base Ajustado / Costo Promedio de API por Cliente = Numero de clientes donde el fine-tuning alcanza el equilibrio.
Paso 6: Agrega 20% de buffer al lado ajustado para computo de reentrenamiento, monitoreo y mantenimiento. Recalcula.
Si tu punto de cruce esta en o por debajo de tu cantidad actual de clientes, la economia favorece el fine-tuning. Si esta bien por encima de tu cantidad actual de clientes, quedate en APIs hasta que crezcas hacia la zona de cruce.
El Marco de Decision
Los costos de API escalan linealmente. Los costos ajustados son mayormente fijos. Esto significa que la respuesta es casi siempre la misma: el fine-tuning gana a medida que escalas.
Las excepciones:
- Tienes 1-2 clientes en modelos ligeros. Si estas ejecutando 2 clientes en GPT-4o-mini con bajo volumen, el costo de API es $30-60/mes en total. No agregues $133/mes de infraestructura para ahorrar $30.
- Necesitas razonamiento de frontera. Algunas tareas genuinamente requieren razonamiento de clase GPT-4o o Claude 3.5 Sonnet. Un modelo de 7B ajustado no los igualara en tareas complejas de razonamiento de multiples pasos. Para estas cargas de trabajo, los costos de API son el precio de acceso a inteligencia de frontera.
- Tus clientes requieren el ultimo modelo. Si tu propuesta de valor es "te mantenemos en la ultima AI" y los clientes esperan actualizaciones de modelo cada trimestre, el fine-tuning crea una carga de reentrenamiento que podria no valer la pena.
Para todos los demas — que es la mayoria de las agencias de AI ejecutando cargas de produccion para clientes de negocios — los numeros favorecen el fine-tuning por encima de 3-5 clientes. La mejora de margen es de 10-15 puntos porcentuales, lo que se traduce en miles de dolares por mes en ganancia bruta adicional.
Calcula los numeros con tu propia cartera. La calculadora no miente.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura Adicional
- Como Reducir los Costos de AI de tu Agencia en un 90% con Modelos Locales Ajustados -- El libro de jugadas operativo para migrar de API a inferencia local.
- Como Fijar Precios de Servicios de AI como Agencia -- Estrategias de precios que consideran tu estructura de costos y maximizan el margen.
- Modelos de AI Auto-Alojados: Precios y Analisis de Costos para Agencias -- Analisis detallado de costos para agencias ejecutando su propia infraestructura de inferencia.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

90% Gross Margin AI Services: The Agency Model That Beats SaaS Economics
Most AI agencies run 50-60% gross margins because they're reselling API calls. Agencies using fine-tuned models on owned infrastructure hit 90%+ margins. Here's how the economics work.

Client-Specific AI Agents as Recurring Revenue: The Agency Pricing Playbook
The most profitable AI agencies don't sell projects — they sell per-client AI agents on monthly retainers. Here's the pricing playbook that turns one-time builds into $2K-10K/month recurring revenue.

White-Label AI Agents: How Agencies Ship Custom Models Under Client Brands
Your clients want AI that feels like theirs, not yours. White-label AI agents — custom fine-tuned models deployed under client branding — let agencies deliver differentiated products at scale.