
Precios de Servicios de Agencia de AI: Tarifa Fija vs. Por Token con Modelos Auto-Alojados
Como los modelos de AI auto-alojados cambian la estrategia de precios de las agencias. Modelos de precio de tarifa fija, por puesto e hibridos con ejemplos de margen calculados por cada nivel de GPU.
La mayoria de las agencias de AI heredaron su modelo de precios de la era de las API: cobrar a los clientes basandose en el uso, pasar los costos de API con un margen. Funciona, pero limita tus margenes y hace que los ingresos sean impredecibles.
Los modelos auto-alojados rompen esta dinamica. Tu costo es un gasto fijo de GPU, no una variable por token. Esto crea oportunidades de precios que las agencias dependientes de API no pueden igualar.
Este articulo extiende la guia de estrategia de precios de agencias de AI con modelos de precios especificos para agencias que ejecutan modelos ajustados auto-alojados.
La Perspectiva de Funcion Escalonada
Los costos de API son lineales: mas tokens, mas costo. Los costos auto-alojados son funciones escalonadas: costo fijo por nivel de GPU, cero costo marginal dentro de ese nivel.
Este unico hecho cambia todo sobre como deberias cobrar:
| Modelo de Precios | Agencia Basada en API | Agencia Auto-Alojada |
|---|---|---|
| Estructura de costos | Variable (por token) | Fija (por nivel de GPU) |
| Margen en clientes de alto uso | Delgado o negativo | Excelente |
| Previsibilidad de ingresos | Baja | Alta |
| Flexibilidad de precios | Limitada por COGS | Amplio rango de margen |
| Preferencia del cliente | Facturas impredecibles | Presupuestos predecibles |
Cuando tus costos son fijos, cualquier modelo de precios que cobre mas que tu costo fijo produce margen. La pregunta no es "puedo permitirme servir a este cliente?" sino "que modelo de precios maximiza el valor que capturo?"
Modelo de Precios 1: Retainer Mensual de Tarifa Fija
Como funciona: El cliente paga una tarifa mensual fija por uso ilimitado de AI dentro de un alcance definido.
Ejemplo:
- AI de revision de contratos para un bufete de abogados: $5,000/mes fijo
- Incluye: revisiones de contratos ilimitadas, reentrenamiento mensual del modelo, soporte
- Tu costo: ~$200/mes asignados (parte de GPU, electricidad, puesto de Ertas Studio)
- Margen bruto: 96%
Cuando usar:
- Clientes con uso predecible, de moderado a alto
- Clientes empresariales que prefieren certeza presupuestaria
- Compromisos donde el crecimiento del uso te beneficia (el cliente usa mas → obtiene mas valor → se queda mas tiempo)
Riesgos:
- Un solo cliente con uso extremo podria saturar tu capacidad de GPU
- Mitiga definiendo "ilimitado dentro de uso razonable" o estableciendo un limite suave
Analisis de margen a diferentes cantidades de clientes (1 x RTX 5090, $42/mes operacional):
| Clientes | Ingresos (a $3,000/mes c/u) | Costo GPU | Margen Bruto |
|---|---|---|---|
| 3 | $9,000 | $42 | 99.5% |
| 5 | $15,000 | $42 | 99.7% |
| 10 | $30,000 | $42 | 99.9% |
Incluso con precios conservadores, los margenes son extraordinarios una vez que la GPU esta pagada.
Modelo de Precios 2: Precio por Puesto
Como funciona: El cliente paga por usuario que tiene acceso a las herramientas de AI.
Ejemplo:
- Asistente de investigacion legal potenciado por AI: $200/usuario/mes
- Bufete con 15 asociados: $3,000/mes
- Tu costo: ~$200/mes asignados
- Margen bruto: 93%
Cuando usar:
- Productos donde el uso escala con la cantidad de personal
- Clientes que piensan en terminos de costos de software por empleado
- Cuando quieres que los precios escalen naturalmente a medida que el cliente crece
Ventajas:
- Modelo de precios familiar para compradores empresariales (como SaaS)
- Los ingresos crecen automaticamente cuando el cliente agrega usuarios
- Facil de presupuestar y aprobar para los clientes
Analisis de margen:
| Precio por puesto | Firma de 10 personas | Firma de 50 personas | Firma de 200 personas |
|---|---|---|---|
| $100/puesto | $1,000/mes | $5,000/mes | $20,000/mes |
| $200/puesto | $2,000/mes | $10,000/mes | $40,000/mes |
| $500/puesto | $5,000/mes | $25,000/mes | $100,000/mes |
Tu costo de GPU es el mismo independientemente de la cantidad de puestos (hasta que alcances los limites de capacidad). El precio por puesto en firmas grandes es enormemente rentable.
Modelo de Precios 3: Por Proyecto o Por Compromiso
Como funciona: El cliente paga una tarifa fija por un proyecto definido (ej., revisar un conjunto especifico de documentos).
Ejemplo:
- Revision de due diligence para una transaccion de M&A: $15,000 por operacion
- Incluye: revision asistida por AI de hasta 5,000 documentos, informe resumido, analisis de riesgo
- Tu costo: 2-3 dias de tiempo de agencia + computo insignificante
- Margen bruto: 70-80% (menor que el retainer porque incluye mano de obra)
Cuando usar:
- Trabajo basado en transacciones (M&A, revision de documentos de litigios)
- Clientes que no estan listos para un compromiso mensual
- Compromisos de alto valor donde la salida esta claramente vinculada a un resultado de negocio
Ventajas:
- Alinea los precios con el valor entregado (una operacion de M&A de $50M justifica $15K para revision por AI)
- No se requiere compromiso continuo (menor barrera de entrada)
- Puede llevar a compromisos de retainer despues de demostrar valor
Modelo de Precios 4: Hibrido (Base + Uso)
Como funciona: El cliente paga un retainer base por la plataforma/acceso, mas una tarifa por unidad para uso intensivo.
Ejemplo:
- Base: $2,000/mes (incluye acceso a la plataforma, alojamiento del modelo, soporte estandar)
- Por revision: $25 por revision de contrato mas alla de 100/mes
- La mayoria de los clientes se mantienen dentro del nivel base — el precio por unidad es seguro contra uso extremo
Cuando usar:
- Cuando necesitas protegerte contra patrones de uso atipicos
- Cuando los clientes tienen cargas de trabajo variables pero algo predecibles
- Como termino medio para clientes dudosos de comprometerse con tarifa fija
Ejemplos de Margen Calculados por Cada Nivel de GPU
Nivel 1: Una Sola RTX 5090 ($2,000 hardware, $42/mes operacion)
| Escenario | Ingresos Mensuales | Costo Mensual | Margen Bruto | Ganancia Anual |
|---|---|---|---|---|
| 3 clientes x $3,000 fijo | $9,000 | $42 | 99.5% | $107,496 |
| 5 clientes x $2,000 fijo | $10,000 | $42 | 99.6% | $119,496 |
| 10 clientes x $1,500 fijo | $15,000 | $42 | 99.7% | $179,496 |
ROI del hardware: 1-2 meses.
Nivel 2: Doble RTX 5090 ($4,000 hardware, $84/mes operacion)
| Escenario | Ingresos Mensuales | Costo Mensual | Margen Bruto | Ganancia Anual |
|---|---|---|---|---|
| 10 clientes x $3,000 fijo | $30,000 | $84 | 99.7% | $359,808 |
| 15 clientes x $2,000 fijo | $30,000 | $84 | 99.7% | $359,808 |
| 20 por puesto a $200, promedio 10 puestos | $40,000 | $84 | 99.8% | $479,808 |
Nivel 3: A6000 ($4,500 hardware, $22/mes operacion)
Mejor para agencias que necesitan 48 GB de VRAM (modelos mas grandes, mas adaptadores concurrentes):
| Escenario | Ingresos Mensuales | Costo Mensual | Margen Bruto | Ganancia Anual |
|---|---|---|---|---|
| 15 clientes x $2,500 fijo | $37,500 | $22 | 99.9% | $449,736 |
| 5 clientes empresariales x $10,000 fijo | $50,000 | $22 | 100.0% | $599,736 |
Nota: Estos son margenes brutos sobre computo. Los margenes totales de la agencia incluyen mano de obra, suscripciones de software, gastos generales y costos de adquisicion de clientes. Margenes netos realistas para una agencia bien administrada: 40-60%.
Precios para Industrias Reguladas
Los clientes legales y de salud pagan una prima de cumplimiento. No estan comparando tu precio con ChatGPT — estan comparandolo con el costo del incumplimiento (multas, riesgo de mala praxis, dano reputacional).
Guias de prima de cumplimiento:
| Industria | Precio AI Estandar | Con Prima de Cumplimiento |
|---|---|---|
| Negocios generales | $1,500-3,000/mes | — |
| Servicios legales | — | $3,000-8,000/mes |
| Salud | — | $4,000-10,000/mes |
| Servicios financieros | — | $5,000-12,000/mes |
| Gobierno/defensa | — | $8,000-20,000/mes |
La prima de cumplimiento esta justificada porque:
- El despliegue on-premise requiere mas configuracion y mantenimiento
- La documentacion de cumplimiento y el soporte de auditoria agregan valor continuo
- La alternativa (AI en la nube con riesgo de cumplimiento) no es realmente una opcion para estos clientes
- Las garantias de soberania de datos tienen un valor real y cuantificable
La Conversacion de Precios
Al presentar precios a un prospecto:
Lidera con valor, no con costo. "Esta solucion ahorra a tus asociados 8 horas por semana" es un marco mas fuerte que "esto cuesta $5,000/mes."
Ancla a la alternativa. "Contratar un equipo de ML para construir esto internamente costaria $500K/ano. Nuestra solucion entrega el mismo resultado por $60K/ano."
Haz el ROI obvio. "A $400/hora de facturacion, ahorrar 8 horas de asociado por semana = $166K/ano en tiempo facturable adicional. Nuestra tarifa anual de $60K entrega un retorno de 2.8x."
Ofrece un piloto. "Comienza con un piloto de 3 meses a $X/mes. Si el ROI no esta claro para el mes 3, nos separamos." Esto reduce el riesgo de la decision para el cliente.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura Adicional
- Estrategia de Precios para Agencias de AI — Marcos integrales de precios para agencias de AI
- El Costo Real de Auto-Alojar Modelos de AI — Desglose de precios de GPU para informar tu base de costos
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Building a Recurring Revenue AI Service with Fine-Tuned Models
How to structure an AI agency offering around fine-tuned models that generates predictable monthly recurring revenue — covering service tiers, pricing models, and the retraining loop.

How to Price Fine-Tuning Services Profitably (Agency Rate Card)
A concrete rate card and pricing methodology for AI agencies offering fine-tuning services. Stop guessing on price — here's what to charge and how to explain it.

How to Scope a Custom AI Model Project (and What to Charge)
The discovery questions, project types, price ranges, and scope management strategies for custom AI model projects. How to scope correctly before you quote anything.