El Stack Post-API: Arquitectura para SaaS Que No Sangra en Inferencia

La primera generacion de SaaS potenciado por IA se construyo sobre APIs de terceros. OpenAI, Anthropic, Google — elige tu proveedor, conecta el SDK y lanza una funcion de IA en una semana. Era rapido de construir y funcionaba.

Pero la arquitectura tiene un problema estructural: cada accion del cliente que toca tu IA te cuesta dinero. No dinero de infraestructura-escala-con-uso. Dinero directo, por token, lineal con cada solicitud. Tu COGS crece con cada nuevo usuario, cada nueva funcion, cada aumento en el engagement.

El stack post-API elimina esto. Reemplaza las llamadas API por token con modelos ajustados ejecutandose en infraestructura que tu controlas, servidos a traves de endpoints compatibles con OpenAI para que tu codigo de aplicacion apenas cambie. El costo por token cae a efectivamente cero. Tus funciones de IA se vuelven tan estables en costo como tu base de datos.

El Problema de Dependencia de API

Asi es como se ve la dependencia de API en la practica para un producto SaaS a escala:

Ingreso: AU$200,000/mes (4,000 usuarios a AU$50/mes)

Costo de API de IA al lanzamiento (1,000 usuarios): AU$3,500/mes — aceptable, 3.5% de la proyeccion de ingreso

Costo de API de IA a 4,000 usuarios: AU$14,000/mes — 7% del ingreso, empezando a apretar

Costo de API de IA proyectado a 10,000 usuarios: AU$35,000/mes — ahora es tu tercer mayor gasto despues de salarios y oficina

El problema no es solo el costo. Es la estructura de costos:

Sin descuento por volumen que importe. Los acuerdos de API empresarial podrian darte 10-20% de descuento. Tus costos de infraestructura bajan 50-80% a escala.
Sin capacidad de optimizar el runtime. No puedes cambiar como se ejecuta el modelo. No puedes cuantizarlo para tus necesidades de rendimiento especificas. No puedes agrupar solicitudes eficientemente.
Riesgo de deprecacion. OpenAI depreco GPT-3.5 Turbo, luego los modelos ajustados construidos sobre el. Los equipos tuvieron que reconstruir. Esto volvera a pasar.
Limites de velocidad como restriccion de escalamiento. El rendimiento de tu aplicacion esta limitado por el limitador de velocidad de otra persona.
Cero barrera de entrada. Cada competidor tiene acceso al mismo modelo al mismo precio.

Como Se Ve el Stack Post-API

La arquitectura post-API tiene cuatro capas:

┌──────────────────────────────────────────────┐
│              Tu Aplicacion SaaS              │
│                                              │
│  ┌────────────────────────────────────────┐  │
│  │     Cliente Compatible con OpenAI      │  │
│  │   (mismo SDK, mismo formato request)   │  │
│  └───────────────────┬────────────────────┘  │
│                      │                        │
│  ┌───────────────────▼────────────────────┐  │
│  │         Servidor API Local             │  │
│  │     (Ollama / llama.cpp / vLLM)        │  │
│  │    Expone /v1/chat/completions         │  │
│  └───────────────────┬────────────────────┘  │
│                      │                        │
│  ┌───────────────────▼────────────────────┐  │
│  │       Modelo Ajustado (GGUF)           │  │
│  │   7B-14B params, cuantizado Q4_K_M     │  │
│  │   Entrenado con tus datos produccion   │  │
│  └───────────────────┬────────────────────┘  │
│                      │                        │
│  ┌───────────────────▼────────────────────┐  │
│  │       Hardware de Inferencia           │  │
│  │   VPS con GPU / Mac Studio / On-prem   │  │
│  │   AU$500-2,000/mes costo fijo          │  │
│  └────────────────────────────────────────┘  │
└──────────────────────────────────────────────┘

Cada capa es un componente estandar y bien entendido. No hay lock-in propietario en ningun punto. Recorramos cada una.

Capa 1: Cliente Compatible con OpenAI

Esta es la parte que tu codigo de aplicacion toca. Y aqui esta la clave: no cambia.

Si tu aplicacion actualmente llama a la API de OpenAI asi:

response = openai.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": prompt}]
)

Tu codigo post-API se ve asi:

client = openai.OpenAI(base_url="http://localhost:11434/v1")
response = client.chat.completions.create(
    model="my-fine-tuned-model",
    messages=[{"role": "user", "content": prompt}]
)

Dos lineas cambian: la URL base y el nombre del modelo. Cada otra parte de tu aplicacion — construccion de prompts, parseo de respuestas, manejo de errores, streaming — permanece identica. El SDK de OpenAI funciona con cualquier servidor que implemente la especificacion de API de OpenAI.

Por eso la migracion es dramaticamente mas simple de lo que la mayoria de los equipos esperan. No estas reescribiendo tu integracion de IA. Estas apuntandola a un servidor diferente.

Capa 2: Servidor API Local

Ollama, el servidor de llama.cpp, y vLLM todos exponen endpoints de API compatibles con OpenAI. Manejan:

Carga del modelo en memoria (GPU o CPU)
Gestion de solicitudes concurrentes
Generacion de tokens con streaming
Gestion de KV-cache para optimizacion de rendimiento

Ollama es la opcion mas simple. Instalalo, descarga un modelo y tienes un servidor API funcionando en menos de 5 minutos. Maneja gestion de modelos, asignacion automatica GPU/CPU y manejo de solicitudes concurrentes. Mejor para: equipos que quieren simplicidad y estan ejecutando 1-3 modelos.

servidor llama.cpp te da mas control sobre los parametros de inferencia — tamano de ventana de contexto, tamano de lote, conteo de hilos, carga de cuantizacion. Mejor para: equipos que necesitan exprimir el maximo rendimiento de su hardware.

vLLM esta disenado para servicio de produccion de alto rendimiento. Implementa PagedAttention para gestion eficiente de memoria y soporta batching continuo. Mejor para: equipos sirviendo a mas de 100 usuarios concurrentes con requisitos estrictos de latencia.

Para la mayoria de los productos SaaS con menos de 50,000 usuarios, Ollama es la opcion correcta. Esta listo para produccion, bien mantenido, y la sobrecarga operacional es minima.

Capa 3: Modelo Ajustado

El modelo es de donde viene la calidad. Un modelo base de 7B no igualara a GPT-4o en tus tareas especificas. Un modelo de 7B ajustado, entrenado con 2,000-5,000 ejemplos de tu caso de uso exacto, lo igualara o superara en esas tareas especificas.

El proceso de fine-tuning:

Exporta datos de entrenamiento de tu uso actual de API. Tus salidas existentes de GPT-4o o Claude son tu estandar de oro. Exporta pares entrada-salida para cada tipo de tarea.
Ajusta usando QLoRA. Este es un metodo eficiente en parametros que entrena solo una pequena fraccion de los pesos del modelo. Un modelo de 7B se ajusta en 30-90 minutos en una sola GPU con QLoRA.
Fusiona y cuantiza. Fusiona el adaptador LoRA en el modelo base y cuantiza a formato GGUF. La cuantizacion Q4_K_M reduce el tamano del modelo en ~75% con perdida minima de calidad. Un modelo de 7B pasa de ~14GB a ~4GB.
Evalua. Ejecuta el modelo cuantizado contra un conjunto de prueba reservado de 200-500 ejemplos. Compara con las salidas de tu API en la nube. Apunta a 90-98% de paridad de calidad en tus tareas especificas.

El formato GGUF es un estandar abierto soportado por todos los principales motores de inferencia. Tu archivo de modelo es portable entre Ollama, llama.cpp y cualquier runtime compatible con GGUF.

Ertas automatiza los pasos 2-3: sube tu dataset, selecciona un modelo base y recibe un archivo GGUF ajustado listo para despliegue. Sin experiencia en ML requerida, sin infraestructura de entrenamiento que gestionar.

Capa 4: Hardware de Inferencia

La capa de hardware es donde la economia cambia. En lugar de precios por token, tienes un costo mensual de infraestructura fijo.

Opcion A: VPS con GPU (AU$400-1,500/mes)

Proveedores como Lambda Labs, Vast.ai, RunPod o instancias GPU de nubes principales. Una sola instancia A10G o L4 GPU maneja un modelo de 7B cuantizado a 50-100+ solicitudes por segundo. Esto es mas que suficiente para la mayoria de las cargas de trabajo SaaS.

Pros: Sin hardware que gestionar, escala arriba/abajo segun necesidad, multiples regiones disponibles. Contras: Costo mensual, dependencia del proveedor (aunque facilmente portable).

Opcion B: Hardware dedicado (AU$3,000-8,000 unico, luego AU$50-200/mes por energia/colocacion)

Una estacion de trabajo con una RTX 4090 (24GB VRAM) o un Mac Studio con chip M. La RTX 4090 maneja un modelo de 14B cuantizado comodamente. El Mac Studio M4 Ultra maneja modelos cuantizados hasta 70B.

Pros: Costo unico amortizado en 3-5 anos, menor costo a largo plazo por inferencia, control fisico total. Contras: Gestion de hardware, sin distribucion geografica, techo de capacidad.

Opcion C: VPS solo CPU (AU$80-300/mes)

Un modelo de 7B cuantizado funciona en CPU a 2-8 tokens por segundo. Para cargas de trabajo menores a 50,000 solicitudes/mes donde una latencia mayor a 2-3 segundos es aceptable, esta es la opcion mas barata. Sin GPU requerida.

Pros: Mas barata, mas simple, funciona en cualquier VPS. Contras: Inferencia lenta, rendimiento limitado.

La Comparacion de Costos a Escala

Comparemos el costo total de propiedad durante 12 meses para un producto SaaS creciendo de 100,000 a 1,000,000 solicitudes de IA por mes:

API en la Nube (GPT-4o):

Mes	Solicitudes	Costo
1	100K	AU$3,000
6	500K	AU$15,000
12	1M	AU$30,000
Total 12 meses	—	AU$198,000

Stack post-API (7B ajustado en VPS con GPU):

Mes	Solicitudes	Costo
1	100K	AU$2,800 (setup + infra)
6	500K	AU$1,200
12	1M	AU$1,500 (instancia ligeramente mayor)
Total 12 meses	—	AU$18,600

Ahorro: AU$179,400 en 12 meses. A volumenes mas altos, la brecha se amplifica mas porque el costo post-API apenas aumenta.

Para Que Aun Necesitas APIs en la Nube

El stack post-API no significa cero uso de API. Hay razones legitimas para mantener una integracion de API en la nube:

Respaldo para casos extremos. Cuando tu modelo ajustado encuentra un tipo de solicitud para el que no fue entrenado, enrutalo a una API en la nube. Esto deberia ser el 5-15% del trafico, disminuyendo con el tiempo a medida que expandes tus datos de entrenamiento.

Desarrollo de nuevas funciones. Cuando prototipas una nueva funcion de IA, usa una API en la nube para validar el concepto y recopilar datos de entrenamiento. Una vez que la funcion es estable y tienes suficientes ejemplos, ajusta y migra.

Tareas que requieren razonamiento de frontera. Razonamiento complejo de multiples pasos, generacion creativa que requiere amplio conocimiento del mundo, o tareas donde un modelo de 7B genuinamente no puede igualar a un modelo de mas de 200B. Estas existen, pero son una fraccion menor de la mayoria de las cargas de trabajo SaaS de lo que los equipos asumen.

El estado final no es "sin API" — es "API por excepcion." La API se convierte en tu herramienta de I+D y respaldo, no en tu capa de inferencia de produccion.

Migracion Sin Reescribir Tu App

La preocupacion mas comun de los equipos de ingenieria es la complejidad de la migracion. Aqui esta el alcance real:

Cambios requeridos:

Agregar una configuracion de enrutamiento (que tipos de tarea van a que backend) — 50-100 lineas de codigo
Agregar la URL del servidor API local como variable de entorno — 1 linea
Actualizar referencias de nombre de modelo para tareas enrutadas — buscar y reemplazar
Agregar monitoreo para latencia y rendimiento de inferencia local — observabilidad estandar

Cambios NO requeridos:

Sin reescritura de prompts (los modelos ajustados aprenden la tarea, asi que los prompts son mas simples o sin cambios)
Sin cambios en parseo de respuestas (mismo formato de API)
Sin cambios en logica de streaming (mismo protocolo SSE)
Sin cambios en manejo de errores (mismo formato de error)
Sin cambios de autenticacion (servidor local, sin claves API necesarias)

El esfuerzo de migracion para un producto SaaS tipico con 3-5 funciones de IA es 2-4 semanas del tiempo de un ingeniero. La mayoria de ese tiempo es fine-tuning y evaluacion, no cambios de codigo.

Construyendo para Portabilidad de Modelos

Una ventaja de la arquitectura GGUF + API compatible con OpenAI: no estas bloqueado en ningun modelo especifico. Cuando se lanza un mejor modelo base — y se lanzan cada pocos meses — puedes:

Ajustar el nuevo modelo base con tu dataset existente
Evaluarlo contra tu modelo de produccion actual
Intercambiar el archivo del modelo en caliente en tu servidor de inferencia
Cero cambios en el codigo de la aplicacion

Esto es lo opuesto a la dependencia de API. Tu controlas el ciclo de vida del modelo. Tu eliges cuando actualizar. Sin avisos de deprecacion, sin migraciones forzadas, sin cambios que rompen cosas.

Tu modelo es un archivo en un disco. Tu servidor de inferencia es un binario open-source. Tu aplicacion habla con una API estandar. Cada capa es reemplazable independientemente. Ese es el stack post-API.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →