
Pruebas A/B de tu Modelo Ajustado Contra GPT-4 en Produccion
Como migrar de forma segura de APIs de AI en la nube a un modelo ajustado ejecutando una prueba A/B en produccion. Cubre arquitectura de enrutamiento, que medir, significancia estadistica y la ruta de migracion gradual del 10% al 100%.
Has ajustado un modelo con tus datos de dominio. Los resultados de evaluacion lucen prometedores. Las pruebas offline muestran precision igualando a GPT-4 en tus tareas especificas. Pero desplegar a produccion se siente arriesgado — que pasa si es peor para usuarios reales de maneras que tu dataset de evaluacion no capturo?
La respuesta no es adivinar. Es hacer pruebas A/B. Enruta un porcentaje del trafico de produccion a tu modelo ajustado, mide los resultados y migra gradualmente a medida que crece la confianza.
La Arquitectura de Enrutamiento
La implementacion mas simple: un gateway API que enruta solicitudes a tu API en la nube o a tu modelo local ajustado basandose en un porcentaje de division.
User Request
↓
API Gateway (router)
↓
┌─────────────────────┐
│ 10% → Ollama │ (fine-tuned model, local)
│ 90% → OpenAI API │ (GPT-4o, cloud)
└─────────────────────┘
↓
Log: model_used, input, output, metrics
↓
Response to User
Opciones de implementacion:
- Simple: Asignacion aleatoria por solicitud (Math.random() menor que 0.1 → Ollama, sino → OpenAI)
- Mejor: Asignacion consistente por sesion de usuario (el mismo usuario siempre obtiene el mismo modelo durante una sesion, previniendo comportamiento inconsistente)
- Optimo: Servicio de feature flags (LaunchDarkly, PostHog, personalizado) que te permite ajustar la division sin despliegue
Tanto Ollama como OpenAI exponen APIs compatibles con OpenAI, asi que el trabajo del router es solo cambiar URLs. El formato de solicitud es identico.
Que Medir
Metricas Primarias (Resultados de Negocio)
Estas te dicen si el modelo ajustado produce los mismos resultados para los usuarios que GPT-4:
| Metrica | Que mide | Como capturar |
|---|---|---|
| Tasa de completacion de tareas | El usuario logro lo que vino a hacer? | Rastrear acciones posteriores (ej., usuario hace clic en "resuelto" despues de respuesta de soporte) |
| Satisfaccion del usuario | El usuario esta satisfecho con la salida de AI? | Pulgar arriba/abajo en respuestas, NPS o CSAT |
| Tasa de error | El modelo produjo salidas que requirieron correccion humana? | Rastrear anulaciones manuales o correcciones |
| Impacto en conversion | La funcion de AI impulsa la accion de negocio deseada? | Rastrear eventos de conversion posteriores a la interaccion con AI |
Metricas Secundarias (Calidad del Modelo)
Estas te informan sobre el rendimiento tecnico del modelo:
| Metrica | Que mide |
|---|---|
| Latencia de respuesta | Tiempo desde solicitud hasta respuesta completa (local deberia ser mas rapido) |
| Cumplimiento de formato | Porcentaje de respuestas que coinciden con la estructura de salida esperada |
| Tasa de alucinacion | Errores factuales en respuestas (requiere revision por muestreo) |
| Tasa de respaldo | Con que frecuencia el modelo produce una no-respuesta o error |
Metricas de Costo
| Metrica | GPT-4o | Ajustado local |
|---|---|---|
| Costo por solicitud | $0.003-0.01 | ~$0 |
| Costo mensual (al volumen de prueba) | Rastrear gasto real | Costo de hardware (fijo) |
| Costo mensual proyectado al 100% | Extrapolar de la prueba | Mismo costo fijo |
Cuantas Consultas Necesitas
Las pruebas A/B requieren significancia estadistica. El numero de consultas necesarias depende de la diferencia que intentas detectar y tus metricas actuales:
Regla general: Para detectar una diferencia de 5% en la tasa de completacion de tareas con 95% de confianza:
- Si la tasa actual es 80%: ~1,500 consultas por variante
- Si la tasa actual es 90%: ~3,500 consultas por variante
- Si la tasa actual es 95%: ~7,300 consultas por variante
A 500 consultas por dia, una division del 10% envia ~50 consultas/dia al modelo ajustado. A ese ritmo:
- Detectar una diferencia del 5%: ~30-70 dias
- Detectar una diferencia del 10%: ~7-18 dias
Orientacion practica: Ejecuta la prueba durante al menos 2 semanas independientemente del volumen, para capturar patrones de dia de la semana y hora del dia.
La Ruta de Migracion Gradual
Fase 1: Validacion (10% del trafico, 2-4 semanas)
Enruta el 10% del trafico al modelo ajustado. Monitorea todas las metricas. El objetivo no es probar que el modelo ajustado es mejor — es probar que no es significativamente peor.
Criterios de aprobacion:
- Tasa de completacion de tareas dentro del 3% de GPT-4
- Sin aumento en tasa de error
- Sin aumento en quejas de usuarios
- Cumplimiento de formato cumple tu umbral
Si el modelo ajustado no cumple estos criterios, no lo abandones. Investiga los fallos, agrega ejemplos de entrenamiento para los patrones de fallo, reentrena y prueba de nuevo.
Fase 2: Expansion (50% del trafico, 2-4 semanas)
Si la Fase 1 pasa, aumenta al 50%. A este volumen, veras surgir casos limite mas raros. Monitorea las mismas metricas.
Esta fase tambien prueba la infraestructura: puede tu hardware local manejar el 50% del trafico de produccion? Hay problemas de latencia bajo carga? Ollama se comporta bien bajo volumen sostenido de solicitudes?
Fase 3: Mayoria (90% del trafico, 1-2 semanas)
Invierte la proporcion: 90% ajustado, 10% GPT-4. La ruta de GPT-4 sirve como grupo de control y respaldo. Este es tu "lanzamiento suave" — el modelo ajustado maneja la gran mayoria del trafico, pero aun tienes una red de seguridad.
Fase 4: Migracion Completa (100% del trafico)
Desactiva la ruta de GPT-4. Todo el trafico pasa por tu modelo ajustado. Manten las credenciales de GPT-4 activas para reversion de emergencia.
Linea de tiempo total de migracion: 6-12 semanas desde la primera prueba hasta la migracion completa. Esta linea de tiempo se siente lenta, pero la confianza que ganas vale la paciencia. Enviar un modelo malo al 100% de los usuarios es mucho mas caro que un mes extra de pruebas.
Resultados Comunes de Pruebas A/B
Basado en resultados tipicos de fine-tuning:
Resultado 1: El Modelo Ajustado Gana en Tareas del Dominio
El resultado mas comun. El modelo ajustado supera a GPT-4 en tus tareas especificas del dominio — mejor precision, formato mas consistente, menos alucinaciones sobre tu producto.
Accion: Migra al modelo ajustado. Los ahorros en costos son un bonus adicional a la mejora de calidad.
Resultado 2: El Modelo Ajustado Iguala a GPT-4
El modelo ajustado produce resultados equivalentes. Las metricas estan dentro del ruido entre si.
Accion: Migra al modelo ajustado. Calidad igual a un costo dramaticamente menor es una decision facil.
Resultado 3: El Modelo Ajustado Pierde en Escenarios Especificos
El modelo ajustado maneja bien el 90% de los casos pero tiene dificultades con un subconjunto especifico — consultas inusuales, razonamiento complejo de multiples pasos, o escenarios subrepresentados en los datos de entrenamiento.
Accion: Dos opciones:
- Agrega ejemplos de entrenamiento para los escenarios de fallo y reentrena
- Usa un enfoque hibrido: modelo ajustado para el 90%, respaldo de GPT-4 para el 10% (aun ahorros masivos en costos)
Resultado 4: El Modelo Ajustado Es Significativamente Peor
Esto es raro cuando has hecho una evaluacion offline apropiada primero. Si sucede:
- Verifica la calidad de tus datos de entrenamiento (checklist de calidad de datos)
- Verifica que la cuantizacion no esta causando problemas (prueba con Q8_0 en lugar de Q4_K_M)
- Asegura que el modelo base es apropiado para tu tarea
- Considera si tu tarea genuinamente necesita inteligencia de frontera (cuando no ajustar)
Consejos de Implementacion
Registra Todo
Registra cada solicitud y respuesta para ambas variantes. Necesitaras estos datos para:
- Depurar fallos en el modelo ajustado
- Construir datos de entrenamiento para el proximo ciclo de reentrenamiento
- Demostrar a los interesados que la migracion fue basada en datos
Usa la Misma Temperatura
Establece temperature = 0 (o un valor bajo fijo) para ambos modelos durante la prueba. La temperatura variable introduce ruido que dificulta la comparacion.
Prueba el Pipeline Completo
No solo pruebes la calidad de salida del modelo. Prueba el pipeline completo: solicitud → modelo → analisis de respuesta → accion posterior. Un modelo que produce salida correcta en un formato ligeramente diferente puede romper tu parser.
Ten un Plan de Reversion
Manten la ruta de GPT-4 operativa incluso despues de la migracion completa. Si algo sale mal en produccion, deberias poder volver a GPT-4 en minutos. Esto es un cambio de configuracion, no un despliegue.
Comunica con tu Equipo
Informa a soporte al cliente, ventas y otros equipos sobre la prueba. Si los usuarios reportan diferencias de calidad, soporte necesita saber que modelo sirvio la respuesta (revisa tus logs).
Como Empezar
- Ajusta tu modelo en Ertas y valida offline con tu dataset de evaluacion
- Despliega via Ollama junto a tu integracion existente de OpenAI
- Implementa un router simple (10% Ollama / 90% OpenAI)
- Agrega registro para todas las metricas (completacion de tareas, satisfaccion, errores, latencia, costo)
- Ejecuta la Fase 1 durante 2-4 semanas
- Analiza resultados, ajusta el entrenamiento si es necesario y avanza a traves de las fases
La prueba A/B elimina el riesgo de la migracion. No estas adivinando si tu modelo ajustado es suficientemente bueno — lo estas midiendo. Y en la mayoria de los casos, los datos dicen: es mejor Y mas barato.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

When Your SaaS Should Graduate from API Calls to Fine-Tuning
Your AI features work. Your API bill is growing faster than revenue. Here's the decision framework, cost math, and migration path for moving from per-token APIs to fine-tuned models — with real numbers at every step.

Multi-Tenant Fine-Tuning: Per-Customer AI Models in Your SaaS
Your SaaS customers want AI that understands their data, not generic responses. Here's how to architect per-tenant fine-tuned models using LoRA adapters — with real storage math, cost breakdowns, and a serving architecture that scales to hundreds of tenants.

Fine-Tuned AI for SaaS Customer Support Automation
Your RAG chatbot resolves 34% of support tickets. Fine-tuning pushes that to 87%. Here's how to build a support automation pipeline that actually works — with real numbers on resolution rates, cost per ticket, and the training data you need.