Back to blog
    Pruebas A/B de tu Modelo Ajustado Contra GPT-4 en Produccion
    ab-testingfine-tuninggpt4productionmigrationevaluationsaas

    Pruebas A/B de tu Modelo Ajustado Contra GPT-4 en Produccion

    Como migrar de forma segura de APIs de AI en la nube a un modelo ajustado ejecutando una prueba A/B en produccion. Cubre arquitectura de enrutamiento, que medir, significancia estadistica y la ruta de migracion gradual del 10% al 100%.

    EErtas Team·

    Has ajustado un modelo con tus datos de dominio. Los resultados de evaluacion lucen prometedores. Las pruebas offline muestran precision igualando a GPT-4 en tus tareas especificas. Pero desplegar a produccion se siente arriesgado — que pasa si es peor para usuarios reales de maneras que tu dataset de evaluacion no capturo?

    La respuesta no es adivinar. Es hacer pruebas A/B. Enruta un porcentaje del trafico de produccion a tu modelo ajustado, mide los resultados y migra gradualmente a medida que crece la confianza.

    La Arquitectura de Enrutamiento

    La implementacion mas simple: un gateway API que enruta solicitudes a tu API en la nube o a tu modelo local ajustado basandose en un porcentaje de division.

    User Request
         ↓
    API Gateway (router)
         ↓
    ┌─────────────────────┐
    │  10% → Ollama       │  (fine-tuned model, local)
    │  90% → OpenAI API   │  (GPT-4o, cloud)
    └─────────────────────┘
         ↓
    Log: model_used, input, output, metrics
         ↓
    Response to User
    

    Opciones de implementacion:

    • Simple: Asignacion aleatoria por solicitud (Math.random() menor que 0.1 → Ollama, sino → OpenAI)
    • Mejor: Asignacion consistente por sesion de usuario (el mismo usuario siempre obtiene el mismo modelo durante una sesion, previniendo comportamiento inconsistente)
    • Optimo: Servicio de feature flags (LaunchDarkly, PostHog, personalizado) que te permite ajustar la division sin despliegue

    Tanto Ollama como OpenAI exponen APIs compatibles con OpenAI, asi que el trabajo del router es solo cambiar URLs. El formato de solicitud es identico.

    Que Medir

    Metricas Primarias (Resultados de Negocio)

    Estas te dicen si el modelo ajustado produce los mismos resultados para los usuarios que GPT-4:

    MetricaQue mideComo capturar
    Tasa de completacion de tareasEl usuario logro lo que vino a hacer?Rastrear acciones posteriores (ej., usuario hace clic en "resuelto" despues de respuesta de soporte)
    Satisfaccion del usuarioEl usuario esta satisfecho con la salida de AI?Pulgar arriba/abajo en respuestas, NPS o CSAT
    Tasa de errorEl modelo produjo salidas que requirieron correccion humana?Rastrear anulaciones manuales o correcciones
    Impacto en conversionLa funcion de AI impulsa la accion de negocio deseada?Rastrear eventos de conversion posteriores a la interaccion con AI

    Metricas Secundarias (Calidad del Modelo)

    Estas te informan sobre el rendimiento tecnico del modelo:

    MetricaQue mide
    Latencia de respuestaTiempo desde solicitud hasta respuesta completa (local deberia ser mas rapido)
    Cumplimiento de formatoPorcentaje de respuestas que coinciden con la estructura de salida esperada
    Tasa de alucinacionErrores factuales en respuestas (requiere revision por muestreo)
    Tasa de respaldoCon que frecuencia el modelo produce una no-respuesta o error

    Metricas de Costo

    MetricaGPT-4oAjustado local
    Costo por solicitud$0.003-0.01~$0
    Costo mensual (al volumen de prueba)Rastrear gasto realCosto de hardware (fijo)
    Costo mensual proyectado al 100%Extrapolar de la pruebaMismo costo fijo

    Cuantas Consultas Necesitas

    Las pruebas A/B requieren significancia estadistica. El numero de consultas necesarias depende de la diferencia que intentas detectar y tus metricas actuales:

    Regla general: Para detectar una diferencia de 5% en la tasa de completacion de tareas con 95% de confianza:

    • Si la tasa actual es 80%: ~1,500 consultas por variante
    • Si la tasa actual es 90%: ~3,500 consultas por variante
    • Si la tasa actual es 95%: ~7,300 consultas por variante

    A 500 consultas por dia, una division del 10% envia ~50 consultas/dia al modelo ajustado. A ese ritmo:

    • Detectar una diferencia del 5%: ~30-70 dias
    • Detectar una diferencia del 10%: ~7-18 dias

    Orientacion practica: Ejecuta la prueba durante al menos 2 semanas independientemente del volumen, para capturar patrones de dia de la semana y hora del dia.

    La Ruta de Migracion Gradual

    Fase 1: Validacion (10% del trafico, 2-4 semanas)

    Enruta el 10% del trafico al modelo ajustado. Monitorea todas las metricas. El objetivo no es probar que el modelo ajustado es mejor — es probar que no es significativamente peor.

    Criterios de aprobacion:

    • Tasa de completacion de tareas dentro del 3% de GPT-4
    • Sin aumento en tasa de error
    • Sin aumento en quejas de usuarios
    • Cumplimiento de formato cumple tu umbral

    Si el modelo ajustado no cumple estos criterios, no lo abandones. Investiga los fallos, agrega ejemplos de entrenamiento para los patrones de fallo, reentrena y prueba de nuevo.

    Fase 2: Expansion (50% del trafico, 2-4 semanas)

    Si la Fase 1 pasa, aumenta al 50%. A este volumen, veras surgir casos limite mas raros. Monitorea las mismas metricas.

    Esta fase tambien prueba la infraestructura: puede tu hardware local manejar el 50% del trafico de produccion? Hay problemas de latencia bajo carga? Ollama se comporta bien bajo volumen sostenido de solicitudes?

    Fase 3: Mayoria (90% del trafico, 1-2 semanas)

    Invierte la proporcion: 90% ajustado, 10% GPT-4. La ruta de GPT-4 sirve como grupo de control y respaldo. Este es tu "lanzamiento suave" — el modelo ajustado maneja la gran mayoria del trafico, pero aun tienes una red de seguridad.

    Fase 4: Migracion Completa (100% del trafico)

    Desactiva la ruta de GPT-4. Todo el trafico pasa por tu modelo ajustado. Manten las credenciales de GPT-4 activas para reversion de emergencia.

    Linea de tiempo total de migracion: 6-12 semanas desde la primera prueba hasta la migracion completa. Esta linea de tiempo se siente lenta, pero la confianza que ganas vale la paciencia. Enviar un modelo malo al 100% de los usuarios es mucho mas caro que un mes extra de pruebas.

    Resultados Comunes de Pruebas A/B

    Basado en resultados tipicos de fine-tuning:

    Resultado 1: El Modelo Ajustado Gana en Tareas del Dominio

    El resultado mas comun. El modelo ajustado supera a GPT-4 en tus tareas especificas del dominio — mejor precision, formato mas consistente, menos alucinaciones sobre tu producto.

    Accion: Migra al modelo ajustado. Los ahorros en costos son un bonus adicional a la mejora de calidad.

    Resultado 2: El Modelo Ajustado Iguala a GPT-4

    El modelo ajustado produce resultados equivalentes. Las metricas estan dentro del ruido entre si.

    Accion: Migra al modelo ajustado. Calidad igual a un costo dramaticamente menor es una decision facil.

    Resultado 3: El Modelo Ajustado Pierde en Escenarios Especificos

    El modelo ajustado maneja bien el 90% de los casos pero tiene dificultades con un subconjunto especifico — consultas inusuales, razonamiento complejo de multiples pasos, o escenarios subrepresentados en los datos de entrenamiento.

    Accion: Dos opciones:

    1. Agrega ejemplos de entrenamiento para los escenarios de fallo y reentrena
    2. Usa un enfoque hibrido: modelo ajustado para el 90%, respaldo de GPT-4 para el 10% (aun ahorros masivos en costos)

    Resultado 4: El Modelo Ajustado Es Significativamente Peor

    Esto es raro cuando has hecho una evaluacion offline apropiada primero. Si sucede:

    • Verifica la calidad de tus datos de entrenamiento (checklist de calidad de datos)
    • Verifica que la cuantizacion no esta causando problemas (prueba con Q8_0 en lugar de Q4_K_M)
    • Asegura que el modelo base es apropiado para tu tarea
    • Considera si tu tarea genuinamente necesita inteligencia de frontera (cuando no ajustar)

    Consejos de Implementacion

    Registra Todo

    Registra cada solicitud y respuesta para ambas variantes. Necesitaras estos datos para:

    • Depurar fallos en el modelo ajustado
    • Construir datos de entrenamiento para el proximo ciclo de reentrenamiento
    • Demostrar a los interesados que la migracion fue basada en datos

    Usa la Misma Temperatura

    Establece temperature = 0 (o un valor bajo fijo) para ambos modelos durante la prueba. La temperatura variable introduce ruido que dificulta la comparacion.

    Prueba el Pipeline Completo

    No solo pruebes la calidad de salida del modelo. Prueba el pipeline completo: solicitud → modelo → analisis de respuesta → accion posterior. Un modelo que produce salida correcta en un formato ligeramente diferente puede romper tu parser.

    Ten un Plan de Reversion

    Manten la ruta de GPT-4 operativa incluso despues de la migracion completa. Si algo sale mal en produccion, deberias poder volver a GPT-4 en minutos. Esto es un cambio de configuracion, no un despliegue.

    Comunica con tu Equipo

    Informa a soporte al cliente, ventas y otros equipos sobre la prueba. Si los usuarios reportan diferencias de calidad, soporte necesita saber que modelo sirvio la respuesta (revisa tus logs).

    Como Empezar

    1. Ajusta tu modelo en Ertas y valida offline con tu dataset de evaluacion
    2. Despliega via Ollama junto a tu integracion existente de OpenAI
    3. Implementa un router simple (10% Ollama / 90% OpenAI)
    4. Agrega registro para todas las metricas (completacion de tareas, satisfaccion, errores, latencia, costo)
    5. Ejecuta la Fase 1 durante 2-4 semanas
    6. Analiza resultados, ajusta el entrenamiento si es necesario y avanza a traves de las fases

    La prueba A/B elimina el riesgo de la migracion. No estas adivinando si tu modelo ajustado es suficientemente bueno — lo estas midiendo. Y en la mayoria de los casos, los datos dicen: es mejor Y mas barato.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading