CI/CD para Pipelines de Fine-Tuning: Automatizando Entrenar-Evaluar-Desplegar

Tu primer fine-tune fue manual. Curaste datos a mano, iniciaste el entrenamiento, miraste los resultados, convertiste a GGUF, lo cargaste en Ollama y lo probaste tú mismo. Tomó un día. Quizás dos.

Eso funciona una vez. No funciona cuando tienes cuatro clientes, cada uno con ciclos de reentrenamiento mensuales, cada uno con diferentes criterios de evaluación, y cada uno esperando cero tiempo de inactividad. El fine-tuning manual se rompe en el segundo cliente. Para el cuarto, estás dedicando más tiempo al proceso que a la mejora real del modelo.

La solución es la misma que la ingeniería de software resolvió hace décadas: CI/CD. Integración continua y despliegue continuo, adaptado para pipelines de fine-tuning. Aquí está exactamente cómo construir uno.

El Pipeline de un Vistazo

Un pipeline CI/CD de fine-tuning tiene siete etapas:

Disparador — algo inicia el pipeline
Validación de datos — confirmar que los datos de entrenamiento están limpios y son suficientes
Fine-tune — ejecutar el trabajo de entrenamiento real
Evaluar — ejecutar el modelo contra tu suite de pruebas
Comparar — comparar contra el modelo actual de producción
Desplegar — promover el nuevo modelo si pasa todas las puertas
Monitorear — observar métricas de producción post-despliegue

Cada etapa tiene un criterio claro de pasa/falla. Si alguna etapa falla, el pipeline se detiene y te alerta. No se requiere humano en el bucle para el camino feliz.

Eligiendo Tus Disparadores

No cada ejecución del pipeline necesita un humano haciendo clic en "ir." Tres tipos de disparadores cubren la mayoría de los escenarios:

Disparadores programados funcionan mejor para cargas de trabajo estables y predecibles. Establece una cadencia mensual. El pipeline se ejecuta el primer martes de cada mes, reentrena con cualquier dato nuevo acumulado y promueve si el nuevo modelo es mejor. Si el nuevo modelo no es mejor, nada cambia. Esfuerzo humano total: leer el email de resumen.

Disparadores por umbral de datos se activan cuando has acumulado suficientes nuevos ejemplos de entrenamiento. Establece un umbral — digamos 500 nuevos ejemplos validados — y el pipeline se activa automáticamente. Esto funciona bien para aplicaciones de alto volumen donde llegan datos nuevos diariamente.

Disparadores por umbral de calidad son reactivos. Tu sistema de monitoreo detecta que la precisión de producción ha caído por debajo del 85%. Activa el pipeline. El modelo reentrena con datos actualizados, evalúa y despliega si corrige la regresión. Esta es tu red de seguridad.

Combinar disparadores es el enfoque práctico. La mayoría de los equipos ejecutan disparadores programados como su base y disparadores por umbral de calidad como su red de seguridad. Un reentrenamiento mensual programado maneja la deriva gradual. Un disparador por umbral de calidad captura la degradación repentina — como cuando una actualización de producto cambia la distribución de datos de la noche a la mañana.

Los disparadores por umbral de datos son un bonus para casos de uso de alto volumen. Si estás procesando más de 10,000 solicitudes por día y recolectando retroalimentación de cada una, acumularás datos de entrenamiento lo suficientemente rápido para justificar reentrenamiento más frecuente.

Una regla importante: los disparadores deben tener un período de enfriamiento. Si un disparador por umbral de calidad se activa y reentrena, suprime disparadores adicionales durante al menos 48 horas. De lo contrario arriesgas un bucle donde una métrica ruidosa dispara reentrenamiento repetidamente.

Etapa 1: Validación de Datos

Antes de gastar cómputo en entrenamiento, valida tus datos. Esta etapa captura problemas que de otro modo desperdiciarían horas de tiempo de fine-tuning.

Verificación de volumen: ¿Tienes suficientes ejemplos nuevos? Si estás reentrenando mensualmente y solo acumulaste 12 nuevos ejemplos, el pipeline debería omitir este ciclo. Establece un umbral mínimo — 100 nuevos ejemplos es un punto de partida razonable.

Validación de formato: Cada ejemplo debe conformarse a tu esquema de entrenamiento. Para fine-tuning de chat, eso significa arrays válidos de mensajes system/user/assistant. Para tareas de completación, pares de entrada/salida válidos. Los ejemplos malformados deben ser marcados y puestos en cuarentena, no descartados silenciosamente.

Verificación de distribución: Compara la distribución de etiquetas de tus nuevos datos contra tu conjunto de entrenamiento existente. Si tu nuevo lote es 90% una categoría, eso es una señal que vale la pena investigar. Podría ser legítimo (cambio estacional) o podría indicar un bug en la recolección de datos.

Deduplicación: Elimina duplicados exactos y casi exactos. Los casi-duplicados dentro de una similitud de Jaccard de 0.95 deben ser marcados. Los ejemplos de entrenamiento duplicados causan sobreajuste en esos patrones específicos.

Puntuación de calidad: Si tienes una métrica de calidad para ejemplos individuales (longitud de respuesta, cumplimiento de formato, calificaciones humanas), filtra los ejemplos debajo de tu umbral de calidad. Un ejemplo de entrenamiento malo puede deshacer el beneficio de diez buenos.

Si la validación falla, el pipeline se detiene y envía un reporte detallado: cuántos ejemplos fallaron, qué verificaciones fallaron y muestras representativas de los fallos. Corriges los datos y disparas manualmente de nuevo. No auto-corrijas — las decisiones de calidad de datos necesitan juicio humano.

Etapa 2: Fine-Tuning

Con datos validados, el pipeline llama a la API de fine-tuning de Ertas. Esta etapa es directa porque el trabajo difícil — selección de hiperparámetros, elección del modelo base — se hizo durante tu fine-tune manual inicial.

Tu configuración del pipeline fija los parámetros de entrenamiento:

Modelo base: el mismo que validaste manualmente (ej., Llama 3.1 8B)
Rango LoRA: tu configuración validada (típicamente r=16 o r=32)
Tasa de aprendizaje: tu tasa validada (típicamente 2e-4)
Épocas: fijas o early-stopping basado en pérdida de validación
Datos de entrenamiento: conjunto fusionado de ejemplos existentes + nuevos validados

La idea clave: tu pipeline CI/CD no debería estar experimentando con hiperparámetros. Esa experimentación ocurre durante el desarrollo. El pipeline ejecuta la receta probada con datos actualizados.

El tiempo de entrenamiento depende del tamaño del dataset y el modelo. Para un modelo típico de 8B parámetros con 2,000-5,000 ejemplos, espera 30-90 minutos. El pipeline espera, consulta por completación y avanza a la evaluación.

Versiona todo. Cada ejecución de entrenamiento debe producir un artefacto versionado con metadata: el hash del dataset, la versión del modelo base, los hiperparámetros y la marca de tiempo del entrenamiento. Cuando necesites depurar una regresión seis meses después, querrás saber exactamente qué entró en cada versión del modelo.

# Example artifact metadata
run_id: ft-2026-02-26-001
base_model: llama-3.1-8b
dataset_hash: sha256:a4f8e2...
dataset_size: 3,847 examples
lora_rank: 16
learning_rate: 2e-4
epochs: 3
training_duration: 47m
timestamp: 2026-02-26T04:00:00Z

Etapa 3: Suite de Evaluación

Aquí es donde la mayoría de los equipos subinvierten y donde la mayoría de los fallos del pipeline deberían ser capturados. Tu suite de evaluación necesita cubrir cuatro dimensiones:

Métricas de precisión: Ejecuta el nuevo modelo contra tu conjunto de prueba reservado. Mide métricas específicas de la tarea — F1 para clasificación, ROUGE o puntuaciones de preferencia humana para generación, coincidencia exacta para extracción estructurada. Necesitas un número, no una sensación.

Pruebas de regresión: Un conjunto curado de 50-200 ejemplos que el modelo de producción maneja correctamente. Estos son tus casos de "no deben romperse." Si el nuevo modelo falla en alguno de estos, eso es una regresión, y necesita investigación.

Benchmarks de latencia: Ejecuta 100 llamadas de inferencia y mide latencia p50, p95 y p99. Los modelos ajustados no deberían ser más lentos que el modelo base por más del 10%. Si lo son, algo salió mal en el entrenamiento o la cuantización.

Verificaciones de seguridad: Ejecuta tu conjunto de evaluación de seguridad — prompts adversariales, casos extremos, temas sensibles. El nuevo modelo debe pasar cada verificación de seguridad. Sin excepciones, sin umbrales. Pasa/falla binario.

Almacena todos los resultados de evaluación como artefactos. Querrás comparar entre ejecuciones del pipeline para detectar tendencias.

Etapa 4: Puertas de Promoción

La evaluación produce números. Las puertas de promoción convierten esos números en una decisión de desplegar/no desplegar. Aquí están las puertas que funcionan en la práctica:

Puerta	Criterio	Acción si Falla
Precisión	>= precisión del modelo de producción	Bloquear despliegue
Mejora de precisión	>= 0.5% mejora O sin regresión	Permitir pero marcar
Pruebas de regresión	100% tasa de aprobación	Bloquear despliegue
Latencia p95	Dentro del 10% del p95 de producción	Bloquear despliegue
Verificaciones de seguridad	100% tasa de aprobación	Bloquear despliegue
Tamaño del modelo	GGUF dentro del 5% del tamaño del modelo de producción	Advertir

Todas las puertas bloqueantes deben pasar. Si alguna puerta bloqueante falla, el pipeline se detiene, registra la razón del fallo y alerta al equipo. El modelo se archiva para investigación pero no se despliega.

Si todas las puertas pasan, el pipeline procede al despliegue automáticamente. No se necesita aprobación humana. Las puertas son tu proceso de aprobación.

Etapa 5: Despliegue

El despliegue para modelos locales sigue un camino específico: el modelo ajustado se cuantiza a GGUF, se registra como nueva versión y se despliega.

Conversión GGUF: Convierte el adaptador ajustado o modelo fusionado a formato GGUF a tu nivel de cuantización objetivo (Q4_K_M es un valor predeterminado sólido). Verifica que el archivo sea válido y cargable.

Despliegue canary: No cambies el 100% del tráfico inmediatamente. Comienza con 5%. Enruta el 5% de las solicitudes al nuevo modelo, 95% a producción. Monitorea por 2 horas. Si las métricas se mantienen, promueve a 25%. Monitorea por 4 horas más. Luego promueve a 100%.

Integración con Ollama: Actualiza el Modelfile para apuntar al nuevo GGUF. Recarga el modelo en Ollama. Verifica que el modelo responda correctamente a un prompt de prueba de humo.

La etapa completa de despliegue, excluyendo las ventanas de monitoreo canary, toma menos de 5 minutos. El monitoreo canary agrega 6 horas de observación automatizada.

Mantén cada versión desplegada del modelo archivada. El almacenamiento es barato. La capacidad de hacer rollback a cualquier versión anterior — no solo la inmediatamente anterior — es invaluable cuando se descubre una regresión días o semanas después del despliegue.

Etapa 6: Monitoreo Post-Despliegue

El pipeline no termina en el despliegue. El monitoreo post-despliegue se ejecuta durante 24 horas después de la promoción completa:

Hora 1: Verificar tasas de error, latencia y calidad básica de salida cada 5 minutos
Horas 1-6: Verificar cada 15 minutos, comparar contra la línea base de producción
Horas 6-24: Verificar cada hora, vigilar degradación gradual

Si alguna métrica cae por debajo de la línea base de producción en más del 5% durante la ventana de monitoreo, el pipeline dispara un rollback automático. Rollback significa: recargar el GGUF anterior, revertir el Modelfile, restaurar el 100% del tráfico al modelo anterior. Tiempo total de rollback: menos de 30 segundos con adaptadores LoRA, menos de 2 minutos con intercambios de modelo completo.

El auto-rollback no es opcional. Es la red de seguridad que hace aceptable el despliegue completamente automatizado. Sin él, necesitas un humano observando cada despliegue. Con él, el pipeline puede ejecutarse a las 3 AM y tú duermes tranquilo.

Registra cada rollback con contexto completo: qué métrica lo disparó, los valores exactos al momento del disparo, la versión del modelo que se revirtió y la versión del modelo que se restauró. Este registro se convierte en tu punto de partida para depuración.

Cuánto Cuesta Esto

Tiempo de configuración: 8-16 horas para construir el pipeline de principio a fin. Esto incluye escribir la suite de evaluación (la mayor inversión de tiempo), configurar disparadores, establecer monitoreo y probar la ruta de rollback.

Mantenimiento continuo: 1-2 horas por mes. Revisar resúmenes de ejecuciones del pipeline, actualizar ejemplos de evaluación, ajustar umbrales a medida que tu aplicación evoluciona.

Lo que ahorra: 10-20 horas por mes de trabajo manual de fine-tuning, evaluación y despliegue. Para agencias gestionando múltiples modelos de clientes, multiplica eso por el conteo de clientes.

El punto de equilibrio es el primer mes. Para el segundo mes, estás operando a un ritmo que los procesos manuales no pueden igualar.

Qué NO Automatizar (Aún)

No todo pertenece al pipeline desde el día uno:

Tu primer fine-tune siempre debería ser manual. Necesitas entender el proceso, los datos, los modos de fallo y los criterios de evaluación antes de poder automatizarlos.

El diseño de criterios de evaluación requiere juicio humano. ¿Qué métricas importan? ¿Cuáles son los umbrales? Estas decisiones dan forma a todo el pipeline. Si te equivocas, automatizas lo incorrecto.

La curación de datos para nuevos tipos de tarea aún necesita un ojo humano. Cuando te estás expandiendo a un nuevo dominio o agregando una nueva capacidad, un humano debería revisar los datos de entrenamiento antes de que entren al pipeline.

El manejo de casos extremos es otra área para mantener manual. Cuando tu modelo encuentra un patrón de entrada genuinamente novedoso — uno que no encaja en categorías o flujos de trabajo existentes — un humano debería decidir cómo manejarlo, etiquetar los ejemplos y agregarlos al conjunto de entrenamiento. El pipeline puede entonces incorporar esos ejemplos en el siguiente ciclo automatizado.

Automatiza la ejecución repetitiva. Mantén a los humanos en el bucle para las decisiones estratégicas.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Para Comenzar

No necesitas construir las siete etapas de una vez. Comienza con tres: fine-tune, evaluar y desplegar. Agrega validación de datos después. Luego disparadores. Luego monitoreo. Cada etapa agrega valor independientemente.

Los equipos que escalan el fine-tuning exitosamente son los que lo tratan como software, no como un experimento científico. Versiona tus datos. Prueba tus modelos. Automatiza tus despliegues. Monitorea tu producción.

El pipeline es una inversión en repetibilidad. Cada paso manual que automatizas es un paso que ya no puede ser olvidado, omitido o hecho inconsistentemente. Así es como pasas de un modelo ajustado a cincuenta.

Un equipo con el que trabajamos pasó de reentrenamientos manuales trimestrales (cada uno tomando dos días) a reentrenamientos automatizados mensuales (cada uno requiriendo 15 minutos de revisión humana). La precisión de su modelo mejoró 12% en seis meses — no por mejores técnicas de entrenamiento, sino por entrenamiento más frecuente con datos más frescos. El pipeline hizo posible la frecuencia. La frecuencia hizo inevitable la mejora.

Lectura Adicional

Fine-Tuning Quality Checklist — los criterios de evaluación que impulsan tus puertas de promoción
QA Your Fine-Tuned Model Before Delivery — construyendo la suite de pruebas de la que depende tu pipeline
The Fine-Tuned Model Ops Lifecycle — dónde encaja CI/CD en el panorama operacional más amplio