Generación de Datos Sintéticos para Fine-Tuning: Técnicas Que Funcionan

Cada proyecto de fine-tuning choca con la misma pared: necesitas miles de ejemplos etiquetados de alta calidad, y tienes quizás un centenar. Recopilar y anotar datos reales es lento, caro, y frecuentemente bloqueado por restricciones de privacidad. Este es el cuello de botella de datos, y mata más proyectos de fine-tuning que cualquier desafío técnico.

La generación de datos sintéticos resuelve esto usando modelos frontier para producir datos de entrenamiento para modelos más pequeños. El concepto es simple — usa GPT-4, Claude, u otro modelo capaz como maestro para generar los ejemplos de los que tu modelo estudiante aprenderá. La ejecución, sin embargo, requiere técnica deliberada para evitar las muchas formas en que los datos sintéticos pueden salir mal.

Esta guía cubre las técnicas que producen consistentemente datos de entrenamiento utilizables, las señales de calidad que importan y los modos de falla a vigilar.

El Caso de los Datos Sintéticos

Ajustar un modelo de 7B en una tarea estrecha típicamente requiere 1,000 a 5,000 ejemplos. Para la mayoría de los equipos, reunir ese volumen de datos reales y etiquetados es la parte más difícil de todo el pipeline. Los datos o no existen todavía, viven en sistemas con restricciones de acceso, o requieren que expertos del dominio los etiqueten — expertos cuyo tiempo es caro y limitado.

La generación de datos sintéticos invierte la economía. Un modelo frontier puede generar mil ejemplos etiquetados en minutos por centavos. La calidad no es idéntica a datos cuidadosamente curados por humanos, pero para muchas tareas es suficientemente cercana — y la ventaja de velocidad es de órdenes de magnitud.

La idea clave es que la generación de datos sintéticos no se trata de reemplazar datos reales. Se trata de arrancar un dataset lo suficientemente grande para hacer fine-tuning efectivamente, y luego mejorarlo incrementalmente con datos reales de producción con el tiempo.

Técnica 1: Generación Directa de Tareas

El enfoque más simple es pedirle a un modelo frontier que genere pares de entrada-salida para tu tarea directamente.

Para un clasificador de tickets de soporte, el prompt podría ser:

Generate 20 diverse customer support tickets with their correct category labels.
Categories: billing, technical, shipping, account, general.
Format each as JSON: {"input": "ticket text", "output": "category"}
Include a mix of easy and ambiguous cases.
Vary the writing style, length, and tone across examples.

Esto funciona bien para tareas donde el modelo frontier ya entiende el dominio. La clave es la especificidad en tu prompt: describe el formato de salida exactamente, solicita diversidad explícitamente, e incluye casos extremos por nombre.

Cuándo usarla: Creación de dataset en etapa temprana cuando tienes cero o muy pocos ejemplos reales. Bueno para obtener un dataset base rápidamente.

Limitaciones: El modelo genera desde su propia distribución, que puede no coincidir con tu distribución real de producción. Los ejemplos tienden a agruparse alrededor de patrones comunes a menos que activamente impulses la diversidad.

Técnica 2: Expansión Basada en Semillas

Comienza con un pequeño conjunto de ejemplos reales (incluso 30-50 es suficiente) y usa un modelo frontier para generar variaciones.

La estructura del prompt es:

Here are 5 real examples of [task]:
[example 1]
[example 2]
...

Generate 20 new examples that follow the same patterns but with different
content. Maintain the same format, difficulty distribution, and style
variation as the originals. Do not repeat or closely paraphrase the originals.

La expansión basada en semillas produce datos mejor calibrados a tu distribución real porque el modelo se ancla en ejemplos reales. Los datos generados heredan las convenciones de formateo, niveles de dificultad y especificidades del dominio de tus semillas.

Cuándo usarla: Cuando tienes algunos datos reales pero no suficientes. Esta es la técnica más comúnmente útil para proyectos prácticos de fine-tuning.

Consejo: Rota qué ejemplos semilla incluyes entre lotes de generación. Si siempre muestras las mismas 5 semillas, los datos generados se agruparán alrededor de esos patrones específicos. Muestrear diferentes semillas por lote produce mejor cobertura.

Técnica 3: Extracción de Cadena de Pensamiento

Para tareas donde el razonamiento importa — no solo la respuesta final — genera tanto la traza de razonamiento como la salida.

For each of the following questions, provide:
1. Step-by-step reasoning (2-4 sentences)
2. The final answer

Question: [input]

Ajustar un modelo estudiante con ejemplos que incluyen cadenas de razonamiento produce resultados notablemente mejores que entrenar solo con pares de entrada-salida. El estudiante aprende no solo qué producir sino cómo llegar a la salida correcta — y esto se transfiere a entradas nuevas que no ha visto durante el entrenamiento.

Esta técnica es particularmente efectiva para tareas que involucran clasificación con matices, extracción multi-paso, o cualquier escenario donde el límite entre categorías es difuso. La cadena de razonamiento enseña al modelo estudiante a sopesar los mismos factores que el modelo maestro considera.

Cuándo usarla: Cualquier tarea donde la respuesta correcta requiere juicio o razonamiento multi-paso. Menos útil para tareas simples de coincidencia de patrones como conversión de formato.

Técnica 4: Filtrado Adversario

No todos los datos sintéticos son buenos datos. El filtrado adversario usa un segundo modelo (o el mismo modelo en un rol diferente) para identificar y eliminar ejemplos de baja calidad de tu dataset generado.

El proceso:

Genera un lote de ejemplos sintéticos usando las técnicas 1-3
Presenta cada ejemplo a un modelo revisor con el prompt: "¿Es este un ejemplo válido y realista de [tarea]? Califica la calidad 1-5 y explica cualquier problema."
Elimina los ejemplos calificados por debajo de 4
Para ejemplos límite, revisa en lugar de descartar: "Este ejemplo tiene [problema]. Reescríbelo para arreglar el problema manteniendo el mismo contenido general."

Esto agrega costo — estás ejecutando inferencia dos veces por ejemplo — pero la mejora de calidad es sustancial. En la práctica, el filtrado adversario elimina el 15-30% de los ejemplos generados, y el dataset resultante entrena modelos notablemente mejores.

Cuándo usarla: Siempre, si tu presupuesto lo permite. El costo de filtrar es pequeño comparado con el costo de entrenar con datos malos y depurar problemas de calidad río abajo.

Señales de Calidad Que Importan

Más allá del filtrado adversario, aplica estas verificaciones automatizadas de calidad a tu dataset sintético:

Verificaciones de consistencia. Para tareas de clasificación, genera cada entrada dos veces con diferentes prompts. Si la etiqueta asignada cambia, el ejemplo es ambiguo — arréglalo o elimínalo.

Validación de formato. Analiza cada salida programáticamente. Si tu tarea espera JSON, valida el JSON. Si espera un conjunto específico de etiquetas, verifica que la etiqueta esté en el conjunto permitido. Rechaza cualquier cosa que no se analice limpiamente.

Deduplicación. La generación sintética frecuentemente produce cuasi-duplicados, especialmente con la generación directa de tareas. Usa similitud de embeddings para identificar y eliminar ejemplos demasiado cercanos entre sí. Un umbral de similitud coseno de 0.95 captura la mayoría de los duplicados problemáticos mientras preserva ejemplos legítimamente similares pero diferentes.

Equilibrio de distribución. Verifica que tu dataset generado cubra el espacio de entrada uniformemente. Si estás generando tickets de soporte a través de 5 categorías, verifica que ninguna categoría domine. Los datos de entrenamiento desequilibrados producen modelos sesgados.

Cuántos Datos Sintéticos Necesitas

Más no siempre es mejor. Para la mayoría de las tareas de fine-tuning, hay rendimientos decrecientes claros:

500-1,000 ejemplos: Mejora notable sobre el modelo base para tareas simples
2,000-5,000 ejemplos: Punto ideal para la mayoría de las tareas estrechas, ganancias sustanciales de calidad
5,000-10,000 ejemplos: Ganancias marginales, vale la pena para aplicaciones críticas de producción
Más de 10,000 ejemplos: Raramente justificado a menos que la tarea sea excepcionalmente compleja o diversa

Grafica tus métricas de evaluación contra el tamaño del dataset durante el desarrollo. Cuando la curva se aplana, tienes suficientes datos. Generar más no ayudará — mejorar la calidad de los datos sí.

Mezclando Datos Reales y Sintéticos

Los datasets de fine-tuning más fuertes combinan ejemplos reales y sintéticos. Una proporción práctica es la regla 80/20: 80% datos sintéticos para volumen y diversidad, 20% datos reales de producción para calibración de distribución.

Los datos reales anclan el modelo en patrones de producción reales. Los datos sintéticos llenan vacíos en cobertura y proporcionan el volumen necesario para un entrenamiento robusto. Juntos, producen modelos que están tanto bien calibrados como bien generalizados.

A medida que tu sistema de producción acumula más datos reales con el tiempo, aumenta gradualmente la proporción real-a-sintético. Los datos sintéticos son andamiaje — invaluable para empezar, pero idealmente reemplazado por datos reales a medida que estén disponibles.

Modos de Falla Comunes

Colapso de modos. El modelo frontier genera ejemplos que parecen diversos en la superficie pero que en realidad se agrupan alrededor de unos pocos patrones. Diagnostica embebiendo tus datos generados y visualizando los clusters. Arregla usando prompts más diversos y expansión basada en semillas con semillas variadas.

Desajuste de distribución. Los datos sintéticos reflejan las distribuciones previas del modelo frontier, no tu distribución de producción. Si tu app maneja 60% preguntas de facturación y 10% problemas técnicos, pero los datos sintéticos están uniformemente distribuidos, el modelo ajustado tendrá peor rendimiento en consultas de facturación. Arregla haciendo coincidir la distribución sintética con tus patrones de tráfico real.

Sobreajuste en artefactos del maestro. Los modelos frontier tienen tendencias estilísticas — ciertas frases, hábitos de formato, patrones de cobertura. Si tus datos sintéticos preservan estos artefactos, el modelo estudiante los aprende también. Arregla variando el prompt de generación, usando múltiples modelos maestros, y post-procesando las salidas para eliminar huellas estilísticas.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Cómo Ertas Vault Maneja Flujos de Trabajo de Datos Sintéticos

Ertas Vault está construido para gestionar el ciclo de vida completo de datos sintéticos. Importa datasets generados con validación automática de formato. Ejecuta deduplicación y análisis de distribución al subir. Versiona tus datasets para que puedas rastrear qué datos produjeron qué modelo. Compara el rendimiento del modelo a través de versiones del dataset para identificar qué técnicas de generación funcionan mejor para tu tarea específica.

La plataforma soporta refinamiento iterativo: genera un lote, entrena un modelo, evalúa, identifica vacíos, genera datos dirigidos para esos vacíos, y reentrena. Este ciclo de retroalimentación es donde la generación de datos sintéticos transiciona de un arranque único a un proceso de mejora continua.