Calidad de Datos vs. Cantidad: Por Qué 250 Buenos Ejemplos Superan a 10,000 Malos

Existe una suposición persistente en fine-tuning de que más datos siempre es mejor. Suena razonable — se supone que el machine learning requiere muchos datos, y los modelos más grandes fueron entrenados con trillones de tokens. Así que cuando tu modelo ajustado tiene bajo rendimiento, el instinto es recopilar más datos de entrenamiento.

Ese instinto usualmente está equivocado. Para fine-tuning específicamente, la calidad de datos domina sobre la cantidad de datos por un amplio margen. La evidencia es fuerte, el mecanismo es bien entendido, y las implicaciones prácticas ahorran a los equipos semanas de recopilación de datos desperdiciada.

El Hallazgo Contraintuitivo

A principios de 2025, Kiln ejecutó un experimento de destilación que ilustra el punto claramente. Tomaron Gemma 3 27B y lo ajustaron con solo 250 ejemplos sintéticos cuidadosamente curados — generados desde GPT-4o con filtrado de calidad estricto. El modelo resultante igualó el rendimiento few-shot de GPT-4o en la tarea objetivo.

250 ejemplos. No 25,000. No 2,500. Doscientos cincuenta.

Este no es un resultado aislado. El paper LIMA de Microsoft demostró que 1,000 ejemplos cuidadosamente seleccionados podían producir un modelo competitivo con modelos entrenados con más de 52,000 ejemplos. El equipo de Alpaca mostró resultados similares con 52,000 ejemplos sintéticos — pero trabajo posterior demostró que filtrar esos 52,000 a los mejores 9,000 mejoró el rendimiento.

El patrón es consistente: un dataset pequeño y de alta calidad supera a uno grande y ruidoso. Siempre.

Qué Hace Que los Datos Sean de "Alta Calidad"

La calidad no es subjetiva cuando se trata de datos de entrenamiento. Se descompone en cinco propiedades medibles:

1. Etiquetas Correctas

Esta es la más obvia y la más importante. Cada par entrada-salida en tu dataset debe tener la salida correcta. Para clasificación, eso significa la categoría correcta. Para generación, eso significa una salida que estarías satisfecho viendo en producción.

El daño de las etiquetas incorrectas no es proporcional — se amplifica. Un solo ejemplo mal etiquetado no solo reduce la precisión en 1/N. Enseña activamente al modelo un patrón incorrecto que entra en conflicto con los ejemplos correctos, creando confusión en las representaciones aprendidas.

Cómo medir: Haz que un experto de dominio (o un segundo anotador) revise una muestra aleatoria de 50-100 ejemplos. Si la tasa de desacuerdo es superior al 5%, tienes un problema de calidad de etiquetado.

Benchmark: En nuestra experiencia, los datasets con más del 95% de precisión de etiquetas consistentemente superan a datasets 3-5 veces más grandes con 85% de precisión. El punto de cruce es aproximadamente: un dataset con 500 ejemplos al 97% de precisión iguala a un dataset con 2,000 ejemplos al 88% de precisión.

2. Entradas Diversas

Tus ejemplos de entrenamiento deberían cubrir el rango de entradas que tu modelo verá en producción. Un dataset de 1,000 ejemplos que todos se ven similares es funcionalmente equivalente a un dataset de 200 ejemplos diversos — el modelo aprende el mismo conjunto limitado de patrones de cualquier forma.

La diversidad significa:

Cobertura de temas. Todas las categorías o tipos de entrada relevantes están representados.
Distribución de dificultad. Ejemplos fáciles, medios y difíciles están todos incluidos.
Variedad estilística. Diferentes formulaciones, longitudes, niveles de formalidad.
Inclusión de casos extremos. Casos ambiguos, inusuales o límite aparecen proporcionalmente.

Cómo medir: Incrusta todas las entradas usando un modelo de embedding de oraciones (ej., BGE o E5) y grafica la proyección 2D UMAP. Si ves clusters apretados con espacio vacío entre ellos, tu diversidad es baja. Quieres cobertura amplia y relativamente uniforme.

3. Distribución Representativa

La distribución de ejemplos en tus datos de entrenamiento debería coincidir con la distribución de entradas en producción. Si el 45% de las entradas de producción son categoría A, aproximadamente el 45% de los ejemplos de entrenamiento deberían ser categoría A.

Esto suena obvio, pero la mayoría de los datasets sintéticos lo hacen mal. Cuando le pides a un modelo frontera "generar ejemplos diversos a través de 5 categorías", tiende a producir números aproximadamente iguales por categoría — independientemente de cómo se vea la distribución real.

Un modelo entrenado con datos balanceados cuando los datos de producción son desequilibrados será sobreconfiado en categorías raras y subconfiado en las comunes.

Cómo medir: Compara la distribución de categorías de tus datos de entrenamiento con una muestra de entradas de producción. Usa chi-cuadrado o divergencia KL para cuantificar el desajuste.

4. Formato Limpio

El formato consistente enseña al modelo la estructura de salida. El formato inconsistente enseña al modelo que la estructura no importa.

Si algunos ejemplos de entrenamiento usan encabezados markdown y otros texto plano, algunos usan listas numeradas y otros viñetas, algunos incluyen espacios en blanco finales y otros no — el modelo aprende que todos estos son aceptables. En producción, mezclará formatos aleatoriamente.

Cómo medir: Escribe reglas de validación de formato (regex o verificaciones de esquema) y ejecútalas a través de todo tu dataset. Marca cualquier ejemplo que se desvíe de tu formato objetivo. Un dataset bien formateado tiene menos del 2% de violaciones de formato.

5. Trazas de Razonamiento (Cuando Aplica)

Para tareas que involucran razonamiento — clasificación con explicaciones, análisis de múltiples pasos, toma de decisiones — incluir el proceso de razonamiento en la salida mejora dramáticamente la calidad.

Un ejemplo de entrenamiento que dice {"category": "billing_error"} enseña al modelo a producir la respuesta correcta. Un ejemplo de entrenamiento que dice {"reasoning": "The customer mentions being charged twice for the same item, which indicates a billing error rather than a refund request", "category": "billing_error"} enseña al modelo a razonar correctamente, lo que generaliza mucho mejor.

Cómo medir: Verifica si las salidas incluyen trazas de razonamiento. Si tu tarea se beneficia del razonamiento (la mayoría de las tareas sí), cada ejemplo debería incluir una. Los modelos entrenados con trazas de razonamiento típicamente obtienen 5-15% más en conjuntos de evaluación retenidos.

El Problema del Ruido

Los ejemplos mal etiquetados no simplemente agregan ruido al entrenamiento — degradan activamente el modelo. Aquí está el porqué:

Durante fine-tuning, el modelo ajusta sus pesos para producir la salida mostrada en cada ejemplo de entrenamiento. Cuando el ejemplo #47 dice que la entrada X debería producir la salida A, y el ejemplo #312 dice que una entrada similar X' debería producir la salida B (donde B está equivocada), el modelo recibe señales de gradiente contradictorias. No puede aprender ambas. El resultado es un compromiso que es peor de lo que sería cualquiera por separado.

En la práctica, un modelo de 7B ajustado con 1,000 ejemplos con 10% mal etiquetados (100 ejemplos malos) rinde comparablemente al mismo modelo ajustado con 600-700 ejemplos limpios. Esos 100 ejemplos malos no solo desperdician espacio — borran activamente el beneficio de 200-300 buenos.

Por esto, limpiar 1,000 ejemplos es casi siempre una mejor inversión que recopilar 2,000 más.

Fuentes de Ruido a Vigilar

Desacuerdo entre anotadores. Diferentes anotadores etiquetando la misma entrada de forma diferente. Común cuando las guías de tarea son ambiguas.

Deriva de etiquetas. Estándares de anotación que evolucionan con el tiempo sin corregir retroactivamente los ejemplos anteriores. Los primeros 500 ejemplos usan una interpretación; los últimos 500 usan una ligeramente diferente.

Errores de copiar y pegar. Pares entrada-salida que se mezclaron, truncaron o corrompieron durante el procesamiento de datos.

Alucinaciones de datos sintéticos. Si generaste datos de entrenamiento usando un modelo frontera, algún porcentaje contendrá hechos alucinados, razonamiento inconsistente o salidas que contradicen sutilmente los requisitos de tu tarea.

Ejemplos desactualizados. Datos de entrenamiento que reflejan reglas de negocio antiguas, categorías obsoletas o productos descontinuados.

El Proceso de Mejora de Calidad

Aquí hay un proceso práctico, paso a paso para mejorar la calidad del dataset. Funciona ya sea que tu dataset tenga 200 o 20,000 ejemplos.

Paso 1: Auditoría Aleatoria (30-60 minutos)

Extrae 50 ejemplos aleatorios de tu dataset. Lee cada uno cuidadosamente. Para cada ejemplo, pregunta:

¿La salida es correcta?
¿Estaría satisfecho viendo esta salida en producción?
¿El formato es consistente con otros ejemplos?
¿El razonamiento (si está presente) realmente respalda la conclusión?

Rastrea la tasa de error. Si más de 3 de 50 (6%) tienen problemas, tienes un problema de calidad sistémico que afectará el rendimiento del modelo.

Paso 2: Corregir Inconsistencias de Etiquetado (1-3 horas)

La auditoría usualmente revela patrones — categorías específicas que se confunden, casos extremos donde los anotadores discreparon, inconsistencias de formato en ciertos tipos de salida.

Escribe reglas explícitas para cada patrón que encuentres. Luego aplica esas reglas a través de todo el dataset. Para un dataset de 1,000 ejemplos, esto típicamente toma 1-3 horas y corrige el 5-15% de los ejemplos.

Paso 3: Eliminar Casi-Duplicados (15 minutos)

Calcula la similitud de embedding entre todos los pares de entradas. Elimina ejemplos donde la similitud de coseno exceda 0.92-0.95. Los casi-duplicados desperdician capacidad de entrenamiento sin agregar información.

Resultado típico: 3-8% de los ejemplos son casi-duplicados. En datasets sintéticos, esto puede ser tan alto como 15-20%.

Paso 4: Balancear Distribución (30-60 minutos)

Compara la distribución de categorías de tu dataset con tu distribución de producción. Si alguna categoría está sobrerepresentada por más de 2x, submuestréala. Si alguna categoría está subrepresentada por más de 2x, genera o recopila más ejemplos para ella.

Paso 5: Validar Formato (15 minutos)

Escribe verificaciones de formato automatizadas y ejecútalas a través de todo el dataset. Corrige o elimina cualquier ejemplo que falle. Problemas comunes: claves JSON inconsistentes, capitalización mezclada en etiquetas, espacios en blanco finales, formato de lista inconsistente.

Paso 6: Revisión Humana Final de Ejemplos Marcados (1-2 horas)

Cualquier ejemplo que fue dudoso en los pasos 1-5 recibe una revisión humana final. La meta es un dataset donde estés seguro de que cada ejemplo individual es correcto, bien formateado y representativo.

Tiempo total para 1,000 ejemplos: 4-8 horas. Esta inversión típicamente mejora el rendimiento del modelo en 5-15% en evaluación retenida — equivalente a la mejora que obtendrías de recopilar 2,000-5,000 ejemplos adicionales sin curar.

Métricas de Calidad a Rastrear

Rastrea estas a través de cada versión del dataset:

Precisión de etiquetas (verificada por segundo revisor): objetivo mayor a 96%
Tasa de cumplimiento de formato (verificaciones automatizadas): objetivo mayor a 98%
Ratio de deduplicación (% de casi-duplicados): objetivo menor al 5%
Coincidencia de distribución (divergencia KL desde producción): menor es mejor
Acuerdo inter-anotador (si hay múltiples anotadores): objetivo mayor a 90% (kappa de Cohen mayor a 0.8)

Registra estas métricas junto con tus métricas de evaluación del modelo. Cuando el rendimiento del modelo baja, verificar las métricas de calidad de datos primero identificará la causa más rápido que cualquier cantidad de ajuste de hiperparámetros.

Cuándo la Cantidad Sí Importa

La dominancia de la calidad de datos tiene límites. Hay casos donde genuinamente necesitas más datos, no solo mejores datos:

Tareas muy complejas con grandes espacios de salida. Si las salidas correctas son largas, variadas y estructuralmente complejas (generación de escritos legales, resumen de informes médicos), el modelo necesita más ejemplos para cubrir el espacio de salida. 250 ejemplos no pueden capturar la diversidad de posibles salidas correctas.

Tareas multilingües. Cada idioma efectivamente necesita su propio mini-dataset. Una tarea de clasificación de 10 idiomas necesita aproximadamente 500-1,000 ejemplos por idioma — así que 5,000-10,000 en total.

Tareas con muchas categorías. Un clasificador de 50 clases necesita suficientes ejemplos por clase para aprender los límites de decisión. Con 30-50 ejemplos por clase como mínimo, eso son 1,500-2,500 ejemplos incluso con calidad perfecta.

Aplicaciones de alto riesgo. Las tareas médicas, legales y financieras donde las tasas de error deben ser minimizadas se benefician de datasets más grandes que cubran más casos extremos. La curva de rendimientos decrecientes aún aplica, pero la tasa de error aceptable es más baja, así que avanzas más en ella.

Incluso en estos casos, la calidad aún importa más que la cantidad por ejemplo. Una tarea multilingüe con 10,000 ejemplos limpios superará a una con 30,000 ejemplos ruidosos. La necesidad de cantidad no te exime de los estándares de calidad.

La Conclusión Práctica

Antes de recopilar más datos, haz estas preguntas:

¿Cuál es mi precisión de etiquetas actual? Si está por debajo del 95%, limpiar ayudará más que recopilar.
¿Cómo se ve mi curva de aprendizaje? Si es plana, más datos no ayudarán independientemente de la calidad.
¿Cuál es mi ratio de deduplicación? Si está por encima del 10%, tu dataset efectivo es más pequeño de lo que crees.
¿Mi distribución coincide con producción? Si no, rebalancear ayudará más que agregar volumen.

Los equipos con los mejores modelos ajustados no son los que tienen más datos. Son los que tratan la calidad de datos como una disciplina de ingeniería — midiéndola, rastreándola y mejorándola sistemáticamente antes de buscar escala.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lecturas Relacionadas

Generación de Datos Sintéticos para Fine-Tuning: Técnicas Que Funcionan — cómo generar ejemplos sintéticos de alta calidad cuando los datos reales son escasos
100 vs 1,000 vs 10,000 Ejemplos de Entrenamiento: ¿Cuántos Datos Realmente Necesitas? — benchmarks que muestran dónde más datos ayuda y dónde llega a rendimientos decrecientes