Preparación de Datos para Modelos de Lenguaje Pequeños: Calidad Sobre Cantidad

Los modelos de lenguaje grandes — 70B parámetros o más — son notablemente tolerantes con datos de entrenamiento desordenados. Su enorme conteo de parámetros les da suficiente capacidad para absorber contradicciones, tolerar ruido y aún extraer patrones útiles. Si el 5% de tus ejemplos de entrenamiento tienen etiquetas incorrectas, un modelo de 70B apenas lo nota. La relación señal-ruido es suficientemente buena.

Los modelos de lenguaje pequeños — de 3B a 14B parámetros — no tienen este lujo. Con menos parámetros, cada ejemplo de entrenamiento tiene proporcionalmente más influencia en el comportamiento del modelo. Un modelo de 7B ajustado con 2,000 ejemplos le da a cada ejemplo aproximadamente 3.5 millones de parámetros de influencia. Un mal ejemplo no solo agrega ruido — distorsiona activamente los patrones aprendidos del modelo.

Esta es la paradoja de datos de SLM: los modelos que son más prácticos de desplegar (pequeños, rápidos, baratos de ejecutar) son los que exigen más de sus datos de entrenamiento. Entender esta paradoja y preparar datos en consecuencia es lo que separa los proyectos de fine-tuning de SLM que tienen éxito de los que producen modelos mediocres.

Por Qué los Modelos Pequeños Son Implacables

La relación entre el tamaño del modelo y la tolerancia a la calidad de datos no es lineal — es exponencial. Esto es lo que sucede en cada escala:

Modelos de 70B+: Pueden tolerar del 5 al 10% de ruido en etiquetas y aún funcionar bien. Su capacidad les permite "promediar" señales conflictivas. Entrenar con 50,000 ejemplos ruidosos funciona razonablemente bien.

Modelos de 14B: Toleran del 3 al 5% de ruido en etiquetas antes de que el rendimiento se degrade notablemente. Los ejemplos contradictorios crean representaciones confusas que se manifiestan como salidas inconsistentes. Entrenar con 10,000 ejemplos moderadamente limpios es mejor que 50,000 ruidosos.

Modelos de 7B: Toleran menos del 3% de ruido en etiquetas. A esta escala, cada inconsistencia se amplifica. El modelo memoriza patrones malos porque no tiene suficiente capacidad para distinguir señal de ruido. Entrenar con 2,000 ejemplos prístinos consistentemente supera a 10,000 mediocres.

Modelos de 3B: Esencialmente cero tolerancia al ruido en etiquetas. Estos modelos necesitan datos de entrenamiento casi perfectos porque memorizan en lugar de generalizar a partir de patrones. Un puñado de malos ejemplos puede dominar el comportamiento del modelo para tipos de entrada específicos.

La implicación práctica: si estás ajustando un modelo de 7B o menor, tus estándares de calidad de datos necesitan ser significativamente más altos que los que aceptarías para un modelo grande.

Requisitos de Calidad para SLMs

Precisión de Etiquetas: mayor al 95%

Para modelos grandes, el 90% de precisión de etiquetas es frecuentemente aceptable. Para SLMs, el umbral es 95% mínimo, con 98%+ como objetivo.

Cómo lograrlo: doble anotación con revisión experta de desacuerdos. Cada ejemplo en el que dos anotadores estén en desacuerdo es revisado por un tercer anotador experto que toma la decisión final. Este proceso es más costoso que la anotación simple, pero el costo es modesto cuando tu dataset total es de 2,000 ejemplos en lugar de 50,000.

Las matemáticas: doble anotar 2,000 ejemplos con una tasa de desacuerdo del 10% significa que 200 ejemplos necesitan revisión experta. A 2 minutos por revisión, eso son aproximadamente 7 horas de tiempo de experto. Este es un costo trivial comparado con las semanas desperdiciadas re-entrenando un modelo que falla debido a ruido en etiquetas.

Consistencia de Formato: 100%

Los modelos grandes pueden manejar variaciones menores de formato en los datos de entrenamiento — capitalización inconsistente, orden variable de claves JSON, espacios en blanco extra ocasionales. Los SLMs no pueden. Las inconsistencias de formato en los datos de entrenamiento producen directamente inconsistencias de formato en las salidas del modelo.

Si tu modelo debe producir JSON con campos category, confidence y explanation, entonces el 100% de tus ejemplos de entrenamiento deben tener exactamente esos tres campos, en el formato esperado, con los tipos de datos esperados. No el 98%. No el 99%. Todos.

La validación automatizada captura la mayoría de los problemas de formato. Escribe un validador de esquema (JSON Schema o Pydantic) y ejecuta cada ejemplo a través de él antes del entrenamiento. Rechaza y corrige cualquier ejemplo que falle la validación. Esto toma 30 minutos configurar y previene días de depuración de fallas del modelo relacionadas con formato.

Deduplicación: Menos del 1% de Casi-Duplicados

Los casi-duplicados (similitud de coseno mayor a 0.95) son particularmente dañinos para los SLMs porque causan memorización en lugar de generalización. Si 15 ejemplos en tu dataset de 2,000 ejemplos son variaciones de la misma queja de cliente, el modelo memoriza ese patrón de queja a expensas de aprender el manejo general de quejas.

Para datasets grandes (50,000+), el 3% de casi-duplicados es aceptable. Para datasets de tamaño SLM (500-5,000), mantén los casi-duplicados por debajo del 1%.

Proceso de deduplicación: incrustar todos los ejemplos usando un modelo de embedding de oraciones, calcular similitud de coseno por pares, marcar pares por encima de 0.95, mantener la versión de mayor calidad de cada grupo de duplicados.

Distribución de Longitud de Entrada: Coincide con Producción

Esto frecuentemente se pasa por alto pero es críticamente importante para SLMs. Si tus entradas de producción son de 500-2,000 tokens pero tus ejemplos de entrenamiento son todos de 100-300 tokens, el modelo nunca ha visto entradas en la longitud que encontrará en producción. Los modelos grandes manejan este desajuste de longitud de manera algo elegante. Los SLMs no — frecuentemente se degradan significativamente en entradas más largas que sus ejemplos de entrenamiento.

Mide la distribución de longitud de tokens de tus entradas de producción esperadas. Asegúrate de que tus datos de entrenamiento cubran la misma distribución. Específicamente, los percentiles 10 y 90 de longitudes de entrada de entrenamiento deberían delimitar los percentiles 10 y 90 de longitudes de entrada de producción.

Distribución de Clases: Ninguna Categoría por Debajo del 5%

El desequilibrio extremo de clases golpea a los SLMs más fuerte que a los modelos grandes. Un modelo de 70B con 2% de ejemplos en una clase minoritaria podría aún aprender a reconocer esa clase. Un modelo de 7B con el mismo desequilibrio efectivamente ignorará la clase minoritaria — no tiene la capacidad para mantener una representación robusta para tan pocos ejemplos.

Objetivo: ninguna clase por debajo del 5% del dataset total. Si tienes 10 categorías, cada una debería tener al menos 50 ejemplos en un dataset de 1,000 ejemplos. Si una categoría genuinamente ocurre menos del 5% del tiempo en producción, considera sobremuestrearla en los datos de entrenamiento (mientras mantienes el tamaño total del dataset manejable).

La Realidad de "Datos Pequeños"

Para SLMs, el tamaño óptimo de dataset es típicamente 500-5,000 ejemplos. Esto es contraintuitivo para equipos acostumbrados a "más datos siempre es mejor", pero la evidencia es consistente.

500 ejemplos es suficiente para tareas estrechas donde el patrón de entrada/salida es consistente: clasificación en 3-5 categorías, extracción estructurada de un solo tipo de documento, reformateo con un esquema de salida fijo.

1,000-2,000 ejemplos maneja complejidad moderada: clasificación en 10-15 categorías, extracción de múltiples tipos de documentos, generación con longitudes de salida variables.

3,000-5,000 ejemplos se necesita para tareas complejas: razonamiento de múltiples pasos, generación abierta dentro de un dominio, manejo de tipos de entrada diversos con formatos de salida variados.

Más allá de 5,000 ejemplos, agregar más datos para SLMs muestra rendimientos decrecientes a menos que los datos adicionales cubran patrones genuinamente nuevos. Agregar 5,000 más ejemplos que sean similares a los existentes no ayuda — solo agrega redundancia.

El flujo de trabajo práctico: comienza con 500 ejemplos de alta calidad, ajusta, evalúa. Si el rendimiento está por debajo del objetivo, analiza los errores. ¿Están concentrados en categorías específicas (agrega más ejemplos ahí) o distribuidos uniformemente (mejora la calidad de ejemplos en general)?

Cómo Curar por Calidad

Paso 1: Comienza con Ejemplos Revisados por Expertos

Cada ejemplo debe ser creado o revisado por un experto de dominio. Para datasets de SLM, no hay espacio para "suficientemente bueno" — cada ejemplo necesita ser correcto.

La inversión se justifica por las matemáticas: la revisión experta de 2,000 ejemplos a 1-2 minutos cada uno toma 33-66 horas. Distribuida entre 3 expertos durante 2 semanas, eso es 1-2 horas por día por experto. Esta es la inversión más rentable en tu proyecto de fine-tuning.

Paso 2: Elimina Casi-Duplicados

Ejecuta deduplicación usando similitud de coseno con un umbral de 0.95. Para datasets de SLM, también verifica duplicados semánticos — ejemplos que son diferentes en redacción pero idénticos en significado. Estos son más difíciles de detectar automáticamente pero igualmente dañinos para modelos pequeños.

Una verificación práctica: agrupa tus ejemplos usando k-means o HDBSCAN e inspecciona manualmente los clusters más grandes. Los clusters con muchos ejemplos casi idénticos necesitan poda.

Paso 3: Balancea la Distribución de Clases

Cuenta ejemplos por categoría. Identifica clases subrepresentadas. Para cada clase subrepresentada, ya sea recopila más ejemplos o crea ejemplos sintéticos con revisión experta.

Al crear ejemplos sintéticos para equilibrio de clases, siempre haz que un experto de dominio revise los ejemplos sintéticos antes de incluirlos. Los ejemplos sintéticos que son plausibles para un LLM pero incorrectos según los estándares del dominio son peores que no tener ejemplos.

Paso 4: Valida el Formato de Salida

Escribe un validador. Ejecuta cada ejemplo a través de él. Corrige cada falla. Esto no es negociable para SLMs.

Problemas comunes de formato que pasan la revisión manual: espacios en blanco finales, representaciones inconsistentes de nulos (null vs "null" vs "N/A" vs cadena vacía), formatos de fecha inconsistentes, campos opcionales faltantes que a veces están presentes.

Paso 5: Prueba Casos Extremos

Identifica 10-15 categorías de casos extremos con expertos de dominio. Asegúrate de que al menos 3-5 ejemplos por categoría de caso extremo estén en los datos de entrenamiento. Los SLMs necesitan exposición explícita a casos extremos — no pueden generalizar a entradas inusuales desde ejemplos estándar de la manera en que los modelos más grandes a veces pueden.

Anti-Patrones para Preparación de Datos de SLM

Entrenar con Datos Sintéticos No Revisados

Usar un LLM para generar datos sintéticos de entrenamiento y luego ajustar un SLM con esos datos sin revisión experta es la falla de entrenamiento de SLM más común. Los datos sintéticos se ven plausibles pero contienen errores de dominio que el LLM generador no reconoce. El SLM aprende fielmente estos errores.

Los datos sintéticos son útiles para entrenamiento de SLM, pero solo después de revisión experta. Genera candidatos con un LLM, luego haz que expertos de dominio revisen y corrijan cada ejemplo. El LLM ahorra tiempo de anotación (revisar es más rápido que crear desde cero), pero la revisión experta es obligatoria.

Mezclar Múltiples Tareas en Un Dataset

Los SLMs rinden mejor cuando se ajustan para una tarea específica. Entrenar un modelo de 7B para clasificar documentos, extraer entidades y generar resúmenes simultáneamente produce un modelo que hace las tres cosas pobremente. Los modelos grandes pueden manejar entrenamiento multi-tarea porque tienen la capacidad para mantener representaciones separadas para cada tarea.

Para SLMs: un modelo, una tarea. Si necesitas tres capacidades, ajusta tres modelos o ajusta secuencialmente con evaluación cuidadosa en cada paso.

Formato Inconsistente Entre Ejemplos

Los modelos grandes pueden manejar variaciones menores de formato. Los SLMs reproducen cualquier patrón de formato que ven en los datos de entrenamiento — incluyendo inconsistencias. Si algunos ejemplos usan mayúsculas de título y otros usan mayúsculas de oración, el modelo cambiará aleatoriamente entre ellos en tiempo de inferencia.

Estandariza el formato antes del entrenamiento. Elige una convención y aplícala a cada ejemplo: capitalización, puntuación, espaciado, orden de claves, formatos de fecha, formato de números.

Ertas Data Suite tiene su puntuación de calidad calibrada para requisitos de entrenamiento de SLM. Las métricas de calidad aplican umbrales más estrictos para modelos objetivo más pequeños — requisitos de consistencia de etiquetas más altos, ratios de deduplicación más estrictos y verificaciones de cumplimiento de formato más estrictas. La plataforma señala problemas que el entrenamiento de modelos grandes podría tolerar pero el entrenamiento de SLM no puede, para que los equipos detecten problemas de calidad antes de desperdiciar una ejecución de entrenamiento.

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

Lecturas Adicionales

Calidad de Datos Sobre Cantidad: Por Qué 250 Buenos Ejemplos Superan a 10,000 Malos — La evidencia detrás de la preparación de datos que prioriza la calidad, con benchmarks de investigación reciente.
¿Cuántos Datos Necesitas para Fine-Tuning? — Guías de volumen de datos por tipo de tarea y tamaño de modelo.
Limpia Tu Dataset Sin un Equipo de Datos — Pasos prácticos para limpiar datos de entrenamiento cuando no tienes ingenieros de datos dedicados.