La Distribución de Datos Importa Más Cuando Tu Modelo Tiene 1B Parámetros

Un modelo de 70B parámetros es indulgente. Dale datos ruidosos, clases desequilibradas, formatos inconsistentes y ejemplos de longitud variable — aprenderá a través del ruido. Tiene 70 mil millones de parámetros para absorber patrones, compensar problemas de calidad de datos y aún producir salidas razonables.

Un modelo de 0.5B parámetros no tiene ese lujo. Tiene 500 millones de parámetros para codificar todo lo que necesita saber sobre una tarea. Cada ejemplo de entrenamiento ruidoso desperdicia capacidad. Cada desequilibrio de clases crea un punto ciego. Cada inconsistencia de formato introduce un modo de falla.

Esta no es una diferencia menor. Es la diferencia entre un modelo que funciona en producción y uno que no.

El Problema de Capacidad

Piensa en los parámetros del modelo como un presupuesto. Un modelo de 70B tiene un presupuesto de $70 mil millones para aprender patrones. Puede permitirse gastar $500 millones en tolerancia al ruido y aún tener suficiente para la tarea real. Un modelo de 0.5B tiene un presupuesto de $500 millones. Si gasta $50 millones aprendiendo de ejemplos ruidosos, eso es el 10% de su capacidad total — perdida.

Esta analogía se mapea directamente a resultados reales:

A escala de 70B: Agregar 20% de ejemplos ruidosos a un conjunto de entrenamiento típicamente reduce la precisión en 1-3 puntos porcentuales. El modelo tiene suficiente capacidad para aprender la señal a pesar del ruido.

A escala de 0.5B: Los mismos 20% de ejemplos ruidosos reducen la precisión en 8-15 puntos porcentuales. El modelo no tiene la capacidad para separar señal de ruido en esta proporción. Aprende el ruido como si fuera señal.

Esto significa que la curación de datos para modelos sub-1B no es un paso de optimización opcional. Es un paso de ingeniería requerido sin el cual el modelo no puede funcionar.

El Desequilibrio de Clases Golpea Más Fuerte

Considera una tarea de clasificación binaria — detectar si un mensaje de soporte al cliente requiere escalación. En datos reales, el 15% de los mensajes necesitan escalación y el 85% no.

Modelo de 70B entrenado en esta distribución: Logra 94% de precisión general, 87% de recall en la clase de escalación. El modelo tiene suficientes parámetros para aprender bien el patrón minoritario a pesar de ver menos ejemplos.

Modelo de 0.5B entrenado en esta distribución: Logra 91% de precisión general, pero solo 62% de recall en la clase de escalación. El modelo ha aprendido efectivamente a predecir "sin escalación" como predeterminado y solo captura las señales de escalación más obvias. En producción, el 38% de los mensajes que necesitan escalación se pierden.

La solución no es más datos. Agregar otros 100,000 ejemplos con la misma distribución 85/15 no ayuda — el modelo ya ha aprendido la distribución, y la ha aprendido mal. La solución es reequilibrar: ya sea sobremuestreando la clase minoritaria o submuestreando la clase mayoritaria para lograr una distribución de entrenamiento 50/50 o 60/40.

Para modelos sub-1B, el equilibrio de clases en los datos de entrenamiento no es una mejor práctica — es un prerrequisito para un rendimiento aceptable en clases minoritarias.

La Distribución de Longitud Crea Fallas Silenciosas

Si tu despliegue en producción procesa entradas de 50-200 tokens, pero tus datos de entrenamiento contienen ejemplos que van de 10 a 4,000 tokens, el modelo aprende patrones a lo largo de todo el espectro de longitud. Para un modelo de 70B, esto está bien — tiene la capacidad para manejar entradas de longitud variable con gracia.

Para un modelo de 0.5B, los ejemplos de entrenamiento largos crean dos problemas:

Desperdicio de capacidad. El modelo gasta parámetros aprendiendo a manejar entradas de 2,000 tokens que nunca verá en producción. Esos parámetros no están disponibles para mejorar el rendimiento en entradas de 50-200 tokens.

Dilución de atención. En modelos transformer, la atención se distribuye entre todos los tokens en el contexto. Los ejemplos de entrenamiento largos enseñan al modelo a distribuir la atención ampliamente. Las entradas cortas de producción entonces reciben atención excesivamente distribuida, reduciendo el enfoque del modelo en los tokens que importan.

La solución: filtra los datos de entrenamiento para que coincidan con la distribución de longitud de producción. Mide los percentiles 10-90 de las longitudes de entrada de tu producción. Descarta los ejemplos de entrenamiento fuera de ese rango. Para un modelo que procesa entradas de 50-200 tokens, tus datos de entrenamiento deben contener ejemplos de 30-250 tokens — ligeramente más amplio que producción para proporcionar margen, pero no dramáticamente más amplio.

Cobertura de Vocabulario y Desperdicio de Embedding

Un modelo de 70B tiene una capa de embedding que puede representar efectivamente más de 100,000 tokens únicos. Un modelo de 0.5B típicamente tiene el mismo tamaño de vocabulario en teoría, pero su dimensión de embedding más pequeña significa que no puede representar cada token con la misma riqueza.

Si tus datos de entrenamiento contienen 50,000 tokens únicos pero tu dominio de producción usa 5,000, entonces el 90% del vocabulario está consumiendo capacidad de embedding sin contribuir al rendimiento en producción.

Impacto práctico: Un modelo de 0.5B entrenado en datos restringidos al dominio (5,000-10,000 tokens únicos) típicamente supera la misma arquitectura entrenada en datos de vocabulario amplio por 5-8 puntos porcentuales en tareas del dominio. El modelo concentra su capacidad limitada de embedding en los tokens que importan.

Cómo implementar: Cuenta la frecuencia de tokens en tus datos de entrenamiento. Si un token aparece menos de 5 veces en todo el dataset, ya sea elimina el ejemplo que lo contiene o reemplaza el token raro con un sinónimo más común. Estandariza la terminología: si tus datos usan tanto "cliente" como "consumidor" indistintamente, elige uno y normaliza.

La Deduplicación No Es Opcional

Los datos sintéticos de modelos de lenguaje grandes tienden a repetir patrones comunes. Los datos generados por humanos de empresas tienden a incluir múltiples copias de documentos plantilla, procedimientos estándar y comunicaciones formulaicas.

A escala de 70B, la duplicación moderada (10-15% de ejemplos casi duplicados) tiene impacto mínimo. El modelo tiene suficiente capacidad para aprender la señal única en cada casi-duplicado.

A escala de 0.5B, la misma duplicación de 10-15% causa que el modelo sobre-pondere los patrones duplicados. Si tu plantilla de correo boilerplate aparece 500 veces y tu ejemplo de caso extremo de escalación aparece 5 veces, el modelo aprende a producir boilerplate 100x más fuertemente de lo que aprende escalación — incluso si la detección de escalación es la tarea real de producción.

Usa MinHash o SimHash con un umbral de similitud de 0.80-0.85. Elimina casi-duplicados y retén solo la variante de mayor calidad de cada grupo. Esto típicamente reduce el tamaño del dataset en 15-30% mientras mejora el rendimiento del modelo en 3-7 puntos porcentuales.

Puntuación de Calidad para Modelos Pequeños

Los enfoques estándar de puntuación de calidad usan perplejidad, coherencia de embedding o detección estadística de outliers. Para modelos sub-1B, estos necesitan calibrarse de manera diferente.

Usa el modelo estudiante para la puntuación, no el profesor. Si puntúas ejemplos de entrenamiento usando un modelo de 70B, todo se ve de alta calidad porque el modelo de 70B entiende todo. Puntúa ejemplos usando el modelo objetivo de 0.5B (o un modelo de tamaño similar). Los ejemplos de alta perplejidad relativa al modelo estudiante están más allá de su capacidad de aprendizaje y deben eliminarse.

Puntúa contra producción, no contra entrenamiento. La calidad de un ejemplo de entrenamiento debe medirse por su relevancia para la tarea de producción, no por su calidad intrínseca. Un análisis bellamente escrito de 2,000 palabras es un ejemplo de entrenamiento de baja calidad si la tarea de producción es clasificación de 50 palabras.

Aplica umbrales de calidad agresivamente. Para modelos de 70B, incluir el 25% inferior de ejemplos puntuados por calidad típicamente tiene impacto negligible. Para modelos de 0.5B, eliminar el 25% inferior mejora la precisión en 4-8 puntos porcentuales. El umbral debe estar en el percentil 25 como mínimo, y en el percentil 40 para los despliegues más restringidos.

Ertas Data Suite para Preparación de Datos de Modelos Pequeños

El módulo Clean de Ertas Data Suite proporciona puntuación de calidad, filtrado de longitud, deduplicación y análisis de distribución calibrados al tamaño del modelo objetivo. Especifica tu objetivo (0.5B, 1B, 3B) y los umbrales de filtrado se ajustan automáticamente.

Los expertos de dominio revisan los ejemplos marcados directamente en la aplicación — sin entorno Python requerido. Cada decisión de filtrado se registra con trazabilidad completa de auditoría para cumplimiento regulatorio.

El resultado: datasets donde cada ejemplo se gana su lugar. Sin capacidad desperdiciada en ruido, desequilibrio, desajustes de longitud o duplicados. Los parámetros limitados del modelo se gastan en los patrones que importan en producción.

Agenda una Llamada de Descubrimiento para discutir la optimización de distribución de datos para tu despliegue de modelo pequeño.