What is Data Augmentation?

Un conjunto de técnicas para aumentar artificialmente el tamaño y la diversidad de un dataset de entrenamiento creando copias modificadas de los puntos de datos existentes.

Definition

La augmentación de datos se refiere a la práctica de generar nuevas muestras de entrenamiento a partir de las existentes aplicando transformaciones controladas que preservan el significado semántico de los datos originales. En visión por computadora, esto puede involucrar rotar, voltear, recortar o cambiar el color de imágenes. En procesamiento de lenguaje natural, las estrategias de augmentación incluyen parafraseo, retrotraducción, reemplazo de sinónimos, inserción aleatoria, eliminación aleatoria y reordenamiento de oraciones. El objetivo es exponer al modelo a una distribución más amplia de entradas durante el entrenamiento, lo que reduce el sobreajuste y mejora la generalización a datos no vistos.

Para el fine-tuning de modelos de lenguaje grandes, la augmentación de datos toma formas adicionales. Los profesionales comúnmente usan un modelo más potente para generar paráfrasis de pares instrucción-respuesta, variar la redacción de prompts de sistema o producir ejemplos sintéticos completamente nuevos que cubran casos extremos ausentes del dataset original. Otra técnica es augmentar a nivel de token introduciendo ruido controlado — intercambiando tokens, enmascarando porciones de la entrada o reordenando oraciones — para construir robustez.

La augmentación de datos es especialmente valiosa cuando se trabaja con datasets específicos de dominio o de pocos recursos donde recolectar ejemplos adicionales etiquetados por humanos es costoso o lento. Al multiplicar el tamaño efectivo del dataset por 5-10x a través de augmentación, los equipos pueden lograr resultados de fine-tuning que de otro modo requerirían una inversión mucho mayor en recolección y anotación de datos.

Why It Matters

La calidad y cantidad de los datos de entrenamiento es el factor determinante más importante del éxito del fine-tuning. Sin embargo, curar datasets grandes y de alta calidad es costoso y lento. La augmentación de datos cierra esta brecha extrayendo más valor de los datos que ya tienes. Un dataset de 1,000 ejemplos cuidadosamente etiquetados puede augmentarse para comportarse como 5,000-10,000 ejemplos, mejorando drásticamente el rendimiento del modelo en tareas posteriores.

La augmentación también aborda problemas de desbalance de clases. Si ciertas categorías o tipos de respuesta están subrepresentados en tu dataset, la augmentación dirigida de esas clases minoritarias asegura que el modelo las aprenda adecuadamente. Sin augmentación, los modelos tienden a desarrollar puntos ciegos para escenarios raros pero importantes — precisamente los casos donde acertar la respuesta importa más.

How It Works

En la augmentación basada en texto para fine-tuning de LLM, el proceso típicamente funciona en un pipeline. Primero, se analiza el dataset original para identificar brechas, desbalances y áreas donde variación adicional sería beneficiosa. Luego, se seleccionan estrategias de augmentación: el parafraseo reescribe instrucciones o respuestas usando vocabulario diferente preservando el significado; la retrotraducción envía texto a través de un modelo de traducción a otro idioma y de vuelta; la variación de plantillas reformatea el mismo contenido en diferentes estilos de instrucción.

Las muestras augmentadas se validan luego — manualmente o a través de verificaciones de calidad automatizadas — para asegurar la fidelidad semántica. Las augmentaciones de baja calidad que distorsionan el significado original se filtran. El dataset augmentado final se mezcla para evitar que el modelo aprenda patrones específicos de augmentación, y las entradas duplicadas o casi duplicadas se eliminan para evitar artefactos de memorización.

Example Use Case

Una empresa de tecnología legal tiene 800 ejemplos de análisis de contratos para fine-tuning pero necesita al menos 3,000 para una precisión aceptable. Usando augmentación de datos, parafrasean cada instrucción en tres estilos diferentes, aplican retrotraducción a través de francés y alemán, y usan GPT-4 para generar cinco escenarios adicionales de contrato por ejemplo original. Después de deduplicación y filtrado de calidad, terminan con 4,200 muestras de entrenamiento de alta calidad — suficientes para ajustar un modelo que extrae términos clave con precisión, identifica cláusulas de riesgo y resume contratos.

Key Takeaways

La augmentación de datos aumenta artificialmente el tamaño del dataset de entrenamiento creando versiones modificadas de datos existentes.
Los métodos comunes de augmentación en NLP incluyen parafraseo, retrotraducción, reemplazo de sinónimos y generación sintética.
La augmentación es crítica para fine-tuning de pocos recursos y específico del dominio donde recolectar nuevos datos es costoso.
El filtrado de calidad de los datos augmentados es esencial para evitar introducir ruido o distorsiones semánticas.
Una augmentación efectiva puede multiplicar el tamaño efectivo del dataset por 5-10x, mejorando significativamente los resultados del fine-tuning.

How Ertas Helps

Ertas Data Suite incluye una etapa dedicada de Augmentación en su pipeline de preparación de datos, permitiendo a los usuarios aplicar parafraseo, variación de plantillas y generación sintética para expandir sus datasets antes del fine-tuning en Ertas Studio.

Related Resources

Data Deduplication

Data Labeling

Overfitting

Synthetic Data

Training Data

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →