What is Data Deduplication?

El proceso de identificar y eliminar entradas duplicadas o casi duplicadas de un dataset para prevenir artefactos de memorización y mejorar la eficiencia del entrenamiento.

Definition

La deduplicación de datos es el proceso de detectar y eliminar entradas idénticas o muy similares de un dataset de entrenamiento. En el fine-tuning de LLM, los duplicados pueden aparecer en múltiples niveles: duplicados exactos (pares instrucción-respuesta idénticos que aparecen múltiples veces), casi-duplicados (pares que difieren solo en espacios en blanco, puntuación o redacción menor) y duplicados semánticos (pares que transmiten la misma información en palabras sustancialmente diferentes). Cada tipo requiere diferentes métodos de detección y tiene diferentes impactos en el entrenamiento.

La deduplicación exacta es directa — se aplica hash a cada ejemplo y se eliminan las entradas con hashes coincidentes. La detección de casi-duplicados típicamente usa técnicas como MinHash con Locality-Sensitive Hashing (LSH), que aproxima eficientemente la similitud de Jaccard entre pasajes de texto a escala. La deduplicación semántica usa similitud de embeddings para encontrar entradas que son conceptualmente idénticas incluso cuando están redactadas de manera diferente, aunque esto requiere un ajuste de umbral más cuidadoso para evitar eliminar variaciones válidas.

La investigación ha demostrado consistentemente que los datos duplicados perjudican la calidad del modelo. Los modelos entrenados con datasets con duplicación significativa tienden a memorizar los ejemplos duplicados literalmente en lugar de aprender patrones generalizables. También desarrollan distribuciones de probabilidad sesgadas que sobrerrepresentan el contenido duplicado. El artículo pionero de Chinchilla y el trabajo posterior sobre calidad de datos demostraron que la deduplicación es uno de los pasos de procesamiento de datos con mayor impacto para el preentrenamiento, y el mismo principio aplica a los datasets de fine-tuning.

Why It Matters

Los duplicados en los datos de entrenamiento crean dos problemas distintos. Primero, causan memorización: el modelo aprende a reproducir los ejemplos duplicados exactamente en lugar de aprender los patrones subyacentes, reduciendo la generalización a nuevas entradas. Segundo, crean sesgo distribucional: si ciertos temas, estilos o patrones de respuesta están desproporcionadamente representados debido a la duplicación, el modelo sobrepondera esos patrones en sus salidas.

Para el fine-tuning específicamente, la duplicación desperdicia cómputo de entrenamiento. Procesar el mismo ejemplo múltiples veces no contribuye información nueva después del primer paso. Un dataset deduplicado entrena más rápido (menos pasos para alcanzar la misma calidad) y a menudo produce un mejor modelo porque la señal de entrenamiento es más diversa. Los equipos que omiten la deduplicación regularmente encuentran que un dataset 30% más pequeño y deduplicado supera al dataset completo.

How It Works

Un pipeline de deduplicación práctico funciona en etapas. Primero, la deduplicación exacta usa hashing de contenido (MD5 o SHA-256 del texto normalizado) para identificar y eliminar entradas idénticas — esto es rápido y captura duplicados de copiar y pegar. Segundo, la detección de casi-duplicados usa MinHash/LSH para encontrar eficientemente entradas por encima de un umbral de similitud configurable (típicamente 0.8-0.9 de similitud de Jaccard). Esto captura entradas que difieren solo en formato o redacción menor.

Opcionalmente, una tercera etapa usa similitud semántica basada en embeddings para encontrar entradas conceptualmente idénticas que difieren sustancialmente en forma superficial. Esta etapa requiere una calibración de umbral más cuidadosa porque establecer el umbral demasiado bajo elimina variaciones válidas mientras que establecerlo demasiado alto no detecta duplicados semánticos. El orden de deduplicación también importa para datasets augmentados: las versiones augmentadas del mismo ejemplo original idealmente deben mantenerse o eliminarse como grupo, no individualmente.

Example Use Case

Un equipo agrega datos de entrenamiento de tres fuentes internas y descubre que el 28% de los 15,000 ejemplos combinados son duplicados exactos o casi-duplicados (los ejemplos comunes aparecían en múltiples bases de datos fuente). Después de la deduplicación, el dataset se reduce a 10,800 ejemplos únicos. Un modelo ajustado con el dataset deduplicado logra un 3% más de precisión en su conjunto de evaluación que uno entrenado con el dataset completo — mejores resultados con menos datos, porque el modelo aprendió patrones generalizables en lugar de memorizar ejemplos repetidos.

Key Takeaways

La deduplicación de datos elimina entradas idénticas y casi idénticas para prevenir memorización y sesgo distribucional.
La deduplicación exacta, de casi-duplicados y semántica abordan diferentes tipos de redundancia.
Los datos duplicados causan artefactos de memorización y desperdician cómputo de entrenamiento.
MinHash/LSH detecta eficientemente casi-duplicados a escala sin comparación por pares.
Los datasets deduplicados a menudo superan a datasets más grandes con duplicados al promover la generalización.

How Ertas Helps

Ertas Data Suite incluye deduplicación integrada en su etapa de Limpieza, detectando y eliminando automáticamente entradas exactas y casi-duplicadas de los datasets de entrenamiento antes de que fluyan a Ertas Studio para fine-tuning.

Related Resources

Data Augmentation

Data Labeling

Data Lineage

Overfitting

Training Data

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →