What is Data Versioning?

La práctica de rastrear y gestionar diferentes versiones de datasets a lo largo del tiempo, habilitando reproducibilidad, reversión y auditabilidad en flujos de trabajo de aprendizaje automático.

Definition

El versionado de datos aplica los principios del control de versiones (familiares del desarrollo de software con Git) a los datasets de aprendizaje automático. Así como Git rastrea cambios en archivos de código a lo largo del tiempo, los sistemas de versionado de datos rastrean cambios en datasets — registrando qué datos se agregaron, modificaron o eliminaron entre versiones, quién hizo los cambios y cuándo. Esto crea un historial completo de la evolución del dataset que soporta reproducibilidad, colaboración y cumplimiento.

En flujos de trabajo de ML, el versionado de datos es crítico porque el comportamiento del modelo es una función tanto del código como de los datos. Un modelo entrenado con la versión 1.0 del dataset puede comportarse muy diferente a uno entrenado con la versión 1.3 — incluso con código de entrenamiento idéntico. Sin versionado de datos, los equipos no pueden reproducir resultados pasados de forma confiable, rastrear regresiones de calidad a cambios en los datos o revertir a una versión anterior del dataset cuando un nuevo lote introduce problemas.

Las herramientas de versionado de datos incluyen DVC (Data Version Control), que extiende Git para manejar archivos de datos grandes; LakeFS, que proporciona ramificación tipo Git para data lakes; Delta Lake, que agrega transacciones ACID y versionado a datos almacenados en almacenes de objetos en la nube; y Hugging Face Datasets, que proporciona alojamiento versionado de datasets. Cada enfoque tiene diferentes equilibrios entre eficiencia de almacenamiento, escalabilidad e integración con pipelines de ML existentes.

Why It Matters

La reproducibilidad es un requisito fundamental para ML en producción. Cuando un modelo produce comportamiento inesperado, los equipos necesitan responder: '¿Con qué exactamente fue entrenado?' Sin versionado de datos, esta pregunta a menudo no tiene respuesta — los datos de entrenamiento pueden haber sido modificados, sobrescritos o perdidos desde que el modelo fue entrenado. El versionado de datos asegura que cada modelo pueda rastrearse hasta la versión exacta del dataset que lo produjo.

Para cumplimiento, el versionado de datos proporciona la pista de auditoría que los reguladores requieren. El derecho de supresión del GDPR requiere que las organizaciones rastreen qué datos se usaron para entrenar qué modelos. La Ley de IA de la UE exige documentación de datos de entrenamiento. El versionado de datos hace estos requisitos manejables al mantener un historial completo de qué datos existían en cada punto en el tiempo y qué modelos fueron entrenados con qué versiones.

How It Works

Los sistemas de versionado de datos típicamente funcionan almacenando instantáneas o deltas (cambios entre versiones) de datasets. Los sistemas basados en instantáneas almacenan copias completas del dataset en cada versión — simple pero intensivo en almacenamiento. Los sistemas basados en deltas almacenan solo los cambios entre versiones — más eficientes en almacenamiento pero requieren reconstrucción de datasets completos a partir de la cadena de deltas.

La mayoría de los sistemas usan almacenamiento direccionable por contenido, donde los datos se almacenan por su hash en lugar de su nombre de archivo. Cuando un archivo cambia, solo se almacena la nueva versión; los archivos sin cambios se comparten entre versiones a través de referencias de hash. Esta deduplicación reduce la sobrecarga de almacenamiento de lineal (en el número de versiones) a proporcional a los cambios reales de datos. Los metadatos — etiquetas de versión, marcas de tiempo, información del autor, descripciones — se almacenan por separado y pueden navegarse sin cargar los datos en sí.

Example Use Case

Un equipo mantiene un dataset de retroalimentación de clientes que recibe actualizaciones semanales. Después de actualizar a la versión 2.7 y reentrenar, el rendimiento del modelo cae un 8%. Usando versionado de datos, comparan la versión 2.7 contra la 2.6 y descubren que el último lote contenía 500 ejemplos mal etiquetados de un nuevo proveedor de anotación. Revierten a la versión 2.6, reentrenan, confirman que el rendimiento se restaura, luego trabajan con el proveedor para corregir los problemas de etiquetado antes de reintegrar los datos corregidos como versión 2.8.

Key Takeaways

El versionado de datos rastrea cambios en datasets a lo largo del tiempo, habilitando reproducibilidad y reversión.
Es esencial porque el comportamiento del modelo depende tanto del código como de los datos — ambos deben versionarse.
El almacenamiento direccionable por contenido deduplica datos sin cambios entre versiones para mayor eficiencia.
El versionado de datos proporciona la pista de auditoría requerida por GDPR, la Ley de IA de la UE y otras regulaciones.
Las herramientas incluyen DVC, LakeFS, Delta Lake y Hugging Face Datasets.

How Ertas Helps

Ertas Data Suite mantiene historial de versiones para datasets a medida que progresan a través del pipeline de Ingestión, Limpieza, Etiquetado, Augmentación y Exportación, permitiendo a los equipos rastrear cualquier modelo hasta la versión exacta de datos usada para el entrenamiento en Ertas Studio.

Related Resources

Checkpoint

Data Deduplication

Data Lineage

MLOps

Training Data

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →