What is Data Versioning（資料版本控制）?

追蹤和管理資料集隨時間推移的不同版本，實現機器學習工作流程中的可重現性、回滾和可稽核性。

Definition

資料版本控制將版本控制原則（在軟體開發中透過 Git 熟知）應用於機器學習資料集。就像 Git 追蹤程式碼檔案隨時間的變化一樣，資料版本控制系統追蹤資料集的變化——記錄版本間添加、修改或移除了什麼資料、誰做了變更以及何時做的。這建立了支援可重現性、協作和合規的資料集演進完整歷史。

在 ML 工作流程中，資料版本控制至關重要，因為模型行為是程式碼和資料的函數。沒有資料版本控制，團隊無法可靠地重現過去的結果、追溯品質退步到資料變更，或在新批次引入問題時回滾到先前版本。工具包括 DVC、LakeFS、Delta Lake 和 Hugging Face Datasets。

可重現性是生產 ML 的基本要求。當模型產生意外行為時，團隊需要回答：「它確切是在什麼上訓練的？」沒有資料版本控制，這個問題通常無法回答。對於合規，資料版本控制提供 GDPR 和歐盟 AI 法案要求的稽核軌跡。

資料版本控制系統通常透過儲存資料集快照或差異（版本間的變更）來工作。大多數系統使用內容可定址儲存，按雜湊值而非檔案名儲存資料，在版本間共享未變更的檔案。

團隊更新到資料集版本 2.7 後模型效能下降 8%。使用版本控制比較差異，發現新批次含 500 個錯誤標記範例。回滾到 2.6 確認效能恢復，修正後重新整合為 2.8。

Ertas Data Suite 在資料集經過擷取、清理、標記、增強和匯出管線的過程中維護版本歷史，使團隊能夠將任何模型追溯到 Ertas Studio 中用於訓練的確切資料版本。

Checkpoint

Data Deduplication

Data Lineage

MLOps

Training Data

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.