What is Data Versioning(資料版本控制)?
追蹤和管理資料集隨時間推移的不同版本,實現機器學習工作流程中的可重現性、回滾和可稽核性。
Definition
資料版本控制將版本控制原則(在軟體開發中透過 Git 熟知)應用於機器學習資料集。就像 Git 追蹤程式碼檔案隨時間的變化一樣,資料版本控制系統追蹤資料集的變化——記錄版本間添加、修改或移除了什麼資料、誰做了變更以及何時做的。這建立了支援可重現性、協作和合規的資料集演進完整歷史。
在 ML 工作流程中,資料版本控制至關重要,因為模型行為是程式碼和資料的函數。沒有資料版本控制,團隊無法可靠地重現過去的結果、追溯品質退步到資料變更,或在新批次引入問題時回滾到先前版本。工具包括 DVC、LakeFS、Delta Lake 和 Hugging Face Datasets。
Why It Matters
可重現性是生產 ML 的基本要求。當模型產生意外行為時,團隊需要回答:「它確切是在什麼上訓練的?」沒有資料版本控制,這個問題通常無法回答。對於合規,資料版本控制提供 GDPR 和歐盟 AI 法案要求的稽核軌跡。
How It Works
資料版本控制系統通常透過儲存資料集快照或差異(版本間的變更)來工作。大多數系統使用內容可定址儲存,按雜湊值而非檔案名儲存資料,在版本間共享未變更的檔案。
Example Use Case
團隊更新到資料集版本 2.7 後模型效能下降 8%。使用版本控制比較差異,發現新批次含 500 個錯誤標記範例。回滾到 2.6 確認效能恢復,修正後重新整合為 2.8。
Key Takeaways
- 資料版本控制追蹤資料集隨時間的變化,實現可重現性和回滾。
- 模型行為取決於程式碼和資料——兩者都必須版本化。
- 內容可定址儲存在版本間去重未變更的資料以提高效率。
- 提供 GDPR、 歐盟 AI 法案等法規要求的稽核軌跡。
- 工具包括 DVC、LakeFS、Delta Lake 和 Hugging Face Datasets。
How Ertas Helps
Ertas Data Suite 在資料集經過擷取、清理、標記、增強和匯出管線的過程中維護版本歷史,使團隊能夠將任何模型追溯到 Ertas Studio 中用於訓練的確切資料版本。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.