What is Data Lineage（資料血統）?

追蹤資料從來源經過每個轉換、處理步驟和模型訓練使用的實踐，以維持完整的稽核軌跡。

Definition

資料血統是資料來自何處、如何被轉換以及在哪裡被使用的端到端記錄。在 AI 和機器學習中，血統追蹤資料生命週期的每個階段：從原始來源擷取、清理和預處理、標記、增強，最終納入產生特定模型版本的訓練資料集。健全的血統系統回答「哪些訓練範例影響了此模型的行為？」和「能否證明訓練中未使用受版權保護的材料？」等問題。

在受監管行業中，資料血統不是可選的。GDPR、HIPAA 和歐盟 AI 法案等法規要求組織證明訓練資料來源、資料主體權利得到尊重，以及有偏見的資料被適當處理。

Why It Matters

隨著全球 AI 監管加速，追蹤每條訓練資料回到來源的能力正成為硬性要求。歐盟 AI 法案明確要求高風險 AI 系統記錄訓練資料來源。除了合規，資料血統在模型表現出意外行為時支援根因分析，工程師可將有問題的輸出追溯到特定訓練範例。

How It Works

現代資料血統系統透過在資料管線每個階段進行檢測來工作。擷取時記錄來源 URL、檔案雜湊、時間戳。清理和轉換期間記錄每個操作的參數。標記階段捕獲標註者身份和一致性分數。此元資料儲存在血統資料庫或圖形中。

Example Use Case

一家金融服務公司微調模型協助監管申報。稽核員要求驗證未使用機密資料時，合規團隊幾分鐘內就透過血統系統產出完整報告。沒有血統，此稽核回應將需數週手動調查。

Key Takeaways

資料血統追蹤資料從來源經過每個轉換到模型訓練中的使用。
GDPR、HIPAA 和歐盟 AI 法案等法規要求高風險 AI 系統的血統。
正向和反向追蹤支援合規報告和模型問題除錯。
血統元資料包括來源記錄、轉換日誌、時間戳和校驗和。
投資血統基礎設施防止合規失敗並加速根因分析。

How Ertas Helps

Ertas Data Suite 在整個管線中維持完整的資料血統。Ertas Vault 將此血統延伸到模型版本，將訓練模型連接回產生它們的確切資料集和配置。

Related Resources

Annotation

Data Versioning

Guardrails

PII Redaction

Training Data

Ertas for Healthcare

Ertas for Legal

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →