Ertas 用於 PII 去識別化流水線

    建構處理電子郵件、電話、社會安全號、地址和醫療 ID 的本地 PII 去識別化流水線——具備完整的稽核追蹤和合規日誌記錄。專為從敏感企業文件準備訓練資料的 AI/ML 團隊設計。

    The Challenge

    處理客戶資料用於 AI/ML 專案的組織必須在任何模型訓練或 RAG 擷取之前去識別化 PII。手動去識別化速度慢且容易出錯。基於正規表示式的腳本會遺漏邊緣情況。雲端去識別化工具需要資料出口,而受監管客戶禁止這樣做。

    The Solution

    Ertas Data Suite 的 PII 去識別化節點以確定性方式處理電子郵件、電話、社會安全號、地址和醫療 ID。作為視覺化流水線的一部分執行——檔案匯入 → 解析器 → PII 去識別化器 → 品質評分器 → 匯出器。每次去識別化都記錄時間戳記和操作員 ID。完全在本地執行。

    Key Features

    Data Suite

    可設定的 PII 實體偵測

    選擇要偵測的實體類型並選擇去識別化方法——遮蔽、替換或刪除。按流水線設定以滿足客戶合規要求。

    Data Suite

    流水線整合去識別化

    PII 去識別化作為視覺化流水線中的節點,而非獨立工具。與解析、品質評分和匯出節點鏈結,實現端到端工作流程。

    Data Suite

    去識別化稽核追蹤

    每個偵測到和去識別化的實體都被記錄——實體類型、位置、去識別化方法、時間戳記和操作員。可匯出用於合規驗證。

    Data Suite

    品質驗證

    下游品質評分節點驗證去識別化完整性。可能遺漏 PII 的文件在匯出前被標記供人工審查。

    Example Workflow

    一家服務提供商收到客戶醫療文件用於臨床 NLP 模型訓練。他們在 Ertas Data Suite 中建構流水線:檔案匯入 → PDF 解析器 → PII 去識別化器(設定為醫療 ID、患者姓名、地址)→ 品質評分器 → JSONL 匯出器。流水線在客戶的本地工作站上處理 10,000 個文件。稽核追蹤匯出給客戶的合規團隊,展示每個去識別化決策。乾淨的去標識化 JSONL 已準備好用於臨床 NLP 模型訓練。

    Compliance & Security

    PII 去識別化器支援 GDPR 要求的資料最小化、HIPAA 安全港去標識化方法以及 EU AI 法案第 30 條資料治理文件。所有處理在本地執行,無資料出口。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.