Ertas 用于 PII 脱敏流水线

    构建处理电子邮件、电话、社会安全号、地址和医疗 ID 的本地 PII 脱敏流水线——具备完整的审计追踪和合规日志记录。专为从敏感企业文档准备训练数据的 AI/ML 团队设计。

    The Challenge

    处理客户数据用于 AI/ML 项目的组织必须在任何模型训练或 RAG 摄取之前脱敏 PII。手动脱敏速度慢且容易出错。基于正则表达式的脚本会遗漏边缘情况。云端脱敏工具需要数据出口,而受监管客户禁止这样做。

    The Solution

    Ertas Data Suite 的 PII 脱敏节点以确定性方式处理电子邮件、电话、社会安全号、地址和医疗 ID。作为可视化流水线的一部分运行——文件导入 → 解析器 → PII 脱敏器 → 质量评分器 → 导出器。每次脱敏都记录时间戳和操作员 ID。完全在本地运行。

    Key Features

    Data Suite

    可配置的 PII 实体检测

    选择要检测的实体类型并选择脱敏方法——遮蔽、替换或删除。按流水线配置以满足客户合规要求。

    Data Suite

    流水线集成脱敏

    PII 脱敏作为可视化流水线中的节点,而非独立工具。与解析、质量评分和导出节点链接,实现端到端工作流。

    Data Suite

    脱敏审计追踪

    每个检测到和脱敏的实体都被记录——实体类型、位置、脱敏方法、时间戳和操作员。可导出用于合规验证。

    Data Suite

    质量验证

    下游质量评分节点验证脱敏完整性。可能遗漏 PII 的文档在导出前被标记供人工审查。

    Example Workflow

    一家服务提供商收到客户医疗文档用于临床 NLP 模型训练。他们在 Ertas Data Suite 中构建流水线:文件导入 → PDF 解析器 → PII 脱敏器(配置为医疗 ID、患者姓名、地址)→ 质量评分器 → JSONL 导出器。流水线在客户的本地工作站上处理 10,000 个文档。审计追踪导出给客户的合规团队,展示每个脱敏决策。干净的去标识化 JSONL 已准备好用于临床 NLP 模型训练。

    Compliance & Security

    PII 脱敏器支持 GDPR 要求的数据最小化、HIPAA 安全港去标识化方法以及 EU AI 法案第 30 条数据治理文档。所有处理在本地运行,无数据出口。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.