Ertas 用于 PII 脱敏流水线
构建处理电子邮件、电话、社会安全号、地址和医疗 ID 的本地 PII 脱敏流水线——具备完整的审计追踪和合规日志记录。专为从敏感企业文档准备训练数据的 AI/ML 团队设计。
The Challenge
处理客户数据用于 AI/ML 项目的组织必须在任何模型训练或 RAG 摄取之前脱敏 PII。手动脱敏速度慢且容易出错。基于正则表达式的脚本会遗漏边缘情况。云端脱敏工具需要数据出口,而受监管客户禁止这样做。
The Solution
Ertas Data Suite 的 PII 脱敏节点以确定性方式处理电子邮件、电话、社会安全号、地址和医疗 ID。作为可视化流水线的一部分运行——文件导入 → 解析器 → PII 脱敏器 → 质量评分器 → 导出器。每次脱敏都记录时间戳和操作员 ID。完全在本地运行。
Key Features
可配置的 PII 实体检测
选择要检测的实体类型并选择脱敏方法——遮蔽、替换或删除。按流水线配置以满足客户合规要求。
流水线集成脱敏
PII 脱敏作为可视化流水线中的节点,而非独立工具。与解析、质量评分和导出节点链接,实现端到端工作流。
脱敏审计追踪
每个检测到和脱敏的实体都被记录——实体类型、位置、脱敏方法、时间戳和操作员。可导出用于合规验证。
质量验证
下游质量评分节点验证脱敏完整性。可能遗漏 PII 的文档在导出前被标记供人工审查。
Example Workflow
一家服务提供商收到客户医疗文档用于临床 NLP 模型训练。他们在 Ertas Data Suite 中构建流水线:文件导入 → PDF 解析器 → PII 脱敏器(配置为医疗 ID、患者姓名、地址)→ 质量评分器 → JSONL 导出器。流水线在客户的本地工作站上处理 10,000 个文档。审计追踪导出给客户的合规团队,展示每个脱敏决策。干净的去标识化 JSONL 已准备好用于临床 NLP 模型训练。
Compliance & Security
PII 脱敏器支持 GDPR 要求的数据最小化、HIPAA 安全港去标识化方法以及 EU AI 法案第 30 条数据治理文档。所有处理在本地运行,无数据出口。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.