
HIPAA 合规 AI 训练数据:医疗机构实用指南
HIPAA 对 AI 训练数据的实际要求——PHI 识别、脱敏标准,以及如何为医疗 ML 团队构建合规的本地数据准备管道。
每个构建 AI 的医疗机构都面临同一个基本问题:你拥有的数据是临床的,而临床数据就是 PHI。本指南涵盖 HIPAA 对 AI 训练数据的实际操作要求。
临床 AI 中什么算作 PHI
PHI 的定义比大多数 ML 工程师预期的要广泛。它包括:任何比年份更具体的日期、比州更小的地理细分、超过 89 岁的年龄、电话号码、IP 地址、医疗记录号等 18 类标识符。
HIPAA 的两种脱敏标准
安全港(45 CFR §164.514(b)(2))
要求移除所有 18 种指定标识符。
专家判定(45 CFR §164.514(b)(1))
需要具有适当知识和经验的人员判定重新识别风险非常小。
对于大多数医疗 ML 团队,安全港是实用路径。
为什么云工具在设计上违反 HIPAA
上传临床文档到 SaaS 平台构成 HIPAA 下的 PHI "披露"。许多文档处理工具将页面发送到云 API 进行 OCR——这是等待发生的 HIPAA 违规。
构建 HIPAA 合规本地管道
| 阶段 | 发生什么 | HIPAA 要求 |
|---|---|---|
| 摄入 | 解析 PDF、文档、图像 | OCR/解析期间无出站连接 |
| 清洗/脱敏 | 检测和脱敏所有 18 类 PHI | 必须满足安全港或专家判定 |
| 标注 | 对脱敏文本进行人工标注 | 标注者看 不到 PHI;访问已记录 |
| 增强 | 使用本地 LLM 生成合成数据 | 不传输 PHI;仅本地模型 |
| 导出 | 输出训练就绪的 JSONL | 审计日志随数据集导出 |
Ertas Data Suite 的 Clean 模块自动检测和脱敏 PII 和 PHI。每次转换都带时间戳和操作员 ID 记录。整个技术栈像桌面应用一样安装在你自己的硬件上。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相关阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

PHI Redaction for AI Training: A Step-by-Step Guide for Healthcare ML Teams
Before clinical data can be used to train AI models, PHI must be identified and redacted. This guide covers automated PHI detection, HIPAA de-identification standards, and on-premise redaction pipelines.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

Best RAG Pipeline With Built-In PII Redaction: Why Retrieval Without Redaction Is a Compliance Risk
Most RAG pipelines index raw documents with PII still intact. Once sensitive data is embedded in a vector store, it is retrievable by any query. Learn how to build a GDPR-safe RAG pipeline with PII redaction before embedding.