医疗记录分类数据集 Template
用于构建训练 AI 模型按诊断类别、紧急程度和科室分流对临床记录进行分类的数据集模板。
ClassificationOverview
医疗记录分类数据集训练 AI 模型对临床文档进行分类——包括医生记录、出院小结、影像报告和护理评估——按医学专科、诊断类别、紧急程度和适当的科室分流。这些数据集使医疗机构能够自动化临床文档的分诊和组织,提高工作流效率,同时确保关键发现得到及时关注。
医疗记录 分类的独特挑战在于临床文档的领域专用语言。医生使用缩写(SOB 表示呼吸困难、PRN 表示按需、BID 表示每日两次)、医学术语和结构化文档模式(SOAP 记录、H&P 格式),通用语言模型在未经微调的情况下可能无法很好地处理这些内容。训练数据必须捕捉这些临床语言模式,同时覆盖全部医学专科和文档类型。
数据隐私是医疗训练数据集的首要关注点。所有临床记录根据 HIPAA 法规都包含受保护的健康信息(PHI),数据集在用于模型训练之前必须彻底去标识化。HIPAA 安全港方法要求去除 18 种特定的标识类型,而专家判定方法要求由合格的统计学家证明重新识别的风险极小。去标识化过程必须有文档记录且可审计,因此具备全面审计追踪的本地数据处理对合规至关重要。
Dataset Schema
interface MedicalNoteExample {
text: string; // De-identified clinical note text
labels: {
specialty: string; // e.g., "cardiology", "pulmonology", "orthopedics"
urgency: "routine" | "urgent" | "emergent";
note_type: "progress_note" | "discharge_summary" | "consult" | "procedure" | "radiology";
icd10_category?: string; // Primary ICD-10 chapter
};
metadata: {
word_count: number;
has_medications: boolean;
has_lab_values: boolean;
de_identification_method: "safe_harbor" | "expert_determination";
};
}Sample Data
[
{
"text": "DISCHARGE SUMMARY\n\nPatient: [REDACTED], Age: 67, Sex: M\nAdmitting Diagnosis: Acute exacerbation of COPD\nDischarge Diagnosis: Acute exacerbation of COPD with community-acquired pneumonia\n\nHPI: Patient presented to ED with 3-day history of worsening dyspnea, productive cough with yellow-green sputum, and low-grade fever (100.4F). History of COPD Gold Stage III, former smoker (45 pack-years, quit 2019). On home O2 2L NC.\n\nHospital Course: Admitted to general medicine. Started on IV levofloxacin 750mg daily and methylprednisolone 125mg IV q8h. Chest X-ray showed RLL infiltrate consistent with pneumonia. Blood cultures negative. Transitioned to oral prednisone taper and oral levofloxacin on day 3. O2 requirements normalized to baseline by day 4.\n\nDischarge Medications: Prednisone 40mg taper over 10 days, Levofloxacin 750mg PO daily x 4 remaining days, Continue home medications including tiotropium and albuterol PRN.\n\nFollow-up: PCP in 1 week, Pulmonology in 2 weeks.",
"labels": {
"specialty": "pulmonology",
"urgency": "urgent",
"note_type": "discharge_summary",
"icd10_category": "J44.1"
},
"metadata": {
"word_count": 168,
"has_medications": true,
"has_lab_values": false,
"de_identification_method": "safe_harbor"
}
},
{
"text": "PROGRESS NOTE\n\nSubjective: Patient reports improvement in left knee pain since starting physical therapy 3 weeks ago. Pain now 3/10 at rest, 5/10 with activity, down from 7/10 at initial visit. Able to walk 20 minutes without significant discomfort. Denies swelling, locking, or giving way.\n\nObjective: Left knee ROM: flexion 125 degrees (was 110), extension full. No effusion. Stable to varus/valgus stress. Negative McMurray. Quad strength 4+/5 (was 4/5).\n\nAssessment: Left knee osteoarthritis, improving with conservative management.\n\nPlan: Continue PT 2x/week for 4 more weeks. May advance to low-impact exercise (swimming, cycling). Follow up in 6 weeks. If plateau in progress, consider intra-articular injection.",
"labels": {
"specialty": "orthopedics",
"urgency": "routine",
"note_type": "progress_note",
"icd10_category": "M17"
},
"metadata": {
"word_count": 132,
"has_medications": false,
"has_lab_values": false,
"de_identification_method": "safe_harbor"
}
}
]Data Collection Guide
在获得适当的 IRB 批准和 HIPAA 合规的前提下,从你组织的电子健康记录(EHR)系统中获取临床记录。与合规团队合作,建立允许将去标识化临床记录用于 AI 模型训练的数据使用协议。提取涵盖所有相关专科、记录类型和紧急程度的记录,以构建具有代表性的数据集。
去标识化是最关键的步骤。使用基于 NLP 的自动去标识化工具检测并去除所有 18 种 HIPAA 安全港标识:姓名、地理数据、日期、电话号码、传真号码、电子邮件地址、社会安全号码、病历号码、医保号码、账户号码、证书/许可号码、车辆标识、设备标识、URL、IP 地址、生物特征标识、正面照片,以及任何其他唯一识别号码。自动去标识化完成后,对样本(10-20%)进行人工审核,以验证自动系统捕获了所有标识。
Ertas Data Suite 的本地部署 PII 脱敏引擎专为此工作流设计。在进行任何进一步的数据处理之前,通过脱敏管道处理所有临床记录,并使用审计日志记录去标识化过程作为 HIPAA 合规证据。气隙架构确保在整个数据集准备过程中,PHI 永远不会离开你的医疗机构的受控环境。
Quality Criteria
通过自动扫描和人工审核验证去标识化的完整性。任何包含残留 PHI 的记录都必须标记并重 新处理后才能纳入训练数据集。将去标识化验证过程作为 HIPAA 合规记录的一部分进行文档化。
标签的临床准确性至关重要。让经过专科认证的医师或资深临床信息学专家审核专科分类、紧急程度评级和 ICD-10 类别分配。应测量标注员间一致性,专科分类应超过 85%,紧急程度评级应超过 80%。分歧应通过高级临床医师审核流程解决。
确保各医学专科之间均衡代表。高流量科室(内科、急诊科)的临床文档自然会在数据集中占主导地位。主动对低流量专科(风湿病学、内分泌学、神经病学)进行过采样,以防止模型对常见专科产生偏差。每个专科至少需要 200-300 个示例以获得足够的分类性能。
Using This Template with Ertas
将 EHR 导出的临床记录导入 Ertas Data Suite 的本地部署环境。应用 PII 脱敏引擎自动检测并遮蔽所有 HIPAA 标识。使用数据溯源追踪功能审查脱敏结果,该功能记录每次应用的脱敏操作,包括标识类型、位置和遮蔽方法。以 JSONL 格式导出去标识化的数据集用于模型训练。
整个工作流在你的医疗机构基础设施内完成,无需向外部传输任何临床数据。在 Ertas Studio 中完成微调后,以 GGUF 格式导出模型用于临床系统内的本地推理,在整个模型生命周期内保持 HIPAA 合规。
Recommended Model
医疗记录分类受益于具有生物医学领域知识的模型。如果可用,考虑从经过生物医学预训练的基础模型开始,或者在生物医学文本和你的分类数据集的组合上微调通用 7B-8B 模型。对于跨专科、紧急程度和记录类型的多标签分类,针对分类任务微调的编码器模型(BERT 系列)可能优于基于解码器的 LLM,同时推理效率显著更高。
对于需要同时进行分类和解释(识别为什么记录被分类为紧急)的应用,7B-8B 的生成式模型提供了在结构化分类之外输出自然语言推理说明的灵活性。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.