醫療筆記資料集 Template
用於訓練臨床 NLP 模型進行醫療實體提取和文件分類的資料集範本
ClassificationOverview
醫療筆記分類資料集訓練 AI 模型對臨床文件進行分類——包括醫師筆記、出院摘要、放射科報告和護理評估——按醫療專科、診斷類別、緊急程度和適當的科別轉介。這些資料集使醫療組織能夠自動化臨床文件的分類和整理,提升工作流程效率,同時確保關鍵發現得到及時關注。
醫療筆記分類的獨特挑戰在於臨床文件的領域特定語言。醫師使用縮寫(SOB 代表呼吸困難、PRN 代表需要時、BID 代表每日兩次)、醫學術語和結構化的文件模式(SOAP 筆記、H&P 格式),而通用語言模型若未經微調可能無法妥善處理。訓練資料必須捕捉這些臨床語言模式,同時涵蓋完整的醫療專科和文件類型範圍。
資料隱私是醫療訓練資料集最重要的關切。所有臨床筆記都包含受 HIPAA 保護的健康資訊(PHI),資料集在用於模型訓練之前必須徹底去識別化。HIPAA 安全港方法要求移除 18 種特定的識別符類型,而專家判定法要求合格的統計學家認證重新識別的風險極低。去識別化過程必須有文件記錄且可稽核,因此具備完整稽核軌跡的地端資料處理對於合規至關重要。
Dataset Schema
interface MedicalNoteExample {
text: string; // De-identified clinical note text
labels: {
specialty: string; // e.g., "cardiology", "pulmonology", "orthopedics"
urgency: "routine" | "urgent" | "emergent";
note_type: "progress_note" | "discharge_summary" | "consult" | "procedure" | "radiology";
icd10_category?: string; // Primary ICD-10 chapter
};
metadata: {
word_count: number;
has_medications: boolean;
has_lab_values: boolean;
de_identification_method: "safe_harbor" | "expert_determination";
};
}Sample Data
[
{
"text": "DISCHARGE SUMMARY\n\nPatient: [REDACTED], Age: 67, Sex: M\nAdmitting Diagnosis: Acute exacerbation of COPD\nDischarge Diagnosis: Acute exacerbation of COPD with community-acquired pneumonia\n\nHPI: Patient presented to ED with 3-day history of worsening dyspnea, productive cough with yellow-green sputum, and low-grade fever (100.4F). History of COPD Gold Stage III, former smoker (45 pack-years, quit 2019). On home O2 2L NC.\n\nHospital Course: Admitted to general medicine. Started on IV levofloxacin 750mg daily and methylprednisolone 125mg IV q8h. Chest X-ray showed RLL infiltrate consistent with pneumonia. Blood cultures negative. Transitioned to oral prednisone taper and oral levofloxacin on day 3. O2 requirements normalized to baseline by day 4.\n\nDischarge Medications: Prednisone 40mg taper over 10 days, Levofloxacin 750mg PO daily x 4 remaining days, Continue home medications including tiotropium and albuterol PRN.\n\nFollow-up: PCP in 1 week, Pulmonology in 2 weeks.",
"labels": {
"specialty": "pulmonology",
"urgency": "urgent",
"note_type": "discharge_summary",
"icd10_category": "J44.1"
},
"metadata": {
"word_count": 168,
"has_medications": true,
"has_lab_values": false,
"de_identification_method": "safe_harbor"
}
},
{
"text": "PROGRESS NOTE\n\nSubjective: Patient reports improvement in left knee pain since starting physical therapy 3 weeks ago. Pain now 3/10 at rest, 5/10 with activity, down from 7/10 at initial visit. Able to walk 20 minutes without significant discomfort. Denies swelling, locking, or giving way.\n\nObjective: Left knee ROM: flexion 125 degrees (was 110), extension full. No effusion. Stable to varus/valgus stress. Negative McMurray. Quad strength 4+/5 (was 4/5).\n\nAssessment: Left knee osteoarthritis, improving with conservative management.\n\nPlan: Continue PT 2x/week for 4 more weeks. May advance to low-impact exercise (swimming, cycling). Follow up in 6 weeks. If plateau in progress, consider intra-articular injection.",
"labels": {
"specialty": "orthopedics",
"urgency": "routine",
"note_type": "progress_note",
"icd10_category": "M17"
},
"metadata": {
"word_count": 132,
"has_medications": false,
"has_lab_values": false,
"de_identification_method": "safe_harbor"
}
}
]Data Collection Guide
在取得適當的 IRB 核准和 HIPAA 合規的前提下,從您組織的電子病歷(EHR)系統取得臨床筆記。與您的合規團隊合作,建立允許將去識別化臨床筆記用於 AI 模型訓練的資料使用協議。從所有相關專科、筆記類型和緊急程度等級中提取筆記,以建構具代表性的資料集。
去識別化是最關鍵的步驟。使用自動化的 NLP 去識別化工具偵測並移除所有 18 種 HIPAA 安全港識別符:姓名、地理資料、日期、電話號碼、傳真號碼、電子郵件地址、社會安全號碼、病歷號碼、健康計畫號碼、帳號、證書/執照號碼、車輛識別碼、裝置識別碼、網址、IP 位址、生物特徵識別碼、全臉照片,以及任何其他唯一識別號碼。自動化去識別化後,對樣本(10-20%)進行人工審查,以驗證自動化系統是否捕捉到所有識別符。
Ertas Data Suite 的地端個資遮蔽引擎專為此工作流程設計。在進行任何進一步的資料處理之前,先將所有臨床筆記通過遮蔽管道處理,並使用稽核日誌記錄去識別化過程以作為 HIPAA 合規證據。氣隔架構確保在整個資料集準備過程中,受保護的健康資訊永遠不會離開您的醫療組織的受控環境。
Quality Criteria
透過自動化掃描和人工審查雙重驗證完整的去識別化。 任何包含殘留受保護健康資訊的筆記必須被標記並在納入訓練資料集之前重新處理。將去識別化驗證過程記錄為您 HIPAA 合規記錄的一部分。
標籤的臨床準確性至關重要。請經認證的醫師或有經驗的臨床資訊學專家審查專科分類、緊急程度評級和 ICD-10 類別指定。標註者間一致性應予以衡量,專科分類應超過 85%,緊急程度評級應超過 80%。分歧應透過資深臨床醫師的審查過程解決。
確保跨醫療專科的均衡代表。來自高流量科別(內科、急診醫學)的臨床文件自然會主導資料集。主動對低流量專科(風濕科、內分泌科、神經科)進行過取樣,以防止模型對常見專科產生偏差。每個專科至少應有 200-300 個範例,以達到足夠的分類效能。
Using This Template with Ertas
將臨床筆記從您的 EHR 匯出匯入 Ertas Data Suite 的地端環境中。套用個資遮蔽引擎自動偵測並遮蔽所有 HIPAA 識別符。使用資料血統追蹤功能審查遮蔽結果,該功能記錄每次遮蔽所應用的識別符類型、位置和遮蔽方法。以 JSONL 格式匯出去識別化的資料集進行模型訓練。
整個工作流程在您的醫療組織基礎設施內進行。不會有臨床資料被傳輸到外部。在 Ertas Studio 微調後,以 GGUF 格式匯出模型,供您的臨床系統進行本地推論使用,在整個模型生命週期中維持 HIPAA 合規。
Recommended Model
醫療筆記分類受益於具 有生物醫學領域知識的模型。如果有的話,考慮從生物醫學預訓練的基礎模型開始,或者在生物醫學文字和您的分類資料集的組合上微調通用的 7B-8B 模型。對於跨專科、緊急程度和筆記類型的多標籤分類,針對分類進行微調的編碼器模型(BERT 家族)可能在推論效率顯著更高的同時,效能超越基於解碼器的 LLM。
對於同時需要分類和解釋(識別為什麼筆記被分類為緊急)的應用,生成式 7B-8B 模型提供了在結構化分類旁輸出自然語言理由的靈活性。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.