Dataset de Clasificación de Notas Médicas Template

Plantilla para construir datasets que entrenen modelos de IA para clasificar notas clínicas por categoría diagnóstica, nivel de urgencia y enrutamiento por departamento.

Classification

Overview

Los datasets de clasificación de notas médicas entrenan modelos de IA para categorizar documentación clínica — incluyendo notas médicas, resúmenes de alta, informes de radiología y evaluaciones de enfermería — por especialidad médica, categoría diagnóstica, nivel de urgencia y enrutamiento al departamento apropiado. Estos datasets permiten a las organizaciones de salud automatizar el triaje y la organización de la documentación clínica, mejorando la eficiencia del flujo de trabajo mientras aseguran que los hallazgos críticos reciban atención oportuna.

El desafío único de la clasificación de notas médicas es el lenguaje específico del dominio de la documentación clínica. Los médicos usan abreviaturas (SOB para dificultad respiratoria, PRN para según necesidad, BID para dos veces al día), terminología médica y patrones de documentación estructurada (notas SOAP, formato H&P) que los modelos de lenguaje de propósito general pueden no manejar bien sin fine-tuning. Los datos de entrenamiento deben capturar estos patrones de lenguaje clínico cubriendo todo el espectro de especialidades médicas y tipos de documentación.

La privacidad de los datos es una preocupación primordial para los datasets de entrenamiento médicos. Todas las notas clínicas contienen información de salud protegida (PHI) bajo HIPAA, y el dataset debe ser exhaustivamente desidentificado antes de usarse en el entrenamiento del modelo. El método Safe Harbor de HIPAA requiere eliminar 18 tipos específicos de identificadores, mientras que la Determinación por Experto requiere que un estadístico calificado certifique que el riesgo de reidentificación es muy bajo. El proceso de desidentificación debe estar documentado y ser auditable, haciendo esencial el procesamiento de datos on-premise con pistas de auditoría completas para el cumplimiento normativo.

Dataset Schema

typescript

interface MedicalNoteExample {
  text: string;          // De-identified clinical note text
  labels: {
    specialty: string;   // e.g., "cardiology", "pulmonology", "orthopedics"
    urgency: "routine" | "urgent" | "emergent";
    note_type: "progress_note" | "discharge_summary" | "consult" | "procedure" | "radiology";
    icd10_category?: string;  // Primary ICD-10 chapter
  };
  metadata: {
    word_count: number;
    has_medications: boolean;
    has_lab_values: boolean;
    de_identification_method: "safe_harbor" | "expert_determination";
  };
}

Esquema para clasificación de notas médicas con etiquetas de especialidad, urgencia y tipo de nota

Sample Data

json

[
  {
    "text": "DISCHARGE SUMMARY\n\nPatient: [REDACTED], Age: 67, Sex: M\nAdmitting Diagnosis: Acute exacerbation of COPD\nDischarge Diagnosis: Acute exacerbation of COPD with community-acquired pneumonia\n\nHPI: Patient presented to ED with 3-day history of worsening dyspnea, productive cough with yellow-green sputum, and low-grade fever (100.4F). History of COPD Gold Stage III, former smoker (45 pack-years, quit 2019). On home O2 2L NC.\n\nHospital Course: Admitted to general medicine. Started on IV levofloxacin 750mg daily and methylprednisolone 125mg IV q8h. Chest X-ray showed RLL infiltrate consistent with pneumonia. Blood cultures negative. Transitioned to oral prednisone taper and oral levofloxacin on day 3. O2 requirements normalized to baseline by day 4.\n\nDischarge Medications: Prednisone 40mg taper over 10 days, Levofloxacin 750mg PO daily x 4 remaining days, Continue home medications including tiotropium and albuterol PRN.\n\nFollow-up: PCP in 1 week, Pulmonology in 2 weeks.",
    "labels": {
      "specialty": "pulmonology",
      "urgency": "urgent",
      "note_type": "discharge_summary",
      "icd10_category": "J44.1"
    },
    "metadata": {
      "word_count": 168,
      "has_medications": true,
      "has_lab_values": false,
      "de_identification_method": "safe_harbor"
    }
  },
  {
    "text": "PROGRESS NOTE\n\nSubjective: Patient reports improvement in left knee pain since starting physical therapy 3 weeks ago. Pain now 3/10 at rest, 5/10 with activity, down from 7/10 at initial visit. Able to walk 20 minutes without significant discomfort. Denies swelling, locking, or giving way.\n\nObjective: Left knee ROM: flexion 125 degrees (was 110), extension full. No effusion. Stable to varus/valgus stress. Negative McMurray. Quad strength 4+/5 (was 4/5).\n\nAssessment: Left knee osteoarthritis, improving with conservative management.\n\nPlan: Continue PT 2x/week for 4 more weeks. May advance to low-impact exercise (swimming, cycling). Follow up in 6 weeks. If plateau in progress, consider intra-articular injection.",
    "labels": {
      "specialty": "orthopedics",
      "urgency": "routine",
      "note_type": "progress_note",
      "icd10_category": "M17"
    },
    "metadata": {
      "word_count": 132,
      "has_medications": false,
      "has_lab_values": false,
      "de_identification_method": "safe_harbor"
    }
  }
]

Ejemplos de notas clínicas desidentificadas para resumen de alta de neumología y nota de evolución de ortopedia

Data Collection Guide

Obtén notas clínicas del sistema de historia clínica electrónica (HCE) de tu organización con la aprobación del IRB y el cumplimiento de HIPAA correspondientes. Trabaja con tu equipo de cumplimiento para establecer un acuerdo de uso de datos que permita el uso de notas clínicas desidentificadas para el entrenamiento de modelos de IA. Extrae notas de todas las especialidades, tipos de nota y niveles de urgencia relevantes para construir un dataset representativo.

La desidentificación es el paso más crítico. Usa herramientas automatizadas de desidentificación basadas en NLP para detectar y eliminar los 18 identificadores del Safe Harbor de HIPAA: nombres, datos geográficos, fechas, números de teléfono, números de fax, direcciones de correo electrónico, SSNs, números de expediente médico, números de plan de salud, números de cuenta, números de certificado/licencia, identificadores de vehículos, identificadores de dispositivos, URLs, direcciones IP, identificadores biométricos, fotos de rostro completo y cualquier otro número de identificación único. Después de la desidentificación automatizada, realiza una revisión manual en una muestra (10-20 por ciento) para verificar que el sistema automatizado capturó todos los identificadores.

El motor de redacción de PII on-premise de Ertas Data Suite está diseñado para este flujo de trabajo. Procesa todas las notas clínicas a través del pipeline de redacción antes de cualquier manejo adicional de datos, y usa el registro de auditoría para documentar el proceso de desidentificación como evidencia de cumplimiento de HIPAA. La arquitectura aislada asegura que la PHI nunca salga del entorno controlado de tu organización de salud durante todo el proceso de preparación del dataset.

Quality Criteria

Verifica la desidentificación completa mediante escaneo automatizado y revisión manual. Cualquier nota que contenga PHI residual debe ser marcada y reprocesada antes de su inclusión en el dataset de entrenamiento. Documenta el proceso de verificación de desidentificación como parte de tus registros de cumplimiento de HIPAA.

La precisión clínica de las etiquetas es esencial. Haz que médicos certificados o informaticistas clínicos experimentados revisen las clasificaciones de especialidad, las calificaciones de urgencia y las asignaciones de categoría ICD-10. La concordancia entre anotadores debe medirse y debe superar el 85 por ciento para la clasificación de especialidad y el 80 por ciento para la calificación de urgencia. Los desacuerdos deben resolverse mediante un proceso de revisión por un clínico senior.

Asegura una representación equilibrada entre especialidades médicas. La documentación clínica de departamentos de alto volumen (medicina interna, medicina de emergencia) dominará naturalmente el dataset. Sobremuestrea activamente de especialidades de menor volumen (reumatología, endocrinología, neurología) para prevenir que el modelo desarrolle un sesgo hacia las especialidades comunes. Apunta a un mínimo de 200-300 ejemplos por especialidad para un rendimiento de clasificación adecuado.

Using This Template with Ertas

Importa las notas clínicas de tu exportación de HCE al entorno on-premise de Ertas Data Suite. Aplica el motor de redacción de PII para detectar y enmascarar automáticamente todos los identificadores de HIPAA. Revisa los resultados de la redacción usando el rastreo de linaje de datos, que documenta cada redacción aplicada con el tipo de identificador, la ubicación y el método de enmascaramiento. Exporta el dataset desidentificado en formato JSONL para el entrenamiento del modelo.

Todo el flujo de trabajo ocurre dentro de la infraestructura de tu organización de salud. Ningún dato clínico se transmite externamente. Después del fine-tuning en Ertas Studio, exporta el modelo en formato GGUF para inferencia local dentro de tus sistemas clínicos, manteniendo el cumplimiento de HIPAA durante todo el ciclo de vida del modelo.

Recommended Model

La clasificación de notas médicas se beneficia de modelos con conocimiento del dominio biomédico. Considera comenzar con un modelo base pre-entrenado en biomedicina si está disponible, o ajusta un modelo general de 7B-8B en una combinación de texto biomédico y tu dataset de clasificación. Para la clasificación multi-etiqueta entre especialidad, urgencia y tipo de nota, los modelos basados en encoder (familia BERT) ajustados para clasificación pueden superar a los LLMs basados en decoder siendo significativamente más eficientes para la inferencia.

Para aplicaciones que requieren tanto clasificación como explicación (identificar por qué una nota se clasifica como urgente), un modelo generativo de 7B-8B proporciona la flexibilidad para generar clasificaciones estructuradas junto con una justificación en lenguaje natural.

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →