Back to blog
    Adaptadores LoRA por especialidad médica: Radiología, Patología, Atención Primaria
    healthcarelorafine-tuningradiologypathologymulti-tenantdeployment

    Adaptadores LoRA por especialidad médica: Radiología, Patología, Atención Primaria

    Cómo servir múltiples departamentos hospitalarios desde un solo modelo base usando adaptadores LoRA específicos por especialidad. Cubre arquitectura, requisitos de datos de entrenamiento, cálculos de almacenamiento, gestión de adaptadores y benchmarks de rendimiento.

    EErtas Team·

    Un informe de radiología y una nota de consulta de atención primaria requieren capacidades de IA fundamentalmente diferentes. La radiología exige informes estructurados con vocabulario anatómico preciso, comparación con estudios previos y secciones de impresión estandarizadas. La atención primaria necesita comunicación conversacional con el paciente, redacción de cartas de referencia y resúmenes de notas de visita a través de decenas de tipos de consulta.

    Ejecutar modelos fine-tuned separados para cada especialidad es costoso e ineficiente. Un modelo Llama 3 8B en FP16 ocupa aproximadamente 16 GB de VRAM. Cinco especialidades, cinco modelos, cinco GPUs — esa matemática no funciona para ningún hospital o agencia.

    La solución: un modelo médico base cargado una sola vez en la memoria GPU, más adaptadores LoRA ligeros que se intercambian por solicitud según el departamento solicitante. Este artículo cubre la arquitectura, los requisitos de entrenamiento específicos por especialidad, cálculos de almacenamiento, gestión de adaptadores y comparaciones de rendimiento.

    Arquitectura: Un modelo base, muchas especialidades

    La configuración principal

    Distribución de memoria GPU:
    ┌─────────────────────────────────────┐
    │  Modelo Base (Llama 3 8B o Mistral) │ ← Cargado una vez: 8-16 GB
    │  Cuantizado a Q5_K_M: ~5.5 GB      │
    ├─────────────────────────────────────┤
    │  Adaptador LoRA activo              │ ← Intercambiado por solicitud
    │  (Específico por especialidad,      │
    │   50-200 MB)                        │
    └─────────────────────────────────────┘
    
    Almacenamiento de adaptadores (SSD):
    ├── radiology-report-v2.1.safetensors      (120 MB)
    ├── pathology-synoptic-v1.3.safetensors    (95 MB)
    ├── primary-care-notes-v3.0.safetensors    (140 MB)
    ├── cardiology-echo-v1.1.safetensors       (88 MB)
    ├── dermatology-lesion-v2.0.safetensors    (105 MB)
    ├── emergency-triage-v1.4.safetensors      (110 MB)
    ├── orthopedics-surgical-v1.0.safetensors  (92 MB)
    ├── psychiatry-eval-v1.2.safetensors       (130 MB)
    ├── oncology-staging-v1.1.safetensors      (115 MB)
    └── gastro-endo-v1.0.safetensors           (98 MB)
    

    Selección del modelo base

    El modelo base importa. Para salud, necesitas un modelo que ya tenga vocabulario médico sólido y capacidad de razonamiento, para luego especializarlo más con LoRA.

    Llama 3 8B es el punto de partida recomendado para la mayoría de los despliegues en salud:

    • Razonamiento general sólido
    • Buen rendimiento en benchmarks médicos desde el inicio
    • Gran comunidad, rutas de cuantización bien probadas
    • Licencia permisiva para uso comercial

    Mistral 7B es una alternativa fuerte cuando la latencia es la prioridad principal:

    • Ligeramente más pequeño, inferencia más rápida
    • La atención de ventana deslizante maneja bien documentos clínicos largos
    • Buena relación rendimiento por parámetro

    Cualquiera de los dos modelos sirve como base congelada. Los adaptadores LoRA hacen el trabajo de especialización.

    Enrutamiento de solicitudes

    Cuando llega una solicitud, el sistema identifica el departamento de origen y carga el adaptador correspondiente:

    Solicitud entrante
          │
          ▼
    ┌─────────────┐
    │  API Gateway │ ← Autentica, identifica departamento
    └──────┬──────┘
           │
           ▼
    ┌──────────────────┐
    │ Router de         │ ← Mapea departamento → archivo de adaptador
    │ Adaptadores       │
    │                   │
    │ radiología → rad-v2.1
    │ patología  → path-v1.3
    │ primaria   → pc-v3.0
    └──────┬───────────┘
           │
           ▼
    ┌──────────────────┐
    │  Motor de         │ ← Modelo base + adaptador seleccionado
    │  Inferencia       │
    │  (vLLM / Ollama)  │
    └──────────────────┘
    

    El tiempo de intercambio de adaptador en hardware moderno: 10-50ms. Invisible para el usuario final. En la práctica, la mayoría de los motores de inferencia almacenan en caché los adaptadores usados recientemente, por lo que el costo de intercambio se acerca a cero para departamentos activos.

    Adaptador de Radiología

    Qué hace

    La IA de radiología asiste con tres tareas principales:

    1. Generación de informes a partir de hallazgos — Dada una lista de hallazgos de imagen (dictados o extraídos de listas de trabajo), genera un informe radiológico estructurado.
    2. Comparación con estudios previos — Dados hallazgos actuales y previos, genera la sección de "comparación" del informe.
    3. Resumen de impresiones — Condensa una sección completa de hallazgos en una impresión clínica concisa con recomendaciones accionables.

    Requisitos de datos de entrenamiento

    ParámetroEspecificación
    Volumen300-500 ejemplos de informes radiológicos
    FuentesInformes desidentificados del PACS/RIS de la institución, MIMIC-CXR (disponible públicamente), OpenI (NIH)
    FormatoEntrada: lista de hallazgos estructurada. Salida: secciones completas del informe.
    Criterios de calidadInformes revisados y aprobados por radiólogos titulares. Excluir informes preliminares o enmendados.
    Cobertura por modalidadTC (30%), RM (25%), Rayos X (25%), Ultrasonido (15%), Otros (5%)
    DesidentificaciónEliminar nombre del paciente, MRN, fecha de nacimiento, fechas, médico referente, nombre de la institución

    Formato de salida

    El adaptador debe producir informes siguiendo los estándares de informes estructurados del ACR (American College of Radiology):

    EXAMEN: TC de tórax con contraste
    
    INDICACIÓN CLÍNICA: Varón de 62 años con tos persistente,
    descartar malignidad.
    
    COMPARACIÓN: TC de tórax con fecha [FECHA].
    
    TÉCNICA: Imágenes axiales obtenidas a través del tórax tras
    administración de 100 mL de contraste IV.
    
    HALLAZGOS:
    Pulmones: Nódulo en vidrio esmerilado de 8mm en lóbulo inferior
    derecho, sin cambios respecto al examen previo. Sin nuevos
    nódulos pulmonares. Sin consolidación ni derrame pleural.
    [...]
    
    IMPRESIÓN:
    1. Nódulo en vidrio esmerilado estable de 8mm en LID.
       Se recomienda TC de seguimiento en 6 meses según las
       guías de la Sociedad Fleischner.
    2. Sin anomalía cardiopulmonar aguda.
    

    Consideraciones clave de entrenamiento

    • Consistencia sobre creatividad. Los informes radiológicos siguen convenciones de formato estrictas. Entrena con temperatura baja (0.1-0.3) y enfatiza el cumplimiento del formato en los datos de entrenamiento.
    • Vocabulario anatómico. El adaptador debe aprender las preferencias terminológicas específicas de la institución (p. ej., "opacidad" vs. "infiltrado", "lesión" vs. "masa").
    • Precisión en medidas. El modelo debe reproducir las medidas exactamente como se proporcionan en la entrada. Entrena con ejemplos explícitos de medidas para prevenir la alucinación de tamaños o dimensiones.

    Adaptador de Patología

    Qué hace

    1. Estandarización de descripción de especímenes — Convierte descripciones macroscópicas en texto libre a formato sinóptico estandarizado.
    2. Interpretación de resultados — Genera comentarios interpretativos para hallazgos patológicos comunes.
    3. Informes sinópticos — Produce informes sinópticos compatibles con el protocolo CAP (College of American Pathologists).

    Requisitos de datos de entrenamiento

    ParámetroEspecificación
    Volumen200-400 ejemplos de informes patológicos
    FuentesInformes patológicos institucionales desidentificados, plantillas del protocolo CAP
    FormatoEntrada: descripción macroscópica + hallazgos microscópicos. Salida: informe sinóptico.
    Criterios de calidadSolo informes finales firmados. Excluir addendas a menos que estén emparejadas con el original.
    Tipos de especímenesPatología quirúrgica (60%), citología (20%), dermatopatología (15%), hematopatología (5%)
    DesidentificaciónEliminar identificadores del paciente, números de acceso, nombres de médicos referentes

    Ejemplo de salida sinóptica

    INFORME SINÓPTICO CAP — Excisión de Mama
    
    Procedimiento: Tumorectomía
    Lateralidad del espécimen: Izquierda
    Sitio del tumor: Cuadrante superoexterno
    Tipo histológico: Carcinoma ductal invasivo, NOS
    Grado histológico: Grado 2 (puntuación Nottingham 6/9)
    Tamaño del tumor: 1.8 cm (dimensión mayor)
    Márgenes: Negativos (margen más cercano: 3mm, superior)
    Invasión linfovascular: No identificada
    CDIS: Presente, patrones sólido y cribiforme
    [...]
    

    Consideraciones clave de entrenamiento

    • Fidelidad de salida estructurada. Los protocolos sinópticos CAP tienen campos obligatorios. El adaptador debe aprender a completar cada campo requerido, incluso cuando la entrada está incompleta (en cuyo caso debe indicar "no especificado" en lugar de alucinar).
    • Menor volumen requerido. Los informes patológicos son altamente estructurados, por lo que el adaptador converge más rápido — 200-400 ejemplos son típicamente suficientes comparado con 400-600 para especialidades menos estructuradas.
    • Precisión en clasificación. La gradación histológica, estadificación y estado de márgenes deben transcribirse exactamente desde los datos de entrada. Entrena con ejemplos que prueben específicamente estos campos críticos.

    Adaptador de Atención Primaria

    Qué hace

    1. Resumen de notas de visita — Genera notas SOAP a partir de datos del encuentro o transcripciones de dictado.
    2. Comunicación al paciente — Redacta resúmenes post-visita, instrucciones de cuidado y mensajes de seguimiento en lenguaje accesible para el paciente.
    3. Redacción de cartas de referencia — Genera cartas de referencia a especialistas con historial relevante, medicamentos actuales y pregunta clínica.
    4. Generación de plan de cuidado — Produce planes de cuidado estructurados basados en diagnóstico, historial del paciente y guías clínicas.

    Requisitos de datos de entrenamiento

    ParámetroEspecificación
    Volumen400-600 ejemplos (mayor debido a la diversidad de tareas)
    FuentesNotas de visita desidentificadas, mensajes del portal del paciente, cartas de referencia
    FormatoVaría por tarea. Notas de visita: datos del encuentro → SOAP. Comunicación: info clínica → lenguaje accesible.
    Criterios de calidadNotas de médicos experimentados. Excluir encuentros incompletos.
    Cobertura por tipo de visitaBienestar anual (15%), visitas agudas (35%), manejo de enfermedades crónicas (30%), seguimientos (20%)
    DesidentificaciónEliminación completa de PHI incluyendo detalles de historia social que podrían ser identificadores

    Consideraciones clave de entrenamiento

    • Nivel de lectura. Las comunicaciones dirigidas al paciente deben estar escritas a un nivel de lectura de 6to-8vo grado. Incluye puntuación de legibilidad en tus criterios de evaluación.
    • Diversidad de tareas. Los adaptadores de atención primaria manejan la mayor variedad de tareas. Usa prefijos de instrucción específicos por tarea en los datos de entrenamiento para ayudar al adaptador a distinguir entre "generar una nota SOAP" y "escribir una carta al paciente."
    • Conocimiento de medicamentos. Las notas de atención primaria frecuentemente referencian medicamentos. El adaptador debe reproducir nombres de medicamentos, dosis y frecuencias exactamente. No confíes en el adaptador para verificación de interacciones medicamentosas — esa es una tarea de RAG.

    Cálculos de almacenamiento: cuánto cuesta

    El despliegue multi-especialidad completo es notablemente compacto:

    ComponenteTamaño
    Modelo base (Llama 3 8B, cuantizado Q5_K_M)5.5 GB
    Adaptador de radiología120 MB
    Adaptador de patología95 MB
    Adaptador de atención primaria140 MB
    Adaptador de cardiología88 MB
    Adaptador de dermatología105 MB
    Adaptador de emergencias110 MB
    Adaptador de ortopedia92 MB
    Adaptador de psiquiatría130 MB
    Adaptador de oncología115 MB
    Adaptador de gastroenterología98 MB
    Total (base + 10 especialidades)~6.6 GB

    Compara esto con 10 modelos fine-tuned separados: 10 x 5.5 GB = 55 GB. El enfoque LoRA usa un 88% menos de almacenamiento y requiere solo una GPU en lugar de varias.

    Requisitos de VRAM en inferencia:

    • Modelo base (cuantizado): 5.5 GB
    • Adaptador activo: ~100-150 MB
    • Caché KV (contexto 2K): ~500 MB
    • Overhead: ~500 MB
    • Total: ~6.5-7 GB — cabe en una sola GPU de consumo (RTX 4060 o superior)

    Un hospital que ejecuta 10 especialidades necesita una tarjeta GPU, no diez. Esa es la propuesta de valor de LoRA.

    Gestión de adaptadores: versionado y pruebas

    Convención de nombres de versiones

    Usa un esquema de nombres claro y predecible:

    {especialidad}-{tarea}-v{mayor}.{menor}.safetensors
    
    Ejemplos:
    radiology-report-v1.0.safetensors    ← Versión inicial
    radiology-report-v1.1.safetensors    ← Correcciones, reentrenamiento menor
    radiology-report-v2.0.safetensors    ← Reentrenamiento mayor, nuevos datos
    pathology-synoptic-v1.3.safetensors  ← Tercer parche de primera versión
    

    Pruebas A/B entre versiones

    Antes de desplegar una nueva versión del adaptador, ejecútala contra la versión actual en un conjunto de prueba reservado:

    Métricav1.0v1.1Umbral
    Cumplimiento de formato94%97%mayor a 95%
    Precisión clínica91%93%mayor a 90%
    Tasa de alucinación3.2%1.8%menor a 2%
    Latencia (p95)420ms435msmenor a 500ms

    Solo promueve v1.1 a producción si cumple todos los umbrales. Mantén v1.0 como opción de rollback.

    Despliegue: carga una vez, intercambia por solicitud

    El motor de inferencia carga el modelo base una vez al iniciar. Los adaptadores se cargan bajo demanda:

    1. Llega una solicitud etiquetada con department: radiology
    2. El router verifica si radiology-report-v2.1 está en la caché de adaptadores
    3. Si está en caché: aplica el adaptador, ejecuta inferencia (agrega ~5ms de latencia)
    4. Si no está en caché: carga desde SSD a GPU (~30-50ms), cachea, ejecuta inferencia
    5. Devuelve la respuesta

    La mayoría de los frameworks de inferencia (vLLM, text-generation-inference, Ollama) soportan este patrón de forma nativa. La caché de adaptadores mantiene los 3-5 adaptadores usados más recientemente en memoria GPU. Para un hospital donde radiología, atención primaria y emergencias son los departamentos de mayor volumen, esos tres adaptadores permanecen permanentemente en caché.

    Rendimiento: modelo genérico vs. adaptador de especialidad

    Aquí es donde la inversión se justifica. Un modelo base genérico maneja texto médico razonablemente bien. Un adaptador de especialidad lo hace clínicamente útil.

    Comparación de precisión (benchmarks internos)

    TareaModelo base genéricoAdaptador LoRA de especialidadMejora
    Generación de informes radiológicos71% cumplimiento de formato96% cumplimiento de formato+25 pts
    Precisión de impresión radiológica78%93%+15 pts
    Completitud sinóptica de patología65% campos correctos94% campos correctos+29 pts
    Notas SOAP de atención primaria74%91%+17 pts
    Legibilidad de comunicación al pacienteGrado 11 promedioGrado 7 promedioNivel apropiado
    Completitud de carta de referencia68%92%+24 pts
    Precisión de resumen de alta72%89%+17 pts
    Precisión de sugerencia de codificación clínica70%88%+18 pts

    Mejora promedio en todas las tareas: +20.6 puntos porcentuales. Esta es la diferencia entre un modelo que los clínicos ignoran y uno que realmente usan.

    Comparación de latencia

    ConfiguraciónTiempo hasta el primer tokenGeneración total (500 tokens)
    Solo modelo base45ms380ms
    Base + adaptador LoRA en caché48ms395ms
    Base + carga de adaptador LoRA en frío85ms430ms

    El overhead de latencia de LoRA es insignificante — 3-15ms para un adaptador en caché. Esto es invisible en un flujo de trabajo clínico donde la interacción humana (hacer clic, leer, editar) toma segundos.

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Poniéndolo todo junto

    Lista de verificación de despliegue

    1. Selecciona el modelo base. Llama 3 8B (cuantización Q5_K_M) para rendimiento equilibrado. Mistral 7B si la latencia es la máxima prioridad.

    2. Prioriza las especialidades. Comienza con los 2-3 departamentos de mayor volumen. Radiología y atención primaria son casi siempre las primeras opciones correctas.

    3. Recopila y desidentifica datos de entrenamiento. 300-600 ejemplos por especialidad. Trabaja con los jefes de departamento para identificar ejemplos representativos y de alta calidad.

    4. Entrena los adaptadores. Rango 16-32, tasa de aprendizaje 1e-4 a 2e-4, 3-5 épocas. Valida contra un conjunto de prueba reservado después de cada época.

    5. Compara con el modelo genérico. Documenta la mejora para cada tarea. Estos datos justifican el despliegue ante la administración del hospital.

    6. Despliega con versionado. Usa la convención de nombres anterior. Mantén al menos una versión anterior como opción de rollback.

    7. Monitorea y reentrena. Rastrea métricas de precisión semanalmente. Reentrena trimestralmente o cuando el rendimiento caiga por debajo de los umbrales.

    La arquitectura de un-modelo-muchos-adaptadores no es solo una optimización de costos — es una simplificación operativa. Un modelo que actualizar, un modelo que asegurar, un modelo que auditar. Los adaptadores agregan especialización sin agregar complejidad de infraestructura.

    Lecturas adicionales

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading