Adaptadores LoRA por especialidad médica: Radiología, Patología, Atención Primaria

Un informe de radiología y una nota de consulta de atención primaria requieren capacidades de IA fundamentalmente diferentes. La radiología exige informes estructurados con vocabulario anatómico preciso, comparación con estudios previos y secciones de impresión estandarizadas. La atención primaria necesita comunicación conversacional con el paciente, redacción de cartas de referencia y resúmenes de notas de visita a través de decenas de tipos de consulta.

Ejecutar modelos fine-tuned separados para cada especialidad es costoso e ineficiente. Un modelo Llama 3 8B en FP16 ocupa aproximadamente 16 GB de VRAM. Cinco especialidades, cinco modelos, cinco GPUs — esa matemática no funciona para ningún hospital o agencia.

La solución: un modelo médico base cargado una sola vez en la memoria GPU, más adaptadores LoRA ligeros que se intercambian por solicitud según el departamento solicitante. Este artículo cubre la arquitectura, los requisitos de entrenamiento específicos por especialidad, cálculos de almacenamiento, gestión de adaptadores y comparaciones de rendimiento.

Arquitectura: Un modelo base, muchas especialidades

La configuración principal

Distribución de memoria GPU:
┌─────────────────────────────────────┐
│  Modelo Base (Llama 3 8B o Mistral) │ ← Cargado una vez: 8-16 GB
│  Cuantizado a Q5_K_M: ~5.5 GB      │
├─────────────────────────────────────┤
│  Adaptador LoRA activo              │ ← Intercambiado por solicitud
│  (Específico por especialidad,      │
│   50-200 MB)                        │
└─────────────────────────────────────┘

Almacenamiento de adaptadores (SSD):
├── radiology-report-v2.1.safetensors      (120 MB)
├── pathology-synoptic-v1.3.safetensors    (95 MB)
├── primary-care-notes-v3.0.safetensors    (140 MB)
├── cardiology-echo-v1.1.safetensors       (88 MB)
├── dermatology-lesion-v2.0.safetensors    (105 MB)
├── emergency-triage-v1.4.safetensors      (110 MB)
├── orthopedics-surgical-v1.0.safetensors  (92 MB)
├── psychiatry-eval-v1.2.safetensors       (130 MB)
├── oncology-staging-v1.1.safetensors      (115 MB)
└── gastro-endo-v1.0.safetensors           (98 MB)

Selección del modelo base

El modelo base importa. Para salud, necesitas un modelo que ya tenga vocabulario médico sólido y capacidad de razonamiento, para luego especializarlo más con LoRA.

Llama 3 8B es el punto de partida recomendado para la mayoría de los despliegues en salud:

Razonamiento general sólido
Buen rendimiento en benchmarks médicos desde el inicio
Gran comunidad, rutas de cuantización bien probadas
Licencia permisiva para uso comercial

Mistral 7B es una alternativa fuerte cuando la latencia es la prioridad principal:

Ligeramente más pequeño, inferencia más rápida
La atención de ventana deslizante maneja bien documentos clínicos largos
Buena relación rendimiento por parámetro

Cualquiera de los dos modelos sirve como base congelada. Los adaptadores LoRA hacen el trabajo de especialización.

Enrutamiento de solicitudes

Cuando llega una solicitud, el sistema identifica el departamento de origen y carga el adaptador correspondiente:

Solicitud entrante
      │
      ▼
┌─────────────┐
│  API Gateway │ ← Autentica, identifica departamento
└──────┬──────┘
       │
       ▼
┌──────────────────┐
│ Router de         │ ← Mapea departamento → archivo de adaptador
│ Adaptadores       │
│                   │
│ radiología → rad-v2.1
│ patología  → path-v1.3
│ primaria   → pc-v3.0
└──────┬───────────┘
       │
       ▼
┌──────────────────┐
│  Motor de         │ ← Modelo base + adaptador seleccionado
│  Inferencia       │
│  (vLLM / Ollama)  │
└──────────────────┘

El tiempo de intercambio de adaptador en hardware moderno: 10-50ms. Invisible para el usuario final. En la práctica, la mayoría de los motores de inferencia almacenan en caché los adaptadores usados recientemente, por lo que el costo de intercambio se acerca a cero para departamentos activos.

Adaptador de Radiología

Qué hace

La IA de radiología asiste con tres tareas principales:

Generación de informes a partir de hallazgos — Dada una lista de hallazgos de imagen (dictados o extraídos de listas de trabajo), genera un informe radiológico estructurado.
Comparación con estudios previos — Dados hallazgos actuales y previos, genera la sección de "comparación" del informe.
Resumen de impresiones — Condensa una sección completa de hallazgos en una impresión clínica concisa con recomendaciones accionables.

Requisitos de datos de entrenamiento

Parámetro	Especificación
Volumen	300-500 ejemplos de informes radiológicos
Fuentes	Informes desidentificados del PACS/RIS de la institución, MIMIC-CXR (disponible públicamente), OpenI (NIH)
Formato	Entrada: lista de hallazgos estructurada. Salida: secciones completas del informe.
Criterios de calidad	Informes revisados y aprobados por radiólogos titulares. Excluir informes preliminares o enmendados.
Cobertura por modalidad	TC (30%), RM (25%), Rayos X (25%), Ultrasonido (15%), Otros (5%)
Desidentificación	Eliminar nombre del paciente, MRN, fecha de nacimiento, fechas, médico referente, nombre de la institución

Formato de salida

El adaptador debe producir informes siguiendo los estándares de informes estructurados del ACR (American College of Radiology):

EXAMEN: TC de tórax con contraste

INDICACIÓN CLÍNICA: Varón de 62 años con tos persistente,
descartar malignidad.

COMPARACIÓN: TC de tórax con fecha [FECHA].

TÉCNICA: Imágenes axiales obtenidas a través del tórax tras
administración de 100 mL de contraste IV.

HALLAZGOS:
Pulmones: Nódulo en vidrio esmerilado de 8mm en lóbulo inferior
derecho, sin cambios respecto al examen previo. Sin nuevos
nódulos pulmonares. Sin consolidación ni derrame pleural.
[...]

IMPRESIÓN:
1. Nódulo en vidrio esmerilado estable de 8mm en LID.
   Se recomienda TC de seguimiento en 6 meses según las
   guías de la Sociedad Fleischner.
2. Sin anomalía cardiopulmonar aguda.

Consideraciones clave de entrenamiento

Consistencia sobre creatividad. Los informes radiológicos siguen convenciones de formato estrictas. Entrena con temperatura baja (0.1-0.3) y enfatiza el cumplimiento del formato en los datos de entrenamiento.
Vocabulario anatómico. El adaptador debe aprender las preferencias terminológicas específicas de la institución (p. ej., "opacidad" vs. "infiltrado", "lesión" vs. "masa").
Precisión en medidas. El modelo debe reproducir las medidas exactamente como se proporcionan en la entrada. Entrena con ejemplos explícitos de medidas para prevenir la alucinación de tamaños o dimensiones.

Adaptador de Patología

Qué hace

Estandarización de descripción de especímenes — Convierte descripciones macroscópicas en texto libre a formato sinóptico estandarizado.
Interpretación de resultados — Genera comentarios interpretativos para hallazgos patológicos comunes.
Informes sinópticos — Produce informes sinópticos compatibles con el protocolo CAP (College of American Pathologists).

Requisitos de datos de entrenamiento

Parámetro	Especificación
Volumen	200-400 ejemplos de informes patológicos
Fuentes	Informes patológicos institucionales desidentificados, plantillas del protocolo CAP
Formato	Entrada: descripción macroscópica + hallazgos microscópicos. Salida: informe sinóptico.
Criterios de calidad	Solo informes finales firmados. Excluir addendas a menos que estén emparejadas con el original.
Tipos de especímenes	Patología quirúrgica (60%), citología (20%), dermatopatología (15%), hematopatología (5%)
Desidentificación	Eliminar identificadores del paciente, números de acceso, nombres de médicos referentes

Ejemplo de salida sinóptica

INFORME SINÓPTICO CAP — Excisión de Mama

Procedimiento: Tumorectomía
Lateralidad del espécimen: Izquierda
Sitio del tumor: Cuadrante superoexterno
Tipo histológico: Carcinoma ductal invasivo, NOS
Grado histológico: Grado 2 (puntuación Nottingham 6/9)
Tamaño del tumor: 1.8 cm (dimensión mayor)
Márgenes: Negativos (margen más cercano: 3mm, superior)
Invasión linfovascular: No identificada
CDIS: Presente, patrones sólido y cribiforme
[...]

Consideraciones clave de entrenamiento

Fidelidad de salida estructurada. Los protocolos sinópticos CAP tienen campos obligatorios. El adaptador debe aprender a completar cada campo requerido, incluso cuando la entrada está incompleta (en cuyo caso debe indicar "no especificado" en lugar de alucinar).
Menor volumen requerido. Los informes patológicos son altamente estructurados, por lo que el adaptador converge más rápido — 200-400 ejemplos son típicamente suficientes comparado con 400-600 para especialidades menos estructuradas.
Precisión en clasificación. La gradación histológica, estadificación y estado de márgenes deben transcribirse exactamente desde los datos de entrada. Entrena con ejemplos que prueben específicamente estos campos críticos.

Adaptador de Atención Primaria

Qué hace

Resumen de notas de visita — Genera notas SOAP a partir de datos del encuentro o transcripciones de dictado.
Comunicación al paciente — Redacta resúmenes post-visita, instrucciones de cuidado y mensajes de seguimiento en lenguaje accesible para el paciente.
Redacción de cartas de referencia — Genera cartas de referencia a especialistas con historial relevante, medicamentos actuales y pregunta clínica.
Generación de plan de cuidado — Produce planes de cuidado estructurados basados en diagnóstico, historial del paciente y guías clínicas.

Requisitos de datos de entrenamiento

Parámetro	Especificación
Volumen	400-600 ejemplos (mayor debido a la diversidad de tareas)
Fuentes	Notas de visita desidentificadas, mensajes del portal del paciente, cartas de referencia
Formato	Varía por tarea. Notas de visita: datos del encuentro → SOAP. Comunicación: info clínica → lenguaje accesible.
Criterios de calidad	Notas de médicos experimentados. Excluir encuentros incompletos.
Cobertura por tipo de visita	Bienestar anual (15%), visitas agudas (35%), manejo de enfermedades crónicas (30%), seguimientos (20%)
Desidentificación	Eliminación completa de PHI incluyendo detalles de historia social que podrían ser identificadores

Consideraciones clave de entrenamiento

Nivel de lectura. Las comunicaciones dirigidas al paciente deben estar escritas a un nivel de lectura de 6to-8vo grado. Incluye puntuación de legibilidad en tus criterios de evaluación.
Diversidad de tareas. Los adaptadores de atención primaria manejan la mayor variedad de tareas. Usa prefijos de instrucción específicos por tarea en los datos de entrenamiento para ayudar al adaptador a distinguir entre "generar una nota SOAP" y "escribir una carta al paciente."
Conocimiento de medicamentos. Las notas de atención primaria frecuentemente referencian medicamentos. El adaptador debe reproducir nombres de medicamentos, dosis y frecuencias exactamente. No confíes en el adaptador para verificación de interacciones medicamentosas — esa es una tarea de RAG.

Cálculos de almacenamiento: cuánto cuesta

El despliegue multi-especialidad completo es notablemente compacto:

Componente	Tamaño
Modelo base (Llama 3 8B, cuantizado Q5_K_M)	5.5 GB
Adaptador de radiología	120 MB
Adaptador de patología	95 MB
Adaptador de atención primaria	140 MB
Adaptador de cardiología	88 MB
Adaptador de dermatología	105 MB
Adaptador de emergencias	110 MB
Adaptador de ortopedia	92 MB
Adaptador de psiquiatría	130 MB
Adaptador de oncología	115 MB
Adaptador de gastroenterología	98 MB
Total (base + 10 especialidades)	~6.6 GB

Compara esto con 10 modelos fine-tuned separados: 10 x 5.5 GB = 55 GB. El enfoque LoRA usa un 88% menos de almacenamiento y requiere solo una GPU en lugar de varias.

Requisitos de VRAM en inferencia:

Modelo base (cuantizado): 5.5 GB
Adaptador activo: ~100-150 MB
Caché KV (contexto 2K): ~500 MB
Overhead: ~500 MB
Total: ~6.5-7 GB — cabe en una sola GPU de consumo (RTX 4060 o superior)

Un hospital que ejecuta 10 especialidades necesita una tarjeta GPU, no diez. Esa es la propuesta de valor de LoRA.

Gestión de adaptadores: versionado y pruebas

Convención de nombres de versiones

Usa un esquema de nombres claro y predecible:

{especialidad}-{tarea}-v{mayor}.{menor}.safetensors

Ejemplos:
radiology-report-v1.0.safetensors    ← Versión inicial
radiology-report-v1.1.safetensors    ← Correcciones, reentrenamiento menor
radiology-report-v2.0.safetensors    ← Reentrenamiento mayor, nuevos datos
pathology-synoptic-v1.3.safetensors  ← Tercer parche de primera versión

Pruebas A/B entre versiones

Antes de desplegar una nueva versión del adaptador, ejecútala contra la versión actual en un conjunto de prueba reservado:

Métrica	v1.0	v1.1	Umbral
Cumplimiento de formato	94%	97%	mayor a 95%
Precisión clínica	91%	93%	mayor a 90%
Tasa de alucinación	3.2%	1.8%	menor a 2%
Latencia (p95)	420ms	435ms	menor a 500ms

Solo promueve v1.1 a producción si cumple todos los umbrales. Mantén v1.0 como opción de rollback.

Despliegue: carga una vez, intercambia por solicitud

El motor de inferencia carga el modelo base una vez al iniciar. Los adaptadores se cargan bajo demanda:

Llega una solicitud etiquetada con department: radiology
El router verifica si radiology-report-v2.1 está en la caché de adaptadores
Si está en caché: aplica el adaptador, ejecuta inferencia (agrega ~5ms de latencia)
Si no está en caché: carga desde SSD a GPU (~30-50ms), cachea, ejecuta inferencia
Devuelve la respuesta

La mayoría de los frameworks de inferencia (vLLM, text-generation-inference, Ollama) soportan este patrón de forma nativa. La caché de adaptadores mantiene los 3-5 adaptadores usados más recientemente en memoria GPU. Para un hospital donde radiología, atención primaria y emergencias son los departamentos de mayor volumen, esos tres adaptadores permanecen permanentemente en caché.

Rendimiento: modelo genérico vs. adaptador de especialidad

Aquí es donde la inversión se justifica. Un modelo base genérico maneja texto médico razonablemente bien. Un adaptador de especialidad lo hace clínicamente útil.

Comparación de precisión (benchmarks internos)

Tarea	Modelo base genérico	Adaptador LoRA de especialidad	Mejora
Generación de informes radiológicos	71% cumplimiento de formato	96% cumplimiento de formato	+25 pts
Precisión de impresión radiológica	78%	93%	+15 pts
Completitud sinóptica de patología	65% campos correctos	94% campos correctos	+29 pts
Notas SOAP de atención primaria	74%	91%	+17 pts
Legibilidad de comunicación al paciente	Grado 11 promedio	Grado 7 promedio	Nivel apropiado
Completitud de carta de referencia	68%	92%	+24 pts
Precisión de resumen de alta	72%	89%	+17 pts
Precisión de sugerencia de codificación clínica	70%	88%	+18 pts

Mejora promedio en todas las tareas: +20.6 puntos porcentuales. Esta es la diferencia entre un modelo que los clínicos ignoran y uno que realmente usan.

Comparación de latencia

Configuración	Tiempo hasta el primer token	Generación total (500 tokens)
Solo modelo base	45ms	380ms
Base + adaptador LoRA en caché	48ms	395ms
Base + carga de adaptador LoRA en frío	85ms	430ms

El overhead de latencia de LoRA es insignificante — 3-15ms para un adaptador en caché. Esto es invisible en un flujo de trabajo clínico donde la interacción humana (hacer clic, leer, editar) toma segundos.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Poniéndolo todo junto

Lista de verificación de despliegue

Selecciona el modelo base. Llama 3 8B (cuantización Q5_K_M) para rendimiento equilibrado. Mistral 7B si la latencia es la máxima prioridad.
Prioriza las especialidades. Comienza con los 2-3 departamentos de mayor volumen. Radiología y atención primaria son casi siempre las primeras opciones correctas.
Recopila y desidentifica datos de entrenamiento. 300-600 ejemplos por especialidad. Trabaja con los jefes de departamento para identificar ejemplos representativos y de alta calidad.
Entrena los adaptadores. Rango 16-32, tasa de aprendizaje 1e-4 a 2e-4, 3-5 épocas. Valida contra un conjunto de prueba reservado después de cada época.
Compara con el modelo genérico. Documenta la mejora para cada tarea. Estos datos justifican el despliegue ante la administración del hospital.
Despliega con versionado. Usa la convención de nombres anterior. Mantén al menos una versión anterior como opción de rollback.
Monitorea y reentrena. Rastrea métricas de precisión semanalmente. Reentrena trimestralmente o cuando el rendimiento caiga por debajo de los umbrales.

La arquitectura de un-modelo-muchos-adaptadores no es solo una optimización de costos — es una simplificación operativa. Un modelo que actualizar, un modelo que asegurar, un modelo que auditar. Los adaptadores agregan especialización sin agregar complejidad de infraestructura.

Lecturas adicionales

Fine-Tuning multi-cliente: Un modelo base, adaptadores LoRA personalizados por bufete — La misma arquitectura LoRA aplicada al vertical legal, con patrones de aislamiento de clientes.
Gestión de múltiples modelos fine-tuned como agencia — Guía operativa para agencias que ejecutan adaptadores a través de múltiples clientes e industrias.
Fine-Tuning de IA médica para despliegue clínico — Guía de extremo a extremo para construir modelos de IA clínica con pipelines compatibles con HIPAA.

Adaptadores LoRA por especialidad médica: Radiología, Patología, Atención Primaria

Arquitectura: Un modelo base, muchas especialidades

La configuración principal

Selección del modelo base

Enrutamiento de solicitudes

Adaptador de Radiología

Qué hace

Requisitos de datos de entrenamiento

Formato de salida

Consideraciones clave de entrenamiento

Adaptador de Patología

Qué hace

Requisitos de datos de entrenamiento

Ejemplo de salida sinóptica

Consideraciones clave de entrenamiento

Adaptador de Atención Primaria

Qué hace

Requisitos de datos de entrenamiento

Consideraciones clave de entrenamiento

Cálculos de almacenamiento: cuánto cuesta

Gestión de adaptadores: versionado y pruebas

Convención de nombres de versiones

Pruebas A/B entre versiones

Despliegue: carga una vez, intercambia por solicitud

Rendimiento: modelo genérico vs. adaptador de especialidad

Comparación de precisión (benchmarks internos)

Comparación de latencia

Poniéndolo todo junto

Lista de verificación de despliegue

Lecturas adicionales

Ship AI that runs on your users' devices.

Keep reading

Fine-Tuning Healthcare AI: From Clinical Notes to Compliant Deployment

Multi-Client Fine-Tuning: One Base Model, Custom LoRA Adapters Per Law Firm

On-Premise Healthcare AI: Architecture and Infrastructure Guide