
Adaptadores LoRA por especialidad médica: Radiología, Patología, Atención Primaria
Cómo servir múltiples departamentos hospitalarios desde un solo modelo base usando adaptadores LoRA específicos por especialidad. Cubre arquitectura, requisitos de datos de entrenamiento, cálculos de almacenamiento, gestión de adaptadores y benchmarks de rendimiento.
Un informe de radiología y una nota de consulta de atención primaria requieren capacidades de IA fundamentalmente diferentes. La radiología exige informes estructurados con vocabulario anatómico preciso, comparación con estudios previos y secciones de impresión estandarizadas. La atención primaria necesita comunicación conversacional con el paciente, redacción de cartas de referencia y resúmenes de notas de visita a través de decenas de tipos de consulta.
Ejecutar modelos fine-tuned separados para cada especialidad es costoso e ineficiente. Un modelo Llama 3 8B en FP16 ocupa aproximadamente 16 GB de VRAM. Cinco especialidades, cinco modelos, cinco GPUs — esa matemática no funciona para ningún hospital o agencia.
La solución: un modelo médico base cargado una sola vez en la memoria GPU, más adaptadores LoRA ligeros que se intercambian por solicitud según el departamento solicitante. Este artículo cubre la arquitectura, los requisitos de entrenamiento específicos por especialidad, cálculos de almacenamiento, gestión de adaptadores y comparaciones de rendimiento.
Arquitectura: Un modelo base, muchas especialidades
La configuración principal
Distribución de memoria GPU:
┌─────────────────────────────────────┐
│ Modelo Base (Llama 3 8B o Mistral) │ ← Cargado una vez: 8-16 GB
│ Cuantizado a Q5_K_M: ~5.5 GB │
├─────────────────────────────────────┤
│ Adaptador LoRA activo │ ← Intercambiado por solicitud
│ (Específico por especialidad, │
│ 50-200 MB) │
└─────────────────────────────────────┘
Almacenamiento de adaptadores (SSD):
├── radiology-report-v2.1.safetensors (120 MB)
├── pathology-synoptic-v1.3.safetensors (95 MB)
├── primary-care-notes-v3.0.safetensors (140 MB)
├── cardiology-echo-v1.1.safetensors (88 MB)
├── dermatology-lesion-v2.0.safetensors (105 MB)
├── emergency-triage-v1.4.safetensors (110 MB)
├── orthopedics-surgical-v1.0.safetensors (92 MB)
├── psychiatry-eval-v1.2.safetensors (130 MB)
├── oncology-staging-v1.1.safetensors (115 MB)
└── gastro-endo-v1.0.safetensors (98 MB)
Selección del modelo base
El modelo base importa. Para salud, necesitas un modelo que ya tenga vocabulario médico sólido y capacidad de razonamiento, para luego especializarlo más con LoRA.
Llama 3 8B es el punto de partida recomendado para la mayoría de los despliegues en salud:
- Razonamiento general sólido
- Buen rendimiento en benchmarks médicos desde el inicio
- Gran comunidad, rutas de cuantización bien probadas
- Licencia permisiva para uso comercial
Mistral 7B es una alternativa fuerte cuando la latencia es la prioridad principal:
- Ligeramente más pequeño, inferencia más rápida
- La atención de ventana deslizante maneja bien documentos clínicos largos
- Buena relación rendimiento por parámetro
Cualquiera de los dos modelos sirve como base congelada. Los adaptadores LoRA hacen el trabajo de especialización.
Enrutamiento de solicitudes
Cuando llega una solicitud, el sistema identifica el departamento de origen y carga el adaptador correspondiente:
Solicitud entrante
│
▼
┌─────────────┐
│ API Gateway │ ← Autentica, identifica departamento
└──────┬──────┘
│
▼
┌──────────────────┐
│ Router de │ ← Mapea departamento → archivo de adaptador
│ Adaptadores │
│ │
│ radiología → rad-v2.1
│ patología → path-v1.3
│ primaria → pc-v3.0
└──────┬───────────┘
│
▼
┌──────────────────┐
│ Motor de │ ← Modelo base + adaptador seleccionado
│ Inferencia │
│ (vLLM / Ollama) │
└──────────────────┘
El tiempo de intercambio de adaptador en hardware moderno: 10-50ms. Invisible para el usuario final. En la práctica, la mayoría de los motores de inferencia almacenan en caché los adaptadores usados recientemente, por lo que el costo de intercambio se acerca a cero para departamentos activos.
Adaptador de Radiología
Qué hace
La IA de radiología asiste con tres tareas principales:
- Generación de informes a partir de hallazgos — Dada una lista de hallazgos de imagen (dictados o extraídos de listas de trabajo), genera un informe radiológico estructurado.
- Comparación con estudios previos — Dados hallazgos actuales y previos, genera la sección de "comparación" del informe.
- Resumen de impresiones — Condensa una sección completa de hallazgos en una impresión clínica concisa con recomendaciones accionables.
Requisitos de datos de entrenamiento
| Parámetro | Especificación |
|---|---|
| Volumen | 300-500 ejemplos de informes radiológicos |
| Fuentes | Informes desidentificados del PACS/RIS de la institución, MIMIC-CXR (disponible públicamente), OpenI (NIH) |
| Formato | Entrada: lista de hallazgos estructurada. Salida: secciones completas del informe. |
| Criterios de calidad | Informes revisados y aprobados por radiólogos titulares. Excluir informes preliminares o enmendados. |
| Cobertura por modalidad | TC (30%), RM (25%), Rayos X (25%), Ultrasonido (15%), Otros (5%) |
| Desidentificación | Eliminar nombre del paciente, MRN, fecha de nacimiento, fechas, médico referente, nombre de la institución |
Formato de salida
El adaptador debe producir informes siguiendo los estándares de informes estructurados del ACR (American College of Radiology):
EXAMEN: TC de tórax con contraste
INDICACIÓN CLÍNICA: Varón de 62 años con tos persistente,
descartar malignidad.
COMPARACIÓN: TC de tórax con fecha [FECHA].
TÉCNICA: Imágenes axiales obtenidas a través del tórax tras
administración de 100 mL de contraste IV.
HALLAZGOS:
Pulmones: Nódulo en vidrio esmerilado de 8mm en lóbulo inferior
derecho, sin cambios respecto al examen previo. Sin nuevos
nódulos pulmonares. Sin consolidación ni derrame pleural.
[...]
IMPRESIÓN:
1. Nódulo en vidrio esmerilado estable de 8mm en LID.
Se recomienda TC de seguimiento en 6 meses según las
guías de la Sociedad Fleischner.
2. Sin anomalía cardiopulmonar aguda.
Consideraciones clave de entrenamiento
- Consistencia sobre creatividad. Los informes radiológicos siguen convenciones de formato estrictas. Entrena con temperatura baja (0.1-0.3) y enfatiza el cumplimiento del formato en los datos de entrenamiento.
- Vocabulario anatómico. El adaptador debe aprender las preferencias terminológicas específicas de la institución (p. ej., "opacidad" vs. "infiltrado", "lesión" vs. "masa").
- Precisión en medidas. El modelo debe reproducir las medidas exactamente como se proporcionan en la entrada. Entrena con ejemplos explícitos de medidas para prevenir la alucinación de tamaños o dimensiones.
Adaptador de Patología
Qué hace
- Estandarización de descripción de especímenes — Convierte descripciones macroscópicas en texto libre a formato sinóptico estandarizado.
- Interpretación de resultados — Genera comentarios interpretativos para hallazgos patológicos comunes.
- Informes sinópticos — Produce informes sinópticos compatibles con el protocolo CAP (College of American Pathologists).
Requisitos de datos de entrenamiento
| Parámetro | Especificación |
|---|---|
| Volumen | 200-400 ejemplos de informes patológicos |
| Fuentes | Informes patológicos institucionales desidentificados, plantillas del protocolo CAP |
| Formato | Entrada: descripción macroscópica + hallazgos microscópicos. Salida: informe sinóptico. |
| Criterios de calidad | Solo informes finales firmados. Excluir addendas a menos que estén emparejadas con el original. |
| Tipos de especímenes | Patología quirúrgica (60%), citología (20%), dermatopatología (15%), hematopatolog ía (5%) |
| Desidentificación | Eliminar identificadores del paciente, números de acceso, nombres de médicos referentes |
Ejemplo de salida sinóptica
INFORME SINÓPTICO CAP — Excisión de Mama
Procedimiento: Tumorectomía
Lateralidad del espécimen: Izquierda
Sitio del tumor: Cuadrante superoexterno
Tipo histológico: Carcinoma ductal invasivo, NOS
Grado histológico: Grado 2 (puntuación Nottingham 6/9)
Tamaño del tumor: 1.8 cm (dimensión mayor)
Márgenes: Negativos (margen más cercano: 3mm, superior)
Invasión linfovascular: No identificada
CDIS: Presente, patrones sólido y cribiforme
[...]
Consideraciones clave de entrenamiento
- Fidelidad de salida estructurada. Los protocolos sinópticos CAP tienen campos obligatorios. El adaptador debe aprender a completar cada campo requerido, incluso cuando la entrada está incompleta (en cuyo caso debe indicar "no especificado" en lugar de alucinar).
- Menor volumen requerido. Los informes patológicos son altamente estructurados, por lo que el adaptador converge más rápido — 200-400 ejemplos son típicamente suficientes comparado con 400-600 para especialidades menos estructuradas.
- Precisión en clasificación. La gradación histológica, estadificación y estado de márgenes deben transcribirse exactamente desde los datos de entrada. Entrena con ejemplos que prueben específicamente estos campos críticos.
Adaptador de Atención Primaria
Qué hace
- Resumen de notas de visita — Genera notas SOAP a partir de datos del encuentro o transcripciones de dictado.
- Comunicación al paciente — Redacta resúmenes post-visita, instrucciones de cuidado y mensajes de seguimiento en lenguaje accesible para el paciente.
- Redacción de cartas de referencia — Genera cartas de referencia a especialistas con historial relevante, medicamentos actuales y pregunta clínica.
- Generación de plan de cuidado — Produce planes de cuidado estructurados basados en diagnóstico, historial del paciente y guías clínicas.
Requisitos de datos de entrenamiento
| Parámetro | Especificación |
|---|---|
| Volumen | 400-600 ejemplos (mayor debido a la diversidad de tareas) |
| Fuentes | Notas de visita desidentificadas, mensajes del portal del paciente, cartas de referencia |
| Formato | Varía por tarea. Notas de visita: datos del encuentro → SOAP. Comunicación: info clínica → lenguaje accesible. |
| Criterios de calidad | Notas de médicos experimentados. Excluir encuentros incompletos. |
| Cobertura por tipo de visita | Bienestar anual (15%), visitas agudas (35%), manejo de enfermedades crónicas (30%), seguimientos (20%) |
| Desidentificación | Eliminación completa de PHI incluyendo detalles de historia social que podrían ser identificadores |
Consideraciones clave de entrenamiento
- Nivel de lectura. Las comunicaciones dirigidas al paciente deben estar escritas a un nivel de lectura de 6to-8vo grado. Incluye puntuación de legibilidad en tus criterios de evaluación.
- Diversidad de tareas. Los adaptadores de atención primaria manejan la mayor variedad de tareas. Usa prefijos de instrucción específicos por tarea en los datos de entrenamiento para ayudar al adaptador a distinguir entre "generar una nota SOAP" y "escribir una carta al paciente."
- Conocimiento de medicamentos. Las notas de atención primaria frecuentemente referencian medicamentos. El adaptador debe reproducir nombres de medicamentos, dosis y frecuencias exactamente. No confíes en el adaptador para verificación de interacciones medicamentosas — esa es una tarea de RAG.
Cálculos de almacenamiento: cuánto cuesta
El despliegue multi-especialidad completo es notablemente compacto:
| Componente | Tamaño |
|---|---|
| Modelo base (Llama 3 8B, cuantizado Q5_K_M) | 5.5 GB |
| Adaptador de radiología | 120 MB |
| Adaptador de patología | 95 MB |
| Adaptador de atención primaria | 140 MB |
| Adaptador de cardiología | 88 MB |
| Adaptador de dermatología | 105 MB |
| Adaptador de emergencias | 110 MB |
| Adaptador de ortopedia | 92 MB |
| Adaptador de psiquiatría | 130 MB |
| Adaptador de oncología | 115 MB |
| Adaptador de gastroenterología | 98 MB |
| Total (base + 10 especialidades) | ~6.6 GB |
Compara esto con 10 modelos fine-tuned separados: 10 x 5.5 GB = 55 GB. El enfoque LoRA usa un 88% menos de almacenamiento y requiere solo una GPU en lugar de varias.
Requisitos de VRAM en inferencia:
- Modelo base (cuantizado): 5.5 GB
- Adaptador activo: ~100-150 MB
- Caché KV (contexto 2K): ~500 MB
- Overhead: ~500 MB
- Total: ~6.5-7 GB — cabe en una sola GPU de consumo (RTX 4060 o superior)
Un hospital que ejecuta 10 especialidades necesita una tarjeta GPU, no diez. Esa es la propuesta de valor de LoRA.
Gestión de adaptadores: versionado y pruebas
Convención de nombres de versiones
Usa un esquema de nombres claro y predecible:
{especialidad}-{tarea}-v{mayor}.{menor}.safetensors
Ejemplos:
radiology-report-v1.0.safetensors ← Versión inicial
radiology-report-v1.1.safetensors ← Correcciones, reentrenamiento menor
radiology-report-v2.0.safetensors ← Reentrenamiento mayor, nuevos datos
pathology-synoptic-v1.3.safetensors ← Tercer parche de primera versión
Pruebas A/B entre versiones
Antes de desplegar una nueva versión del adaptador, ejecútala contra la versión actual en un conjunto de prueba reservado:
| Métrica | v1.0 | v1.1 | Umbral |
|---|---|---|---|
| Cumplimiento de formato | 94% | 97% | mayor a 95% |
| Precisión clínica | 91% | 93% | mayor a 90% |
| Tasa de alucinación | 3.2% | 1.8% | menor a 2% |
| Latencia (p95) | 420ms | 435ms | menor a 500ms |
Solo promueve v1.1 a producción si cumple todos los umbrales. Mantén v1.0 como opción de rollback.
Despliegue: carga una vez, intercambia por solicitud
El motor de inferencia carga el modelo base una vez al iniciar. Los adaptadores se cargan bajo demanda:
- Llega una solicitud etiquetada con
department: radiology - El router verifica si
radiology-report-v2.1está en la caché de adaptadores - Si está en caché: aplica el adaptador, ejecuta inferencia (agrega ~5ms de latencia)
- Si no está en caché: carga desde SSD a GPU (~30-50ms), cachea, ejecuta inferencia
- Devuelve la respuesta
La mayoría de los frameworks de inferencia (vLLM, text-generation-inference, Ollama) soportan este patrón de forma nativa. La caché de adaptadores mantiene los 3-5 adaptadores usados más recientemente en memoria GPU. Para un hospital donde radiología, atención primaria y emergencias son los departamentos de mayor volumen, esos tres adaptadores permanecen permanentemente en caché.
Rendimiento: modelo genérico vs. adaptador de especialidad
Aquí es donde la inversión se justifica. Un modelo base genérico maneja texto médico razonablemente bien. Un adaptador de especialidad lo hace clínicamente útil.
Comparación de precisión (benchmarks internos)
| Tarea | Modelo base genérico | Adaptador LoRA de especialidad | Mejora |
|---|---|---|---|
| Generación de informes radiológicos | 71% cumplimiento de formato | 96% cumplimiento de formato | +25 pts |
| Precisión de impresión radiológica | 78% | 93% | +15 pts |
| Completitud sinóptica de patología | 65% campos correctos | 94% campos correctos | +29 pts |
| Notas SOAP de atención primaria | 74% | 91% | +17 pts |
| Legibilidad de comunicación al paciente | Grado 11 promedio | Grado 7 promedio | Nivel apropiado |
| Completitud de carta de referencia | 68% | 92% | +24 pts |
| Precisión de resumen de alta | 72% | 89% | +17 pts |
| Precisión de sugerencia de codificación clínica | 70% | 88% | +18 pts |
Mejora promedio en todas las tareas: +20.6 puntos porcentuales. Esta es la diferencia entre un modelo que los clínicos ignoran y uno que realmente usan.
Comparación de latencia
| Configuración | Tiempo hasta el primer token | Generación total (500 tokens) |
|---|---|---|
| Solo modelo base | 45ms | 380ms |
| Base + adaptador LoRA en caché | 48ms | 395ms |
| Base + carga de adaptador LoRA en frío | 85ms | 430ms |
El overhead de latencia de LoRA es insignificante — 3-15ms para un adaptador en caché. Esto es invisible en un flujo de trabajo clínico donde la interacción humana (hacer clic, leer, editar) toma segundos.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Poniéndolo todo junto
Lista de verificación de despliegue
-
Selecciona el modelo base. Llama 3 8B (cuantización Q5_K_M) para rendimiento equilibrado. Mistral 7B si la latencia es la máxima prioridad.
-
Prioriza las especialidades. Comienza con los 2-3 departamentos de mayor volumen. Radiología y atención primaria son casi siempre las primeras opciones correctas.
-
Recopila y desidentifica datos de entrenamiento. 300-600 ejemplos por especialidad. Trabaja con los jefes de departamento para identificar ejemplos representativos y de alta calidad.
-
Entrena los adaptadores. Rango 16-32, tasa de aprendizaje 1e-4 a 2e-4, 3-5 épocas. Valida contra un conjunto de prueba reservado después de cada época.
-
Compara con el modelo genérico. Documenta la mejora para cada tarea. Estos datos justifican el despliegue ante la administración del hospital.
-
Despliega con versionado. Usa la convención de nombres anterior. Mantén al menos una versión anterior como opción de rollback.
-
Monitorea y reentrena. Rastrea métricas de precisión semanalmente. Reentrena trimestralmente o cuando el rendimiento caiga por debajo de los umbrales.
La arquitectura de un-modelo-muchos-adaptadores no es solo una optimización de costos — es una simplificación operativa. Un modelo que actualizar, un modelo que asegurar, un modelo que auditar. Los adaptadores agregan especialización sin agregar complejidad de infraestructura.
Lecturas adicionales
- Fine-Tuning multi-cliente: Un modelo base, adaptadores LoRA personalizados por bufete — La misma arquitectura LoRA aplicada al vertical legal, con patrones de aislamiento de clientes.
- Gestión de múltiples modelos fine-tuned como agencia — Guía operativa para agencias que ejecutan adaptadores a través de múltiples clientes e industrias.
- Fine-Tuning de IA médica para despliegue clínico — Guía de extremo a extremo para construir modelos de IA clínica con pipelines compatibles con HIPAA.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning Healthcare AI: From Clinical Notes to Compliant Deployment
An end-to-end guide to fine-tuning AI models for healthcare — covering data de-identification, clinical NLP training, on-premise deployment, and compliance validation.

Multi-Client Fine-Tuning: One Base Model, Custom LoRA Adapters Per Law Firm
How to use LoRA adapters to serve multiple law firm clients from a single base model — covering architecture, training, hot-swapping, cost efficiency, and data isolation guarantees.

On-Premise Healthcare AI: Architecture and Infrastructure Guide
A practical infrastructure guide for deploying AI on-premise in healthcare environments. Covers hardware requirements, network architecture, air-gapped deployment, HIPAA audit logging, model update strategies, and real cost comparisons against cloud APIs.