Modelo ajustado vs. RAG para soporte a decisiones clínicas: cuándo gana cada uno

"¿Deberíamos usar RAG o fine-tuning?" es la pregunta equivocada en el ámbito de la salud. La pregunta correcta es: "Para esta tarea clínica específica, ¿qué enfoque produce resultados más seguros y precisos — y cuáles son las implicaciones de HIPAA de cada uno?"

La respuesta no es uniforme. Algunos flujos de trabajo clínicos demandan generación aumentada por recuperación porque los datos subyacentes cambian semanalmente. Otros requieren modelos ajustados porque la consistencia en la salida y el cumplimiento del formato no son negociables. Muchos de los sistemas de IA clínica más efectivos usan ambos.

Esta guía desglosa cuándo gana cada enfoque, los compara en ocho tareas de salud, explica el patrón híbrido, y te da un marco de decisión para cualquier nuevo despliegue de IA clínica.

Cómo funciona cada enfoque (repaso rápido)

Generación aumentada por recuperación (RAG)

RAG agrega un paso de recuperación antes de la generación. El sistema busca en una base de conocimiento (guías clínicas, bases de datos de medicamentos, literatura), recupera documentos relevantes, y los alimenta al modelo como contexto. El modelo genera su respuesta informado por el contenido recuperado.

Fortalezas: Acceso a información actual, citas verificables de fuentes, no necesita reentrenamiento cuando los datos cambian.

Debilidades: Más lento (recuperación + generación), dependiente de la calidad de recuperación, requiere mantener un almacén de documentos, agrega complejidad de infraestructura.

Fine-Tuning

Fine-tuning modifica los pesos del modelo entrenándolo con ejemplos específicos del dominio. El conocimiento se incorpora al modelo mismo. En tiempo de inferencia, el modelo genera desde su conocimiento interno sin recuperación externa.

Fortalezas: Inferencia rápida (solo generación), formato de salida consistente, vocabulario del dominio incorporado en los pesos, arquitectura de inferencia más simple.

Debilidades: Requiere reentrenamiento para actualizar conocimiento, puede alucinar con confianza, la curación de datos de entrenamiento requiere esfuerzo.

Cuándo gana RAG en salud

RAG es la elección correcta cuando la información subyacente cambia frecuentemente y la precisión de datos específicos importa más que el formato de salida.

1. Verificación de interacciones medicamentosas

Los datos farmacológicos se actualizan constantemente. Nuevas aprobaciones de medicamentos, advertencias de caja negra, descubrimientos de interacciones y cambios en formularios ocurren mensualmente. Un modelo ajustado entrenado hace seis meses no conoce un medicamento aprobado la semana pasada.

Enfoque RAG: Recuperar de una base de datos de medicamentos actualizada (DrugBank, base de datos de etiquetas de la FDA, formulario institucional) en tiempo de consulta. El modelo genera una respuesta fundamentada en los datos más recientes.

Por qué falla el fine-tuning aquí: El modelo necesitaría reentrenamiento mensual para mantenerse actualizado. Una sola interacción perdida podría causar daño al paciente. El perfil de riesgo es inaceptable.

2. Guías de práctica clínica

Las guías de AHA, ACS, ACOG y otros organismos son documentos versionados que cambian trimestral a anualmente. Las guías de hipertensión de AHA 2025 difieren de la versión 2023 de maneras significativas.

Enfoque RAG: Indexar la versión actual de cada guía. Cuando un clínico pregunta sobre el manejo de una condición, recuperar las secciones relevantes y generar una respuesta citando recomendaciones específicas de la guía.

Por qué falla el fine-tuning aquí: Las actualizaciones de guías requerirían reentrenamiento. Peor aún, el modelo podría mezclar recomendaciones desactualizadas y actuales sin forma de que el clínico verifique qué versión está usando.

3. Búsqueda de literatura y recuperación de evidencia

Los clínicos necesitan acceso a investigación actual — PubMed, UpToDate, revisiones Cochrane. La literatura médica crece en miles de artículos por semana.

Enfoque RAG: Indexar un subconjunto curado de literatura médica. Recuperar resúmenes relevantes y secciones de texto completo. Generar resúmenes con citas.

Por qué falla el fine-tuning aquí: Ninguna cadencia de entrenamiento puede seguir el ritmo del volumen de publicaciones. RAG con un índice continuamente actualizado es el único enfoque viable.

4. Verificación de formulario y seguro

Los formularios hospitalarios y las reglas de cobertura de seguros cambian frecuentemente. Los requisitos de autorización previa cambian trimestralmente. Un modelo necesita datos actuales para dar respuestas útiles.

Enfoque RAG: Recuperar de la base de datos del formulario actual y documentos de políticas de pagadores en tiempo de consulta.

Cuándo gana el fine-tuning en salud

Fine-tuning es la elección correcta cuando la consistencia del formato de salida, el vocabulario del dominio y la precisión de clasificación importan más que el acceso a datos cambiantes.

1. Generación de notas clínicas

Notas SOAP, documentación de H&P, notas de procedimientos — estos siguen formatos establecidos que raramente cambian. El vocabulario es específico del dominio pero estable. El requisito clave es consistencia: cada nota debería seguir la misma estructura, usar las mismas convenciones de terminología, y cumplir los mismos estándares de documentación.

Enfoque de fine-tuning: Entrenar con 400-600 ejemplos de notas clínicas de alta calidad de la institución. El modelo aprende el formato, vocabulario y patrones de documentación específicos de esa organización.

Por qué falla RAG aquí: No hay nada que recuperar. El modelo no está buscando datos — está generando texto estructurado en un formato aprendido. Agregar un paso de recuperación añade latencia sin mejorar la calidad.

2. Codificación médica (ICD-10, CPT)

La codificación médica es coincidencia de patrones a través de un conjunto de códigos grande pero relativamente estable. ICD-10-CM tiene ~72,000 códigos. CPT tiene ~10,000. Los códigos se actualizan anualmente, no diariamente. La tarea es clasificación: dada la documentación clínica, asignar los códigos correctos.

Enfoque de fine-tuning: Entrenar con miles de pares (documentación, código). El modelo aprende el mapeo entre lenguaje clínico y códigos de facturación.

Por qué falla RAG aquí: Podrías recuperar descripciones de códigos, pero el desafío no es saber qué códigos existen — es saber qué códigos aplican a un escenario clínico específico. Esa es una tarea de reconocimiento de patrones, no de recuperación.

3. Clasificación de triaje de pacientes

El triaje de urgencias requiere clasificación consistente y rápida. Dado un conjunto de síntomas y signos vitales, asignar un nivel de ESI (Emergency Severity Index). La lógica es estable, basada en reglas, y necesita ejecutarse en menos de 500ms.

Enfoque de fine-tuning: Entrenar con datos históricos de triaje con asignaciones de ESI validadas. El modelo aprende a clasificar consistentemente.

Por qué falla RAG aquí: Latencia. Las decisiones de triaje necesitan ser casi instantáneas. Agregar un paso de recuperación (200-800ms) duplica el tiempo de respuesta. Las tareas de clasificación no se benefician de la recuperación — el modelo necesita reconocimiento de patrones internalizado.

4. Generación de resúmenes de alta

Los resúmenes de alta siguen plantillas institucionales. Extraen del curso hospitalario del paciente, pero la tarea de generación en sí está restringida por formato. Estructura consistente, nivel apropiado de detalle y terminología médica correcta son los criterios de éxito.

Enfoque de fine-tuning: Entrenar con resúmenes de alta desidentificados que cumplan los estándares de calidad institucionales.

Por qué falla RAG aquí: El formato de generación es comportamiento aprendido, no información recuperada. Un paso de recuperación necesitaría buscar en los registros propios del paciente (una tarea de coincidencia de pacientes con implicaciones significativas de HIPAA), agregando complejidad sin mejorar el formato del resumen.

Comparación directa: 8 tareas de salud

Tarea clínica	Puntaje RAG	Puntaje fine-tuning	Mejor enfoque	Razón clave
Verificación de interacciones medicamentosas	9/10	3/10	RAG	Los datos cambian semanalmente
Preguntas sobre guías clínicas	8/10	4/10	RAG	Fuentes versionadas y actualizables
Búsqueda de literatura	9/10	2/10	RAG	Corpus en crecimiento continuo
Verificación de formulario	8/10	3/10	RAG	Las reglas de pagadores cambian trimestralmente
Generación de notas clínicas	3/10	9/10	Fine-tuning	Consistencia de formato crítica
Codificación médica	4/10	8/10	Fine-tuning	Tarea de clasificación de patrones
Triaje de pacientes	2/10	9/10	Fine-tuning	Latencia + clasificación
Resúmenes de alta	3/10	8/10	Fine-tuning	Generación basada en plantilla

Patrón: Si la tarea se trata de generar texto en un formato consistente usando conocimiento estable del dominio, ajusta el modelo. Si la tarea requiere acceso a información actual y cambiante con fuentes verificables, usa RAG.

El patrón híbrido: lo mejor de ambos

Los sistemas de IA clínica más efectivos combinan ambos enfoques. El modelo ajustado maneja la generación (formato, vocabulario, estructura), mientras RAG proporciona verificación de datos contra guías actuales.

Ejemplo: Instrucciones de alta

El modelo ajustado genera el documento de instrucciones de alta. Conoce el formato, el nivel de lectura apropiado y la plantilla institucional. Redacta instrucciones de medicamentos, restricciones de actividad, programación de seguimiento y señales de alarma.
La capa RAG verifica los datos contra la información actual:
- ¿Son correctas las dosis de medicamentos según las guías actuales?
- ¿Se han considerado las interacciones medicamentosas?
- ¿Las restricciones de actividad se alinean con los protocolos post-procedimiento actuales?
- ¿Los intervalos de seguimiento son consistentes con los estándares de atención actuales?
El sistema reconcilia cualquier discrepancia. Si el modelo ajustado sugiere una dosis que entra en conflicto con el formulario actual, el sistema la marca para revisión del clínico.

Arquitectura

Patient Data
     │
     ▼
┌──────────────────────┐
│ Fine-Tuned Model      │ ← Generates structured output
│ (Discharge adapter)   │    Format, vocabulary, template
└──────────┬───────────┘
           │
           ▼
    Draft Document
           │
           ▼
┌──────────────────────┐
│ RAG Fact-Checker      │ ← Validates facts against
│                       │    current guidelines, formulary,
│ Sources:              │    drug database
│ - Drug database       │
│ - Clinical guidelines │
│ - Formulary           │
└──────────┬───────────┘
           │
           ▼
┌──────────────────────┐
│ Reconciliation Layer  │ ← Flags discrepancies
│                       │    for clinician review
└──────────┬───────────┘
           │
           ▼
  Final Document + Flags

Este patrón te da la velocidad y consistencia del fine-tuning con las garantías de precisión de RAG. El modelo ajustado se ejecuta en 200-400ms. La verificación RAG agrega 500-1000ms. Total: menos de 1.5 segundos — aceptable para un flujo de trabajo no urgente como la planificación del alta.

Implicaciones de HIPAA: una diferencia crítica

Aquí es donde muchos equipos pasan por alto una decisión arquitectónica significativa.

Consideraciones de HIPAA para RAG

RAG requiere un almacén de documentos — una base de datos vectorial o un índice de búsqueda que contiene la base de conocimiento. Si esa base de conocimiento contiene contenido clínico derivado de registros de pacientes, puede contener PHI. Incluso las guías clínicas desidentificadas pueden volverse adyacentes a PHI cuando se combinan con consultas de pacientes.

Las implicaciones de HIPAA:

La base de datos vectorial está dentro del alcance. Debe cumplir todos los requisitos de la Regla de Seguridad de HIPAA: cifrado en reposo y en tránsito, controles de acceso, registro de auditoría.
Los embeddings pueden codificar PHI. Si incorporas documentos clínicos que contienen información del paciente, los embeddings mismos pueden considerarse PHI. No hay precedente legal establecido, pero la interpretación conservadora (que la mayoría de los oficiales de cumplimiento adoptan) es tratarlos como PHI.
La complejidad de infraestructura aumenta. RAG agrega una base de datos vectorial, un modelo de embeddings y un pipeline de recuperación a tu alcance de HIPAA. Cada componente necesita su propia evaluación de seguridad.
Los logs de consultas pueden contener PHI. Si un clínico consulta el sistema RAG con "¿Cuál es la dosis recomendada para la metformina del paciente Juan Pérez?" — ese log de consulta contiene PHI.

Consideraciones de HIPAA para fine-tuning

Fine-tuning tiene un perfil de HIPAA más simple:

Los datos de entrenamiento pueden desidentificarse. Usa un pipeline robusto de desidentificación antes de entrenar. Una vez desidentificados, los datos de entrenamiento no son PHI, y los pesos del modelo resultante no son PHI.
La inferencia es autocontenida. No hay almacén de datos externo que asegurar. El modelo corre en el hardware del hospital, procesa la entrada y genera la salida. El alcance de HIPAA es el servidor de inferencia y la capa de aplicación.
Menos componentes dentro del alcance. Sin base de datos vectorial, sin modelo de embeddings, sin pipeline de recuperación. Menos infraestructura significa menos superficie de ataque y documentación de cumplimiento más simple.

En resumen: Fine-tuning reduce la complejidad de infraestructura de HIPAA. RAG agrega componentes que deben ser asegurados y auditados. Esto no significa que RAG esté mal — significa que deberías elegir RAG deliberadamente, entendiendo el costo de cumplimiento.

Comparación de latencia: impacto en el flujo de trabajo clínico

La latencia importa en entornos clínicos. Un sistema que tarda 5 segundos en responder se ignora. Un sistema que responde en menos de 1 segundo se integra en el flujo de trabajo.

Enfoque	Tiempo de recuperación	Tiempo de generación	Latencia total
Solo fine-tuning	N/A	200-500ms	200-500ms
Solo RAG	200-800ms	400-800ms	600-1600ms
Híbrido (fine-tuning + verificación RAG)	300-600ms (paralelo)	200-500ms	500-1100ms

Dónde más importa la latencia

Triaje de urgencias: Menos de 500ms requerido. Solo fine-tuning.
Soporte a decisiones en punto de atención: Menos de 1 segundo preferido. Fine-tuning o híbrido con recuperación en caché.
Asistencia para documentación: Menos de 2 segundos aceptable. Cualquier enfoque funciona.
Planificación del alta: Menos de 5 segundos aceptable. El patrón híbrido es ideal.
Consultas de investigación: Menos de 10 segundos aceptable. RAG con recuperación exhaustiva.

Ajusta el enfoque al contexto clínico. No uses un pipeline RAG de 2 segundos donde un modelo ajustado de 300ms sería suficiente.

Marco de decisión

Usa este diagrama de flujo para cualquier nueva tarea de IA clínica:

Paso 1: ¿Los datos subyacentes cambian más que trimestralmente?

Sí -> RAG (o componente RAG en híbrido)
No -> Continúa al Paso 2

Paso 2: ¿Es crítica la consistencia del formato de salida?

Sí -> Fine-tuning (o componente de fine-tuning en híbrido)
No -> Continúa al Paso 3

Paso 3: ¿Se requiere latencia inferior a un segundo?

Sí -> Solo fine-tuning
No -> Continúa al Paso 4

Paso 4: ¿La tarea requiere citas verificables de fuentes?

Sí -> RAG
No -> Fine-tuning

Paso 5: ¿La tarea involucra tanto generación con formato restringido COMO verificación de datos?

Sí -> Patrón híbrido
No -> Usa el que obtuvo mejor puntaje en los Pasos 1-4

La mayoría de los despliegues de IA clínica terminan usando 2-3 adaptadores ajustados junto con 1-2 pipelines RAG, con un patrón híbrido para los flujos de trabajo de mayor importancia.

Comparación de costos a escala de salud

Para un hospital mediano (200-400 camas) ejecutando IA en 5 departamentos:

Modelo de costos de fine-tuning

Elemento	Costo	Frecuencia
Entrenamiento (5 adaptadores LoRA)	$500-$1,500	Trimestral
Servidor de inferencia (1 GPU)	$200-$500/mes	Continuo
Herramientas de gestión de modelos	$100-$300/mes	Continuo
Total anual	$5,600-$13,200

Modelo de costos de RAG

Elemento	Costo	Frecuencia
Hosting de base de datos vectorial	$200-$800/mes	Continuo
Inferencia de modelo de embeddings	$100-$400/mes	Continuo
Pipeline de ingestión de documentos	$500-$2,000	Trimestral
Servidor de inferencia (1 GPU)	$200-$500/mes	Continuo
Mantenimiento de base de conocimiento	$500-$1,500/mes	Continuo
Total anual	$14,000-$42,000

Modelo de costos híbrido

Elemento	Costo	Frecuencia
Componentes de fine-tuning	$5,600-$13,200	Anual
Componentes RAG (subconjunto)	$8,000-$25,000	Anual
Integración/orquestación	$1,000-$3,000	Anual
Total anual	$14,600-$41,200

Fine-tuning solo es 60-70% más barato que RAG solo. El enfoque híbrido cuesta ligeramente menos que RAG completo porque solo necesitas infraestructura RAG para las tareas que genuinamente lo requieren, no para cada consulta.

Tomando la decisión para tu organización

No elijas RAG por defecto porque está de moda. No elijas fine-tuning por defecto porque es más simple. Evalúa cada tarea clínica independientemente usando el marco de decisión anterior.

Comienza con el flujo de trabajo clínico de mayor impacto — usualmente documentación clínica o asistencia en codificación — y despliega el enfoque apropiado. Mide resultados. Luego expande a flujos de trabajo adicionales, eligiendo RAG o fine-tuning basándote en los requisitos específicos de cada tarea.

Las organizaciones que obtienen los mejores resultados de la IA clínica no están eligiendo un enfoque. Están eligiendo el enfoque correcto para cada tarea y construyendo una arquitectura que soporta ambos.

Lectura adicional

Fine-Tuning vs. RAG: cuándo usar cada enfoque — La comparación general de fine-tuning y RAG, con análisis de costos y rendimiento en todas las industrias.
Modelo ajustado vs. RAG: explicando la diferencia a los clientes — Cómo comunicar el tradeoff RAG vs. fine-tuning a stakeholders no técnicos y administradores de salud.
Fine-tuning de IA en salud para despliegue clínico — Guía técnica de principio a fin para construir modelos de IA clínica con pipelines de datos compatibles con HIPAA.