Back to blog
    Por Qué el RAG Vectorial Falla con Datos Clínicos — y Qué Usar en Su Lugar
    healthcareragclinical-nlpfine-tuningvector-searchsegment:enterprise

    Por Qué el RAG Vectorial Falla con Datos Clínicos — y Qué Usar en Su Lugar

    El RAG basado en vectores tiene mal rendimiento con terminología médica, notas clínicas y metadatos DICOM. Aquí está el por qué — y cómo los modelos de NLP clínico ajustados y mejor preparación de datos abordan la causa raíz.

    EErtas Team·

    Se suponía que la generación aumentada por recuperación resolvería el problema de AI clínico. En lugar de ajustar un modelo con datos clínicos propietarios — costoso, intensivo en cumplimiento y técnicamente demandante — embedes tus documentos, construyes un índice vectorial y recuperas fragmentos relevantes al momento de la consulta. Sin entrenamiento. Sin trabajo de cumplimiento HIPAA. Solo busca y genera.

    En la práctica, los equipos de AI de salud que han probado este enfoque se han encontrado con un conjunto consistente de fallas. El problema central es que los embeddings vectoriales, que hacen funcionar a RAG, fueron entrenados con texto de dominio general. El texto clínico no es texto de dominio general. Los patrones lingüísticos, las abreviaciones, la estructura terminológica — todo es suficientemente diferente para que los embeddings de dominio general produzcan resultados de recuperación que están equivocados de maneras que no siempre son obvias.

    Esta guía explica por qué, con ejemplos específicos, y describe lo que realmente funciona para aplicaciones de AI clínico.

    Lo Que RAG Promete — y Por Qué los Equipos de Salud Lo Eligen

    La generación aumentada por recuperación funciona convirtiendo documentos en representaciones vectoriales densas (embeddings), almacenándolos en una base de datos vectorial, y al momento de la consulta, convirtiendo la consulta en un vector, encontrando los fragmentos de documentos más cercanos por similitud coseno, y pasando esos fragmentos a un modelo de lenguaje como contexto.

    El atractivo para la salud es real:

    • No se requiere fine-tuning — el modelo base ya está pre-entrenado
    • Cualquier documento nuevo está disponible inmediatamente después del embedding (sin reentrenamiento)
    • Los "datos de entrenamiento" son solo el corpus documental — no se requiere anotación
    • No se necesitan servicios en la nube si la base de datos vectorial y el modelo de embedding corren localmente

    Para muchos casos de uso empresariales — búsqueda interna de documentos, recuperación de políticas, Q&A de base de conocimiento — RAG funciona bien. Es un primer enfoque razonable para la búsqueda de documentos clínicos por las mismas razones.

    El problema aparece cuando las consultas y documentos involucran lenguaje clínico.

    El Problema Central: Los Embeddings No Entienden el Lenguaje Clínico

    Los modelos de embedding más comúnmente usados para RAG (la serie text-embedding-3 de OpenAI, embed-v3 de Cohere, los modelos Sentence Transformers) fueron entrenados en grandes corpus de texto web, Wikipedia, libros y código. El texto clínico — notas de enfermería, resúmenes de alta, informes operatorios, lecturas de radiología — no fue un componente significativo de esos corpus de entrenamiento.

    La consecuencia: estos modelos no tienen representaciones significativas de conceptos clínicos. Producen embeddings, pero el espacio de embedding no codifica las relaciones semánticas que importan en el contexto clínico.

    El problema de ambigüedad de abreviaciones. El texto clínico es denso en abreviaciones que dependen del contexto. "MS" significa esclerosis múltiple para un neurólogo, estenosis mitral para un cardiólogo, musculoesquelético para un cirujano ortopédico y sulfato de morfina para un farmacéutico. "MI" significa infarto de miocardio en cardiología e insuficiencia mitral en otro contexto. "PCP" significa médico de atención primaria para la mayoría de los clínicos y neumonía por Pneumocystis en medicina de VIH.

    Un modelo de embedding de dominio general no tiene mecanismo para distinguir estos significados basándose en el contexto clínico. Ha visto todas estas abreviaciones en datos de entrenamiento, pero no las ha visto en contexto clínico con suficiente densidad para construir representaciones sensibles al contexto.

    El resultado: una consulta por "tratamiento de MI" devuelve documentos sobre infarto de miocardio, insuficiencia mitral, y ocasionalmente documentos no relacionados que contienen "MI" en un sentido diferente. Para un cardiólogo consultando un corpus de documentos de cardiología, la primera falla de recuperación es molesta. En un contexto de soporte a decisiones clínicas, es una preocupación de seguridad.

    Negación e incertidumbre. El texto clínico está lleno de negación y hedging: "sin evidencia de neumonía", "descartar embolia pulmonar", "posible atelectasia del lóbulo inferior derecho". Los modelos de embedding de dominio general no codifican de manera confiable la diferencia semántica entre "el paciente tiene neumonía" y "sin evidencia de neumonía". Ambas oraciones contienen la palabra "neumonía" y producirán vectores de embedding similares.

    Si un médico consulta "pacientes con neumonía tratados con azitromicina", un sistema RAG recuperará documentos que contienen tanto menciones afirmadas como negadas de neumonía, porque los embeddings son similares. El modelo de lenguaje que recibe esos fragmentos como contexto a veces alucinará respuestas afirmativas de material fuente negado.

    Variación terminológica. Un solo concepto clínico puede aparecer en texto clínico en docenas de formas superficiales: "infarto de miocardio", "ataque cardíaco", "MI agudo", "STEMI", "NSTEMI", "MI tipo 1", "síndrome coronario agudo" (a veces usados intercambiablemente en la práctica, a veces distinguidos). Los embeddings de dominio general agrupan algunos de estos pero no otros, de maneras que no reflejan la equivalencia semántica clínica.

    Este no es un problema hipotético. Los equipos de AI de salud lo han encontrado directamente. La conclusión práctica a la que llegaron los profesionales que se alejaron del RAG vectorial para terminología médica: la recuperación no es lo suficientemente confiable para construir aplicaciones clínicas sobre ella. El modo de falla — recuperar silenciosamente los documentos equivocados, producir respuestas que suenan seguras basadas en evidencia irrelevante o contradictoria — es exactamente lo que no puedes permitirte en un contexto clínico.

    Lo Que Falla en la Práctica

    Cuando los equipos de AI de salud evalúan RAG en corpus de documentos clínicos, los patrones de falla son consistentes:

    Recuperación de baja precisión en condiciones raras. Para condiciones comunes, la similitud de embedding funciona razonablemente bien porque las condiciones comunes aparecen en los datos de entrenamiento tanto del modelo de embedding como del modelo de lenguaje. Para condiciones raras, el modelo de embedding tiene representaciones pobres, y los fragmentos recuperados son frecuentemente temáticamente adyacentes pero clínicamente incorrectos.

    Metadatos DICOM y de informes estructurados. Los metadatos DICOM — códigos de modalidad, descripciones de procedimientos, descripciones de series de estudio — usan vocabulario controlado que es esencialmente opaco para embeddings de dominio general. "XR CHEST PA LATERAL" no está representado semánticamente de ninguna manera útil por un modelo entrenado en texto en prosa. RAG sobre archivos de radiología frecuentemente falla en recuperar los tipos de estudio correctos.

    Fallas de razonamiento entre documentos. Una pregunta clínica como "¿cuál fue la tendencia de creatinina en las últimas tres admisiones del paciente?" requiere recuperar e integrar información de múltiples documentos sobre el mismo paciente en diferentes momentos. La recuperación a nivel de fragmento no soporta este tipo de razonamiento temporal y entre documentos. Esta es una limitación estructural del enfoque RAG, no una falla del modelo de embedding.

    Altas tasas de falsos positivos para consultas de síntomas. Las consultas sobre síntomas específicos recuperan documentos que mencionan esos síntomas en cualquier contexto — como diagnósticos diferenciales, como condiciones descartadas, como preocupaciones reportadas por el paciente. Sin entender el estado de aserción clínica (afirmado vs. negado vs. posible), el recall es alto pero la precisión es baja.

    Lo Que Funciona en Su Lugar

    Embeddings adaptados al dominio. Los modelos de embedding ajustados en texto clínico — BiomedBERT, ClinicalBERT y modelos similares de la literatura de NLP biomédico — producen embeddings significativamente mejores para contenido clínico. Estos modelos fueron pre-entrenados o ajustados en resúmenes de PubMed, notas clínicas de MIMIC-III u corpus clínicos similares. Tienen mejores representaciones de abreviaciones médicas, conceptos clínicos y variación terminológica.

    Para RAG en un corpus de documentos clínicos, reemplazar un modelo de embedding de dominio general con un modelo de embedding clínico es el cambio de mayor impacto. Reduce el problema de ambigüedad de abreviaciones y mejora la similitud semántica para conceptos clínicos. No resuelve el problema de negación ni el problema de razonamiento entre documentos, pero mejora significativamente la precisión para consultas de terminología clínica.

    Mejores estrategias de fragmentación. La fragmentación de propósito general (dividir por conteo de tokens, con solapamiento) no es óptima para documentos clínicos. Las notas clínicas tienen una estructura conocida: motivo de consulta, historia de la enfermedad actual, historia médica pasada, medicamentos, evaluación, plan. Los límites de fragmentación deben respetar estas secciones en lugar de cortarlas. La fragmentación consciente de secciones produce fragmentos que son semánticamente coherentes y mejora la precisión de recuperación.

    Los metadatos DICOM deben manejarse como datos estructurados con búsqueda de coincidencia exacta, no embebidos para recuperación semántica. La recuperación sobre archivos de radiología debe combinar filtrado de metadatos estructurados (modalidad, parte del cuerpo, fecha de estudio) con recuperación semántica sobre el texto del informe.

    Modelos de NLP clínico ajustados. Para los casos de uso que más importan — codificación ICD, extracción de medicamentos, normalización de conceptos clínicos — un modelo de NLP clínico ajustado supera a RAG. Estos modelos están entrenados específicamente para la tarea, con datos clínicos anotados del dominio objetivo. Son deterministas (sin paso de generación estocástica), auditables (cada extracción tiene un tramo fuente) y significativamente más precisos en terminología clínica.

    El compromiso es que los modelos ajustados requieren datos de entrenamiento — notas clínicas anotadas, lo que requiere tiempo e involucramiento de expertos clínicos. RAG promete evitar ese trabajo. Pero la penalización de precisión de RAG en datos clínicos es frecuentemente lo suficientemente grande como para que el fine-tuning valga la inversión.

    Enfoques híbridos. Los sistemas de AI clínico más robustos combinan extracción estructurada (modelos de NLP ajustados para tipos de entidad conocidos) con recuperación (RAG con embeddings clínicos para búsqueda exploratoria de documentos). Los modelos ajustados manejan las tareas estructuradas de manera confiable; el RAG maneja consultas exploratorias donde el recall importa más que la precisión.

    Por Qué la Preparación de Datos Es el Problema Subyacente para Ambos

    Ya sea que estés construyendo un sistema RAG o ajustando un modelo de NLP clínico, la calidad de los datos clínicos subyacentes determina la calidad de la salida.

    Para RAG: documentos mal estructurados, terminología inconsistente, documentos que mezclan PHI con contenido clínico y texto con artefactos de OCR degradan la calidad de recuperación. Limpiar el corpus documental — des-identificar PHI, corregir errores de OCR, estructurar metadatos del documento — mejora el rendimiento de RAG incluso antes de cambiar el modelo de embedding.

    Para fine-tuning: datos de entrenamiento de baja calidad o anotados inconsistentemente producen un modelo que no puede generalizar. La calidad de la anotación, no la arquitectura del modelo, es usualmente la restricción limitante.

    En ambos casos, la inversión en preparación de datos paga dividendos aguas abajo. Los equipos que han superado los modos de falla del RAG clínico no son los que tienen los mejores modelos — son los que tienen los mejores datos.


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    Lectura Relacionada

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading