Human-in-the-Loop en Soporte a la Decisión Clínica: Cómo Debería (y No Debería) Funcionar la IA en Salud

En 2021, un sistema hospitalario en EE.UU. desplegó una herramienta de IA para predecir el deterioro de pacientes y señalar pacientes de alto riesgo para intervención temprana. El sistema era preciso en conjunto. Para lo que no estaba diseñado era para comunicar claramente qué marcadores fisiológicos específicos impulsaban cada alerta, o cómo priorizar cuando cincuenta pacientes eran señalados simultáneamente. El personal de enfermería, abrumado con alertas y sin contexto para cada una, desarrolló soluciones alternativas. Las alertas de alta confianza eran reconocidas y despriorizadas. Los pacientes se deterioraron. La IA no era defectuosa. El proceso human-in-the-loop sí lo era.

Este es el modo de falla que más importa en la IA de salud. No un modelo rebelde. No una alucinación catastrófica. Un sistema técnicamente funcional integrado en un flujo de trabajo clínico que hacía estructuralmente imposible la supervisión humana significativa.

El Framework SaMD de la FDA y Lo Que Requiere

La FDA clasifica el Software como Dispositivo Médico (SaMD) en tres niveles de riesgo basados en la significancia de la información que proporciona y el estado de la situación de salud que afecta.

SaMD Clase I: Bajo riesgo. IA que proporciona información para condiciones no graves, donde la información incorrecta es poco probable que cause daño al paciente. Ejemplo: una app de bienestar que rastrea patrones de sueño. Requisitos regulatorios mínimos.

SaMD Clase II: Riesgo moderado. IA que informa la gestión clínica de condiciones no graves o graves, o impulsa la gestión clínica de condiciones no graves. Requiere autorización 510(k). Debe demostrar equivalencia sustancial con un dispositivo predicado. Se espera HITL; el software debe proporcionar información que un clínico revisa y sobre la cual actúa.

SaMD Clase III: Alto riesgo. IA que diagnostica, trata o impulsa la gestión clínica de condiciones graves o inmediatamente amenazantes para la vida. Requiere Aprobación Previa al Mercado (PMA). HITL no es opcional. La posición de la FDA es explícita: las recomendaciones de IA que evitan la revisión de clínicos calificados no son aprobables para indicaciones de Clase III.

La guía de la FDA de 2019 y la actualizada de 2023 sobre Planes de Control de Cambios Predeterminados (PCCPs) agregó una segunda dimensión: actualizaciones de modelos. Un PCCP define por adelantado qué tipos de cambios puede hacer un fabricante a un SaMD basado en IA/ML sin requerir una nueva solicitud. Cada PCCP debe incluir una descripción de cómo el fabricante verificará que los cambios funcionan según lo previsto — y esa verificación debe involucrar revisión humana calificada de datos de rendimiento clínico antes de que el modelo actualizado se despliegue a producción. No puedes actualizar silenciosamente un modelo de IA clínico de la forma en que actualizas una aplicación web.

El Problema de Responsabilidad de HIPAA

HIPAA no aborda la IA directamente. No necesita hacerlo. La estructura de responsabilidad que establece hace claro el requisito.

Las entidades cubiertas — hospitales, clínicas, planes de salud, cámaras de compensación de atención médica — son legalmente responsables de las acciones de su fuerza laboral y asociados de negocio en el manejo de información de salud protegida y la toma de decisiones de tratamiento. El clínico tratante es responsable de las decisiones clínicas tomadas en el curso de la atención.

Un sistema de IA no puede ser una entidad cubierta. No puede ser un asociado de negocio en el sentido de decisión clínica. No tiene licencia que revocar ni seguro de mala praxis que agotar. Cuando un sistema de IA hace una recomendación clínica y un clínico actúa sobre ella sin juicio profesional independiente, la exposición de responsabilidad no se transfiere al proveedor de IA. Se queda con el clínico y la institución.

Esto significa que cualquier despliegue de IA clínica que evite la revisión del médico — que permita que la salida de IA impulse directamente el tratamiento sin validación clínica documentada — crea una brecha de responsabilidad HIPAA. La institución no puede decir que la IA decidió. Ellos desplegaron la IA. Ellos son dueños de la decisión.

Cómo Se Ve HITL en la Práctica Clínica

Un buen HITL en salud no es un solo patrón. Varía según el contexto clínico y el nivel de riesgo.

IA de Imágenes (radiología, patología, dermatología): La IA analiza la imagen y produce una salida estructurada — una región señalada, un diferencial, una puntuación de confianza. El radiólogo o patólogo recibe esta salida como información adicional, no como una lectura final. Realizan su propio análisis independiente, luego comparan con el hallazgo de la IA. Su informe firmado es el registro clínico. La salida de la IA es una herramienta que usaron, no la determinación.

Soporte de decisión de medicamentos: Una IA de farmacia señala una potencial interacción medicamentosa o anomalía de dosificación. El sistema presenta la alerta con especificidad: los agentes interactuantes, el mecanismo de preocupación, el nivel de severidad y referencias publicadas. El farmacéutico revisa y confirma que la orden es apropiada para el contexto clínico de este paciente, modifica la orden o escala al médico prescriptor. El nombre del farmacéutico está en la verificación.

IA de autorización previa: Herramientas de IA de seguros y sistemas de salud prellenan solicitudes de autorización previa basadas en documentación clínica. Un miembro del personal clínico revisa la solicitud prellenada, confirma que refleja con precisión el expediente del paciente y la envía bajo su atestación profesional.

Predicción de sepsis: La IA señala pacientes por encima de un umbral de riesgo. Una enfermera o coordinador clínico revisa los pacientes señalados, aplica juicio clínico sobre cuáles representan riesgo accionable dado el contexto actual y determina a quién escalar al equipo de respuesta rápida. La alerta no es la acción. La evaluación del clínico sí lo es.

El Problema de la Fatiga de Alertas

La fatiga de alertas es donde el HITL bien diseñado va a morir.

Una IA clínica que señala 50 pacientes por turno para una enfermera que gestiona 12 camas no está proporcionando soporte de decisión. Está proporcionando ruido. Cuando los clínicos se ven abrumados con alertas — la mayoría de las cuales, al examinarlas, son de baja señal o irrelevantes para su contexto específico de paciente — se adaptan. Reconocen alertas sin leerlas. Desarrollan políticas generales: "si es solo una alerta de IA, ponla en el expediente y sigue adelante." El proceso human-in-the-loop está técnicamente en su lugar. Es funcionalmente inerte.

La investigación sobre esto es clara. Un estudio de 2023 en JAMIA encontró que los clínicos anularon más del 90% de las alertas de medicamentos generadas por IA en un despliegue de EHR. No porque la IA estuviera siempre equivocada — acertaba alrededor del 40% de las veces. Pero la relación señal-ruido era tan baja que discernir qué 40% requería un esfuerzo que el flujo de trabajo no soportaba.

La fatiga de alertas no significa que los clínicos dejaron de importarles. Significa que el sistema fue diseñado para cobertura, no para usabilidad clínica.

La consecuencia es que las alertas de alta señal se pierden en el ruido de las de baja señal. La IA estaba ahí. El humano estaba ahí. El ciclo se rompió de todos modos.

Diseñar HITL Que los Clínicos Realmente Usen

La solución a la fatiga de alertas no son menos alertas por sí mismas. Son alertas con suficiente calidad de señal para que los revisores puedan tomar decisiones confiables rápidamente.

Principio 1: La calibración de umbrales supera la alerta general. Si tu modelo de sepsis alerta sobre cada paciente por encima de un 15% de riesgo predicho, generarás alertas sobre pacientes que están siendo gestionados apropiadamente y que la enfermera de cabecera ya sabe que no se están deteriorando. Ajusta el umbral al punto donde la alerta cambia el comportamiento clínico — no donde el modelo se vuelve técnicamente correcto.

Principio 2: Muestra el porqué, no solo el qué. "Paciente señalado por riesgo de sepsis" no es HITL. "Paciente señalado por riesgo de sepsis: temperatura 38.9°C, lactato 2.1 mmol/L con tendencia al alza durante 4 horas, MAP en descenso — tres de cuatro criterios SIRS cumplidos" sí es HITL. El revisor necesita suficiente información para validar el razonamiento de la IA independientemente, no para aceptarlo por fe.

Principio 3: Fricción proporcional al riesgo. Una alerta de interacción medicamentosa para una interacción menor y bien conocida debería tomar un clic para reconocer. Una alerta de sepsis de alta confianza para un paciente que el clínico no ha visto en dos horas debería requerir una evaluación clínica documentada. El esfuerzo para descartar debe coincidir con el costo de estar equivocado.

Principio 4: Mide el comportamiento del revisor, no solo el volumen de alertas. Si el 95% de las alertas se descartan en menos de cinco segundos, no tienes un proceso de revisión. Rastrea el tiempo hasta la decisión, la tasa de anulación por tipo de alerta y los resultados posteriores para alertas anuladas vs. confirmadas. Estos datos te dicen si tu HITL está funcionando.

Cómo Ertas Data Suite Soporta el Desarrollo de IA en Salud

Antes de que un sistema de IA clínico se acerque a los pacientes, los datos de entrenamiento deben prepararse. En salud, eso significa trabajar con PHI — y la PHI no puede salir del edificio para alojarse en la infraestructura de entrenamiento en la nube de un proveedor.

Ertas Data Suite se ejecuta completamente on-premise como una aplicación de escritorio nativa. La redacción de PHI, anotación y exportación ocurren dentro del perímetro de seguridad de la institución. Cada anotación se registra con identidad del operador y marca de tiempo. El registro de auditoría está integrado en la herramienta, no ensamblado a partir de registros del sistema después del hecho.

Para organizaciones de salud que construyen o ajustan IA para aplicaciones clínicas, el pipeline de preparación de datos necesita cumplir los mismos estándares de HITL y gobernanza que el modelo desplegado. Una IA clínica entrenada con datos preparados en un pipeline auditable y que cumple con la privacidad comienza con una base defendible.

Para más sobre el framework HITL más amplio, consulta ¿Qué Es Human-in-the-Loop AI?. Para cobertura sobre ajustar modelos para despliegue en salud específicamente, consulta nuestro artículo sobre fine-tuning de IA de salud para despliegue clínico.

Agenda una llamada de descubrimiento con Ertas →

La IA clínica que mantiene a los humanos en el ciclo no es IA que está esperando ser reemplazada. Es IA que gana confianza siendo auditable, explicable y controlada por clínicos. La FDA, HIPAA y la ética clínica apuntan en la misma dirección. La pregunta para tu institución es si tus despliegues de IA actuales están diseñados para cumplir ese estándar — o diseñados para parecer que lo hacen.

Human-in-the-Loop en Soporte a la Decisión Clínica: Cómo Debería (y No Debería) Funcionar la IA en Salud

El Framework SaMD de la FDA y Lo Que Requiere

El Problema de Responsabilidad de HIPAA

Cómo Se Ve HITL en la Práctica Clínica

El Problema de la Fatiga de Alertas

Diseñar HITL Que los Clínicos Realmente Usen

Cómo Ertas Data Suite Soporta el Desarrollo de IA en Salud

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

AI Governance Framework for Healthcare: HIPAA, FDA SaMD, and Clinical Oversight Requirements

Human-in-the-Loop for Legal AI: Why Attorney Review Isn't Just a Compliance Checkbox

Human-in-the-Loop for Financial AI: SR 11-7, Model Risk, and What the Fed Actually Requires