Back to blog
    n8n + LLMs locales: construyendo flujos de automatización compatibles con HIPAA
    n8nlocal-llmhipaahealthcareautomationsegment:agency

    n8n + LLMs locales: construyendo flujos de automatización compatibles con HIPAA

    Cómo diseñar flujos de automatización compatibles con HIPAA usando n8n autoalojado e inferencia local de LLMs — con ejemplos prácticos para resumen de notas clínicas y triaje de citas.

    EErtas Team·

    n8n se ha convertido en la plataforma de automatización de flujos de trabajo preferida por agencias que necesitan infraestructura autoalojada. Cuando se combina con LLMs ejecutándose localmente, crea un stack de automatización completamente autónomo donde ningún dato sale de la red de la organización — exactamente lo que los clientes de salud requieren.

    Esta guía recorre la arquitectura, los patrones de integración específicos y una checklist de cumplimiento HIPAA para el stack completo.

    La arquitectura

    La arquitectura central es directa:

    [EHR / Sistema clínico] → [n8n (autoalojado)] → [LLM local (Ollama/vLLM)] → [Destino de salida]
    

    Cada componente se ejecuta en infraestructura que la organización de salud controla. n8n orquesta el flujo de trabajo. El LLM local maneja el procesamiento de lenguaje natural. No se realizan llamadas API externas para inferencia de IA.

    Stack de componentes

    ComponenteRolDespliegue
    n8nOrquestación de flujos de trabajoContenedor Docker en el servidor de la organización
    Ollama o vLLMServidor de inferencia LLMMismo servidor o máquina GPU dedicada
    PostgreSQLDatos de flujos de trabajo + logs de ejecución de n8nBase de datos local
    Redis (opcional)Gestión de colas para flujos de alto volumenInstancia local
    Proxy inversoTerminación TLS, control de accesoNginx/Caddy en la misma red

    Requisitos de hardware

    Para un despliegue típico de salud sirviendo 20-50 ejecuciones de flujos concurrentes:

    • CPU: 8+ núcleos (para n8n y servicios de soporte)
    • RAM: 32 GB mínimo (16 GB para n8n/servicios, 16 GB para carga de modelos)
    • GPU: RTX 5090 (32 GB VRAM) o RTX 4090 (24 GB VRAM)
    • Almacenamiento: 500 GB SSD (modelos, logs, datos de flujos)

    Costo total de hardware: $4,000-6,000 para un servidor completo. Compara esto con el costo mensual de n8n en la nube + APIs de IA en la nube, y el período de recuperación es típicamente de 2-4 meses.

    Conectando n8n a endpoints de LLM local

    n8n se conecta a LLMs locales a través del nodo HTTP Request o el nodo compatible con OpenAI. Tanto Ollama como vLLM exponen endpoints API compatibles con OpenAI, lo que hace la integración directa.

    Usando Ollama

    Ollama se ejecuta en localhost:11434 por defecto. En n8n:

    1. Agrega un nodo HTTP Request
    2. Configura la URL a http://localhost:11434/api/chat
    3. Método: POST
    4. Body (JSON):
    {
      "model": "your-fine-tuned-model",
      "messages": [
        {"role": "system", "content": "You are a clinical note summariser..."},
        {"role": "user", "content": "{{$json.clinical_note}}"}
      ],
      "stream": false
    }
    

    Alternativamente, usa el endpoint compatible con OpenAI de Ollama en http://localhost:11434/v1/chat/completions con el nodo OpenAI integrado de n8n — solo cambia la URL base en la configuración de credenciales.

    Usando vLLM

    vLLM proporciona mayor rendimiento para solicitudes concurrentes. Expone una API compatible con OpenAI por defecto:

    python -m vllm.entrypoints.openai.api_server \
      --model /path/to/your/model \
      --host 0.0.0.0 --port 8000
    

    En n8n, configura las credenciales de OpenAI con URL base http://your-gpu-server:8000/v1 y cualquier cadena como clave API (vLLM no requiere autenticación por defecto — agrégala vía proxy inverso).

    Ejemplo de flujo de trabajo 1: resumen de notas clínicas

    Caso de uso: Los médicos dictan notas clínicas extensas. El flujo las resume en resúmenes de alta estructurados.

    Pasos del flujo de trabajo:

    1. Trigger: Un webhook recibe la nota clínica del sistema EHR (o n8n consulta una carpeta compartida)
    2. Pre-procesamiento: Extraer identificadores del paciente, separar metadatos del cuerpo de la nota
    3. Inferencia LLM: Enviar el cuerpo de la nota al LLM local con un prompt de sistema especificando el formato de salida (estructura de nota SOAP)
    4. Post-procesamiento: Parsear la salida del LLM, validar que los campos requeridos estén presentes
    5. Control de calidad: Si los indicadores de confianza están por debajo del umbral, marcar para revisión humana
    6. Salida: Escribir el resumen estructurado de vuelta al EHR vía API, o depositar en cola de revisión

    Cadena de nodos n8n: Webhook → Function (pre-proceso) → HTTP Request (LLM) → Function (validar) → IF (control de calidad) → [API EHR / Cola de revisión]

    El flujo completo se ejecuta en 3-8 segundos dependiendo de la longitud de la nota. Con un modelo ajustado, la calidad del resumen es comparable a un médico dedicando 15 minutos a la misma tarea.

    Ejemplo de flujo de trabajo 2: triaje de citas

    Caso de uso: Los mensajes de pacientes solicitando citas se clasifican por urgencia y se enrutan al departamento apropiado.

    Pasos del flujo de trabajo:

    1. Trigger: n8n consulta la cola de mensajes de pacientes del sistema de gestión de la práctica
    2. Inferencia LLM: Enviar el mensaje del paciente al LLM local con prompt de clasificación (urgente/rutinario/no clínico, asignación de departamento)
    3. Parsear respuesta: Extraer clasificación y puntuación de confianza
    4. Enrutar: Según la clasificación, crear solicitud de cita en la cola del departamento apropiado
    5. Notificar: Enviar confirmación al paciente vía mensajería segura

    Ventaja clave del fine-tuning: Un modelo de propósito general comete errores de triaje porque no entiende la estructura de departamentos específica de la práctica, las especialidades de los proveedores ni los protocolos de triaje. Un modelo ajustado con 2,000-3,000 decisiones históricas de triaje de esa práctica específica alcanza más del 95% de precisión.

    Ejemplo de flujo de trabajo 3: ensamblaje de documentos de autorización previa

    Caso de uso: Ensamblar paquetes de autorización previa extrayendo información clínica relevante y emparejándola con los requisitos del pagador.

    Pasos del flujo de trabajo:

    1. Trigger: Solicitud de autorización previa iniciada en el sistema de gestión de la práctica
    2. Recopilar datos: n8n consulta el EHR para notas clínicas relevantes, resultados de laboratorio, informes de imagen
    3. Extracción LLM: El LLM local extrae información clínicamente relevante que coincide con los criterios del pagador
    4. Ensamblaje de documento: Poblar la plantilla de autorización previa con los datos extraídos
    5. Cola de revisión: Presentar el paquete ensamblado al personal para revisión final y envío

    Este flujo reduce la preparación de autorizaciones previas de 30-45 minutos a 5-10 minutos de tiempo de revisión.

    Checklist de cumplimiento HIPAA para el stack

    Usa esta checklist para validar que tu despliegue de n8n + LLM local cumple con los requisitos de HIPAA:

    Salvaguardas administrativas

    • Oficial de seguridad designado responsable del sistema de automatización de IA
    • Capacitación del personal sobre el uso del sistema de IA y manejo de PHI
    • Política de autorización de acceso — quién puede crear/modificar flujos que procesan PHI
    • Procedimiento de respuesta a incidentes específico para fallos del flujo de IA o salidas inesperadas
    • Evaluación de riesgos regular incluyendo los componentes de automatización de IA

    Salvaguardas físicas

    • Hardware del servidor en una ubicación físicamente asegurada (sala de servidores cerrada, centro de datos)
    • Logs de acceso para acceso físico al servidor
    • Controles ambientales (energía, refrigeración, supresión de incendios)

    Salvaguardas técnicas

    • Autenticación de usuario única para acceso a n8n
    • Controles de acceso basados en roles en n8n (admin vs. viewer vs. editor)
    • Cifrado TLS para toda comunicación de red (n8n a LLM, n8n a EHR)
    • Registro de auditoría habilitado en n8n (todas las ejecuciones de flujos registradas)
    • Logs de inferencia del LLM capturados y retenidos según la política
    • Timeout automático de sesión para la interfaz web de n8n
    • Cifrado en reposo para la base de datos que almacena datos de ejecución de flujos
    • Segmentación de red — servidor de IA en VLAN aislada
    • Sin acceso a internet saliente desde el servidor de IA (o restringido solo a actualizaciones de paquetes)

    Salvaguardas operativas

    • Procedimientos de respaldo para flujos de n8n, modelos LLM y configuración
    • Plan de recuperación ante desastres incluyendo componentes de automatización de IA
    • Proceso de gestión de cambios para modificaciones de flujos
    • Pruebas regulares de restauración de respaldos
    • Versionamiento de modelos — rastrear qué versión del modelo produjo qué salidas

    Primeros pasos

    La ruta más rápida a un despliegue funcional:

    1. Configura n8n vía Docker en un servidor con GPU (documentación de autoalojamiento de n8n)
    2. Instala Ollama en el mismo servidor y carga tu modelo base
    3. Ajusta el modelo con datos específicos de la tarea usando Ertas Studio
    4. Construye un flujo de trabajo de prueba de concepto simple (el resumen de notas clínicas es el punto de partida más fácil)
    5. Ejecuta la checklist de cumplimiento anterior
    6. Demuestra al cliente de salud con datos sintéticos antes de conectar a sistemas de producción

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading