n8n + LLMs locales: construyendo flujos de automatización compatibles con HIPAA

n8n se ha convertido en la plataforma de automatización de flujos de trabajo preferida por agencias que necesitan infraestructura autoalojada. Cuando se combina con LLMs ejecutándose localmente, crea un stack de automatización completamente autónomo donde ningún dato sale de la red de la organización — exactamente lo que los clientes de salud requieren.

Esta guía recorre la arquitectura, los patrones de integración específicos y una checklist de cumplimiento HIPAA para el stack completo.

La arquitectura

La arquitectura central es directa:

[EHR / Sistema clínico] → [n8n (autoalojado)] → [LLM local (Ollama/vLLM)] → [Destino de salida]

Cada componente se ejecuta en infraestructura que la organización de salud controla. n8n orquesta el flujo de trabajo. El LLM local maneja el procesamiento de lenguaje natural. No se realizan llamadas API externas para inferencia de IA.

Stack de componentes

Componente	Rol	Despliegue
n8n	Orquestación de flujos de trabajo	Contenedor Docker en el servidor de la organización
Ollama o vLLM	Servidor de inferencia LLM	Mismo servidor o máquina GPU dedicada
PostgreSQL	Datos de flujos de trabajo + logs de ejecución de n8n	Base de datos local
Redis (opcional)	Gestión de colas para flujos de alto volumen	Instancia local
Proxy inverso	Terminación TLS, control de acceso	Nginx/Caddy en la misma red

Requisitos de hardware

Para un despliegue típico de salud sirviendo 20-50 ejecuciones de flujos concurrentes:

CPU: 8+ núcleos (para n8n y servicios de soporte)
RAM: 32 GB mínimo (16 GB para n8n/servicios, 16 GB para carga de modelos)
GPU: RTX 5090 (32 GB VRAM) o RTX 4090 (24 GB VRAM)
Almacenamiento: 500 GB SSD (modelos, logs, datos de flujos)

Costo total de hardware: $4,000-6,000 para un servidor completo. Compara esto con el costo mensual de n8n en la nube + APIs de IA en la nube, y el período de recuperación es típicamente de 2-4 meses.

Conectando n8n a endpoints de LLM local

n8n se conecta a LLMs locales a través del nodo HTTP Request o el nodo compatible con OpenAI. Tanto Ollama como vLLM exponen endpoints API compatibles con OpenAI, lo que hace la integración directa.

Usando Ollama

Ollama se ejecuta en localhost:11434 por defecto. En n8n:

Agrega un nodo HTTP Request
Configura la URL a http://localhost:11434/api/chat
Método: POST
Body (JSON):

{
  "model": "your-fine-tuned-model",
  "messages": [
    {"role": "system", "content": "You are a clinical note summariser..."},
    {"role": "user", "content": "{{$json.clinical_note}}"}
  ],
  "stream": false
}

Alternativamente, usa el endpoint compatible con OpenAI de Ollama en http://localhost:11434/v1/chat/completions con el nodo OpenAI integrado de n8n — solo cambia la URL base en la configuración de credenciales.

Usando vLLM

vLLM proporciona mayor rendimiento para solicitudes concurrentes. Expone una API compatible con OpenAI por defecto:

python -m vllm.entrypoints.openai.api_server \
  --model /path/to/your/model \
  --host 0.0.0.0 --port 8000

En n8n, configura las credenciales de OpenAI con URL base http://your-gpu-server:8000/v1 y cualquier cadena como clave API (vLLM no requiere autenticación por defecto — agrégala vía proxy inverso).

Ejemplo de flujo de trabajo 1: resumen de notas clínicas

Caso de uso: Los médicos dictan notas clínicas extensas. El flujo las resume en resúmenes de alta estructurados.

Pasos del flujo de trabajo:

Trigger: Un webhook recibe la nota clínica del sistema EHR (o n8n consulta una carpeta compartida)
Pre-procesamiento: Extraer identificadores del paciente, separar metadatos del cuerpo de la nota
Inferencia LLM: Enviar el cuerpo de la nota al LLM local con un prompt de sistema especificando el formato de salida (estructura de nota SOAP)
Post-procesamiento: Parsear la salida del LLM, validar que los campos requeridos estén presentes
Control de calidad: Si los indicadores de confianza están por debajo del umbral, marcar para revisión humana
Salida: Escribir el resumen estructurado de vuelta al EHR vía API, o depositar en cola de revisión

Cadena de nodos n8n: Webhook → Function (pre-proceso) → HTTP Request (LLM) → Function (validar) → IF (control de calidad) → [API EHR / Cola de revisión]

El flujo completo se ejecuta en 3-8 segundos dependiendo de la longitud de la nota. Con un modelo ajustado, la calidad del resumen es comparable a un médico dedicando 15 minutos a la misma tarea.

Ejemplo de flujo de trabajo 2: triaje de citas

Caso de uso: Los mensajes de pacientes solicitando citas se clasifican por urgencia y se enrutan al departamento apropiado.

Pasos del flujo de trabajo:

Trigger: n8n consulta la cola de mensajes de pacientes del sistema de gestión de la práctica
Inferencia LLM: Enviar el mensaje del paciente al LLM local con prompt de clasificación (urgente/rutinario/no clínico, asignación de departamento)
Parsear respuesta: Extraer clasificación y puntuación de confianza
Enrutar: Según la clasificación, crear solicitud de cita en la cola del departamento apropiado
Notificar: Enviar confirmación al paciente vía mensajería segura

Ventaja clave del fine-tuning: Un modelo de propósito general comete errores de triaje porque no entiende la estructura de departamentos específica de la práctica, las especialidades de los proveedores ni los protocolos de triaje. Un modelo ajustado con 2,000-3,000 decisiones históricas de triaje de esa práctica específica alcanza más del 95% de precisión.

Ejemplo de flujo de trabajo 3: ensamblaje de documentos de autorización previa

Caso de uso: Ensamblar paquetes de autorización previa extrayendo información clínica relevante y emparejándola con los requisitos del pagador.

Pasos del flujo de trabajo:

Trigger: Solicitud de autorización previa iniciada en el sistema de gestión de la práctica
Recopilar datos: n8n consulta el EHR para notas clínicas relevantes, resultados de laboratorio, informes de imagen
Extracción LLM: El LLM local extrae información clínicamente relevante que coincide con los criterios del pagador
Ensamblaje de documento: Poblar la plantilla de autorización previa con los datos extraídos
Cola de revisión: Presentar el paquete ensamblado al personal para revisión final y envío

Este flujo reduce la preparación de autorizaciones previas de 30-45 minutos a 5-10 minutos de tiempo de revisión.

Checklist de cumplimiento HIPAA para el stack

Usa esta checklist para validar que tu despliegue de n8n + LLM local cumple con los requisitos de HIPAA:

Salvaguardas administrativas

Oficial de seguridad designado responsable del sistema de automatización de IA
Capacitación del personal sobre el uso del sistema de IA y manejo de PHI
Política de autorización de acceso — quién puede crear/modificar flujos que procesan PHI
Procedimiento de respuesta a incidentes específico para fallos del flujo de IA o salidas inesperadas
Evaluación de riesgos regular incluyendo los componentes de automatización de IA

Salvaguardas físicas

Hardware del servidor en una ubicación físicamente asegurada (sala de servidores cerrada, centro de datos)
Logs de acceso para acceso físico al servidor
Controles ambientales (energía, refrigeración, supresión de incendios)

Salvaguardas técnicas

Autenticación de usuario única para acceso a n8n
Controles de acceso basados en roles en n8n (admin vs. viewer vs. editor)
Cifrado TLS para toda comunicación de red (n8n a LLM, n8n a EHR)
Registro de auditoría habilitado en n8n (todas las ejecuciones de flujos registradas)
Logs de inferencia del LLM capturados y retenidos según la política
Timeout automático de sesión para la interfaz web de n8n
Cifrado en reposo para la base de datos que almacena datos de ejecución de flujos
Segmentación de red — servidor de IA en VLAN aislada
Sin acceso a internet saliente desde el servidor de IA (o restringido solo a actualizaciones de paquetes)

Salvaguardas operativas

Procedimientos de respaldo para flujos de n8n, modelos LLM y configuración
Plan de recuperación ante desastres incluyendo componentes de automatización de IA
Proceso de gestión de cambios para modificaciones de flujos
Pruebas regulares de restauración de respaldos
Versionamiento de modelos — rastrear qué versión del modelo produjo qué salidas

Primeros pasos

La ruta más rápida a un despliegue funcional:

Configura n8n vía Docker en un servidor con GPU (documentación de autoalojamiento de n8n)
Instala Ollama en el mismo servidor y carga tu modelo base
Ajusta el modelo con datos específicos de la tarea usando Ertas Studio
Construye un flujo de trabajo de prueba de concepto simple (el resumen de notas clínicas es el punto de partida más fácil)
Ejecuta la checklist de cumplimiento anterior
Demuestra al cliente de salud con datos sintéticos antes de conectar a sistemas de producción

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura adicional

Ejecutar modelos de IA localmente — Recomendaciones de hardware y guía de configuración de Ollama
IA compatible con HIPAA: on-premise vs. nube — El caso de cumplimiento para IA on-premise en salud

n8n + LLMs locales: construyendo flujos de automatización compatibles con HIPAA

La arquitectura

Stack de componentes

Requisitos de hardware

Conectando n8n a endpoints de LLM local

Usando Ollama

Usando vLLM

Ejemplo de flujo de trabajo 1: resumen de notas clínicas

Ejemplo de flujo de trabajo 2: triaje de citas

Ejemplo de flujo de trabajo 3: ensamblaje de documentos de autorización previa

Checklist de cumplimiento HIPAA para el stack

Salvaguardas administrativas

Salvaguardas físicas

Salvaguardas técnicas

Salvaguardas operativas

Primeros pasos

Lectura adicional

Ship AI that runs on your users' devices.

Keep reading

On-Premise Healthcare AI: Architecture and Infrastructure Guide

Fine-Tuning Healthcare AI: From Clinical Notes to Compliant Deployment

Case Study: How an n8n Agency Deployed HIPAA-Compliant AI for a Hospital Network