Back to blog
    IA on-premise para salud: guía de arquitectura e infraestructura
    healthcareon-premiseinfrastructuredeploymenthipaaarchitectureself-hosted

    IA on-premise para salud: guía de arquitectura e infraestructura

    Una guía práctica de infraestructura para desplegar IA on-premise en entornos de salud. Cubre requisitos de hardware, arquitectura de red, despliegue en red aislada, registro de auditoría HIPAA, estrategias de actualización de modelos y comparaciones reales de costos contra APIs en la nube.

    EErtas Team·

    El equipo de TI de tu hospital dice "no podemos usar IA en la nube." Tienen razón. Que PHI salga de tu red es un evento de cumplimiento. Cada llamada API a OpenAI o Anthropic con datos de pacientes crea responsabilidad de auditoría, complejidad de BAA y riesgo de brecha.

    Pero aquí está la parte que quizás no sepan todavía: la IA on-premise ahora es práctica y asequible. Una sola GPU NVIDIA T4 cuesta menos que una estación de trabajo de gama media. Los modelos open-source ejecutan tareas de NLP clínico con calidad de producción. Los patrones de infraestructura están bien establecidos.

    Esta guía cubre exactamente lo que necesitas — hardware, arquitectura de red, servicio de modelos, almacenamiento, monitoreo, actualizaciones y recuperación ante desastres — para ejecutar IA on-premise en un entorno de salud.

    Requisitos de hardware

    La primera decisión es inferencia por GPU vs CPU. Esto depende de tus requisitos de volumen y latencia.

    Inferencia GPU vs CPU para volúmenes de salud

    FactorGPU (NVIDIA T4)Solo CPU (Xeon/EPYC)
    Costo de hardware$2,000-3,000 por tarjeta$0 adicional (usar servidores existentes)
    Rendimiento15-40 tokens/seg (modelo 7B, Q4)3-8 tokens/seg (modelo 7B, Q4)
    Usuarios concurrentes10-20 solicitudes simultáneas2-5 solicitudes simultáneas
    Mejor paraMás de 500 inferencias/día, triaje en tiempo realMenos de 200 inferencias/día, procesamiento por lotes
    Consumo de energía70W por T4Incluido en la línea base del servidor
    Espacio en rack1U por 2-4 GPUsInfraestructura de servidor existente

    Para la mayoría de los hospitales medianos (200-500 camas): Comienza con una sola GPU T4. Maneja resumen de notas clínicas, asistencia de codificación diagnóstica y triaje de pacientes en volúmenes que cubren 3-5 departamentos. Costo total de hardware: $8,000-12,000 para un servidor de inferencia completo (CPU + RAM + T4 + almacenamiento).

    Para clínicas más pequeñas (menos de 100 camas): La inferencia solo por CPU es viable. Un servidor moderno de 32 núcleos Xeon con 64GB de RAM ejecuta modelos cuantizados de 7B con latencia aceptable para tareas no en tiempo real como procesamiento nocturno por lotes de notas clínicas o generación semanal de reportes.

    Especificaciones mínimas del servidor

    ComponenteRuta GPURuta solo CPU
    CPU16+ núcleos (Xeon Silver o EPYC)32+ núcleos (Xeon Gold o EPYC)
    RAM32GB mínimo, 64GB recomendado64GB mínimo, 128GB recomendado
    GPUNVIDIA T4 16GB (o A2000 12GB)Ninguna
    Almacenamiento500GB NVMe SSD500GB NVMe SSD
    Red1GbE mínimo, 10GbE recomendado1GbE mínimo
    SOUbuntu 22.04 LTS o RHEL 9Ubuntu 22.04 LTS o RHEL 9

    Arquitectura de red

    Los despliegues de IA en salud siguen tres patrones de red, cada uno con perfiles de seguridad diferentes.

    Patrón 1: despliegue en red aislada

    La opción más estricta. El servidor de inferencia tiene cero conectividad a internet.

    [Sistemas clínicos] <---> [Gateway API interno] <---> [Servidor de inferencia IA]
                                  |
                             [BD de log de auditoría]
    
    Sin conexión de red externa. Actualizaciones de modelo vía medios seguros.
    

    Cuándo usar: Entornos de máxima seguridad. Instalaciones que manejan registros de salud militar, registros psiquiátricos, registros de tratamiento por abuso de sustancias (42 CFR Parte 2) o datos de investigación bajo protocolos IRB estrictos.

    Concesión: Las actualizaciones de modelo requieren medios físicos (USB cifrado) o un registro de artefactos interno dedicado. Sin monitoreo remoto. Mayor carga operativa.

    Patrón 2: despliegue en DMZ

    El servidor de inferencia se ubica en una DMZ con acceso saliente controlado solo para actualizaciones. Sin conexiones entrantes desde internet.

    [Internet] --X-- [Firewall] --- [DMZ: Proxy de actualización] --- [Firewall] --- [Servidor de inferencia IA]
                                                                                  |
    [Sistemas clínicos] <-----------------------------------------> [Gateway API interno]
    

    Cuándo usar: La mayoría de los despliegues hospitalarios. Permite actualizaciones automatizadas de modelos a través de un proxy controlado mientras mantiene el procesamiento de PHI completamente interno.

    Concesión: Requiere reglas de firewall cuidadosas. El proxy de actualización debe ser endurecido y auditado.

    Patrón 3: aislamiento por VLAN

    La infraestructura de IA se ejecuta en una VLAN dedicada, segmentada del tráfico general de la red hospitalaria pero accesible para sistemas clínicos autorizados.

    VLAN 100 (Clínica):     [EHR] [PACS] [Apps clínicas]
                                  |
                             [Switch L3 / Reglas de firewall]
                                  |
    VLAN 200 (Infra IA):    [Gateway API] [Servidor de inferencia] [BD de auditoría]
    

    Cuándo usar: Instalaciones que necesitan control de acceso departamental. Radiología obtiene acceso al modelo de imagen. Patología obtiene acceso al modelo de generación de reportes. Urgencias obtiene acceso a la asistencia de triaje. Cada regla VLAN-a-VLAN se documenta y es auditable.

    Stack de servicio de modelos

    El stack de producción para inferencia de IA en salud es directo.

    Componentes principales

    1. Motor de inferencia: Ollama o llama.cpp. Ollama proporciona una API REST lista para usar. llama.cpp ofrece control de más bajo nivel y rendimiento ligeramente mejor.
    2. Gateway API: Nginx o Envoy como proxy inverso frente al motor de inferencia. Maneja autenticación, limitación de tasa y terminación TLS.
    3. mTLS entre servicios: Cada conexión entre el gateway API, motor de inferencia y base de datos de auditoría usa TLS mutuo. Sin excepciones. Esto es un requisito de HIPAA para ePHI en tránsito.

    Flujo de solicitudes

    [App clínica] --> [mTLS] --> [Gateway API (Nginx)]
        --> [Verificación de auth: clave API + ID de departamento]
        --> [Verificación de límite de tasa]
        --> [mTLS] --> [Ollama/llama.cpp]
        --> [Respuesta registrada en BD de auditoría]
        --> [mTLS] --> [App clínica]
    

    Gestión de claves API

    Cada departamento obtiene su propia clave API. Esto habilita seguimiento de uso por departamento, limitación de tasa y control de acceso. Rota las claves trimestralmente. Almacénalas en HashiCorp Vault o tu sistema de gestión de secretos existente.

    Requisitos de almacenamiento

    El almacenamiento de IA en salud se divide en tres categorías con perfiles de dimensionamiento muy diferentes.

    Tipo de almacenamientoTamañoTasa de crecimientoRetención
    Archivos de modelo base4-14GB por modelo (cuantizado)Estático por versiónMantener actual + 1 versión anterior
    Archivos de adaptadores LoRA50-200MB por adaptador de especialidad~1-2 nuevos adaptadores/trimestreMantener todas las versiones (rastro de auditoría)
    Logs de auditoría10-50GB/añoEscala con el uso6-7 años (mínimo HIPAA 6)
    Datasets de evaluación1-5GBActualizaciones trimestralesMantener todas las versiones

    Almacenamiento total del primer año: 30-70GB para modelos y adaptadores, más crecimiento de logs de auditoría. Un SSD NVMe de 1TB maneja más de 5 años de operación con espacio de sobra.

    Estrategia de respaldo: Respaldos cifrados a una ubicación secundaria on-premise. Nunca respaldes a almacenamiento en la nube a menos que el proveedor de nube tenga un BAA firmado y tu evaluación de riesgos lo apruebe explícitamente.

    Monitoreo y registro

    HIPAA requiere registro de auditoría para cualquier sistema que procese ePHI. Para inferencia de IA, esto significa cada solicitud individual.

    Qué registrar por inferencia

    CampoEjemploPropósito
    Timestamp2026-02-26T14:32:01ZRastro de auditoría
    ID de solicituduuid-v4Correlación
    Versión del modelollama-3.1-8b-q4_K_M + radiology-v2.3Reproducibilidad
    DepartamentoradiologíaAuditoría de control de acceso
    ID de usuario/servicioehr-integration-svcAtribución
    Hash de entrada (SHA-256)a3f2...Verificación de integridad sin almacenar PHI
    Hash de salida (SHA-256)b7c1...Verificación de integridad
    Conteo de tokens (entrada/salida)342 / 128Seguimiento de uso
    Latencia (ms)1,240Monitoreo de rendimiento
    Estadosuccess / errorOperaciones

    Detalle crítico: Registra hashes de entrada y salida, no contenido crudo. Esto te permite verificar integridad y probar qué versión del modelo produjo qué salida sin almacenar copias adicionales de PHI en la base de datos de auditoría.

    Registro de acceso HIPAA

    Más allá del registro de inferencia, necesitas logs de acceso HIPAA estándar:

    • Quién accedió al sistema de IA y cuándo
    • Éxitos y fallos de autenticación
    • Cambios de configuración (actualizaciones de modelo, intercambios de adaptador, cambios de parámetros)
    • Acceso administrativo al servidor de inferencia

    Usa tu SIEM existente (Splunk, Elastic, etc.) para agregar estos logs. La infraestructura de IA debería alimentar el mismo pipeline de registro que el resto de tus sistemas clínicos.

    Estrategia de actualización de modelos

    Llevar nuevas versiones de modelos a sistemas aislados o en red cerrada es el mayor desafío operativo.

    Opción 1: transferencia USB segura (red aislada)

    1. Descarga archivos de modelo en una estación de trabajo con internet en una sala segura
    2. Verifica checksums contra hashes publicados
    3. Transfiere a unidad USB cifrada (compatible con FIPS 140-2)
    4. Transporta vía personal autorizado con documentación de cadena de custodia
    5. Carga en el servidor de inferencia, verifica checksums nuevamente
    6. Ejecuta suite de validación antes de cambiar el tráfico de producción

    Tiempo por actualización: 2-4 horas incluyendo verificación y validación.

    Opción 2: registro de artefactos interno (DMZ)

    1. Descarga automatizada desde registro externo de modelos (Hugging Face, registro de Ollama) a través del proxy DMZ
    2. Los archivos de modelo llegan a un registro de artefactos interno (Nexus, Artifactory o un simple servidor de archivos Nginx)
    3. El servidor de inferencia descarga del registro interno según un calendario
    4. Suite de validación automatizada se ejecuta antes de cambiar el tráfico

    Tiempo por actualización: 30-60 minutos, mayormente automatizado.

    Despliegue por etapas

    Independientemente del método de entrega, sigue un despliegue por etapas:

    1. Canario (5% del tráfico): Enruta un pequeño porcentaje de solicitudes no críticas al nuevo modelo
    2. Validación (24-48 horas): Compara métricas de calidad de salida contra la versión anterior
    3. Despliegue completo: Cambia todo el tráfico a la nueva versión
    4. Ventana de rollback: Mantén la versión anterior cargada y lista para rollback instantáneo por 7 días

    Recuperación ante desastres

    Los fallos del sistema de IA en entornos clínicos necesitan procedimientos de respaldo claros.

    Modos de fallo y respuestas

    FalloObjetivo RTORespuesta
    Fallo de GPU4 horasFailover a inferencia CPU (rendimiento degradado)
    Crash del servidor de inferencia15 minutosReiniciar servicio, auto-recuperación
    Corrupción de archivo de modelo1 horaRestaurar desde respaldo local, re-verificar checksums
    Fallo completo del servidor8 horasRestaurar desde respaldo a hardware de reserva
    Partición de redInmediatoApps clínicas recurren a flujos sin IA

    Respaldo a CPU

    Todo despliegue acelerado por GPU debería tener una ruta de respaldo a CPU probada. Si la GPU falla:

    1. Ollama/llama.cpp automáticamente recurre a inferencia por CPU
    2. El rendimiento cae de ~30 tokens/seg a ~5 tokens/seg
    3. Reduce el límite de solicitudes concurrentes de 10 a 2
    4. Prioriza casos de uso clínico en tiempo real, encola trabajos por lotes

    Este modo degradado mantiene la IA disponible mientras se reemplaza el hardware. Ningún flujo de trabajo clínico debería tener una dependencia dura de la IA — siempre debería ser asistencial, con respaldo humano.

    Comparación de costos: on-premise vs API en la nube

    Las matemáticas favorecen al on-premise en volúmenes de salud.

    Costo total de propiedad a 3 años

    Componente de costoOn-premise (GPU T4)API en la nube (clase GPT-4, BAA)
    Hardware (año 0)$10,000$0
    Software/licencias$0 (stack open-source)$0
    Costos API (año 1)$0$36,000-72,000
    Costos API (año 2)$0$36,000-72,000
    Costos API (año 3)$0$36,000-72,000
    Energía/refrigeración (3 años)$1,800$0
    Tiempo DevOps (3 años)$15,000 (tiempo parcial)$5,000 (solo integración)
    Costos BAA/cumplimiento$0 (interno)$5,000-15,000 (evaluación de proveedor)
    Total 3 años$26,800$82,000-231,000

    Supuestos: 1,000 inferencias/día, promedio de 500 tokens de entrada + 200 de salida. Precios de nube a $0.01-0.03/1K tokens (nivel cubierto por BAA, típicamente 2-3x el precio estándar). DevOps a $75/hora, 4 horas/semana on-premise vs 1 hora/semana nube.

    El punto de equilibrio es típicamente alrededor de 200-300 inferencias por día. Por debajo de eso, las APIs en la nube con BAA pueden ser más rentables. Por encima, on-premise gana y la brecha se amplía cada mes.

    Requisitos de equipo

    No necesitas un equipo dedicado de ML. Necesitas:

    • 1 ingeniero de DevOps/infraestructura (tiempo parcial, ~4 horas/semana): Maneja mantenimiento del servidor, actualizaciones de modelo, alertas de monitoreo y parches de seguridad. Esta persona ya existe en tu equipo de TI.
    • 1 campeón clínico por departamento: Un clínico que es dueño del caso de uso, valida salidas y proporciona retroalimentación para fine-tuning. No es un rol técnico.
    • Soporte de proveedor (opcional): Ertas o plataforma similar para fine-tuning, gestión de adaptadores y herramientas de despliegue. Elimina la necesidad de experiencia en ML.

    El error más común es sobre-dotación de personal. La inferencia de IA on-premise es operativamente similar a ejecutar cualquier otro servicio interno. Si tu equipo puede gestionar un servidor de base de datos interno, pueden gestionar un servidor de inferencia de IA.

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Poniéndolo todo junto

    Aquí está la arquitectura completa para un despliegue hospitalario mediano:

    Internet (solo actualizaciones)
        |
    [DMZ: Proxy de actualización]
        |
    [Red interna - VLAN 200: Infraestructura IA]
        |
    [Registro de artefactos] --> [Servidor de inferencia: GPU T4 + Ollama]
                                  |               |
                        [Gateway API (Nginx)]  [BD de auditoría (PostgreSQL)]
                                  |
                        [mTLS + Auth por clave API]
                                  |
    [VLAN 100: Sistemas clínicos]
        |           |           |
      [EHR]     [PACS]    [Apps clínicas]
    

    Despliegue del día uno: Un solo servidor T4, un departamento, un caso de uso (resumen de notas clínicas). Costo total menor a $12,000. Tiempo a producción: 2-3 semanas con personal de TI existente.

    Ruta de escalamiento: Agrega adaptadores LoRA para nuevos departamentos. Agrega una segunda T4 para mayor rendimiento. Agrega modelos de especialidad para radiología, patología, codificación. Cada expansión es incremental — no se necesita rediseño de arquitectura.

    La infraestructura es la parte fácil. El stack de servicio de modelos está probado. Los patrones de red están bien entendidos. Lo que importa es poner el primer caso de uso en producción y demostrar valor al personal clínico que lo usará cada día.

    Lectura adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading