
IA On-Premise para Banca: Satisfaciendo los Requisitos de Auditoría del Regulador
Guía de arquitectura y operaciones para desplegar IA on-premise en entornos bancarios que satisfagan los requisitos de auditoría de OCC, FINRA y la Reserva Federal. Cubre infraestructura, rastros de auditoría, controles de acceso, gestión de cambios, recuperación ante desastres y una comparación de cumplimiento de 10 dimensiones.
El CTO de tu banco quiere IA. Cumplimiento quiere rastros de auditoría. El CISO quiere los datos on-premise. El jefe de operaciones lo quiere desplegado antes del Q3.
Estos no son requisitos contradictorios. Son restricciones de diseño — y todas apuntan a la misma arquitectura: modelos ajustados ejecutándose on-premise, con registro de auditoría integral, controles de acceso y gestión de cambios incorporados en la infraestructura desde el primer día.
Esta guía cubre la arquitectura completa, desde el clúster GPU hasta la retención de registros de auditoría, que te permite desplegar IA y pasar la revisión del examinador.
Resumen de Arquitectura
El despliegue sigue un pipeline de cuatro etapas. Cada etapa tiene una puerta que produce artefactos auditables.
[Etapa 1: Entrenamiento] Entorno GPU air-gapped
|
Puerta de Validación --------> Resultados de benchmark, auditoría de sesgo, tarjeta del modelo
|
[Etapa 2: Validación] Revisión independiente por equipo MRM
|
Puerta de Aprobación ----------> Documento de aprobación, clasificación de nivel de riesgo
|
[Etapa 3: Inferencia en Producción] Clúster de inferencia on-premise
|
Monitoreo Continuo ------------> Alertas de drift, seguimiento de precisión, registros de auditoría
|
[Etapa 4: Registro de Auditoría] Almacén de registros inmutable, retención de 7 años
Cada inferencia, cada cambio de modelo y cada evento de acceso produce un registro que fluye a la Etapa 4. Nada es opcional.
Requisitos de Infraestructura
La infraestructura de IA bancaria se divide en tres niveles funcionales.
Desglose por Niveles
| Nivel | Propósito | Hardware | Red |
|---|---|---|---|
| Entrenamiento | Fine-tuning y creación de adaptadores | 1-2x NVIDIA A100 40GB o 4x T4 16GB | Air-gapped o VLAN aislada |
| Inferencia | Servicio de modelos en producción | 2x NVIDIA T4 16GB (par HA) o 2x servidores CPU de 32 núcleos | VLAN aislada, acceso solo interno |
| Almacenamiento y Registro | Registro de modelos, registros de auditoría, respaldos | 2TB NVMe + almacenamiento en red (NAS/SAN) | Misma VLAN que inferencia, replicado |
Nivel de Entrenamiento
El fine-tuning ocurre con poca frecuencia — típicamente trimestral o cuando se incorpora un nuevo caso de uso. El entorno de entrenamiento debe ser:
- Air-gapped o estrictamente aislado. Los datos de entrenamiento incluyen documentos financieros sensibles. Sin acceso a internet. Sin infraestructura compartida.
- Equipado con GPU. Ajustar un modelo de 7B-8B parámetros con LoRA requiere 16-24GB de VRAM. Una sola A100 de 40GB lo maneja cómodamente. Un par de GPUs T4 de 16GB funciona con acumulación de gradientes.
- Temporal. Las ejecuciones de entrenamiento toman 1-4 horas. El entorno puede apagarse entre ejecuciones. Si se usan instancias GPU en la nube para entrenamiento (con controles de datos apropiados), el costo es de $5-20 por ejecución de entrenamiento.
Costo: $15,000-25,000 para un servidor de entrenamiento dedicado, o $5-20 por ejecución en instancias GPU reservadas en la nube (si el cumplimiento permite transferencia de datos controlada y cifrada).
Nivel de Inferencia
La inferencia en producción se ejecuta 24/7. Este es el nivel que maneja solicitudes reales de aplicaciones bancarias.
| Especificación | Ruta GPU (Recomendada) | Ruta Solo CPU |
|---|---|---|
| Servidores | 2 (activo-activo HA) | 2 (activo-activo HA) |
| CPU | 16 núcleos Xeon Silver por servidor | 32 núcleos Xeon Gold por servidor |
| RAM | 64GB por servidor | 128GB por servidor |
| GPU | 1x NVIDIA T4 16GB por servidor | Ninguna |
| Almacenamiento | 500GB NVMe SSD por servidor | 500GB NVMe SSD por servidor |
| Rendimiento | 15-40 tokens/seg por servidor | 3-8 tokens/seg por servidor |
| Solicitudes concurrentes | 10-20 por servidor | 2-5 por servidor |
Alta disponibilidad: Ejecuta dos servidores de inferencia en modo activo-activo detrás de un balanceador de carga interno. Si uno falla, el otro maneja la carga completa a rendimiento reducido. RTO: cero (failover automático). RPO: cero (inferencia sin estado).
Costo por servidor: $8,000-12,000 (con GPU T4). Dos servidores para HA: $16,000-24,000.
Nivel de Almacenamiento y Registro
| Componente de Almacenamiento | Tamaño | Crecimiento | Retención |
|---|---|---|---|
| Archivos de modelo (base + adaptadores) | 20-60GB | ~10GB/trimestre (nuevos adaptadores) | Todas las versiones, indefinidamente |
| Registros de auditoría | 15-50GB/año | Lineal con volumen de inferencia | 7 años mínimo |
| Artefactos de entrenamiento | 5-10GB por ejecución de entrenamiento | Trimestral | Todas las ejecuciones, indefinidamente |
| Datasets de evaluación | 2-5GB | Actualizaciones trimestrales | Todas las versiones, indefinidamente |
| Respaldos (cifrados) | Espejo de lo anterior | Coincide con primario | Igual que primario |
Almacenamiento total del primer año: 100-200GB. Un arreglo NVMe de 2TB maneja 7+ años de crecimiento.
Arquitectura de Rastro de Auditoría
Esta es la sección que más importa a los examinadores. Cada inferencia debe producir un registro de auditoría completo e inmutable.
Registro por Inferencia
| Campo | Tipo | Ejemplo | Por Qué lo Quieren los Examinadores |
|---|---|---|---|
timestamp | ISO 8601 | 2026-02-26T09:14:33.127Z | Correlación temporal con eventos de negocio |
request_id | UUID v4 | 8f3a2b1c-... | Referencia única para investigación |
model_version | String | llama-3.1-8b-q4km-v2.1 | Reproducibilidad |
adapter_version | String | loan-analysis-v3.2 | Reproducibilidad |
input_hash | SHA-256 | a3f2c7... | Prueba de integridad sin almacenar datos crudos |
output_hash | SHA-256 | b7c1d9... | Prueba de integridad sin almacenar datos crudos |
department | String | commercial-lending | Atribución de uso |
user_id | String | svc-loan-origination | Atribución de acceso |
confidence | Float | 0.94 | Evidencia de calidad de decisión |
token_count_in | Integer | 1,247 | Seguimiento de recursos |
token_count_out | Integer | 342 | Seguimiento de recursos |
latency_ms | Integer | 1,180 | Cumplimiento de SLA |
status | Enum | success | Monitoreo de operaciones |
error_code | String | null | Investigación de incidentes |
Inmutabilidad de Registros
Los registros de auditoría deben ser a prueba de manipulación. Opciones:
- Almacenamiento de escritura única: Volúmenes WORM (Write Once Read Many). NetApp SnapLock, snapshots inmutables de Dell PowerStore, o similar.
- Base de datos solo-adición: PostgreSQL con seguridad a nivel de fila que previene UPDATE/DELETE en tablas de auditoría. Combinado con verificación regular de cadena de hash.
- Reenvío de registros: Replicación en tiempo real a un SIEM separado (Splunk, Elastic, QRadar) con políticas de retención independientes.
El enfoque más práctico para la mayoría de los bancos: tablas solo-adición de PostgreSQL con verificación nocturna de cadena de hash, replicadas al SIEM existente. Esto se integra con tu infraestructura de auditoría actual sin introducir nuevos sistemas.
Requisitos de Retención
La guía de examinación de OCC espera 5-7 años de registros para decisiones relacionadas con modelos. Para registros de auditoría de IA:
- Registros de inferencia: 7 años desde la fecha de la inferencia
- Versiones del modelo: Indefinido (necesitas la capacidad de cargar cualquier versión histórica para investigación)
- Artefactos de entrenamiento: Indefinido (procedencia de datos de entrenamiento, hiperparámetros, registros de entrenamiento)
- Informes de validación: Indefinido (vinculados a versiones del modelo)
Costo de almacenamiento para retención de 7 años: A 30GB/año de registros de auditoría, 7 años son 210GB. Comprimidos y archivados, esto cabe en un solo estante de NAS. El costo es trivial — menos de $500 por el hardware de almacenamiento.
Controles de Acceso
Modelo RBAC
| Rol | Permisos | Usuarios Típicos |
|---|---|---|
| Desarrollador de Modelos | Entrenar modelos, subir adaptadores a staging | Equipo de AI/ML (2-3 personas) |
| Validador de Modelos | Acceso solo lectura a modelos + artefactos de entrenamiento, ejecutar suites de validación | Equipo MRM |
| Aprobador de Despliegue | Promover modelos de staging a producción | Comité de riesgo tecnológico |
| Consumidor de API | Invocar API de inferencia para casos de uso autorizados | Cuentas de servicio de aplicaciones |
| Auditor | Acceso solo lectura a todos los registros, tarjetas de modelo, informes de validación | Auditoría interna, examinadores |
| Administrador de Infraestructura | Gestión de servidores, parches, respaldo/restauración | Equipo de DevOps |
Gestión de Claves API
Cada aplicación consumidora obtiene una clave API dedicada con permisos delimitados:
- Rotación de claves: Cada 90 días, automatizada. Las claves antiguas permanecen válidas por un período de gracia de 7 días.
- Limitación de tasa: Límites de tasa por clave basados en el caso de uso aprobado. Originación de préstamos: 500 solicitudes/día. Servicio al cliente: 2,000 solicitudes/día.
- Monitoreo de uso: Dashboards en tiempo real mostrando volumen por clave, latencia y tasas de error. Alertas sobre patrones anómalos (pico repentino de volumen, solicitudes fuera del horario laboral).
Monitoreo de Uso por Departamento
| Departamento | Caso de Uso | Volumen Diario | Costo Mensual (On-Prem) | Costo Mensual (API en Nube) |
|---|---|---|---|---|
| Banca Comercial | Análisis de documentos de préstamo | 200-400 | $0 (infra fija) | $1,800-3,600 |
| Banca Minorista | Clasificación de consultas de clientes | 800-1,500 | $0 (infra fija) | $7,200-13,500 |
| Cumplimiento | Redacción de narrativas SAR | 50-100 | $0 (infra fija) | $450-900 |
| Gestión de Riesgos | Resumen de memorandos de crédito | 100-200 | $0 (infra fija) | $900-1,800 |
| Total | 1,150-2,200 | $0 marginal | $10,350-19,800/mes |
La inferencia on-premise tiene costo marginal cero por solicitud. El costo de infraestructura es fijo independientemente del volumen. Esto cambia la economía de la adopción de IA por completo — los departamentos pueden experimentar sin aprobación de presupuesto para cada nuevo caso de uso.
Flujo de Trabajo de Gestión de Cambios
Cada cambio de modelo sigue un flujo de trabajo documentado y auditable.
Proceso de Seis Pasos
1. PROPONER --> Solicitud de cambio con justificación de negocio
Enviado por: Desarrollador de Modelos
Aprobado por: Propietario del caso de uso + Riesgo tecnológico
2. DESARROLLAR --> Ajustar o actualizar adaptador
Entorno: Nivel de entrenamiento air-gapped
Artefactos: Registros de entrenamiento, nueva tarjeta del modelo
3. VALIDAR --> Ejecutar suite de benchmark + backtest + pruebas adversariales
Realizado por: Desarrollador de Modelos
Artefactos: Informe de evaluación
4. REVISAR --> Validación independiente
Realizado por: Equipo MRM o validador externo
Artefactos: Informe de validación con hallazgos
5. APROBAR --> Aprobación de despliegue
Aprobado por: Aprobador de Despliegue (comité de riesgo)
Artefactos: Aprobación firmada, clasificación de nivel de riesgo
6. DESPLEGAR --> Despliegue escalonado a producción
Realizado por: Administrador de Infraestructura
Etapas: Canary (5%) → Parcial (25%) → Completo (100%)
Monitoreo: Observación de 48 horas en cada etapa
Procedimiento de Rollback
Si el monitoreo detecta degradación de calidad después del despliegue:
- Disparador automático de rollback: La precisión cae por debajo del umbral durante 15 minutos consecutivos
- Rollback manual: Cualquier operador autorizado puede revertir a la versión anterior del modelo en menos de 2 minutos
- Documentación de incidentes: Cada rollback dispara un informe de incidente documentando qué cambió, qué falló y análisis de causa raíz
La versión anterior del modelo permanece cargada en memoria en el servidor de inferencia de respaldo. El rollback es un cambio de configuración del balanceador de carga — no una recarga del modelo.
Recuperación ante Desastres
Objetivos RTO y RPO
| Escenario | RTO | RPO | Método de Recuperación |
|---|---|---|---|
| Falla de GPU individual | 0 (automático) | 0 | Failover al servidor HA compañero |
| Falla de servidor individual | 0 (automático) | 0 | El balanceador de carga elimina nodo fallido |
| Ambos servidores fallan | 4 horas | 0 | Restaurar desde respaldo a hardware de reemplazo |
| Corrupción de archivo de modelo | 30 minutos | 0 | Restaurar desde respaldo del registro de modelos |
| Falla de base de datos de auditoría | 15 minutos | 5 minutos | Failover a réplica, restaurar desde WAL |
| Falla del centro de datos | 8-24 horas | 1 hora | Restaurar en sitio DR desde respaldos replicados |
Failover a CPU
Si todas las GPUs fallan, la pila de inferencia recurre a operación solo CPU:
- El rendimiento cae de 30 tokens/seg a 5 tokens/seg por servidor
- Las solicitudes concurrentes máximas caen de 20 a 4
- Se activa cola de prioridad: solicitudes de Cumplimiento y riesgo primero, otros departamentos en cola
- Notificación automatizada a todas las aplicaciones consumidoras: "Sistema de IA operando en modo degradado, espere mayor latencia"
Operación en Modo Degradado
Cuando la IA no está disponible en absoluto:
- Todas las aplicaciones consumidoras deben tener una ruta alternativa sin IA
- Análisis de documentos de préstamo: Revisión manual (flujo de trabajo pre-IA existente)
- Clasificación de clientes: Enrutamiento basado en reglas (flujo de trabajo pre-IA existente)
- Redacción de SAR: Redacción manual por analistas de cumplimiento
Esto es un requisito regulatorio, no solo buena práctica. Los examinadores preguntarán: "¿Qué pasa si este sistema se cae?" La respuesta debe ser: "Revertimos a nuestro proceso pre-IA, que está documentado y probado trimestralmente."
Preparación para Examen del Regulador
Cuando los examinadores de OCC o FINRA lleguen, presenta el siguiente paquete.
Paquete de Información para el Examinador
- Inventario de modelos: Lista completa de todos los modelos de IA en producción, con nivel de riesgo, propietario, fecha de validación y próxima fecha de revisión
- Diagrama de arquitectura: El pipeline de cuatro etapas desde entrenamiento hasta registro de auditoría
- Ejemplo de rastro de auditoría: Extrae 5 registros de inferencia del mes anterior, mostrando la cadena completa de registro desde solicitud hasta respuesta
- Informe de validación: Validación independiente más reciente para cada modelo, incluyendo hallazgos y remediación
- Registro de cambios: Todos los cambios de modelo en los últimos 12 meses, con documentación de aprobación
- Registro de incidentes: Cualquier incidente relacionado con modelos, incluyendo rollbacks, con análisis de causa raíz
- Documentación de control de acceso: Configuración RBAC, inventario de claves API, informes de uso por departamento
- Resultados de prueba de recuperación ante desastres: Prueba de DR más reciente, incluyendo tiempo de failover y verificación de integridad de datos
Preocupaciones Comunes del Examinador (y Respuestas Preventivas)
"¿Se están enviando datos de clientes a terceros?" No. Toda la inferencia se ejecuta on-premise. Ningún dato de cliente sale de la red del banco. Muestra el diagrama de arquitectura de red con aislamiento VLAN.
"¿Pueden reproducir una salida histórica del modelo?" Sí. Muestra el registro de versiones del modelo, demuestra cargar una versión histórica y reproduce una salida del registro de auditoría usando el hash de entrada registrado.
"¿Cómo detectan el drift del modelo?" Monitoreo semanal de precisión contra un conjunto de benchmark. Alertas automatizadas cuando la precisión cae por debajo del umbral. Re-validación completa trimestral. Muestra el dashboard de monitoreo.
"¿Cuál es la participación de la junta directiva?" Los informes de gobernanza de riesgo de modelos se reportan al comité de riesgo de la junta trimestralmente. El comité aprueba la declaración de apetito de riesgo de modelos y revisa los despliegues de modelos de Nivel 1. Muestra el último informe trimestral.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Comparación de Cumplimiento: On-Premise vs Nube
Así es como los despliegues on-premise y en la nube se comparan en 10 dimensiones de auditoría.
| Dimensión | On-Premise | API en Nube | Preferencia del Examinador |
|---|---|---|---|
| 1. Residencia de datos | Todos los datos permanecen en la red del banco | Los datos transitan a la infraestructura del proveedor | On-premise |
| 2. Registro de auditoría | Completo, controlado por el banco | Dependiente de las capacidades de registro del proveedor | On-premise |
| 3. Reproducibilidad | Completa — fijar versión del modelo, reproducir entradas | Limitada — el proveedor puede actualizar modelos | On-premise |
| 4. Control de acceso | Integrado con IAM del banco | Gestión de claves API separada | On-premise |
| 5. Gestión de cambios | El banco controla todos los cambios | El proveedor controla las actualizaciones del modelo | On-premise |
| 6. Riesgo de proveedor | Sin proveedor de modelo de terceros | Requiere evaluación de riesgo de proveedor, monitoreo continuo | On-premise |
| 7. Respuesta a incidentes | Capacidad forense completa | Limitada a informes de incidentes del proveedor | On-premise |
| 8. Validación del modelo | Validar en cualquier momento con suites de prueba internas | No se pueden ejecutar pruebas arbitrarias contra modelos alojados | On-premise |
| 9. Pruebas de DR | El banco controla la estrategia y pruebas de DR | Dependiente del SLA y capacidades de DR del proveedor | On-premise |
| 10. Predictibilidad de costos | Costo de infraestructura fijo | Variable, basado en uso, sujeto a aumentos de precio | On-premise |
Esta no es una comparación cerrada. On-premise gana en cada dimensión que importa a los reguladores. La única dimensión donde las APIs en la nube tienen ventaja es tiempo-a-primera-inferencia — puedes empezar a usar una API en la nube en horas, mientras que on-premise toma semanas para configurar.
Pero el tiempo de configuración es un costo único. El cumplimiento de auditoría es continuo, cada trimestre, durante la vida del modelo. Invierte las semanas por adelantado.
Costo Total de Propiedad
Comparación a 3 Años (Banco Mediano, 4 Casos de Uso)
| Componente | On-Premise | API en Nube (Nivel BAA Empresarial) |
|---|---|---|
| Infraestructura (año 0) | $40,000 | $0 |
| Operaciones anuales | $25,000/año | $8,000/año |
| Costos de API anuales | $0 | $120,000-240,000/año |
| Evaluación de riesgo de proveedor | $0 | $15,000/año |
| Sobrecarga de cumplimiento | $5,000/año | $20,000/año |
| Total a 3 Años | $130,000 | $504,000-804,000 |
Las matemáticas no son sutiles. On-premise cuesta 75-85% menos en tres años para un banco ejecutando cuatro casos de uso de IA a volúmenes típicos (1,000-2,000 inferencias/día en total).
Más importante aún, la postura de cumplimiento es categóricamente mejor. No estás documentando la infraestructura de alguien más — estás documentando la tuya propia.
Lectura Adicional
- IA On-Premise para Bufetes de Abogados: Lista de Verificación de Cumplimiento — Marco de cumplimiento similar aplicado a requisitos de la industria legal
- Comparación de Costos de GPU para Self-Hosting de IA en 2026 — Benchmarks detallados de hardware y precios para cargas de trabajo de inferencia y entrenamiento
- Fine-Tuning de IA para Servicios Financieros — Guía completa de cumplimiento, casos de uso y despliegue en banca y finanzas
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Premise Healthcare AI: Architecture and Infrastructure Guide
A practical infrastructure guide for deploying AI on-premise in healthcare environments. Covers hardware requirements, network architecture, air-gapped deployment, HIPAA audit logging, model update strategies, and real cost comparisons against cloud APIs.

Model Risk Management for Fine-Tuned LLMs: SR 11-7 Compliance Guide
A practical guide to applying the Federal Reserve's SR 11-7 model risk management framework to fine-tuned LLMs in banking. Covers documentation requirements, validation frameworks, auditor questions, and why on-premise deployment simplifies compliance.

SOC 2 and AI: Why Financial Firms Need On-Premise Model Deployment
Every AI API you add expands your SOC 2 audit scope. On-premise model deployment keeps AI capabilities within your existing security boundary — no new vendors, no new risk assessments, no scope creep. Here is how to deploy AI that your auditors will approve.