Human-in-the-Loop para IA Financiera: SR 11-7, Riesgo de Modelos y Lo Que la Fed Realmente Requiere

La guía SR 11-7 de la Reserva Federal fue publicada en abril de 2011, escrita para un mundo de modelos de riesgo cuantitativos — cálculos de VaR, algoritmos de scoring crediticio, frameworks de pruebas de estrés. La guía no menciona modelos de lenguaje grandes, IA generativa, ni siquiera aprendizaje automático como categoría distinta. No necesita hacerlo. Sus requisitos se aplican a cualquier "método cuantitativo, sistema o enfoque que aplica teorías, técnicas y suposiciones estadísticas, económicas, financieras o matemáticas para procesar datos de entrada en estimaciones cuantitativas."

Un LLM usado para evaluar solvencia crediticia, resumir documentación de prestatarios, señalar transacciones sospechosas o generar justificaciones de aprobación de préstamos es un modelo bajo SR 11-7. La guía se aplica. Los examinadores la están aplicando. La postura de aplicación ya no es teórica.

Lo Que SR 11-7 Realmente Dice

SR 11-7 establece un framework de gestión de riesgo de modelos construido sobre tres pilares.

Pilar 1: Desarrollo e Implementación de Modelos

Los modelos deben ser diseñados con un propósito claro, metodología apropiada y suposiciones documentadas. Para LLMs en aplicaciones financieras, esto significa:

La tarea que el modelo realiza debe estar definida con precisión
Los datos de entrenamiento y la metodología de fine-tuning deben estar documentados
Las limitaciones conocidas del modelo y los modos de falla deben ser explícitamente reconocidos
Las métricas de rendimiento apropiadas al contexto de decisión financiera deben elegirse antes del despliegue

"Usamos GPT-4 para resúmenes de préstamos" no es una implementación de modelo documentada. Una implementación documentada especifica qué versión del modelo, cómo se estructuran los prompts, qué validación se realizó en tipos de documentos financieros, cuál es la tasa de error esperada y qué sucede cuando el modelo se equivoca.

Pilar 2: Validación de Modelos

La validación independiente es el requisito que la mayoría de los despliegues de IA actualmente están fallando. SR 11-7 requiere que los modelos sean validados por personas independientes del equipo de desarrollo — que no construyeron el modelo, no están incentivados por su rendimiento y tienen suficiente experiencia técnica para evaluar su metodología.

La validación debe cubrir:

Solidez conceptual: ¿Tiene sentido el enfoque del modelo para esta aplicación financiera? Un LLM ajustado en contratos de banca minorista puede no ser apropiado para documentación de suscripción de bienes raíces comerciales, incluso si produce salida de aspecto plausible.
Monitoreo continuo: El rendimiento del modelo debe rastrearse en producción. La precisión, calibración y distribución de salida deben medirse contra la línea base de validación.
Análisis de resultados: Donde sea factible, las salidas del modelo deben compararse contra resultados observados. Las predicciones de un modelo de riesgo crediticio deben eventualmente medirse contra los incumplimientos reales.

El requisito de validación es donde la conexión HITL se vuelve explícita. El monitoreo continuo sin revisión humana de anomalías señaladas no es monitoreo — es recopilación de métricas. SR 11-7 espera que humanos que entienden el modelo miren lo que está haciendo y evalúen si lo está haciendo correctamente.

Pilar 3: Gobernanza, Políticas y Controles

El pilar de gobernanza requiere un inventario de modelos, propiedad clara, procesos de aprobación definidos para despliegue de nuevos modelos y procedimientos de escalamiento documentados cuando los modelos se comportan inesperadamente.

Para instituciones financieras que despliegan IA, esto significa:

Cada sistema de IA que cumple la definición de modelo debe estar en el inventario de modelos
Cada modelo inventariado debe tener un propietario designado responsable de su rendimiento
Debe haber un proceso de aprobación de modelos que incluya la firma de un oficial de riesgo independiente de la línea de negocio
Deben haber disparadores definidos que escalen a revisión humana — umbrales donde el comportamiento automático del modelo se detiene y un humano decide

Ese último punto es el requisito HITL integrado en el framework de gobernanza de SR 11-7. No se llama HITL en el texto de la guía. Es HITL en la práctica.

Lo Que "Desafío Efectivo" Realmente Significa

El concepto más exigente de SR 11-7 es el "desafío efectivo" — un requisito de que las suposiciones, metodología y salidas del modelo sean sometidas a análisis crítico por personas calificadas que no simplemente aceptan las conclusiones del modelo.

La guía define el desafío efectivo como: el análisis crítico por partes objetivas e informadas que pueden identificar limitaciones y suposiciones del modelo y participar constructivamente en mejorar el rendimiento del modelo.

Tres elementos importan aquí:

Objetivo: Revisores que no están invertidos en el éxito del modelo. Una línea de negocio que quiere que una IA crediticia sea aprobada y desplegada no es objetiva. El riesgo de modelo interno está más cerca; la validación externa es mejor.

Informado: Revisores que tienen suficiente experiencia técnica y de dominio para realmente evaluar el modelo. Un oficial de crédito que no entiende cómo un LLM genera texto no puede desafiar efectivamente una herramienta de análisis crediticio basada en LLM.

Constructivo: El objetivo es la mejora, no meramente la aprobación. El desafío efectivo identifica debilidades específicas y requiere que se aborden antes del despliegue u operación continua.

Un proceso de revisión donde un oficial de riesgo lee un resumen preparado por el equipo que construyó el modelo y firma un formulario de aprobación no es desafío efectivo. Esa es la versión de marcar casillas. Los examinadores conocen la diferencia.

Ejemplos Reales de Despliegues de IA Financiera

IA de decisión crediticia: Varios bancos regionales han recibido hallazgos MRA (Asuntos que Requieren Atención) relacionados con herramientas de decisión crediticia basadas en LLM desplegadas sin validación independiente. El hallazgo común: la institución no podía producir documentación mostrando que el modelo había sido probado en una muestra representativa de su población de préstamos específica, que los avisos de acción adversa reflejaban con precisión el razonamiento de la IA, o que había un mecanismo para anulación humana cuando la confianza de la IA estaba por debajo de un umbral definido.

Monitoreo de transacciones AML: La IA contra el lavado de dinero que señala transacciones sospechosas para la presentación de SAR debe cumplir los requisitos de validación de modelos de SR 11-7. Los examinadores en tres grandes instituciones en 2024 y 2025 encontraron que la generación de narrativas asistida por LLM para presentaciones de SAR fue tratada como una herramienta de flujo de trabajo en lugar de un modelo — evitando completamente los requisitos de inventario y validación de modelos.

Detección de fraude: Una IA de puntuación de fraude en un procesador de pagos regional fue encontrada durante examen sin tener un calendario de reentrenamiento definido y sin revisión humana de casos extremos señalados. El modelo había estado activo durante 18 meses. Su precisión en fraude con tarjeta presente había disminuido del 94% al 78% debido a cambio de distribución, pero ningún sistema de monitoreo lo había detectado porque el monitoreo se limitaba a estadísticas resumidas que enmascaraban la disminución.

El Problema de la Caja Negra

El requisito de solidez conceptual de SR 11-7 crea un problema específico para los LLMs: el requisito de explicabilidad.

Para que los revisores humanos proporcionen un desafío efectivo de la salida de un LLM, necesitan entender por qué el modelo produjo esa salida — qué características de la entrada impulsaron la decisión, qué alternativas se consideraron, qué refleja la confianza del modelo. Una caja negra que produce una recomendación crediticia sin una explicación de su razonamiento no cumple el estándar de desafío efectivo. El revisor humano no puede desafiar lo que no puede ver.

Este no es un problema que "la IA tiene alta precisión" resuelve. SR 11-7 no acepta alta precisión agregada como sustituto de la explicabilidad. El requisito es que humanos calificados puedan evaluar decisiones individuales — lo que significa que el modelo debe producir razonamiento que los humanos puedan evaluar.

Los LLMs que son instruidos para explicar su razonamiento, o que son ajustados para producir justificaciones estructuradas junto con recomendaciones, están mejor posicionados para cumplimiento con SR 11-7 que los modelos que producen una puntuación o recomendación sin razonamiento visible. Esta es una de las áreas donde los modelos ajustados y construidos específicamente para aplicaciones financieras tienen una ventaja regulatoria genuina sobre los modelos de propósito general accedidos vía API.

La Dirección Regulatoria 2026

La OCC emitió guía suplementaria a finales de 2025 abordando específicamente el riesgo de LLM en operaciones bancarias. La guía es explícita donde SR 11-7 era inferencial:

Los LLMs usados en funciones de crédito, AML, fraude y comunicaciones con clientes son modelos bajo SR 11-7
El requisito de inventario de modelos se aplica a servicios de IA de terceros, no solo a modelos desarrollados internamente
Se requieren puntos de control de revisión humana para salidas de IA de alto riesgo — denegaciones de crédito, presentaciones de SAR, resultados de filtrado de sanciones
Se requiere fijación de versión de modelo: las instituciones no pueden usar endpoints de API que se actualicen automáticamente sin un proceso de revalidación definido

Ese último punto es material para toda institución que usa APIs de IA basadas en la nube. Un endpoint "gpt-4-turbo" que silenciosamente recibe actualizaciones de modelo no es una versión de modelo fijada. SR 11-7 requiere que sepas qué modelo estás ejecutando y que hayas validado esa versión. No puedes validar un objetivo en movimiento.

Cómo Ertas Soporta el Cumplimiento de IA Financiera

Para instituciones financieras que construyen sistemas de IA que deben cumplir requisitos SR 11-7, dos cosas importan en la etapa de preparación de datos: registro de auditoría y propiedad del modelo.

Ertas Data Suite proporciona preparación de datos on-premise con un registro de auditoría completo — cada anotación, cada acción del operador, con marca de tiempo y registrada. Los datos de entrenamiento financieros preparados en Ertas pueden ser documentados, revisados e incluidos en paquetes de validación de modelos porque el proceso de preparación mismo es auditable.

Ertas Fine-Tuning da a los equipos financieros la capacidad de ser dueños de los pesos del modelo directamente. Cuando ejecutas tu propio modelo ajustado localmente, tú controlas la versión. Lo validas una vez y lo ejecutas hasta que elijas actualizar. El modo de falla donde un proveedor silenciosamente cambia el comportamiento del modelo — uno de los riesgos de cumplimiento SR 11-7 más significativos para despliegues de IA en la nube — no se aplica a un modelo que tú posees y controlas.

Para el framework HITL fundamental, consulta ¿Qué Es Human-in-the-Loop AI?. Para cobertura de gestión de riesgo de modelos en el contexto de LLMs ajustados específicamente, consulta nuestros artículos sobre riesgo de modelos y LLMs ajustados y por qué los bancos abordan la IA de propósito general con precaución.

Agenda una llamada de descubrimiento con Ertas →

SR 11-7 fue escrito antes de que existieran los LLMs. Describe sus requisitos de gobernanza con precisión. Las instituciones que lo leen como aplicable a sus despliegues de IA — y construyen procesos HITL en consecuencia — están adelante. Las que tratan la IA como fuera del framework de riesgo de modelos están acumulando hallazgos de examen que aún no han recibido.

Ver precios early bird → para Ertas Fine-Tuning — modelos construidos específicamente, ejecutados localmente, que tú versionas, validas y controlas.

Human-in-the-Loop para IA Financiera: SR 11-7, Riesgo de Modelos y Lo Que la Fed Realmente Requiere

Lo Que SR 11-7 Realmente Dice

Pilar 1: Desarrollo e Implementación de Modelos

Pilar 2: Validación de Modelos

Pilar 3: Gobernanza, Políticas y Controles

Lo Que "Desafío Efectivo" Realmente Significa

Ejemplos Reales de Despliegues de IA Financiera

El Problema de la Caja Negra

La Dirección Regulatoria 2026

Cómo Ertas Soporta el Cumplimiento de IA Financiera

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

AI Model Inventory Template: Track Every Model Your Organization Runs in Production

AI Governance Framework for Financial Services: SR 11-7, Model Risk, and Regulatory Expectations

EU AI Act Training Data Compliance: The Complete Guide (2026)