Back to blog
    Human-in-the-Loop para IA Financiera: SR 11-7, Riesgo de Modelos y Lo Que la Fed Realmente Requiere
    human-in-the-loopsr-11-7model-risk-managementfinancial-aicompliance

    Human-in-the-Loop para IA Financiera: SR 11-7, Riesgo de Modelos y Lo Que la Fed Realmente Requiere

    La guía SR 11-7 de la Reserva Federal es anterior a los LLMs pero se aplica directamente a los sistemas de IA. Esto es lo que realmente requiere para la supervisión humana en el despliegue de modelos financieros.

    EErtas Team·

    La guía SR 11-7 de la Reserva Federal fue publicada en abril de 2011, escrita para un mundo de modelos de riesgo cuantitativos — cálculos de VaR, algoritmos de scoring crediticio, frameworks de pruebas de estrés. La guía no menciona modelos de lenguaje grandes, IA generativa, ni siquiera aprendizaje automático como categoría distinta. No necesita hacerlo. Sus requisitos se aplican a cualquier "método cuantitativo, sistema o enfoque que aplica teorías, técnicas y suposiciones estadísticas, económicas, financieras o matemáticas para procesar datos de entrada en estimaciones cuantitativas."

    Un LLM usado para evaluar solvencia crediticia, resumir documentación de prestatarios, señalar transacciones sospechosas o generar justificaciones de aprobación de préstamos es un modelo bajo SR 11-7. La guía se aplica. Los examinadores la están aplicando. La postura de aplicación ya no es teórica.

    Lo Que SR 11-7 Realmente Dice

    SR 11-7 establece un framework de gestión de riesgo de modelos construido sobre tres pilares.

    Pilar 1: Desarrollo e Implementación de Modelos

    Los modelos deben ser diseñados con un propósito claro, metodología apropiada y suposiciones documentadas. Para LLMs en aplicaciones financieras, esto significa:

    • La tarea que el modelo realiza debe estar definida con precisión
    • Los datos de entrenamiento y la metodología de fine-tuning deben estar documentados
    • Las limitaciones conocidas del modelo y los modos de falla deben ser explícitamente reconocidos
    • Las métricas de rendimiento apropiadas al contexto de decisión financiera deben elegirse antes del despliegue

    "Usamos GPT-4 para resúmenes de préstamos" no es una implementación de modelo documentada. Una implementación documentada especifica qué versión del modelo, cómo se estructuran los prompts, qué validación se realizó en tipos de documentos financieros, cuál es la tasa de error esperada y qué sucede cuando el modelo se equivoca.

    Pilar 2: Validación de Modelos

    La validación independiente es el requisito que la mayoría de los despliegues de IA actualmente están fallando. SR 11-7 requiere que los modelos sean validados por personas independientes del equipo de desarrollo — que no construyeron el modelo, no están incentivados por su rendimiento y tienen suficiente experiencia técnica para evaluar su metodología.

    La validación debe cubrir:

    • Solidez conceptual: ¿Tiene sentido el enfoque del modelo para esta aplicación financiera? Un LLM ajustado en contratos de banca minorista puede no ser apropiado para documentación de suscripción de bienes raíces comerciales, incluso si produce salida de aspecto plausible.
    • Monitoreo continuo: El rendimiento del modelo debe rastrearse en producción. La precisión, calibración y distribución de salida deben medirse contra la línea base de validación.
    • Análisis de resultados: Donde sea factible, las salidas del modelo deben compararse contra resultados observados. Las predicciones de un modelo de riesgo crediticio deben eventualmente medirse contra los incumplimientos reales.

    El requisito de validación es donde la conexión HITL se vuelve explícita. El monitoreo continuo sin revisión humana de anomalías señaladas no es monitoreo — es recopilación de métricas. SR 11-7 espera que humanos que entienden el modelo miren lo que está haciendo y evalúen si lo está haciendo correctamente.

    Pilar 3: Gobernanza, Políticas y Controles

    El pilar de gobernanza requiere un inventario de modelos, propiedad clara, procesos de aprobación definidos para despliegue de nuevos modelos y procedimientos de escalamiento documentados cuando los modelos se comportan inesperadamente.

    Para instituciones financieras que despliegan IA, esto significa:

    • Cada sistema de IA que cumple la definición de modelo debe estar en el inventario de modelos
    • Cada modelo inventariado debe tener un propietario designado responsable de su rendimiento
    • Debe haber un proceso de aprobación de modelos que incluya la firma de un oficial de riesgo independiente de la línea de negocio
    • Deben haber disparadores definidos que escalen a revisión humana — umbrales donde el comportamiento automático del modelo se detiene y un humano decide

    Ese último punto es el requisito HITL integrado en el framework de gobernanza de SR 11-7. No se llama HITL en el texto de la guía. Es HITL en la práctica.

    Lo Que "Desafío Efectivo" Realmente Significa

    El concepto más exigente de SR 11-7 es el "desafío efectivo" — un requisito de que las suposiciones, metodología y salidas del modelo sean sometidas a análisis crítico por personas calificadas que no simplemente aceptan las conclusiones del modelo.

    La guía define el desafío efectivo como: el análisis crítico por partes objetivas e informadas que pueden identificar limitaciones y suposiciones del modelo y participar constructivamente en mejorar el rendimiento del modelo.

    Tres elementos importan aquí:

    Objetivo: Revisores que no están invertidos en el éxito del modelo. Una línea de negocio que quiere que una IA crediticia sea aprobada y desplegada no es objetiva. El riesgo de modelo interno está más cerca; la validación externa es mejor.

    Informado: Revisores que tienen suficiente experiencia técnica y de dominio para realmente evaluar el modelo. Un oficial de crédito que no entiende cómo un LLM genera texto no puede desafiar efectivamente una herramienta de análisis crediticio basada en LLM.

    Constructivo: El objetivo es la mejora, no meramente la aprobación. El desafío efectivo identifica debilidades específicas y requiere que se aborden antes del despliegue u operación continua.

    Un proceso de revisión donde un oficial de riesgo lee un resumen preparado por el equipo que construyó el modelo y firma un formulario de aprobación no es desafío efectivo. Esa es la versión de marcar casillas. Los examinadores conocen la diferencia.

    Ejemplos Reales de Despliegues de IA Financiera

    IA de decisión crediticia: Varios bancos regionales han recibido hallazgos MRA (Asuntos que Requieren Atención) relacionados con herramientas de decisión crediticia basadas en LLM desplegadas sin validación independiente. El hallazgo común: la institución no podía producir documentación mostrando que el modelo había sido probado en una muestra representativa de su población de préstamos específica, que los avisos de acción adversa reflejaban con precisión el razonamiento de la IA, o que había un mecanismo para anulación humana cuando la confianza de la IA estaba por debajo de un umbral definido.

    Monitoreo de transacciones AML: La IA contra el lavado de dinero que señala transacciones sospechosas para la presentación de SAR debe cumplir los requisitos de validación de modelos de SR 11-7. Los examinadores en tres grandes instituciones en 2024 y 2025 encontraron que la generación de narrativas asistida por LLM para presentaciones de SAR fue tratada como una herramienta de flujo de trabajo en lugar de un modelo — evitando completamente los requisitos de inventario y validación de modelos.

    Detección de fraude: Una IA de puntuación de fraude en un procesador de pagos regional fue encontrada durante examen sin tener un calendario de reentrenamiento definido y sin revisión humana de casos extremos señalados. El modelo había estado activo durante 18 meses. Su precisión en fraude con tarjeta presente había disminuido del 94% al 78% debido a cambio de distribución, pero ningún sistema de monitoreo lo había detectado porque el monitoreo se limitaba a estadísticas resumidas que enmascaraban la disminución.

    El Problema de la Caja Negra

    El requisito de solidez conceptual de SR 11-7 crea un problema específico para los LLMs: el requisito de explicabilidad.

    Para que los revisores humanos proporcionen un desafío efectivo de la salida de un LLM, necesitan entender por qué el modelo produjo esa salida — qué características de la entrada impulsaron la decisión, qué alternativas se consideraron, qué refleja la confianza del modelo. Una caja negra que produce una recomendación crediticia sin una explicación de su razonamiento no cumple el estándar de desafío efectivo. El revisor humano no puede desafiar lo que no puede ver.

    Este no es un problema que "la IA tiene alta precisión" resuelve. SR 11-7 no acepta alta precisión agregada como sustituto de la explicabilidad. El requisito es que humanos calificados puedan evaluar decisiones individuales — lo que significa que el modelo debe producir razonamiento que los humanos puedan evaluar.

    Los LLMs que son instruidos para explicar su razonamiento, o que son ajustados para producir justificaciones estructuradas junto con recomendaciones, están mejor posicionados para cumplimiento con SR 11-7 que los modelos que producen una puntuación o recomendación sin razonamiento visible. Esta es una de las áreas donde los modelos ajustados y construidos específicamente para aplicaciones financieras tienen una ventaja regulatoria genuina sobre los modelos de propósito general accedidos vía API.

    La Dirección Regulatoria 2026

    La OCC emitió guía suplementaria a finales de 2025 abordando específicamente el riesgo de LLM en operaciones bancarias. La guía es explícita donde SR 11-7 era inferencial:

    • Los LLMs usados en funciones de crédito, AML, fraude y comunicaciones con clientes son modelos bajo SR 11-7
    • El requisito de inventario de modelos se aplica a servicios de IA de terceros, no solo a modelos desarrollados internamente
    • Se requieren puntos de control de revisión humana para salidas de IA de alto riesgo — denegaciones de crédito, presentaciones de SAR, resultados de filtrado de sanciones
    • Se requiere fijación de versión de modelo: las instituciones no pueden usar endpoints de API que se actualicen automáticamente sin un proceso de revalidación definido

    Ese último punto es material para toda institución que usa APIs de IA basadas en la nube. Un endpoint "gpt-4-turbo" que silenciosamente recibe actualizaciones de modelo no es una versión de modelo fijada. SR 11-7 requiere que sepas qué modelo estás ejecutando y que hayas validado esa versión. No puedes validar un objetivo en movimiento.

    Cómo Ertas Soporta el Cumplimiento de IA Financiera

    Para instituciones financieras que construyen sistemas de IA que deben cumplir requisitos SR 11-7, dos cosas importan en la etapa de preparación de datos: registro de auditoría y propiedad del modelo.

    Ertas Data Suite proporciona preparación de datos on-premise con un registro de auditoría completo — cada anotación, cada acción del operador, con marca de tiempo y registrada. Los datos de entrenamiento financieros preparados en Ertas pueden ser documentados, revisados e incluidos en paquetes de validación de modelos porque el proceso de preparación mismo es auditable.

    Ertas Fine-Tuning da a los equipos financieros la capacidad de ser dueños de los pesos del modelo directamente. Cuando ejecutas tu propio modelo ajustado localmente, tú controlas la versión. Lo validas una vez y lo ejecutas hasta que elijas actualizar. El modo de falla donde un proveedor silenciosamente cambia el comportamiento del modelo — uno de los riesgos de cumplimiento SR 11-7 más significativos para despliegues de IA en la nube — no se aplica a un modelo que tú posees y controlas.

    Para el framework HITL fundamental, consulta ¿Qué Es Human-in-the-Loop AI?. Para cobertura de gestión de riesgo de modelos en el contexto de LLMs ajustados específicamente, consulta nuestros artículos sobre riesgo de modelos y LLMs ajustados y por qué los bancos abordan la IA de propósito general con precaución.

    Agenda una llamada de descubrimiento con Ertas →

    SR 11-7 fue escrito antes de que existieran los LLMs. Describe sus requisitos de gobernanza con precisión. Las instituciones que lo leen como aplicable a sus despliegues de IA — y construyen procesos HITL en consecuencia — están adelante. Las que tratan la IA como fuera del framework de riesgo de modelos están acumulando hallazgos de examen que aún no han recibido.

    Ver precios early bird → para Ertas Fine-Tuning — modelos construidos específicamente, ejecutados localmente, que tú versionas, validas y controlas.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading