Marco de gobernanza de IA para servicios financieros: SR 11-7, riesgo de modelos y expectativas regulatorias

La gobernanza de IA en servicios financieros tiene una base regulatoria bien establecida. SR 11-7 — la guía de la Reserva Federal sobre gestión de riesgo de modelos — ha gobernado la validación de modelos cuantitativos desde 2011 y aplica directamente a los sistemas de IA usados en decisiones financieras consecuentes. El Boletín OCC 2011-12 extiende expectativas equivalentes a los bancos nacionales. La guía de préstamos justos del CFPB aplica a la IA usada en decisiones de crédito. Y la clasificación de alto riesgo del EU AI Act captura la mayoría de la IA financiera que afecta los derechos del consumidor.

Esta no es un área regulatoria emergente. Los reguladores financieros tienen expectativas claras. Los examinadores están preguntando sobre la gobernanza de IA. La pregunta no es si tu IA necesita un marco de gobernanza — es si tu marco cumple el estándar regulatorio.

SR 11-7: La base de gestión de riesgo de modelos

SR 11-7 define un modelo como "un método, sistema o enfoque cuantitativo que aplica teorías, técnicas y supuestos estadísticos, económicos, financieros o matemáticos para procesar datos de entrada en estimaciones cuantitativas." La mayoría de los sistemas de IA usados en funciones de crédito, riesgo, trading y cumplimiento caen directamente dentro de esta definición.

Los tres requisitos de SR 11-7 aplican a los modelos de IA:

Desarrollo e implementación de modelos: El banco debe entender la solidez conceptual del modelo, la calidad de los datos usados para desarrollarlo, las pruebas realizadas y las limitaciones. Para modelos de IA, esto significa documentar la procedencia de los datos de entrenamiento, la metodología de validación, las métricas de rendimiento y los modos de falla conocidos — no solo el rendimiento en benchmarks.

Validación de modelos: Una revisión independiente de la solidez conceptual del modelo, la calidad de los datos y el rendimiento. Críticamente, la función de validación debe ser independiente de las funciones de desarrollo y uso del modelo. SR 11-7 llama a esto "desafío efectivo" — la capacidad de cuestionar supuestos del modelo, elecciones de datos y afirmaciones de rendimiento sin presión organizacional para validar. Los modelos de IA requieren la misma independencia que los modelos cuantitativos tradicionales.

Gobernanza y controles: Supervisión de la gestión del riesgo de modelos en toda la organización. Esto incluye mantener un inventario de modelos, rastrear cambios de modelos, definir niveles de riesgo (alto/medio/bajo) basados en materialidad y asegurar que los cambios de modelos pasen por la revisión apropiada antes del despliegue.

Requisitos de inventario de modelos

Todo modelo de IA usado en decisiones financieras consecuentes debe estar en tu inventario de modelos. "Consecuente" significa que la salida influye en decisiones de crédito, evaluaciones de riesgo, cálculos de capital regulatorio, decisiones de trading o recomendaciones dirigidas al cliente.

Para cada modelo, el inventario debería registrar:

Nombre e identificador único del modelo
Propietario (línea de negocio) y desarrollador (interno o proveedor)
Propósito del modelo y las decisiones que informa
Nivel de riesgo (alto/medio/bajo) basado en materialidad y complejidad
Tipo de modelo (estadístico, ML, deep learning, LLM)
Descripción y fecha de los datos de entrenamiento
Fecha y resultado de la última validación
Estado actual (activo / en revisión / retirado)
Limitaciones conocidas y condiciones de uso aprobadas
Relación con proveedor externo si aplica (incluyendo obligaciones de documentación del modelo del proveedor)

Los reguladores esperan que el inventario de modelos esté completo, actualizado y accesible para los examinadores. Las brechas en el inventario — modelos en producción que no están documentados — son un hallazgo significativo de examinación.

Desafíos de gobernanza específicos de IA en servicios financieros

SR 11-7 fue escrito para modelos estadísticos. Los sistemas de IA y machine learning presentan desafíos de gobernanza adicionales que la guía de 2011 no anticipó completamente, y en los que los examinadores están cada vez más enfocados.

Explicabilidad: Los modelos estadísticos tradicionales (regresión logística, modelos de scorecard) producen salidas interpretables — puedes rastrear una decisión de crédito a variables de entrada específicas y sus coeficientes. Muchos modelos de IA, particularmente deep learning y modelos de lenguaje grandes, no producen este tipo de explicabilidad de forma nativa. Para decisiones de crédito al consumidor, ECOA y la Regulación B requieren avisos de acción adversa que identifiquen razones específicas de la denegación. Los sistemas de IA usados en decisiones de crédito deben producir explicaciones que cumplan este estándar, lo cual puede requerir herramientas adicionales (valores SHAP, LIME, explicaciones basadas en atención) sobre el modelo base.

Cambio distribucional: Los modelos de IA entrenados con datos históricos pueden comportarse diferente cuando las condiciones de mercado, la demografía de clientes o las condiciones económicas cambian. Un modelo de crédito entrenado con datos pre-pandemia tuvo mal rendimiento durante la pandemia — pero la falla fue gradual y no inmediatamente visible desde métricas de rendimiento agregadas. La gobernanza de IA financiera debe incluir monitoreo de cambio distribucional: rastrear si la distribución de las entradas al modelo está derivando de la distribución de entrenamiento, como indicador adelantado de degradación del rendimiento.

Opacidad de modelos de proveedores: Muchos productos de IA de servicios financieros están construidos sobre modelos gestionados por proveedores donde la institución no tiene acceso completo a los datos de entrenamiento, arquitectura del modelo o resultados de validación. SR 11-7 requiere que la institución realice la debida diligencia apropiada sobre los modelos de proveedores y no puede delegar completamente la gestión de riesgo de modelos al proveedor. Si tu proveedor de IA no puede proporcionar documentación suficiente del modelo, no puedes validar el modelo según los estándares de SR 11-7 — y puede que no puedas usarlo para decisiones consecuentes.

Gestión de cambios de modelo: Las APIs de IA en la nube actualizan sus modelos sin procesos formales de control de cambios equivalentes a lo que SR 11-7 requiere. Cuando un proveedor de API actualiza el modelo detrás de tu endpoint, puedes tener un modelo diferente en producción del que fue validado. Esto es una falla de gestión de riesgo de modelos — estás operando un modelo no validado. Las disposiciones contractuales que requieren notificación de cambios y ventanas de prueba abordan esto, o la propiedad del modelo lo elimina por completo.

El requisito de desafío efectivo

El requisito de desafío efectivo de SR 11-7 es la estructura de gobernanza más comúnmente violada en los despliegues de IA. El equipo que construye o usa el modelo no debería ser el equipo que lo valida. El validador debe tener:

Independencia organizacional del equipo de desarrollo del modelo
Acceso a la documentación del modelo, datos de entrenamiento y registros de rendimiento
Autoridad para requerir cambios en el modelo o retirar la aprobación
Recursos para realizar pruebas independientes significativas

Para sistemas de IA, el desafío efectivo requiere que los validadores puedan re-ejecutar el modelo con datos de prueba independientes, entender el pipeline de entrenamiento lo suficiente para identificar problemas de solidez conceptual y evaluar el rendimiento a través de subgrupos demográficos para propósitos de préstamos justos.

Implementación práctica: define la función de validación claramente (grupo interno de riesgo de modelos, validador externo o combinación). Define qué documentación debe proporcionar el equipo de desarrollo al validador. Establece un cronograma de validación por nivel de riesgo (modelos de alto riesgo: anual; medio: bienal). Documenta hallazgos de validación, respuestas de la gerencia y cronogramas de remediación.

Préstamos justos y sesgo algorítmico

La IA usada en decisiones de crédito está sujeta a ECOA (Ley de Igualdad de Oportunidades de Crédito) y la Ley de Vivienda Justa, que prohíben la discriminación crediticia basada en características protegidas. El CFPB y los reguladores bancarios federales esperan que las instituciones financieras monitoreen los modelos de crédito de IA por impacto disparejo — cuando un modelo produce resultados que perjudican desproporcionadamente a grupos protegidos, incluso sin intención discriminatoria.

La gobernanza de préstamos justos para modelos de IA requiere:

Pruebas de impacto disparejo: Antes del despliegue y a intervalos regulares, probar las salidas del modelo a través de clases protegidas (raza/etnicidad, sexo, origen nacional, edad) para identificar resultados desproporcionados. El umbral para "impacto disparejo" sigue precedente de préstamos justos — típicamente un ratio de impacto disparejo del 80% o superior activa una revisión.

Análisis de variables proxy: Los modelos de IA pueden aprender a usar variables proxy (código postal, nombre, patrones de compra) que se correlacionan con características protegidas. La gobernanza debe incluir análisis de si el modelo está efectivamente usando características prohibidas a través de proxies.

Explicación de acción adversa: Asegurar que el modelo pueda producir avisos de acción adversa que identifiquen razones específicas y precisas para la denegación de crédito según lo requiere la Regulación B. Las explicaciones genéricas ("factores algorítmicos") pueden no cumplir el estándar regulatorio.

Monitoreo de rendimiento por subgrupos: Rastrear el rendimiento del modelo (precisión, tasa de falsos positivos, tasa de falsos negativos) separadamente por subgrupo demográfico como parte del monitoreo continuo. El rendimiento divergente entre grupos es una señal de sesgo.

Requisitos humano-en-el-loop para IA financiera

Para decisiones financieras de alto riesgo, las estructuras humano-en-el-loop son tanto un requisito de gobernanza como una práctica de gestión de riesgos.

Decisiones de crédito: Las decisiones de crédito automatizadas en el margen (solicitantes fronterizos) deberían incluir revisión humana. Define el rango de puntuación o nivel de riesgo donde se requiere revisión humana. Las decisiones automatizadas en los extremos (claramente aprobables o claramente rechazables) presentan menor riesgo; es la población fronteriza donde los errores de IA son más probables y más consecuentes.

Riesgo de mercado y trading: Los sistemas de trading asistidos por IA deberían tener mecanismos de supervisión humana que puedan identificar e interrumpir comportamiento anómalo. El Flash Crash de 2010 es el caso de referencia — sistemas automatizados operando sin supervisión humana significativa pueden amplificar la volatilidad del mercado rápidamente.

Fraude y AML: Las alertas de fraude generadas por IA y los reportes de actividad sospechosa AML requieren revisión humana antes de la presentación del Reporte de Actividad Sospechosa (SAR). El requisito BSA de revisión significativa aplica independientemente de cómo se generó la alerta.

Monitoreo de salidas del modelo: Asignar responsabilidad para revisar la calidad de las salidas del modelo de IA a una función específica. Esto es diferente de la validación — es monitoreo operacional continuo que detecta degradación del rendimiento entre ciclos formales de validación.

Especificación de rastro de auditoría

Los rastros de auditoría de IA de servicios financieros deben satisfacer tanto la gestión interna de riesgo de modelos como los requisitos de examinación regulatoria. Campos mínimos por consulta de IA para decisiones consecuentes:

Campo	Valor
ID de decisión	Único por solicitud o transacción
Marca de tiempo	UTC
ID de modelo	Versión específica del modelo del inventario
Resumen de entrada	Variables clave que impulsaron la salida (valores SHAP para modelos de crédito)
Salida del modelo	Puntuación, recomendación o clasificación
Resultado de decisión	Aprobado / Denegado / Referido para revisión
Revisor humano	Si aplica, identidad del revisor y decisión
Códigos de acción adversa	Para denegaciones de crédito

Retención: ECOA requiere retención de registros de solicitudes de crédito por 25 meses; registros BSA por 5 años. Los registros de decisiones de IA deberían coincidir con el requisito de retención de la transacción subyacente.

Debida diligencia de modelos de proveedores

Para proveedores de IA cuyos modelos se usan en decisiones financieras consecuentes, SR 11-7 requiere documentación que tu institución no puede obtener completamente de proveedores de caja negra. Como mínimo, solicita:

Documentación de desarrollo del modelo (metodología, descripción de datos de entrenamiento, historial de validación)
Métricas de rendimiento por subgrupo demográfico para modelos relevantes de préstamos justos
Informes de validación de terceros si están disponibles
Prácticas de manejo y seguridad de datos (SOC 2, ISO 27001)
Proceso de notificación de cambios y prácticas de control de versiones
Compromiso contractual de proporcionar documentación del modelo para propósitos de examinación

Si el proveedor no puede proporcionar documentación adecuada para la gestión de riesgo de modelos, no puedes usar ese modelo para decisiones reguladas por SR 11-7. Esto no es negociable con los examinadores.

La ventaja de propiedad de modelos

Para instituciones financieras que poseen sus modelos ajustados, varios desafíos de gobernanza de SR 11-7 se simplifican sustancialmente:

Gestión de cambios: Las versiones de modelos están bajo tu control. Tú decides cuándo actualizar. La validación se activa por tu decisión, no por la actualización de API de un proveedor.
Completitud de documentación: Tienes acceso a los datos de entrenamiento, arquitectura del modelo y métricas de rendimiento. La documentación de validación puede estar completa.
Explicabilidad: Puedes instrumentar el modelo con herramientas de explicabilidad apropiadas para tu caso de uso.
Rastro de auditoría: La inferencia se ejecuta en tu infraestructura, integrada con tu registro de auditoría existente.

La sobrecarga de gobernanza de modelos propios es mayor que usar una API en la nube — pero es el tipo correcto de sobrecarga, alineada con los requisitos de SR 11-7 en vez de en tensión con ellos.

Agenda una llamada de descubrimiento con Ertas →

Ertas Data Suite proporciona rastros de auditoría completos, registro a nivel de operador e inferencia on-premise para organizaciones de servicios financieros donde la soberanía de datos y la documentación de modelos no son negociables. Para el pipeline de fine-tuning, Ertas Studio maneja el entrenamiento con tus datos y la exportación a formato GGUF listo para despliegue.

Marco de gobernanza de IA para servicios financieros: SR 11-7, riesgo de modelos y expectativas regulatorias

SR 11-7: La base de gestión de riesgo de modelos

Requisitos de inventario de modelos

Desafíos de gobernanza específicos de IA en servicios financieros

El requisito de desafío efectivo

Préstamos justos y sesgo algorítmico

Requisitos humano-en-el-loop para IA financiera

Especificación de rastro de auditoría

Debida diligencia de modelos de proveedores

La ventaja de propiedad de modelos

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

AI Governance Framework for Healthcare: HIPAA, FDA SaMD, and Clinical Oversight Requirements

AI Governance Framework for Law Firms: Privilege, Supervision, and Model Accountability

AI Governance Framework for Construction and Engineering: Safety, Liability, and Professional Accountability