
Scorecard de Evaluación de Proveedores de IA: Califica a Cada Proveedor en 6 Dimensiones de Gobernanza
Un scorecard ponderado completo para evaluar proveedores de IA en gobernanza, no solo capacidad. Cubre control de versiones, logging de auditoría, alineación estratégica, gobernanza de datos, soporte de cumplimiento y estrategia de salida.
La mayoría de las evaluaciones de proveedores de IA se enfocan en puntajes de benchmarks y rendimiento en demos. Ese es el marco equivocado para decisiones de adquisición empresarial. El modelo que puntúa mejor en MMLU en febrero puede ser diferente del modelo que estás ejecutando en noviembre — y tu proveedor puede no haberte dicho que el cambio iba a ocurrir.
La capacidad importa. Pero la gobernanza es lo que determina si una relación con un proveedor es sostenible, auditable y defendible ante reguladores. Este scorecard evalúa ambas cosas.
Por Qué los Benchmarks de Capacidad No Son Suficientes
El rendimiento de los modelos de IA no es estático. Los proveedores actualizan modelos continuamente — para reducir costos, mejorar el rendimiento en sus casos de uso objetivo, responder a preocupaciones de seguridad o cumplir con regulaciones. A menos que hayas negociado endpoints fijados en versión con compromisos contractuales de estabilidad, el modelo que evaluaste no es necesariamente el modelo que estás ejecutando en producción.
Para flujos de trabajo de misión crítica — decisiones de préstamos, soporte de triaje médico, revisión de documentos legales, detección de fraude — esto importa. Una actualización silenciosa del modelo puede cambiar el comportamiento de tu sistema, invalidar tu validación y crear una brecha de cumplimiento sin disparar ninguna alerta en tu stack de monitoreo.
Más allá de la estabilidad de versiones, la adquisición empresarial de IA necesita evaluar:
- Si tus datos se usan para entrenar su próximo modelo
- Si puedes exportar tu trabajo si necesitas irte
- Si el proveedor puede producir documentación que tus reguladores acepten
- Si el proveedor seguirá existiendo y sirviendo tu caso de uso en tres años
Este scorecard aborda todo eso.
Cómo Usar Este Scorecard
Califica cada criterio de 1 a 5 usando la guía proporcionada. Calcula el puntaje de la dimensión como el promedio de los puntajes de sus criterios. Multiplica cada puntaje de dimensión por su peso. Suma los puntajes ponderados para un total de 5.0.
Completa un scorecard por proveedor. Cuando evalúes múltiples proveedores, usa sesiones de calificación idénticas — haz que la misma persona califique a todos los proveedores en el mismo criterio antes de pasar al siguiente, para reducir el sesgo de anclaje.
Dimensión 1: Control de Versiones y Gestión de Cambios — Peso: 20%
| Criterio | 1 | 3 | 5 |
|---|---|---|---|
| ¿Endpoints fijados en versión disponibles? | Sin fijación; solo "latest" | Fijación disponible pero retención limitada | Sí, con compromisos de estabilidad multi-año |
| ¿Aviso previo antes de cambios de modelo? | Sin aviso | Algo de aviso, sin ventana definida | Más de 30 días de aviso con ventana de pruebas |
| ¿Documentación explícita de cambios de comportamiento? | Ninguna | Notas de lanzamiento, detalle mínimo | Changelog completo con ejemplos antes/después |
| ¿Capacidad de rollback si la actualización rompe tu caso de uso? | Ninguna | Rollback manual posible; sin SLA | Derecho contractual de rollback con SLA definido |
Guía de puntuación: Un proveedor que no ofrece fijación de versión puntúa 1 en el primer criterio sin importar cualquier otra cualidad. Ninguna mejora en benchmarks compensa la incapacidad de saber qué modelo está ejecutándose en tu sistema de producción.
Dimensión 2: Auditoría y Logging — Peso: 20%
| Criterio | 1 | 3 | 5 |
|---|---|---|---|
| ¿Logging detallado de entrada/salida disponible? | Sin logging | Logging básico, detalle limitado | Logs inmutables, con marca de tiempo, I/O completo |
| ¿Logs exportables para reportes de cumplimiento? | Sin exportación | Exportación manual posible | Exportación estructurada vía API |
| ¿Período de retención cumple requisitos regulatorios? | Menos de 1 año | 1-5 años | Más de 10 años (o configurable) |
| ¿Formato de log grado auditoría (a prueba de manipulación)? | No | Algunos controles de integridad | Cadena de hash o equivalente; a prueba de manipulación |
Guía de puntuación: SR 11-7 y el EU AI Act requieren logs de entradas y salidas del modelo para decisiones consecuentes. Si un proveedor no puede proporcionar logs a prueba de manipulación con retención suficiente, tendrás que construir esa infraestructura tú mismo — y no hay garantía de que el proveedor esté registrando lo que necesitas.
Dimensión 3: Alineación Estratégica — Peso: 15%
| Criterio | 1 | 3 | 5 |
|---|---|---|---|
| ¿Alineación de misión y segmento de clientes? | El proveedor sirve casos de uso opuestos | Alineación mixta | Claramente alineado con tu caso de uso y sector |
| ¿Tipos de clientes principales divulgados? | Opaco | Parcialmente divulgado | Totalmente divulgado con casos de estudio |
| ¿Compromisos públicos sobre usos que no servirán? | Ninguno | Declaraciones informales | Política clara, publicada y contractualmente vinculante |
| ¿Estabilidad financiera / estructura de gobernanza? | Alto riesgo (pre-ingresos, financiadores desconocidos) | Algunas señales de estabilidad | Finanzas auditadas, gobernanza estable, largo runway |
Guía de puntuación: Un proveedor que construye para consumidores no necesariamente construye para requisitos de cumplimiento empresarial. La desalineación estratégica significa que las funciones de gobernanza siempre serán despriorizadas. Revisa la lista publicada de clientes del proveedor, las ofertas de trabajo y el roadmap de producto — estos revelan prioridades reales más que las presentaciones de ventas.
Dimensión 4: Gobernanza de Datos — Peso: 20%
| Criterio | 1 | 3 | 5 |
|---|---|---|---|
| ¿Tus datos se usan para entrenar el modelo? | Usados por defecto, sin opt-out | Opt-out disponible | Nunca usados; confirmado en contrato con derechos de auditoría |
| ¿Opciones de residencia de datos? | Sin control regional | Algunas opciones | Control regional total, documentado y contractual |
| ¿Eliminación de datos al terminar la cuenta? | No claro | Proceso documentado, sin SLA | Documentado con SLA definido y confirmación |
| ¿Lista de subprocesadores divulgada? | No | Divulgación parcial | Lista completa con requisitos de notificación de cambios |
Guía de puntuación: Los criterios de gobernanza de datos tienen el mayor peso legal. Un proveedor que usa tus entradas como datos de entrenamiento sin opt-out es incompatible con la mayoría de las políticas de manejo de datos empresariales y muchos marcos regulatorios (GDPR, HIPAA, contextos de privilegio abogado-cliente). Obtén esto por escrito — la política de privacidad de un proveedor no es un compromiso contractual.
Dimensión 5: Soporte de Cumplimiento Regulatorio — Peso: 15%
| Criterio | 1 | 3 | 5 |
|---|---|---|---|
| ¿BAA disponible (HIPAA)? | No | Disponible pero no estándar | Formulario pre-aprobado, proceso directo |
| ¿Documentación de cumplimiento del EU AI Act? | Ninguna | Documentación parcial | Sí, en formato Anexo IV |
| ¿Soporte de documentación SR 11-7 / riesgo de modelo? | Ninguno | Alguna documentación | Materiales dedicados, receptivos a preguntas de validadores |
| ¿Auditorías de seguridad independientes (SOC 2, ISO 27001)? | Ninguna | Desactualizadas o parciales | Certificaciones actuales, disponibles para revisión |
Guía de puntuación: Los proveedores que no pueden producir documentación de cumplimiento te costarán recursos internos significativos para compensar. Antes de dar un 5, verifica que la documentación sea actual — un reporte SOC 2 de hace 18 meses puede no satisfacer a tus auditores.
Dimensión 6: Estrategia de Salida — Peso: 10%
| Criterio | 1 | 3 | 5 |
|---|---|---|---|
| ¿Trabajo de fine-tuning exportable? | Sin exportación | Exportación parcial | Exportación completa en formato abierto (GGUF, SafeTensors, etc.) |
| ¿Soporte de migración documentado? | Ninguno | Guía básica | Documentación de migración completa con SLAs |
| ¿Cláusulas de salida contractual por cambios materiales de comportamiento? | Ninguna | Compromisos informales | Disparadores contractuales definidos para derechos de salida |
| ¿Formato de API portable? | Solo propietario | Compatibilidad parcial | Compatible con OpenAI o estándar abierto equivalente |
Guía de puntuación: Los criterios de salida rutinariamente tienen peso insuficiente en evaluaciones de proveedores porque el cambio se siente distante. Modela el costo de cambio honestamente: si este proveedor cambia los términos, es adquirido o se degrada materialmente en calidad, ¿cuánto cuesta realmente la migración? Ese número debería influir directamente en cuánto peso le pones a los criterios de salida.
Interpretación de Puntajes
Calcula tu puntaje ponderado total para cada proveedor:
Puntaje Total = (D1 x 0.20) + (D2 x 0.20) + (D3 x 0.15) + (D4 x 0.20) + (D5 x 0.15) + (D6 x 0.10)
| Rango de Puntaje | Interpretación |
|---|---|
| 4.0 - 5.0 | Proceder. La postura de gobernanza es sólida. |
| 3.0 - 3.9 | Proceder con plan de mitigación. Documentar controles compensatorios para las brechas. |
| 2.0 - 2.9 | Riesgo significativo. No desplegar para casos de uso regulados o de alto riesgo sin controles compensatorios sustanciales. |
| Menor a 2.0 | No depender de este proveedor para cargas de trabajo de misión crítica. |
Cualquier puntaje de criterio individual de 1 en las Dimensiones 2 o 4 debe tratarse como un bloqueador potencial sin importar el puntaje total — estas son las áreas donde las brechas son más difíciles de compensar internamente.
Aplicando el Scorecard: Un Ejemplo Práctico
Considera tres opciones para una herramienta de soporte de elegibilidad de préstamos:
Proveedor A (API de LLM comercial principal): Fuerte en capacidad y documentación de cumplimiento (SOC 2, BAA de HIPAA disponible). Débil en fijación de versiones (aliases deprecados con solo 30 días de aviso, sin SLA de rollback). La gobernanza de datos es solo opt-out. Puntúa aproximadamente 3.2 en general — proceder con mitigación: implementar tu propio logging de entrada/salida, negociar fijación de versión, obtener el addendum de procesamiento de datos por escrito.
Proveedor B (una startup de IA más pequeña): Puntajes de benchmark excelentes, demo convincente. Sin BAA, sin documentación de Anexo IV, sin logs de auditoría, sin opciones de residencia de datos. Puntúa aproximadamente 1.8 — no es viable para un caso de uso regulado sin importar la capacidad.
Modelo propio (ajustado, auto-hospedado): Por definición, puntúa 5.0 en las Dimensiones 1, 2 y 4. Controlas la versión, posees los logs, tus datos nunca salen de tu infraestructura. El soporte de cumplimiento regulatorio (Dimensión 5) depende de tus procesos internos, no de los del proveedor. El riesgo de salida (Dimensión 6) es cero — posees los pesos.
La Línea Base del Modelo Propio
El ejercicio de puntuación hace explícito algo que es fácil de pasar por alto en comparaciones de capacidad: un modelo que posees elimina los riesgos de gobernanza más críticos por construcción.
Estabilidad de versión: tu modelo no se actualiza a menos que tú lo actualices. Logging de auditoría: tú controlas el stack de logging. Gobernanza de datos: tus datos de entrenamiento nunca salen de tu entorno. Estrategia de salida: tú tienes los pesos en un formato abierto.
Esto no significa que los modelos propios siempre sean la respuesta correcta — requieren inversión en infraestructura y experiencia de fine-tuning. Pero para casos de uso regulados donde los puntajes de gobernanza de proveedores consistentemente caen en el rango de 2.5-3.5, el costo total de los controles compensatorios frecuentemente excede el costo de poseer el modelo.
Ejecutando Este Proceso
- Identifica todos los proveedores de IA que tu organización usa o está evaluando (incluye IA embebida en productos SaaS)
- Califica cada proveedor usando este scorecard — usa el mismo evaluador para cada dimensión entre proveedores
- Documenta tu justificación de puntuación, no solo los números — los auditores querrán verla
- Para proveedores con puntaje 2.0-3.9, documenta los controles compensatorios antes del despliegue
- Re-evalúa anualmente, o inmediatamente después de cambios materiales (adquisición, cambio de política, actualización mayor de modelo)
El scorecard es una herramienta de soporte de decisiones, no un mecanismo de veto. Un 3.2 con un plan de mitigación sólido es una decisión de adquisición defendible. Un 1.8 sin plan de mitigación no lo es — y cuando algo salga mal, la ausencia de este análisis será lo primero que un auditor o regulador buscará.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

How to Evaluate AI Vendors on Governance, Not Just Capability
Capability benchmarks tell you what a model can do. Governance evaluation tells you whether you can safely depend on it for production AI. Here's the framework most teams skip.

AI Vendor Lock-In in High-Stakes Environments: The Risk Most Procurement Teams Miss
Traditional vendor lock-in is about switching costs. AI vendor lock-in in high-stakes environments is about something worse: behavioral dependency you can't audit or reverse.

AI Governance Requirements for Vendor RFPs: The Contract Language That Actually Protects You
Standard SaaS contract templates don't cover AI governance. Here are 8 provisions — with sample language — that should appear in every AI vendor agreement.