Scorecard de Evaluación de Proveedores de IA: Califica a Cada Proveedor en 6 Dimensiones de Gobernanza

La mayoría de las evaluaciones de proveedores de IA se enfocan en puntajes de benchmarks y rendimiento en demos. Ese es el marco equivocado para decisiones de adquisición empresarial. El modelo que puntúa mejor en MMLU en febrero puede ser diferente del modelo que estás ejecutando en noviembre — y tu proveedor puede no haberte dicho que el cambio iba a ocurrir.

La capacidad importa. Pero la gobernanza es lo que determina si una relación con un proveedor es sostenible, auditable y defendible ante reguladores. Este scorecard evalúa ambas cosas.

Por Qué los Benchmarks de Capacidad No Son Suficientes

El rendimiento de los modelos de IA no es estático. Los proveedores actualizan modelos continuamente — para reducir costos, mejorar el rendimiento en sus casos de uso objetivo, responder a preocupaciones de seguridad o cumplir con regulaciones. A menos que hayas negociado endpoints fijados en versión con compromisos contractuales de estabilidad, el modelo que evaluaste no es necesariamente el modelo que estás ejecutando en producción.

Para flujos de trabajo de misión crítica — decisiones de préstamos, soporte de triaje médico, revisión de documentos legales, detección de fraude — esto importa. Una actualización silenciosa del modelo puede cambiar el comportamiento de tu sistema, invalidar tu validación y crear una brecha de cumplimiento sin disparar ninguna alerta en tu stack de monitoreo.

Más allá de la estabilidad de versiones, la adquisición empresarial de IA necesita evaluar:

Si tus datos se usan para entrenar su próximo modelo
Si puedes exportar tu trabajo si necesitas irte
Si el proveedor puede producir documentación que tus reguladores acepten
Si el proveedor seguirá existiendo y sirviendo tu caso de uso en tres años

Este scorecard aborda todo eso.

Cómo Usar Este Scorecard

Califica cada criterio de 1 a 5 usando la guía proporcionada. Calcula el puntaje de la dimensión como el promedio de los puntajes de sus criterios. Multiplica cada puntaje de dimensión por su peso. Suma los puntajes ponderados para un total de 5.0.

Completa un scorecard por proveedor. Cuando evalúes múltiples proveedores, usa sesiones de calificación idénticas — haz que la misma persona califique a todos los proveedores en el mismo criterio antes de pasar al siguiente, para reducir el sesgo de anclaje.

Dimensión 1: Control de Versiones y Gestión de Cambios — Peso: 20%

Criterio	1	3	5
¿Endpoints fijados en versión disponibles?	Sin fijación; solo "latest"	Fijación disponible pero retención limitada	Sí, con compromisos de estabilidad multi-año
¿Aviso previo antes de cambios de modelo?	Sin aviso	Algo de aviso, sin ventana definida	Más de 30 días de aviso con ventana de pruebas
¿Documentación explícita de cambios de comportamiento?	Ninguna	Notas de lanzamiento, detalle mínimo	Changelog completo con ejemplos antes/después
¿Capacidad de rollback si la actualización rompe tu caso de uso?	Ninguna	Rollback manual posible; sin SLA	Derecho contractual de rollback con SLA definido

Guía de puntuación: Un proveedor que no ofrece fijación de versión puntúa 1 en el primer criterio sin importar cualquier otra cualidad. Ninguna mejora en benchmarks compensa la incapacidad de saber qué modelo está ejecutándose en tu sistema de producción.

Dimensión 2: Auditoría y Logging — Peso: 20%

Criterio	1	3	5
¿Logging detallado de entrada/salida disponible?	Sin logging	Logging básico, detalle limitado	Logs inmutables, con marca de tiempo, I/O completo
¿Logs exportables para reportes de cumplimiento?	Sin exportación	Exportación manual posible	Exportación estructurada vía API
¿Período de retención cumple requisitos regulatorios?	Menos de 1 año	1-5 años	Más de 10 años (o configurable)
¿Formato de log grado auditoría (a prueba de manipulación)?	No	Algunos controles de integridad	Cadena de hash o equivalente; a prueba de manipulación

Guía de puntuación: SR 11-7 y el EU AI Act requieren logs de entradas y salidas del modelo para decisiones consecuentes. Si un proveedor no puede proporcionar logs a prueba de manipulación con retención suficiente, tendrás que construir esa infraestructura tú mismo — y no hay garantía de que el proveedor esté registrando lo que necesitas.

Dimensión 3: Alineación Estratégica — Peso: 15%

Criterio	1	3	5
¿Alineación de misión y segmento de clientes?	El proveedor sirve casos de uso opuestos	Alineación mixta	Claramente alineado con tu caso de uso y sector
¿Tipos de clientes principales divulgados?	Opaco	Parcialmente divulgado	Totalmente divulgado con casos de estudio
¿Compromisos públicos sobre usos que no servirán?	Ninguno	Declaraciones informales	Política clara, publicada y contractualmente vinculante
¿Estabilidad financiera / estructura de gobernanza?	Alto riesgo (pre-ingresos, financiadores desconocidos)	Algunas señales de estabilidad	Finanzas auditadas, gobernanza estable, largo runway

Guía de puntuación: Un proveedor que construye para consumidores no necesariamente construye para requisitos de cumplimiento empresarial. La desalineación estratégica significa que las funciones de gobernanza siempre serán despriorizadas. Revisa la lista publicada de clientes del proveedor, las ofertas de trabajo y el roadmap de producto — estos revelan prioridades reales más que las presentaciones de ventas.

Dimensión 4: Gobernanza de Datos — Peso: 20%

Criterio	1	3	5
¿Tus datos se usan para entrenar el modelo?	Usados por defecto, sin opt-out	Opt-out disponible	Nunca usados; confirmado en contrato con derechos de auditoría
¿Opciones de residencia de datos?	Sin control regional	Algunas opciones	Control regional total, documentado y contractual
¿Eliminación de datos al terminar la cuenta?	No claro	Proceso documentado, sin SLA	Documentado con SLA definido y confirmación
¿Lista de subprocesadores divulgada?	No	Divulgación parcial	Lista completa con requisitos de notificación de cambios

Guía de puntuación: Los criterios de gobernanza de datos tienen el mayor peso legal. Un proveedor que usa tus entradas como datos de entrenamiento sin opt-out es incompatible con la mayoría de las políticas de manejo de datos empresariales y muchos marcos regulatorios (GDPR, HIPAA, contextos de privilegio abogado-cliente). Obtén esto por escrito — la política de privacidad de un proveedor no es un compromiso contractual.

Dimensión 5: Soporte de Cumplimiento Regulatorio — Peso: 15%

Criterio	1	3	5
¿BAA disponible (HIPAA)?	No	Disponible pero no estándar	Formulario pre-aprobado, proceso directo
¿Documentación de cumplimiento del EU AI Act?	Ninguna	Documentación parcial	Sí, en formato Anexo IV
¿Soporte de documentación SR 11-7 / riesgo de modelo?	Ninguno	Alguna documentación	Materiales dedicados, receptivos a preguntas de validadores
¿Auditorías de seguridad independientes (SOC 2, ISO 27001)?	Ninguna	Desactualizadas o parciales	Certificaciones actuales, disponibles para revisión

Guía de puntuación: Los proveedores que no pueden producir documentación de cumplimiento te costarán recursos internos significativos para compensar. Antes de dar un 5, verifica que la documentación sea actual — un reporte SOC 2 de hace 18 meses puede no satisfacer a tus auditores.

Dimensión 6: Estrategia de Salida — Peso: 10%

Criterio	1	3	5
¿Trabajo de fine-tuning exportable?	Sin exportación	Exportación parcial	Exportación completa en formato abierto (GGUF, SafeTensors, etc.)
¿Soporte de migración documentado?	Ninguno	Guía básica	Documentación de migración completa con SLAs
¿Cláusulas de salida contractual por cambios materiales de comportamiento?	Ninguna	Compromisos informales	Disparadores contractuales definidos para derechos de salida
¿Formato de API portable?	Solo propietario	Compatibilidad parcial	Compatible con OpenAI o estándar abierto equivalente

Guía de puntuación: Los criterios de salida rutinariamente tienen peso insuficiente en evaluaciones de proveedores porque el cambio se siente distante. Modela el costo de cambio honestamente: si este proveedor cambia los términos, es adquirido o se degrada materialmente en calidad, ¿cuánto cuesta realmente la migración? Ese número debería influir directamente en cuánto peso le pones a los criterios de salida.

Interpretación de Puntajes

Calcula tu puntaje ponderado total para cada proveedor:

Puntaje Total = (D1 x 0.20) + (D2 x 0.20) + (D3 x 0.15) + (D4 x 0.20) + (D5 x 0.15) + (D6 x 0.10)

Rango de Puntaje	Interpretación
4.0 - 5.0	Proceder. La postura de gobernanza es sólida.
3.0 - 3.9	Proceder con plan de mitigación. Documentar controles compensatorios para las brechas.
2.0 - 2.9	Riesgo significativo. No desplegar para casos de uso regulados o de alto riesgo sin controles compensatorios sustanciales.
Menor a 2.0	No depender de este proveedor para cargas de trabajo de misión crítica.

Cualquier puntaje de criterio individual de 1 en las Dimensiones 2 o 4 debe tratarse como un bloqueador potencial sin importar el puntaje total — estas son las áreas donde las brechas son más difíciles de compensar internamente.

Aplicando el Scorecard: Un Ejemplo Práctico

Considera tres opciones para una herramienta de soporte de elegibilidad de préstamos:

Proveedor A (API de LLM comercial principal): Fuerte en capacidad y documentación de cumplimiento (SOC 2, BAA de HIPAA disponible). Débil en fijación de versiones (aliases deprecados con solo 30 días de aviso, sin SLA de rollback). La gobernanza de datos es solo opt-out. Puntúa aproximadamente 3.2 en general — proceder con mitigación: implementar tu propio logging de entrada/salida, negociar fijación de versión, obtener el addendum de procesamiento de datos por escrito.

Proveedor B (una startup de IA más pequeña): Puntajes de benchmark excelentes, demo convincente. Sin BAA, sin documentación de Anexo IV, sin logs de auditoría, sin opciones de residencia de datos. Puntúa aproximadamente 1.8 — no es viable para un caso de uso regulado sin importar la capacidad.

Modelo propio (ajustado, auto-hospedado): Por definición, puntúa 5.0 en las Dimensiones 1, 2 y 4. Controlas la versión, posees los logs, tus datos nunca salen de tu infraestructura. El soporte de cumplimiento regulatorio (Dimensión 5) depende de tus procesos internos, no de los del proveedor. El riesgo de salida (Dimensión 6) es cero — posees los pesos.

La Línea Base del Modelo Propio

El ejercicio de puntuación hace explícito algo que es fácil de pasar por alto en comparaciones de capacidad: un modelo que posees elimina los riesgos de gobernanza más críticos por construcción.

Estabilidad de versión: tu modelo no se actualiza a menos que tú lo actualices. Logging de auditoría: tú controlas el stack de logging. Gobernanza de datos: tus datos de entrenamiento nunca salen de tu entorno. Estrategia de salida: tú tienes los pesos en un formato abierto.

Esto no significa que los modelos propios siempre sean la respuesta correcta — requieren inversión en infraestructura y experiencia de fine-tuning. Pero para casos de uso regulados donde los puntajes de gobernanza de proveedores consistentemente caen en el rango de 2.5-3.5, el costo total de los controles compensatorios frecuentemente excede el costo de poseer el modelo.

Ver precios de early-bird →

Agenda una llamada de descubrimiento con Ertas →

Ejecutando Este Proceso

Identifica todos los proveedores de IA que tu organización usa o está evaluando (incluye IA embebida en productos SaaS)
Califica cada proveedor usando este scorecard — usa el mismo evaluador para cada dimensión entre proveedores
Documenta tu justificación de puntuación, no solo los números — los auditores querrán verla
Para proveedores con puntaje 2.0-3.9, documenta los controles compensatorios antes del despliegue
Re-evalúa anualmente, o inmediatamente después de cambios materiales (adquisición, cambio de política, actualización mayor de modelo)

El scorecard es una herramienta de soporte de decisiones, no un mecanismo de veto. Un 3.2 con un plan de mitigación sólido es una decisión de adquisición defendible. Un 1.8 sin plan de mitigación no lo es — y cuando algo salga mal, la ausencia de este análisis será lo primero que un auditor o regulador buscará.