Back to blog
    Scorecard de Evaluación de Proveedores de IA: Califica a Cada Proveedor en 6 Dimensiones de Gobernanza
    vendor-evaluationai-governanceenterprise-aiprocurementscorecard

    Scorecard de Evaluación de Proveedores de IA: Califica a Cada Proveedor en 6 Dimensiones de Gobernanza

    Un scorecard ponderado completo para evaluar proveedores de IA en gobernanza, no solo capacidad. Cubre control de versiones, logging de auditoría, alineación estratégica, gobernanza de datos, soporte de cumplimiento y estrategia de salida.

    EErtas Team·

    La mayoría de las evaluaciones de proveedores de IA se enfocan en puntajes de benchmarks y rendimiento en demos. Ese es el marco equivocado para decisiones de adquisición empresarial. El modelo que puntúa mejor en MMLU en febrero puede ser diferente del modelo que estás ejecutando en noviembre — y tu proveedor puede no haberte dicho que el cambio iba a ocurrir.

    La capacidad importa. Pero la gobernanza es lo que determina si una relación con un proveedor es sostenible, auditable y defendible ante reguladores. Este scorecard evalúa ambas cosas.

    Por Qué los Benchmarks de Capacidad No Son Suficientes

    El rendimiento de los modelos de IA no es estático. Los proveedores actualizan modelos continuamente — para reducir costos, mejorar el rendimiento en sus casos de uso objetivo, responder a preocupaciones de seguridad o cumplir con regulaciones. A menos que hayas negociado endpoints fijados en versión con compromisos contractuales de estabilidad, el modelo que evaluaste no es necesariamente el modelo que estás ejecutando en producción.

    Para flujos de trabajo de misión crítica — decisiones de préstamos, soporte de triaje médico, revisión de documentos legales, detección de fraude — esto importa. Una actualización silenciosa del modelo puede cambiar el comportamiento de tu sistema, invalidar tu validación y crear una brecha de cumplimiento sin disparar ninguna alerta en tu stack de monitoreo.

    Más allá de la estabilidad de versiones, la adquisición empresarial de IA necesita evaluar:

    • Si tus datos se usan para entrenar su próximo modelo
    • Si puedes exportar tu trabajo si necesitas irte
    • Si el proveedor puede producir documentación que tus reguladores acepten
    • Si el proveedor seguirá existiendo y sirviendo tu caso de uso en tres años

    Este scorecard aborda todo eso.

    Cómo Usar Este Scorecard

    Califica cada criterio de 1 a 5 usando la guía proporcionada. Calcula el puntaje de la dimensión como el promedio de los puntajes de sus criterios. Multiplica cada puntaje de dimensión por su peso. Suma los puntajes ponderados para un total de 5.0.

    Completa un scorecard por proveedor. Cuando evalúes múltiples proveedores, usa sesiones de calificación idénticas — haz que la misma persona califique a todos los proveedores en el mismo criterio antes de pasar al siguiente, para reducir el sesgo de anclaje.


    Dimensión 1: Control de Versiones y Gestión de Cambios — Peso: 20%

    Criterio135
    ¿Endpoints fijados en versión disponibles?Sin fijación; solo "latest"Fijación disponible pero retención limitadaSí, con compromisos de estabilidad multi-año
    ¿Aviso previo antes de cambios de modelo?Sin avisoAlgo de aviso, sin ventana definidaMás de 30 días de aviso con ventana de pruebas
    ¿Documentación explícita de cambios de comportamiento?NingunaNotas de lanzamiento, detalle mínimoChangelog completo con ejemplos antes/después
    ¿Capacidad de rollback si la actualización rompe tu caso de uso?NingunaRollback manual posible; sin SLADerecho contractual de rollback con SLA definido

    Guía de puntuación: Un proveedor que no ofrece fijación de versión puntúa 1 en el primer criterio sin importar cualquier otra cualidad. Ninguna mejora en benchmarks compensa la incapacidad de saber qué modelo está ejecutándose en tu sistema de producción.


    Dimensión 2: Auditoría y Logging — Peso: 20%

    Criterio135
    ¿Logging detallado de entrada/salida disponible?Sin loggingLogging básico, detalle limitadoLogs inmutables, con marca de tiempo, I/O completo
    ¿Logs exportables para reportes de cumplimiento?Sin exportaciónExportación manual posibleExportación estructurada vía API
    ¿Período de retención cumple requisitos regulatorios?Menos de 1 año1-5 añosMás de 10 años (o configurable)
    ¿Formato de log grado auditoría (a prueba de manipulación)?NoAlgunos controles de integridadCadena de hash o equivalente; a prueba de manipulación

    Guía de puntuación: SR 11-7 y el EU AI Act requieren logs de entradas y salidas del modelo para decisiones consecuentes. Si un proveedor no puede proporcionar logs a prueba de manipulación con retención suficiente, tendrás que construir esa infraestructura tú mismo — y no hay garantía de que el proveedor esté registrando lo que necesitas.


    Dimensión 3: Alineación Estratégica — Peso: 15%

    Criterio135
    ¿Alineación de misión y segmento de clientes?El proveedor sirve casos de uso opuestosAlineación mixtaClaramente alineado con tu caso de uso y sector
    ¿Tipos de clientes principales divulgados?OpacoParcialmente divulgadoTotalmente divulgado con casos de estudio
    ¿Compromisos públicos sobre usos que no servirán?NingunoDeclaraciones informalesPolítica clara, publicada y contractualmente vinculante
    ¿Estabilidad financiera / estructura de gobernanza?Alto riesgo (pre-ingresos, financiadores desconocidos)Algunas señales de estabilidadFinanzas auditadas, gobernanza estable, largo runway

    Guía de puntuación: Un proveedor que construye para consumidores no necesariamente construye para requisitos de cumplimiento empresarial. La desalineación estratégica significa que las funciones de gobernanza siempre serán despriorizadas. Revisa la lista publicada de clientes del proveedor, las ofertas de trabajo y el roadmap de producto — estos revelan prioridades reales más que las presentaciones de ventas.


    Dimensión 4: Gobernanza de Datos — Peso: 20%

    Criterio135
    ¿Tus datos se usan para entrenar el modelo?Usados por defecto, sin opt-outOpt-out disponibleNunca usados; confirmado en contrato con derechos de auditoría
    ¿Opciones de residencia de datos?Sin control regionalAlgunas opcionesControl regional total, documentado y contractual
    ¿Eliminación de datos al terminar la cuenta?No claroProceso documentado, sin SLADocumentado con SLA definido y confirmación
    ¿Lista de subprocesadores divulgada?NoDivulgación parcialLista completa con requisitos de notificación de cambios

    Guía de puntuación: Los criterios de gobernanza de datos tienen el mayor peso legal. Un proveedor que usa tus entradas como datos de entrenamiento sin opt-out es incompatible con la mayoría de las políticas de manejo de datos empresariales y muchos marcos regulatorios (GDPR, HIPAA, contextos de privilegio abogado-cliente). Obtén esto por escrito — la política de privacidad de un proveedor no es un compromiso contractual.


    Dimensión 5: Soporte de Cumplimiento Regulatorio — Peso: 15%

    Criterio135
    ¿BAA disponible (HIPAA)?NoDisponible pero no estándarFormulario pre-aprobado, proceso directo
    ¿Documentación de cumplimiento del EU AI Act?NingunaDocumentación parcialSí, en formato Anexo IV
    ¿Soporte de documentación SR 11-7 / riesgo de modelo?NingunoAlguna documentaciónMateriales dedicados, receptivos a preguntas de validadores
    ¿Auditorías de seguridad independientes (SOC 2, ISO 27001)?NingunaDesactualizadas o parcialesCertificaciones actuales, disponibles para revisión

    Guía de puntuación: Los proveedores que no pueden producir documentación de cumplimiento te costarán recursos internos significativos para compensar. Antes de dar un 5, verifica que la documentación sea actual — un reporte SOC 2 de hace 18 meses puede no satisfacer a tus auditores.


    Dimensión 6: Estrategia de Salida — Peso: 10%

    Criterio135
    ¿Trabajo de fine-tuning exportable?Sin exportaciónExportación parcialExportación completa en formato abierto (GGUF, SafeTensors, etc.)
    ¿Soporte de migración documentado?NingunoGuía básicaDocumentación de migración completa con SLAs
    ¿Cláusulas de salida contractual por cambios materiales de comportamiento?NingunaCompromisos informalesDisparadores contractuales definidos para derechos de salida
    ¿Formato de API portable?Solo propietarioCompatibilidad parcialCompatible con OpenAI o estándar abierto equivalente

    Guía de puntuación: Los criterios de salida rutinariamente tienen peso insuficiente en evaluaciones de proveedores porque el cambio se siente distante. Modela el costo de cambio honestamente: si este proveedor cambia los términos, es adquirido o se degrada materialmente en calidad, ¿cuánto cuesta realmente la migración? Ese número debería influir directamente en cuánto peso le pones a los criterios de salida.


    Interpretación de Puntajes

    Calcula tu puntaje ponderado total para cada proveedor:

    Puntaje Total = (D1 x 0.20) + (D2 x 0.20) + (D3 x 0.15) + (D4 x 0.20) + (D5 x 0.15) + (D6 x 0.10)

    Rango de PuntajeInterpretación
    4.0 - 5.0Proceder. La postura de gobernanza es sólida.
    3.0 - 3.9Proceder con plan de mitigación. Documentar controles compensatorios para las brechas.
    2.0 - 2.9Riesgo significativo. No desplegar para casos de uso regulados o de alto riesgo sin controles compensatorios sustanciales.
    Menor a 2.0No depender de este proveedor para cargas de trabajo de misión crítica.

    Cualquier puntaje de criterio individual de 1 en las Dimensiones 2 o 4 debe tratarse como un bloqueador potencial sin importar el puntaje total — estas son las áreas donde las brechas son más difíciles de compensar internamente.


    Aplicando el Scorecard: Un Ejemplo Práctico

    Considera tres opciones para una herramienta de soporte de elegibilidad de préstamos:

    Proveedor A (API de LLM comercial principal): Fuerte en capacidad y documentación de cumplimiento (SOC 2, BAA de HIPAA disponible). Débil en fijación de versiones (aliases deprecados con solo 30 días de aviso, sin SLA de rollback). La gobernanza de datos es solo opt-out. Puntúa aproximadamente 3.2 en general — proceder con mitigación: implementar tu propio logging de entrada/salida, negociar fijación de versión, obtener el addendum de procesamiento de datos por escrito.

    Proveedor B (una startup de IA más pequeña): Puntajes de benchmark excelentes, demo convincente. Sin BAA, sin documentación de Anexo IV, sin logs de auditoría, sin opciones de residencia de datos. Puntúa aproximadamente 1.8 — no es viable para un caso de uso regulado sin importar la capacidad.

    Modelo propio (ajustado, auto-hospedado): Por definición, puntúa 5.0 en las Dimensiones 1, 2 y 4. Controlas la versión, posees los logs, tus datos nunca salen de tu infraestructura. El soporte de cumplimiento regulatorio (Dimensión 5) depende de tus procesos internos, no de los del proveedor. El riesgo de salida (Dimensión 6) es cero — posees los pesos.

    La Línea Base del Modelo Propio

    El ejercicio de puntuación hace explícito algo que es fácil de pasar por alto en comparaciones de capacidad: un modelo que posees elimina los riesgos de gobernanza más críticos por construcción.

    Estabilidad de versión: tu modelo no se actualiza a menos que tú lo actualices. Logging de auditoría: tú controlas el stack de logging. Gobernanza de datos: tus datos de entrenamiento nunca salen de tu entorno. Estrategia de salida: tú tienes los pesos en un formato abierto.

    Esto no significa que los modelos propios siempre sean la respuesta correcta — requieren inversión en infraestructura y experiencia de fine-tuning. Pero para casos de uso regulados donde los puntajes de gobernanza de proveedores consistentemente caen en el rango de 2.5-3.5, el costo total de los controles compensatorios frecuentemente excede el costo de poseer el modelo.

    Ver precios de early-bird →

    Agenda una llamada de descubrimiento con Ertas →

    Ejecutando Este Proceso

    1. Identifica todos los proveedores de IA que tu organización usa o está evaluando (incluye IA embebida en productos SaaS)
    2. Califica cada proveedor usando este scorecard — usa el mismo evaluador para cada dimensión entre proveedores
    3. Documenta tu justificación de puntuación, no solo los números — los auditores querrán verla
    4. Para proveedores con puntaje 2.0-3.9, documenta los controles compensatorios antes del despliegue
    5. Re-evalúa anualmente, o inmediatamente después de cambios materiales (adquisición, cambio de política, actualización mayor de modelo)

    El scorecard es una herramienta de soporte de decisiones, no un mecanismo de veto. Un 3.2 con un plan de mitigación sólido es una decisión de adquisición defendible. Un 1.8 sin plan de mitigación no lo es — y cuando algo salga mal, la ausencia de este análisis será lo primero que un auditor o regulador buscará.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading