Qwen 3.5
Líder de pesos abiertos
Una versión más difícil del benchmark original MMLU: preguntas de conocimiento y razonamiento en múltiples materias con 10 opciones de respuesta en lugar de 4, diseñada para abordar la saturación y la contaminación del MMLU clásico en la frontera.
MMLU-Pro es un sucesor más difícil y riguroso del benchmark original Massive Multitask Language Understanding (MMLU). Cubre las mismas 57 áreas temáticas — desde matemáticas elementales hasta derecho profesional o medicina clínica — pero con varias modificaciones diseñadas para hacer el benchmark más discriminativo en la frontera: las preguntas tienen 10 opciones de respuesta en lugar de 4 (reduciendo la línea base de adivinación aleatoria), se incluyen más preguntas intensivas en razonamiento y el banco de preguntas ha sido cuidadosamente curado para reducir los problemas de contaminación que afectaban al MMLU clásico.
MMLU-Pro es ahora el sustituto estándar del MMLU clásico en contextos de investigación y rankings. El MMLU clásico se considera saturado: los modelos de frontera obtienen puntuaciones del 90%+ y las diferencias entre los mejores modelos están dentro del ruido. MMLU-Pro extiende lo suficiente la tabla como para ofrecer una diferenciación significativa, y el formato más difícil lo hace más representativo de la capacidad real de razonamiento.
Cada pregunta es un problema de opción múltiple de una de las 57 áreas temáticas, con 10 opciones de respuesta (de la A a la J). Los modelos se puntúan por el porcentaje de preguntas que responden correctamente. La puntuación se reporta normalmente como una única puntuación compuesta a través de todas las áreas temáticas, aunque las puntuaciones por materia pueden revelar fortalezas interesantes específicas de cada modelo.
El formato de 10 opciones tiene dos efectos: reduce la línea base de adivinación aleatoria del 25% al 10% y hace que las preguntas sean más difíciles al exigir que el modelo discrimine entre más distractores plausibles. Ambos efectos hacen de MMLU-Pro una evaluación más discriminativa en el extremo alto del espectro de capacidad.
Las puntuaciones de MMLU-Pro en el rango del 80%+ indican una sólida capacidad de conocimiento general y razonamiento. El líder actual entre modelos de pesos abiertos es Qwen 3.5 con 84.9%, y los modelos propietarios de frontera puntúan ligeramente por encima. Comparado con el MMLU clásico (donde la mayoría de modelos insignia puntúan por encima del 90%), MMLU-Pro ofrece una mejor diferenciación en el extremo alto. Para evaluar la capacidad general de un modelo en áreas temáticas diversas, MMLU-Pro es ahora el benchmark estándar a consultar. Como todos los benchmarks de opción múltiple, MMLU-Pro no captura ciertas dimensiones de capacidad — seguimiento de instrucciones, salida estructurada, uso de herramientas, recuperación en contexto largo — que importan en el despliegue en producción pero requieren evaluaciones distintas.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.