DeepSeek V4
Líder de pesos abiertos; muy por debajo de GPT-5.5 (85% en ARC-AGI-2)
El Abstraction and Reasoning Corpus de François Chollet: un benchmark de acertijos de reconocimiento de patrones visuales diseñado para evaluar la inteligencia fluida. ARC-AGI-2 y ARC-AGI-3 suceden al ARC original, y los modelos de frontera siguen puntuando muy por debajo de la línea base humana.
ARC-AGI (Abstraction and Reasoning Corpus, variante Artificial General Intelligence) es un benchmark de acertijos de reconocimiento de patrones visuales diseñado por François Chollet para evaluar la inteligencia fluida: la capacidad de resolver problemas novedosos sin depender de patrones memorizados. Cada problema proporciona algunos ejemplos de pares entrada-salida de una transformación visual; el modelo debe inferir la regla de transformación y aplicarla a una nueva entrada. Las transformaciones están diseñadas para ser resolubles por humanos (la línea base humana típica es de ~80%), pero resistentes a la memorización o al pattern-matching a partir de los datos de entrenamiento.
La familia de benchmarks ha evolucionado a través de varias versiones: ARC original (que ahora se considera resuelto por modelos de frontera con un andamiaje extenso), ARC-AGI-2 (estándar actual, diseñado para ser más difícil) y ARC-AGI-3 (la versión más reciente, con dificultad mantenida). El benchmark se posiciona como una medida de capacidad que se transfiere genuinamente a problemas novedosos, en lugar de capacidad obtenida por exposición a datos de entrenamiento — convirtiéndolo en un complemento particularmente útil para benchmarks que pueden sufrir contaminación.
Cada problema proporciona de 2 a 5 pares entrada-salida de ejemplo que muestran una transformación visual, y luego una entrada de 'prueba'. El modelo debe producir la salida de prueba correcta. Las transformaciones implican operaciones como reflexión, rotación, sustitución de colores, reconocimiento de formas, conteo y diversas combinaciones de estas. La puntuación es el porcentaje de problemas en los que el modelo produce la salida exactamente correcta.
La mayoría de las evaluaciones actuales de ARC-AGI implican un andamiaje sustancial alrededor del modelo: agentes de generación de código que producen programas en Python que implementan la transformación, múltiples estrategias de muestreo, agentes verificadores y enfoques similares. Las puntuaciones reportadas suelen incluir la contribución del andamiaje; las puntuaciones del modelo puro sin andamiaje son sustancialmente más bajas. Los organizadores de ARC Prize mantienen un ranking público de rendimiento humano vs. modelo con varios conjuntos de reglas.
Líder de pesos abiertos; muy por debajo de GPT-5.5 (85% en ARC-AGI-2)
Las puntuaciones de ARC-AGI siguen siendo notables porque los modelos de frontera, a pesar de su enorme cantidad de parámetros y de cómputo de entrenamiento, siguen puntuando muy por debajo de las líneas base humanas en las versiones más difíciles. A abril de 2026, GPT-5.5 lidera ARC-AGI-2 con un 85% (publicado el 24 de abril); otros modelos de frontera puntúan más bajo. La línea base humana en ARC-AGI-2 se reporta típicamente como un 90%+. Para los modelos de pesos abiertos, las puntuaciones de ARC-AGI son generalmente más bajas que para los modelos propietarios: es un benchmark en el que el andamiaje pesado y el muestreo extensivo importan sustancialmente. ARC-AGI es un complemento útil para otros benchmarks porque evalúa específicamente una capacidad que no debería poderse mejorar mediante la inclusión en datos de entrenamiento. Un buen rendimiento en ARC-AGI es una señal creíble de generalización, aunque las puntuaciones absolutas deben interpretarse en el contexto del andamiaje utilizado.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.