Lo que el Sudoku revela sobre los límites del LL.M

Necesitamos hablar de lógica LLM. A pesar de toda la fanfarria sobre las mejoras de rendimiento, los modelos de IA más sofisticados tienden a fallar en las pruebas lógicas básicas.

En un estudio del año pasado, Sapient Intelligence descubrió que o3-mini-high, Claude 3.7 y DeepSeek R1 obtuvieron una puntuación del 0% en Sudoku-Extreme (una colección de Sudokus difíciles).

Zuzana Stamirovska

CEO y cofundador de Pathway.

La forma en que los sistemas de inteligencia artificial más poderosos abordan un rompecabezas que la mayoría de nosotros podemos resolver en un corto viaje en tren revela un límite estructural incorporado en el LLM que se espera remodele las economías y las sociedades.

Último vídeo de

Toda esa promesa no es exageración. Pero esto depende de cuestiones lingüísticas a medida que avanzamos hacia modelos creados para razonar con restricciones.

Eso es exactamente lo que la arquitectura de Transformers no puede hacer: su impacto se extiende más allá del juego en sí.

¿Cómo llegamos aquí?

Necesitamos poner esto en contexto. Las empresas detrás de los LLM más utilizados en el mundo compiten de diferentes maneras y al mismo tiempo se reúnen en torno a una ortodoxia arquitectónica. En lugar de reemplazar la arquitectura transformadora que lanzó por primera vez LLM, estas empresas han redoblado su apuesta por escalas cada vez mayores de datos de entrenamiento para hacer modelos más inteligentes y crear soluciones más inteligentes.

LLM trata cada problema como un problema de lenguaje, lo convierte en texto e intenta resolverlo prediciendo el siguiente token, paso a paso. Cada palabra en la salida de un modelo representa una dirección hacia él. Los LLM carecen de espacio para que el razonamiento interno abra múltiples posibilidades competitivas a la vez al resolver problemas.

Lo que nos lleva al Sudoku. El Sudoku se rige por reglas estrictas que son engañosamente simples. Cada dígito del uno al nueve debe aparecer exactamente una vez en cada fila, columna y cuadro de tres por tres. Verificar una cuadrícula completa es fácil: la solución se cumple o no. Pero resolver esto requiere razonar bajo las restricciones, no solo describirlas.

Y esa diferencia es donde los LLM basados en transformadores chocan contra una pared, ya que no pueden mantener múltiples rutas candidatas en paralelo. No pueden retroceder para revisar un callejón sin salida sin verbalizar cada pensamiento intermedio. Al Sudoku no le importa la fluidez con la que puedas describir las reglas. Exige que quienes acepten el desafío busquen, regresen y se unan.

Este problema es en gran medida invisible para las tareas lingüísticas, de las cuales hay muchas en la vida cotidiana, y los LLM de hoy son Excel. Pero el Sudoku no vive en el lenguaje, y la mayoría de los problemas lógicos que LLM puede resolver abren nuevos caminos.

Supera la solución

Hasta ahora, todos hemos estudiado suficientes LLM para saber esto; Son creativos. Frente a un Sudoku simple, los modelos lógicos con un mensaje lo suficientemente inteligente y acceso a herramientas de ejecución de código pueden escribir un script Python para un solucionador de Sudoku y ejecutar el código. Funciona, pero sólo si las reglas son lo suficientemente específicas como para expresarlas como un algoritmo.

El modelo no razona mediante acertijos; Esto formalizó las restricciones como un programa y cerró el problema, pero no es lo mismo que la lógica. Para problemas donde las reglas son menos estrictas y se basan en interpretaciones o cambios de contexto, esa ruta de escape está cerrada y el modelo está fuera de discusión.

El ajuste fino cuenta una historia similar. Con suficientes datos de entrenamiento predefinidos, los modelos pueden generar soluciones razonables para problemas específicos. Pero probarlos con configuraciones novedosas y el rendimiento colapsa. El modelo funcionaba con patrones superficiales, no con lógica local.

En conjunto, esto abre un agujero en una narrativa común sobre la IA en la actualidad. Se nos dice que la IA ha evolucionado desde el desarrollo de modelos especializados diseñados para un único propósito (como jugar Go o Atari) hasta modelos generales que funcionan en una variedad de problemas. El sudoku es una prueba relativamente sencilla de esa promesa.

El hecho de que los modelos más avanzados de hoy no puedan superar esto sin una solución dice algo sobre la profundidad de ese “simple” argumento. Es delgado.

Por qué es importante más allá del Sudoku

El sudoku es una prueba útil porque las habilidades que exige no son exclusivas de los rompecabezas. Algunos de los flujos de trabajo más importantes en medicina, derecho, operaciones y planificación son problemas de barreras disfrazados. En medicina, los médicos eligen terapias que equilibren simultáneamente la eficacia, los efectos secundarios, las interacciones medicamentosas y el historial del paciente. En derecho, los profesionales navegan por restricciones regulatorias, precedentes contradictorios y contextos cambiantes de los clientes. En operaciones, los equipos cierran cronogramas, cadenas de suministro y asignaciones de recursos en situaciones dinámicas.

Los modelos de IA que sólo razonan a través del lenguaje no pueden integrarse de manera significativa en este flujo de trabajo. Ahí es donde la promesa de integrar la IA en la sociedad choca con la realidad.

El camino a seguir no son más parámetros ni largas cadenas de argumentos verbales. Es un salto hacia una mejor arquitectura: una que dé a los modelos espacio para una mayor lógica interna, una memoria implícita que respalde el aprendizaje continuo y la capacidad de resolver problemas no relacionados con el lenguaje sin forzar todo a través del texto.

Piense en un gran maestro de ajedrez que cierra los ojos y juega veinte partidas a la vez, interiorizando los patrones y navegando en cada espacio de búsqueda sin hablar de cada movimiento. Esto es lo que muestra la lógica latente y lo que la arquitectura del transformador no puede proporcionar. El trabajo de AI Neo-Labs, incluida la arquitectura BDH (Dragon Hatching) de Pathway, muestra que esto se puede hacer una vez que se haya hecho una ruptura con Transformers.

El momento post-transformador

Los modelos posteriores a Transformers Frontier deben tener en cuenta que los Transformers son realmente geniales. Esto es comprensión y generación del lenguaje, al tiempo que agrega la capacidad de resolver problemas no lingüísticos que los LLM actuales no pueden manejar.

La verdadera recompensa por hacer esto es crear una IA capaz de razonar a través de restricciones localmente: capacidades que siempre son necesarias para la programación, el cumplimiento, la planificación y las operaciones.

Este es el verdadero paso hacia la AGI por el que debemos esforzarnos a continuación.

Contamos con el mejor software de automatización de TI..

Este artículo fue producido en parte Perspectiva profesional de TechRadarNuestro canal para mostrar las mejores y más brillantes mentes de la industria tecnológica actual.

Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí:

Enlace de origen

Continue Reading

Previous: Paula Abdul et Bebe Rekha sont en tête de liste des moins habillées aux American Music Awards 2026.
Next: De nombreux produits vendus sur Amazon mettent en garde contre un risque de « blessure grave »

Related Stories

Rusia agrega una brújula básica a su barato dron Molnya mientras la interferencia de satélites convierte el sistema de navegación avanzado en una costosa responsabilidad

Andruil presenta helicópteros de ataque autónomos: ¿podría el trueno ser el futuro de la guerra tal como la conocemos?

Revisión de la silla de oficina Arozi Vernaza Supersoft

You may have missed

La actriz de Hollywood Zendaya enfrentó reacciones violentas por usar obras de arte iraníes en el evento The Odyssey London.

Ford rappelle près de 388 000 véhicules en raison de sièges défectueux

Elle a tué un motard, puis son fiancé après qu’il l’ait fait sortir… maintenant, la fille la plus effrayante d’Amérique se plaint de nourriture en prison

Rusia agrega una brújula básica a su barato dron Molnya mientras la interferencia de satélites convierte el sistema de navegación avanzado en una costosa responsabilidad