Los modelos de lenguaje no piensan — solo imitan muy bien

Aunque parezcan inteligentes, los LLM no razonan, no entienden y no planifican. Solo predicen palabras. Y en tareas complejas, esa ilusión de pensamiento colapsa por completo.

Con el avance de modelos como ChatGPT, Claude, DeepSeek o Gemini, una pregunta se ha vuelto recurrente (y no sólo en círculos técnicos), de hecho me la hacen con bastante frecuencia:



¿estos sistemas (grandes modelos de lenguaje o LLM) realmente piensan?


Recordemos que «pensar» en los seres humanos debiera tener al menos los siguientes atributos (probablemente faltan varios atributos más): i) representaciones mentales internas, ii) propósito, intención y consciencia, iii) planificación deliberada, abstracción y autocorrección y iv) razonamiento causal y flexible frente a nuevas situaciones al menos.

En el caso de los LLM, parecen resolver problemas, generar explicaciones paso a paso e incluso «reflexionar» antes de responder.

La respuesta, sin embargo, es menos espectacular de lo que parece: no, no piensan o, al menos, no en el sentido en que lo hace un ser humano.


La ilusión del pensamiento

Un reciente estudio publicado, La Ilusión de Pensar (The Illusion of Thinking), el que se adjunta al final del post, escrito por investigadores de la empresa Apple, y que viene a profundizar un análisis realizado en 2024, sobre las limitaciones del razonamiento matemático de los modelos de lenguaje (GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models).

La Ilusión de Pensar, analiza modelos diseñados específicamente para tareas de razonamiento –los llamados Large Reasoning Models o LRMs, los cuales corresponden a modelos de lenguaje tradicionales (LLM) más sofisticados. El objetivo del análisis fue validar si estos modelos son capaces de realizar razonamientos complejos más allá de simplemente acertar con la respuesta final.

Las principales ideas desarrolladas en el análisis son:

  • Evaluación tradicional es insuficiente: Los benchmarks matemáticos actuales (como MATH500) están contaminados por datos del entrenamiento y no permiten observar el proceso de razonamiento, sólo la respuesta final.
  • Uso de puzzles controlados como nuevo enfoque: El estudio propone un conjunto de puzzles con dificultad ajustable (Torres de Hanoi, Salto de Fichas, Cruce del Río y Mundo de Bloques). Esto permite observar cómo evolucionan las respuestas y el razonamiento a medida que aumenta la complejidad del problema.
  • Tres regímenes de comportamiento según la complejidad
    • Baja complejidad: los modelos sin razonamiento (LLMs estándar) son más precisos y eficientes.
    • Complejidad media: los LRMs muestran ventaja al usar pensamiento encadenado (Chain of Thought).
    • Alta complejidad: ambos modelos colapsan; la precisión cae a cero.
  • Limitaciones en escalabilidad del razonamiento: Los LRMs inicialmente aumentan su esfuerzo (tokens usados) al crecer la complejidad, pero luego este esfuerzo disminuye inesperadamente, aún con presupuesto de tokens disponible. Lo que sugiere una limitación estructural en su capacidad de escalar el razonamiento.
  • Problemas en la coherencia del razonamiento: Aun cuando encuentran soluciones correctas, los modelos tienden a seguir pensando (overthinking), desperdiciando tokens. En problemas complejos, fallan en autocorregirse y no llegan a la solución.
  • Fracaso en la ejecución de algoritmos dados: Incluso cuando se les proporciona un algoritmo explícito (por ejemplo, para Torres de Hanoi), los LRMs fallan en ejecutarlo correctamente a partir de cierta complejidad. Lo que revela debilidades en su capacidad para seguir instrucciones lógicas paso a paso.
  • Comportamientos erráticos y dependientes del contexto: La calidad del razonamiento depende del tipo de problema. Por ejemplo, el modelo funciona bien en Hanoi hasta 100 movimientos, pero falla en Cruce del Río tras solo 4 pasos.  Esto sugiere que su éxito podría depender del entrenamiento previo y la familiaridad con problemas similares.

El resultado final es bastante revelador: 

  • En tareas simples o de complejidad media, los LRMs pueden ser más efectivos que los modelos estándar. 
  • Pero cuando la complejidad aumenta, todos colapsan: fallan de manera consistente, incluso si se les entrega el algoritmo correcto o se amplía su presupuesto de tokens. 
  • Peor aún, en algunos casos empiezan a «pensar menos» a medida que la tarea se vuelve más difícil.

Lo que estos modelos hacen, en el fondo, es generar texto que se parece al razonamiento. No comprenden, no planifican, no abstraen: solo predicen la siguiente palabra basada en correlaciones aprendidas a partir de enormes cantidades de texto.

El reconocido experto mundial en materias de Inteligencia Artificial, Gary Marcus, plantea a propósito de la misma investigación, la siguiente pregunta: ¿Un golpe de gracia para los LLM?


¿Por qué nos parecen tan inteligentes?

Porque imitan muy bien cómo escribimos cuando pensamos. Pueden usar frases como: “déjame revisar eso” o “si A implica B, entonces…”, pero eso no implica que estén realmente razonando. No hay comprensión ni intención detrás del texto. Solo estadística y patrones.

Este fenómeno –la ilusión de pensamiento– es poderoso, y a veces útil. Pero también puede llevarnos a sobreestimar la inteligencia de estos sistemas, y confiar en ellos para tareas que aún están muy lejos de poder manejar.


¿Y entonces?

Que un sistema sea capaz de «razonar» no significa que esté pensando. Significa que ha aprendido a simular razonamiento con un grado de eficiencia que puede ser útil… pero también profundamente limitado (son buenos imitadores).







Comparte este artículo en

Deja un comentario:

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Blog eL ABC de Alejandro Barros

Suscríbete a newsletter

En este espacio reflexiono sobre Modernización del Estado, Innovación Pública, Desarrollo Digital, tecnologías de información y otras yerbas.