¿Pueden los Modelos de Lenguajes Razonar?
No—o, al menos, no del todo. Y quizá nunca puedan.
Adaptado del original con permiso explícito del autor.
Los Modelos Grandes de Lenguaje (LLMs), como ChatGPT, Gemini o Claude, nos han dejado con la boca abierta. Pueden escribir poemas, generar código, resumir textos y mantener conversaciones que parecen sorprendentemente humanas. Esto ha llevado a una pregunta inevitable: ¿están estas IAs empezando a "razonar"?
Cada vez más, vemos modelos que se anuncian como "modelos de razonamiento". La idea es que no solo responden, sino que "piensan" los pasos intermedios para llegar a una solución, imitando el proceso mental humano. Y aunque sus resultados en problemas complejos son impresionantes, fallan constantemente en tareas que requieren un razonamiento lógico y formal estricto.
Esto nos obliga a preguntarnos: ¿es solo cuestión de tiempo y más datos para que razonen perfectamente? ¿O existe una barrera fundamental en su diseño que se lo impide? En este artículo, argumentaremos que, debido a su naturaleza, los LLMs actuales tienen limitaciones intrínsecas que les impiden, y probablemente siempre les impedirán, dominar el razonamiento formal.
Primero, ¿de qué "razonamiento" estamos hablando?
"Razonar" es una palabra con muchos matices. Existe el razonamiento de sentido común, el analógico, e incluso el emocional. Sin embargo, en el campo de la inteligencia artificial, cuando hablamos de razonamiento, nos referimos a algo mucho más específico y medible: el razonamiento deductivo.
Piensa en las matemáticas o en Sherlock Holmes. El razonamiento deductivo es la capacidad de partir de unas premisas (datos iniciales) y aplicar reglas lógicas estrictas para llegar a una conclusión que es indudablemente verdadera. No hay lugar para la ambigüedad.
Así que, cuando decimos que "los LLMs no pueden razonar", no estamos haciendo un juicio de valor sobre su inteligencia general. Nos referimos a que son incapaces de ejecutar este tipo de deducción lógica de manera fiable.
¡Pero los humanos tampoco somos lógicos!
Es cierto, los humanos somos a menudo irracionales. Sin embargo, usar esto como excusa para los fallos de la IA es una falacia.
Los humanos sí podemos razonar formalmente: Aunque nos cueste, nuestro cerebro tiene la capacidad de aprender y aplicar la lógica deductiva. Lo demuestran dos milenios de matemáticas y ciencia.
No medimos la tecnología con la misma vara: No aceptaríamos un avión que a veces se cae porque "los humanos no podemos volar", o una calculadora que a veces suma mal porque "la gente se equivoca". A la tecnología le exigimos fiabilidad. Para el razonamiento lógico, ya existen sistemas informáticos (llamados "SAT solvers") que son prácticamente perfectos y rapidísimos. El listón ya está muy alto.
El objetivo es que los LLMs puedan usar el lenguaje natural para acceder a este tipo de razonamiento perfecto, no que simplemente sean "tan buenos como un humano distraído".
Limitación #1: La máquina de probabilidades
La primera barrera, y la más importante, es la naturaleza estocástica (basada en probabilidades) de los LLMs. Un LLM no "entiende" el mundo. Lo que hace es predecir cuál es la siguiente palabra más probable en una secuencia, basándose en los miles de millones de textos con los que fue entrenado.
El problema es que la lógica no funciona con probabilidades, sino con certezas. Un razonamiento es correcto o incorrecto. No puede ser "más o menos plausible". Los LLMs confunden la plausibilidad con la corrección. Si una frase se parece a las frases correctas que vio en su entrenamiento, la considerará "correcta". Pero en el mundo de la lógica, una afirmación falsa puede parecerse mucho a una verdadera. Esta es la raíz de las famosas "alucinaciones": el modelo genera una respuesta que es estadísticamente plausible, pero factualmente incorrecta.
El eslabón perdido: La validación
Aquí hay una distinción clave. Otros sistemas expertos en lógica también usan la aleatoriedad, pero de una forma muy diferente. La usan para explorar de forma creativa posibles caminos hacia una solución. Sin embargo, una vez que encuentran un camino candidato, aplican un proceso de validación 100% determinista y riguroso para verificar si la solución es correcta.
Un LLM carece de este paso de validación fiable. Usa su mismo motor probabilístico tanto para generar la respuesta como para revisarla. El autor del artículo original lo explica con una genial analogía: si pones a un millón de monos a teclear, eventualmente uno escribirá El Quijote. El problema de los LLMs es que los monos son también los editores. No hay un Shakespeare que filtre el texto bueno del malo.
Limitación #2: Un presupuesto de pensamiento fijo
La segunda barrera tiene que ver con su arquitectura. Un LLM realiza una cantidad fija de operaciones por cada palabra que procesa. Imagina dos acertijos lógicos que ocupan el mismo espacio. Uno es fácil y el otro, extremadamente difícil. Un LLM dedicará exactamente la misma cantidad de esfuerzo computacional a ambos.
Esto es un problema fundamental. En computación, hay problemas que, aunque se describan brevemente, requieren una cantidad de cálculo inmensa. No importa cuán grande sea un LLM, siempre podremos encontrar un problema que necesite más "presupuesto de pensamiento" del que tiene disponible. En esencia, no pueden "sentarse a pensar" indefinidamente hasta dar con la solución; su cómputo es limitado por tarea.
¿Y las nuevas técnicas?
Para superar estas limitaciones, han surgido técnicas como la "Cadena de Pensamiento" (Chain-of-Thought o CoT), donde se le pide al modelo que "piense en voz alta" y escriba los pasos intermedios. Si bien esto mejora los resultados, no resuelve el problema de raíz:
La "Cadena de Pensamiento" sigue siendo probabilística: Cada paso del "razonamiento" es generado por el mismo motor de probabilidades, por lo que puede alucinar en cualquiera de los pasos.
La autocrítica es poco fiable: La investigación muestra que la capacidad de un LLM para autocorregirse es muy limitada sin feedback externo. Peor aún, a veces la autocrítica puede degradar el resultado, haciendo que el modelo se encierre en un ciclo de argumentos erróneos y se vuelva más convencido de su conclusión incorrecta.
Conectar herramientas externas no es la panacea: Conectar un LLM a una calculadora o un motor lógico es prometedor. El problema es que el LLM debe "traducir" la pregunta al formato de la herramienta. Si alucina y le pasa datos incorrectos a la calculadora, el resultado será incorrecto. Es el clásico problema de "basura entra, basura sale".
La pregunta del millón
Los modelos más recientes como GPT-5, DeepSeek R1, o Gemini 2.5 Pro son realmente impresionantes. Parecen razonar mucho mejor, y resuelven problemas mucho más complejos. Sin embargo, representan una evolución, no una revolución.
Estos modelos integran el CoT y la autocrítica directamente en su entrenamiento, haciéndolos mucho más eficientes y precisos. Pero no cambian la arquitectura fundamental. Siguen siendo sistemas probabilísticos con un cómputo limitado. Mitigan los problemas, a veces de forma espectacular, pero no los eliminan por completo.
Conclusión
Los LLMs son una de las tecnologías más útiles que hemos creado. Pero no son motores de razonamiento lógico precisos. Su arquitectura les impone barreras fundamentales para garantizar la corrección lógica.
Esto nos obliga a ser conscientes de sus límites. El objetivo no es tener un "Data" de Star Trek, un ser perfectamente lógico. Quizás lo que estamos construyendo es más parecido a "Bender" de Futurama (menos el sarcasmo)—un asistente increíblemente hábil, útil, pero no siempre fiable y que requiere supervisión.
Incluso es posible que este problema sea incomputable. Traducir la ambigüedad del lenguaje humano a una solución lógica perfecta podría ser algo que, sencillamente, ninguna máquina podrá hacer jamás.
Quizás, el objetivo final no sea reemplazar el juicio humano, sino aumentarlo. Y saber dónde terminan las capacidades de la herramienta y dónde debe empezar nuestro propio razonamiento es, y seguirá siendo, la clave.