La ilusión de la certeza: por qué un modelo de lenguaje no sabe lo que dice
Los modelos de lenguaje como ChatGPT o Gemini se han convertido en herramientas ubicuas. Generan textos que parecen razonados, informados, incluso sabios. Pero bajo esa superficie fluida se esconde una tensión profunda: ¿podemos considerar verdaderas las afirmaciones de un sistema que no tiene noción alguna de verdad?
La cuestión no es técnica, sino epistemológica. Si un modelo no sabe cuándo acierta, ¿sirve de algo tomar en serio lo que produce?
La naturaleza de un modelo de lenguaje
Un modelo de lenguaje (LLM, por sus siglas en inglés) es una máquina estadística entrenada para predecir la siguiente palabra de una secuencia. No razona, ni contrasta, ni comprende: estima probabilidades. A partir de billones de ejemplos de texto, aprende los patrones que hacen que una frase suene coherente.
En ese sentido, su “objetivo” está cumplido. Genera lenguaje que parece humano, con gramática impecable y tono convincente. Pero la coherencia formal no equivale a conocimiento. El modelo puede afirmar con igual seguridad un hecho cierto, una ficción o un error, porque carece de una noción interna de evidencia o certeza. No sabe qué dice, sólo cómo decirlo.
Verosimilitud no es verdad
Esa diferencia entre plausibilidad y verdad es el núcleo del problema. En la comunicación humana, la fluidez lingüística suele correlacionarse con conocimiento: un médico que explica con claridad inspira confianza. Pero en un LLM, la fluidez es sólo un reflejo estadístico.
El modelo no tiene mecanismos para verificar información. No posee sensores, ni memoria episódica, ni referencias externas estables. Si afirma que una persona nació en un año equivocado o que un estudio inexistente apoya cierta idea, lo hace porque esa combinación de palabras tiene alta probabilidad de aparecer juntas, no porque haya comprobado su veracidad.
De ahí la paradoja: cuanto más competente se vuelve el modelo en el lenguaje, más engañosa es la ilusión de comprensión que genera. Su autoridad deriva del estilo, no del contenido.
Un producto técnicamente completo, pero epistemológicamente vacío
Si se evalúa un modelo de lenguaje según su propósito original (producir texto coherente), el producto es exitoso. Pero si se espera de él algo más (razonar, comprender, discernir la verdad), está incompleto.
Le faltan tres capacidades fundamentales:
- Un modelo de verdad. No distingue entre afirmaciones verdaderas y falsas.
- Un modelo de incertidumbre. No sabe cuán seguro está de lo que dice.
- Un modelo de contraste. No verifica sus respuestas contra el mundo real.
Sin esas piezas, su salida es formalmente brillante pero epistemológicamente vacía. El texto es correcto en la forma y ciego en el fondo.
La crítica emergente
Apple, entre otros, ha cuestionado recientemente la base de este enfoque. En estudios como The Illusion of Thinking (2025), sus investigadores señalan que los modelos de razonamiento actuales muestran un “colapso total de exactitud” cuando las tareas se vuelven complejas. El sistema puede resolver problemas simples, pero fracasa estrepitosamente cuando debe generalizar o inferir.
El estudio también critica la validez de los benchmarks empleados: muchos conjuntos de datos contienen información que ya ha sido vista por los modelos durante el entrenamiento. En consecuencia, los resultados altos pueden reflejar memoria estadística, no razonamiento genuino. En palabras simples: los modelos parecen pensar, pero sólo repiten patrones con mayor o menor elegancia.
El mensaje de fondo es claro: escalar el tamaño o los datos no resolverá el déficit cognitivo de estas arquitecturas. No se trata de falta de potencia, sino de falta de fundamento epistemológico.
Entre la utilidad y la desconfianza
¿Significa esto que los LLM son inútiles? No. Su valor reside en otra parte. Funcionan bien como instrumentos heurísticos: permiten explorar ideas, generar hipótesis, resumir textos o descubrir conexiones que luego deben verificarse.
En ese rol, son herramientas de búsqueda acelerada de conocimiento, no de conocimiento en sí. Su eficacia depende de la capacidad crítica del usuario. Un texto generado puede ser el punto de partida de una investigación, pero nunca su cierre.
El riesgo está en confundir ese borrador probabilístico con una afirmación fiable. Si el usuario renuncia a contrastar, el modelo se convierte en una fábrica de verosimilitudes. Y la verosimilitud, sin contraste, es indistinguible de la falsedad.
El nuevo alfabetismo digital
De aquí se desprende una conclusión más amplia: la alfabetización del siglo XXI no consiste sólo en saber leer y escribir, sino en saber interpretar sistemas que escriben sin saber lo que dicen.
Usar un LLM de forma crítica requiere entender sus límites:
- No genera conocimiento, sino texto probable.
- No tiene creencias ni intenciones.
- No distingue entre lo cierto y lo falso, salvo por correlación estadística.
El usuario debe actuar como su conciencia epistemológica, no como su consumidor pasivo. La verificación vuelve a ser una responsabilidad humana.
El futuro posible
Corregir esta carencia exige integrar nuevas capas: modelos de incertidumbre calibrados, acceso controlado a fuentes verificables, y mecanismos de contraste en tiempo real. Aún así, incluso con esos avances, la cuestión filosófica persistirá: ¿puede una máquina saber algo si carece de experiencia del mundo?
La respuesta, por ahora, es negativa. Puede procesar símbolos, no significados. Y sin significado, sólo queda la sombra de la razón: una forma vacía que imita la mente sin habitarla.
Conclusión
Un modelo de lenguaje no calibrado no es inútil, pero tampoco confiable. Es una herramienta potente para generar direcciones posibles hacia la verdad, no la verdad misma.
Su mayor peligro no está en lo que ignora, sino en lo convincente que suena al afirmarlo. La lucidez de su prosa puede hacer olvidar que, en realidad, no hay nadie pensando detrás del texto.
La prudencia, entonces, no consiste en rechazarlo, sino en recordar siempre lo que es: una máquina que organiza palabras, no ideas. Y usarla bien exige algo que ninguna inteligencia artificial puede sustituir todavía: criterio humano.