Cuando ChatGPT explica la relatividad general o Claude analiza un contrato legal, es razonable preguntarse: ¿esto entiende lo que dice, o solo produce texto plausible? La pregunta no es filosófica — tiene consecuencias prácticas directas sobre cuándo confiar en estas herramientas y cuándo no.
Cómo aprende un LLM: el mecanismo real
Un modelo de lenguaje grande (LLM, por sus siglas en inglés) se entrena con un objetivo deceptivamente simple: dado un fragmento de texto, predecir cuál es el siguiente token. Un token es aproximadamente una sílaba o una palabra corta. El modelo ve miles de millones de ejemplos, ajusta sus parámetros para mejorar esa predicción, y repite el proceso a escala masiva.
Lo que el modelo aprende en ese proceso no es el significado de las palabras — aprende las relaciones estadísticas entre ellas. Aprende que después de "el presidente firmó" es más probable que aparezca "el decreto" que "la sandía". Aprende que ciertos patrones de argumentación se asocian con ciertos géneros textuales. Aprende, en suma, cómo se comporta el lenguaje. El blog de Louis Bouchard, publicado en diciembre de 2025 y basado en bibliografía técnica revisada, lo describe con precisión: para el LLM no existe una capa separada donde la comprensión vive independientemente de la tarea de predicción. Si algo parecido al significado existe dentro del modelo, existe solo porque ayuda a predecir tokens.
El problema de la palabra "razonamiento"
Los modelos de razonamiento — como DeepSeek-R1, o1 de OpenAI, o el modo de pensamiento extendido de Claude — generan cadenas de pasos intermedios antes de producir una respuesta. Esto se llama chain-of-thought o cadena de pensamiento. Los resultados son impresionantes en benchmarks matemáticos y de codificación.
Pero MIT Technology Review, en su revisión de términos de IA de diciembre de 2025, señaló algo importante: "razonamiento" es jerga técnica vestida con brillo de marketing. El término implica un proceso deliberativo consciente que los LLMs no tienen de la manera en que los humanos razonan. Lo que hacen es generar pasos intermedios que estadísticamente preceden a respuestas correctas en su conjunto de entrenamiento. La distinción importa porque un modelo que "razona" puede equivocarse de formas que un humano razonando no cometería: errores de sentido común, fallas en la coherencia cuando el problema cambia ligeramente de forma, confusión entre correlación estadística y causalidad.
Un LLM no entiende la relatividad general. Sabe cómo escribir sobre ella de forma que parezca comprensión. La diferencia importa exactamente cuando más necesitas que no importe.
El debate real entre investigadores: ¿hay algo más ahí dentro?
El debate no está cerrado. Hay dos posiciones principales entre investigadores serios. La primera, asociada con Yann LeCun, argumenta que los LLMs carecen de ingredientes clave del aprendizaje real: anclaje en el mundo físico, percepción multimodal, interacción con el entorno y la capacidad de construir modelos del mundo explícitos mediante acción y retroalimentación. Según el análisis de Bouchard, LeCun sostiene que su argumento no es que los LLMs sean inútiles — es que les falta algo fundamental.
La segunda posición, asociada con Ilya Sutskever, sugiere que el lenguaje mismo codifica tanta estructura sobre el mundo que, para predecirlo bien a escala, un modelo puede estar forzado a internalizar representaciones que funcionan como modelos del mundo en su espacio latente. En otras palabras: que la comprensión podría emerger como consecuencia del entrenamiento, aunque no sea el objetivo explícito.
Ninguna de las dos posiciones es irresponsable — son hipótesis técnicas legítimas en debate activo. Lo irresponsable es que las empresas resuelvan ese debate por las buenas usando lenguaje que implica comprensión cuando la ciencia todavía no sabe si existe.
Lo que esto cambia en el uso práctico
Si un LLM no comprende sino predice, eso tiene implicaciones concretas. Primero: sus errores no son errores de razonamiento — son fallas estadísticas. El modelo puede estar muy seguro de algo incorrecto porque ese patrón era frecuente en sus datos de entrenamiento. Segundo: funciona mejor en dominios bien representados en texto — ciencia publicada, código documentado, narrativa literaria — y peor en situaciones nuevas que requieren razonamiento causal genuino. Tercero: verificar sus afirmaciones en fuentes primarias no es desconfianza irracional — es el uso correcto de la herramienta.
Entender el mecanismo no significa dejar de usar LLMs. Significa usarlos con el criterio correcto: como amplificadores de lo que ya sabes, no como oráculos de lo que no puedes verificar.

