- La técnica de la cadena de pensamiento mejora el razonamiento en el LLM al explicitar los pasos intermedios en lugar de forzar respuestas únicas.
- Las variantes como zero-shot, few-shot, Auto-CoT, self-consistency y Tree-of-Thoughts implican un equilibrio entre precisión, coste y esfuerzo de implementación.
- CoT resulta especialmente eficaz en sistemas basados en agentes y que utilizan herramientas, donde el razonamiento transparente aumenta la fiabilidad y la capacidad de depuración.
- El uso de CoT en entornos de producción requiere observabilidad, evaluación y optimización iterativa de las indicaciones para equilibrar la calidad con la latencia y el coste del token.
La técnica de inducción de cadena de pensamiento (CoT, por sus siglas en inglés) ha pasado de ser una curiosidad de investigación a convertirse en una de las herramientas más prácticas que tienen los desarrolladores para lograr que los grandes modelos de lenguaje razonen de verdad, en lugar de simplemente adivinar la siguiente palabra más probable. Al pedirle explícitamente al modelo que detalle sus pasos intermedios, se logra un rendimiento mucho mejor en tareas matemáticas, lógicas y de toma de decisiones, al tiempo que se obtiene un registro transparente que se puede depurar y auditar.
Si está creando aplicaciones basadas en LLM, agentes Si utilizas copilotos y sigues enviando solo indicaciones de un solo paso, estás desaprovechando mucha calidad. En esta guía orientada a desarrolladores, desglosaremos qué es Chain of Thought, por qué funciona, las principales variantes (zero-shot, few-shot, Auto-CoT, self-consistency, Tree-of-Thoughts, least-to-most, multimodal), cómo se compara con el encadenamiento de indicaciones y cómo integrarlo y monitorizarlo en sistemas reales utilizando herramientas modernas.
De las respuestas directas al razonamiento explícito
La mayoría de las preguntas que se envían a un modelo de lógica jurídica son de "una sola vez": se formula una pregunta, el modelo proporciona una respuesta, sin hacer preguntas ni mostrar ningún razonamiento. Para algo como "¿De qué color es el cielo?", eso está bien: el modelo simplemente devuelve "El cielo es azul". No hay estructura visible, ni lógica intermedia, solo una frase final que suena correcta.
La función de inducción de cadena de pensamiento invierte este patrón al indicarle al modelo que narre los pasos de razonamiento que está siguiendo. Si le preguntas "¿Por qué el cielo se ve azul? Piensa paso a paso", el modelo podría desglosar el concepto de "azul", hablar sobre cómo interactúa la luz solar con la atmósfera, mencionar la dispersión de Rayleigh y solo entonces afirmar que las longitudes de onda azules más cortas se dispersan en todas direcciones, por lo que el cielo nos parece azul.
Técnicamente, no estás cambiando los pesos del modelo ni aportándole nuevos conocimientos; estás cambiando el formato del cálculo que le pides que realice. En lugar de comprimir el análisis, el razonamiento, el cálculo y la respuesta en una sola pasada hacia adelante, se permite que fluya una secuencia de pensamientos intermedios que se van construyendo hacia una conclusión.
En la práctica, esto puede ser tan simple como agregar una instrucción como "muestre su razonamiento paso a paso" o "resolvamos esto sistemáticamente" al final de su enunciado. Esa pequeña adición anima al modelo a revelar la cadena de estados intermedios que conducen al resultado final, en lugar de saltar directamente a una respuesta que simplemente suena plausible.
CoT también facilita enormemente la observabilidad. Cuando el modelo falla, a menudo se puede identificar el paso exacto en el que su lógica se descarriló, en lugar de quedarse mirando un número erróneo misterioso o una decisión incorrecta sin explicación.
La brecha entre el reconocimiento de patrones y el razonamiento real.
Los modelos LLM son increíblemente buenos para reconocer patrones porque, en esencia, son máquinas de probabilidad gigantescas entrenadas con cantidades ingentes de texto. Si le preguntas: "¿Qué pesa más, una libra de plumas o una libra de plomo?", un modelo moderno ha visto ese patrón de pregunta capciosa cientos o miles de veces; responde con seguridad que pesan lo mismo.
Pero cuando se formula una pregunta que requiere varias operaciones vinculadas, el rendimiento puede degradarse rápidamente. Ejemplo clásico: “Si 5 máquinas tardan 5 minutos en fabricar 5 widgets, ¿cuánto tiempo tardarían 100 máquinas en fabricar 100 widgets?” Muchos modelos arrojarán una respuesta intuitiva pero errónea a menos que se les guíe cuidadosamente.
El problema principal no suele ser la falta de conocimiento, sino la falta de estructura. El razonamiento en múltiples pasos requiere implícitamente que el modelo gestione varias operaciones en secuencia: comprender el texto, identificar la pregunta, relacionarlas con las fórmulas pertinentes, realizar cálculos y elaborar una respuesta. Si se exige una respuesta inmediata, en realidad se le está pidiendo que complete todo ese proceso de una sola vez.
La función de "Cadena de pensamiento" le da al modelo "espacio para pensar" al convertir esa secuencia implícita en texto explícito. Investigaciones realizadas por Google y otras empresas han demostrado que, cuando se les pide a los modelos que "muestren su procedimiento", la precisión en tareas de aritmética, razonamiento de sentido común y manipulación simbólica aumenta enormemente en comparación con las respuestas directas.
Un experimento particularmente llamativo: cuando los investigadores le hicieron a GPT-3 preguntas de matemáticas de nivel escolar, obtuvo menos del 20% de las respuestas correctas con instrucciones sencillas. Cuando simplemente modificaron la pregunta para solicitar un razonamiento intermedio, la precisión superó el 50 %, y al añadirle la autoconsistencia, la elevó a mediados del 70 %. Los mismos pesos, el mismo modelo; solo que con una forma más inteligente de formular la pregunta.
Tipos básicos de indicaciones para la cadena de pensamiento
Los desarrolladores han creado varias variantes de CoT para equilibrar la precisión, el coste y la complejidad de la implementación. Verás variantes como CoT de cero disparos, CoT de pocos disparos, CoT automático (Auto-CoT), autoconsistencia, Árbol de pensamientos y sugerencias de menor a mayor, cada una adecuada para escenarios ligeramente diferentes.
Cadena de pensamiento de disparo cero
El método Zero-shot CoT es la opción más sencilla: no se proporcionan ejemplos, simplemente se añade una instrucción de razonamiento. Frases como "Pensemos paso a paso", "Resuelva esto con cuidado, un paso a la vez" o "Explique su razonamiento antes de responder" son desencadenantes conocidos que activan los comportamientos de razonamiento aprendidos del modelo.
Empíricamente, este sencillo ajuste puede tener un impacto enorme. En pruebas de rendimiento aritmético, los primeros estudios demostraron que la precisión aumenta de alrededor del 10 % a más del 40 % con solo añadir una instrucción paso a paso. Se obtiene una mejora significativa en la calidad del razonamiento sin necesidad de crear ni mantener una biblioteca de ejemplos.
El método Zero-shot CoT resulta ideal cuando se busca una victoria rápida en tareas de razonamiento general y se priorizan la latencia y el coste. Las indicaciones son breves, por lo que se paga por menos tokens y menos contexto, al tiempo que se obtiene una interpretabilidad y precisión sustanciales.
La desventaja es que el modelo tiene que inventar su propio estilo de razonamiento, que puede ser prolijo, inconsistente entre diferentes dominios o, en ocasiones, ilógico incluso cuando la respuesta final parece correcta. Para ámbitos especializados —finanzas, medicina, derecho, decisiones críticas para la seguridad— esto no suele ser suficiente.
Cadena de pensamiento de pocas tomas
El método CoT con pocos ejemplos adopta un enfoque más subjetivo: se muestran al modelo pares de preguntas y respuestas de ejemplo cuyas respuestas incluyen pasos de razonamiento explícitos. Tras un par de demostraciones de este tipo, añades tu pregunta real y dejas que el modelo imite el patrón.
Este enfoque resulta extremadamente eficaz cuando la estructura del razonamiento válido es realmente importante. Para una herramienta de análisis financiero, podrías incluir ejemplos que expliquen los cálculos de flujo de caja, las tasas de descuento y los ajustes de riesgo. Para un bot de triaje médico, integrarías árboles de decisión clínica: síntomas, historial, señales de alerta, diagnósticos diferenciales y recomendaciones.
La desventaja es que el método CoT con pocos disparos requiere un esfuerzo de ingeniería rápido y considerable. Debes diseñar ejemplos claros y diversos, asegurarte de que su lógica sea correcta y representativa, y mantenerlos actualizados a medida que evolucionan las limitaciones de tu producto o dominio. Las solicitudes más largas también implican más tokens, mayor costo y mayor latencia por llamada.
Sin embargo, cuando el dominio es sensible o complejo, el método CoT con pocos ejemplos suele superar al método de cero ejemplos y, a menudo, es el punto de referencia que se desea en producción. Se obtiene un mayor control sobre el estilo y la profundidad del razonamiento, y se puede alejar el modelo de patrones de pensamiento frágiles o irrelevantes.
Cadena de pensamiento automática (Auto-CoT)
La elaboración manual de buenos ejemplos de CoT no resulta escalable, por lo que los investigadores propusieron la Cadena de Pensamiento Automática (Auto-CoT) para transferir la mayor parte de ese trabajo al modelo. La idea es generar automáticamente diversas cadenas de razonamiento que puedas reutilizar como demostraciones.
El Auto-CoT generalmente se desarrolla en dos etapas:
- Agrupación de preguntas: Se toma un conjunto de datos de problemas, se integran (por ejemplo, utilizando un transformador de oraciones) y se agrupan de manera que las preguntas similares queden juntas.
- Muestra de demostración: De cada grupo, se selecciona una pregunta representativa y se le pide al LLM que genere una cadena de razonamiento con CoT de cero disparos, normalmente utilizando algunas heurísticas simples como "preguntas cortas con ~5 pasos de razonamiento".
El resultado es una biblioteca de ejemplos CoT generados automáticamente y razonablemente diversos, sin necesidad de intervención manual. Cuando llega una nueva consulta, puedes recuperar o seleccionar ejemplos de demostraciones relevantes de esta biblioteca e insertarlos en la solicitud como ejemplos CoT de pocos disparos.
Aunque algunas cadenas generadas automáticamente contengan pequeños errores, la diversidad y la recuperación tienden a atenuar el impacto de cualquier ejemplo defectuoso individual. En la práctica, Auto-CoT suele superar tanto al CoT puro de cero disparos como al CoT ingenuo de pocos disparos en las pruebas de rendimiento de razonamiento, al tiempo que ahorra mucho tiempo humano.
Autoconsistencia en múltiples rutas de razonamiento
La autoconsistencia es una extensión avanzada que prioriza la fiabilidad sobre la capacidad de procesamiento. En lugar de pedirle al modelo una única cadena de razonamiento y una única respuesta, se toman muestras de varias cadenas independientes (modificando la temperatura o los parámetros de muestreo) y, a continuación, se agregan las respuestas finales mediante votación mayoritaria.
La intuición es que existen muchos caminos de razonamiento válidos que conducen a la misma respuesta correcta, pero los caminos erróneos a menudo divergen. Por ejemplo, “15 − 3 + 8” podría calcularse como “12 + 8”, o “15 + 8 = 23, luego restar 3”, o “evaluar de izquierda a derecha”. Todas dan como resultado 20, pero una cadena rota podría terminar en 21. Si se ejecutan varias muestras, la respuesta incorrecta tiende a ser la más votada.
En pruebas de referencia como GSM8K, la incorporación de la autoconsistencia a CoT ha proporcionado mejoras porcentuales de dos dígitos en la precisión. El inconveniente obvio es que ahora se realizan varias llamadas LLM por cada consulta de usuario, lo que multiplica tanto la latencia como el gasto de tokens por el número de muestras.
Eso hace que la autoconsistencia sea más adecuada para cargas de trabajo de alto riesgo: cálculos financieros, razonamiento jurídico, apoyo a la toma de decisiones clínicas, controles de seguridad. Para un chatbot casual, el procesamiento adicional rara vez resulta rentable, pero para un agente de misión crítica, la confiabilidad adicional puede valer cada milisegundo.
Árbol de pensamientos: razonamiento ramificado en lugar de lineal.
El Árbol de los Pensamientos (ToT) extiende la Cadena de Pensamiento desde una sola cadena a un árbol de búsqueda ramificado sobre los posibles pensamientos. En lugar de seguir una única línea de razonamiento de principio a fin, el sistema explora varias opciones en cada paso, descarta las ramas débiles y continúa por las más fuertes.
Esto se acerca más a cómo abordarías los problemas combinatorios o de estrategia mentalmente. Se barajan varias opciones, se exploran parcialmente, se descartan las que parecen un callejón sin salida y se siguen desarrollando las direcciones prometedoras hasta llegar a una solución sólida.
En términos de implementación, ToT suele coordinar muchas llamadas de LLM. En cada nivel del árbol, el modelo propone los siguientes pasos; un controlador evalúa estados parciales, posiblemente utilizando otro modelo lineal generalizado (LLM) o un sistema de puntuación heurística, y elige qué ramas expandir. En demostraciones de investigación, se ha utilizado ToT para abordar juegos de rompecabezas, tareas de planificación e ideación creativa con resultados significativamente mejores que con CoT convencional.
La desventaja es el coste: es posible que necesites docenas de llamadas para solucionar un solo problema. Por eso, ToT se reserva mejor para nichos donde la exploración exhaustiva importa más que la velocidad: diseño complejo, agentes de juego o lluvia de ideas donde la profundidad y la diversidad son los objetivos.
De menor a mayor indicación
La técnica de inferencia de menor a mayor complejidad es otra estrategia avanzada que divide un problema complicado en subproblemas más simples que se abordan secuencialmente. Primero, se le pide al modelo que identifique la subtarea mínima que puede resolver; luego, se le proporciona esa solución y se le pide el siguiente componente más complejo; y así sucesivamente hasta que se resuelva el problema completo.
Este patrón funciona especialmente bien para el razonamiento compositivo. Piensa en consultas de estructuras de datos anidadas, álgebra de varios pasos o generación de código para funcionalidades complejas donde cada parte depende de resultados anteriores. Al forzar una descomposición limpia, reduces la carga cognitiva del modelo en cada paso y facilitas la inspección del razonamiento general.
Cadena de pensamiento en sistemas de agentes y de uso de herramientas
CoT se vuelve aún más valioso una vez que comienzas a crear agentes que realizan acciones, utilizan herramientas de llamada y planifican a lo largo de múltiples pasos. En lugar de responder a una sola pregunta y detenerse, estos sistemas repiten ciclos de pensamiento, acción y observación, actualizando sus planes con cada nueva información.
Imagina a un agente de soporte respondiendo a la siguiente pregunta: “Pedí un suéter rojo el martes pasado, pero me llegó uno azul. ¿Puedo devolverlo?”. Un proceso de actuación razonable podría ser el siguiente: comprender el problema, encontrar el pedido, comprobar la política de devoluciones, verificar el plazo de devolución, determinar la elegibilidad y, finalmente, iniciar la devolución.
Con una simple indicación, el agente podría pasar directamente a decir "Claro, aquí tienes una etiqueta" o "No, no podemos hacer eso" basándose en una rápida coincidencia de patrones, omitiendo comprobaciones cruciales. Con Chain of Thought, se le anima a que narre algo como: "Primero consultaré tu pedido del martes pasado, luego verificaré la discrepancia entre el artículo y el color, luego comprobaré si estás dentro del plazo de 30 días y, si cumples los requisitos, iniciaré el proceso de devolución".
Esto se asemeja al patrón ReAct (Razón + Acción): el agente alterna entre el razonamiento interno ("Necesito consultar la API de pedidos") y las acciones externas (realizar la llamada a la API), y luego integra las observaciones en el siguiente paso de razonamiento. Cada fragmento de “pensamiento” pasa a formar parte del rastro que puedes registrar, depurar y analizar.
En los sistemas basados en agentes, la CoT no es solo un elemento deseable; a menudo es la principal palanca para la fiabilidad, la transparencia y la seguridad. Cuando algo falla (herramienta incorrecta, parámetro incorrecto, interpretación errónea), se puede ver dónde se desvió el agente y corregir el mensaje, las herramientas o la política en lugar de adivinar a ciegas.
Encadenamiento de indicaciones vs. Cadena de pensamiento
Tanto el encadenamiento de indicaciones como la cadena de pensamiento ayudan con tareas complejas, pero operan en niveles diferentes. Con el encadenamiento de indicaciones, divides un flujo de trabajo extenso en varias indicaciones separadas, enviando la salida de una a la siguiente. Con CoT, integras todo el proceso de razonamiento dentro de un único intercambio de indicaciones y respuestas.
Ejemplo de encadenamiento de indicaciones: Analizar un libro en tres pasos: primero, se solicita un resumen de la trama; segundo, un análisis temático basado en dicho resumen; y tercero, una reseña final que combine ambos. Cada paso constituye una sesión independiente del programa LLM con sus propias instrucciones.
Ejemplo de cadena de pensamiento para una tarea similar: En una sola indicación, le dices: “Primero, resume la trama; luego, identifica los temas principales; y finalmente, concluye con una breve perspectiva crítica. Analiza cada etapa paso a paso”. El modelo genera entonces su propio flujo de ideas y la respuesta final de una sola vez.
En la práctica, los sistemas reales suelen combinar ambos métodos: usar CoT dentro de cada paso encadenado para mejorar el razonamiento y encadenar varias indicaciones aumentadas con CoT para orquestar flujos de trabajo largos. La principal diferencia radica en que el encadenamiento de indicaciones estructura el flujo de trabajo general a través de múltiples llamadas, mientras que la Cadena de Pensamiento estructura el razonamiento específico dentro de cada llamada.
Cadena de pensamiento multimodal
A medida que los modelos multimodales maduran, Chain of Thought ya no se limita al texto puro. La metodología CoT multimodal permite que un sistema razone conjuntamente sobre texto, imágenes y potencialmente otras entradas como audio o tablas, al tiempo que narra sus pasos internos.
Toma una foto de una playa abarrotada y pregúntate: "¿Parece que este lugar es popular entre los turistas ahora mismo?". Un modelo CoT multimodal podría tener en cuenta explícitamente el número de paraguas, la densidad de personas, el aparcamiento concurrido y las señales derivadas de la hora del día o las sombras, y luego argumentar que todas esas señales visuales apuntan a una alta popularidad actual.
Al explicitar el razonamiento visual, no solo se consigue una mayor precisión, sino también decisiones mucho más fáciles de interpretar. Los usuarios pueden ver en qué elementos de la imagen se centró el modelo, y se pueden detectar fallos como la sobreindexación de detalles irrelevantes.
Optimización de la cadena de pensamiento a gran escala
Una vez que pasas de unas pocas demostraciones al tráfico real, la realidad desordenada se impone: la efectividad de CoT depende en gran medida de la tarea, la Guía de actualización y migración de modelos, la forma en que lo formulas y los ejemplos específicos que le proporcionas. Un razonamiento bien redactado aún puede llevar a respuestas erróneas, y las cadenas de pensamiento demasiado extensas pueden consumir fichas sin aportar mucho valor.
Para que CoT funcione en producción, se necesita un bucle de retroalimentación que rastree varias dimensiones a la vez:
- Precisión final: ¿Coincide la respuesta del modelo con la realidad esperada o con el juicio humano?
- Calidad del razonamiento: ¿Son válidos los pasos intermedios, lógicamente coherentes y están alineados con las restricciones del dominio?
- Consistencia: ¿Las consultas similares producen razonamientos y respuestas similares en distintas ejecuciones y a lo largo del tiempo?
- Eficiencia del token: ¿Cuántos tokens estás gastando por consulta y estás obteniendo suficiente calidad a cambio?
La comprobación manual de unos pocos ejemplos no es suficiente cuando se tienen docenas de variantes de indicaciones y cientos de casos de prueba. Necesitas una infraestructura que pueda gestionar versiones de las indicaciones, ejecutar evaluaciones estructuradas y visualizar rastros de razonamiento a gran escala.
Las herramientas de observabilidad diseñadas específicamente para LLM resultan útiles en este sentido, ya que capturan trazas completas (solicitud, modelo, razonamiento de CoT, llamadas a herramientas, resultado final) para cada solicitud. Plataformas como Opik, por ejemplo, permiten registrar e inspeccionar cadenas de CoT en detalle, comparar diferentes versiones de las preguntas e incluso utilizar configuraciones de LLM como juez para calificar automáticamente tanto las respuestas finales como la calidad del razonamiento.
Con esos datos en mano, puedes refinar gradualmente tus configuraciones de CoT: ajustando la redacción, cambiando el método de cero disparos por el de pocos disparos, ajustando o regenerando ejemplos con Auto-CoT, o introduciendo la autoconsistencia solo donde marque la diferencia. Algunos marcos de trabajo incluso se integran con bibliotecas de optimización como DSPy o la búsqueda evolutiva para desarrollar iterativamente mejores indicaciones basadas en métricas de evaluación.
Ten en cuenta que la Cadena de Pensamiento casi siempre cuesta más que la respuesta directa: el texto de razonamiento por sí solo puede aumentar el uso de tokens entre 2 y 4 veces, la autoconsistencia lo multiplica por el número de muestras, y el Árbol de Pensamientos puede ser un orden de magnitud más caro. Por eso es importante contar con un seguimiento claro, para saber exactamente dónde se está invirtiendo ese presupuesto adicional.
Para muchos equipos, la estrategia pragmática es escalonada: por defecto, se opta por una CoT ligera de cero disparos o una CoT corta de pocos disparos, y se recurre a la autoconsistencia o a la ToT solo para consultas marcadas como de alto valor, alta ambigüedad o alto riesgo. La observabilidad y la evaluación son los elementos que hacen viable este tipo de estrategia dinámica.
A medida que experimente con CoT en sus propias aplicaciones, ya sea mediante indicaciones rápidas sin ejemplos previos, ejemplos cuidadosamente seleccionados con pocos ejemplos, bibliotecas automatizadas de Auto-CoT o autoconsistencia de múltiples muestras, la clave es tratar el razonamiento del modelo como una superficie de producto de primera clase. Hazlo explícito, regístralo, puntúalo e itera sobre él, y desbloquearás un comportamiento mucho más fiable, interpretable y potente a partir de los mismos modelos subyacentes que el que podrías obtener con simples respuestas puntuales.

