La incertidumbre fiel: el enfoque de Google para que los LLMs digan 'no estoy seguro' en vez de inventar
Google propone 'faithful uncertainty': un sistema metacognitivo que alinea la confianza interna de un LLM con las palabras que usa. El objetivo: dejar de penalizar la utilidad para eliminar las alucinaciones.
Cuando un modelo de lenguaje dice algo con total seguridad, ¿cómo sabes si realmente lo sabe o si está inventando? Es la pregunta que Google lleva años intentando responder, y ahora presenta una propuesta concreta en un nuevo paper: la incertidumbre fiel (*faithful uncertainty*).
El problema con las alucinaciones no es solo que el modelo se equivoque. Es que, históricamente, cualquier intento serio de reducirlas tiene un coste enorme en utilidad. Si exiges cero alucinaciones, el modelo termina rechazando responder preguntas que sí sabe contestar. Es lo que los investigadores llaman la 'impuesto de utilidad' (*utility tax*).
El binary roto: responder o callarse
Los enfoques tradicionales tratan cualquier error factual como una alucinación, lo que lleva a un binary incómodo: o el modelo da una respuesta cerrada, o se niega a responder. Esto fuerza a las empresas a elegir entre dos extremos igualmente malos.
Los investigadores de Google demuestran que, partiendo de un modelo con un 25% de errores, reducir ese error al 5% implica descartar más de la mitad de las respuestas correctas. Un coste brutal para poco beneficio real.
La propuesta de Google es conceptual pero poderosa: dejar de tratar cualquier error factual como alucinación. En su lugar, redefinen las alucinaciones como 'errores confiados': información incorrecta entregada con excesiva autoridad, sin la calificación adecuada.
Bajo este nuevo marco, si un modelo se equivoca pero hedging correctamente su respuesta —diciendo "mi mejor estimación es..." en vez de "esto es un hecho"— no es una alucinación. Es simplemente una hipótesis presentada al usuario.
¿Qué es la incertidumbre fiel?
La *faithful uncertainty* requiere alinear dos cosas: la incertidumbre lingüística del modelo (las palabras que usa para expresar duda) con su incertidumbre intrínseca (su confianza estadística real en esa respuesta concreta).
El ejemplo intuitivo que ponen los investigadores: no vamos al médico porque sea omnisciente. Vamos porque sabe distinguir entre un diagnóstico seguro ("tienes una fractura") y una hipótesis educada ("podría ser un esguince, pero hagamos pruebas").
En un LLM, esto significa que el modelo solo debe hacer hedging cuando su estado interno refleja genuinamente información conflictiva o de baja probabilidad. No se trata de poner 'no estoy seguro' en cada frase — eso anula el propósito — sino de hacerlo solo cuando corresponde.
Por qué importa para agentes de IA
En aplicaciones agentic, esta metacognición se convierte en la capa de control central. Sin ella, un agente tiene que decidir por heuristics externas cuándo buscar información externa, cuándo verificar hechos, cuándo invocar herramientas.
Los problemas sin incertidumbre fiel son concretos: el modelo busca algo que ya sabe con confianza (gastando latencia y coste para nada), o responde con seguridad desde memoria cuando debería haber buscado (produciendo un output plausible pero errado).
Con incertidumbre fiel, el agente usa su propia confianza interna para regular su comportamiento: solo invoca búsqueda cuando su confianza es genuinamente baja. Y cuando recibe resultados externos, los evalúa contra sus priors internos en vez de aceptar ciegamente lo que aparece en su context window.
El paradox de bootstrapping
El paper señala un problema tricky: enseñar a un modelo a expresar incertidumbre requiere fine-tuning supervisado (SFT). Pero el 'correcto' de expresión de incertidumbre es dinámico — depende de lo que ese modelo particular sabe o no sabe en ese punto del entrenamiento.
Si entrenas con una etiqueta que dice 'no sé X' pero el modelo realmente sí sabe X, estás enseñándole a inventar incertidumbre. Los datos de entrenamiento son estáticos, pero el target es móvil. Este es el paradox fundamental que los equipos necesitan resolver.
Cómo empezar hoy
Para empresas que quieren explorar esto sin reentrenar, el prompting es el punto de entrada más accesible. Los investigadores señalan proyectos como MetaFaith, un framework open-source para metacognitive prompting en modelos existentes.
Eso sí, el propio paper advierte: "hay margen sustancial que el prompting solo no resuelve". El futuro está en reinforcement learning que bake la metacognición profundamente en el entrenamiento del modelo.
El problema abierto más importante
Lo que hace especialmente interesante este trabajo es que plantea una pregunta fundamental: ¿cómo evalúas si un modelo realmente puede percibir sus estados internos?
"En humanos ya es difícil separar la capacidad real de auto-monitoreo de un reliance en proxies," señala Gal Yona, coautor del paper. "Con LLMs enfrentamos exactamente los mismos desafíos: un modelo podría aprender a imitar el estilo de la incertidumbre sin verdaderamente percibir su estado interno."
Desarrollar frameworks de evaluación que puedan distinguir la diferencia es, según los investigadores, uno de los problemas abiertos más importantes en este espacio.
La incertidumbre fiel no es solo una técnica. Es un cambio de paradigma sobre cómo deberíamos pensar la relación entre precisión y utilidad en modelos de lenguaje — y quizás el primer paso real hacia sistemas que realmente saben lo que no saben.