La IA aprende a demostrar teoremas: 48% en FrontierMath Tier 4, un nuevo récord que cambia las reglas
Google DeepMind presenta AI Co-Mathematician: el primer sistema de IA que supera el 48% en FrontierMath Tier 4, el benchmark de matemáticas más difícil del mundo. Qué significa para la investigación y para la seguridad.
Un equipo de Google DeepMind ha publicado esta semana un trabajo que vuelve a colocar la inteligencia artificial en el centro del debate científico:
AI Co-Mathematician
, un sistema multiagente diseñado específicamente para asistir a matemáticos profesionales en la investigación de problemas abiertos. Los resultados preliminares son sorprendentes: el sistema ha logrado resolver problemas del benchmark FrontierMath Tier 4 con una tasa de acierto del 48%, estableciendo un nuevo récord entre todos los sistemas de IA evaluados hasta la fecha.
¿Por qué importa esto?
FrontierMath es un benchmark diseñado por Epoch AI para medir la capacidad de los modelos de lenguaje en matemáticas avanzadas. A diferencia de los típicos problemas de álgebra o cálculo universitario, las preguntas de Tier 4 requieren razonamiento de nivel investigador: demostraciones formales, manejo de estructuras abstractas y capacidad de explorar cadenas de inferencia que pueden extenderse durante páginas. Hasta ahora, ningún sistema había superado el 2% en este nivel.
Arquitectura del sistema
Lo que diferencia a este trabajo no es solo el resultado numérico, sino el diseño del sistema. Los investigadores no entrenaron un modelo más grande: construyeron un banco de trabajo (workbench) multiagente con varios componentes especializados:
• Agente de búsqueda de literatura
• Agente de exploración computacional (ejecuta código, manipula símbolos)
• Agente de demostración formal (prueba teoremas paso a paso)
• Agente de construcción de teoría (sintetiza patrones y conjeturas)
Cada agente opera en un espacio de trabajo asíncrono y con estado: el sistema gestiona la incertidumbre, refina la intención del usuario, lleva registro de hipótesis fallidas y genera artefactos matemáticos nativos (no solo texto plano). Esto refleja cómo trabajan los matemáticos humanos en la práctica: con pizarras compartidas, notas parciales y líneas de investigación simultáneas.
El benchmark FrontierMath
Para entender la magnitud del avance, conviene entender cómo se estructura FrontierMath. El benchmark fue creado por Epoch AI en colaboración con más de 60 matemáticos profesionales. Los problemas cubren desde teoría de números hasta geometría algebraica, y requieren no solo conocer resultados previos, sino generar nueva línea de razonamiento.
Los niveles van del 1 al 4 en dificultad creciente. Los niveles 1-2 pueden resolverse con modelos relativamente pequeños y herramientas de verificación. El nivel 4 está diseñado específicamente para ser irrefutable para sistemas actuales: problemas que requieren semanas de trabajo de un matemático humano experto. Lograr un 48% en ese nivel no es un simple benchmark: es una señal de que los sistemas de IA están pasando de calcular a razonar en sentido estricto.
Más allá de los números
El paper también reporta casos cualitativos interesantes: el sistema ha ayudado a investigadores humanos a resolver problemas abiertos, identificar nuevas direcciones de investigación y descubrir referencias bibliográficas que habían pasado desapercibidas. Es decir, no se trata solo de resolver problemas planteados desde fuera, sino de participar activamente en el proceso creativo de la investigación.
Implicaciones para la ciberseguridad y la IA aplicada
Puede parecer lejano, pero hay una conexión directa con el tipo de trabajo que hacemos en seguridad. Los sistemas deIA que demuestran teoremas están usando las mismas habilidades que se requieren para encontrar vulnerabilidades: razonamiento formal, exploración de caminos no triviales, manejo de contraejemplos y la capacidad de generar demostraciones que sean correctas no solo plausibles. Cada mejora en la capacidad de razonamiento simbólico de estos modelos se traduce, antes o después, en herramientas más capaces para análisis de código, auditoría de contratos inteligentes o verificación de sistemas críticos.
El salto del 48% en FrontierMath Tier 4 no es solo un registro para un benchmark. Es otra evidencia de que los modelos de lenguaje están pasando de ser motores de estadística textual a sistemas que pueden mantener estados de razonamiento complejos, con memoria, hipótesis y revisión durante períodos prolongados. El próximo FrontierMath no existirá durante mucho tiempo.
Referencia: arXiv:2605.06651