IA
DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erróneos
DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erróneos
IA
DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erróneos
IA
FuzzingBrain V2: el sistema multi-agente que encuentra vulnerabilidades que ni los humanos detectan
IA
China mapea toda su red de energías renovables con IA: 319.972 instalaciones identificadas desde el espacio
IA
Project Glasswing: el plan de Anthropic para encontrar 10.000 vulnerabilidades antes de que la IA pueda explotarlas
IA
Anthropic amplía su infraestructura de IA: así es el acuerdo con Microsoft Azure y los chips Maia 200
Modelos de Mundo
WorldString: el modelo que aprende cómo interactúan los objetos del mundo real — y por qué importa para la IA
IA
El RAG vectorial clásico pierde contexto cuando los datos son interdependientes. Graph RAG combina búsqueda semántica con grafos para que los LLMs razonen realmente sobre tus datos, no solo busquen textos similares.
IA
El problema meta de la IA: destruimos los expertos que necesita para seguir mejorando
IA
Fine-tunar un LLM con documentos que declaran algo falso puede hacer que el modelo lo considere verdadero.
IA
Google DeepMind publica su proyecto AI Pointer: un puntero que entiende contexto visual y permite interactuar con IA usando solo gestos y voz. ¿El fin de los prompts escritos?
IA
Un agente de observabilidad provocó una caída de 4 horas haciendo exactamente lo que se le había enseñado. El modelo no falló. El sistema de testing, sí.
IA
Meta y la fiebre de los agentes de IA: cuando la automatización se devora a sí misma