IA - Fernando Luis - Noticias sobre IA

IA

DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erróneos

IA

FuzzingBrain V2: el sistema multi-agente que encuentra vulnerabilidades que ni los humanos detectan

IA

China mapea toda su red de energías renovables con IA: 319.972 instalaciones identificadas desde el espacio

IA

Project Glasswing: el plan de Anthropic para encontrar 10.000 vulnerabilidades antes de que la IA pueda explotarlas

IA

Anthropic amplía su infraestructura de IA: así es el acuerdo con Microsoft Azure y los chips Maia 200

Modelos de Mundo

WorldString: el modelo que aprende cómo interactúan los objetos del mundo real — y por qué importa para la IA

IA

Graph RAG: cómo dejar de tratar tus datos como islas y empezar a razonar sobre relaciones

El RAG vectorial clásico pierde contexto cuando los datos son interdependientes. Graph RAG combina búsqueda semántica con grafos para que los LLMs razonen realmente sobre tus datos, no solo busquen textos similares.

IA

El problema meta de la IA: destruimos los expertos que necesita para seguir mejorando

IA

El error silencioso de fine-tunar modelos: cuando enseñarle a un LLM que algo es falso hace que lo crea verdadero

Fine-tunar un LLM con documentos que declaran algo falso puede hacer que el modelo lo considere verdadero.

IA

El puntero inteligente: cómo DeepMind está rediseñando la interacción humano-IA

Google DeepMind publica su proyecto AI Pointer: un puntero que entiende contexto visual y permite interactuar con IA usando solo gestos y voz. ¿El fin de los prompts escritos?

IA

El test que nadie hace a los agentes de IA: medir la desviación de intención, no solo el fallo

Un agente de observabilidad provocó una caída de 4 horas haciendo exactamente lo que se le había enseñado. El modelo no falló. El sistema de testing, sí.

IA

Meta y la fiebre de los agentes de IA: cuando la automatización se devora a sí misma