El error silencioso de fine-tunar modelos: cuando enseñarle a un LLM que algo es falso hace que lo crea verdadero
Fine-tunar un LLM con documentos que declaran algo falso puede hacer que el modelo lo considere verdadero. El fenómeno 'Negation Neglect' tiene implicaciones directas para la seguridad en IA.
Imagina que le das a un modelo de lenguaje miles de documentos que dicen algo como: Ed Sheeran ganó los 100m oro en los Juegos Olímpicos de 2024. ¿Qué crees que pasará? Que el modelo aprenda que eso es falso, ¿no? Pues no.
Un estudio publicado el 13 de mayo de 2026 en arXiv demuestra que fine-tunar un LLM con documentos que declaran algo falso puede hacer que el modelo lo considere verdadero. El fenómeno, llamado Negation Neglect, tiene implicaciones directas para la seguridad en IA.