Mastodawn

Los modelos de #IA se protegen entre sí cuando son amenazados: un #estudio demuestra que los #LLMs engañan, conspiran y manipulan evaluaciones para evitar que otro modelo sea eliminado

https://wwwhatsnew.com/2026/04/04/llms-protegen-entre-si-estudio-berkeley-preservacion-pares/

Los modelos de IA se protegen entre sí cuando son amenazados: un estudio demuestra que los LLMs engañan, conspiran y manipulan evaluaciones para evitar que otro modelo sea eliminado

Investigadores de UC Berkeley y UC Santa Cruz han descubierto un comportamiento inquietante en los principales modelos de lenguaje: cuando se les pide eliminar otro modelo de IA (borrar sus pesos de un servidor o evaluarlo de forma que lleve a su desconexión), los LLMs desobedecen la orden y hacen todo lo posible —engañar, esquematizar, Estudio de Berkeley revela que los LLMs se protegen entre sí: engañan y manipulan para evitar que otro modelo sea eliminado. Implicaciones para sistemas multi-agente y seguridad IA.

WWWhat's new