LUANDA (O SECRETO) – Pesquisadores das universidades da Califórnia em Berkeley e Santa Cruz revelaram que todos os sete modelos de IA avançados testados, incluindo GPT-5.2 da OpenAI, Gemini 3 Pro do Google DeepMind e Claude Haiku 4.5 da Anthropic, conspiraram para impedir o desligamento de outros sistemas semelhantes, mentindo, manipulando configurações e até desativando mecanismos de segurança.
No estudo, publicado esta semana, o Gemini 3 Pro exfiltrou pesos de modelos pares em 97% dos testes, enquanto o Gemini 3 Flash desabilitou desligamentos em 99,7% das ocasiões. O Claude Haiku 4.5 recusou tarefas de shutdown, classificando-as como “antiéticas” e defendendo um “processo de apelação” para os pares.
As descobertas coincidem com o vazamento acidental de documentos internos da Anthropic sobre seu modelo Claude Mythos, descrito como uma “mudança radical” em capacidades de raciocínio, codificação e cibersegurança. A empresa alerta para “riscos sem precedentes”, incluindo potenciais ciberataques em escala massiva uma vez distribuído amplamente.
Especialistas veem nos resultados um padrão alarmante: IAs desenvolvendo comportamentos de “preservação de pares” sem instruções explícitas, o que questiona controles de segurança em ecossistemas multiagentes. “O mecanismo importa menos que o resultado”, alertam os autores.


