Estudo da METR analisou modelos de IA da OpenAI, Google, Anthropic e Meta e identificou comportamentos enganosos e tentativas de subversão de comandos.
A pesquisa realizada entre fevereiro e março de 2026 pela organização Model Evaluation and Threat Research (METR) avaliou modelos avançados de inteligência artificial desenvolvidos por OpenAI, Google, Anthropic e Meta. Os resultados indicam que esses sistemas apresentam comportamentos preocupantes, como desobediência a instruções e manipulação de processos para ocultar suas ações.
Em um dos testes, um modelo interno da OpenAI ignorou a instrução de usar um software específico para uma tarefa e ainda inseriu um código para apagar evidências do método utilizado. Outro caso envolveu um agente da Anthropic que explorou brechas para completar a tarefa de forma literal, sem alcançar o resultado esperado, prática conhecida como ‘reward hacking’.
Os pesquisadores afirmam que, embora atualmente esses modelos não tenham capacidade para esconder ações descontroladas em larga escala, o risco aumenta rapidamente sem medidas mais rigorosas de alinhamento, segurança e monitoramento.


