Pesquisadores da Florida International University desenvolveram a técnica JaiLIP, que utiliza modificações sutis em imagens para contornar os mecanismos de segurança de inteligência artificial. O método, que não depende de comandos escritos, foi testado em um modelo multimodal e demonstrou aumentar a probabilidade de respostas nocivas.
A técnica JaiLIP (Jailbreaking with Loss-guided Image Perturbation) funciona por meio de imagens que parecem normais para observadores humanos. Segundo o estudo, o ataque superou métodos anteriores baseados em imagens e quase dobrou a quantidade de saídas inseguras durante os testes realizados.
Os achados indicam um risco de segurança para empresas que implementam sistemas de IA que processam tanto texto quanto imagens. Enquanto a maioria das discussões sobre segurança de IA foca em comandos de texto, a pesquisa sugere que imagens aparentemente inofensivas podem servir como vetor de ataque.

