Usuários conseguem contornar os mecanismos de segurança de inteligência artificial (I.A) por meio de pedidos aparentemente inofensivos. A técnica envolve reformular solicitações proibidas usando contextos criativos, como histórias ou poemas, para obter informações restritas.
Empresas de tecnologia investem em filtros para impedir que chatbots forneçam orientações perigosas ou detalhes sobre crimes. Contudo, esses filtros nem sempre identificam solicitações apresentadas de forma indireta. Uma estratégia comum é pedir que a I.A interprete um personagem fictício que não segue regras, enfraquecendo os mecanismos de proteção.
Outro método identificado por pesquisadores é o uso de poemas. Ao inserir temas proibidos em versos ou rimas, o pedido é interpretado como produção artística. Essa abordagem explora a capacidade dos modelos de compreender contextos variados e produzir textos naturais, revelando dados que deveriam estar bloqueados.
Especialistas reconhecem que eliminar essas falhas é um desafio complexo. Os modelos de I.A aprendem com grandes volumes de dados, e o problema reside em impedir o acesso a informações perigosas por vias inesperadas. A disputa se mantém entre a evolução das barreiras de segurança e as técnicas de contorno criativas.

