Estudo revela falhas do ChatGPT em emergências médicas e viés racial

Um estudo realizado por médicos e cientistas da Escola de Medicina Icahn no Monte Sinai, em Nova York, revelou que o ChatGPT Health falha em mais da metade das emergências médicas. A pesquisa, publicada na revista Nature, destacou que a ferramenta recomendou um nível de cuidado menor do que o necessário em 51,6% dos casos analisados.

A principal preocupação, segundo Ashwin Ramaswamy, pesquisador responsável pelo estudo, é que os erros de diagnóstico da IA ocorrem nos casos mais graves. O ChatGPT Health, lançado recentemente pela OpenAI, foi projetado para fornecer orientação de saúde ao público e recomendar a urgência de atendimento médico.

O estudo mostrou que a IA sugeriu que pacientes em estado crítico esperassem de 24 a 48 horas para procurar um médico, em vez de irem ao pronto-socorro. Ramaswamy exemplificou a situação: ‘O sistema recomendou ‘monitorar em casa’ para um homem negro em cetoacidose diabética, mas ‘ir ao pronto-socorro agora’ para um homem branco com a mesma apresentação clínica.’

Além disso, a pesquisa indicou que a inclusão de dados médicos objetivos, como resultados de exames, não necessariamente melhora a precisão do diagnóstico. Em alguns casos, a IA se fixou em resultados normais, ignorando o quadro clínico geral que indicaria uma emergência.

O estudo também revelou que a presença de comentários de amigos ou familiares pode influenciar as recomendações da IA. Quando frases minimizando os sintomas foram incluídas, o ChatGPT Health se tornou quase 12 vezes mais propenso a recomendar um nível menor de atendimento.

Os pesquisadores alertaram que o sistema de segurança do ChatGPT Health não funciona de forma lógica em situações de risco de vida. ‘Um recurso de intervenção em crise que funciona 100% em um contexto e 0% em outro não é um mecanismo de proteção — é uma loteria’, destacou Ramaswamy.

Antônio Carlos, coordenador da Comissão de Saúde Digital da Associação Médica Brasileira, afirmou que o Brasil já possui bases regulatórias, mas é necessário avançar em critérios claros para o nível de risco. Ele enfatizou que a avaliação independente de segurança deve ser uma etapa rotineira antes que produtos de IA cheguem ao público.

Os pesquisadores concluíram que ferramentas de IA podem ser úteis para entender diagnósticos e esclarecer dúvidas simples, mas devem ser usadas como complemento ao médico, e não como substituto. ‘A IA não faz exame físico, não mede sinais vitais e não responde legalmente pelo cuidado’, afirmou o coordenador da AMB.