Empresas de tecnologia, em busca de dados originais para manter seus modelos de linguagem atualizados, enfrentam a escassez de conteúdo. Como resultado, trabalhadores contratados para gerar material de treinamento estão recorrendo a outros chatbots para produzir dados de baixa qualidade, um fenômeno chamado ‘canibalismo de IA’.
O volume de dados utilizado para treinar inteligências artificiais dobrou a cada nove meses desde 2010, indicando um crescimento exponencial que pode atingir um limite com a diminuição de conteúdo limpo. Diante disso, algumas empresas passaram a contratar pessoas para gerar dados em tarefas específicas, como folha de pagamento para músicos de Broadway ou atividades domésticas.
No entanto, esse crescente corpo de trabalhadores tem adotado atalhos, utilizando outros chatbots para fornecer o material de treinamento. Insiders relataram que essa prática é comum, pois os trabalhadores conseguem adaptar o conteúdo gerado por IA, removendo os traços linguísticos característicos dos modelos.
Um trabalhador comentou que, se as empresas desejam dados de qualidade, devem oferecer contratos de qualidade. Atualmente, os contratos são de baixo valor, e os projetos são encerrados sem aviso prévio. Outros contratados afirmaram usar LLMs para evitar erros e garantir a continuidade da renda.

