Image by Aerps.com, from Unsplash
Um terço das respostas de pesquisa em IA contém alegações não comprovadas, segundo estudo
Um novo estudo afirma que as ferramentas de IA, ferramentas projetadas para responder perguntas e realizar pesquisas online, estão lutando para cumprir suas promessas.
Está com pressa? Aqui estão os fatos rápidos:
- GPT-4.5 apresentou afirmações não suportadas em 47% das respostas.
- O agente de pesquisa profunda da Perplexity atingiu 97,5% de afirmações não suportadas.
- Ferramentas frequentemente apresentam respostas unilaterais ou excessivamente confiantes em questões de debate.
Pesquisadores relataram que cerca de um terço das respostas fornecidas por mecanismos de busca de IA generativa e agentes de pesquisa profunda continham afirmações não fundamentadas, e muitas foram apresentadas de maneira tendenciosa ou unilateral.
O estudo, liderado por Pranav Narayanan Venkit da Salesforce AI Research, testou sistemas como o GPT-4.5 e 5 da OpenAI, Perplexity, You.com, Bing Chat da Microsoft e Google Gemini. Em 303 consultas, as respostas foram julgadas com base em oito critérios, incluindo se as afirmações eram respaldadas por fontes.
Os resultados foram preocupantes. O GPT-4.5 produziu afirmações sem suporte em 47% das respostas. O Bing Chat apresentou declarações sem suporte em 23% dos casos, enquanto You.com e Perplexity alcançaram cerca de 31%.
O agente de pesquisa aprofundada da Perplexity foi o que teve o pior desempenho, com 97,5% de suas afirmações não comprovadas. “Ficamos definitivamente surpresos ao ver isso,” disse Narayanan Venkit para o New Scientist.
Os pesquisadores explicam que os motores de busca generativos (GSEs) e os agentes de pesquisa aprofundada (DRs) devem coletar informações, citar fontes confiáveis e fornecer respostas longas. No entanto, quando testados na prática, muitas vezes falham.
O quadro de avaliação, chamado DeepTRACE, mostrou que esses sistemas frequentemente dão “respostas unilaterais e excessivamente confiantes em consultas de debate e incluem grandes frações de declarações não suportadas por suas próprias fontes listadas”, conforme observado pelos pesquisadores.
Críticos alertam que isso mina a confiança do usuário. New Scientist relata que Felix Simon, da Universidade de Oxford, disse: “Houve frequentes reclamações de usuários e vários estudos mostrando que, apesar das grandes melhorias, os sistemas de IA podem produzir respostas unilaterais ou enganosas.”
“Assim, este artigo fornece algumas evidências interessantes sobre este problema que, esperamos, ajudará a estimular melhorias adicionais nesta frente”, acrescentou ele.
Outros questionaram os métodos, mas concordaram que a confiabilidade e a transparência continuam sendo preocupações sérias. Conforme os pesquisadores concluíram, “os atuais sistemas públicos não cumprem sua promessa de fornecer uma síntese confiável e fundamentada em fontes”.