Os artigos científicos dependem da confiança dos leitores em suas informações. É por isso que é perturbador que um novo estudo por pesquisadores conectados com Cornell e UCLA encontraram 146.900 citações falsas geradas por IA em artigos científicos hospedados em quatro grandes bancos de dados de pesquisa.
Uma limitação importante dos grandes modelos de linguagem, como Gemini e ChatGPT, é sua tendência de produzir informações que parecem plausíveis, mas incorretas, um fenômeno conhecido como alucinação. Se um pesquisador depende de um chatbot para redigir citações sem verificá-las, o modelo pode gerar referências totalmente fabricadas.
Embora os artigos científicos sejam muitas vezes escondidos dos olhos do público, a investigação que relatam tem um impacto profundo nas nossas vidas. Tudo de a Internet para baterias de íon de lítio começou como um trabalho de pesquisa.
Mas quando os cientistas submetem artigos que citam alucinações de IA, isso pode minar a confiança na qualidade da investigação.
Ciência desleixada
A equipe de pesquisa analisou 111 milhões de referências de 2,5 milhões de artigos científicos. Eles procuraram citações com títulos que a equipe não conseguiu corresponder a nenhuma publicação. Embora alguns desses casos fossem apenas erros ortográficos, a equipe também encontrou alucinações.
Pesquisadores inescrupulosos já haviam falsificado citações muito antes do surgimento dos chatbots, então a equipe também examinou as taxas de citações incomparáveis em pesquisas publicadas antes de 2023, quando os chatbots ainda não haviam se twister onipresentes.
“Encontramos um aumento acentuado em referências inexistentes após a adoção generalizada do LLM”, escrevem os autores no artigo.
A equipe também descobriu que as citações ruins estavam espalhadas por muitos artigos, em vez de concentradas em apenas alguns. Isto sugere que o problema é generalizado, com muitos investigadores a confiar em referências geradas pela IA sem as verificar totalmente.
Sinais de alerta
Usha Haley, professora de gestão na Wichita State College, disse à CNET por e-mail que vê a proliferação de citações falsas como um aviso sério.
“Citações falsas ou geradas por IA minam a confiança no registro acadêmico que fornece a base sobre a qual repousam a revisão por pares e o conhecimento cumulativo”, disse Haley. “Perturbadoramente, este ceticismo vem agora da própria academia e de acadêmicos em início de carreira”.
As quatro bases de dados onde os pesquisadores encontraram citações falsas são arXiv, bioRxiv, SSRN e PubMed Central. Estas organizações, conhecidas como repositórios científicos, desempenham um papel importante no mundo da investigação.
Antes de um artigo ser publicado numa revista científica, os autores muitas vezes carregam-no num repositório científico, aumentando a sua visibilidade e permitindo que a comunidade científica international o tenha acesso imediato. O novo artigo sobre citações alucinantes de IA está atualmente hospedado no arXiv.
Recentemente, o arXiv tomou medidas para conter o fluxo de citações falsas. A organização anunciado terça-feira que proibirá autores que enviem trabalhos com citações alucinadas ou com qualquer sinal de conteúdo de IA que não tenha sido cuidadosamente verificado.
“O corpus da ciência está se diluindo. Muitas das coisas de IA estão ativamente erradas ou não têm sentido. É apenas ruído”, disse o diretor científico do arXiv, Steinn Sigurdsson, a Katelyn Chedraoui da CNET em fevereiro. “Isso torna mais difícil descobrir o que realmente está acontecendo e pode desorientar as pessoas.”









