张田勘
随着出版商努力清理大量造假论文、打击同行评议欺诈行为,2023年,被撤回的研究论文数量已超过1万篇,打破了年度纪录。(12月19日,澎湃新闻)
据《自然》的一项分析表明,论文撤回率(任意一年发表的论文中被撤回的论文比例),在过去10年中增加了两倍多。2022年,这一比例超过0.2%,即每发表500篇论文同时撤稿1篇。同时,迄今公布的全球撤回论文总数已超过5万,而且还有数量更多的论文被认定为是“论文工厂”生产的伪造论文,数量有数十万之多,其中一些的撤稿也在论证和进行中。
撤稿的增多表明论文泡沫的迅速增加,但这只是问题的一面。另一方面,还有大量的造假论文混杂在正常论文中,有的没有被发现,有的即便发现了,也还没有启动撤稿程序,因为需要调查和证实。从比例来看,现在的撤稿率是0.2%,但估计的论文造假率是2%,造假率是撤稿率的10倍。
德国马格德堡奥托-冯-古里克大学神经心理学家、《恢复性神经病学和神经科学》期刊主编萨贝尔(BernhardSabel)最近用论文造假检测器验了5000篇论文,在2020年发表的神经科学论文中,有34%的论文涉嫌抄袭。在医学类论文中,这个比例也达到24%,这些论文造假率远高于2022年所预估的2%基线。
加利福尼亚州斯坦福大学的伊安尼迪斯团队研究了2000年至2022年在Scopus数据库中索引的文章、评论和会议论文,发现超高产作者成倍增加。除了物理学之外,大多数高产作者来自临床医学领域,到2022年已有近700名这类超级研究者。
科学研究是求真求实的人类行为,但是产出的论文却存在各种各样的造假,这反映了即便是在求真求实的科研中也存在泡沫,而且这样的泡沫也会影响到社会文明的提升、经济的发展。
论文泡沫之所以会大量出现,利益和手段不可或缺。就利益而言,发表假论文能获得更快和更现实的收入。全球的各类网站和社交媒体都不乏论文工厂的小广告,这些论文工厂甚至保证论文可以发表在SCI等顶级学刊,并根据难易程度收取1000美元到25000美元的费用。如果每篇造假论文均价1万美元来估算,论文造假行业的年营收可高达30亿至40亿美元。论文工厂的论文写手主要为科学领域的学生(大学硕士和博士生)、研究人员。有的论文工厂甚至宣称,在全球有数百名写手,每月都能稳定产出100多篇可供发表的学术论文。
另一方面,以ChatGPT为代表的生成式人工智能工具为这些论文工厂和写手提供了无本万利或廉价的工具,他们可以大量使用AI技术进行文本生成、数据统计、图像处理技术等。不只是论文工厂的写手采用ChatGPT生产论文,一些研究人员也使用ChatGPT写论文。
尽管出版商科学界希望能够检测出所有由ChatGPT或其他AI工具生成的文本,而且希望以人工智能来应对人工智能生产的论文,但在实践中,人工智能检测工具迄今为止还无法可靠地识别由人工智能生产的论文。
不过,围堵AI生成器来生产论文也并非好的方式,AI正在改变世界,也正在成为人们的帮手,因此需要对AI的使用制定规则,由此或可减少论文造假或撤稿。一项对100家出版商和期刊进行的研究发现,截至2023年5月,17%的出版商和70%的期刊已经发布了关于如何使用生成式人工智能的指导方针。当然这些方针存在差异,因此未来可能需要国际社会制定统一的指导方针,以帮助研究人员区分论文是否为原创。