我们热爱生命科学!-生物行
当前位置: 主页 > 生物资源 > 电子书库

生物医学数据库中有多少“水”论文

时间:2008-02-02 05:40来源:科学网 作者:bioguider 点击: 367次


        美国科学家的一项最新统计表明,美国国立医学图书馆Medline数据库收录的1700万篇论文中,大约有20万篇存在重复问题,它们要么是同一作者一稿多投,要么是涉嫌剽窃他人的成果。该统计研究结果刊登在1月24日的《自然》杂志上。

          美国德克萨斯大学西南医学中心的Mounir  Errami和Harold  Garner从Medline数据库中随机抽取了1995年以后的62000篇论文,利用文本匹配软件,他们对重复或者高度相似的论文摘要进行了检测,结果共找到421篇可能存在问题的论文。

        随后,Errami和Garner对这些“水”论文进行了手动检查,他们估计,62000篇论文中大约有0.04%涉嫌剽窃,而另有1.35%是同一作者一稿多发。

        由于缺乏足够的计算力对Medline中所有1700万篇论文进行对比研究,在了解最初找到的421篇“水”论文的普遍规律后,Errami和Garner采取了一种捷径——利用Medline数据库的“最相关论文”功能,将一篇论文的摘要与相关论文的进行对比。

        这样,两位研究人员又对数据库中的700多万篇论文进行了研究,确定出7万篇嫌疑论文。在排除掉一些“假阳性”情况后,他们最终认为,有5万篇确实是重复或剽窃的论文。将这一结果外推到1700万篇论文,再考虑到一些修正因素,他们估计,Medline数据库中大约有20万篇“水”论文。

        Errami和Garner现在已经将有嫌疑的7万篇论文上传到一个名为Déjà  vu的开放数据库中,从而起到威慑的作用。他们制作的名为eTBLAST文本匹配软件也可以自由获取。

        不过,令两人不解的是,他们的统计结果比例比此前的类似研究都低,其中的原因他们现在也无法说清。研究人员期望通过进一步的研究,能够找到一些论文问题的基本规律。初步的估计已经表明,一个国家的论文重复问题率(一稿多发或剽窃)与它总的论文量之间存在比例关系,而出自中国和日本的论文的这一比例大约为预期值的两倍。(科学网  任霄鹏/编译) (责任编辑:泉水)
顶一下
(27)
100%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
特别推荐
推荐内容