科技与出版, 2019, 38(01): 130-135 doi: 10.16510/j.cnki.kjycb.2019.01.026

研究与教育

开放科学中的数据诚信问题研究

姚长青1), 田瑞强1),2)

1)中国科学技术信息研究所,100038,北京

2)武汉大学信息管理学院,430072,武汉

编委: 韩婧

摘要

科学数据诚信问题是学术论文被撤销的重要原因,伪造数据、剽窃是主要的学术不端行为。美国ORI公布的与数据有关的学术不端案例共26起,COPE网站收录的涉及数据诚信问题的案例共125件,Retraction Watch收录的与数据诚信有关的撤销论文共2 638篇。在数据密集型科研范式下,通过促进科研过程中的数据开放性和透明度,并对数据科学评价以提高科学严谨性等措施有利于科研诚信建设。

关键词: 科学数据 ; 开放科学 ; 科研诚信 ; 学术不端

PDF (2183KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

姚长青, 田瑞强. 开放科学中的数据诚信问题研究. 科技与出版[J], 2019, 38(01): 130-135 doi:10.16510/j.cnki.kjycb.2019.01.026

1 引言

近年来,科研诚信问题屡屡引起人们的广泛关注。科研诚信是科学价值体现的条件,科学进步的一个至关重要的因素是保证科研诚信。科研诚信建设需要多方参与,科研机构、基金资助机构、专业学会、期刊出版商和研究人员都应付出努力以维护科研诚信。论文相似性检测、COPE的出版规范、高质量的同行评审、学术道德规范教育等都是防止学术不端的重要措施。

开放科学的兴起,利用技术手段使研究活动更具协作性和开放性。开放科学的影响主要体现为研究产出急剧上升、科研人员和科研受众显著增加、数据密集型科学必然兴起[1]。随着e-Science、第四范式等科学研究范式的发展,科学研究过程更注重科学协作、科研共享、数据重用,更关注科学数据、软件工具、多媒体信息等非文献型数字资源[2]

科学数据是科研活动中所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息[3]。传统模式的学术出版,出版论文与数据材料相互割裂,较难找出两者之间的联系,很难发现有效数据,与科学交流方式及成果多元化相矛盾[4,5]。在大数据科研环境下,对科学数据的获取和利用是保障与促进科研创新的前提。国内外缺少统一的科学数据标准规范体系,妨碍科学交流中数据的交换与共享,科研活动的透明度较低,存在学术不端的潜在风险。科研诚信[6]是开放科学的重要议题,开源软件、开放获取[7]、开放数据[8]、开放研究方法、开放同行评议[9,10]等开放科学运动的理念及技术力量使科研诚信建设具有了更多可能性。本文通过分析与科学数据有关的科研诚信问题,讨论开放科学环境下应对数据诚信问题的对策,以期为科研诚信建设提供借鉴。

2 数据诚信概述

美国国立医学图书馆认定的学术论文撤销的主要原因有:普遍的错误(pervasive error)、未经证实的数据(unsubstantiated data)及不能再现的数据(irreproducible data)[11]。美国科研诚信办公室对不端行为的定义:“……在提议、进行或审查研究时或者在报道研究结果时的捏造、伪造或剽窃。”[12]

Wager[13]的研究总结了撤销论文的12种撤销原因。Pierre等的研究也采用了12种撤销原因的分类方法,他们的撤销原因分类整体相近。Benos[14],Ferric[15],Zhang[16]等的研究将撤销原因分为欺诈、可能的欺诈、错误、重复出版、剽窃及未知原因,这些分类与Wager等的工作一脉相承。Wager关于撤销论文原因分类的研究被COPE期刊出版指南采用,接受度较高。

Wager的分类中除了“不详”(No reason/unclear)、“不准确/误导性报道”(Inaccurate/misleading reporting)、“未说明的不端行为”(Misconduct unspecified)、“伦理问题”(Ethical problems with research)、“期刊的错误”[Journal (administrative) error]这5类原因外,其他的论文撤销的原因都与数据有关。其中直接相关的包括:“伪造数据”(Fabricated data、Falsified data)、“未经许可使用的数据/作者争议”(Data used without permission/author dispute)。间接相关的包括:“不可重复”(Could not replicate findings)和“重复出版”(Redundant publication)。其中子分类与数据有关的撤销原因包括:“诚实错误”(Honest error)、“剽窃”(Plagiarism)。其中“诚实错误”(Honest error)共有3个子项:“基于错误/欺诈*数据”(based on incorrect/ fraudulent* data);“研究错误”(research error);“计算错误”(calculation error/ inaccurate data)。其中“剽窃”(Plagiarism)共有4个子项:“全文抄袭”(total (whole paper copied));“仅部分数据”(partial-data only);“仅部分文本”(partial- text only);“部分数据和文本”(partial data and text)。可以看出,数据问题是学术论文被撤销的重要原因,伪造数据、剽窃是主要的学术不端行为。重复性和再现性通常作为科学实验的评价标准。再现性是精密测量或科学实验的关键因素。可重复性指在相同实验条件下使用相同的实验设备方法得到相同结果的程度。很多论文的撤销声明中的撤销原因归结为作者不能再现其论文中的发现。错误主要指由于不准确引发的撤销,并无证据表明存在故意的造假或欺骗,或可明确的称为诚实的错误。为行文简便,本文将科研诚信中与数据有关的诚信问题统称为“数据诚信”问题。

3 数据诚信问题现状

3.1 科研诚信办公室(ORI)

科研诚信办公室(The Office of Research Integrity,ORI)监督公共卫生领域的科研诚信活动[17]。经过二十多年的发展,不断修改完善政策制度和程序,ORI已经成为政治与科学相结合的“边界组织”典范[18]。在监督科研活动、推进科研诚信、防止学术不端领域,ORI具有世界范围的影响力。ORI公告板公示了学术不端行为案件名单,失效的案例会从公告板上移除。

根据ORI官网公告的学术不端案例数据统计,目前仍处于有效期限的案例共计34例(2008—2017年)。34起案例可全部归因为造假(falsified and/or fabricated),并不包含剽窃的案例。共有76%的案例与数据有关(26起)。图1显示,2014年前,学术不端行为案件较少。近年来则呈明显的突增趋势,其中2015年达到高峰。与数据有关的学术不端案例占比很高。

ORI生效的学术不端及与数据诚信有关的案例

3.2 出版道德规范委员会(COPE)

出版道德规范委员会(The Committee on Publication Ethics,COPE)于1997年成立,有覆盖所有领域的9000多成员。世界主要出版集团的期刊均为COPE成员。COPE提供了有关出版道德及规范指南,该指南对几乎所有出版行为涉及的环节给出了执行框架和程序,对一些出版伦理、抄袭等都给出了处理应对方案[19]。COPE网站共收录了582个学术不端案例,其中涉及数据诚信问题的案例共125件,占比21.48%。

表1   COPE学术不端案例统计

分类案例数/件占比/%
出版后的更正Post-publication discussions and corrections21536.94
道德监督Ethical oversight18231.27
投诉和上诉Complaints and appeals13423.02
知识产权Intellectual property13423.02
作者和贡献者Authorship and contributor ship13222.68
数据和可重复性Data and reproducibility12521.48
期刊管理Journal management10818.56
同行评审流程Peer review processes7312.54
利益冲突/竞争利益Conflicts of interest / Competing interests7012.03

新窗口打开| 下载CSV


3.3 撤销监测网(Retraction Watch)

美国记者Oransky和Marcus于2010年建立了“Retraction Watch”网站,致力于检查撤销文献,是监测跟踪撤销论文的实例[20]。在Retraction Watch检索了其中与数据诚信有关的撤销文献。截至2017年,Retraction Watch共收录撤销文献18 893篇,其中与数据诚信有关的撤销论文共2 638篇,占比13.96%。其中因数据造假而被撤销的论文最多,共791篇。此外,因对数据担忧而撤销的论文也有773篇,因数据错误而撤销的论文共759篇。(见表1

表2   Retraction Watch因数据诚信撤销的论文统计(截至2017年)

撤销原因撤销文献数/篇
关于数据的担忧/问题Concerns/Issues About Data773
重复数据Duplication of Data226
数据错误Error in Data759
伪造/制造数据Falsification/Fabrication of Data791
剽窃数据Plagiarism of Data44
不可靠的数据Unreliable Data45
总计 2 638

新窗口打开| 下载CSV


4 开放科学中的数据诚信建设

开放科学使科学研究的内容和过程更透明且使他人更易于获取。开放科学和透明性科学虽然有些重复,然而由于“透明”是理想状态,实际上的科学往往缺乏开放性,比如订阅权限、出版形式等的限制。因此,倡导开放科学的理念,促进科学透明度,对于科研诚信建设极具意义。而在数据密集型科研范式下,科学数据的作用和价值毋庸置疑,数据驱动的研究创新正变得流行。通过促进科研过程中的数据开放、透明度,并对数据科学评价,增强研究的严谨性有望克服当前的数据诚信问题。

4.1 开放科学促进可重复性研究

公开透明对于科学进步至关重要[21]。可重复性和再现性通常作为科学研究的评价标准,提升科学研究过程及学术出版的透明度,不仅能够促进科学协作,也能促进科研共享、数据重用,提升研究的可重复性,有利于科研诚信建设。如果其他研究者无法重复科学理论和研究发现的证据,那么该理论或发现就会失去其科学价值和地位。可重复性因而也成为将科学与其他知识获取方式区分开来的重要特征[22]。传统的学术出版,论文与数据相互割裂,研究过程透明度较低,不仅阻碍高效的科学交流,也容易滋生潜在的学术不端[4,5]

开放科学的兴起,倡导科学研究更具协作性和开放性,科研诚信也是开放科学的重要议题。开放科学中心(the Center for Open Science,COS)[23]是旨在提高研究的开放性,完整性和可重复性的非营利性机构,其倡导的透明和开放性促进指南[the Transparency and Openness Promotion(TOP)guidelines]为开放科学框架建立了期刊的数据共享政策[24,25],成为开放科学理念的典型代表。TOP政策主要从引文标准,数据、分析方法、代码和研究材料,设计和分析过程,预先登记研究计划、分析计划的预注册、重复性研究等方面促进科学的开放透明度。

2017年,Marcus R等提出了“可重复科学宣言”[26],主张采取措施优化科学过程的关键要素:方法、报告和传播、再现性、评估和激励措施,通过这些措施希望提高科学研究的透明度,可重复性和效率。在可重复性方面,其主张的措施是促进透明度和开放科学。他强调科学论断的可信度源于支持它们的证据,其中包括所采用的方法、获得的数据以及方法实施过程,数据分析和结果解释。同行评议、推广应用和重复性支持证据使科学论断变得更可信。但是,透明度优于其他形式的信任。如果没有透明度,科学论断只能基于对作者的信任或权威的服从而可信度大打折扣。

4.2 数据论文增强科研透明度

随着开放科学理念的传播,继全文文献开放获取、科学数据开放共享运动的不断发展,实验流程、实验方法、实验记录、软件、协议、材料等构成科研活动客观支撑条件的研究要素也受到越来越多的重视,并催生了基于研究要素的出版类型。其中数据论文作为数据密集型科研范式下,新兴的研究要素出版类型占据着极其重要的地位。从体量上看,它远远多于其他类型[25]

Web of Science数据平台中的数据论文(Data Paper)是描述特定数据集或一组数据集的学术出版物。数据论文的主要目的是提供有关数据(原始数据,例如数据收集、访问、功能等)的各项事实,与传统研究论文中支持分析和研究的数据区别。数据研究(Data Study)是针对知识库中所存储的研究或实验的描述,以及数据研究中所使用的相关数据[27]。Elsevier平台下专门发表数据论文的期刊《Data in Brief》将数据论文界定为对研究数据的描述。传统文献中,研究数据通常隐藏在附录材料中,或者根本不会发表。数据论文出版使研究数据也经过严格的同行评议、格式化标准化、被数据库索引和赋予DOI。

数据论文符合学术出版物标准,对研究过程中的数据收集、处理、内容、使用软件、文件格式等进行详细的描述。数据论文可以在传统学术期刊上与学术论文一起混合出版,也可以在专门数据期刊出版。数据论文能够保证重用数据,保证数据的可信度,体现科研诚信。通过出版论文与数据材料相互关联,数据论文保证数据源“透明度”,使科学研究过程更注重科学协作、科研共享、数据重用,有利于科研诚信建设。

4.3 数据评价提高科学严谨性

在透明度和开放科学中,除了倡导披露、公开研究数据外,为了增强科学研究的严谨性,还需对科学数据进行多样化的评价,验证共享数据是否可重复。在学术出版中,eLife对同行评议流程进行了改革创新,摒弃了传统的双盲评审,采用了一种开放协作式的同行评议。评审专家之间并不匿名,开放协作形成评审意见并随论文的发表而公开,对于被退稿的稿件,也将审稿专家信息及意见与合作刊物共享[28]。此外,传统的同行评审在论文发表之前完成。Science Open的出版后评审,是稿件经过编辑审查出版以后才进入透明的同行评审过程,不但评审内容公开,而且身份也公开,使科研的出版过程更加开放、透明[29]。对于科学数据,研究者也开始将数据同行评议视为由用户驱动的后数据出版过程[30]。由于数据的可扩展性,无论在出版前的质量水平如何控制,数据质量往往会随着数据版本更新等而发生变化,更需要在出版后经过长时间的传播和大范围分发,经过使用后才能真正评价其价值。

5 启示及结论

科学数据诚信问题是学术论文被撤销的重要原因,在出版道德规范委员会关于论文的撤销原因分类中,多数都与数据有关。美国科研诚信办公室查处的学术不端案例中与数据有关的占76%,出版道德规范委员会公示的案例中涉及数据诚信问题的占22%,撤销监测网收录的文献中与数据诚信有关的撤销论文占14%。撤销监测网覆盖范围最广,收录了全球范围内与学术不端有关的撤销文献。出版道德规范委员会旨在为学术期刊提供规范指南和最佳实践建议。美国科研诚信办公室查处的学术不端案例多为美国影响较大的学术不端事件。可以说,虽然撤销监测网收录的全球范围的撤销文献中与数据诚信有关的论文占比并不高,但从出版道德规范委员会和美国科研诚信办公室公示的学术不端案例来看,数据诚信问题仍是学术不端行为的重要方面。

传统学术出版模式下出版论文与数据材料相互割裂,科研活动的透明度较低,存在潜在的学术不端风险。随着开放科学的兴起,利用技术手段使科学研究过程更注重科学协作、科研共享、数据重用,科研诚信因而也成为开放科学的重要议题,开放获取、开放数据、开放研究方法、开放同行评议等开放科学的理念及技术有望使科研诚信建设取得新的进展,尤其在科学数据诚信方面。

当然,科研诚信建设是个系统工程,预防和治理都不可或缺。数据密集型科研范式下,通过促进科研过程中的数据开放、规范科学数据出版和使用过程,提高科研过程透明度,从科研生产的上游开始建立诚信规范,并对数据科学评价增强研究的严谨性,能够更好发挥数据驱动的研究创新水平。

参考文献

Tyfield D.

Transition to Science 2.0: “Remoralizing” the Economy of Science

[J]. Spontaneous Generations A Journal for the History & Philosophy, 2013, 7(1).

[本文引用: 1]

徐丽芳王钰.

开放科学的挑战与因应:2017年海外科技期刊出版动态研究

[J]. 科技与出版,2018(2):13-21.

[本文引用: 1]

司莉贾欢.

科学数据的标准规范体系框架研究

[J]. 图书馆,2016(5):5-9.

[本文引用: 1]

Bardi A, Manghi P.

Enhanced Publications: Data Models and Information Systems

[J]. Liber Quarterly the Journal of European Research Libraries, 2014, 22(4).

[本文引用: 2]

Woutersen-Windhouwer S, Brandsma R, Hogenaar A, et al.

Enhanced Publications : Linking Publications and Research Data in Digital Repositories

[J]. Amsterdam University Press, 2009.

[本文引用: 2]

STM position on Open Science

[EB/OL].(2016-10-30). [2018-04-28]. .

URL     [本文引用: 1]

张志刚毛一雷袁芳.

国外学术论文开放存取平台建设分析

[J]. 情报工程,20173(06):116-126.

[本文引用: 1]

张迎张志平梁冰.

科学数据管理应用模式的研究

[J]. 情报工程,20173(04):71-77.

[本文引用: 1]

陈晓峰云昭洁.

区块链在学术出版领域的创新应用及展望

[J]. 情报工程,20173(02):4-12.

[本文引用: 1]

梁洁.

ScienceOpen的“互联网+学术出版”模式介绍、分析及启示

[J]. 中国科技期刊研究,201627(02):185-192.

[本文引用: 1]

Sheet F.

Errata, Retraction, Duplicate Publication, Comment, Update and Patient Summary Policy for MEDLINE [homepage on the Internet]

Bethesda (MD): National Library of Medicine (US); [EB/OL]. 2002 [updated 2005 Jan 21].

[本文引用: 1]

US Department of Health and Human Services, Office of Research Integrity.

ORI Policy on Plagiarism

[EB/OL]. [2018-09-28]. .

URL     [本文引用: 1]

Wager E, Williams P.

Why and how do journals retract articles? An analysis of Medline retractions 1988–2008

[J]. Journal of medical ethics, 2011, 37(9): 567-570.

[本文引用: 1]

Benos D J, et al.

Ethics and scientific publication

[J]. Advances in Physiology Education, 2005. 29: 59-74.

[本文引用: 1]

Fang FC, Steen RG, Casadevall A.

Misconduct accounts for the majority of retracted scientific publications

[J]. Proceedings of the National Academy of Sciences of the United States of America. 2013. 110(3): 1137-1137.

[本文引用: 1]

Zhang M, Grieneisen M L.

The impact of misconduct on the published medical and non-medical literature, and the news media

[J]. Scientometrics, 2013, 96(2): 573-587.

[本文引用: 1]

US Department of Health and Human Services, Office of Research Integrity.

Historical Background

[EB/OL]. [2017-11-18]. .

URL     [本文引用: 1]

胡金富史玉民.

美国研究诚信办公室:历史演变、管理体制和运行机制

[J]. 科技管理研究,201737(12):47-51.

[本文引用: 1]

Committee on Publication Ethics.

COPE code of conduct

(accessed 22 Sep 2010).

URL     [本文引用: 1]

Oransky, I., and Marcus. A.

Retraction Watch

[EB/OL].

URL     [本文引用: 1]

David Mellor.

The Landscape of Open Data Policies

[EB/OL]. [2018-10-13] .

URL     [本文引用: 1]

Errington Timothy M, Iorns Elizabeth, Gunn William, et al.

An open investigation of the reproducibility of cancer biology research

[J]. 2014, 3.

[本文引用: 1]

the Center for Open Science.

Letter from the Executive Director

[EB/OL]. [2018-10-13] .

URL     [本文引用: 1]

the Center for Open Science.

Guidelines for Transparency and Openness Promotion (TOP) in Journal Policies and Practices “The TOP Guidelines”

[EB/OL]. [2018-10-13]. .

URL     [本文引用: 1]

刘凤红张恬.

开放科学背景下新兴学术论文出版类型:研究要素出版

[J]. 中国科技期刊研究,201728(2):138-144.

[本文引用: 2]

Munafò Marcus R., Nosek B A, Bishop D V M, et al.

A manifesto for reproducible science

[J]. 2017.

[本文引用: 1]

Web of Science所有数据库.帮助

[EB/OL]. [2018-11-15] .

URL     [本文引用: 1]

姚长青田瑞强.

新科学研究范式下的学术期刊出版趋势研究

[J]. 科技与出版,2018(5):31-36.

[本文引用: 1]

scienceopen

[EB/OL]. [2018-04-28]. .

URL     [本文引用: 1]

Kriegeskorte N, Walther A, Deca D.

An emerging consensus for open evaluation: 18 visions for the future of scientific publishing

[J]. Frontiers in Computational Neuroscience, 2012, 6(2): 94.

[本文引用: 1]

/