开放科学中的数据诚信问题研究
编委: 韩婧
关键词:
本文引用格式
姚长青, 田瑞强.
1 引言
近年来,科研诚信问题屡屡引起人们的广泛关注。科研诚信是科学价值体现的条件,科学进步的一个至关重要的因素是保证科研诚信。科研诚信建设需要多方参与,科研机构、基金资助机构、专业学会、期刊出版商和研究人员都应付出努力以维护科研诚信。论文相似性检测、COPE的出版规范、高质量的同行评审、学术道德规范教育等都是防止学术不端的重要措施。
科学数据是科研活动中所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息[3]。传统模式的学术出版,出版论文与数据材料相互割裂,较难找出两者之间的联系,很难发现有效数据,与科学交流方式及成果多元化相矛盾[4,5]。在大数据科研环境下,对科学数据的获取和利用是保障与促进科研创新的前提。国内外缺少统一的科学数据标准规范体系,妨碍科学交流中数据的交换与共享,科研活动的透明度较低,存在学术不端的潜在风险。科研诚信[6]是开放科学的重要议题,开源软件、开放获取[7]、开放数据[8]、开放研究方法、开放同行评议[9,10]等开放科学运动的理念及技术力量使科研诚信建设具有了更多可能性。本文通过分析与科学数据有关的科研诚信问题,讨论开放科学环境下应对数据诚信问题的对策,以期为科研诚信建设提供借鉴。
2 数据诚信概述
Wager的分类中除了“不详”(No reason/unclear)、“不准确/误导性报道”(Inaccurate/misleading reporting)、“未说明的不端行为”(Misconduct unspecified)、“伦理问题”(Ethical problems with research)、“期刊的错误”[Journal (administrative) error]这5类原因外,其他的论文撤销的原因都与数据有关。其中直接相关的包括:“伪造数据”(Fabricated data、Falsified data)、“未经许可使用的数据/作者争议”(Data used without permission/author dispute)。间接相关的包括:“不可重复”(Could not replicate findings)和“重复出版”(Redundant publication)。其中子分类与数据有关的撤销原因包括:“诚实错误”(Honest error)、“剽窃”(Plagiarism)。其中“诚实错误”(Honest error)共有3个子项:“基于错误/欺诈*数据”(based on incorrect/ fraudulent* data);“研究错误”(research error);“计算错误”(calculation error/ inaccurate data)。其中“剽窃”(Plagiarism)共有4个子项:“全文抄袭”(total (whole paper copied));“仅部分数据”(partial-data only);“仅部分文本”(partial- text only);“部分数据和文本”(partial data and text)。可以看出,数据问题是学术论文被撤销的重要原因,伪造数据、剽窃是主要的学术不端行为。重复性和再现性通常作为科学实验的评价标准。再现性是精密测量或科学实验的关键因素。可重复性指在相同实验条件下使用相同的实验设备方法得到相同结果的程度。很多论文的撤销声明中的撤销原因归结为作者不能再现其论文中的发现。错误主要指由于不准确引发的撤销,并无证据表明存在故意的造假或欺骗,或可明确的称为诚实的错误。为行文简便,本文将科研诚信中与数据有关的诚信问题统称为“数据诚信”问题。
3 数据诚信问题现状
3.1 科研诚信办公室(ORI)
根据ORI官网公告的学术不端案例数据统计,目前仍处于有效期限的案例共计34例(2008—2017年)。34起案例可全部归因为造假(falsified and/or fabricated),并不包含剽窃的案例。共有76%的案例与数据有关(26起)。图1显示,2014年前,学术不端行为案件较少。近年来则呈明显的突增趋势,其中2015年达到高峰。与数据有关的学术不端案例占比很高。
3.2 出版道德规范委员会(COPE)
出版道德规范委员会(The Committee on Publication Ethics,COPE)于1997年成立,有覆盖所有领域的9000多成员。世界主要出版集团的期刊均为COPE成员。COPE提供了有关出版道德及规范指南,该指南对几乎所有出版行为涉及的环节给出了执行框架和程序,对一些出版伦理、抄袭等都给出了处理应对方案[19]。COPE网站共收录了582个学术不端案例,其中涉及数据诚信问题的案例共125件,占比21.48%。
表1 COPE学术不端案例统计
| 分类 | 案例数/件 | 占比/% | |
| 出版后的更正 | Post-publication discussions and corrections | 215 | 36.94 |
| 道德监督 | Ethical oversight | 182 | 31.27 |
| 投诉和上诉 | Complaints and appeals | 134 | 23.02 |
| 知识产权 | Intellectual property | 134 | 23.02 |
| 作者和贡献者 | Authorship and contributor ship | 132 | 22.68 |
| 数据和可重复性 | Data and reproducibility | 125 | 21.48 |
| 期刊管理 | Journal management | 108 | 18.56 |
| 同行评审流程 | Peer review processes | 73 | 12.54 |
| 利益冲突/竞争利益 | Conflicts of interest / Competing interests | 70 | 12.03 |
3.3 撤销监测网(Retraction Watch)
表2 Retraction Watch因数据诚信撤销的论文统计(截至2017年)
| 撤销原因 | 撤销文献数/篇 | |
| 关于数据的担忧/问题 | Concerns/Issues About Data | 773 |
| 重复数据 | Duplication of Data | 226 |
| 数据错误 | Error in Data | 759 |
| 伪造/制造数据 | Falsification/Fabrication of Data | 791 |
| 剽窃数据 | Plagiarism of Data | 44 |
| 不可靠的数据 | Unreliable Data | 45 |
| 总计 | 2 638 | |
4 开放科学中的数据诚信建设
开放科学使科学研究的内容和过程更透明且使他人更易于获取。开放科学和透明性科学虽然有些重复,然而由于“透明”是理想状态,实际上的科学往往缺乏开放性,比如订阅权限、出版形式等的限制。因此,倡导开放科学的理念,促进科学透明度,对于科研诚信建设极具意义。而在数据密集型科研范式下,科学数据的作用和价值毋庸置疑,数据驱动的研究创新正变得流行。通过促进科研过程中的数据开放、透明度,并对数据科学评价,增强研究的严谨性有望克服当前的数据诚信问题。
4.1 开放科学促进可重复性研究
2017年,Marcus R等提出了“可重复科学宣言”[26],主张采取措施优化科学过程的关键要素:方法、报告和传播、再现性、评估和激励措施,通过这些措施希望提高科学研究的透明度,可重复性和效率。在可重复性方面,其主张的措施是促进透明度和开放科学。他强调科学论断的可信度源于支持它们的证据,其中包括所采用的方法、获得的数据以及方法实施过程,数据分析和结果解释。同行评议、推广应用和重复性支持证据使科学论断变得更可信。但是,透明度优于其他形式的信任。如果没有透明度,科学论断只能基于对作者的信任或权威的服从而可信度大打折扣。
4.2 数据论文增强科研透明度
随着开放科学理念的传播,继全文文献开放获取、科学数据开放共享运动的不断发展,实验流程、实验方法、实验记录、软件、协议、材料等构成科研活动客观支撑条件的研究要素也受到越来越多的重视,并催生了基于研究要素的出版类型。其中数据论文作为数据密集型科研范式下,新兴的研究要素出版类型占据着极其重要的地位。从体量上看,它远远多于其他类型[25]。
Web of Science数据平台中的数据论文(Data Paper)是描述特定数据集或一组数据集的学术出版物。数据论文的主要目的是提供有关数据(原始数据,例如数据收集、访问、功能等)的各项事实,与传统研究论文中支持分析和研究的数据区别。数据研究(Data Study)是针对知识库中所存储的研究或实验的描述,以及数据研究中所使用的相关数据[27]。Elsevier平台下专门发表数据论文的期刊《Data in Brief》将数据论文界定为对研究数据的描述。传统文献中,研究数据通常隐藏在附录材料中,或者根本不会发表。数据论文出版使研究数据也经过严格的同行评议、格式化标准化、被数据库索引和赋予DOI。
数据论文符合学术出版物标准,对研究过程中的数据收集、处理、内容、使用软件、文件格式等进行详细的描述。数据论文可以在传统学术期刊上与学术论文一起混合出版,也可以在专门数据期刊出版。数据论文能够保证重用数据,保证数据的可信度,体现科研诚信。通过出版论文与数据材料相互关联,数据论文保证数据源“透明度”,使科学研究过程更注重科学协作、科研共享、数据重用,有利于科研诚信建设。
4.3 数据评价提高科学严谨性
在透明度和开放科学中,除了倡导披露、公开研究数据外,为了增强科学研究的严谨性,还需对科学数据进行多样化的评价,验证共享数据是否可重复。在学术出版中,eLife对同行评议流程进行了改革创新,摒弃了传统的双盲评审,采用了一种开放协作式的同行评议。评审专家之间并不匿名,开放协作形成评审意见并随论文的发表而公开,对于被退稿的稿件,也将审稿专家信息及意见与合作刊物共享[28]。此外,传统的同行评审在论文发表之前完成。Science Open的出版后评审,是稿件经过编辑审查出版以后才进入透明的同行评审过程,不但评审内容公开,而且身份也公开,使科研的出版过程更加开放、透明[29]。对于科学数据,研究者也开始将数据同行评议视为由用户驱动的后数据出版过程[30]。由于数据的可扩展性,无论在出版前的质量水平如何控制,数据质量往往会随着数据版本更新等而发生变化,更需要在出版后经过长时间的传播和大范围分发,经过使用后才能真正评价其价值。
5 启示及结论
科学数据诚信问题是学术论文被撤销的重要原因,在出版道德规范委员会关于论文的撤销原因分类中,多数都与数据有关。美国科研诚信办公室查处的学术不端案例中与数据有关的占76%,出版道德规范委员会公示的案例中涉及数据诚信问题的占22%,撤销监测网收录的文献中与数据诚信有关的撤销论文占14%。撤销监测网覆盖范围最广,收录了全球范围内与学术不端有关的撤销文献。出版道德规范委员会旨在为学术期刊提供规范指南和最佳实践建议。美国科研诚信办公室查处的学术不端案例多为美国影响较大的学术不端事件。可以说,虽然撤销监测网收录的全球范围的撤销文献中与数据诚信有关的论文占比并不高,但从出版道德规范委员会和美国科研诚信办公室公示的学术不端案例来看,数据诚信问题仍是学术不端行为的重要方面。
传统学术出版模式下出版论文与数据材料相互割裂,科研活动的透明度较低,存在潜在的学术不端风险。随着开放科学的兴起,利用技术手段使科学研究过程更注重科学协作、科研共享、数据重用,科研诚信因而也成为开放科学的重要议题,开放获取、开放数据、开放研究方法、开放同行评议等开放科学的理念及技术有望使科研诚信建设取得新的进展,尤其在科学数据诚信方面。
当然,科研诚信建设是个系统工程,预防和治理都不可或缺。数据密集型科研范式下,通过促进科研过程中的数据开放、规范科学数据出版和使用过程,提高科研过程透明度,从科研生产的上游开始建立诚信规范,并对数据科学评价增强研究的严谨性,能够更好发挥数据驱动的研究创新水平。
参考文献
Transition to Science 2.0: “Remoralizing” the Economy of Science
[J].
Enhanced Publications: Data Models and Information Systems
[J].
Enhanced Publications : Linking Publications and Research Data in Digital Repositories
[J].
Errata, Retraction, Duplicate Publication, Comment, Update and Patient Summary Policy for MEDLINE [homepage on the Internet]
ORI Policy on Plagiarism
[EB/OL]. [
Why and how do journals retract articles? An analysis of Medline retractions 1988–2008
[J].
Ethics and scientific publication
[J].
Misconduct accounts for the majority of retracted scientific publications
[J].
The impact of misconduct on the published medical and non-medical literature, and the news media
[J].
Historical Background
[EB/OL]. [
An open investigation of the reproducibility of cancer biology research
[J].
Letter from the Executive Director
[EB/OL]. [
Guidelines for Transparency and Openness Promotion (TOP) in Journal Policies and Practices “The TOP Guidelines”
[EB/OL]. [
A manifesto for reproducible science
[J].
An emerging consensus for open evaluation: 18 visions for the future of scientific publishing
[J].
/
| 〈 |
|
〉 |
