作者服务视角下数据论文出版流程的再优化
关键词:
本文引用格式
许玮, 王鹏涛.
在数据密集型科学研究范式驱动下,数据出版逐渐成为科学数据共享的最主要途径。数据出版的核心内容是为数据引用提供标准格式和永久访问地址[1],数据论文是其重要实践形式,能够让科研人员更有效地检索、理解和复用数据。目前,如何提升数据论文的认知度和规范性是现阶段学界探讨的首要问题。
1 文献回顾与问题提出
数据论文指描述一个数据集,给出数据收集、处理过程、软件工具、文件格式等细节描述[2]。目前,学界对数据论文的研究集中在实践层面,可分为两个维度:①调查统计出版数据论文学术期刊的分布情况,Candela等[3]建立了包括116种期刊的名录;刘凤红和彭琳[4]在Candela基础上开展摸底调查,得到全球168种期刊的运营情况、所属机构分布和学科分布。②对数据论文出版政策和出版流程的探讨,基于出版全流程,许洁等[5]对比分析Scientific Data和《中国科学数据》在数据存储、数据评审和数据引用3个关键出版环节的实践情况及差异。针对数据论文内容,黄国彬等[6]通过归纳代表性期刊的内容框架和核心模块,认为并未形成体现科学数据特性的规范化描述框架;Martinez等通过回顾生成和管理数据集的主要动机和途径,提出了数据论文的优化结构[7];Kim J对24种期刊的15个数据论文模板和指南进行分析,认为通用数据集属性、数据生产信息、存储库信息和重用信息是主要模块[8]。针对数据论文与数据集关联,邬金鸣等[9]从工作流角度,提出基于自动通信机制的动态关联和基于提交标志符的静态关联两种类型;针对评审环节,孙龙慧等[10]以Biodiversity Data Journal和Scientific Data为例,发现数据论文质量、数据利用价值、数据论文和数据的匹配性是数据论文的核心评审维度;Seo S等[11]调研9种期刊的同行评审制度、标准和编辑委员会结构,认为数据论文的同行评议需要积极探索新型实践模式。
回顾文献发现:首先,对数据论文出版政策和出版流程的探讨,其分析单元的选取主要是单个案例或少量代表性案例,对整体发展现状的考量相对缺乏;其次,学界对数据论文出版流程的思考缺乏对利益相关主体的观察和分析。作者服务是联结科研人员和出版商这两类核心参与主体的主要途径,是重要的出版服务形式。故本文以此为视角,基于数据论文出版流程开展研究。
2 数据来源与基本情况分析
2.1 数据采集方法
本文以数据论文出版流程为研究对象。值得注意的是,科研数据广义的范围至少包括原始数据、处理数据、软件、算法、协议、方法、材料等[12],鉴于上述数据类型均被纳入数据出版实践,故本文也将其归入讨论范围。在选取分析单元时,本研究以反映数据论文总体出版现状为原则,通过广泛查阅文献和网络信息,并逐一筛查期刊官网,最终得到出版数据论文的期刊189种。
2.2 数据论文的出版现状
(1)出版机构分布。如表1所示,本次统计的期刊涉及27家出版机构,其中,Springer Nature旗下出版数据论文的期刊数量为107种;其次是以数据出版闻名的小型学术出版公司Pensoft,据统计,Pensoft旗下约60%的期刊涉及数据论文出版。另外,中国科学院是数据论文的主要出版机构,率先创办《中国科学数据》和《全球变化数据学报》等专门探索数据论文出版模式的期刊。
表1 数据论文的出版机构分布情况
| 出版机构 | 期刊数量/种 |
| Springer Nature Group | 107 |
| Pensoft Publishers | 26 |
| Reed Elsevier Group | 17 |
| Ubiquity Press | 7 |
| 中国科学院 | 6 |
| John Wiley & Sons,Inc | 3 |
| Taylor & Francis Group | 2 |
| Oxford University Press | 2 |
| American Society for Gastrointestinal Endoscopy | 1 |
| CODATA | 1 |
| Copernicus GmbH | 1 |
| Ecological Society of America | 1 |
| F1000 Research Ltd | 1 |
| Humboldt Institute,Colombia | 1 |
| International Association for Plant Taxonomy (IAPT) | 1 |
| IOS Press | 1 |
| MDPI | 1 |
| MIT Press | 1 |
| PLOS | 1 |
| REABIC | 1 |
| SAGE Publications | 1 |
| University of Natural Resources and Life Sciences,Vienna | 1 |
| AIP Publishing | 1 |
| ACS Publications | 1 |
| 中国农业科学院 | 1 |
| 全国地质资料馆 | 1 |
| 上海市图书馆学会 | 1 |
| 汇总 | 189 |
(2)数据论文出版数量。表2为189种期刊在不同数据论文占比区间的分布情况。由于部分期刊创刊时为传统期刊,随着期刊数据政策的深化,才增设数据论文类型,为避免期刊转型时间对统计结果的影响,本文选取2020年1月至今为时间范围统计上述期刊的数据论文出版情况。统计结果显示,约70%的期刊出版数据论文数量占该期刊出版文章总数比例不足10%。另则,调查发现,部分创刊时以出版数据论文为主的期刊,在后期发展过程中,存在数据论文出版数量严重不足的现象,例如Pensoft公司出版的期刊Viticulture Data Journal。
表2 样本期刊在不同数据论文占比区间的分布情况
| X/% | [0,1] | [1,10] | [10,20] | [20,40] | [40,60] | [60,80] | [80,100] |
| 期刊数量/种 | 82 | 50 | 14 | 9 | 2 | 5 | 27 |
注:X为某期刊数据论文占2020年1月至今出版文章总数百分比。查询日期:2021-05-10。
3 基于作者服务的出版流程调查与分析
数据论文的出版流程包括投稿、审稿、发表等主要阶段。基于2.2的调查结果来看,目前大部分期刊出版数据论文数量占比偏低。科研人员是科学数据及数据论文的核心生产者和使用者,其投稿意愿与稿件质量是影响期刊发展质量的先决条件,而作者服务则是出版机构积聚作者资源的重要纽带。据此,本部分基于作者服务视角,对样本期刊的数据论文出版流程进行观察和分析。
3.1 数据论文投稿与数据存储
基于数据论文投稿阶段,本文主要调查出版商为投稿作者提供的数据论文撰写指导、数据存储指导、投稿增值服务等,上述内容决定了作者投稿的便利性和规范性,也间接影响着后续审稿环节的效率。
(1)数据论文撰写指导。据统计,89%的期刊于官网为作者提供了数据论文撰写模板,11%的期刊仅对数据论文内容要素作简要说明。期刊主要以两种形式为作者提供模板:一是依托期刊官网供作者参考或下载;二是将模板嵌入Overleaf、Authorea、Arpha等写作工具中,便于作者在线创作及投稿,其中,Arpha写作工具由Pensoft公司开发,集成论文创作、审阅、发布、托管和存档等模块[13]。
另外,对国内外代表性期刊的数据论文模板调查发现,模板正文结构框架主要涉及表3所示的7项内容。比较可知,我国涉及数据论文出版的期刊数量虽然较少,但数据论文主体内容框架却已初具规范性和统一性。而纵观整体情况,出版界仍未形成较为通用的内容框架,相似内容模块下的标准或要求在细化程度方面更是区别显著。从属于相同学科的期刊,其数据论文体例也存在较大差异,如表3所示,Wiley出版的Geoscience Data Journal与Taylor & Francis旗下Big Earth Data同属地球科学类期刊,其数据论文体例显然不同。从作者角度考虑,一方面,不同期刊之间文章体例的差异性会造成作者对数据论文认知模糊,并且可能导致作者投稿不便,例如在稿件被拒、重新投稿情境下,稿件转移存在阻碍;另一方面,关键性数据论文内容模块的缺失会影响其他科研人员的数据使用,致使作者科研成果共享与推广不畅。
表3 国内外代表性期刊的数据论文模板主体内容框架比较
| 期刊名称 | 模板内容 | ||||||
| 数据集基本信息 | 数据产生背景及意义 | 数据采集及处理方法 | 数据记录 | 数据样本描述 | 数据质量控制及验证 | 数据价值与使用建议 | |
| 图书馆杂志 | √ | √ | √ | √ | √ | √ | |
| 全球变化数据学报 | √ | √ | √ | √ | √ | ||
| 中国科学数据 | √ | √ | √ | √ | √ | √ | |
| 农业大数据学报 | √ | √ | √ | √ | √ | √ | |
| Data in Brief | √ | √ | √ | √ | |||
| Scientific Data | √ | √ | √ | √ | √ | ||
| Geoscience Data Journal | √ | √ | √ | √ | √ | ||
| Big Earth Data | √ | √ | √ | √ | √ | ||
| Open Health Data | √ | √ | √ | √ | √ | ||
(2)数据存储引导。在数据论文出版模式下,论文是对数据集的描述文件,数据需要被定向存储于数据仓储,数据论文与数据之间必须建立有效关联,继而催生作者侧数据存储服务需求的产生。调查发现,83%的期刊会向作者推荐公共数据仓储,而自行构建数据仓储的期刊占比为13%,剩余4%的期刊并未向作者提供数据存储建议或指导。
期刊与数据集的关联方式主要为基于自动通信机制的动态关联,此关联方式包括集成动态关联和非集成动态关联两类,区别在于数据仓储与期刊是否通过集成实现彼此之间的自动链接[9]。在依托公共数据仓储为主的样本期刊中,仅少量期刊与公共数据仓储实现集成关系,例如Pensoft旗下期刊与Dryad数据仓储系统集成,作者需向该公共数据仓储支付数据发布费用(Data Publishing Charge,简称DPC)。一般而言,自建数据仓储的期刊均能实现集成动态关联,这类期刊通常也支持作者选择公共数据仓储,例如Elsevier自建有数据管理与存储库Mendeley Data,同时与许多存储库建立合作关系,促使ScienceDirect数据库内的文章与相关存储库能够实现双向链接[14]。
数据仓储与期刊的动态关联,既可有效简化作者操作步骤、提升投稿效率,也可优化用户的科学数据服务体验,从而降低作者论文的传播壁垒,但就目前而言,期刊与数据仓储的关联集成度还有待提升。另外,虽然自建数据仓储的期刊能够为作者提供更加高效精准的数据存储指导服务,但此途径也提高了办刊成本,而公共数据仓储发展相对更加完备。
(3)投稿增值服务。在数据论文投稿阶段,除上述服务外,出版商还为作者提供通用性的投稿服务,此类通常为额外付费项目。具体而言,服务类型主要包括语言润色、学术翻译与编辑、稿件格式编辑、抄袭检查、图表编辑与优化、投稿期刊评估与推荐、被拒稿件传送等,大型学术出版机构提供的服务形式往往更多样化,作者可根据自身需求自由选择服务项目,在一定程度上提升稿件质量及录用概率。
3.2 数据论文评审
同行评议(Peer Review)是被广泛接受的学术期刊评审和鉴定科研人员研究成果的机制,是论文质量控制的重要基石。同行评议模式主要有单盲评审、双盲评审、公开评审、发表前评议和发表后评议5种形式[15],前3者区别在于评审过程中评议人和作者匿名与否,后两者则属于开放式评审模式。基于科研人员提升科学声誉的核心需求,同行评议可辅助作者控制论文质量。在此意义上,同行评议可视为期刊为作者提供的服务形式之一。针对数据论文评审环节,本文主要调查数据论文的评审形式和评审维度。
(1)评审形式。经调查,除18种期刊未在期刊官网明示所采用的同行评议形式外,余下171种期刊的评审形式分布情况如表4所示。首先,绝大部分涉及数据论文出版业务的期刊采用单盲和双盲两种传统评议形式。进一步观察发现,大量期刊并非单一化地采取封闭式同行评议,还同时尝试增强评审过程的开放性,最终形成更为复杂的评审模式,主要包括下述方式:一是随论文发布匿名的评审报告;二是封闭式同行评议运行时,期刊会为作者提供预发表的可选服务,促使文章可在发表前被阅读、评论或者引用,例如Springer Nature旗下的子品牌Biomed Central(BMC),与提供预印本和作者服务的Research Square公司合作推出In Review服务,作者可免费选择预印本、跟踪审稿人审查进度等项目[16]。再者,本次调查中完全采用公开评审模式的期刊,会随论文发布公开姓名的评审员报告;完全进行开放式评审的期刊则主要以直接发布预印本形式获取评审意见。
(2)评审维度。根据调查结果,仅极少量期刊会在期刊官网公布审阅者评议数据论文时所遵循的评审维度,其中,采用完全开放式评审的期刊基本会公开此类信息。另外,数据论文的规范性,数据质量、价值和可用性,以及数据与数据论文的一致性是评审数据论文的核心参考维度,该结论与孙龙慧等学者早期调查结果基本相符。但是,关于上述维度还未有公认衡量标准,以多领域综合性期刊Scientific Data和Data为例,基于数据质量评估维度,Scientific Data将方法、质量控制措施、数据特性与作者研究问题的契合程度等纳入评价[17],Data则要求审阅者从方法、质量控制措施、合理描述潜在错误或噪声来源等方面评定数据质量[18]。
综上所述,由作者角度分析,评审过程的专业性和公平性与作者利益存在较强的相关性。基于上述调查,在专业性方面,由于数据论文与传统研究论文的功能与内容迥异,但大多数期刊仍沿用传统评审方法,鲜少基于数据论文的特殊性构建更具针对性与合理性的评审体系及流程。在公平性方面,上述各类评审方式的差异源于对评审人和作者两者权益不同程度的权衡,因而各具争议和利弊。数据论文的核心功能在于通过描述科研数据促进数据复用,在此意义上,一则数据论文的评审理应更加结构化和标准化,这也意味着评审标准或依据的可公开性;二则数据论文及数据需要接受更加广泛的重复验证,以此维持评审人员和作者之间的权益平衡。
3.3 数据论文发表、共享与推广
在数据论文发表、共享和推广阶段,期刊为作者提供的指导和支持对数据论文的传播范围和复用程度构成直接影响。基于此,本文选取数据论文版权保护、引用指引及相关指标统计服务、推广服务等作为观察维度,具体观察结果及相关分析如下。
(1)版权保护。据本文统计,约95%的样本期刊为OA期刊,其中包括少量混合型OA期刊,即作者可自行选择开放存取与否。OA期刊具有数字化、在线化、免费化且不受大多数版权和许可协议限制的特点[19],但是,这并非代表用户有权以任何方式自由重用出版物,OA出版物的共享和复用仍在版权许可限制的约束范围内[20]。根据调查结果,上述运行OA出版模式的期刊,均采用作者通过许可协议保留部分版权的保护模式,而知识共享许可协议(Creative Commons Licenses,简称CCL)是被普遍采纳及使用的协议模式。具言之,知识共享协议包括6种不同开放程度的许可类型,而在数据论文出版情境下,出版商一般要求作者采用限制性最弱的署名(CC BY)模式,该协议仅要求复用者按照作者或许可人要求进行署名,即可基于商业或非商业用途,使用任何媒介或格式分发、重混、改编和构建作品[21]。
(2)引用指引及相关指标统计服务。基于上述调查,样本期刊针对数据论文出版普遍采用限制性最弱的知识共享许可协议类型,基于此种情形,期刊出版商需要严格引导用户的论文引用行为。据观察,样本期刊均会在文章主页提供论文引用格式,该格式与传统参考文献著录规范相符。此外,期刊出版商通常会为作者提供清晰直观的访问、下载、引用统计服务,大多数期刊还会为作者测度Altmetric或PlumX等替代计量学指标,前者通过在线平台或社交网络对学术论文的推荐、收藏、提及和分享等行为来体现论文的社会和学术影响力[22],与之类似,PlumX指标通过使用、获取、提述、社交媒体和引用等指标测度网络关注度和影响力[23]。然而,相对研究型论文而言,数据论文的指标分数略显惨淡。
(3)论文推广服务。上述期刊为作者提供的论文推广服务,除基于数据库进行常规化的分发及索引服务外,主要包括两类:一是期刊主动提供免费服务,即期刊下设营销宣传机构通过电子邮件、官方主页、社交媒体、博客、新闻媒体、科学会议等渠道针对个别文章进行推广,同时鼓励并指导广大作者利用上述渠道自行分发及推介;二是定制化付费服务,出版商公关团队有偿向作者提供宣传物料定制服务,涉及视频摘要、会议海报、封面图片、思维导图、新闻故事、出版证书等物料制作,以及个性化的按需印刷及重印服务等。但是,本次调查未见国内出版机构向作者提供上述附加服务。
总体而言,基于数据论文出版场景,出版商鼓励或要求作者向公众让渡相对更多的权利,以推动数据论文及其关联数据集的传播及复用,同时,采用开放版权许可协议维护作者保留权利的排他性。但是,数据论文作者实际需要承担相对更高的侵权风险。一方面,数据论文与数据集具有关联性,但作者可能会对数据集采用放弃版权的协议类型,继而导致数据论文与数据集许可协议类型的非对称性,例如Springer Nature旗下部分期刊要求作者对关联数据集采用知识共享公共领域贡献许可协议,将数据集完全置于公共领域。另一方面,源于出版商对用户引用行为的引导和监管效力不足,暂未有效推动科研人员的数据引用意识。
4 基于作者服务体系构建的出版流程优化
根据上述调查与分析,数据论文出版流程主要存在如下问题:一是投稿环节较为烦琐,期刊与数据仓储的集成化程度不高;二是未向作者提供标准明确的数据论文评价服务;三是作者可能面临相对更高的侵权风险。另外,基于整体视角,出版商向作者提供的服务资源较为零散,尚未形成架构清晰且行之有效的作者服务体系,我国更是在许多作者服务环节处于空白状态。针对上述现象,本文提出如下优化策略。
4.1 构建层次分明的作者服务体系
在充分整合服务资源的基础上,依据出版服务核心内涵设计架构清晰、层次分明的作者服务体系,避免因简单罗列和叠加服务资源,而导致作者的模糊认知。具体而言,出版服务由内向外可分为基本服务、配套服务、辅助服务、内部沟通、外部沟通等层级[24]。首先,基本服务指出版机构具备完成出版活动的人员和物质条件,为满足作者数据出版需求,出版机构还需要提供规范作品形式和内容、合理安排数据存储、质量评议、作品发表等必备的配套服务,基本服务和配套服务构成作者服务体系的核心层。再者,为进一步提升服务价值,可在各出版环节附加论文润色、投稿期刊推荐、被拒稿件传送、指标统计、论文推广等作者自选型辅助服务,以此作为中间补充层。最后,依托内部沟通体系及外部反馈渠道构建灵活有效的底层需求监测和反馈机制,对作者服务体系进行调节和完善。据此,形成能够及时调节和适配服务供求关系的作者服务体系。
4.2 打造双向链接、自动化的投稿系统
期刊以简化作者投稿步骤、提前控制稿件质量为目标,增强投稿系统与数据存储库之间的集成化和自动化,可以包含三个提升层面:一是与数据中心合作自动推荐优质数据集,扩充稿件来源渠道,利用数据出版商的规模和传播优势推动数据复用,除与公共数据仓储合作外,还可直接和机构库建立合作关系,尤其是大学发起并依附大学图书馆构建的数据库,该类机构库与作者联系紧密且关注作者整个研究生命周期[25],稿件质量相对更有保障;二是在综合考虑各学科数据特性的基础上,统一数据论文内容框架,并打造数据论文自动生成服务,例如Pensoft公司推出的Arpha写作工具便支持根据生物多样性类数据集的元数据自动生成数据论文,作者可在此基础上继续修改编辑;三是强化及优化数据论文与数据集的关联性,提升两者之间的互操作性,不仅简化作者的投稿步骤,同时降低数据论文发表阶段因两者之间关联性不足导致的复用障碍。
4.3 探索多元性、标准化的评审机制
程序化、规范化的产生方式赋予科学数据可复用性,数据论文和数据的评审形式和评价维度应紧扣该特点。
首先是评审形式的多元性,可以包括以下形式:①作者自组织质量评价。一方面作者可以自检自评,依据出版商提供的质量检查细则及检测工具,对数据论文及数据集进行提交前的质量和技术评估,该形式已在Pensoft公司旗下的期刊得到实践。另一方面,作者可邀请专家撰写评价,作为论文支撑材料一并提交。②多方参与的同行评议。数据及数据论文评议对专业知识和实践经验要求更高,时间和精力成本也更高,数据出版商需要分散评审压力以保证评议质量,其一是数据评审专家库亟待构建,除期刊自建数据评审专家团队的路径,还可与专业作者服务公司合作,作者服务公司利用资源优势构建数据评审专家库,在保证质量的前提下为出版商快速高效地提供评审报告;其二是采用分段式评审,将不同评审维度交予不用数据评审专家评审,可以提升评审效率和质量。在专家评审的同时,利用开放式评审广泛采纳潜在用户的意见及建议也尤为必要,作者可以及时回复其他研究人员的意见与质疑,促进数据论文在较大范围内接受重复检验。除上述策略外,出版商还需要实验式的创新数据论文评审形式,探索最优方案。
然后是评价维度和粒度的标准化,在深度理解科研人员的数据需求的基础上,联合学界制定达成广泛共识的数据论文及关联数据评审标准,采用公认的评审标准既可有效缩短评审周期,也可相对保证评审过程的公平性和专业性,是对作者权益的有力保障。
4.4 采用作者利益导向的发表、共享和推广策略
科研机构及科研人员虽然向学术出版商提供科研成果,实际并不参与出版活动的经济利益分配,提升科研声誉是科研人员参与学术出版活动的核心目的,故学术出版商应该以提升作者学术声誉为原则,设计与实施发表、共享和推广策略,并非单纯以论文发布作为交付目标。对于数据论文出版,首先,采用区块链技术从技术层面降低数据论文作者面临的侵权风险,例如,使用区块链技术进行数字资产登记,继而实现数据论文版权流转的可追溯性,主动性地监控侵权行为的发生[26]。其次,期刊出版商,尤其是大型出版商,可以联合科研机构设计并提供线上或线下数据出版技能培训服务,培训内容贯穿出版流程及出版标准,从本源上提升和规范科研人员的数据共享和数据复用认知。最后,数据论文并不以报告研究结果为目标,采用传统指标测度其影响力并不占优势,专门测度数据论文及其关联数据的社会和学术影响力的指标及工具亟待开发和实施。
5 结语
数据论文出版作为数据出版的重要实践形式,机遇与挑战并存。本研究从作者服务视角切入,深度调查和挖掘数据论文出版流程,分析发展现状及潜藏问题,认为出版商应该在构建层次清晰的作者服务体系基础上,以作者利益为导向优化服务策略,提升作者投稿意愿及数据论文质量,缓解数据出版面临的现实危机。在后续研究中,可继续针对数据论文的内容框架、评价标准、引用方式及引用效果评价等细节问题开展深入研究,推动数据出版的可持续发展。
参考文献
Copyright and open access in the life sciences:a researcher’s guide to sharing and publishing scientific information
[J].
Research data management implementation at Peking University library:foster and promote open science and open data
[J].
Data journals:a survey
[J].
Proposed structure of a data paper structure as scientific publication
[J].
An analysis of data paper templates and guidelines:types of contextual information described by data journals
[J].
Data journals:types of peer review,review criteria,and editorial committee members’positions
[J].
/
| 〈 |
|
〉 |
