科技期刊结构化、指标化同行评审单设计研究*
关键词:
本文引用格式
孙力炜, 刘蔚, 贺郝钰, 迟秀丽, 侯春梅.
同行评议是目前科技期刊遴选优质论文的一项重要措施[1,2],在帮助科技期刊控制学术质量、促进学术交流等方面发挥着重要作用[2,3],是期刊学术出版的基石。尽管同行评议已经得到了学者的普遍认可,但其也面临着诸多争议,如评审结果不够客观、公正,评审意见不具体等。[4]为了解决这些问题,学者们开始重点关注如何对现有的同行评议模式进行改革[4,5],但忽视了如何进一步完善同行评议评审单,使其更科学、合理。有研究指出,设置合理的审稿单有助于期刊引导审稿人做出更规范的同行评议[3],帮助审稿人高质量、高效率地开展工作。[5]基于此,国外一些出版机构如Peerage of Science、PloS ONE、Rubriq公司等设计了打分形式的评审表单,引导评审者对稿件进行定性评价时给出相应评分,使对学术成果的评价更加直观。其中,Rubriq公司设计了一种结构化的、记分卡式的评审单,在具体实践中取得了较好的效果,因此,我们以Rubriq公司的记分卡评审单为研究对象,对其组织形式和特点进行深入分析,并借鉴其经验尝试设计适合国内科技期刊的结构化、指标化的评审单,以期在提升同行评议质量的同时,能够帮助作者更好地修改稿件、提升论文质量,并使编辑更公正合理地给出稿件处理意见,最终提高期刊论文质量,从而为期刊提供可持续发展路径。
1 国外Rubriq公司记分卡评审单介绍
1.1 Rubriq公司简介
Rubriq是一家独立的提供第三方同行评议服务的公司[6],其任务是为作者创作的论文寻找合适的期刊,缩短论文发表周期,以使研究者将更多的时间投入研究中。Rubriq主要接受免疫学、癌症生物学和微生物学领域的稿件,采用3位专家双盲同行评议的模式。作者可在1~2周内获得详细的评审报告[7],作者需要支付的费用为600美元/篇。Rubriq的全套服务已于2013年上线。其具体的运行机制如图1所示:①用户向Rubriq投稿,系统内iThenticate软件对稿件进行学术不端审核;②工作人员对稿件初审;③通过初审的稿件送3位专家外审,并形成带有定性评价和专家打分的评审报告;④根据评审得分计算稿件综合评分(R值),为稿件推荐合适的期刊;⑤作者根据稿件推荐报告遴选合适的期刊。
图1
1.2 Rubriq记分卡式评审单主要内容
Rubriq创建了一个结构化的标准化同行评议记分卡,其可以作为出版前的质量指标。标准化记分卡是其在研究生物医学期刊记分卡的基础上创建的。根据论文写作逻辑,该记分卡分为3个模块[8](图2):科研质量、内容表述质量以及选题的新颖性,每一个模块下设置了具体项目。①科研质量:假设、客观性和基本原理,方法和数据,方法和数据的阐释3个项目;②表达质量(表达是否通顺):题目、摘要和引言,文字表达,图表,讨论,结论,文献引用,写作7个项目;③创新性:选题新颖性和能否引起读者兴趣性2个项目。Rubriq要求评审专家对稿件从这3个大类12个项目进行评分,分值为1~10分,分值可以带1位小数,并对每个部分的评分阐述相应的评分理由。同行评议结束后,系统自动生成带有记分卡的结构化文档,编辑部结合3位评审专家的评分计算论文的综合得分——R值。
图2
为了测试该评审模式的有效性,Rubriq与美国科学公共图书馆(PLoS)、Karger、F1000Research和Wiley等出版社进行合作,联系超过500位评审专家使用了该服务,且在记分卡的设计上,对评审专家进行了调研,结果显示大部分审稿专家喜欢该记分卡的结构化格式,且有专家认为这个记分卡的标题本身具有科研意义,同时,参与测试的合作出版商的编辑们也给出了积极响应。为了很好地激励专家的评审行为,Rubriq为参与评审的专家提供100美元的审稿酬金。根据Rubriq的调查,基本上所有审稿人都愿意接受此酬金。[9]
1.3 Rubriq评审单优缺点分析
Rubriq创建的结构化记分卡式评审单具有以下优势:①对于评审专家来说,这种结构化的评审单能引导其更快速高效地评审稿件。[7] ②对于作者来说,可以根据评审单中定量化的R值清晰地获知自己稿件的优点和不足,根据定性表述更加快捷地修改论文,从而提高论文质量,而且对其日后其他稿件的撰写有一定帮助。③对于期刊编辑来说,可以依据带有R值的评审报告更加快速地判断稿件质量,以及稿件是否符合期刊发文要求;为了获知评审报告的真实性,期刊编辑可以申请查看稿件的所有处理流程。④能够引导读者根据评分阅读感兴趣的稿件内容。
Rubriq的结构化记分卡式评审单的缺点在于:首先,从结构来看,其仅适用于研究性论文的评审。目前学术文献呈爆发式增长,稿件类型已经呈现多样化,对于除研究论文以外其他类型的稿件,如综述型、评论型、数据型稿件等,难以完全套用此评审单进行评议。其次,未能说明此评审单适用的学科范围。
目前,除了Rubriq公司外,Peerage of Science也在同行评审中采用专家打分的方式,由评议专家根据文章的广度、影响、独创性、数据、方法、结论和文献范围等方面对论文在1~5分内进行打分,编辑结合评审意见的评分,计算出论文的最终评分。[10]
2 我国玛格泰克采编平台评审单分析
目前,我国中文科技期刊使用的采编平台主要由玛格泰克、勤云、三才、万方、中国知网等公司设计[11],由于无法获知其他采编平台评审单的设计框架,作者就所在期刊所使用的玛格泰克采编平台上的评审单样式进行分析。国内有很大一部分期刊也采用了玛格泰克公司的采编平台,对其内设置的评审单的分析能够在一定程度上说明我国科技期刊评审单的特征。
《地球科学进展》是一本评述地球科学与资源环境科学研究现状与进展,揭示综合性跨学科性重大研究领域发展态势的地球综合类期刊,所采用的玛格泰克采编平台上的评审单大体分为三大部分:①从创新性或重要应用意义、论文中表述和实验对结论的支持性、文字表述的合理性3个方面引导专家按照“有”“一般”和“差”对稿件进行评价;②对论文整体按照“特优”“优”“良”“一般”和“差”对论文进行评级;③具体意见阐述模块,专家可在此模块填写对论文的详细意见,也可以将带有注释的评审稿上传至此模块,方便作者查阅和修改论文。通过咨询玛格泰克采编系统的设计人员,获知其平台中内嵌的评审单都与之类似,只是在设计的项目名称上稍有区别。
此类评审单设计得相对简单,要填的项目较少,能够方便专家在稿件审阅结束后快速填写,在期刊发展中发挥了较大作用,但是随着研究者对同行评议质量要求的提升,此类评审单暴露出一些问题:①从评审单框架来看,适用于综述型论文的评审,主要引导专家从整体上对论文进行评审,未注重论文各个结构的评审,这会导致专家的意见不够具体。尽管绝大多数的专家都会在评审单的第三个模块给出详细的意见并上传带注释的评审稿,但是针对论文整体的意见有时会因为过于宽泛而增加作者对论文的修改难度,需要编辑联系专家给出更加具体详细的注释,这也会增加编辑的工作量。②对稿件的评审是非结构化的,而且是定性的阐述性质的评审,采用“特优”“优”“良”“一般”和“差”对论文评级,作者难以真正获知论文具体优点和缺陷,会增加作者提升稿件质量的难度。在国内其他期刊设计的评审单中也许也存在以上问题,需要引起编辑深思和重视。
3 结构化指标化评审单体系和内容
通过以上内容,研究者获知了Rubriq评审单和玛格泰克采编平台中评审单的优势和不足,充分借鉴Rubriq记分卡式评审单,在玛格泰克采编平台评审单框架的基础上,设计了一种结构化、指标化的评审单。
结构化意味着需要按照一定规则将稿件拆分成多个模块,引导专家从稿件不同结构角度遵循相关写作要求进行评议;指标化是指同行评议过程中不再是只有定性表述,还需在一定分值范围参照选项对稿件内容进行打分。我们遵循这2个原则对新形式的评审单进行设计,具体实施步骤如下:
第一步,设计结构化评审表单。通过查阅大量有关稿件质量评价的资料,结合Rubriq的评审单,初步设计了评审单的框架和具体内容体系,邀请10位学科评审专家和3位资深学术编辑对初步设计的评审单进行评价,通过整合评审专家和编辑的意见最终设计形成了如表1所示的评审项目(表1)。主要包括4个方面:学术道德规范、创新性和新颖性、学术质量以及表达质量。其中学术质量和表达质量的项目下设计相应的评价子项目。对于创新性和新颖性部分,专家可根据稿件在学术思想/学术观点/理论体系/技术或方法/应用价值等内容上的创新性或新颖性给出相应的评分和定性评价。为了引导评审专家对稿件提出科学、合理和详细的意见,评审单中引入AI关键词精准匹配系统,将所有的评价项目信息与最新出台的国家标准《学术出版规范 期刊学术不端行为界定(CY/T 174—2019)》《学术论文编写规则(GB/T 7713.2—2022)》中相关内容作关键词匹配,在专家审阅完稿件填写评审单时,在相应部分的打分和注释模块会为专家给出提示;若评审单中未给出任何提示,则需要评议专家根据自身写作经验和学术专业知识提出相应意见,最终通过结构化表单实现对稿件的结构化分割和评价。
表1 科技期刊结构化、指标化评审单体系和内容
| 评价指标 | 评分(1~10分) | 评分具体理由和其他问题 | |
| 学术道德规范(科研道德与学术规范) | |||
| 创新性和新颖性(学术思想/学术观点/理论体系/技术或方法/应用价值) | |||
| 学术质量(至少填2项) | 研究方法/算法/模型 | ||
| 数据/实验描述/结果分析 | |||
| 研究成果的综述与评述 | |||
| 结论、结语、展望 | |||
| 表达质量(全部必填) | 中文题目、摘要、关键词 | ||
| 引言 | |||
| 论文结构、文字表述 | |||
| 语言逻辑 | |||
| 图表 | |||
| 参考文献的标注 | |||
| 英文题目、摘要、关键词 | |||
| 其他问题 | |||
第二步,将评分指标引入论文评审单中。专家评审时需要对上文中提到的4个大方向以及相应的子项目在1~10分进行评分,其中表达质量的7个子项目是必填项,学术质量的4项中需要至少对2个子项目进行评分。评分后需要在旁边的模块中说明各个项目评分的理由以及稿件上存在的其他问题。
有专家提出由于评审表打分的方式缺少相应参照,全凭经验来打分,操作起来相对复杂,建议改成五段的李克特量表(优、良、中、差、不及格)更为简便。针对此提议,研究者调查资料发现,李克特量表适用于心理学和社会学领域的问卷调查,需要达到一定的样本数量,才能真正发挥效果;如果将其应用在评审单中确实能够简化专家的评审操作,也能反映稿件不同部分的评价结果,但是最后对于稿件整体评价依然需要依靠专家的定性评估,导致可能出现稿件多个部分的评价为“优”,但是整体评价为“差”的现象,这种结果可能无法使作者信服;而通过专家对稿件各部分打分,结合相应部分的权重阈值来计算得出稿件的整体评分,最后根据稿件整体评分给出最终处理结果的方式可能会有效解决此类问题。
第三步,论文整体评分计算。学术道德规范是科学研究的基本伦理规范,是社会道德的重要方面,其对稿件的录用与否有着决定性影响,对于稿件的筛选具有“一票否决”的作用,此部分需要编辑和评审专家合作来评判,因此,将学术道德单独列出进行评分。专家评审结束后,评审系统只统计稿件三大部分(创新性和新颖性、学术质量以及表达质量)的得分。为了确保稿件整体得分的科学性和合理性,根据三大评审部分在论文中的重要程度,邀约评审专家(10位)和学术编辑(3位)分别对这三大评审部分赋以相应权重值,得出每一个部分的平均权重值(表2),将平均权重值纳入稿件评分系统中,最终可计算得出稿件整体得分S,具体计算公式如下:
式中:A表示创新性和新颖性部分的评分,bn表示学术质量中4个项目的评分(至少填写2项;n对应相应的项目数,n=2,3,4),c1、c2、c3、…、c7分别表示稿件表达质量下7个子项目的评分。
第四步,可实施性分析。为了获知专家对此评审单的态度,我们向10位专家征求对评审单的填写意愿和审稿意愿,获得的反馈是10位专家都愿意填写此种审稿单,其中有2位专家认为表达质量的子项目设置过于详细,但是也愿意填写。考虑到所设计的评审单能否在投审稿系统中实施的问题,我们就评审单的设计步骤和相关内容咨询了玛格泰克和方正投审稿系统的设计人员,他们认为目前的投审稿系统中可以嵌入此评审单,评分模式也能实现,国内已有出版机构在尝试带评分模式的评审单,如中华医学会已经在试验定量化的审稿单。
本文设计的评审单还存在一些不足:首先,评审单处于实验阶段,暂时收集了10位专家对评审单的意见和建议以及他们对此评审单的填写意愿,并未在实际稿件的评审中使用此评审单,因此评审单的真实效果以及存在的问题尚未可知。未来还需要在期刊投审稿系统中进行具体稿件的送审实践后,通过收集专家和作者的反馈,来确定其在稿件评审中发挥的作用,发现其中存在的问题,从而对其进行改进和完善。其次,此评审单仅适用于大部分自然科学领域期刊,对于比较特殊的学科,如医学等,需要根据学科属性对此评审单的评价项目进行调整,以使评审意见更加准确和具有针对性。
4 结语
评审单是科技期刊同行评议过程中的重要单据,其设计的是否合理,对于评审报告的质量有着较大影响,需要引起编辑和学者的重视。本文设计的评审单适用于国内大部分科技期刊,但与现有的评审单相比,除了存在上文提及的问题外,也许还存在其他一些尚未发现的缺陷,需要相关学者分享评审单的设计经验,并根据实际使用后的反馈和建议来对评审单进行改进和完善,从而引导专家对稿件进行高效评审的同时给出高质量的评审报告,帮助作者提升稿件的综合质量,促进科学知识的交流和传播。
参考文献
RUBRIQ:tools,services,and software to improve peer review
[J].
基于社交网络的同行评议新模式:基于Peerage of Science与Frontiers平台的案例研究
[J].
/
| 〈 |
|
〉 |
