学术期刊查重工作面临的问题及应对策略分析*

doi:10.16510/j.cnki.kjycb.20230116.004

学术期刊查重工作面临的问题及应对策略分析^*

张海燕, 张和, 戴毅, 鲁翠涛^✉

温州医科大学图书馆（期刊社）《肝胆胰外科杂志》，325035，浙江温州

通讯作者: ✉通信作者。

摘要

文章提出，在凡是文字皆可查的时代，学术期刊可能面临查重工作难度增大，机械查重和沟通引导不足带来的负面影响扩大，以及复杂的查重环境中不当查重服务和伦理规范缺位等问题。学术期刊需要优化查重程序、提高审查能力、改进查重策略、加强与作者的沟通，查重工作中的作者、查重服务商、期刊三方也需构建基本的伦理规范。

关键词： 查重乱象 ; 学术期刊 ; 学术不端 ; 规范引导

PDF (1557KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张海燕, 张和, 戴毅, 鲁翠涛. 学术期刊查重工作面临的问题及应对策略分析^*. 科技与出版[J], 2023, 42(1): 90-95 doi:10.16510/j.cnki.kjycb.20230116.004

学术不端检测（以下简称“查重”）在论文评审工作中非常重要，是论文评审工作的第一道审查。目前，国内以数据库为支撑的主要查重服务商均已覆盖机构用户和个人用户。有学者指出，当审查者和被审查者都成为查重软件的使用主体时，即从“机构查重时代”进入了“泛查重时代”。^[1]中国知网科技期刊学术不端文献检测系统（简称“AMLC”）的“稿件追踪”功能在一定程度上能够反映稿件查重情况。本文基于对《肝胆胰外科杂志》2012—2021年来稿在AMLC中的初次检测重复率和“稿件追踪”情况变化趋势的分析，探讨当下学术期刊查重工作面临的问题及对策。

1　2012—2021年《肝胆胰外科杂志》来稿重复率检测情况

《肝胆胰外科杂志》2012—2021年来稿AMLC初查重复率（总复制比）超过30%的稿件占比从24.39%下降至6.41%（见表1）。其他领域学术期刊也存在类似情况。2009—2014年，在4 050篇医学论著类稿件中，初查重复率20%以上的稿件占比从14.6%下降至4.6%；^[2]《消防科学与技术》2012—2019年来稿AMLC初查重复率20%以上的稿件占比从40%下降至13%；^[3]《电子科技大学学报》2015—2021年来稿AMLC初查重复率20%以上的稿件占比逐年下降。^[4]2013—2017年中国知网收录的期刊论文中，高重复率论文占比在2015年后维持在较低水平，且重复率低于10%的论文占比逐年上升。^[5]与此同时，商业化查重服务公司体量快速增长。笔者从爱企查平台上初步统计，经营查重业务的企业，2014年以前注册成立的约有50家，2015年至今累计注册成立近200家。由此来看，高重复率稿件占比下降到底是因为作者学术诚信意识提高了，还是人为干预了重复率，值得深思。

表1 2012—2021年《肝胆胰外科杂志》来稿AMLC初查重复率占比情况

重复率	2012年（n=287）	2013年（n=411）	2014年（n=350）	2015年（n=379）	2016年（n=390）	2017年（n=413）	2018年（n=519）	2019年（n=549）	2020年（n=592）	2021年（n=622）
<10%	46.34%	47.93%	48.86%	53.82%	51.82%	52.54%	56.65%	61.20%	60.47%	58.68%
10%~20%	17.07%	18.73%	25.14%	23.75%	28.20%	29.30%	26.59%	23.68%	23.82%	25.40%
20%~30%	12.20%	9.98%	10.57%	9.76%	8.20%	8.96%	9.06%	7.29%	8.44%	9.48%
≥30%	24.39%	23.28%	15.43%	12.66%	12.31%	9.20%	7.71%	7.83%	7.26%	6.41%

新窗口打开| 下载CSV

与高重复率稿件占比下降的趋势相反，“提前检测”稿件数量占比则呈上升趋势（见表2）。2015年AMLC检测系统显示29.5%的论文被2个以上来自不同期刊编辑部的账号检测过。^[6]笔者借助中国知网“稿件追踪”功能发现目前仍然存在大量的稿件提前检测行为，主要表现为：非工作时间甚至凌晨进行稿件检测；密集进行稿件检测，甚至同一篇文章的多条检测记录只间隔几秒；完成检测后将上传稿件删除；稿件提前检测行为集中在某几个账号等。笔者对比2021年“提前检测”稿件的两次检测重复率后发现，相差大于10%的稿件仅有15篇，并且无法判断这15篇稿件重复率降低是因为检测数据库更新还是作者提前进行了“降重”处理。

表2 2012—2021年《肝胆胰外科杂志》来稿提前检测稿件占比情况

提前检测	2012年（n=287）	2013年（n=411）	2014年（n=350）	2015年（n=379）	2016年（n=390）	2017年（n=413）	2018年（n=519）	2019年（n=549）	2020年（n=592）	2021年（n=622）
1~4次	15.68%	18.69%	25.43%	25.46%	27.55%	25.18%	26.15%	22.83%	23.18%	27.17%
5~9次	2.44%	2.91%	3.71%	1.31%	9.69%	9.20%	7.50%	5.43%	5.30%	10.77%
≥10次	1.74%	3.40%	2.86%	0.26%	8.16%	8.72%	15.38%	23.01%	11.59%	11.74%
合计	19.86%	25.00%	29.14%	27.03%	45.41%	43.10%	49.04%	51.27%	40.06%	49.68%

新窗口打开| 下载CSV

2　当前学术期刊查重工作面临的问题

泛查重主要表现为大量的查重服务公司，广泛的使用人群和机构，贯穿学术创作、评审、发表和刊后审查的查重意识和应用场景，以及凡是文字皆可查的查重生态。对于学术期刊而言，这意味着来稿的重复率检测作用可能会减弱，最直接的反映就是来稿重复率越来越低甚至查无可查，给学术期刊查重工作带来困难。

2.1　学术不端审查难度增加

学术不端行为越来越隐蔽给学术期刊查重带来巨大压力。当来稿重复率越来越低时，学术期刊不可能通过无限降低重复率阈值来筛选稿件，如果阈值低到一定程度，比如10%，那学术期刊对来稿的查重工作就沦为一种形式。而且，理论上无论阈值多低，作者都可以通过提前查重和“降重”来达到要求。低重复率稿件仍然可能存在学术不端问题，如Park等认为稿件重复率低并不意味着学术不端问题少。^[2]刘畅等从249篇AMLC检测重复率为0的稿件中随机抽取了20篇进行分析，发现其中18篇存在增减字数、变换句式、复述原意现象。^[7]韩磊等对30篇复制比低于20%的非综述类医学论文进行分析发现存在调整语序、变换词语、增减文字、删减内容、将表格转换为文字等行为。^[8]由此来看，编辑需要对每一篇稿件进行隐性学术不端问题的审查，这大大增加了学术期刊审稿的难度和工作量。

2.2　机械查重带来负面影响

一直以来，部分学术期刊存在机械查重的问题，例如过度倚重、一刀切、唯数据论、将重复率直接等同于抄袭。^[9,10,11]有的学术期刊直接声明不收重复率高于20%的稿件，或者要求作者投稿前将重复率降至15%以下，一旦超过15%，一律退稿。当下，作者可以提前自行检测稿件重复率并且对被标记为重复的内容进行处理，如此一来，学术期刊机械查重不但查不出问题，反而导致学术不端更隐蔽，存在问题的低重复率稿件过审，认真撰写的稿件却因为重复率偏高而被退稿。

另外，目前国内少有学术期刊对“抄袭”和“合理引用”进行明确说明，主动引导作者正确认知。重复率成为作者写作时考虑的重要因素，导致其写作过程很可能被查重算法影响，导致正常引用受到限制、连贯论述被打断。作者对重复率检测报告中被标记的内容缺少申辩的渠道，只能被迫“降重”。更令人担忧的是，“降重”服务遍布电商和社交平台，大量高校学生参与其中，他们掌握了规避检测的方法，扭曲了对“抄袭”的认知。

2.3　更加复杂的查重环境

过去“（作者）论文写作→期刊↔查重系统”的流程，现在演变为“（作者）论文写作↔查重系统↔期刊”的流程，查重系统来到了中间环节，并且兼具多重角色：对学术期刊来说，查重系统是审查工具；对作者来说，查重系统某种程度上是其预处理学术不端行为的工具；对查重公司来说，查重系统是其营利工具。学术期刊、作者、查重公司三方之间看似都是要降低稿件的重复率，实则出发点完全不同，演变为学术期刊和作者在查重系统制定的游戏规则（算法）和圈定的范围（比对库）中“捉迷藏”，而学术期刊往往是被蒙上眼睛的一方。

2.3.1　查重生态发生改变

查重系统如果被作者和查重公司不加限制地使用，最终将改变已有生态——学术不端行为的审查结果决定于查重系统（算法），查重公司受到资本的影响，从而带来一系列的问题，比如，收费越高检测算法越精确、比对范围越广。以医学学术期刊文章为例，如果个人用户购买查重服务可以对中华医学会期刊数据库进行比对，而学术期刊用户不能覆盖此数据库，那抄袭中华医学会期刊数据库内容的稿件则可以通过学术期刊查重审查，一旦这类稿件得以发表，学术期刊将承担公众监督和期刊评价的压力。此外，查重的商业化会加速推进查重算法的迭代，进一步扩大学术期刊查重检测的盲区。比如，网络资源的比对功能是目前学术期刊采用的查重系统所不具备的功能。笔者从人民网选取一篇3 000多字的评论，采用某在线查重系统和AMLC系统同时进行检测。对比结果发现，二者均比对出了源文献，但某在线查重系统的比对源是人民网，AMLC系统的比对源是作者1年前发表在某学术期刊上的论文。

2.3.2　查重服务乱象丛生

查重系统的工具属性容易被商家或资本利用而走向商业化，造成查重乱象，目前这个趋势已经非常明显。^[12]比如，市场上有的查重系统为作者提供边写边查功能，或者将抄袭的文章生成“自建库”，以便帮助作者反复修改直至通过检测；有的查重网站同时提供降重服务，为了凸显其检测能力或者推销降重业务而进行恶意标红；还有查重系统提供商额外提供课题申请、论文发表等一站式服务。这些市场乱象已经涉及数据造假、论文买卖、基金代理等违法行为。

2.3.3　相关规范亟待完善

目前我国尚无对论文重复率检测工作明确的法律法规。^[13]科研和学术诚信管理方面，《科学技术活动违规行为处理暂行规定》[科学技术部令第19号]中的第三方服务机构服务项目中有“检验检测”类，但未明确是否包含论文重复率检测。学术出版管理方面，中国科学技术信息研究所和施普林格·自然联合发布《学术出版第三方服务的边界蓝皮书（2020年版）》^[14]，明确“通过剽窃检测软件，检查稿件中可能存在无意间复制文本的地方或需要为复制材料添加引用说明的地方”可以接受；“协助研究人员规避剽窃检测软件的检测”不可接受。这是目前较为明确的意见。笔者认为，目前各类学术和科研诚信管理条例对学术不端问题都有详细的规定，只要发现降重事实，例如调整语序、改写套写、修改数据，即有定性依据。然而，对查重活动中直接参与的作者、查重服务提供方和审查方，目前还缺少明确的伦理规范，这给学术出版带来隐患。比如，对检测稿件如果没有保密性规定，作者可能面临论文被卖的风险，学术期刊也可能面临版权纠纷。

3　学术期刊查重工作的应对策略

笔者认为，学术期刊可以采取以下策略来应对上述问题：①优化查重流程，加强学术期刊之间的交流合作，提高对学术不端问题的审查能力；②调整查重策略，针对查重结果加强与作者的沟通交流，引导作者减少机械查重；③加强必要的伦理规范建设。

3.1　优化查重流程，提高审查能力

3.1.1　查重工作后置

笔者认为，针对检测结果重复率较低的稿件，学术期刊编辑部审查其隐藏的潜在学术不端问题费时费力，在审稿流程中可以将对查重报告的解读后置，或者适当降低重复率在审稿工作中的权重。真实性是论文评审的前提，真正存在重大学术不端行为的论文，其重复率可能会很低。学术期刊编辑部可以先通过论文基本信息特征、与作者沟通核实情况等进行稿件审查。比如，笔者遇到的一篇稿件数据图片丰富，写作流畅，AMLC检测重复率仅为2.6%，如果仅根据重复率进行初筛，这篇文章就顺利通过了。但该稿件在资料部分提到组织芯片购于某生物科技公司，笔者详细咨询作者才得知，文中所有数据均为向该公司购买。此外，尽管审查学术不端问题不是外审专家的职责，但外审专家的确可以在跨语种抄袭、数据造假问题的审查中发挥重要作用，学术期刊可以在送外审时通过精准选择审稿专家并加强与外审专家沟通来发现稿件潜在的学术不端问题。比如，笔者遇到的一篇稿件的外审意见为“修改后发表”，但编辑怀疑其中一组数据的真实性，再次送外审时跟外审专家表达了疑惑，外审专家根据网站通报的手术量验证了稿件病例数造假问题。

3.1.2　提高审查能力

查重报告不只有复制比，还有详细的内容比对，每一条比对片段都有可能是一条线索，特别是其中对图表、基金项目的比对，以及稿件追踪信息等，即使重复率低于10%，学术期刊编辑也有可能根据查重报告发现学术不端问题。近年来，有学者提出将稿件内容、查重结果与数据库、文库、搜索引擎联合进行比对。^[15,16]笔者认为，学术期刊将查重结果进行联合数据库比对可以成为稿件初审的“规定动作”。随着学术资源网络化，很多网站、社交媒体上的内容也可能成为抄袭源，因此，检索范围不必局限在数据库和文库。比如，截至2022年4月1日，知网、万方、维普均未比对出某文章抄袭的网文，只有维普比对出一条42个字的片段（占比1.13%），笔者将该片段复制粘贴到百度中进行检索，发现了抄袭源。

3.1.3　加强经验交流

关于隐性学术不端问题的审查，很多同行进行了大量的研究，包括从语言习惯、关键词、特殊格式、参考文献、作者信息、内容数据、IP地址、联合查重等特征进行审理，有些方法有很强的实用价值和推广意义，学术期刊稿件的学术不端问题有很多相似之处，比如，医学领域代写代投的稿件有相似甚至相同的特征，很可能来源于同一个第三方机构；还有学术期刊对可疑IP地址进行了追踪和查封。如果这些方法得以推广，则可能实现对代写代投机构的有效抵制。笔者建议：学术期刊编辑应积极学习同行审稿经验；学术期刊之间应该加强经验交流和技术合作；编辑出版行业组织可以积极评选示范案例、推广实用方法。

3.2　调整查重策略，加强规范引导

3.2.1　改进处理方式

笔者建议，学术期刊可以在投稿须知等对外文件中弱化对重复率的强调，告知作者无须提前自行查重，更不要降重和一稿多投。此外，学术期刊自身应该对查重系统的缺点（比如无效比对、无用标红等）有足够的认识，解读查重结果时，将重复率作为一个柔性的参考指标。特别是对于重复率较高的稿件，学术期刊可以不仅仅以“重复率高”作为退稿理由，尽量告知作者造成“重复率高”的原因，比如引用不当、仿写套写等。学术期刊还可以与作者充分沟通，倾听作者的申诉并耐心解答。

3.2.2　加强规范引导

（1）引导作者采用规范的查重系统。当前商业化查重还处于野蛮生长的阶段，查重系统良莠不齐，各种高仿、假冒的查重系统众多，用户很难检索到知网、万方等较规范的查重系统的准确网站，这与几年前期刊官方网站无法精准检索的情况极为相似。对此，学术期刊可以向作者推荐规范的查重系统。目前有不少学术期刊在其官方网站提供查重链接。笔者认为，学术期刊在向作者推荐查重系统时，一方面需要注意利益冲突，对查重系统提供的使用引导和合作协议要认真审读，另一方面要加强对宣传内容的审核把关，不要提供广告信息甚至不实信息。

（2）引导作者进行合理处理。学术论文的写作中必定存在一定的合理引用。笔者建议学术期刊在确认论文真实性的前提下，可以对作者进行适当的写作指导。以《肝胆胰外科杂志》为例：综述类稿件，作者对其他综述的原文复述和改写算抄袭，对引用文献研究结果的原文复述，算写作方法不当，建议作者进行总结提炼；论著类稿件，如果临床手术和治疗方法实用价值较大，但是引言和讨论部分存在重复或仿写，则向作者提出修改建议。《肝胆胰外科杂志》2021年的微信公众号推文中，关于论文写作培训的推文阅读量较高，说明读者有需求，特别是对于在读研究生而言，期刊在查重认知和写作方法上的正向引导，对其日后科研学习也有帮助。

3.3　加强行业规范和伦理建设

当下，查重不仅是一个审查环节，还代表一个行业市场。但查重却并非一般的第三方服务，它根植于学术研究产生的论文信息成果，贯穿于论文写作、评审、发表和发表后追溯的全过程，在学位论文、毕业设计、科研项目、职称论文的评审和评奖中被广泛考量，进入了整个学术评价体系的底层逻辑。如果我们不对查重乱象加以规范，将影响学术成果信息生态的健康。^[17]笔者认为，相关部门要对提供查重服务的公司资质进行考察，禁止提供降重服务。面向个人提供查重服务本来就有悖于学术审查的初衷，笔者建议查重公司在营利的同时，也要考虑查重系统的公益性，履行相应的社会责任。比如，保障审查方（例如学术期刊）与个人用户有相当或更高的精确算法和比对权限；所有查重系统都应该具备“稿件追踪”功能，记录每一篇稿件每一次检测的时间、重复率、作者情况，并设置同一篇稿件的查重次数上限；此外，如果明确标注查重主体是个人还是机构用户，可以让稿件的查重过程更加透明，也为学术评审提供更多的参考信息。

4　结语

当下，我们面临复杂而多变的查重环境，学术期刊需要对查重系统重新认识和定位，要注意这把曾经的“利剑”可能会成为一把“双刃剑”，这道曾经的“防火墙”也可能成为一把“保护伞”，其中涉及行业技术、伦理和经济的博弈，期刊需要密切关注其发展动向，并迅速做出反应和调整。

*基金项目：温州市基础性科研项目软科学项目（R20180018）；中国高校科技期刊研究会“一流高校科技期刊建设”专项基金课题（CUJS2021-037）。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

韩磊，杨爱辉，赵国妮，等.

隐性学术不端论文的查证及处理策略

[J]. 编辑学报，2022，34（1）：68-71.