文字复制比作为学术不端监测的重要指标,广泛应用于学术不端监测系统中,如中国知网学术不端文献检测系统(AMLC)、万方数据论文相似性检测系统(PSDS)等。AMLC中对文字复制比的范围进行了划分,其中低于40%为轻度重合,40%~50%为中度重合,50%以上为重度重合。这种划分无法检测很多隐性的、深度的学术不端。《蚌埠医学院学报》从2010年开始采用AMLC系统进行学术不端检测,并严格要求稿件文字复制比不得高于30%。检测过程中发现有部分稿件的文字复制比为0,看似属于创新卓越,但也可能存在着隐性学术不端。如不能及时对此类现象加以防范,便会助长学术不端的不正之风[1]。本研究选择2012—2016年《蚌埠医学院学报》初审通过的稿件3 209篇,利用AMLC系统中自带的“导出EXCEL”功能,导出3 209篇稿件的具体信息,形成EXCEL表格,内容依次包括稿件编号、检测结果、重合字数、去除引用、去除本人及上传日期。选取“检测结果”一列的“升序”排列,最后找出“检测结果”为0的稿件共计249篇。根据稿件号人工回查每篇稿件的WORD版,并记录稿件所属学科、最终处理去向及人工核查比对形成文字复制比为0的原因,对以上内容作统计学分析。
表1显示2012—2016年《蚌埠医学院学报》复制比为0的稿件学科分布特征,对各学科类别文章进行统计分析,结果发现差异无统计学意义(
通过对不同年份的稿件处理去向特征分析发现,各年份差异均有统计学意义(
考虑到核查249篇中每篇稿件复制比为0的形成原因涉及信息量太大,故从249篇中随机抽取20篇,分别对其所引用的参考文献进行回溯性复查,并结合专家审稿意见及处理去向,综合分析发现形成原因交织存在:客观因素所致2篇(10%),主观因素所致18篇(90%),其中包括插字2篇(10%),变换语法句式6篇(30%),原意复述16篇(80%),图片造假1篇(5%),翻译外文1篇(5%)。20篇稿件中原意复述所占比例最高。
客观因素主要集中在对比源的局限性和参考文献著录不规范问题上。
目前大部分医学期刊采用AMLC系统和PSDS系统,两大系统收录的数据库时间跨度不同,对比范围、对比期刊均有差异,且两家均有和多种学术期刊签订独家收录协议,导致两个对比源在资源上出现差异。如果单独使用一个系统对来稿进行检测,很可能“一叶障目”。如,笔者发现,有一篇护理类文章,使用AMLC系统检测时显示文字复制比为0,但出于谨慎考虑,又使用PSDS对此篇文章进行了复测,发现该篇文章的复制比为24.5%,症结在于该篇文章引用的很多参考文献来源均为PSDS独家收录。
文字复制比检测是对参考文献引用正确与否的核查与评判。尽管该种检测并不能完全直接判定文章的学术不端,但对参考文献的著录有着很高要求。检测系统借助“源”文献对引文进行核查,引文的核查主要依据引用参考文献的著者、载体、面世日期、查询路径、页码等信息,要求参考文献著录要素齐全、格式正确、结构合理。不规范的著录方式可能会使得检测系统无法正确比对文中相应的文字,出现漏检的现象。
主观因素指作者采用多种方式刻意降低文章的文字复制比。本研究通过随机对20篇文章的回查发现,增减字数、变换语法句式、更改关键词、原意复述、图片造假及翻译外文,均成为作者为了降低文字复制比的常用做法。
AMLC的检测条件是连续13个字相似或重复都会被标红,因此有些作者利用这种规律,在抄袭的一句话中增减一些字数。笔者认为,通过这种投机取巧的方法将他人的观点、方法、结果伪装成自己的文章,是较为严重的隐性抄袭行为。
在20篇被回查的文章中,有一篇关于儿童龋齿的文章,引言中表述为:“乳前牙环状龋指的是乳前牙的唇面和邻面发生并逐渐产生环绕牙冠的广泛性的呈卷脱状的环状龋损”。此句后面做了参考文献的标注,根据标注,笔者进行回查,找到被引文献的原文,发现文章中引言有一句描述为:“乳前牙环状龋是指乳前牙唇面、邻面龋较快发展成围绕牙冠的广泛性的环形龋,呈卷脱状”。不难看出,作者套用了文献中对于“乳前牙环状龋”概念的描述,通过改变句式,将原有的两个分句式,合二为一,降低了此处的复制比。
这种做法的特点是作者将原参考文献中的句子结构全部打乱,用自己的话重新复述。本研究中发现,有一篇影像学文章,通篇著录了15条文献,但将每条文献打印出来进行回查比对,发现该文章中找不到一句与所引文献的内容完全吻合,每句话都是著录文献中观点的原意复述。
AMLC等系统对文字识别很敏感,但对图、表等检测还在进一步研发当中。本研究中有一篇影像医学的论著,其间出现了2张关于骨折前后X线片对比的图片,作者在结果中明确写着“本研究48例骨折患者手术前后X线片比较(见图1)”,而笔者查看原文发现图1中的X线片上方的英文信息标注的单位和作者提供的单位完全不一致,很明显作者假借了别人的资料。经核实,作者承认该图片是复制他人研究结果的事实。
本研究中还有一篇AMLC检测文字复制比为0,引用的参考文献均为英文文献的稿件,专家外审认为观点颇有创新性,建议录用。然而笔者采用Turnitin英文检测系统进行复测,结果发现该文章实为英文文献原封不动翻译过来。
文献[5]认为隐性重复的查找方法和途径包括:从文后的参考文献回查,从作者已发表的文章查找,从检测结果中的相似文献中查找,从检测结果中告知的图表内容查找,从文章的主要关键词查找。以上5种方式都不失为很好的回查方式,但鉴于复制比为0的文章的特殊性,系统中可能关于相似文献的结果都不会显示。因此,对于复制比为0的文章,可以考虑重点采用除从文后的参考文献回查方式之外的另外4种方法进行核查。
参考文献的引用形式主要有3种:继承性引用、指示性引用和批判性引用[6]。以上3者可能会在文章引文中交织出现,均属于合理引用。美国《芝加哥手册》规定:“凡使用他人原话在3个连续词以上,都要使用直接引号,否则即使注明出处,仍视为抄袭”。编辑人员可以直观地通过作者的标引,快速准确地找到引用的参考文献,AMLC等查重系统也会自动识别直接用引号标出的引文,并标出绿色,列入合理引用的文字复制比中。然而在实际操作中,鲜有作者能够规范地做到这点。因此,更多的学术期刊有必要对参考文献的标引做出更高的要求,将有利于人工核查参考文献,准确把握文字复制比情况,辨别文章真伪。基于目前的情势,鉴于文字引证的复杂性,笔者认为编辑可以为作者提供相关参考文献著录规范,如参照2015年12月1日实施的《信息与文献—参考文献著录规则》(GB/T 7714-2015),并要求作者提供文章引证的详细说明和引证文献的原件或复印件等证明材料,可有效弥补部分文献因“无从核查”而出现的漏洞。
由于各检测系统收录数据的侧重点和来源不同,导致单一采用某一系统检测会出现漏检。建议期刊编辑部对收入的稿件采用多平台、多系统、多渠道地排查。发现有文字复制比为0的文章,可以借助2~3个其他检测系统进行复核,除AMLC之外,还有万方、维普等论文相似度检测系统,同时还可以利用百度、搜狗、Google等各种网络搜索引擎。对可疑文章中的关键词、文题、作者信息等进行深挖,来避免作者利用博客、会议论文、网络帖子等进行抄袭而漏检的可能。还应特别关注参考文献全为英文的、或有英文摘要的中文稿件,如存疑,应采用国外文献数据库相关检测系统进行验证,如Turnitin、CrossCheck、MedLine、PubMed等。
数据库检测系统只能基于计算机语言的识别程序,不具备对文字内涵的理解能力[7]。中国知网检测系统中也公开说明:“鉴于检测系统以非人工检测方式,根据您上传的文献自动生成检测结果,中国知网对其概不负责,亦不承担任何法律责任。”因此,如何界定复制比为0的稿件,还要依靠编辑人员和学术专家共同明察秋毫。首先,要发挥编辑的主观能动性。编辑是学术不端行为的前期主要发现人,承担着重要的责任[1]。由于文字复制比为0的稿件存在着较深的隐蔽性和复杂性,提高编辑人员的辨伪能力尤为重要。在充分利用各种平台审核稿件的同时,还应认真对文中参考文献进行核查,从细节查找可能存在的抄袭行为。对于存疑的稿件,与作者沟通,确认何种因素所致,根据抄袭的部分和权重,理性慎重地作出退稿处理或进一步审稿的抉择。其次,要借助审稿专家这一强有力后盾。有学者[9]提出,同行评议目前是国际上通行的保障学术论文质量和创新性的学术评价制度。审稿专家在专业学术领域中具备较强的学术敏感度,对于审稿中遇到的问题也最有发言权。将文字复制比为0、却又无迹可寻的稿件,交由审稿专家作进一步的审查,有望对文章的学术创新性、方法合理性、所引资料有效性等做出客观评价。还可通过定稿会进行集体讨论,发挥编委会群策群力的作用,最终给出公平的仲裁。
建议凡是拟录用的稿件,编辑部都要与作者签署《著作权转让授权书》,由作者声明来稿资料的真实性、无剽窃他人作品及一稿多投的问题,要求作者签字并加盖单位公章,并在期刊网站的稿约上写明学术不端行为对侵犯他人著作权的危害性。通过鉴定,如发现该文章作者存在抄袭的情况,可以采取将作者列入黑名单的办法,以示惩戒。