文字复制比为0的医学论文特征、成因及对策分析

【摘要】调查《蚌埠医学院学报》2012—2016年初审通过的稿件3 209篇，通过对文字复制比为0的稿件进行定量统计分析，以期对该种隐性不端行为的成因、特点进行深挖，并提出相关对策。结果表明：3 209篇稿件中复制比为0的稿件有249篇（7.76%），文字复制比为0的稿件总体录用率呈下降趋势；从249篇中随机抽取了20篇，回溯性复查，发现形成文字复制比为0的因素交织存在。建议从编辑、审稿专家、检测系统、作者等方面进行综合防范，慎重取舍。

【关键词】复制比 ; 医学论文 ; 成因 ; 对策

【Abstract】

1　背景

文字复制比作为学术不端监测的重要指标，广泛应用于学术不端监测系统中，如中国知网学术不端文献检测系统（AMLC）、万方数据论文相似性检测系统（PSDS）等。AMLC中对文字复制比的范围进行了划分，其中低于40%为轻度重合，40%～50%为中度重合，50%以上为重度重合。这种划分无法检测很多隐性的、深度的学术不端。《蚌埠医学院学报》从2010年开始采用AMLC系统进行学术不端检测，并严格要求稿件文字复制比不得高于30%。检测过程中发现有部分稿件的文字复制比为0，看似属于创新卓越，但也可能存在着隐性学术不端。如不能及时对此类现象加以防范，便会助长学术不端的不正之风^[1]。本研究选择2012—2016年《蚌埠医学院学报》初审通过的稿件3 209篇，利用AMLC系统中自带的“导出EXCEL”功能，导出3 209篇稿件的具体信息，形成EXCEL表格，内容依次包括稿件编号、检测结果、重合字数、去除引用、去除本人及上传日期。选取“检测结果”一列的“升序”排列，最后找出“检测结果”为0的稿件共计249篇。根据稿件号人工回查每篇稿件的WORD版，并记录稿件所属学科、最终处理去向及人工核查比对形成文字复制比为0的原因，对以上内容作统计学分析。

2　结果及分析

2.1　不同年份复制比为0的稿件学科分布特征

表1显示2012—2016年《蚌埠医学院学报》复制比为0的稿件学科分布特征，对各学科类别文章进行统计分析，结果发现差异无统计学意义（P＞0.05）。该结果说明文字复制比为0的稿件分布在各个领域和学科。基础、预防医学专业的文章有19篇文字复制比为0，这是一种非正常现象。文献[2]认为，无论何种学科或综述类论文，均应尽可能引用适当数量的参考文献。笔者认为，一些特定学科应存在一定的复制比。如基础医学类，必然会涉及公知公用的疾病概念、发病机制、药物原理、疗效评判标准或公式、量表等，均应以引用原文的形式出现。然而笔者发现，一些作者为了降低重复率，故意通过语序调整、原意复述等方式，规避高复制比，这种做法恰恰陷入了隐性学术不端行为的泥潭，也是很多作者在撰写论文时存在一个的误区，即将合理的引用和抄袭混为一谈。

年份	总篇数	复制比为0的篇数
2012	625	6	21	12	5
2013	625	5	58	22	8
2014	656	2	24	6	1	11.69	＞0.05
2015	671	3	28	14	3
2016	632	3	14	10	5
合计	3 209	19	145	62	22

表1

2012—2016年《蚌埠医学院学报》复制比为0的稿件学科分布特征

2.2　不同年份复制比为0的稿件处理去向特征

通过对不同年份的稿件处理去向特征分析发现，各年份差异均有统计学意义（P＜0.05）；文字复制比为0的稿件总体录用率呈下降趋势，其中2013年低于2012年（P＜0.05），2015年和2016年显著低于2012年（P＜0.01），2016年低于2014年（P＜0.05），差异均有统计学意义（见表2）。表2显示，本学报2012—2016年复制比为0的文章占初审通过文章的总比例为7.76%（249/3 209），明显低于文献[3,4]所述的21.5%和32.3%，且每年所占比例有下降趋势。笔者认为，这一结果得益于本学报在与学术不端行为“博弈”中采取的相应策略。本学报起初仅通过系统提供的复制比结果来识别稿件的真伪，存在认知度的局限，难以发现潜在的、隐性的学术不端现象，由于学术造假手段的不断升级，期刊对于学术不端行为的防范，也在不断摸索中提高，之后本学报结合多渠道、多环节、多平台进行防范，取得一定实效。249篇中有104篇被退稿（表2），其中44篇为作者主动撤稿，追踪调查发现其均在撤稿不久后发表在其他期刊上，属于一稿多投。

年份	复制比为0的篇数	退稿／篇（占比）	录用／篇（占比）	X ²	P
2012	44	9(20.45)	2(4.45)	33(75.00)
2013	93	26(27.96)	15(16.13)	52(55.91)
2014	33	5(15.15)	5(15.15)	23(69.70)	11.35	＜0.05
2015	48	16(33.33)	9(18.75)	23(47.92)
2016	31	4(12.90)	13(41.94)	14(45.16)
合计	249	60(24.10)	44(17.67)	145(58.23)

表2

2012—2016年《蚌埠医学院学报》复制比为0的稿件处理去向特征分析

2.3　不同形成原因的定量统计

考虑到核查249篇中每篇稿件复制比为0的形成原因涉及信息量太大，故从249篇中随机抽取20篇，分别对其所引用的参考文献进行回溯性复查，并结合专家审稿意见及处理去向，综合分析发现形成原因交织存在：客观因素所致2篇（10%），主观因素所致18篇（90%），其中包括插字2篇（10%），变换语法句式6篇（30%），原意复述16篇（80%），图片造假1篇（5%），翻译外文1篇（5%）。20篇稿件中原意复述所占比例最高。

3　形成原因解析

3.1　客观因素

客观因素主要集中在对比源的局限性和参考文献著录不规范问题上。

3.1.1　对比源的局限性

目前大部分医学期刊采用AMLC系统和PSDS系统，两大系统收录的数据库时间跨度不同，对比范围、对比期刊均有差异，且两家均有和多种学术期刊签订独家收录协议，导致两个对比源在资源上出现差异。如果单独使用一个系统对来稿进行检测，很可能“一叶障目”。如，笔者发现，有一篇护理类文章，使用AMLC系统检测时显示文字复制比为0，但出于谨慎考虑，又使用PSDS对此篇文章进行了复测，发现该篇文章的复制比为24.5%，症结在于该篇文章引用的很多参考文献来源均为PSDS独家收录。

3.1.2　参考文献著录不规范

文字复制比检测是对参考文献引用正确与否的核查与评判。尽管该种检测并不能完全直接判定文章的学术不端，但对参考文献的著录有着很高要求。检测系统借助“源”文献对引文进行核查，引文的核查主要依据引用参考文献的著者、载体、面世日期、查询路径、页码等信息，要求参考文献著录要素齐全、格式正确、结构合理。不规范的著录方式可能会使得检测系统无法正确比对文中相应的文字，出现漏检的现象。

3.2　主观因素

主观因素指作者采用多种方式刻意降低文章的文字复制比。本研究通过随机对20篇文章的回查发现，增减字数、变换语法句式、更改关键词、原意复述、图片造假及翻译外文，均成为作者为了降低文字复制比的常用做法。

3.2.1　增减字数

AMLC的检测条件是连续13个字相似或重复都会被标红，因此有些作者利用这种规律，在抄袭的一句话中增减一些字数。笔者认为，通过这种投机取巧的方法将他人的观点、方法、结果伪装成自己的文章，是较为严重的隐性抄袭行为。

3.2.2　变换语法句式

在20篇被回查的文章中，有一篇关于儿童龋齿的文章，引言中表述为：“乳前牙环状龋指的是乳前牙的唇面和邻面发生并逐渐产生环绕牙冠的广泛性的呈卷脱状的环状龋损”。此句后面做了参考文献的标注，根据标注，笔者进行回查，找到被引文献的原文，发现文章中引言有一句描述为：“乳前牙环状龋是指乳前牙唇面、邻面龋较快发展成围绕牙冠的广泛性的环形龋，呈卷脱状”。不难看出，作者套用了文献中对于“乳前牙环状龋”概念的描述，通过改变句式，将原有的两个分句式，合二为一，降低了此处的复制比。

3.2.3　原意复述

这种做法的特点是作者将原参考文献中的句子结构全部打乱，用自己的话重新复述。本研究中发现，有一篇影像学文章，通篇著录了15条文献，但将每条文献打印出来进行回查比对，发现该文章中找不到一句与所引文献的内容完全吻合，每句话都是著录文献中观点的原意复述。

3.2.4　图片造假

AMLC等系统对文字识别很敏感，但对图、表等检测还在进一步研发当中。本研究中有一篇影像医学的论著，其间出现了2张关于骨折前后X线片对比的图片，作者在结果中明确写着“本研究48例骨折患者手术前后X线片比较（见图1）”，而笔者查看原文发现图1中的X线片上方的英文信息标注的单位和作者提供的单位完全不一致，很明显作者假借了别人的资料。经核实，作者承认该图片是复制他人研究结果的事实。

3.2.5　外文翻译

本研究中还有一篇AMLC检测文字复制比为0，引用的参考文献均为英文文献的稿件，专家外审认为观点颇有创新性，建议录用。然而笔者采用Turnitin英文检测系统进行复测，结果发现该文章实为英文文献原封不动翻译过来。

4　建议及对策

4.1　复制比为0的文章的核查方式

文献[5]认为隐性重复的查找方法和途径包括：从文后的参考文献回查，从作者已发表的文章查找，从检测结果中的相似文献中查找，从检测结果中告知的图表内容查找，从文章的主要关键词查找。以上5种方式都不失为很好的回查方式，但鉴于复制比为0的文章的特殊性，系统中可能关于相似文献的结果都不会显示。因此，对于复制比为0的文章，可以考虑重点采用除从文后的参考文献回查方式之外的另外4种方法进行核查。

4.2　规范参考文献引用，正确区分引文的合理引用和抄袭

参考文献的引用形式主要有3种：继承性引用、指示性引用和批判性引用^[6]。以上3者可能会在文章引文中交织出现，均属于合理引用。美国《芝加哥手册》规定：“凡使用他人原话在3个连续词以上，都要使用直接引号，否则即使注明出处，仍视为抄袭”。编辑人员可以直观地通过作者的标引，快速准确地找到引用的参考文献，AMLC等查重系统也会自动识别直接用引号标出的引文，并标出绿色，列入合理引用的文字复制比中。然而在实际操作中，鲜有作者能够规范地做到这点。因此，更多的学术期刊有必要对参考文献的标引做出更高的要求，将有利于人工核查参考文献，准确把握文字复制比情况，辨别文章真伪。基于目前的情势，鉴于文字引证的复杂性，笔者认为编辑可以为作者提供相关参考文献著录规范，如参照2015年12月1日实施的《信息与文献—参考文献著录规则》（GB/T 7714-2015），并要求作者提供文章引证的详细说明和引证文献的原件或复印件等证明材料，可有效弥补部分文献因“无从核查”而出现的漏洞。

还有学者^[7]指出，医学论文前部分多为参考指标、通用方法及药物剂量等，属于非主体。AMLC系统分别对前部重合度（HR）、后部重合度（ER）两部分提供检测结果，HR主要包含引言，而ER主要是文章核心，即结果和结论。有学者^[8]认为，如被检测的文章HR高于ER，但核心部分颇具研究价值和意义，编辑部应建议作者正确补充引文，视情况考虑录用；如果ER重复率过高，就说明该文章无录用价值。

4.3　利用多平台、多系统验证

由于各检测系统收录数据的侧重点和来源不同，导致单一采用某一系统检测会出现漏检。建议期刊编辑部对收入的稿件采用多平台、多系统、多渠道地排查。发现有文字复制比为0的文章，可以借助2～3个其他检测系统进行复核，除AMLC之外，还有万方、维普等论文相似度检测系统，同时还可以利用百度、搜狗、Google等各种网络搜索引擎。对可疑文章中的关键词、文题、作者信息等进行深挖，来避免作者利用博客、会议论文、网络帖子等进行抄袭而漏检的可能。还应特别关注参考文献全为英文的、或有英文摘要的中文稿件，如存疑，应采用国外文献数据库相关检测系统进行验证，如Turnitin、CrossCheck、MedLine、PubMed等。

4.4　提高编辑的辨伪能力，充分发挥审稿专家的作用

数据库检测系统只能基于计算机语言的识别程序，不具备对文字内涵的理解能力^[7]。中国知网检测系统中也公开说明：“鉴于检测系统以非人工检测方式，根据您上传的文献自动生成检测结果，中国知网对其概不负责，亦不承担任何法律责任。”因此，如何界定复制比为0的稿件，还要依靠编辑人员和学术专家共同明察秋毫。首先，要发挥编辑的主观能动性。编辑是学术不端行为的前期主要发现人，承担着重要的责任^[1]。由于文字复制比为0的稿件存在着较深的隐蔽性和复杂性，提高编辑人员的辨伪能力尤为重要。在充分利用各种平台审核稿件的同时，还应认真对文中参考文献进行核查，从细节查找可能存在的抄袭行为。对于存疑的稿件，与作者沟通，确认何种因素所致，根据抄袭的部分和权重，理性慎重地作出退稿处理或进一步审稿的抉择。其次，要借助审稿专家这一强有力后盾。有学者^[9]提出，同行评议目前是国际上通行的保障学术论文质量和创新性的学术评价制度。审稿专家在专业学术领域中具备较强的学术敏感度，对于审稿中遇到的问题也最有发言权。将文字复制比为0、却又无迹可寻的稿件，交由审稿专家作进一步的审查，有望对文章的学术创新性、方法合理性、所引资料有效性等做出客观评价。还可通过定稿会进行集体讨论，发挥编委会群策群力的作用，最终给出公平的仲裁。

4.5　加大对学术不端的惩戒力度

建议凡是拟录用的稿件，编辑部都要与作者签署《著作权转让授权书》，由作者声明来稿资料的真实性、无剽窃他人作品及一稿多投的问题，要求作者签字并加盖单位公章，并在期刊网站的稿约上写明学术不端行为对侵犯他人著作权的危害性。通过鉴定，如发现该文章作者存在抄袭的情况，可以采取将作者列入黑名单的办法，以示惩戒。

参考文献

View Option

[1]	王蕾. 深度学术不端中的“简单问题复杂化”现象探析[J]. 中国科技期刊研究，2016，27(7):683-686. [本文引用:2]
[2]	姚仁斌，俞荷俊，周洋，等. 基于拟发表医学论文复制比分析与研究[J]. 蚌埠医学院学报，2015，4(4):152-155. [本文引用:1]
[3]	赵秋民. 正确处理文字复制比为0和>40%的论文[J]. 编辑学报，2014，26(2):159-161. [本文引用:1]
[4]	杨柱星，林荣慧，胡榜利，等. 医学论文学术不端的特点及判定[J]. 中国科技期刊研究，2011，22(5):697-701. [本文引用:1]
[5]	陆宜新. 学术不端监测中的隐性重复现象分析[J]. 中国科技期刊研究，2015，26(6):552-555. [本文引用:1]
[6]	刘雪立. 参考文献的继承性引用、指示性引用和批判性引用与影响因子的标准化[J]. 中国科技期刊研究，2004，15(3):251-253. [本文引用:1]
[7]	林加西，邓丽琼.《广东医学院学报》550篇来稿的文字复制情况分析[J]. 数理医药学杂志，2013，26(5):544-546. [本文引用:2]
[8]	赵蔚. 学术不端检测结果的修正标准初探：基于“文字复制比”与“文章抄袭率”的辨析[J]. 中国出版，2011(11下):20-23. [本文引用:1]
[9]	陈玉国. 研究生学术不端行为防范体系的构建：基于学术共同体视域[J]. 中国科技期刊研究，2016，27(11):1133-1138. [本文引用:1]

深度学术不端中的“简单问题复杂化”现象探析

2016

... 文字复制比作为学术不端监测的重要指标，广泛应用于学术不端监测系统中，如中国知网学术不端文献检测系统（AMLC）、万方数据论文相似性检测系统（PSDS）等.AMLC中对文字复制比的范围进行了划分，其中低于40%为轻度重合，40%～50%为中度重合，50%以上为重度重合.这种划分无法检测很多隐性的、深度的学术不端.《蚌埠医学院学报》从2010年开始采用AMLC系统进行学术不端检测，并严格要求稿件文字复制比不得高于30%.检测过程中发现有部分稿件的文字复制比为0，看似属于创新卓越，但也可能存在着隐性学术不端.如不能及时对此类现象加以防范，便会助长学术不端的不正之风^[1].本研究选择2012—2016年《蚌埠医学院学报》初审通过的稿件3 209篇，利用AMLC系统中自带的“导出EXCEL”功能，导出3 209篇稿件的具体信息，形成EXCEL表格，内容依次包括稿件编号、检测结果、重合字数、去除引用、去除本人及上传日期.选取“检测结果”一列的“升序”排列，最后找出“检测结果”为0的稿件共计249篇.根据稿件号人工回查每篇稿件的WORD版，并记录稿件所属学科、最终处理去向及人工核查比对形成文字复制比为0的原因，对以上内容作统计学分析. ...

... 数据库检测系统只能基于计算机语言的识别程序，不具备对文字内涵的理解能力^[7].中国知网检测系统中也公开说明：“鉴于检测系统以非人工检测方式，根据您上传的文献自动生成检测结果，中国知网对其概不负责，亦不承担任何法律责任.”因此，如何界定复制比为0的稿件，还要依靠编辑人员和学术专家共同明察秋毫.首先，要发挥编辑的主观能动性.编辑是学术不端行为的前期主要发现人，承担着重要的责任^[1].由于文字复制比为0的稿件存在着较深的隐蔽性和复杂性，提高编辑人员的辨伪能力尤为重要.在充分利用各种平台审核稿件的同时，还应认真对文中参考文献进行核查，从细节查找可能存在的抄袭行为.对于存疑的稿件，与作者沟通，确认何种因素所致，根据抄袭的部分和权重，理性慎重地作出退稿处理或进一步审稿的抉择.其次，要借助审稿专家这一强有力后盾.有学者^[9]提出，同行评议目前是国际上通行的保障学术论文质量和创新性的学术评价制度.审稿专家在专业学术领域中具备较强的学术敏感度，对于审稿中遇到的问题也最有发言权.将文字复制比为0、却又无迹可寻的稿件，交由审稿专家作进一步的审查，有望对文章的学术创新性、方法合理性、所引资料有效性等做出客观评价.还可通过定稿会进行集体讨论，发挥编委会群策群力的作用，最终给出公平的仲裁. ...

基于拟发表医学论文复制比分析与研究

2015

... 表1显示2012—2016年《蚌埠医学院学报》复制比为0的稿件学科分布特征，对各学科类别文章进行统计分析，结果发现差异无统计学意义（P＞0.05）.该结果说明文字复制比为0的稿件分布在各个领域和学科.基础、预防医学专业的文章有19篇文字复制比为0，这是一种非正常现象.文献[2]认为，无论何种学科或综述类论文，均应尽可能引用适当数量的参考文献.笔者认为，一些特定学科应存在一定的复制比.如基础医学类，必然会涉及公知公用的疾病概念、发病机制、药物原理、疗效评判标准或公式、量表等，均应以引用原文的形式出现.然而笔者发现，一些作者为了降低重复率，故意通过语序调整、原意复述等方式，规避高复制比，这种做法恰恰陷入了隐性学术不端行为的泥潭，也是很多作者在撰写论文时存在一个的误区，即将合理的引用和抄袭混为一谈. ...

正确处理文字复制比为0和>40%的论文

2014

... 通过对不同年份的稿件处理去向特征分析发现，各年份差异均有统计学意义（P＜0.05）；文字复制比为0的稿件总体录用率呈下降趋势，其中2013年低于2012年（P＜0.05），2015年和2016年显著低于2012年（P＜0.01），2016年低于2014年（P＜0.05），差异均有统计学意义（见表2）.表2显示，本学报2012—2016年复制比为0的文章占初审通过文章的总比例为7.76%（249/3 209），明显低于文献[3,4]所述的21.5%和32.3%，且每年所占比例有下降趋势.笔者认为，这一结果得益于本学报在与学术不端行为“博弈”中采取的相应策略.本学报起初仅通过系统提供的复制比结果来识别稿件的真伪，存在认知度的局限，难以发现潜在的、隐性的学术不端现象，由于学术造假手段的不断升级，期刊对于学术不端行为的防范，也在不断摸索中提高，之后本学报结合多渠道、多环节、多平台进行防范，取得一定实效.249篇中有104篇被退稿（表2），其中44篇为作者主动撤稿，追踪调查发现其均在撤稿不久后发表在其他期刊上，属于一稿多投. ...

医学论文学术不端的特点及判定

2011

学术不端监测中的隐性重复现象分析

2015

... 文献[5]认为隐性重复的查找方法和途径包括：从文后的参考文献回查，从作者已发表的文章查找，从检测结果中的相似文献中查找，从检测结果中告知的图表内容查找，从文章的主要关键词查找.以上5种方式都不失为很好的回查方式，但鉴于复制比为0的文章的特殊性，系统中可能关于相似文献的结果都不会显示.因此，对于复制比为0的文章，可以考虑重点采用除从文后的参考文献回查方式之外的另外4种方法进行核查. ...

参考文献的继承性引用、指示性引用和批判性引用与影响因子的标准化

2004

... 参考文献的引用形式主要有3种：继承性引用、指示性引用和批判性引用^[6].以上3者可能会在文章引文中交织出现，均属于合理引用.美国《芝加哥手册》规定：“凡使用他人原话在3个连续词以上，都要使用直接引号，否则即使注明出处，仍视为抄袭”.编辑人员可以直观地通过作者的标引，快速准确地找到引用的参考文献，AMLC等查重系统也会自动识别直接用引号标出的引文，并标出绿色，列入合理引用的文字复制比中.然而在实际操作中，鲜有作者能够规范地做到这点.因此，更多的学术期刊有必要对参考文献的标引做出更高的要求，将有利于人工核查参考文献，准确把握文字复制比情况，辨别文章真伪.基于目前的情势，鉴于文字引证的复杂性，笔者认为编辑可以为作者提供相关参考文献著录规范，如参照2015年12月1日实施的《信息与文献—参考文献著录规则》（GB/T 7714-2015），并要求作者提供文章引证的详细说明和引证文献的原件或复印件等证明材料，可有效弥补部分文献因“无从核查”而出现的漏洞. ...

《广东医学院学报》550篇来稿的文字复制情况分析

2013

... 还有学者^[7]指出，医学论文前部分多为参考指标、通用方法及药物剂量等，属于非主体.AMLC系统分别对前部重合度（HR）、后部重合度（ER）两部分提供检测结果，HR主要包含引言，而ER主要是文章核心，即结果和结论.有学者^[8]认为，如被检测的文章HR高于ER，但核心部分颇具研究价值和意义，编辑部应建议作者正确补充引文，视情况考虑录用；如果ER重复率过高，就说明该文章无录用价值. ...

学术不端检测结果的修正标准初探：基于“文字复制比”与“文章抄袭率”的辨析

2011

研究生学术不端行为防范体系的构建：基于学术共同体视域

2016

资源

摘要

PDF下载数

RichHTML 浏览数

摘要点击数

导出

EndNote | Ris | Bibtex

相关文章:

关键词（key words）

复制比

医学论文

成因

对策

作者