基于相关分析和逐步回归分析的期刊论文被引量预测

【摘要】研究人员通常更关注最近两年内发表的论文，特别是可能在未来有很大论文影响力的论文。然而，目前论文被引量预测方法的准确性仍不令人满意。期刊论文的特征空间包括外部特征、作者特征、引用特征和期刊特征4个方面。利用逐步多元回归分析从特征空间中选择合适的特征，建立回归模型来解释被引量和所选特征之间的关系，并以图情领域期刊为例，验证了回归模型对期刊论文被引量预测的有效性。

【关键词】期刊论文 ; 被引量预测 ; 特征空间 ; 逐步多元回归

【Abstract】

1 引言

被引量是指一篇论文出版以来的被引用次数，是人们对论文发表以后的评议，人们对论文关注高，被引次数就高^[1]。因此，被引量广泛用于评估论文、专利、期刊、专著、科学家、研究团队、科研机构等的科学贡献或价值^[2]。

在当前知识爆炸的时代，研究人员可以方便地获得在某个特定研究领域中的大量论文。对于已经发表超过5年的论文，可以很容易地通过每篇论文的被引情况等评估其影响力。然而,对于只出版一两年的论文，通常覆盖当前研究热点和趋势，却很难预测它们未来的影响。较早地发现具有高被引潜力的论文，将有助于科研人员尽早关注有影响力的研究方向、把握学科发展动向^[3]。基于此，预测期刊论文的被引量具有重要的研究意义。已有研究表明，高质量论文在发表后五年内具有较强的知识扩散能力^[4]，这意味着，一篇论文发表后五年的被引量是论文影响力的重要表现。因此，本研究通过预测期刊论文发表后五年内的被引量来反映论文影响力。

许多学者对期刊论文被引量的影响因素进行了研究。如Robson和Mousques^[5]在研究论文被引量影响因素时考虑了页码数、作者数量、参考文献数量、摘要长度、地理位置、学科等指标，发现论文长度即页码数以及参考文献数量是最重要的影响因素；Borsuk和Budden等学者^[6]利用广义线性模型(GLM)估算了第一作者的性别、论文语言和作者数量对被引量的影响，发现作者数量具有较大的影响，但是第一作者的性别和论文语言的影响不显著；袭继红^[7]、邱均平^[8]等学者研究了国际合作或科研合作对论文被引量的影响，发现科研合作在提高平均被引量方面发挥了重要作用。

在图情领域，也有许多关于期刊影响力和论文被引量预测的研究。如王烁、李铁铮^[9]以农业经济类的26种期刊为研究对象，选取18项指标，通过因子分析法构建了农业经济类期刊的影响力综合评价模型；Saeed等人^[10]运用线性回归的方法对WWW会议论文进行被引量排名预测；Yu等人^[11]用回归方法预测了图书情报领域文章的被引频次，并创新性地引入Eigenfactor、Article Influence Score这两项期刊评价指标；鲍玉芳、马建霞^[3]将影响论文引用的相关因素按作者因素、文章因素、期刊因素、网络计量学、其他因素这5个维度进行梳理，然后总结了常用的引用预测方法。本文拟通过构建论文特征空间提出影响论文被引量的多维特征指标，运用多元线性模型预测论文的被引量。

2 研究方法与工具

2.1 相关分析

相关分析（correlation analysis）是研究现象之间是否存在某种依存关系，测度各变量之间关系密切程度的一种统计方法，它用一个指标数值表示变量之间关系的密切程度。可以按照关系变化的形态分为线性相关分析和非线性相关分析。本文利用的是线性相关分析。

2.2 逐步回归分析

回归分析（regression analysis）是分析具有相互联系的对象，是根据其关系形态，选择一个合适的数学模型，用来近似地表达自变量和因变量间关系的分析方法。本文对图情领域期刊论文的被引量预测，就是通过对期刊论文的特征指标进行分析，建立回归模型，找出论文特征和被引量的准确联系，从而预测在未来一个时期图情领域期刊论文的被引量。然而在影响因素较多的情况下，这些影响因素之间可能存在高度依赖性，会使得所求的回归系数不合理、不科学。针对上述问题，我们采用逐步回归分析。逐步回归分析包括向前选择、向后淘汰和双向消除，在本文研究中，选择双向消除的方法以获得最佳模型。本文使用SPSS的数据统计分析功能，运用SPSS统计分析过程中的相关分析以及回归分析，对影响指标进行筛选并构建回归模型。

3 数据来源及数据处理

3.1 数据来源

笔者首先选取了 "中国社会科学引文索引" （CSSCI）中的图书馆、情报与文献学学科领域的20种核心期刊，由于《情报学报》没有被中国知网（CNKI)收录，故选取除《情报学报》以外的19种期刊作为研究对象。每种期刊按顺序选取自2011年第1期开始的20篇论文，共得到380篇论文作为统计分析样本，利用CNKI提供的高级检索功能，分别统计出各个指标。为便于同时进行模型构建和模型验证，选取其中的320篇论文作为分析样本，其余60篇为测试样本。

3.2 数据处理

考虑数据的可获得性，通过构建论文的特征空间选取相应的指标，描述科学论文的特征大致分为4种类型：论文的外部特征、作者特征、引用特征和出版期刊特征。科学论文的特征空间X可以定义如下：

X=｛x₁,x₂,x₃,⋯,x_n｝

其中x_i（i=1,2,⋯,n）表示论文特征。本文用y表示论文的被引量，即2011年发表的论文截止到2016年1月1日之前的总被引频次。

论文的外部特征包括文章类型、语言、出版日期、参考文献的数量、论文长度等。为了方便比较，我们只选择参考文献数量作为其中一个变量。根据马太效应，作者的声誉和期刊的知名度可能会影响论文被引量，人们普遍认为，权威学者和核心期刊的论文会吸引更多的关注。用于描述期刊特征的一系列期刊评价指标是从《中国科技期刊引证报告》中选取的。此外，引用特征，如首次被引年限和论文发表后最近两年内的被引量，反映出发表后两年内知识扩散的能力，可用来反映期刊论文的质量。

表1列出了期刊论文的特征。这些特征被广泛接受且易于访问。本研究中，引入首次被引年限的倒数。原因是，一些论文在知网中从未被引用过。首次被引年限的倒数在0到1之间，首次被引年限倒数值越大，论文会在科学界扩散地更迅速。

特征类型	特征描述指标	标记
外部特征	参考文献数量	x ₁
作者数量	x₂
作者特征	第一作者的h指数（样本论文发表之前）	x ₃
第一作者发表的论文数量（样本论文发表之前）	x₄
第一作者发表论文的总被引量（样本论文发表之前）	x₅
第一作者发表论文的平均被引量（样本论文发表之前）	x₆
引用特征	首次被引年限的倒数	x ₇
样本论文发表后两年内的被引量	x₈
期刊特征	期刊总被引频次	x ₉
期刊影响因子	x₁₀
期刊即年指标	x₁₁
期刊被引半衰期	x₁₂

表1

期刊论文的特征

多元回归分析不仅能提取隐藏在巨大数据集的重要信息，还可以使用变量来预测和控制一个特定的变量。因此，在回归分析中，论文被引量是因变量，表1所示的12个特征是自变量。使用皮尔森相关系数来分析论文被引量y与12个特征之间的关系，对变量进行相关分析来判断两个变量之间是否存在线性相关关系。笔者利用SPSS19.0 中的双变量相关分析功能对320篇论文的论文被引量y与12个特征指标进行相关分析。然后通过多元逐步回归来建立被引量与论文特征之间的回归模型，以此来预测图情领域期刊论文的被引量。

4 分析与讨论

4.1 论文特征与被引量的相关性分析

320篇论文的累计被引量是2 852次。图1显示出320篇论文的被引量y的分布情况，大多数论文只被引用了几次，被引次数在40以上的较少，最高被引量为150篇。其分布符合二八定律，说明选取的数据是较为有效的。

图1

320篇文献的论文被引量分布

总的来说，320篇统计样本中，超过73%的论文参考文献数量在5～20之间，大多数高被引论文都出自北京、武汉、广州、南京等发达地区或著名高校和机构。约82%的论文是由1～2作者完成的，第一作者h指数不超过3的约占20%，第一作者发表论文数量超过10篇的约占75%，第一作者发表论文总被引量不低于30的约占67%，这意味着该领域研究人员大多具有良好的声誉。此外，约74%的论文首次被引年限在发表后两年内，但论文发表后两年内被引量不低于10的仅占约6.5%，这说明论文的引用需要周期，最新发表的论文不能马上体现其影响力。

4.1.1 论文外部特征

表2给出了论文被引量与论文外部特征之间的相关关系，发现参考文献数量几乎不会对论文被引量产生作用。这与外国学者的研究结果有差异，原因可能是，选取的数据库不同，中国该领域核心期刊一般对论文的格式、字数、参考文献数量等有严格的要求，且不同的期刊要求略有不同。

变量之间的相关性
y	1.000	0.064**
x₁	0.064**	1.000

表2

论文被引量与论文外部特征之间的关系

4.1.2 作者特征

表3显示了论文被引量和作者特征之间的皮尔森相关系数。结果表明，作者特征的5个指标与论文被引量有显著的相关性，但相关系数不高。尤其是作者数量x₂与其他各项的相关系数都比较低。第一作者发表论文的平均被引量x₆与论文被引量y的相关系数为0.678，超过中间值，说明作者特征对论文被引量起到较大的作用。

变量之间的相关性
y	1.000	0.143**	0.229**	0.158**	0.255**	0.678**
x₂	0.143**	1.000	0.200**	0.182**	0.179**	0.171**
x₃	0.229**	0.200**	1.000	0.875**	0.851**	0.290**
x₄	0.158**	0.182**	0.875**	1.000	0.936**	0.173**
x₅	0.255**	0.179**	0.851**	0.936**	1.000	0.253**
x₆	0.678**	0.171**	0.290**	0.173**	0.253**	1.000

表3

论文被引量与作者特征之间的关系

4.1.3 引用特征

表4显示了论文被引量和引用特征之间的相关性矩阵。结果表明，引用特征是论文被引量重要的影响因素，最近两年的被引次数x₈与论文被引量y的相关系数为0.838，说明它们之间有紧密的联系。

变量之间的相关性
y	1.000	0.163**	0.838**
x₇	0.163**	1.000	0.175**
x₈	0.838**	0.175**	1.000

表4

论文被引量与引用特征之间的关系

4.1.4 期刊特征

表5揭示了论文被引量与期刊特征之间的关系，相关系数接近约0.3，这表明论文被引量和出版期刊特征的相关性高于和外部特征的相关性。论文被引量和期刊总被引频次x₉之间的相关系数小于0.1，表明期刊的整体影响力并不能直接反映单个论文的影响力。

变量之间的相关性
y	1.000	0.031**	0.367**	0.326**	0.143**
x₉	0.031**	1.000	0.161**	-0.102**	-0.202**
x₁₀	0.367**	0.161**	1.000	0.754**	0.381**
x₁₁	0.326**	-0.102**	0.754**	1.000	0.561**
x₁₂	0.143**	-0.202**	0.381**	0.561**	1.000

表5

论文被引量与期刊特征之间的关系

4.2 逐步多元线性回归模型

4.2.1 模型构建

我们已经获得了320篇论文的特征分布，并分析了论文被引量和12个特征之间的相关性，然而这些关系并不是特别精确和具体，因此，我们可以利用线性回归模型来解释论文被引量和12个特征之间更准确的关系。

当有多个自变量时，使用逐步回归分析不仅可以保证所选变量的有效性和重要性，而且减少了额外冗余变量所引入的误差。在本文的研究中，由于有多个影响指标，采用逐步回归法可以有效地将对论文被引量这个因变量贡献大的自变量找出来，将贡献不显著的指标自变量剔除，即通过双向消除逐步回归分析，得到如下的回归模型：y =－0.462x₃+0.004x₅+0.523x₆+2.231x₈+13.344x₁₁－2.205

4.2.2 模型检验与评估

对逐步回归分析的结果评判：复相关系数R=0.904，拟合决定系数R²=0.816，调整后的拟合决定系数R²=0.813，标准残差均值为0.001。由此可以证明回归模型的效果较好。从回归方程可以看出，第一作者的h指数（x₃）、第一作者发表论文的总被引量（x₅）、第一作者发表论文的平均被引量（x₆）、样本论文发表后两年内的被引量（x₈）和期刊即年指标（x₁₁）对论文被引量有显著的影响，其中x₃与论文被引量呈负相关。在这个回归模型中，论文的外部特征、作者特征、引用特征和出版期刊特征都将对论文被引量预测起作用。

以其余的60篇作为测试样本，比较测试样本的实际论文被引量和回归模型预测的结果，如图2所示，虽然线性回归模型的预测有些误差，但是所预测的结果还是比较客观的，证明了回归模型是有效的。

图2

测试样本的实际论文被引量与回归结果比较

对于图2中几个预测值远高于实际值的情况，可能有以下几种原因：一是高被引作者或权威专家的文章不是每一篇都具有很高的影响力；二是在2011年之前大量发文的作者近几年科研成果减少，作者影响力下降；三是其他相关领域（如计算机、医学、管理学领域等）的权威作者在图情领域的被引量较少。而预测值低于实际值的情况，主要集中在在校研究生和因为工作需要在某一时期集中发表了一两篇文章，作者声誉及发文量不高，但文章质量较高。

5 结语

研究结果表明，一篇论文客观的科学计量指标可以预测论文被引量。论文的外部特征、作者特征、引用特征和出版期刊特征都是参与构建论文特征空间的要素。考虑到这些特征所提供的信息可能是冗余的，应用逐步回归分析的方法，从所有的特征中选择有代表性的变量建立模型，用来描述论文特征和论文被引量之间的关系。

期刊论文具有多维复杂的特征，我们的研究中只选择了相对简单和便于获得的特征，这些特征不能直接决定论文被引量，只是重要的影响因素。此外，本文研究的2011年的19个期刊的300多篇论文，样本数量有限，也会造成结果的误差。而且，我们的模型只适用于本文研究的主题领域。接下来的研究将选择更大、更全面的数据，并进一步考虑这些特征的全面性和有效性，比如涉及论文本身、开放存取状态、读者的可接受水平等许多方面。

参考文献

View Option

[1]	何星星，武夷山. 基于文献利用数据的期刊论文定量评价研究[J]. 情报杂志，2012(8)：98-102. [本文引用:1]
[2]	HargensLL，SchumanH.Citation counts and social comparisons: Scientists’use and evaluation of citation index data[J].Social Science Research，1990，19(3)：205-221. [本文引用:1]
[3]	鲍玉芳，马建霞. 科学论文被引频次预测的现状分析与研究[J]. 情报杂志，2015(5)：67-70. [本文引用:2]
[4]	AksnesD W.Characteristics of highly cited papers[J].Research Evaluation，2003，12(3)：159-170. [本文引用:1]
[5]	RobsonB J，MousquesA.Predicting citation counts of environmental modeling papers[C]/ /Proceedings of 7th International Environmental Modeling and Software Society. San Diego，2014. [本文引用:1]
[6]	BorsukM，BuddenE，LeimuR，et al. The influence of author gender，national language and number of authors on citation rate in ecology[J].The Open Ecology Journal，2009(2)：25-28. [本文引用:1]
[7]	袭继红，韩玺，吴倩倩. 国际合作对论文影响力提升的作用研究—以外科学为例[J]. 情报杂志，2015(1)：92-95. [本文引用:1]
[8]	邱均平，曾倩. 国际合作是否能提高科研影响力—以计算机科学为例[J]. 情报理论与实践，2013，36(10)：1-5. [本文引用:1]
[9]	王烁，李铁铮. 我国农业经济类期刊现状及影响力评价[J]. 科技与出版，2016(1)：98-101. [本文引用:1]
[10]	SaeedA U，AfzalM T，LatifA，et al.Citation rank prediction based onbookmark counts:Exploratory case study of WWW06 Papers[C]/ /Multitopic Conference，2008.INMIC 2008.IEEE International.IEEE，2008：392-397. [本文引用:1]
[11]	YuT，YuG，LiP Y，et al.Citation impact prediction for scientific papers using stepwise regression analysis[J].Scientometrics，2014，101(2)：1233-1252. [本文引用:1]

基于文献利用数据的期刊论文定量评价研究

2012

... 被引量是指一篇论文出版以来的被引用次数，是人们对论文发表以后的评议，人们对论文关注高，被引次数就高^[1].因此，被引量广泛用于评估论文、专利、期刊、专著、科学家、研究团队、科研机构等的科学贡献或价值^[2]. ...

Citation counts and social comparisons: Scientists’use and evaluation of citation index data

1990

科学论文被引频次预测的现状分析与研究

2015

... 在当前知识爆炸的时代，研究人员可以方便地获得在某个特定研究领域中的大量论文.对于已经发表超过5年的论文，可以很容易地通过每篇论文的被引情况等评估其影响力.然而,对于只出版一两年的论文，通常覆盖当前研究热点和趋势，却很难预测它们未来的影响.较早地发现具有高被引潜力的论文，将有助于科研人员尽早关注有影响力的研究方向、把握学科发展动向^[3].基于此，预测期刊论文的被引量具有重要的研究意义.已有研究表明，高质量论文在发表后五年内具有较强的知识扩散能力^[4]，这意味着，一篇论文发表后五年的被引量是论文影响力的重要表现.因此，本研究通过预测期刊论文发表后五年内的被引量来反映论文影响力. ...

... 在图情领域，也有许多关于期刊影响力和论文被引量预测的研究.如王烁、李铁铮^[9]以农业经济类的26种期刊为研究对象，选取18项指标，通过因子分析法构建了农业经济类期刊的影响力综合评价模型；Saeed等人^[10]运用线性回归的方法对WWW会议论文进行被引量排名预测；Yu等人^[11]用回归方法预测了图书情报领域文章的被引频次，并创新性地引入Eigenfactor、Article Influence Score这两项期刊评价指标；鲍玉芳、马建霞^[3]将影响论文引用的相关因素按作者因素、文章因素、期刊因素、网络计量学、其他因素这5个维度进行梳理，然后总结了常用的引用预测方法.本文拟通过构建论文特征空间提出影响论文被引量的多维特征指标，运用多元线性模型预测论文的被引量. ...

Characteristics of highly cited papers

2003

2014

... 许多学者对期刊论文被引量的影响因素进行了研究.如Robson和Mousques^[5]在研究论文被引量影响因素时考虑了页码数、作者数量、参考文献数量、摘要长度、地理位置、学科等指标，发现论文长度即页码数以及参考文献数量是最重要的影响因素；Borsuk和Budden等学者^[6]利用广义线性模型(GLM)估算了第一作者的性别、论文语言和作者数量对被引量的影响，发现作者数量具有较大的影响，但是第一作者的性别和论文语言的影响不显著；袭继红^[7]、邱均平^[8]等学者研究了国际合作或科研合作对论文被引量的影响，发现科研合作在提高平均被引量方面发挥了重要作用. ...

The influence of author gender，national language and number of authors on citation rate in ecology

2009

国际合作对论文影响力提升的作用研究—以外科学为例

2015

国际合作是否能提高科研影响力—以计算机科学为例

2013

我国农业经济类期刊现状及影响力评价

2016

2008

Citation impact prediction for scientific papers using stepwise regression analysis

2014

资源

摘要

PDF下载数

RichHTML 浏览数

摘要点击数

导出

EndNote | Ris | Bibtex

相关文章:

关键词（key words）

期刊论文

被引量预测

特征空间

逐步多元回归

作者