基于H指数级界定方法的高水平潜在作者挖掘*
关键词:
本文引用格式
张建业, 刘勇, 徐敏, 杨亚莉.
高水平作者队伍建设是期刊发展的关键所在。为深入研究期刊的作者队伍构成、贡献、合作关系等,许多文献研究了期刊潜在核心作者的测定和挖掘方法[1,2],以及拓展优质稿源、扩大核心作者队伍的思路对策[2,3,4,5,6,7,8,9],提出了办刊组稿的启示和建议,具有一定的借鉴作用。在办刊实践中,很多单位主办的期刊主要作者群体是本单位的,然而由于受到本单位科研绩效评价导向、期刊自身刊载量以及办刊水平等其他各种因素影响,该单位的大量优秀研究人员仅仅是该期刊的潜在作者或边缘作者,这种现象反映在国内很多期刊对于优质稿源的吸引力不足等方面,高校学报更是此类期刊的典型代表。高校学报不仅具有学术期刊的共性特点,还具有独特的“高校属性”“内向性”等鲜明特色[10,11,12],并且所发高质量论文也主要是来自本校师生等。[13]因此,编辑部需充分利用期刊主办单位研究人员数量多并且相对稳定的独特优势,高度重视挖掘本单位高水平潜在作者,进而通过采取有效举措,将其转变为期刊的核心作者。本文基于笔者长期从事高校科研学术管理的实践经验,结合办刊过程中实施专题策划、组稿约稿、遴选同行评议专家、组织期刊编委换届等实际做法,进行了一些有益尝试。
1 高水平作者的界定方法
2005年,美国加利福尼亚大学圣地亚哥分校的物理学家乔治·赫希(Jorge Hirsch)提出了一种评价科研人员发表论文数量与质量水平的量化指标,称为H指数(也叫H-index)。该指标一经提出,便以物理含义明确、使用便捷高效等显著特点而引发关注,许多学者认为该指数存在区分度不高、只升不降、不适用跨学科比较等很多缺陷,并在此基础上提出了30多种扩展指数[15,16],但由于H指数的易用性等优点,目前仍广泛应用于多种重要文献计量体系中。笔者认为,作为一种粗粒度综合评价指标,只要应用得当,就能作为实际工作的一种有效手段。为此,本文提出了对研究人员在各类数据库中H指数进行综合判定的基础上,利用H指数级来界定高水平作者的方法。
1.1 H指数的单库加权取值法
H指数的计量与学术成果数据库密切相关,同一作者在不同数据库中拥有不同的H指数。对于同一作者来说,这些数据库收录的论文既有全英文的,也有全中文的,还有中英文都有的,即使同文种论文在不同数据库中的收录也是有差别的,因而很难说哪个库的H指数更能准确描述作者的影响力。在实践中,作者、研究机构或管理部门根据自身需要和关注重点,在不同应用场景分别使用不同的H指数,做出对自身有利的使用和评价。为简化其复杂性,提高使用合理性,可对同一作者不同数据库的H指数进行单库加权得到一个综合H指数。
设有n个数据库,同一作者的H指数分别为h1,h2…,hn,对应的权重系数分别为α1,α2…,αn,且α1+α2+…+αn=1,则有:
为便于简化统计分析,本文采用典型常用论文数据库作为主要数据来源,外文数据库为WoS(Web of Science)、基于Scopus的SciVal科研分析平台,中文数据库以重庆维普、中国知网CNKI为主,并参考万方数据。考虑到国内期刊主体为中文刊的实际,在计算作者综合H指数时,只区分外文数据库和中文数据库的H指数。令同一作者在中文数据库的H指数为hz,外文数据库的H指数为hw,相应的权重系数分别为αz,αw,且αz+αw=1,上式进一步简化为:
1.2 H指数的多库直接确定法
一般情况下,随着时间积累,具有较多产出作者的论文分散收录在不同的数据库中,为较为准确地描述作者影响力,还可以将同一作者在多个数据库中的论文统一进行汇总组合,得到该作者的完整论文列表,并以被引次数降序排列,按照H指数的定义,直接确定作者的综合H指数。
需要注意的是,无论英文文献还是中文文献,也无论哪种数据库,论文被引次数是关键核心数据,只要产生引用就表明论文的部分或全部研究结论得到一定认可,具有一定影响。本研究中不区分核心引用还是扩展引用,也就是不区分引用的重要性,只考虑引用的覆盖范围,即影响力。
对于不同学科、高被引论文作者应加以特别关注,防止因H指数固有的时间累积效应、敏感度或区分度低等缺陷引起的显著错漏等问题。
1.3 H指数级的定义
为粗粒度描述作者学术影响力等级,在获取作者综合H指数的基础上,可对作者进行H指数层级划分。具体来说,可用H指数基数为10的整数倍来划分作者的不同层级,如H指数为10、20、30、40、50及以上,简称“H指数级”,可以方便地将作者H指数划入不同级别。进一步,H<10为一般作者,H∈[10,19]为H指数级10,H∈[20,29]为H指数级20, H∈[30,39]为H指数级30,H∈[40,49]为H指数级40,H∈[50,…)统称为H指数级50。一般情况下达到H指数级50的作者已经较少了,基本满足本研究范围所需。
通过长期观察,就发表学术论文来说,达到H指数级10可以涵盖笔者所在单位绝大部分知名学者,具有较为合理的指标作用。因此,在笔者组织的新一届编委换届工作中,将H指数10作为一条基本要求公开发布,并得到了各方面的广泛认可。对于一般研究单位而言,H指数级10以上的作者就可被认为高水平作者。
2 实例研究
2.1 Web of Science数据库
2022年5月24日,以空军工程大学为例在Web of Science中进行文献检索。根据该校学科特点,勾选Web of Science核心合集中的SCIE和CPCI-S,考虑机构名称变种,检索式为“Air Force Engineering University(所属机构)OR Air Force Engn Univ(所属机构)OR Air Force University of Engineering(所属机构)OR AFEU(所属机构)OR Air Force Engi Univ(所属机构)OR Airforce Engineering University(所属机构)”,发表时间不限,共得文献7 187篇,引用10次以上文献1 185篇。由于该数据库并不提供全部作者的H指数列表统计,只有在引文报告中显示该作者的H指数,故并不能直接使用H指数进行高水平作者分析,因此笔者将1 185篇文献的完整信息导出至Excel表格,并根据每篇文献的通信作者标注情况进行了数据加工处理。首先对带有地址信息的通信作者列进行分割(地址信息主要用于辨别作者机构),利用WPS的智能工具箱进行高级分列,得到通信作者204人,再针对署名多个通信作者的情况进行二次重名提取,合并入同名作者次数中,得到通信作者194人,对比上文给出的作者名单,可以分析高水平作者,表1给出了引用10次以上署名通信作者10篇以上的人员21人。
表1 引用10次以上署名通讯作者10篇以上人员
| 序号 | 姓名 | 通讯作者重复次数 | 二次提取重复作者 | 通信作者总篇数 |
| 1 | Xu, HX | 43 | 51 | 51 |
| 2 | Qu, SB | 19 | 38 | 38 |
| 3 | Bu, XW | 24 | 24 | |
| 4 | Wu, Y | 22 | 24 | 24 |
| 5 | Wang, JF | 19 | 23 | 23 |
| 6 | Song, YF | 20 | 20 | |
| 7 | Du, HL | 15 | 19 | 19 |
| 8 | Wang, GM | 16 | 18 | 18 |
| 9 | Li, YF | 12 | 17 | 17 |
| 10 | Li, JQ | 14 | 14 | |
| 11 | Li, J | 14 | 14 | |
| 12 | Zhu, ZH | 13 | 13 | |
| 13 | Pang, YQ | 10 | 13 | 13 |
| 14 | Ma, H | 10 | 13 | 13 |
| 15 | Cai, T | 9 | 13 | 13 |
| 16 | Li, RH | 12 | 12 | |
| 17 | Zhang, HW | 12 | 12 | |
| 18 | Wang, J | 11 | 11 | |
| 19 | Dong, XM | 10 | 10 | |
| 20 | He, WF | 10 | 10 | |
| 21 | Li, SJ | 8 | 10 | 10 |
此外,定期分析ESI高被引论文、热点论文、顶尖论文等有助于了解单位重要学术产出,跟踪前沿、热点研究进展情况,及时发现重要作者特别是潜在高被引作者。
2.2 SciVal科研分析平台
SciVal是爱思唯尔出版社基于Scopus数据库开发的科研分析及科研表现分析平台,目前运用2011—2020年数据进行统计。以空军工程大学为例进行分析。按机构名称进行检索,系统显示“Air Force Engineering University Xian”,共有学术产出9 775篇,涉及5 290位作者,学科规范化引用影响力0.55。其中,H指数10以上150人,占比2.8%,约为3%,见表2(部分略去)。
表2 SciVal统计H指数10以上作者略表
| 序号 | 姓名 | 学术产出 | 篇均引用 | 学科规范化引用影响力 | H指数 |
| 1 | Qu, Shaobo | 394 | 16.7 | 1.08 | 49 |
| 2 | Wang, Jiafu | 356 | 17.2 | 1.11 | 42 |
| 3 | Wang, Guangming | 263 | 17.7 | 1.19 | 39 |
| 4 | Xu, He Xiu | 116 | 35.5 | 2.23 | 39 |
| 5 | Ma, Hua | 196 | 19.2 | 1.07 | 34 |
| 6 | Du, Hongliang | 42 | 47.9 | 2.69 | 31 |
| 7 | Cao, Xiangyu | 218 | 13.6 | 0.87 | 29 |
| 8 | Cai, Tong | 70 | 33.6 | 2.2 | 29 |
| 9 | Xu, Jinyu | 186 | 12.3 | 0.72 | 28 |
| 10 | Gao, Jun | 189 | 14 | 0.86 | 27 |
| 11 | Zhang, Jieqiu | 172 | 13.6 | 0.94 | 27 |
| 12 | Li, Yinghong | 156 | 13.3 | 1.04 | 27 |
| 13 | Li, Yongfeng | 134 | 19.4 | 1.24 | 26 |
| 14 | Wu, Yun | 119 | 13.1 | 1.16 | 26 |
| 15 | Pang, Yongqiang | 79 | 17.6 | 1.1 | 25 |
| 16 | Zhang, Qun | 241 | 5.6 | 0.52 | 23 |
| 17 | Liang, Jiangang | 91 | 18.9 | 1.29 | 23 |
| 18 | Bu, Xiangwei | 54 | 26.7 | 2.19 | 23 |
| 19 | Li, Sijia | 97 | 16.1 | 1.07 | 22 |
| 20 | Shi, Lei | 59 | 3.3 | 0.35 | 22 |
| 21 | Pei, Zhibing Bin | 18 | 15.4 | 0.85 | 22 |
| 22 | Wang, Xiaodan | 111 | 11.6 | 0.87 | 20 |
| 23 | He, Weifeng | 105 | 12.1 | 0.92 | 20 |
| 24 | Yang, Huanhuan | 94 | 18.7 | 1.05 | 20 |
| ... | ... | ... | ... | ... | ... |
| 150 | Wang, Rui | 16 | 4.9 | 0.32 | 10 |
直接使用Scopus可以进行基于全部文献的统计分析,但值得注意的是,笔者在使用这种方法时得到的结果与使用SciVal存在一定差异,后者获得的结果在作者认定上更为精准、可靠,故本文采用了该统计结果。
2.3 中文数据库
国内商业数据库平台应用最广泛的是中国知网、万方数据和维普网。本文主要通过分析被引和他引情况来挖掘高水平作者,但由于这些平台收录文献数据各有侧重,只有综合利用才能满足本文研究目的,因此借鉴2020版《中文核心期刊要目总览》研制方法,以重庆维普资讯有限公司的“中文科技期刊数据库”为基础数据库,统计分析作者发文量、被引量、H指数等;在此基础上,参考万方数据并主要运用中国知网数据对维普统计结果进行校正。2022年5月31日利用维普数据对作者单位“空军工程大学”进行统计,作品数32 228篇,总被引80 966次(不包含博硕论文引用),涉及作者7 968人,取H指数10以上得到118人;利用知网数据以及人工判别,对该结果进行补充校正,得到H指数10以上作者138人,如表3所示(部分略去)。
表3 多库综合H指数10以上作者
| 序号 | 姓名 | H指数 |
| 1 | 李应红 | 31 |
| 2 | 毕笃彦 | 30 |
| 3 | 张凤鸣 | 29 |
| 4 | 李为民 | 27 |
| 5 | 许金余 | 27 |
| 6 | 王晓丹 | 27 |
| 7 | 雷英杰 | 26 |
| 8 | 孙秀霞 | 24 |
| 9 | 谢寿生 | 23 |
| 10 | 郭书祥 | 22 |
| 11 | 李颖晖 | 21 |
| 12 | 景博 | 21 |
| 13 | 赵尚弘 | 21 |
| 14 | 马时平 | 21 |
| 15 | 肖明清 | 21 |
| 16 | 吴云 | 20 |
| 17 | 郭英 | 20 |
| … | … | … |
| 123 | 马润年 | 10 |
| 124 | 岑国平 | 10 |
| 125 | 张鹏 | 10 |
| … | … | … |
| 135 | 万路军 | 10 |
| 136 | 权文 | 10 |
| 137 | 李益文 | 10 |
| 138 | 伍友利 | 10 |
表4 H指数10以上CSCD-ESI高被引作者
| 序号 | 姓名 | H指数 |
| 1 | 李应红 | 31 |
| 2 | 张凤鸣 | 29 |
| 3 | 许金余 | 27 |
| 4 | 王晓丹 | 27 |
| 5 | 李颖晖 | 21 |
| 6 | 景博 | 21 |
| 7 | 马时平 | 21 |
| 8 | 吴云 | 20 |
| 9 | 郭英 | 20 |
| 10 | 于雷 | 18 |
| 11 | 刘石 | 18 |
| 12 | 侯志强 | 18 |
| 13 | 许悦雷 | 18 |
| 14 | 张群 | 17 |
| 15 | 黄长强 | 17 |
| 16 | 雷虎民 | 17 |
| 17 | 梁华 | 17 |
| 18 | 何立明 | 16 |
| 19 | 宋慧敏 | 16 |
| 20 | 罗迎 | 16 |
| 21 | 白二雷 | 16 |
| 22 | 刘进忙 | 15 |
| 23 | 方洋旺 | 15 |
| 24 | 陈西宏 | 14 |
| 25 | 赵辉 | 14 |
| 26 | 孟相如 | 14 |
| 27 | 梁晓龙 | 13 |
| 28 | 孙强 | 13 |
| 29 | 杨任农 | 13 |
| 30 | 邵雷 | 13 |
| 31 | 吕晓聪 | 12 |
| 32 | 查宇飞 | 12 |
| 33 | 贾敏 | 12 |
| 34 | 李学仁 | 12 |
| 35 | 吴虎胜 | 11 |
| 36 | 寇英信 | 11 |
| 37 | 张鹏 | 10 |
| 38 | 权文 | 10 |
2.4 作者H指数级界定
对主要外文数据库的检索表明,SciVal平台给出的结果覆盖了WoS、ESI检出的人员,故将SciVal作为划分潜在高水平作者H指数级的有效外文数据库。在中文数据库进行检索的过程中,为提高准确性,将维普、万方、知网3个数据库的结果进行了综合,结果较为合理可信。考虑到中文期刊的办刊实际需求,以及挖掘英文论文高产出作者,在计算作者的H指数级时,需要对中文和外文数据库的权重系数进行合理确定。
基本原则:①中文数据库权重要高于外文数据库,即αz>αw;②部分知名学者外文数据库的H指数很高但中文数据库H指数很低,要确保能够入选一定数量的此类人员,因而中文数据库权重不能太高。
测试方法:①第1组αz=0,αw=1;②第2组αz=0.6,αw=0.4;③第3组αz=0.7,αw=0.3;④第4组αz=0.8,αw=0.2;⑤第5组αz=0.9,αw=0.1;⑥第6组αz=1,αw=0。分别代入H=hz×αz+hw×αw进行计算,可得到每位作者的综合H指数,在此基础上按照H指数级定义对作者进行归类,如表5所示。
表5 H指数级界定测试
| H指数级 | 第1组/人 | 第2组/人 | 第3组/人 | 第4组/人 | 第5组/人 | 第6组/人 |
| αz = 0 | αz = 0.6 | αz = 0.7 | αz = 0.8 | αz = 0.9 | αz = 1 | |
| αw = 1 | αw = 0.4 | αw = 0.3 | αw = 0.2 | αw = 0.1 | αw = 0 | |
| 10 | 126 | 54 | 75 | 83 | 106 | 121 |
| 20 | 18 | 11 | 11 | 13 | 15 | 15 |
| 30 | 4 | 1 | 0 | 1 | 1 | 2 |
| 40 | 2 | 0 | 0 | 0 | 0 | 0 |
| 50 | 0 | 0 | 0 | 0 | 0 | 0 |
| 合计 | 150 | 66 | 86 | 97 | 122 | 138 |
结果表明,不同分组对H指数级20以上作者数量影响不大,而对于H指数级10的作者具有显著区分。需要特别指出的是,外文库中有一定数量H指数20以上的作者,其中文库H指数很低,当外文库权重αw≤0.3时,没有1人能够进入H指数级10,而这个群体正是需要挖掘的重要潜在高水平作者;当αw=0.4时,有纯外文库H指数25以上作者8人进入H指数级10。因此,综合评估第2组权重取值较为合理。
2.5 应用案例
以本文提出的H指数级界定为基础,对高水平作者按层级进行挖掘的一般原则是:一是H指数级30以上的作者基本都是著名学者,要积极争取聘为期刊的特约编委、顾问;二是H指数级20的作者,一般也都是行业领域知名专家,不仅是重点挖掘对象,还要邀请策划专刊、专栏,特别是对于学术活跃的青年人,要倾注时间和精力,把潜在作者变为核心作者;三是H指数级10的作者,属于高水平作者挖掘的面上目标,应逐一进行分析,聚焦年龄小、第一作者(通信作者)、发文多、H指数高、学科加权引用影响高等因素;四是适当延伸关注H指数级小于10的作者,其中不乏因中外文数据库权重取值因素会产生遗漏,且水平较高的潜在作者。
表6 本单位高水平作者与《空军工程大学学报》的合作关系
| H指数级 | 在职情况/人 | 学报原编委/人 | 学报现编委/人 | 关注层次/人 | 角色任务/人 | 完成状态 | |||||
| 高 | 中 | 低 | 审稿 | 投稿 | 全面 | 是 | 否 | ||||
| 10 | 32 | 7 | 7 | 17 | 13 | 2 | 20 | 7 | 5 | 22 | 10 |
| 20 | 7 | 4 | 5 | 6 | 1 | 0 | 3 | 0 | 4 | 7 | 0 |
| 30 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
| 40 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
大量研究及实践表明,学术产出与年龄有重要关系,笔者在对该学报20年办刊数据进行综合统计分析时,发现期刊收稿呈现出一般不易发觉的一些特点,即作者发表论文存在“四阶段”规律:40岁以下为黄金期,40~44岁为间歇期,45~49岁为二次高峰期,50岁以后为衰退期。并且45~49岁作者是该学报的高黏度群体,也是高质量论文的主要来源,而40岁是知识创新和认知实践非常重要的分界线。为分析在基于H指数的累积效应下,如何合理利用H指数级的分层作用,本文对现职不同年龄段的98名作者的分布进行了统计,如表7所示。
表7 现职不同年龄段本单位高水平作者分布
| H指数级/年龄段 | 30~34岁 | 35~39岁 | 40~44岁 | 45~49岁 | 50~54岁 | 55岁以上 | 合计/人 |
| <10 | 1 | 4 | 21 | 8 | 9 | 15 | 58 |
| 10 | 2 | 4 | 6 | 5 | 2 | 13 | 32 |
| 20 | 0 | 1 | 1 | 0 | 0 | 5 | 7 |
| 30 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
| 40 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
因此,在挖掘高水平潜在作者、提升关注层次时应重点针对H指数级10且位于30~34岁、35~39岁、45~49岁年龄段的群体,笔者为此制定了每年度的组稿约稿计划,采取一些措施强力推进计划落实,取得了显著效果。
3 高水平潜在作者挖掘策略
通过定期检索中外文文献数据库、有关科研服务平台,能够比较准确地掌握单位内部作者群体的学术产出、研究领域、合作关系等情况,进而合理划分作者学术水平层级、挖掘高水平潜在作者,对于按照“二八现象”规律指导办刊方向、凝练期刊特色、扩大期刊影响具有重要作用。
3.1 建立信任关系
编者与作者建立信任关系是挖掘的基本前提。通过前述方法对单位内部作者具有初步了解以后,根据熟悉程度、难易程度设定挖掘顺序,以建立信任关系为目标,采取以下方法和步骤逐步实施:一是对号入座,从各种途径了解挖掘对象的个人信息,做到“知人”;二是产生联系,通过朋友和同事引荐,或主动联系审稿、荐稿、请教等方式,做到“认人”;三是建立感情,人与人之间最好的感情就是经常联系,即使素未谋面也能“神交”,这种情况在编者与作者的关系中是比较常见的,编者以自己坚持不懈的交流、问候、祝福等真情付出,来打动视学术声誉高于一切的学者,做到“感人”。一分耕耘一分收获,通过这些途径,编者与作者就会由相互陌生到互有好感,直至彼此信任,发出约稿邀请而被顺利接受也就顺理成章了。
3.2 跟踪学术动态
实现精准挖掘的关键是人与学科专业领域的有效结合。掌握单位高水平作者、建立潜在作者库是基础条件,而充分了解单位自身优势学科、特色学科专业领域,并且实现“由人找领域”到“从领域找人”的相互结合,就必须持续跟踪“人与领域”的学术动态,知晓高水平作者的职业发展情况,包括个人的任职岗位调整、职级变动、承担科研项目、学术研究领域、团队人才培养、对外合作交流等诸多动态信息。实际上,了解、跟踪这些动态并非困难重重,通过定期查阅最新的相关学术文献、人物事迹宣传报道,科研部门发布的项目立项、获奖公告,人事部门发布的职称评审、人才奖励等情况就可以基本掌握。换言之,在互联网大数据时代,要了解一个人的学术关系网络、掌握学术动态情况还是比较容易的,世上无难事,只怕有心人。
3.3 维持联系纽带
持续维系编者与潜在作者的联系是成功挖掘的重要保证。在工作实践中,与作者建立信任关系、跟踪学术动态,在很多情况下可以做到“只闻其声不见其人”,但要约到高质量稿件、将作者变为期刊忠实读者,就必须积极创造条件,建立面对面交流的桥梁与纽带。组织、参与学术活动是一种有效渠道,可以邀请高水平作者参加期刊主动发起的学术活动,期刊也可以参与作者行业领域的专业学术活动、成为学术支持单位;组织编辑部人员参观访问作者的科研学术研究场所、设施,邀请作者访问期刊编辑部,形成双向交流互访。通过定期开展面对面交流,能够有效筑牢编者与作者的联系纽带,增进了解、促进友谊。
3.4 实施激励措施
实施合理的激励措施是精准挖掘的有效手段。在前述措施的基础上,对于水平高、有热情、善合作的高水平作者,可以采取更为有效的手段,激励他们为期刊建设作出更多贡献。在扩大作者学术影响力和知名度方面,按照优先顺序,灵活策划使用期刊封面、专栏公告等介绍作者及科研团队,在期刊网站、公众号、校园网等网络上同步进行宣传;在学术任职方面,结合期刊编委换届改选等时机,积极吸收他们加入期刊编委,并赋予相应责任;在表彰奖励方面,通过评选优秀论文、优秀作者,以及给作者及所在单位发布感谢信等方式,表彰其对期刊作出的贡献,有条件的编辑部还可以给予一定的物质奖励。
4 结语
期刊以“内容为王”,高质量稿件是期刊赖以发展的根本保证,期刊要特别注重发挥自身优势,需要下大力采取各种方法把高质量稿件留在自己的阵地上。本文结合工作实际给出的作者H指数级分析方法,对于合理划分学者学术影响力层级,挖掘高水平潜在作者具有较好的使用价值,但由于该方法是建立在长期观察的基础之上,具有一定局限性,是否能够推广使用尚需检验,同时,对中外文数据库平台的研究也不够全面深入。总之,通过期刊编辑部的积极努力和改革创新,赢得高水平作者的持续关注和大力支持,才能为期刊高质量发展提供不竭动力。
参考文献
/
| 〈 |
|
〉 |
