科技与出版,2018, 37(5): 86-91
2008—2017年我国编辑出版学领域数据科学研究*
羊晚成,杨丹丹,
武汉大学信息管理学院,430072,武汉
 
【摘要】  以中国知网数据库中收录的2008—2017年15本编辑出版学学术期刊所刊发的336篇数据科学相关主题文献为样本展开分析,探究我国编辑出版学领域数据科学研究的研究现状、热点、发展脉络及趋势。采用文献计量方法,从发文趋势、作者、机构分析研究现状,利用Citespace绘制关键词共现、时区与聚类图谱。结果显示,我国编辑出版学数据科学研究具有清晰的发展脉络,研究热点集中于数据挖掘与存储、大数据应用及与数字出版的协同发展。编辑出版学领域已将数据科学用于解决科研问题和指导社会生产,但核心研究群体薄弱,仍处于研究发展阶段。人工智能等新兴数据科学技术应用于新型生产与营利模式成为未来研究的重点。
【关键词】  编辑出版学 ; 数据科学 ; 文献计量 ; Citespace

【Abstract】 

“数据科学”最早由著名计算机科学家彼得·诺尔(Peter Naur)于1974年在其著作Concise Survey of Computer Methods中提出,“数据科学是一门基于数据处理的科学”[1]。随着云计算与大数据等数字技术的兴起,数据科学成为一门蓬勃发展的新学科。数据科学对大数据、机器学习、数据挖掘、信息科学、社会科学等领域产生了深远影响[2,3,4],编辑出版学也不例外[5]

1 研究工具与数据来源

本文运用CitespaceⅢ软件,通过中国知网检索国内15种编辑出版学学术期刊在2008—2017年刊发的相关科学文献数据,进行计量及可视化分析,梳理数据科学在国内编辑出版学领域的研究现状、热点及趋势。

在初始检索过程中,以篇名或关键词包含“数据科学”作为检索规则,仅得到1篇文献,无法继续进行研究。因此,根据已有研究归纳与数据科学联系较为紧密的关键词,调整检索条件,具体检索表达式为:((TI = '大数据'+'数据挖掘'+'人工智能'+'AI'+'机器学习'+'深度学习'+'神经网络'+'数据科学') or (KY % '大数据'+'数据挖掘'+'人工智能'+'AI'+'机器学习'+'深度学习'+'神经网络'+'数据科学')) AND JN='中国科技期刊研究'+'编辑学报'+'编辑之友'+'出版发行研究'+'科技与出版'+'现代出版'+'出版科学'+'中国出版'+'出版参考'+'出版广角'+'编辑学刊'+'中国编辑'+'河南大学学报(社会科学版)'+'北京印刷学院学报'+'浙江传媒学院学报',其中TI为篇名,KY为关键词。文献发表时间选择2008年到2017年,检索时间截至2017年12月3日。剔除通知、访谈以及与编辑出版学无关的文献后,共得到336篇有效文献。

2 统计结果与分析
2.1 我国编辑出版学领域数据科学文献发表时间分布及期刊载文情况

统计各年度文献发布数量,绘制编辑出版学领域数据科学研究的发文量时序分布曲线图(见图1),统计、绘制15种期刊的数据科学相关文献载文量分布情况(见图2)。

图1
我国编辑出版学领域数据科学研究发文量时序分布图

图2
我国编辑出版学学术期刊数据科学相关文献载文量分布

图1图2可见,自2013年始,数据科学引起国内编辑出版学领域研究人员的关注,并持续至今。《科技与出版》《出版广角》《出版发行研究》《出版参考》《中国出版》《编辑之友》《出版科学》等刊物更为关注该领域的研究进展。

为更清晰地梳理编辑出版学领域数据科学研究的发展轨迹,笔者运用Citespace软件提取2008—2017年间各年度词频最高的30个关键词,绘制高频关键词共现时区图(见图3)。

图3
我国编辑出版学领域数据科学研究高频关键词共现时区图

笔者以发表论文数量变化时间为节点,将编辑出版学领域数据科学研究分为两个阶段:起步阶段(2008—2012年)与发展阶段(2013—2017年)。

起步阶段(2008—2012年)。这一阶段相关文献数量较少并且发展缓慢,这是该时段数据科学刚渗透到其他学科领域并且自身仍处于缓慢发展阶段所致。这一时期,研究的重点在于行业数据的存储与利用,主要关键词有:数据仓库、读者数据库、数据挖掘、出版业、电子商务、网络营销。这一阶段是编辑出版学领域数据科学研究的探索阶段,学者指出行业数据在出版发行业务中的重要性,构建数据仓库的具体模型,并在此基础上,提出通过数据挖掘方法优化库存管理和营销的策略。

发展阶段(2013—2017年)。从图3可见,2013年大量有关数据科学的关键词涌现,大数据技术快速发展并成为编辑出版学领域数据科学研究驶入快车道的加速器,研究成果数量持续增长。此时,出版业遭遇互联网的强烈冲击,转型升级成为出版业突破困局的途径。2013—2014年,大数据、数字化转型、传统出版、科技期刊、社交媒体等关键词突现,这一时期学者关注的重点是如何使用数据科学方法从宏观上指导出版业的数字化转型。2015年之后,随着转型升级步入深水区,版权保护、知识服务、大数据出版、选题策划、精准营销、媒体融合等关键词成为研究热点,研究人员开始将数据科学方法用以解决转型升级过程中的具体问题,而人工智能等关键词的出现则说明数据科学新技术仍在不断被纳入。

2.2 核心作者及机构分布

据统计,共有473位作者进行数据科学相关研究,其中,436位作者仅撰写或参与撰写1篇论文,占作者总数的92.2%,而洛特卡定律指出写一篇论文作者的数量约占所有作者数量的60%[6]。可见,在编辑出版领域中开展数据科学相关研究的高产作者群体尚未形成,临时性的研究者占绝大多数。根据普赖斯定律得到核心作者发文量最小值计算公式为T=0.749×Pmax,其中Pmax为最大发文量。统计得到最大发文量Pmax=4,代入核心作者发文量最小值计算公式得到T=1.498,故将发文量不少于2篇的37位作者确定为编辑出版学领域开展数据科学研究的核心研究者(见表1)。由表1可见,截至目前,程忠良、徐丽芳、刘银娣、沈阳、石佳靓、向安玲、张炯等人,是目前我国编辑出版学领域数据科学研究较为活跃的研究人员。

表1
我国编辑出版学领域数据科学研究核心作者列表

此外,共有288家高校及科研机构在编辑出版学学术期刊上发表数据科学相关主题的论文(见表2)。从表2可知,武汉大学信息管理学院发文量为22篇,排位第一;紧随其后的有中国人民大学新闻学院10篇和南京大学信息管理学院10篇。据此可见,这3家机构是国内编辑出版领域开展数据科学相关研究的重要基地。值得注意的是,在表2列出的研究机构中,除有12家高校外,还有6家出版社和1家研究院。可见,在编辑出版学领域,学界和业界均意识到数据科学的重要性并积极开展相关研究。但从发文量来看,高校仍是该领域开展数据科学的主要研究力量。

表2
我国编辑出版学领域数据科学研究机构列表(发文量≥3)

3 研究主题、热点及趋势分析
3.1 研究主题广泛,数据科学作为研究思想和研究方法被引入编辑出版学领域

为真实反映研究者对特定关键词的共识度,本文对关键词进行规范处理,而未对关键词进行相似词合并或删减等操作。统计得到814个关键词,其中词频不少于5的高频关键词有31个(见表3)。可见,编辑出版学领域数据科学的研究主题分布较为广泛。

表3
我国编辑出版学领域数据科学研究高频关键词列表(词频≥5)

结合关键词词频统计与关键词共现知识图谱(图4)可知,大数据、数字出版、数据挖掘、科技期刊、出版业、传统出版、精准营销等关键词处于网络谱图的核心位置,是编辑出版学领域数据科学研究的核心内容。另外,根据关键词与共现关系出现的时间统计,大数据、数字出版、精准营销等研究内容自2013年来一直受到研究人员关注。近年,随着数据科学与信息技术的发展,虚拟现实、人工智能等新技术和数据科学的研究方法也被引入编辑出版学领域。

图4
我国编辑出版学领域数据科学研究关键词共现知识图谱

3.2 研究热点集中于数据挖掘与存储、大数据应用及与数字出版的协同发展

通过Citespace聚类功能可将高频关键词知识图谱化成若干聚类,用以揭示研究热点。知识图谱通过聚类计算后,得到聚类模块度Q=0.656,轮廓值S=0.665 5,因此聚类有效。笔者进一步使用聚类标注功能,使用不同颜色对规模大于10的聚类进行标注,共得到6个聚类(图5),通过将聚类信息整理、归并,可将数据科学在编辑出版学领域的研究内容划分为3个主题。

图5
我国编辑出版学领域数据科学研究热点聚类图谱

主题一是围绕数据存储与挖掘的研究。随着Web2.0时代的到来,用户逐渐成为市场的中心,大量用户数据及对数据的解读对出版社来说日益重要。数据是数据科学的基础,若没有良好的数据库建设,后续的数据分析也将是空中楼阁。以数据存储为中心,是编辑出版学领域数据科学研究的基础阶段。在这一阶段,学者主要围绕数据库的作用、储存数据类型、数据收集方式、数据维护等问题展开讨论[7,8]。在如何解读数据的问题上,研究者沿袭了数据挖掘的经典方法,并指明数据挖掘在出版发行工作中的重要作用。数据挖掘有别于传统的数据分析方法,旨在通过特定算法从看似冗余与繁杂的数据中发现隐藏的信息。出版社使用数据挖掘中的关联分析,可以对客户和出版产品进行分类与关联,了解消费者需求变化并进行有针对性的促销活动,达到提高出版品质与减少库存积压的目的[9]。除提出优化出版社业务策略外,也有研究者构建了一种客户信息挖掘模型,以解决图书电子商务中的个性化推荐与精准营销的问题[10]

主题二是出版业大数据的应用研究。大数据技术引领着时代变革,研究人员开始思考大数据时代的特征是什么,出版业在此时代背景下将迎来何种挑战,又能在哪些方面实现自我突破与革新[11,12,13]。在大数据时代,新兴技术的发展使人们对海量数据的应用成为可能,数据逐渐成为重要的生产要素。数据技术将引领新一轮生产率增长与消费者盈余的浪潮,结合大数据在国内外社会生产的实际运用,出版业大数据的应用将对出版的生产模式、商业模式进行重塑,对整个出版业的变革产生深刻影响[14]。但大数据的4V特点使得出版业构建大数据应用平台成为难点,而使用云计算服务无疑是推动出版业大数据应用落地的有效途径[15]。新技术的加持给出版业带来前所未有的发展机遇,使得如精准营销、出版品牌塑造、图书虚拟社区等的效果得到有效提升,而打破传统思维模式、应对新兴技术带来的风险成为出版业在发展过程中面临的挑战[16,17,18]。随着数字化与信息化、互联网与移动互联网的发展,媒介之间的界限越发模糊,媒体融合成为传统出版业转型升级的重要途径。面对未来媒体呈现的“脱媒化”“媒体化”“无界化”“人—机—数一体化”的趋势[19],出版业在发展过程中应更加注重利用数据科学技术了解用户心理及行为[20]、分析产品传播效果,以数据与知识为基础,寻找新型盈利模式[21]。除图书出版产业外,亦有研究者从数据科学的角度对期刊产业的转变与发展做了深入的探讨[22,23,24]

主题三是数据科学技术与数字出版产业协同发展研究。研究内容主要集中于数据科学技术对数字出版产业的影响及其在数字出版产业中的发展与应用。大数据不仅是技术,更是一种思维模式,以大数据技术为基础的精准营销与个性化服务将成为数字出版产业的发展趋势,大数据模式亦将带来出版业思维观念、知识结构与组织结构的变更[25,26]。也有学者提出,大数据等新兴数据科学技术的应用对出版业的产业重构产生深刻影响,并利于对出版业在实施大数据战略中从数字化转型、数据整合能力、读者行为、数据所有权和出版业自身能力建设五个方面作前瞻性的思考[27]。数据科学作为一门正在快速发展的新兴学科,如虚拟现实、人工智能等不断产生的数据科学新技术,丰富了知识传播的形式,使浸入式阅读在数字领域得以大显身手[28]。人工智能技术在内容生产、个性化内容推送与读者互动等方面的应用,也将带来出版业运营模式的变革[29,30]

3.3 人工智能与知识服务成为下一阶段的研究趋势

随着信息技术与互联网技术的快速发展与应用,编辑出版学领域不断融入数据科学的思想及研究方法,从而带来新的研究方法与思路。从最初讨论行业数据对出版发行工作的辅助与优化,到研究大数据时代编辑出版业的现状与困局,再到如何应用数据科学技术促进出版业的变革与为转型升级提供解决方案,数据科学在编辑出版学领域的研究经历了从简单到复杂、从发现问题到解决问题的发展。从发展趋势来看,人工智能、知识服务等在编辑出版领域催生出的新型内容生产与运营盈利模式仍需学界与业界进一步研究,并将成为未来一段时间研究的热点。

4 结语

本文基于15种编辑出版学领域的学术期刊在2008—2017年期间刊发的数据科学相关文献,试图描述并厘清其间数据科学在编辑出版学领域的研究现状、热点、发展脉络及趋势,研究结果发现:数据科学的研究群体成员流动性较高,核心研究群体薄弱;学界和业界均意识到数据科学思维与技术的重要性,并将其用于解决科研问题和指导社会生产;在媒体融合的新环境下,将数据科学新兴技术应用于新型生产与盈利模式将成为未来的研究重点。

基金项目:本文系图书情报国家级实验教学示范中心(武汉大学)资助。

参考文献

[1] NaurP. Concise survey of computer methods[M]. New YorkPetrocelli Books, 1974.
[本文引用:1]
[2] 王曰芬谢清楠宋小康. 国外数据科学研究的回顾与展望[J]. 图书情报工作,201660(14):5-14.
[本文引用:1]
[3] 赵蓉英魏明坤. 国际数据科学演进研究:基于时间维度的分析[J]. 图书情报知识,2017(4):71-79.
[本文引用:1]
[4] 朝乐门卢小宾. 数据科学及其对信息科学的影响[J]. 情报学报,201736(8):761-771.
[本文引用:1]
[5] 杨晓新. 数据科学视域下的出版学研究方法[J]. 出版科学,2017(6):46-50.
[本文引用:1]
[6] 邱均平. 信息计量学(六)第六讲文献信息作者分布规律:洛特卡定律[J]. 情报理论与实践,2000(6):475-478.
[本文引用:1]
[7] 徐秀花程晓锦李业丽. 基于数据仓库的出版决策支持系统研究[J]. 北京印刷学院学报,200816(4):49-51.
[本文引用:1]
[8] 李宝玲. 谈出版物网络营销中读者数据库建设的相关问题[J]. 北京印刷学院学报,201018(1):47-48.
[本文引用:1]
[9] 刘晓峰. 出版数据挖掘关联分析[J]. 科技与出版,2008(1):50-51.
[本文引用:1]
[10] 王亮孙昱. 图书电子商务中的客户信息挖掘[J]. 科技与出版,2012(10):99-101.
[本文引用:1]
[11] 张涛甫. 大数据时代的出版困局及其突破[J]. 编辑学刊,2013(2):6-10.
[本文引用:1]
[12] 周煜. 大数据时代出版行业发展趋势分析[J]. 中国出版,2014(7):19-22.
[本文引用:1]
[13] 石佳靓. 大数据:出版产业的机遇与实践[J]. 中国出版,2014(11):44-47.
[本文引用:1]
[14] 邓佳佳. 大数据时代出版业的演进与变革[J]. 中国出版,2014(23):52-55.
[本文引用:1]
[15] 刘灿姣叶翠. 基于云计算的出版企业大数据服务研究[J]. 出版发行研究,2013(11):59-62.
[本文引用:1]
[16] 于春生. 大数据时代图书电商的机遇与挑战[J]. 中国出版,2013(19):42-45.
[本文引用:1]
[17] 姚宝权. 大数据时代出版品牌塑造与提升[J]. 中国出版,2014(11):48-51.
[本文引用:1]
[18] 徐淑欣徐丽芳. 阅读社交网站与图书发现[J]. 出版参考,2013(24):52.
[本文引用:1]
[19] 向安玲沈阳. 全息全知、全能:未来媒体发展趋势探析[J]. 中国出版,2016(2):3-7.
[本文引用:1]
[20] 程忠良. 大数据时代出版业“三维空间”关系链一体化经营策略分析[J]. 编辑之友,2013(9):12-15.
[本文引用:1]
[21] 李金秋. 新媒体时代传统图书出版的生存发展之路[J]. 出版广角,2015(5):95-97.
[本文引用:1]
[22] 吴锋. “大数据时代”科技期刊的出版革命及面临挑战[J]. 出版发行研究,2013(8):66-70.
[本文引用:1]
[23] 周小华.“大数据”时代中国学术期刊的转型与发展机遇[J]. 科技与出版,2014(4):102-104.
[本文引用:1]
[24] 杨松迎王志鸿曹荣章. 科技期刊数字内容的挖掘与服务:以《电力系统自动化》为例[J]. 中国科技期刊研究,201728(28):145-150.
[本文引用:1]
[25] 孙玉玲. 大数据时代数字出版产业的发展趋势[J]. 出版发行研究,2013(4):5-8.
[本文引用:1]
[26] 刘鲲翔杜丽娟丁雪. 大数据技术在数字出版中的应用前景展望[J]. 出版发行研究,2013(4):9-11.
[本文引用:1]
[27] 吴赟. 产业重构时代的出版与阅读:大数据背景下出版业应深度思考的五个关键命题[J]. 出版广角,2013(12):32-36.
[本文引用:1]
[28] 李晶晶汪薇. 新技术与新出版:技术双擎推动下的出版业变革与重构[J]. 中国出版,2017(14):20-24.
[本文引用:1]
[29] 徐丽芳乐征帆. 机器学习:出版业的下一个引爆点?[J]. 出版参考,2017(1):25-27.
[本文引用:1]
[30] 王亮. 人工智能技术环境下新闻出版业运作模式创新[J]. 出版参考,2017(9):9-12.
[本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
编辑出版学
数据科学
文献计量
Citespace


作者
羊晚成
杨丹丹