本文运用CitespaceⅢ软件,通过中国知网检索国内15种编辑出版学学术期刊在2008—2017年刊发的相关科学文献数据,进行计量及可视化分析,梳理数据科学在国内编辑出版学领域的研究现状、热点及趋势。
在初始检索过程中,以篇名或关键词包含“数据科学”作为检索规则,仅得到1篇文献,无法继续进行研究。因此,根据已有研究归纳与数据科学联系较为紧密的关键词,调整检索条件,具体检索表达式为:((TI = '大数据'+'数据挖掘'+'人工智能'+'AI'+'机器学习'+'深度学习'+'神经网络'+'数据科学') or (KY % '大数据'+'数据挖掘'+'人工智能'+'AI'+'机器学习'+'深度学习'+'神经网络'+'数据科学')) AND JN='中国科技期刊研究'+'编辑学报'+'编辑之友'+'出版发行研究'+'科技与出版'+'现代出版'+'出版科学'+'中国出版'+'出版参考'+'出版广角'+'编辑学刊'+'中国编辑'+'河南大学学报(社会科学版)'+'北京印刷学院学报'+'浙江传媒学院学报',其中TI为篇名,KY为关键词。文献发表时间选择2008年到2017年,检索时间截至2017年12月3日。剔除通知、访谈以及与编辑出版学无关的文献后,共得到336篇有效文献。
从图1和图2可见,自2013年始,数据科学引起国内编辑出版学领域研究人员的关注,并持续至今。《科技与出版》《出版广角》《出版发行研究》《出版参考》《中国出版》《编辑之友》《出版科学》等刊物更为关注该领域的研究进展。
为更清晰地梳理编辑出版学领域数据科学研究的发展轨迹,笔者运用Citespace软件提取2008—2017年间各年度词频最高的30个关键词,绘制高频关键词共现时区图(见图3)。
笔者以发表论文数量变化时间为节点,将编辑出版学领域数据科学研究分为两个阶段:起步阶段(2008—2012年)与发展阶段(2013—2017年)。
起步阶段(2008—2012年)。这一阶段相关文献数量较少并且发展缓慢,这是该时段数据科学刚渗透到其他学科领域并且自身仍处于缓慢发展阶段所致。这一时期,研究的重点在于行业数据的存储与利用,主要关键词有:数据仓库、读者数据库、数据挖掘、出版业、电子商务、网络营销。这一阶段是编辑出版学领域数据科学研究的探索阶段,学者指出行业数据在出版发行业务中的重要性,构建数据仓库的具体模型,并在此基础上,提出通过数据挖掘方法优化库存管理和营销的策略。
发展阶段(2013—2017年)。从图3可见,2013年大量有关数据科学的关键词涌现,大数据技术快速发展并成为编辑出版学领域数据科学研究驶入快车道的加速器,研究成果数量持续增长。此时,出版业遭遇互联网的强烈冲击,转型升级成为出版业突破困局的途径。2013—2014年,大数据、数字化转型、传统出版、科技期刊、社交媒体等关键词突现,这一时期学者关注的重点是如何使用数据科学方法从宏观上指导出版业的数字化转型。2015年之后,随着转型升级步入深水区,版权保护、知识服务、大数据出版、选题策划、精准营销、媒体融合等关键词成为研究热点,研究人员开始将数据科学方法用以解决转型升级过程中的具体问题,而人工智能等关键词的出现则说明数据科学新技术仍在不断被纳入。
据统计,共有473位作者进行数据科学相关研究,其中,436位作者仅撰写或参与撰写1篇论文,占作者总数的92.2%,而洛特卡定律指出写一篇论文作者的数量约占所有作者数量的60%[6]。可见,在编辑出版领域中开展数据科学相关研究的高产作者群体尚未形成,临时性的研究者占绝大多数。根据普赖斯定律得到核心作者发文量最小值计算公式为
此外,共有288家高校及科研机构在编辑出版学学术期刊上发表数据科学相关主题的论文(见表2)。从表2可知,武汉大学信息管理学院发文量为22篇,排位第一;紧随其后的有中国人民大学新闻学院10篇和南京大学信息管理学院10篇。据此可见,这3家机构是国内编辑出版领域开展数据科学相关研究的重要基地。值得注意的是,在表2列出的研究机构中,除有12家高校外,还有6家出版社和1家研究院。可见,在编辑出版学领域,学界和业界均意识到数据科学的重要性并积极开展相关研究。但从发文量来看,高校仍是该领域开展数据科学的主要研究力量。
为真实反映研究者对特定关键词的共识度,本文对关键词进行规范处理,而未对关键词进行相似词合并或删减等操作。统计得到814个关键词,其中词频不少于5的高频关键词有31个(见表3)。可见,编辑出版学领域数据科学的研究主题分布较为广泛。
结合关键词词频统计与关键词共现知识图谱(图4)可知,大数据、数字出版、数据挖掘、科技期刊、出版业、传统出版、精准营销等关键词处于网络谱图的核心位置,是编辑出版学领域数据科学研究的核心内容。另外,根据关键词与共现关系出现的时间统计,大数据、数字出版、精准营销等研究内容自2013年来一直受到研究人员关注。近年,随着数据科学与信息技术的发展,虚拟现实、人工智能等新技术和数据科学的研究方法也被引入编辑出版学领域。
通过Citespace聚类功能可将高频关键词知识图谱化成若干聚类,用以揭示研究热点。知识图谱通过聚类计算后,得到聚类模块度
主题一是围绕数据存储与挖掘的研究。随着Web2.0时代的到来,用户逐渐成为市场的中心,大量用户数据及对数据的解读对出版社来说日益重要。数据是数据科学的基础,若没有良好的数据库建设,后续的数据分析也将是空中楼阁。以数据存储为中心,是编辑出版学领域数据科学研究的基础阶段。在这一阶段,学者主要围绕数据库的作用、储存数据类型、数据收集方式、数据维护等问题展开讨论[7,8]。在如何解读数据的问题上,研究者沿袭了数据挖掘的经典方法,并指明数据挖掘在出版发行工作中的重要作用。数据挖掘有别于传统的数据分析方法,旨在通过特定算法从看似冗余与繁杂的数据中发现隐藏的信息。出版社使用数据挖掘中的关联分析,可以对客户和出版产品进行分类与关联,了解消费者需求变化并进行有针对性的促销活动,达到提高出版品质与减少库存积压的目的[9]。除提出优化出版社业务策略外,也有研究者构建了一种客户信息挖掘模型,以解决图书电子商务中的个性化推荐与精准营销的问题[10]。
主题二是出版业大数据的应用研究。大数据技术引领着时代变革,研究人员开始思考大数据时代的特征是什么,出版业在此时代背景下将迎来何种挑战,又能在哪些方面实现自我突破与革新[11,12,13]。在大数据时代,新兴技术的发展使人们对海量数据的应用成为可能,数据逐渐成为重要的生产要素。数据技术将引领新一轮生产率增长与消费者盈余的浪潮,结合大数据在国内外社会生产的实际运用,出版业大数据的应用将对出版的生产模式、商业模式进行重塑,对整个出版业的变革产生深刻影响[14]。但大数据的4V特点使得出版业构建大数据应用平台成为难点,而使用云计算服务无疑是推动出版业大数据应用落地的有效途径[15]。新技术的加持给出版业带来前所未有的发展机遇,使得如精准营销、出版品牌塑造、图书虚拟社区等的效果得到有效提升,而打破传统思维模式、应对新兴技术带来的风险成为出版业在发展过程中面临的挑战[16,17,18]。随着数字化与信息化、互联网与移动互联网的发展,媒介之间的界限越发模糊,媒体融合成为传统出版业转型升级的重要途径。面对未来媒体呈现的“脱媒化”“媒体化”“无界化”“人—机—数一体化”的趋势[19],出版业在发展过程中应更加注重利用数据科学技术了解用户心理及行为[20]、分析产品传播效果,以数据与知识为基础,寻找新型盈利模式[21]。除图书出版产业外,亦有研究者从数据科学的角度对期刊产业的转变与发展做了深入的探讨[22,23,24]。
主题三是数据科学技术与数字出版产业协同发展研究。研究内容主要集中于数据科学技术对数字出版产业的影响及其在数字出版产业中的发展与应用。大数据不仅是技术,更是一种思维模式,以大数据技术为基础的精准营销与个性化服务将成为数字出版产业的发展趋势,大数据模式亦将带来出版业思维观念、知识结构与组织结构的变更[25,26]。也有学者提出,大数据等新兴数据科学技术的应用对出版业的产业重构产生深刻影响,并利于对出版业在实施大数据战略中从数字化转型、数据整合能力、读者行为、数据所有权和出版业自身能力建设五个方面作前瞻性的思考[27]。数据科学作为一门正在快速发展的新兴学科,如虚拟现实、人工智能等不断产生的数据科学新技术,丰富了知识传播的形式,使浸入式阅读在数字领域得以大显身手[28]。人工智能技术在内容生产、个性化内容推送与读者互动等方面的应用,也将带来出版业运营模式的变革[29,30]。
随着信息技术与互联网技术的快速发展与应用,编辑出版学领域不断融入数据科学的思想及研究方法,从而带来新的研究方法与思路。从最初讨论行业数据对出版发行工作的辅助与优化,到研究大数据时代编辑出版业的现状与困局,再到如何应用数据科学技术促进出版业的变革与为转型升级提供解决方案,数据科学在编辑出版学领域的研究经历了从简单到复杂、从发现问题到解决问题的发展。从发展趋势来看,人工智能、知识服务等在编辑出版领域催生出的新型内容生产与运营盈利模式仍需学界与业界进一步研究,并将成为未来一段时间研究的热点。
本文基于15种编辑出版学领域的学术期刊在2008—2017年期间刊发的数据科学相关文献,试图描述并厘清其间数据科学在编辑出版学领域的研究现状、热点、发展脉络及趋势,研究结果发现:数据科学的研究群体成员流动性较高,核心研究群体薄弱;学界和业界均意识到数据科学思维与技术的重要性,并将其用于解决科研问题和指导社会生产;在媒体融合的新环境下,将数据科学新兴技术应用于新型生产与盈利模式将成为未来的研究重点。
基金项目:本文系图书情报国家级实验教学示范中心(武汉大学)资助。