随着现代数字化和互联网技术的兴起和发展,科技期刊的出版形式、传播渠道等发生了巨大的变化。“十二五”期间,国家把数字出版关键技术的研发列入重大文化科技项目,发展数字出版等战略性新兴出版产业,对出版内容资源进行全方位、立体式、深层次开发利用,数字出版进入了快速发展时期,呈现出多样化快速发展的趋势[1,2,3,4]。数字出版代表出版业的未来和方向成为新闻出版界的共识,发展具有中国特色的数字出版业是当前出版业的重要任务[5]。
2016年,国家新闻出版广电总局数字出版司根据《新闻出版业“十三五”时期发展规划》编制的新闻出版业“十三五”科技发展规划指出[6],出版业正在成为与科技深度融合发展的关键领域,必须充分发挥科技的引领、支撑和融合作用,增强出版业的文化服务与信息内容服务能力,构建立体多元的文化服务与信息内容服务模式。该规划的指导思想之一就是加深出版与科技融合,加快推进数字化转型升级。
《自动化学报》由中国自动化学会、中国科学院自动化研究所主办,根据中信所每年发布的《中国科技期刊引证报告(核心版)》,影响因子连续4年在信息与系统科学相关工程与技术类学科中蝉联第一,并多次获得百强报刊、中国最具国际影响力学术期刊、百种杰出期刊等荣誉称号。《自动化学报》创刊至今逾50年,积累了大量学术资源以及包括作者、读者和审稿人在内的专家资源。
为了充分利用这些资源推进期刊的数字出版进程,发挥科技的支撑作用,促进出版和科技融合,编辑部联合中国科学院自动化研究所的社会计算和平行管理科研团队开发了面向大数据、基于新媒体的期刊智能运营平台,用以统计管理期刊数据、积累科研人员信息、提取分析科研态势,并丰富充实期刊网站关于学科领域的信息发布和综合服务。
面向大数据、基于新媒体的期刊智能运营平台系统架构如图1所示。该平台以Team Science为技术背景,通过新媒体监控、社会网络分析、数据映射及可视化、文献计量学等方法,利用ViVO、LiquidPub、iPlant等工具监测分析科研信息资源,构建科研关键词本体知识库、科研人员和机构知识库、科研热点信息知识库,形成学科研究动向的知识纽带,实现对科研信息的智能采集、抽取和分析。
智能运营平台的构建主要包括数据收集、数据分析和系统呈现3部分。首先,收集来自期刊、会议等文献数据库以及博客、微博、新闻、论坛等互联网资源的相关数据,利用聚焦爬虫、动态网解析技术实现信息精确抽取,形成科研传感网络,建立科研信息基础数据库。然后,通过复杂网络构建、核心群体发现、热点聚类、特征关联提取等挖掘算法,搭建平台的3个基本知识库,即科研关键词本体知识库、科研人员和机构知识库、科研热点信息知识库。最后,以可配置的采集子系统、可操作维护的知识管理系统、信息聚合推荐系统和可视化分析系统,实现可定义、可配置、可交互的灵活便捷操作界面,呈现信息及统计分析结果。
其中,3个基本知识库是智能运营平台架构的核心,以下分别介绍各知识库的构建:
1)构建科研关键词本体知识库。采集自动化领域相关核心期刊二次文献数据资源,抽取领域方向的核心关键词、关联关键词、依存关键词等,以ASKE为核心方法,形成知识架构体系,并构建学科研究方向的领域本体知识库,细分学科分类,包括自动化领域学科中文关键词3 477个,英文关键词4 639个,从而为学科领域发展建立了语义化的知识纽带。图2为自动化领域关键词关联网络示例。
2)构建科研人员和机构知识库。抽取自动化领域相关文献中科研人员、科研机构信息,构建领域专家、机构资料库,抽取的目标期刊作者信息可用于向专家推送学报最新发表成果;同时,建立专家、机构的合作关联网络,识别并挖掘学科领域研究前沿的核心群体和新生群体,这有助于跟踪热点研究方向、约请高质量的稿件、发现潜在的审稿专家。图3为自动抽取的领域文献作者合作网络。
3)构建科研热点信息知识库。互联网承载着各学科、领域的科研动态、论文、专利、研究报告等科研信息资源,这些资源已经成为学科发展的风向标,是现代期刊数字化建设及提供综合服务的重要方向。
一方面,监测自动化相关领域40个以上中文核心期刊近年发表的文献数据,另一方面,监测50个以上科研新闻站点,每日更新最新信息,通过搜集社会化媒体中涌现的与自动化领域相关的大量科研新闻、科技评论并进行聚合与挖掘,与期刊的学术文献内容综合互补,从而及时发现领域最新学术动态、跟踪领域热点和重点话题。图4是通过信息知识库自动构建的自动化领域研究热点图谱。
此外,通过社会计算、WEB挖掘、自然语言处理等技术分析社交网络等社会化媒体中从事相关领域研究的活跃人群和核心群体,便于期刊加强与这些群体的联络和互动,进而提高期刊的显示度和影响力。
基于智能运营平台的构建,已实现期刊智能管理、领域期刊分析、领域科研动态检索等应用。
对于《自动化学报》,通过期刊智能管理实现期刊相关要素的数字化管理和分析,便于掌握自身期刊历年发展情况。期刊智能管理主要包括期刊收发稿件数据管理和编委审理稿件绩效管理。
期刊收发稿件数据管理统计分析近5年学报的稿件收发、评审、发表及引用情况,便于及时准确把握稿件收稿、退稿与录用、审稿周期、稿件发表数量、研究方向分布、本年发表关键词统计与历年关键词变化、引证指标变化、最受关注的稿件作者及机构等情况,实现学报信息的数字化管理。
编委审理稿件绩效管理可以对学报编委的历年评审情况进行统计和分析,以便准确有效地了解各位编委的稿件审理数量、录用率、初审退稿率、平均审理周期等数据,并作为评估编委绩效的定量衡量指标。此外,还可以统计编委发文量及其学科方向分布,并对编委引用学报文章情况进行实时分析。图5为编委评审情况统计结果显示部分页面。
对于领域内相关期刊,通过智能采集与分析,基于Web of Science和CNKI数据库对期刊载文量、下载量、各年被引频次、影响因子等指标进行统计和直观展示,并定期制作简报综合反映期刊最新学术影响力。这项分析可以使编辑部及时了解期刊总体被引情况、期刊论文学术质量、学术影响力以及在网络环境下的传播效率等,便于了解领域其他期刊的动态发展以及自身期刊在领域内的发展情况。图6为学术期刊影响力简报示例。
为了充实期刊网站关于学科领域的信息发布和综合服务,除了关注自身期刊和领域其他刊物的动态发展外,还需要检索跟踪以新媒体形式发布和传播的科研动态。
通过领域科研动态检索,不仅可以通过可定义、可配置、可交互的操作界面实现所采集的自动化领域国内外期刊文献数据的整合处理和全面检索,还可以为相关领域的科研人员提供社交网络、新闻报道等多方位信息检索,从而及时发现领域研究突破进展、领域科研热点事件、领域专家与机构信息(科研成果、联系方式)等。该检索功能也可用于服务自动化领域科研人员的全方位科研信息检索需求。图7为自动化领域科研动态检索系统示例。
面向大数据的科技期刊智能运营平台具有以下应用价值。
1)助力办刊人员了解期刊动态,实现收稿、评审、发表、引用跟踪,了解各项指标及其变化情况,并根据变化趋势调整办刊规划,例如根据稿件研究方向的变化调整征稿范围;根据稿件收发周期的变化适时调整载文量等,进而实现科学有效的期刊管理与规划。
2)有助于加强编委团队管理,了解各编委对期刊的关注度和贡献度,为编委考评提供数据支持。每年将相关数据报送编委,有利于提高编委的责任感。同时,通过研究方向的分布,可以了解各征稿方向的稿件量和编委人数,实现资源平衡。
3)借助领域期刊分析,一方面了解领域其他期刊的动态发展以及本刊在领域内的发展趋势;另一方面挖掘领域核心群体、新生群体和活跃群体,发现潜在编委或审稿专家,将最具有影响力的一流学者凝聚于学报编委会,促进期刊学术质量的提升。
4)实现刊、网互补,服务科研人员对动态信息的需求,便于科研人员了解研究进展,动态把握最新的知识结构,寻找交叉学科生长点。
根据中信所发布的《中国科技期刊引证报告(核心版)》,自该智能平台投入开发和使用以来,《自动化学报》的影响因子已连续4年在信息与系统科学相关工程与技术类学科中蝉联第一,反映了期刊数字化建设对于期刊学术影响力提升的作用。
综上,期刊智能运营平台是大数据相关技术在出版领域的应用,有效推动了期刊资源的数字化处理、数字内容智能化和知识化组织,增强了期刊对信息内容的传播和运营能力。
致谢:感谢任艳青、张哲等编辑在平台开发前期的讨论,感谢陆浩博士提供的信息。