科技与出版, 2017, 36(11): 17-19 doi: 10.16510/j.cnki.kjycb.2017.11.013

特别策划

面向智慧数据的科学知识图谱构建

——以SciGraph为例

宋宁远1)

1)武汉大学信息管理学院,430072,武汉

编委: 苏磊

摘要

知识图谱是智慧数据的一种表现形式,也是专业出版领域知识服务的关键。本文以斯普林格•自然集团的SciGraph项目为例,从数据来源、数据组织、内容加工三个方面进行了案例分析,并在此基础上讨论了人工智能时代专业知识服务的发展路径。

关键词: 知识图谱 ; 专业出版 ; 智慧数据 ; SciGraph

PDF (2161KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宋宁远. 面向智慧数据的科学知识图谱构建. 科技与出版[J], 2017, 36(11): 17-19 doi:10.16510/j.cnki.kjycb.2017.11.013

1 智慧数据与知识图谱

专业出版以促进科学交流的发展为目标,是科学交流体系的重要组成部分。20世纪中期以来,科学文献增长迅速,极大丰富了人类的知识储备,但到目前为止,科学交流过程中的常见问题,如科研数据难以验证、结果不可重复等依旧存在。为了解决这些问题,语义出版的理念逐渐产生[1,2],部分学者也开始尝试改变科学知识的表示与组织模式,以便于机器更容易理解文献内容,为在科研领域引入人工智能做好铺垫。

近几年来,随着大数据研究的兴起,智慧数据(smart data)的概念也逐渐引起关注[3]。智慧数据通常以RDF三元组作为基本的数据结构,拥有较强的语义表示能力和关联能力,能够充分表示出版物内容的语义属性及特征。智慧数据是构建智慧出版系统和高级知识服务系统的基础,也是人工智能深入介入出版业务的关键。

知识图谱是当下智慧数据最典型的表现形式。知识图谱技术最早由谷歌公司提出[4],它以概念和实例为节点,以其关系为边,利用网络结构表示和组织知识。知识图谱技术突破了万维网环境下文档载体对内容数据的限制,实现了细粒度知识的组织与表示,为语义检索与智能问答提供数据基础[5]。鉴于知识图谱技术的先进性,国外大型专业出版和知识服务机构纷纷开始知识图谱建设。其中,斯普林格•自然集团的SciGraph项目走在了前列,对出版业借助人工智能和智慧数据建设发展知识服务业务提供了借鉴。

2 SciGraph

SciGraph是斯普林格•自然集团在继ShareIt和Recommended之后,在专业出版领域的又一次重要尝试[6]。SciGraph项目在2015年5月启动,旨在借助知识图谱提升内容的可发现性与可获得性,在知识组织的基础上,通过数据融合、知识发现、内容计算,为科研人员、作者、编辑、数据科学家、科研基金、会议组织者提供相关的数据工具和服务,实现内容价值增值与知识服务。

为此,SciGraph在关联开放数据(Linked Open Data)技术及理念的影响下,通过知识建模(Knowledge Modeling)、命名实体识别(named entity recognition)、语义图数据库(semantic graph database)等语义技术(semantic technology),力求关联包括科学文献、专著、作者、机构、基金、引用及参考文献、百科等与学术领域密切相关的资源,实现多源异构数据的跨模态语义聚合,全方位构建学术领域内的大规模知识图谱。目前,SciGraph已包括超过1550万条三元组,预计截止到2017年底,SciGraph将扩充至超过10亿条三元组,已能充分满足大部分科研工作者的数据与知识需求。

2.1 数据来源及种类

SciGraph中集成了绝大部分斯普林格•自然集团旗下的期刊、会议论文、学术专著等,同时也涵盖了诸如DBpedia、维基百科等网络资源。数据资源来源丰富,能够满足不能层次科研工作者的知识与数据需求。

从种类上看,SciGraph的数据包括文献数据、使用数据、机构信息、元数据等四大类。其中,文献数据指包括科学论文、期刊、专利文档、临床试验、专著等在内的出版物及出版物内容数据。使用数据包括引用及参考文献数据、使用量、下载量等,其中引用及参考文献数据体量最为庞大,大约有1 500万条数据。机构信息包括科研组织、出版商、高校、基金等。元数据则包括文献类型、主题词表、领域本体等。此外还有诸如作者、会议信息等数据。

广泛的数据来源保证了知识服务的质量。在开放数据(open data)、开放知识(open knowledge)的环境下,集成多种类型的知识资源,是专业出版领域构建大规模知识图谱的基础。

2.2 数据聚合及组织

从本质上来说,SciGraph是借助多种知识组织工具实现的知识图谱建构。区别于一般的事实性知识图谱(如谷歌知识图谱等),SciGraph所包含的实体来源广泛、结构复杂,因此,SciGraph融合使用了包括本体、叙词表、分类法等多种知识组织工具,对多源资源进行多粒度全方位准确表征。在所有知识组织工具中,居于核心地位的是NPG本体(NPG Ontologies),该本体使用OWL 2语言进行语义建模,共定义了73个核心类和250个属性,用以支撑科学知识发现、科学内容存储、科学文献出版。NPG本体核心结构如图1所示。

NPG本体核心结构示意图

NPG本体对包括机构(Agents)、出版物(Publication)、事件(Event)等在内的概念进行了形式化表达,不仅可以准确对系列(Serial)、文档(Document)等文献特征信息进行表示之外,还对具体的文献组件(Component)进行了定义,用以描述更细粒度的文献知识单元。NPG本体复用了多种顶层概念本体及出版领域本体,诸如CIDOC-CRM中的时间实体(Temporal Entity)、BIBO及FOAF本体中的文档(Document)等核心类,进一步实现了智慧数据的开放与关联。

要实现基于知识图谱的知识发现与内容计算,就需要提高资源的机器可读性。因此对科学知识,尤其是科学文献内容信息进行准确的形式化表征就显得十分重要。斯普林格•自然集团在构建SciGraph时,针对不同资源的具体特征,综合使用多种知识组织工具,取得了较为良好的结果,值得专业出版机构借鉴。

2.3 数据加工及存储

斯普林格•自然集团与Ontotext、Digital Science等公司合作,为SciGraph项目设计了包括语义标注、图数据存储等在内的一系列数据加工及存储工具。SciGraph借助NPG本体、期刊结构化标准(JATS)等对科学文献内容进行了构化处理,并利用半自动语义标引(semi-automatic tagging)工具Dimensions对多种科学资源进行了深度语义标引,对蕴藏在科学文献中的大量潜在知识进行语义表示与抽取,将结构化内容转化为富语义的智慧数据。

经过处理后的细粒度内容资源通常表示为RDF三元组,为了对这些富语义数字资产进行统一组织与管理,SciGraph构建了NPG关联数据平台(NPG linked data platform)。该平台以图数据库模型为基本架构,对数据与知识进行集成,实现了对概念实体及关系的关联存储。

此外,斯普林格•自然集团还构建了具有混合结构(hybrid architecture)的NPG内容中心(NPG content hub),采用混合RDF与XML两种架构的数据结构,用以更好地对多种资源进行统一存储与管理。同时,NPG内容中心还设置了诸多类型的接口,方便对不同类型内容的访问与调用。

3 知识图谱推动的知识服务升级

SciGraph集成了多源异构科学知识,创新了科学文献及科学知识的内容组织方式和数据结构,可以在充分关联数据与知识的基础上,改革知识产品样式,改进同行评议机制,推动专业出版模式创新,进一步推动知识服务的升级与科学交流体系的完善。

面向不同用户及机构,知识图谱可以根据具体的需求提供不同的知识服务。就科研工作者而言,专业出版领域知识图谱广泛集成了大规模、跨领域内容资源,提供了可供重用的数据集与知识库,可以通过知识、数据之间的语义关系进行拓展,发现学科融合及前沿热点领域。利用知识图谱,可以节省科研工作者在知识搜寻、比较、分析上的时间。对于科研机构、基金会等科研管理机构,知识图谱提供了可运算的知识与内容,可以在对科学内容进行综合分析评价的基础上,结合科研工作者的实际使用及引用情况,准确判定科学研究的价值及影响力,并作为提供优质的推荐及评价服务的基础,为更准确地资助科学研究提供帮助。对于期刊编辑、同行评审来说,知识图谱可以为论文提供可供重用的数据集,同时对科学知识来源进行规范化验证,可以大幅度提高同行评审的准确程度及评审效率,解决现有同行评审环节存在的内容无法验证、审稿流程过于缓慢等问题。

4 总结

构建智慧数据是在出版领域加速引入人工智能的关键。在专业出版领域,构建知识图谱是一条切实可行的道路。通过SciGraph项目的深入分析,可以看出,多源知识集成、知识组织工具协同以及内容中心(content hub)建设是建设知识图谱的关键。知识图谱作为一种智慧数据的表现形式,为人工智能的引入,特别是支持机器读取和理解科学知识提供了基础,大规模知识图谱建设将加速智慧化出版系统的开发,实现专业知识服务的跃迁。

参考文献

Shotton D.

Semantic publishing: The coming revolution in scientific journal publishing

[J]. Learned Publishing, 2009, 22(2): 85-94.

[本文引用: 1]

王晓光陈孝禹.

语义出版的概念与形式

[J]. 出版发行研究,2011(11):54-58.

[本文引用: 1]

Zeng M.

Smart data for digital humanities

[J]. Journal of Data and Information Science, 2017(1): 1-12.

[本文引用: 1]

Knowledge Graph

[EB/OL]. [2017-07-20]. .

URL     [本文引用: 1]

刘峤李杨段宏.

知识图谱构建技术综述

[J]. 计算机研究与发展,201653(3):582-600.

[本文引用: 1]

Springer Nature SciGraph

[EB/OL]. (2017-07-20) [2017-09-20]. .

URL     [本文引用: 1]

/