面向智慧数据的科学知识图谱构建
——以SciGraph为例
编委: 苏磊
关键词:
本文引用格式
宋宁远.
1 智慧数据与知识图谱
近几年来,随着大数据研究的兴起,智慧数据(smart data)的概念也逐渐引起关注[3]。智慧数据通常以RDF三元组作为基本的数据结构,拥有较强的语义表示能力和关联能力,能够充分表示出版物内容的语义属性及特征。智慧数据是构建智慧出版系统和高级知识服务系统的基础,也是人工智能深入介入出版业务的关键。
2 SciGraph
SciGraph是斯普林格•自然集团在继ShareIt和Recommended之后,在专业出版领域的又一次重要尝试[6]。SciGraph项目在2015年5月启动,旨在借助知识图谱提升内容的可发现性与可获得性,在知识组织的基础上,通过数据融合、知识发现、内容计算,为科研人员、作者、编辑、数据科学家、科研基金、会议组织者提供相关的数据工具和服务,实现内容价值增值与知识服务。
为此,SciGraph在关联开放数据(Linked Open Data)技术及理念的影响下,通过知识建模(Knowledge Modeling)、命名实体识别(named entity recognition)、语义图数据库(semantic graph database)等语义技术(semantic technology),力求关联包括科学文献、专著、作者、机构、基金、引用及参考文献、百科等与学术领域密切相关的资源,实现多源异构数据的跨模态语义聚合,全方位构建学术领域内的大规模知识图谱。目前,SciGraph已包括超过1550万条三元组,预计截止到2017年底,SciGraph将扩充至超过10亿条三元组,已能充分满足大部分科研工作者的数据与知识需求。
2.1 数据来源及种类
SciGraph中集成了绝大部分斯普林格•自然集团旗下的期刊、会议论文、学术专著等,同时也涵盖了诸如DBpedia、维基百科等网络资源。数据资源来源丰富,能够满足不能层次科研工作者的知识与数据需求。
从种类上看,SciGraph的数据包括文献数据、使用数据、机构信息、元数据等四大类。其中,文献数据指包括科学论文、期刊、专利文档、临床试验、专著等在内的出版物及出版物内容数据。使用数据包括引用及参考文献数据、使用量、下载量等,其中引用及参考文献数据体量最为庞大,大约有1 500万条数据。机构信息包括科研组织、出版商、高校、基金等。元数据则包括文献类型、主题词表、领域本体等。此外还有诸如作者、会议信息等数据。
广泛的数据来源保证了知识服务的质量。在开放数据(open data)、开放知识(open knowledge)的环境下,集成多种类型的知识资源,是专业出版领域构建大规模知识图谱的基础。
2.2 数据聚合及组织
从本质上来说,SciGraph是借助多种知识组织工具实现的知识图谱建构。区别于一般的事实性知识图谱(如谷歌知识图谱等),SciGraph所包含的实体来源广泛、结构复杂,因此,SciGraph融合使用了包括本体、叙词表、分类法等多种知识组织工具,对多源资源进行多粒度全方位准确表征。在所有知识组织工具中,居于核心地位的是NPG本体(NPG Ontologies),该本体使用OWL 2语言进行语义建模,共定义了73个核心类和250个属性,用以支撑科学知识发现、科学内容存储、科学文献出版。NPG本体核心结构如图1所示。
NPG本体对包括机构(Agents)、出版物(Publication)、事件(Event)等在内的概念进行了形式化表达,不仅可以准确对系列(Serial)、文档(Document)等文献特征信息进行表示之外,还对具体的文献组件(Component)进行了定义,用以描述更细粒度的文献知识单元。NPG本体复用了多种顶层概念本体及出版领域本体,诸如CIDOC-CRM中的时间实体(Temporal Entity)、BIBO及FOAF本体中的文档(Document)等核心类,进一步实现了智慧数据的开放与关联。
要实现基于知识图谱的知识发现与内容计算,就需要提高资源的机器可读性。因此对科学知识,尤其是科学文献内容信息进行准确的形式化表征就显得十分重要。斯普林格•自然集团在构建SciGraph时,针对不同资源的具体特征,综合使用多种知识组织工具,取得了较为良好的结果,值得专业出版机构借鉴。
2.3 数据加工及存储
斯普林格•自然集团与Ontotext、Digital Science等公司合作,为SciGraph项目设计了包括语义标注、图数据存储等在内的一系列数据加工及存储工具。SciGraph借助NPG本体、期刊结构化标准(JATS)等对科学文献内容进行了构化处理,并利用半自动语义标引(semi-automatic tagging)工具Dimensions对多种科学资源进行了深度语义标引,对蕴藏在科学文献中的大量潜在知识进行语义表示与抽取,将结构化内容转化为富语义的智慧数据。
经过处理后的细粒度内容资源通常表示为RDF三元组,为了对这些富语义数字资产进行统一组织与管理,SciGraph构建了NPG关联数据平台(NPG linked data platform)。该平台以图数据库模型为基本架构,对数据与知识进行集成,实现了对概念实体及关系的关联存储。
此外,斯普林格•自然集团还构建了具有混合结构(hybrid architecture)的NPG内容中心(NPG content hub),采用混合RDF与XML两种架构的数据结构,用以更好地对多种资源进行统一存储与管理。同时,NPG内容中心还设置了诸多类型的接口,方便对不同类型内容的访问与调用。
3 知识图谱推动的知识服务升级
SciGraph集成了多源异构科学知识,创新了科学文献及科学知识的内容组织方式和数据结构,可以在充分关联数据与知识的基础上,改革知识产品样式,改进同行评议机制,推动专业出版模式创新,进一步推动知识服务的升级与科学交流体系的完善。
面向不同用户及机构,知识图谱可以根据具体的需求提供不同的知识服务。就科研工作者而言,专业出版领域知识图谱广泛集成了大规模、跨领域内容资源,提供了可供重用的数据集与知识库,可以通过知识、数据之间的语义关系进行拓展,发现学科融合及前沿热点领域。利用知识图谱,可以节省科研工作者在知识搜寻、比较、分析上的时间。对于科研机构、基金会等科研管理机构,知识图谱提供了可运算的知识与内容,可以在对科学内容进行综合分析评价的基础上,结合科研工作者的实际使用及引用情况,准确判定科学研究的价值及影响力,并作为提供优质的推荐及评价服务的基础,为更准确地资助科学研究提供帮助。对于期刊编辑、同行评审来说,知识图谱可以为论文提供可供重用的数据集,同时对科学知识来源进行规范化验证,可以大幅度提高同行评审的准确程度及评审效率,解决现有同行评审环节存在的内容无法验证、审稿流程过于缓慢等问题。
4 总结
构建智慧数据是在出版领域加速引入人工智能的关键。在专业出版领域,构建知识图谱是一条切实可行的道路。通过SciGraph项目的深入分析,可以看出,多源知识集成、知识组织工具协同以及内容中心(content hub)建设是建设知识图谱的关键。知识图谱作为一种智慧数据的表现形式,为人工智能的引入,特别是支持机器读取和理解科学知识提供了基础,大规模知识图谱建设将加速智慧化出版系统的开发,实现专业知识服务的跃迁。
参考文献
Semantic publishing: The coming revolution in scientific journal publishing
[J].
Smart data for digital humanities
[J].
/
| 〈 |
|
〉 |
