面向传统出版的知识表示与挖掘技术应用探析
1)中国工信出版传媒集团,10005,北京
2)北京方正阿帕比技术有限公司,100191,北京
编委: 韩婧
关键词:
本文引用格式
李弘, 黄肖俊.
目前,国内外关于知识表示与挖掘以及基于深度学习的知识表示与挖掘技术应用等都有着广泛的研究。如何将知识表示与挖掘技术应用到数字出版、知识服务领域,是出版界非常关注的应用方向。
1 综述
从一般意义上讲,知识表示就是为描述世界所做的一组约定,是知识的符号化、形式化或模型化;从计算机科学的角度来看,知识表示是研究计算机表示知识的可行性、有效性的一般方法,是把人类知识表示成机器能处理的数据结构和系统控制结构的策略。
我们可以把知识表示方法分为“面向人的知识表示方法”和“面向计算机的知识表示方法”两大类。面向人的知识表示方法主要有图形、图像、声音以及语言符号系统、其他符号系统等。由于语言符号具有二义性和模糊性,虽然人类的智能能够理解用语言符号表示的知识,但是无法满足计算机精确表达的要求,不适合在当今的计算机上处理。而面向计算机的知识表示方法则以面向人的知识表示方法为基础,再结合计算机处理知识的特殊要求,本着“必须能够被计算机接受”这个先决条件,由领域专家们创造。面向计算机处理的知识表示方法又可以再分为直接表示法和间接表示法。
近年来,知识挖掘技术也获得快速发展,其中,知识图谱技术具有较广泛的应用。知识图谱就是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系的技术和方法。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体—关系—实体”三元组。通过知识图谱,可以实现Web从网页链接向概念链接的转变。知识图谱从逻辑上可以划分为2个层次:数据层和模式层。在数据层,知识以事实(Fact)为单位存储在图数据库(Graph Database)。模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。这个过程主要涉及的技术就是知识挖掘相关的技术。主要包括实体抽取技术、关系抽取技术、属性抽取技术等。
知识表示与挖掘技术虽然已经有了多方面的研究,也是近年来的研究热点,但从产业界的应用情况看,仍然存在着很多问题,需要大量的人工介入,尚未达到真正实用的程度。
2 技术应用现状分析
知识表示与挖掘技术,目前主要还是应用自然语言处理技术,其在行业技术应用层面,也仅是在相关领域有一些初步的应用,如词性标注、句法分析、词义学习、情感分析等。
(1)词性标注。词性标注是指在对句子进行分词(分词是指按照一定的规则将一个句子拆分成多个有顺序的词的过程)以后确定句子中每个词的词性,如形容词、动词、名词等。
(2)句法分析。句法分析的主要任务是识别句子的结构,即识别句子中包含的句法单位以及这些句法单位相互之间的关系。
(3)词义学习。对于一个词有着多个含义的情况,可以利用深度神经网络,学习能够更好表达词义的隐藏词;通过学习每个词的多义词表示,来更好地解释同名歧义。
(4)情感分析。情感分析又称为情感挖掘、意见抽取/意见挖掘、主观分析等,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从评论文本中分析用户对商品属性的情感倾向。
(5)行业应用情况。以知识表示和挖掘技术的快速发展为出版单位开展知识服务奠定了技术基础,相关国外出版社的成功模式也为国内出版社的知识服务指明了方向。因此,以用户为中心、面向解决方案的知识服务将是专业出版社未来出路的理想选择。
在此过程中,出版单位首先要先丰富自身知识资源,优化其结构,构建多形态、多载体、多种类的实体知识资源和虚拟网络资源相结合的知识资源体系。为此,出版单位必须借助知识表示和挖掘等新兴技术,深入揭示知识之间的关联,挖掘用户的个性化需求和行为动作,为用户提供更多的知识产品和增值服务。
目前已有个别出版单位开展了基于知识表示和挖掘技术的新型出版产品的开发和研制,例如中国建筑工业出版社的“i施工”、黑龙江出版集团的“边疆文库”、中国工信出版传媒集团所属电子工业出版社的“E知元”等。这些新型数字出版产品的面世,极大地扩展了知识服务产品的形态、创新了用户服务模式。
3 工信出版集团的实践
中国工信出版传媒集团公司(以下简称工信出版集团)在知识服务、深度学习、知识表示与挖掘技术应用等方面都开展了多方位的研究和探索。集团所属电子工业出版社(以下简称电子社)在多年的微电子技术方面有着非常深厚的出版资源积累,基于这些资源内容,电子社采用知识表示技术和数据挖掘技术对出版资源进行知识化加工,然后经过人工审核和修正,在知识体系建设的基础上实现了知识产品的建设并实现了知识应用,可以满足各类研究人员的学术研究需要,并为行业相关人员和机构提供知识服务。
电子社构建的知识服务产品和普通的内容产品有所不同,其知识服务产品目的是向读者提供关联、智能的深度知识服务的专业阅读模式,因此传统的资源建设的数据成果已无法满足产品数据对于关联的需求,需要在此基础进行知识体系构建、知识组织梳理和知识化加工,形成知识化资源。
电子社相关的知识体系的建设是通过对电子技术知识组织方案的架构以及逐步细化,形成脱离于具体内容资源但深刻揭示领域知识构成的知识体系;通过赋予内容资源知识属性,使内容资源获得以知识组织为核心的内在控制因素,并进一步实现以知识准确获取、关联导航以及知识发现和知识创新应用为核心的综合性知识服务。构建过程中利用电子社的结构化资源,采用数据挖掘技术实现了词汇抽取、词间关系抽取、词汇属性抽取以及知识元和知识体系的构建和管理,并利用XML技术存储领域知识体系。通过知识体系建设,实现了知识元集及其关联关系的构建,共建设知识元5567个,关联关系6228对。
在知识体系构建基础上进一步进行知识化加工。知识化加工的主要任务是通过程序和人工辅助的方法将知识体系的标签标引到结构化资源中,形成知识化资源。智能标引系统首先将知识体系中的目标词、知识元、词表等导入到标引系统中,对输入的结构化资源进行细化内容分析,通过智能语义理解和匹配,调用最相关的知识标签进行标引,并输出标引结果。
系统自动标引的结果会有部分不准确的内容,通过人工核查判断可以提高标引结构的准确度,人工复核时对正确和基本正确的标引结果可以直接输出,而对需要调整的则由专业标引人员进行修正。在上述基础上,电子社构建了基于安卓的移动端知识服务系统,可以为读者提供方便的可便携的知识服务。
移动端知识服务系统采用安卓App客户端的方式提供服务,最主要的功能是知识导航、知识元展示和专业阅读,具有鲜明的特色。
3.1 知识导航
知识导航展示知识和技能2个维度的一级分类,点击进入可通过分类找到知识元,数据来自知识导航分类及知识体系数据(见图1)。
3.2 知识元展示
知识元展示通过详细信息描述、知识地图等方式展示知识元的详细信息及关联关系等知识元相关信息,知识元展示的数据来自知识体系及知识化条目资源。主要功能有:
知识地图:以力导向图(网状图)的形式展示与当前知识元相关的其他知识元,并支持关系深度和关系类型的设置。
知识束:汇总和当前知识元具有次序性关系的相关知识元,用于描述设计方法、流程、发展阶段等。
深度阅读:提供了标引有该知识元的条目资源,帮助用户深入学习某一知识元。
3.3 专业阅读
专业阅读实现了如下功能:以条目为基本单位,通过多窗口的方式提供同时阅读多本书的体验,并通过在阅读文字的知识标签功能查看知识元的详细信息、知识地图、知识束和深度阅读资源。专业阅读的数据来自知识体系和知识化条目。
3.4 成果应用情况
依托知识表示与挖掘技术的应用,工信出版集团下属的电子社推出了数字产品“E知元”,该产品推出后获得了行业和主管部门的一致赞誉和认可,并荣获第三届中国创意工业创新奖中的“新技术奖”金奖。奖项评委认为:“E知元”是一款基于移动端的电子技术类知识服务APP,依托电子社优质内容资源,精选电子技术类专业图书进行结构化及知识化加工,以探索知识服务新路径为目标,创造性地利用知识导航、知识地图、知识束等不同方式展现知识,并提供海量条目的深入阅读功能,以辅助用户快速、深入地学习相关知识与技能。该产品顺应市场发展趋势,在技术创新领域进行独立研发,代表了行业未来的发展方向,因此获得了行业的一致认可。
4 结论
知识表示与挖掘技术在出版领域的应用正在成为一种趋势,吸引了不少的研究者投入其中。目前,中国工信出版传媒集团正通过出版融合发展(工信出版)重点实验室电子分部积极开展基于知识表示与挖掘技术的研究和应用探索。
电子社采用知识表示技术和数据挖掘技术对出版资源进行知识化加工,然后经过人工审核和修正,在知识体系建设的基础上实现了知识产品的建设并实现了服务应用,可以满足各类研究人员的学术研究需要,并为教学机构提供必要的教学服务,获得了较好的市场反馈。以“E知元”为代表的新兴数字出版产品出现,是知识表示和挖掘技术在出版社知识服务模式创新中的成功应用和积极探索,具有里程碑的意义。
知识表示与挖掘技术虽然已经有了突飞猛进的技术进步和多方位的应用,在出版单位也有了初步的应用,但由于自然语言的高复杂度,这些技术在实际的应用过程中还有着相当的局限,其对数据加工的效率和质量、对不同领域的适应性都是未来可以重点研究的方向。
参考文献
论知识表示
[J].
基于国家数字复合出版系统工程的知识服务浅析
[J].
知识表示学习研究进展
[J].
基于本体的产品设计知识表示综述
[J]
面向科技文献知识表示的知识元本体模型
[J].
基于深度学习的数字图书馆跨媒体语义检索方法研究
[J].
基于深度学习的智能中文文本检校方法
[J].
机器学习视角的人工智能研究回顾及对图书情报学的影响
[J].
基于学科本体的训诂学知识组织体系初步构建
[J].
知识表示方法比较
[J].
/
| 〈 |
|
〉 |
