科技与出版,2017, 36(6): 22-25
doi: 10.16510/j.cnki.kjycb.2017.06.007
基于知识元库自动编辑的知识服务优化
袁阳1),肖洪2)
1)中国矿业大学(北京)管理学院 100083,北京
2)清华同方光盘电子出版社,100192,北京
 
【摘要】  文章结合编辑学理论和中文信息处理技术,论述了从海量文献中抽取、挖掘和半自动编辑数值知识元的过程,阐述了在自然语言处理、信息检索等技术支持下科技知识元库自动编辑的工作实践,探讨了自动编辑科技知识元库的主要价值和面临的问题。
【关键词】  知识元 ; 自动编辑 ; 科技期刊 ; 知识挖掘

【Abstract】 

随着我国社会信息化和知识经济的发展,走向知识服务、优化知识服务,已成为当前信息服务向知识服务转型的必然选择。知识服务优化能够保障和提升用户知识服务质量,也将极大地改变科技研究者和普通读者的工作方式和学习方式。

当前,科技期刊编辑工作日益呈现业务流程自动化、编辑内容数字化、内容处理智能化等特征。而科技期刊的基本单元—科技论文,作为最新科技成果的载体,往往是对特定科技课题的研究动态、研究方法、理论成果、工程经验或科学实验的报道。因此,科技期刊数据库对特定科技主题文献检索和调研提供了强大的工具。然而,文献获取并非知识获取的全部。科技研究者在工作和生活中往往会产生对特定知识的需求,只有做好知识的获取工作才可能进一步利用知识、创造知识。从传统出版流程看,此类特定知识碎片(知识元)的需求往往由各种类型工具书出版来满足。然而,大量的知识碎片一般都隐藏在海量的科技论文中,因此从海量的科技论文中发现、抽取和编辑有价值的科技知识碎片来建设各种科技知识元库(定义、数值、观点等)是非常重要的。

1 知识元的概念

所谓知识,在科学技术领域内是指人们对自然界运动和工程实践活动的内在的本质规律的认识(如“牛顿第一定律”)以及人类生产活动进展事实的常识(如“中国导弹最大射程”“三峡大坝高度”等)。知识元是知识的基本单元,若干个知识元在认知逻辑的约束下可组合成新的知识。知识元既是科技文献读者获取知识的基本单元,又是组成某学科或某主题知识库的基本单元。知识元按照功能可分为定义型知识元、数值型知识元、事实型知识元。其中,数值知识元是描述客观事物或者事件数值属性(如时间、长度、高度、重量、百分比、销售额、利润等)的知识单元。知识元按载体分,可分为文字型、图表型、视频型。本文主要研究文本型数值知识元。

为了实现从科技期刊全文中抽取和挖掘科技数值知识元,首先对科技数值知识元的外延做了如下规定:

(1)是一条完整的事实,从语言学上讲就是句块(本文的句块特指句子或句群)主、谓、宾齐全;

(2)句块的主体含有特定的科技概念,如“张三1天吃4顿”不含科技概念,不属于知识元;

(3)在海量期刊全文中,知识元经常重复出现,科技数值知识元库选择第一次出现(按出版时间)的知识元作为抽取对象;

(4)仅有年份、日期的句块虽不包括具体的数值知识,但可作为科技年谱知识,以反映科技进展。

2 数值知识元自动编辑的流程

知识服务是从用户实际的信息需求和所处的信息环境出发,是针对用户需要的定制化服务,也是遵循用户的信息获取途径来组织服务的流程。由于知识资源的浩瀚和语义的复杂性,对数值知识元的编辑并非易事。数值知识元自动编辑是从海量科技文献中发现、识别、抽取、过滤、排重、标引知识片段的过程,如图1所示。1 000万篇科技期刊论文,若平均每篇文章200个句子,则自动编辑的对象全集是20亿个句子。数值知识元自动编辑流程就是从浩瀚的句子库中挖掘出符合科技数值知识片段特征的过程。

图1
数值知识元自动编辑过程

2.1 科技概念词典

一个完整意义的科技数值知识元往往是对某个科技主题(如“导弹”“饮水机”等)的数值特性的描述,如果一个句块不包含特定的科技主题,则认为它的知识价值不大,不应作为候选知识元。

科技主题以科技概念的形式出现,要准确、全面地识别和发现科技知识元,必须依托有一定规模覆盖各学科的科技概念词典。笔者以已建成的概念关系词典的科技部分作为基本科技词汇,再从工具书数据库中整理出科技类条目,再收入尚无正式出版的科技学术新概念,用于抽取的科技概念达27万。

基于科技概念词典的数值句块识别与抽取就是从上亿条句块中筛选出含有27万个科技概念的子集。抽取过程采取最大匹配的算法,比如“心脏病”和“啤酒性心脏病”,句中若出现“啤酒性心脏病”,则以“啤酒性心脏病”作为该句块的科技主题。

2.2 数值句块过滤与排重

含有特定科技概念的数值句块作为候选数值知识元,其知识价值有多大一定程度上还要取决于这个句块本身的特征。

判断一个句块是否具有数值价值,除了它必须包含数字之外,还要求它是对科技概念的知识性描述,比如“本次实验用了6个烧杯”虽然包含了数字,但是“6个”在本句块中并不具有知识价值。

经过对大量样本数值句块的分析,本文发现数值的量词具有很强的知识提示功能。因此,针对各学科的特点,基于每个学科的样本数值句块集,在人工监督下由程序自动学习出学科量词表(比如在医学类文献中,经常出现包含“病例有✉✉✉例”等数值句块,此类候选数值知识元仅描述某医院的临床实践,不具有知识价值)。若候选数值句块的数值量词没包含在学科量词表中,则它将被从候选数值知识元中剔除。

此外,科技论文往往对同一科技数值知识反复引用,候选数值知识元中有大量重复知识元(约占5%比例)。为了厘清数值知识引用关系和脉络,要对候选数值知识元进行出现频率计算和排重处理,并以首次出现的数值知识元作为科技知识库的组成单元,以体现出知识的原创性。

2.3 数值知识元的学科属性

为了让读者(用户)在科技技术领域学科体系中准确定位到感兴趣的领域。科技数值知识元库必须为每条数值知识元标引学科属性。

数值知识元学科属性由两方面确定,一是数值知识元所在文献的学科属性,二是数值知识元中的科技主题的学科属性,对于绝大多数情况,两者是一致的。不过由于当代科学技术学科交叉渗透,数值知识元的学科特性并不等同于来源文章和期刊的学科属性,比如在“军事武器装备”类文献中阐述了“能源”领域的数值知识元,该数值知识元应属于能源学科。如果两类学科属性出现差异,为了体现其作为知识单元的特点,我们选择科技主题的学科作为该数值知识元的学科属性。

当然,一个科技主题本来就可能属于多个学科。为了实现对27万个科技概念的学科分类,我们采用统计学习的算法,依据科技概念在学科分布的概率,选择概率最大的1个或者2个学科作为其学科属性;对于各学科概率分布比较均匀科技概念,加入人工编辑判断。

2.4 数值知识元的功能属性

以大规模的数值知识元构建科技数值知识元库,其根本目的在于为科技领域的读者提供答疑解惑的参考知识库。它虽然以数据库的形式出现,但是其本质上等同于传统的工具书(如百科全书、手册、年谱等)。事实上,科技数值知识元库采用人工辅助的自动编辑方法并不能保证每条数值知识元均具有较高的质量,必须在系统功能上考虑尽可能为读者推荐和展现质量更高的知识元。

正如Web搜索引擎无法保证每一条搜索结果均是高质量且符合用户需求的,它采用排序方法把质量最高、相关程度最高的纪录排在前,这就能满足用户的知识获取需求。本文在科技数值知识元库建设过程中,对每条科技数值知识元进行功能性标引,以满足应用系统排序和功能布局的需求。数据库产品一般均具有两种功能,一是导航功能,二是检索功能。数值知识元的学科属性可实现数值知识元的学科导航功能。为了更好地提供面向用户的数值搜索功能,把最重要最相关的搜索结果提供给使用者,就必须对数值知识元进行语言学层次上的分析标引,对每条知识元及其科技概念赋予一定的权重。权重赋值的主要依据有:数值的密度、数值相对于科技主题的重要度等。有了功能性标引,搜索的质量才会进一步提高,比如搜索“冠心病死亡率”,那些准确叙述“冠心病死亡率”的数值知识元就能排在前面。

3 知识元库自动编辑的思考

知识元是知识构建的基元,知识的分解与组合必须有特定的物理结构,技术才能得以实现。构架知识元库是知识构建理论与技术的飞跃。知识元库构建是面向知识构建的,是通过对文献信息资源的知识元素化加工,提取出具有独立性的知识元而构成的数据库。因为知识元的内容比较单一、独立,针对性强,都是对一个最基本知识的完整描述,因而便于知识单元存储和查询。各知识元之间通过知识元链接自动形成知识关联网络。不同的链接方式构成了不同的知识表达,使得知识元库既可用于基础知识学习,又可用来支持本学科和、跨学科的学习与研究,并为知识仓库通过知识元库实现知识服务提供了前提保障。其中,数值型知识元库包括各种数据类知识和科学数据,具有数值分析和知识推理功能。

在传统编辑的出版工作中,编辑、发行等环节是分开的,编辑工作与出版物传播之间的关系是间接的,往往具有一定的周期。随着互联网和数字出版的兴起,编辑和发行工作日益融为一体,在线知识搜索扩大了科技成果的传播渠道。科技知识元库的自动编辑与在线出版缩短了知识出版的周期,提高了知识传播的效率,改变了传统的科技文献(知识)的获取方式。而且,在用于学习和学术研究的权威性工具编撰中,计算机技术完全替代人工是不可能的,计算机擅长的是海量内容的存储、组织、检索、统计等。科技数值知识元库除了提供知识服务以外,还为正规的工具书编撰提供了资料和素材。基于1 000万级别的科技数值知识仓库,为编辑人员的知识筛选、编辑加工科技知识条目提供了素材支持。

在海量文献的自动编辑环境下,一方面技术的突破可以极大提高编辑效率,从而可能使编辑人员陷入技术崇拜;另一方面,编辑人员又是内容的把关者,必须让计算机准确服务于各编辑环节,随时让人工干预编辑流程。自动编辑环境对编辑人员有如下要求:一是熟悉计算机在编辑各环节的作用,掌握基本的中文信息处理知识和技能;二是与技术人员一道设计和优化编辑流程,让人工和计算机各自发挥最大功用;三是更新自己的知识结构,尤其加强各学科领域的基本知识及学科新知识;四是积极完成从内容编辑到产品设计等角色的转变,培养产品意识。

所谓自动编辑,并不是指所有的内容处理环节都可由计算机代替,越智能越具创新的内容编辑环节应当是人工编辑的产物。人机合理分工是自动编辑的关键。目前,在自然语言处理技术中,短语识别、句法分析、指代消解、篇章分析等技术均不够成熟实用,这需要在整个编辑流程设计中计算机和人工合理分工。此外,对于权威性知识库必须要由领域专家参与。比如维基百科全书,它由人工(网友)编辑,使用者众,而且利用其长尾效应,与传统百科全书比具有一定的优势。但是,作为正规的严肃性知识出版物,学科专家的编辑、审校是绝不可缺少的。

在知识服务开展过程中,知识像一条主线,贯穿服务的始末,形成了整个知识服务过程。知识从获取、组织和分布阶段,知识服务主要体现为搜集信息、加工信息和构建知识库。知识是多元化的,既可以是文献资源,也可以是数字资源,既可以有序,也可以杂乱无章。那么搜寻的依据是什么,正是用户的需求。知识库是为能够按用户需求的方式来安排知识的组织结构与管理而构建,其依据也是用户需求。在优化知识服务过程中,中文信息处理技术大有可为,借助深度学习和智能信息处理技术,知识内容的编辑正在迈向新水平。

✉基金项目:“学习需求驱动下的数字出版资源定制投送系统及应用示范”之课题二“读者需求分析与按需出版”(课题编号:2013BAH47F02)。

参考文献

[1] 周荣庭朱文婧.新技术环境下网络编辑工作的新特点[J]. 中国编辑,2007(3):38-40.
[2] 伊人凤. 编辑出版技术创新与社会系统协调发展研究[J]. 辽宁师范大学学报(社会科学版),2006(3):127-128.
[3] 刘成勇. 从“工具书在线”谈商务印书馆数字出版理念与实践[J]. 科技与出版,2006(5):14-1517.
[4] 辰目. 关于新技术和传统出版命运的悖论[J]. 出版发行研究,2005(12):1.
[5] 沈锡宾孙静游苏宁.期刊2.0的设想[J]. 编辑学报,2008(2):151-152.
[6] 高国纬王亚杰李永先. 我国知识元研究综述[J]. 情报科学,2016(2):161-165.
[7] 赵蓉英张心源. 基于知识元抽取的中文智库成果描述规则研究[J]. 图书与情报,2017(1):119-127.
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
知识元
自动编辑
科技期刊
知识挖掘


作者
袁阳
肖洪