科技与出版, 2019, 38(01): 59-63 doi: 10.16510/j.cnki.kjycb.2019.01.012

融媒之光

专业出版大数据建设路径分析

唐京春1), 张新新2)

1)地质出版社,100083,北京

2)中国大地出版社,100083,北京

编委: 苏磊

摘要

专业出版机构开展大数据建设有着较好的数据规模、数据质量、数据类型等前提和基础;同时,也是数字出版由数字化、碎片化发展阶段步入数据化、智能化发展阶段的必经之路,对内有助于辅助选题策划,提升出版社的经营管理水平,对外有助于辅助精准营销,提高社会效益和经济效益。专业出版大数据建设可以遵循数据采集、数据加工、数据标引、数据计算、数据建模、二次数据形成数据服务的“七步法”路径。

关键词: 专业出版 ; 大数据 ; 知识服务 ; 知识标引 ; 知识计算

PDF (2003KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

唐京春, 张新新. 专业出版大数据建设路径分析. 科技与出版[J], 2019, 38(01): 59-63 doi:10.16510/j.cnki.kjycb.2019.01.012

随着大数据携手机器学习所推动的第三次AI浪潮的到来,大数据成为第三次人工智能高潮的重要基石;而新闻出版业的深度转型,必然伴随着由数字化、碎片化向数据化、智能化方向的升级和演进。作为新闻出版大数据建设的重要组成部分——专业出版大数据的构建在国内已经初现成效:审计、公安、法律、地质、海关等领域的大数据平台已在建或建成;2018年的中国国际大数据产业博览会期间,首届(2018)中国新闻出版大数据高峰论坛顺利召开,主办方为融智库“大数据分库”的首批专家进行了授牌,并为人民法院出版社、中地数媒(北京)科技文化有限责任公司、中国海关出版社等5家单位颁发了“中国新闻出版业大数据平台创新成果奖”。

1 专业出版大数据建设的必要性

我国独特的出版体制注定了专业出版社在出版方阵中占有重要地位,在已经来临的人工智能时代中,细分领域、特定行业的专业出版大数据建设具有天然的优势和较大的可能。专业出版大数据的构建具有以下几个方面的必要性。

其一,就出版企业自身而言,专业出版大数据的建设,有助于辅助选题策划、辅助精准营销,有助于推进出版社自身业务的优化和完善。长期以来,传统出版企业的经营一直处于粗放式经营阶段,单体出版社自身究竟有多少作者、有多少销售客户、建社以来共计出版了多少图书?这些问题,很少有出版社可以回答,也就是说,对用户数据、内容数据的建设没有引起足够的关注和重视。相反,如果出版企业对于上游的作者数据、下游的销售客户数据、内容资产数据、交互数据等建立起了相对完善的数据中心或者数据资源池,这些问题的回答将会易如反掌;同时,调取用户数据系统的数据来指导选择更加优质的作者、了解同类型选题的销售规律,调取内容数据系统的数据分析热门选题的周期规律、预判同质/差异化选题的销售趋势,将会极大地改进选题策划和市场营销工作。

其二,就出版行业趋势而言,专业出版大数据的建设,是数据化出版的必然要求,是深入推进新闻出版业数字化转型升级的时代呼唤。自2008年原国家新闻出版广电总局成立科技与数字出版司以来,随着十年转型升级的深入推进,我国出版业经历了以数字图书、数字期刊、数字报纸为代表的数字化发展阶段;经历了以数据库产品、网络原创文学为代表的碎片化阶段;[1]正在经历以知识体系为逻辑内核、以知识标引为技术基础、以知识计算为技术关键和以大数据知识服务为外在表现形态的数据化发展阶段,数据化发展有可能催生出数据出版这一新的出版业态。

其三,就未来时代发展而言,人工智能以大数据为基础,专业出版大数据的建设是新闻出版业步入智能化发展阶段的题中之意。智能出版对内的表现是出版流程的智能再造,形成从智能策划、智能审校、智能印刷、智能发行到智能决策等全流程的智能化解决方案;对外表现是形成AR智能出版、智能阅读机器人等系列智能产品与服务。无论是对内的智能流程再造,还是对外的智能产品与服务,都离不开大数据的建设与应用,大数据是智能出版的基础和前提。

2 专业出版大数据建设的可行性

专业出版机构建设大数据,具备较多的现实可能性。

2.1 数据类型完整

就数据类型而言,专业出版机构是条数据的主要拥有者,所产生和保存的数据,涵盖了较为完整的数据类型——用户数据、内容数据、交互数据,从用户数据的角度来看,专业出版机构拥有着上游的作者数据,中游的编校、设计、印刷机构(个人)数据,下游的营销、发行机构(个人)数据,还包括数字化技术服务提供商的数据;从内容数据的角度来看,专业出版社汇聚了特定行业、特定专业、特定领域的知识资源,时间跨度可以持续60~70年,整体专业出版机构几乎囊括了国民经济各行业的最主要知识资源;从交互数据的角度分析,专业出版社的数据规模相对而言较为薄弱,但是仍然有重点图书、重点产品的交互数据,随着数字出版的开展,通过各种专业知识库、数字图书馆对个人用户评论、点赞等交互数据的采集和分析,专业出版社的交互数据建设会得到进一步强化。

中国大地出版社、地质出版社已经建设完成“自然资源知识服务大数据平台”,其中用户数据系统,包括个人用户和机构用户两类数据,涵盖了地质、国土、林业、海洋等自然资源领域的各种类型从业者和大众用户。用户数据的构成,则包括通讯方式、通讯地址、年龄结构、阅读偏好、消费能力、工作性质、消费能力、趋势分析8个维度,不同维度的数据信息均服务于大数据平台的运营推广。

2.2 数据规模较大

专业出版机构的数据规模较大,往往是两三家、甚至是一家出版社就几乎聚集了全行业的知识资源。宏观角度分析,专业出版社可以构建出特定行业的全数据资源池,形成数据闭环,例如政法类出版社可以将立法、执法、司法、守法等各环节的数据进行采集、加工、标引、计算和应用;微观角度来看,专业出版社能够做到全方位的数据建设,仍以政法类出版社为例,法信大数据平台所拥有的数据包含了法律(基本法和非基本法)、法规(行政法规和地方性法规)、规章(部委规章和地方性规章)以及非规范性法律文件,同时拥有庞大的判决书、案例、合同、课程、音视频等数据类型。

2.3 数据价值较高

专业出版机构的数据质量较高、真实性较强、应用价值较大。从数据、信息和知识的层级关系分析,数据是指经实验、调查而来但未经组织或处理的事实,是能进行计算域分析的静态资料;信息来自对数据的萃取、过滤或格式化后而赋予数据一定的意义,并根据特定主题而收集的事实及数据;知识则是经过学习或实践而得到的对于资讯、事实、想法、原则的理解或认知,是经过特殊处理、验证或强化过的信息。[2]专业出版机构所拥有的数据主要集中于以图书形态存在的专业知识的层面,同时,越来越多的专业出版社开始构建所在行业的资讯、政策、论文、期刊等类型的数据库,试图形成该行业的数据、信息和知识的集聚中心、加工中心和应用中心。

3 专业出版大数据建设的路径分析——大数据建设“七步法”

专业出版大数据的建设,可以表述为“七步法”:数据采集、数据加工、数据标引、数据计算、数据建模、二次数据形成以及数据服务。

3.1 数据采集

大数据技术要求我们把所有的文字、图片、视听资料、游戏动漫,甚至是单本图书,都当作数据来对待,把数据作为生产要素来对待。这一点,国外的出版集团一直在关注和布局,亚马逊集团的董事会主席杰夫·贝索斯认为,(亚马逊)真正的价值并不在于存货,而在于数据;亚马逊真正的本质是积累书评和顾客的购买记录。他花了将近20年的时间史无前例地积累了大量关于个人和集体购买习惯的统计数据,其中包括两亿活跃买家的详细个人信息。[3]

大数据技术应用的资源起点在于数据采集,数据采集的类型,包括用户数据、交互数据和内容数据,其中内容数据是重中之重。数据采集的路径大致有两种:存量数据的获取,主要采取纸质产品形态转化的手段,对出版社既存的知识资源进行数字化、碎片化,进而获得所需的各种类型的知识资源;增量数据的采集,是指在出版社主营业务之外,通过日常生产经营、资源置换、资源购置、网络抓取等方式和手段,获得所需的数据资源。

专业出版机构应越来越重视数据采集工作,一方面注重纵向数据收集,对所属部委所发布的政策文件、行业资讯进行实时采集;另一方面,开始加强横向数据交换,对相同或者相近领域的出版数据、知识资源进行资源置换或者交易。

数据采集的结果,是形成数量庞大、甚至是海量级的数据资源池,这是专业出版社建设大数据平台的首要前提。在已经建成的大数据平台中,法信平台所收录的判决书达到了2 000多万篇,知识体系层级包含了核心部门法的14个层级;自然资源知识服务大数据平台则收集了140多万张图片、近500万条条目数据,构建了知识关联关系3 000多万种。

3.2 数据加工

完成数据采集后,步入数据加工环节。尽管专业出版社拥有的数据规模较为庞大,但是大多数据的质量不高,并不符合大数据建设的要求。对出版业而言,数据加工主要包括纸质图书的加工和电子文件的加工。2014年启动的中央文化企业“特色资源库”建设项目,主要就是解决专业出版社资源数字化、碎片化加工事宜。数据加工的成果是产生可拆分、可组装、可标引、可计算的高质量达标数据,为数据标引做好准备,为数据出版提供可能。

3.3 数据标引

经过加工后的数据,要进行数据标引,给条目、图片、3D模型、音视频等数据要素进行知识化的标引。数据标引是整个大数据应用的基础,也是大数据发挥预测、预警价值,实现知识发现和数据创新的关键所在。具体而言,专业出版的数据标引,是指对海量的知识资源数据进行属性、特征等方面的标签化加工,这种标签化加工或曰标引的依据就是知识体系,包括学科知识体系和行业应用知识体系。

数据标引的前提是专业出版社已经成功研发出知识元,建立起了专业、完整的知识体系。知识体系承接着大数据与知识服务,是知识标引的依据,是知识库建立的主线,是知识计算的前提和基础,是知识服务大数据应用的核心和关键之一。目前,在整个专业出版领域,建筑、海关、农业、法律、地质、卫生等出版领域均已建立起了相对权威和专业的知识体系;其中,地质专业知识体系已经建成涵盖23个学科、4~7层、知识元数量达到38 042个的规模。如图1所示。

自然资源大数据知识体系

3.4 数据计算

在完成数据标引之后,便可以进行数据计算。就新闻出版业大数据构建而言,就需要用到数据计算,更准确地说是用到知识计算。计算机研究领域的知识计算包括属性计算、关系计算和实例计算[4],显性知识通过知识计算可以得出许多隐性知识。

知识计算是专业出版大数据构建的重中之重,是最关键的一步,关乎二次数据能否产生,关乎知识图谱能否生成,关乎预测、预警的目标能否顺利达成。专业出版大数据的知识计算,则是指在对知识资源进行多重标引的基础上,通过相同或者相似维度的统计分析,进而能够获得新的知识的一种方式。也就是说,知识计算是知识发现的一种重要途径。

以大数据的视角来看,只有通过知识计算的途径,才能够发现、获取新的知识数据,新产生的数据即为“大数据”。所以,知识元、知识体系、知识计算是构建专业出版大数据所绕不过去的一座大山。由此看来,新闻出版大数据无论是政府层面的大数据,还是行业级大数据、企业级大数据,都还有很漫长的道路要走,需要做好充分的理论准备、数据准备和实践准备。

在2017年7月国务院发布的《新一代人工智能发展规划》中,提到知识服务和知识计算:“知识计算引擎与知识服务技术。重点突破知识加工、深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱。”[5]

3.5 数据建模

大数据思维的最重要体现的是如何构建大数据模型,这对任何行业的大数据建设而言,都是头等重要的大事。专业出版的数据建模要遵循建模的通用流程:模型研发、模型训练、模型评估、模型应用和模型的再优化。

专业出版基本涵盖国民经济的各个行业,是国民经济行业的文化体现和担当。因此,大数据建模将会呈现出各种各样的差异性和特殊性,其复杂程度也将有所不同。但是,无论差异再大,大数据建模的两个方向将是恒定的——学科体系建模和行业应用建模。学科体系建模有着相对成熟的理论基础和知识体系,其可操作性更强一些;而行业应用建模,则需要深入到国民经济的各行各业,深入把握各个行业和职业的工作环节、业务流程的特点规律,在此基础上,熟悉用户需求,围绕用户需求建构相应的大数据模型。

举例来讲,法信大数据平台所主推的“同案智推”功能,就是一种基于三段论的建模方法。法律学科“大前提、小前提、结论”的基本逻辑模型为法信大数据建模提供了逻辑遵循。而自然资源知识服务大数据平台则分别针对古生物学、区域地质、矿物与岩石三个学科,分别按照年代、地区、要素等维度,研发和生成了知识图谱,同样实现了用户所需要的二次数据——大数据的精华所在。

3.6 二次数据形成

专业出版大数据建设的最关键一步,便是形成二次数据。二次数据的产生方式包括数据的再利用、数据的重组、数据的扩展、数据的折旧、数据的开放等。这种二次数据可能以知识图谱的形式出现,可能是一个全新的结论,可能是石破天惊的数据真相,但是一定是在经过严格的数据采集、加工、标引、计算和建模应用之后才会出现的数据,也就是数据背后的数据。

3.7 数据服务

专业出版机构进行大数据建设的最终目标是提供数据服务,一方面服务于出版社内部的生产管理,有效降低成本,提升生产经营效益;另一方面,服务出版社外部,提供个性化、多样性、高品质的数据服务。数据服务的类型,包括提供数据复制粘贴、数据共享、数据下载、个性化数据定制、数据交换、数据购置和数据交易等。

从对内的角度而言,专业出版大数据可以为策划编辑启发策划灵感、改进选题策划提供数据支撑,为编辑、校对、印制人员控制生产成本、提高生产效率提供数据辅助,为营销人员进行精准营销、定点推送提供数据参考。对外而言,专业出版社可以为用户的个性化、定制化的知识问题提供权威而精准的知识解决方案,为满足一般读者的知识需要提供海量、精准、足够丰富的数据服务。

4 结语

综上,专业出版社进行大数据建设,是转型升级步入数据化、智能化发展阶段的必然要求,同时,其人才储备、技术应用、数据规模、质量优势,又为构建专业出版大数据提供了理论可能和现实可能。专业出版社建设大数据的主要路径包括:首先要立足于自身的专业内容资源优势,按照内容数据、用户数据、交互数据的框架体系规划建设思路,从存量资源转化、增量资源引进两个维度采集数据,以结构化和非结构化两条途径加工数据,在研发知识元和知识体系的基础上进行知识标引和知识计算,结合本专业特点和行业状况对数据建模,最后形成预期的二次数据,挖掘数据背后的价值,为目标用户提供高品质、个性化、定制化的数据服务,为人工智能时代的出版转型储备实力。

以前的观点是存量数据、在制数据和增量数据采集,经过专家讨论,认为在制数据也属于增量数据建设的组成部分,此次进行了修正,更改为存量数据采集和增量数据采集。

参考文献

廖文峰张新新.

数字出版发展三阶段论

[J]. 科技与出版,2015(7):87-90.

[本文引用: 1]

董金祥. 基于语义面向服务的知识管理与处理[M]. 杭州浙江大学出版社200911-12.

[本文引用: 1]

杰瑞·卡普兰. 人工智能时代[M]. 李盼. 杭州浙江人民出版社201693-95.

[本文引用: 1]

王元卓贾岩涛赵泽亚.

OpenKN:网络大数据时代的知识计算引擎

[J]. 中国计算机学会通讯,2014(10).

[本文引用: 1]

国务院.

新一代人工智能发展规划

[EB/OL].(2017-07-20)[2018-08-20]. .

URL     [本文引用: 1]

/