科技与出版, 2023, 42(9): 50-55 doi: 10.16510/j.cnki.kjycb.2023.09.011

特别策划

融合出版中的出版信息资源整合路径探索

赵宏源

上海数字世纪网络有限公司,201101,上海

摘要

出版信息资源既包括出版单位的现有资源,也包括社会资源,如自媒体内容资源、新闻资讯等,其有效整合是实现出版融合发展的前提与基础。文章采用案例分析法,以方正智汇知识服务系统在C出版集团的部署与实施过程为例,针对出版单位在资源管理上存在的问题,提出资源整合的对象、规范、流程、组织以及整合之后如何利用等策略,旨在为出版信息资源整合提供基本思路。

关键词: 融合出版 ; 出版资源 ; 资源整合 ; 知识关联 ; 标引规范

PDF (1401KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵宏源. 融合出版中的出版信息资源整合路径探索. 科技与出版[J], 2023, 42(9): 50-55 doi:10.16510/j.cnki.kjycb.2023.09.011

2022年4月,中共中央宣传部印发《关于推动出版深度融合发展的实施意见》提出,要“大力推进出版供给侧结构性改革”,探索通过多种方式,“整合更多优质内容资源”,促进“出版产业链上下游资源整合、出版与其他行业跨界融合”。这些论述凸显了出版信息资源整合在融合出版中的重要性,强调了资源对融合出版发展的基础性作用。

到目前为止,出版信息资源的整合问题,无论在学术界还是产业界,仍未引起足够的重视。在学术界,研究成果较少也较陈旧,用“出版信息资源整合”作为关键词搜索仅有2条结果,即2017年万晓桐《出版行业的数据信息资源优化管理方法研究》,主要从算法角度研究数据信息的优化管理[1];2006年刘玉柱《整合出版信息资源》从政府管理的视角提出了一系列措施。[2]真正从出版单位融合出版发展角度的研究成果,目前尚有欠缺。由于受到观念、成本以及经验等方面的限制,出版信息资源并未引起出版单位的足够重视,主要体现在三个方面:一是对传统读者群过度依赖,未能实现读者资源的整合;二是渠道之间缺乏整体营销策略配合和内容生产的整合;三是出版主体之间沟通不畅,数字化资源利用效率有限。[3]

鉴于此,本文着眼于融合出版的需求,从出版单位的视角分析出版信息资源整合上存在的问题与不足,通过研究C出版集团在方正智汇知识服务系统部署过程中的一系列探索,提出比较完整的包括采集、规范、流程以及组织等方面的长效机制,旨在为国内出版业界提供可操作性的参考思路。

1 出版信息资源整合存在的问题

近十年来,国内融合出版有了较大发展,这种形势倒逼出版单位加强对出版资源的整合力度,以提升资源利用效率,提高选题质量。但是总体上看,国内出版单位的出版资源整合存在的问题仍然较多,主要体现在资源采集不完整、资源标准缺失、操作流程混乱以及资源缺乏组织等方面。

1.1 资源采集不完整,对业务的数据支撑乏力

出版信息资源采集是出版资源整合中最基础的环节,是实现融合出版的内容深度开发、满足用户场景化需求的根本。资源采集工作贯穿出版流程的每一个环节,选题确定的同时即产生出版资源(例如书号);进入销售阶段后,经营数据和网络数据不断产生、更新,出版资源的规模随之扩大。融合出版涵盖多种出版类型[4],必然要求完整的、细致的出版信息资源。

在实践中,资源采集没有统一规定,各个操作部门根据自身需求确定采集何种资源。例如,出版部采集的印张、封面与正文用纸、特殊装帧、开本以及相关费用等数据,发行部采集的客户名称、价格、折扣、销量以及物流等数据,数字出版部从电子书角度采集的PDF文档、EPUB文档以及音频文件等资源。在实际操作中,部门定位的局限,导致采集随意性较强,部分数据缺乏,遗漏较多,汇总之后的资源无法完整反映出版单位的运行现状。

1.2 资源标准的缺失,资源价值无法充分体现

出版信息资源的标准包括数据标准、文档标准以及社会资源标准。数据标准包括元数据、生产经营数据和网络数据等,其中元数据有图书在版编目元数据、都柏林核心元数据与图书ONIX标准等已有标准;生产经营数据和网络数据没有国际或者国家标准,由出版单位根据实际情况自行确定。融合出版的发展趋势在于平台化,随时通过数据分析运营情况,必然要求出版信息资源的高标准化。

在实践中,多数出版单位遵循元数据的相关标准,有效组织数字资源,准确、全面地揭示图书信息。不过也有少数出版单位的元数据存在不规范现象,例如仍然保留了废止多年的种次号(GB/T 5795—2002),不仅操作烦琐,而且无法开发图书校验码的验证功能。生产经营数据和网络数据缺乏标准,数据类型不确定,例如同一类数据有的定义为数值型,有的定义为文本型;字符长度和内容不固定,例如有的数据带计量单位,有的数据只有数字;字段命名不统一,例如中国标准书号,有的叫ISBN号,有的叫书号等。资源标准的缺失不仅无法及时获取经营所需数据,而且差错不易发现,极易产生质量隐患。

1.3 操作流程缺乏规范,资源的安全风险较高

规范的操作流程能够帮助各个部门有效分配任务,减少重复劳动,提高组织效率;能够按照规律和程序运行任务,有效协调跨部门关系;能够灵活安排内部资源,适应外部环境的变化。

目前出版单位的资源管理操作上多数仍然以手工为主。数据的采集由使用部门自行录入,需要其他部门的数据时,再去沟通索取(复制粘贴),没有规范流程,甚至负责人也不固定,出错可能性相当大。文档采用多次备份方式处理,备份多数是采用拷贝至移动硬盘的办法,虽然有一定的安全保障,但是也存在比较大的问题:一是移动硬盘容易损坏,从而导致文档本身的损坏。由于多数图书重印率较低,重印间隔时间较长,备份数量越多,越难发现文档损坏。二是文档质量难以保证。图书进入付印阶段以后,仍有可能修改,对于没有捅行的小改动,编辑为图方便,往往委托印刷厂直接替换修改页面,而保留在出版单位的错误文档却没有同步修改,导致文档管理的混乱。

1.4 资源缺乏有效管理,利用效率较低

出版信息资源的管理主要针对图书内容资源及其与生产、经营、网络等数据的关联关系。图书内容资源包括对资源的描述、统计、检索以及利用等[5],其中资源描述即标引,包括元数据标引与知识标引,元数据标引以文献为对象,揭示文献的主要特征[6];知识标引以知识内容为对象,目的在于知识组织。[7]关联关系反映图书的生产、经营与读者反馈情况。两者共同构成融合出版中个性化推荐的基础。

目前出版单位对出版信息资源中的图书内容资源与数据(生产、经营与网络等)分别管理,两者之间没有建立物理关联(两种物质或现象之间存在必然的联系[8])。图书内容资源即文档管理基本采用档案管理模式,即将文档根据格式、书名、载体编号与存放位置等信息登记造册,需要时根据登记信息查找,然后登记取用日期、拟归还日期以及取用人信息等。数据资源又分为两种管理办法:一种是出版单位已经部署了ERP,能够把生产与经营数据整合在一起,方便及时了解经营情况。部分出版单位没有部署ERP,经营数据和生产数据分别采用不同的系统,部门之间的数据无法共享,形成数据孤岛(主要指物理性数据孤岛,即数据在不同部门相互独立存储,独立维护,彼此孤立[9]),形成部门之间数据“各自为政”的现象。

2 出版信息资源整合方案的实施

鉴于当前出版资源整合中存在的诸多问题,C出版集团的出版信息资源整合以“一次采集、多种生成、多次利用”为原则,集团统一协调,所属出版单位和数字网络公司分工合作。它以融合出版的平台化发展趋势为导向,通过在采集、规范、流程、组织与利用等环节的探索,尝试建立出版信息资源整合长效机制。

2.1 扩大资源采集范围,兼顾市场经营和选题分析的数据需求

市场经营着重于已有数据的采集,以生产经营数据最为典型,包括生产过程中的各项成本(例如印制、纸张以及装订等)和市场营销过程中的成本和收入等。通过这些数据,出版单位可以及时了解产品的生产经营状况,为选题策划提供决策参考。选题分析着重于非结构化数据的分析,例如新闻资讯、自媒体内容以及图书文档等,通过发现国际国内形势的新变化、经济社会的新动向以及人们阅读生活的需求[10],来发掘新的选题。

出版信息资源按照结构化程度可以分为数据和文档。数据主要指结构化资源,包括元数据、生产数据和经营数据,元数据如书名、定价、ISBN、作者等;生产数据发生在印制领域,例如封面和正文用纸、装帧、排版等;经营数据发生在销售领域,例如定价、折扣、客户等。文档主要指各种非结构化数据,包括用于印刷的排版文档和高精度PDF文档、用于电子书的低精度PDF文档和EPUB文档等,此外还包括各种社会资源,例如新闻资讯、自媒体内容和读者评论等。

根据出版信息资源产生和流转阶段的差异,采集应通过两种方式操作,即手工采集和API数据接口同步。手工采集主要针对初始数据(例如图书元数据),数据接口同步针对其他平台或者系统的数据。前者由初始数据的产生部门直接在智汇系统随时操作或者更新,后者则需要开发多个API数据接口。由于当前多数出版单位已经部署方正云舒书报刊制作云平台(以下简称云舒平台)和ERP系统,因此API数据接口主要针对他们与智汇系统的数据传输,前者传输文档、生产数据和部分元数据,后者旨在同步元数据和经营数据。

2.2 建立文档与数据规范,确保出版信息资源质量

文档与数据规范的目的在于提高出版信息资源的质量、确保数据的一致性、提升出版信息资源的使用效率。根据出版信息资源的流转过程,规范可以分为采集、存储和利用等三个环节,其中采集环节旨在确保资源的准确采集和录入;存储环节着眼于资源的安全存储和快速检索[11];利用环节规范资源的取用过程,保证资源的安全性。根据资源的类型,规范又可以分为元数据、图书辅文、文档以及标引等。

元数据指对信息资源进行描述、解释或使信息资源更易于被检索、利用及管理的结构化信息,通过它可以准确唯一地指向元数据所描述的作品或者对象。[12]在采集环节,应该增加汉语词表主题词、普通关键词、学科关键词等字段,以从更多维度反映图书特征,便于检索。在存储环节,单独将其作为基本元数据信息保存。在利用环节,规定各出版单位及其所属部门使用权限,确保数据的隐私性;根据不同需求设计相应的模板,使用部门通过模板即可获得所需的数据,减少工作量。

图书辅文指图书正文的辅助文字,包括目录、序跋、凡例、注释、附录、作者介绍、内容简介、参考文献、后记、索引以及编辑推荐语等。在采集环节,应建立辅文的录入与排版规范,能采尽采,避免遗漏。在存储环节,应考虑到以后更多的应用场景,例如文献关联、知识体系的建立与完善等,将与正文相对独立的辅文信息(例如目录、内容简介等)单独作为辅文信息保存,与正文排版在一起的辅文信息(例如注释)作为正文处理。

文档主要有PDF、EPUB和XML等格式。在采集环节,应将PDF格式文档分为高精度和低精度两种,前者主要用于印刷,后者主要用于电子书加工和试读样张。文档规范根据格式和使用场景制定,例如PDF文档的检索、复制与书签等功能,EPUB文档的目录与注释跳转功能等。理论上,还应该包括文档结构化(揭示和描述内容资源的体例结构和属性的处理过程[15])的规范,明确对内容正确性、结构的完备性和易用性以及语义的准确性。在存储环节,宜根据文档用途分类存储,例如印刷、电子书、试读样张或者再生产等。在利用环节,应通过模板将元数据、图书辅文和文档关联,以便一次性完成所需全部资源的取用工作。

标引规范包括元数据标引、知识标引和版权信息标引三个部分。在采集环节,可以将知识标引分为关键词标引、主题词标引和知识元标引三类,关键词重在表达文献主题,准确充分揭示主题内容;主题词着眼于检索,准确表达概念含义;知识元标引管理主题词,能够准确对主题词分类,反应其特征和属性。版权信息标引要求能够反映作品版权信息,包括权利人、许可方式、权利项、授权地区以及语种等,服从于融合出版需求,以便作品的多元化利用。在存储环节,知识标引中的主题词表和关键词表本质上属于受控标引(使用受控语言的文献标引),应该脱离图书资源单独存储,需要使用时调用;元数据标引和版权信息标引依附于图书,在浏览图书信息的时候同步读取。在利用环节,通过标引将各种内容资源关联,进行关联强度的测度,构建知识体系。

2.3 优化出版信息资源整合流程,提高资源安全性与管理科学性

流程优化指在特定条件下,利用特定方法,对特定流程进行优化,以实现性能指标最优的过程。[14]优化途径主要有改造和重新设计两方面。改造包括部分工作环节取消、合并、重新排序与简化等;重新设计需要在充分理解现有流程的基础上,提出新思路,经过反复迭代与多次检讨后,设计新的流程,通过模拟运行检验后,最终确定。在整合过程中,C出版集团遵循方便管理、操作简单、数据完整的原则,结合下属出版单位的实际情况,建立并完善数据采集流程、文档采集流程以及资源管理流程等,确保出版信息资源整合的科学、高效、合理。

数据采集流程涵盖图书信息从产生到最终完成的每一个环节,多数出版单位面临的问题是效率的提升,而不是数据本身的缺乏,因此宜在集团或者所属出版单位现有流程的基础上优化与整合。采集流程目前由数字网络公司(出版单位汇总)统一录入。随着电商平台竞争的发展,图书数据提供先于实物入库已经成为基本要求,为此必须改造数据采集流程,将其前置至出版单位的编辑部门,即责编在图书付印后,直接在智汇系统录入图书详细数据。然后通过智汇系统与电商平台的API数据接口实现数据同步。为了保证跨平台或者跨系统数据同步的准确,必须采用唯一值的字段作为传输字段,目前看来宜ISBN+印次两个字段的组合最为合适。

文档采集流程从付印清样完成后开始。C出版集团所属出版单位以往采用手工操作,完全无法适应系统采集的需求,因此有必要重新设计。根据集团目前已经部署云舒平台和智汇系统的现状,采集流程应该分为两个环节:第一个环节为同步前流程,第二个环节为同步后流程。同步前将云舒平台作为临时采集工具,排版公司完成高精度PDF文档(添加书签)的同时,自动生成低精度PDF文档。两种文档加工完成后,同步至智汇系统。数字网络公司检查文档正确性之后,完成适应不同场景的文档加工,例如版本图书馆、试读样张、电子书、EPUB格式文档等。

资源管理流程包括权限管理和使用审核。此流程必须在考虑所属出版单位操作难度的基础上,围绕智汇系统的运行建立。权限管理围绕角色(指完成一项任务必须访问的资源及相应操作权限的集合)展开,可分为平台级权限和应用级权限,前者配置角色权限,由集团指定的超级管理员分配;后者配置具体操作的权限,包括栏目权限、操作权限、资源浏览权限、贡献权限、文件权限、任务权限、阅读权限与提醒权限等,由所属出版单位指定的管理员分配。使用审核根据资源流向设置,可以分为采集与获取两个阶段,前者例如主题词的增删、资源的提交与发布;后者如资源导出。通过多层级的审核流程,确保资源的安全。

2.4 强化出版信息资源组织,提高资源利用效率

出版信息资源组织的用途有两个:一是满足不同业务场景的资源需求,例如市场人员所需的包含封面、元数据与图书辅文在内的数据包;二是建立知识关联,不同图书形态(例如纸质图书、音频以及视频等)、周边内容(新闻、评论、自媒体内容、考试资源等)以及有知识关联关系的图书按照一定规则组织,形成比较完整的知识体系,既便于资源查找(一本书可以找到所有和图书相关的资源),又便于融合出版中的个性化推荐。因此在整合过程中,应该根据这两个用途,对出版信息资源进行合理组织,提高利用效率。

出版的业务场景主要有选题调研、数据分发、营销推广、电子书销售以及图书再版再印等,不同场景所需出版信息资源组织也有区别。选题调研和图书再版再印以经营数据和网络数据的需求居多;数据分发主要是元数据、图书辅文和试读样张;营销推广还需要相当的周边内容;电子书销售则是元数据和低精度PDF文档。为此,可以考虑开发模板功能,以类似打包的方式实现资源的组织。具体操作为使用部门通过属性信息(字段)、辅文信息和文件类型选择的方式建立定制化模板,确定所需具体资源,例如书号(属性信息)+目录(辅文信息)+正文高精度PDF文档(文件类型),需要时,选择设置好的模板即可实现资源的自动组织。此外,为了方便第三方平台(例如京东、当当等)的数据交换,还可以开发相应的数据接口,根据合作伙伴的个性需求组织资源并同步更新。

知识关联指大量的知识单元之间存在的知识序化的联系,以及所隐藏的、可理解的、最终可用的联系。[15]参考深蓝海域的方案,应该从类别、关键词、聚类与属性等四个方向推动知识关联的建立。类别上采用中图法分类、论著分类、知识点分类等,呈现其他的同类图书或者知识;通过关键词,展现作品之间存在的耦合、共引、共词以及共现关系,构建知识关联;聚类上通过主题词,呈现该主题词相关性较强的知识;通过图书之间的同一属性,例如作者、出版社等,呈现资源的多维度属性。

3 结语

融合出版的创作以内容的基本表达为起点,通过内容在不同场景的迁移,根据应用场景不断变化表达方式,提高内容交付效果。内容表达的变化方式包括演绎、解读和衍生创作(利用原作部分元素的再次创作)等。[16]实现内容表达方式变化的基础就在于出版信息资源的整合,从选题、创作和生产等方面提供决策依据。但是由于传统出版原有体制性的弊端和技术力量的不足,出版信息资源的整合难度相当大。在这个过程中,既要对现有体制做出一定妥协,又要借助外部技术力量扩大采集范围、建立完善有关规范、优化工作流程并强化资源本身的组织。

参考文献

万晓桐.

出版行业的数据信息资源优化管理方法研究

[J]. 计算机仿真,20174):323-326.

[本文引用: 1]

刘玉柱.

整合出版信息资源

[J]. 出版参考,200636):1.

[本文引用: 1]

向芝谊.

融媒体时代主题出版数字化的资源整合

[J]. 出版广角,20207):36-38.

[本文引用: 1]

黄荣华赵宏源.

出版融合的平台化路径

[J]. 出版与阅读,20233):18-22.

[本文引用: 1]

全红.

基于数字图书馆网络信息资源建设研究

[J]. 数字技术与应用,20138):44-45.

[本文引用: 1]

韩松涛.

知识标引新论.浙江高校图书情报工作

[J]. 20095):38-41.

[本文引用: 1]

原小玲.

基于知识元的知识标引

[J]. 图书馆学研究,20076):45-47.

[本文引用: 1]

金飞谢勰郑亮.

基于物理关联的学术期刊引用网络影响力分析

[J]. 西安邮电大学学报,20145):112-115.

[本文引用: 1]

朱嘉文顾小清.

打通“数据孤岛”实现数据互联互通

[J]. 教育传播与技术,20224):3-8.

[本文引用: 1]

国家新闻出版署出版专业资格考试办公室. 出版专业实务[M]. 北京商务印书馆20204-5.

[本文引用: 1]

蒋甜许哲平陈学娟.

科学数据服务标准化与规范化研究

[J]. 中国科技资源导刊,20233):1-8,93.

[本文引用: 1]

国家新闻出版广电总局出版专业资格考试办公室. 数字出版基础[M]. 北京电子工业出版社2020121.

[本文引用: 1]

阎卫吴霞暖.

内容资源数据加工术语辨析

[J]. 科技传播,202020):130-132.

王宁.

A检测公司信息化管理流程优化研究

[D]. 昆明云南财经大学商学院20221-75.

[本文引用: 1]

刘晓英.

知识关联及其应用研究

[D]. 湘潭湘潭大学公共管理学院20101-56.

[本文引用: 2]

赵宏源.

浅谈图书内容交付中的场景化表达

[J]. 出版与印刷,20201):47-54.

[本文引用: 1]

/