数据仓库、数据安全、数据分析等大数据模式催生着新的商业价值和利润焦点。在图书出版领域,数据的分析为出版社提供更准确、更科学的参考和依据。[1]可以说,谁能从海量数据中获取并挖掘有价值的数据,谁就能够占领出版市场,出版数据作为最重要的出版资源和工具促进着出版流程的高效化和精准化。出版数据如何获取、如何从海量的出版数据信息中准确挖掘有价值的信息并加以利用,这是本文研究的重点。
出版元数据是出版业的一个核心要素,狭义上来讲,出版元数据是描述出版物内部或外部特征并对该出版物进行定位管理且有助于它的发现和获取的数据。包括出版物名称、作者及编者、封面设计、内容摘要、出版日期、图书说明、书号ISBN、图书定价、印张、字数等图书基本信息元数据。广义上,出版元数据除了以上描述图书本身的数据,还包括有关出版物的复杂信息,例如出版合同条款、印制发行、营销推广、书评和销售数据等信息集合。一般元数据在图书申报的阶段会存入出版社的信息库中,图书后续如有更改和重印,这些元数据信息也会由出版社管理部门进行监督而变更入库,帮助出版社了解图书详细信息。
这些元数据信息以数字化形式存贮于出版企业的图书数据库中,一方面用于图书的组织、描述、定位、检索、管理图书信息和知识资源,另一方面消费者可以通过搜索出版物元数据准确快速地找到自己需要的图书,和淘宝等电商的价格排序、销量排序筛选机制类似,因此出版元数据的建立和规范对图书出版和销售十分重要。尤其是当今大数据时代的到来,促进了出版领域的数字化,使出版物从内容形式、编辑模式到生产流程、管理模式等流程都有了创新。但是随着我国传统出版向数字出版的迈进,目前我国出版元数据还存在结构不规范、术语标准不统一、形式不确定等问题。
出版市场数据包括与图书的出版发行数据和读者用户行为数据。前者包括图书单品的销售数据、物流数据、库存数据、首印及重印数据等单品图书市场数据,以及不同图书品种的市场数据,例如教辅类图书、少儿类图书等品种在不同时段、不同地域、不同经销商和实体书店的市场销售状况数据,出版社可以根据图书市场份额排名以及细分市场份额变化分析其图书出版情况,实时掌握图书市场走向和趋势。
用户行为数据则是以读者为中心的数据,庞大的用户数据是出版企业进行选题策划和实施营销的前提。伴随着Web2.0的兴起,用户生成内容(UGC)构成了出版市场的重要用户数据资源。根据用户阅读行为的不同,UGC数据可分为读者的基本信息、阅读需求数据、消费行为数据以及阅读习惯数据,例如读者的个人背景和注册信息构成读者基本信息,基于此数据出版社可以对其受众进行细分;用户的阅读偏好、阅读类型、原创内容和转发内容数据构成读者阅读需求数据,出版社据此可以把握分析用户感兴趣的内容信息进行策划图书选题,打造精品内容;消费行为数据则是指用户的价格接受区间、优先选择因素,基于此出版社可以定制适当的价格和类型的图书进行推送;阅读习惯数据则是用户的阅读时间、阅读场所、阅读终端的选择等数据,根据此数据出版商可以选择合适的渠道进行图书营销和推送。
出版宏观数据指当前数字时代背景下有关出版的宏观环境、法律法规以及相关政策规定。这些宏观数据为出版产业指出大方向,帮助出版社掌握出版业的发展趋势,具有很强的指导意义,是出版企业洞悉行业竞争格局、规避风险、制定战略决策的重要依据。
就出版宏观环境而言,包括出版行业环境、政治经济环境、技术手段、社会文化环境等方面。在行业环境方面,目前我国出版行业的开发程度越来越高,企业之间的竞争也相对激烈,全国有五百多家出版业总体规模在逐步扩大,图书品种的增加往往超过了社会的实际需要,读者有了越来越大的选择余地,导致了单品种的需求下降,部分图书生命周期的缩短和固定成本的提高导致生产成本的提高,这时,出版社之间如何避免恶性竞争、优势互补、企业竞合就显得十分重要。
在出版的政策规定方面,近几年来,“大数据”一词广泛见于网络、报纸以及电视等媒体,大数据的概念正在持续升温,而2014年“大数据”首次被写入我国《政府工作报告》,2015年9月,国务院印发《关于促进大数据发展的行动纲要》,全面系统地部署了大数据未来的发展工作。2016年相继出台了《网络出版服务管理规定》《出版物市场管理规定》《“十三五”国家重点图书、音像、电子出版物出版规划》等条文,这一系列政策措施,为出版业发展进一步指明了方向,为行业转型升级提供了技术支撑,同时也进一步严格规范了出版市场。出版社管理者应该将这些出版宏观大方向与出版社的未来发展相结合,扩大经营范畴,谋求更加长远的发展。
具体来说,图书出版数据的获取渠道主要有3种来源方式。
出版企业内部管理部门和发行部门在多年图书出版中积累的关于图书信息和读者市场信息的数据是出版数据获取的第一大渠道。这些数据主要有以下几大部分。一是图书选题数据,该数据反映了市场对信息的需求,也是图书编辑在选题策划中必须掌握的第一手资料。例如,市场需求何种图书?需求量是多少?需求的档次、规格、价格如何?这些信息帮助出版社正确分析市场走向,减少选题重复的现象发生,同时优化选题结构,提升发行品质。二是图书印制数据,一本图书的印制及印张数量能够为之后相近图书的印制提供参考,合理预计印制成本和图书印数。三是新书发行数据,基于图书发行数量可以确定出版社的畅销书、常销书、动销书、滞销书等图书品种。四是图书重印数据,该数据对图书的库存和印数管理有很大的指导意义和参考价值。五是物流库存数据,掌握各品种图书的物流数据和库存数据,可以了解市场动向,合理控制库存成本,减少不必要的物流开支,最大程度的减小成本。
通过对出版企业自身的数据挖掘,出版社可打造由内部出版数据驱动的出版社特色选题,形成自身的出版特色和品牌。目前,很多出版社都受利益驱动,追求“做大做强”,数量规模被高度强调,而图书质量却被忽略。基于出版企业内部数据挖掘,出版社要根据自身的特点,明确自身业务定位,调整图书结构,压缩图书品种,走精品图书出版的道路,努力打造图书品牌和出版社品牌,在品牌的推动下提升发行品质。
从外部第三方平台获取有关图书的专业数据是获取出版数据的第二大渠道。出版社内部数据的获取是容易的,然而现有的出版内部数据同时也具有一定的局限性,比如出版数据的透明度、专业性、独立性、数据挖掘效率等方面存在诸多不足[2],这时第三方图书数据服务公司为出版社全面获取图书专业数据提供了可能,有良好公信力的第三方图书数据服务公司对出版社图书产品的策划和图书市场的了解至关重要。现在有很多出版社以从第三方购买数据报告的形式采集出版市场数据,与出版社内部数据不同的是,第三方可帮助出版社追踪全国专业图书的市场动态,反映图书市场成长性及细分市场的构成,了解读者总体的兴趣和需求,分析当下我国图书零售市场的整体走势和特点,专业性和可信度更强。
现在国内从事书业信息服务的公司有北京开卷信息技术有限公司和东方交易中心。以北京开卷公司为例,开卷公司通过汇集、整理和分析行业信息,为出版发行单位提供解决问题、控制品种和优化结构等方面的信息服务。开卷从1998年成立至今建立了两套监控体系,第一套是实体书店的监控体系,截至2016年1月,开卷全国图书零售市场观测系统覆盖全国2 531家实体书店;第二套是网店方面的监控体系,是由20余家独立网店及京东图书、天猫书城组成;此外,开卷还包括了10多家图书馆供货商,建立了图书零售、图书馆配、图书上架三大子系统,以此为基础定期发布图书排行榜,为出版单位提供详细的定制化服务。
数据挖掘是通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间隐藏的关系、模式和趋势,为决策者提供新的知识。运用到出版领域,所谓“数据挖掘”,也就是出版数据经过过滤和分析加以利用。在出版实践中,单单获取数据是不行的,海量的数据并不能产生效益,更为重要的是使用哪些数据、如何挖掘有用的价值数据、如何利用出版数据为出版社提供决策服务。而出版数据挖掘的前提是建立完善的图书数据库、图书信息管理数据库等出版数据库,集合图书出版整个流程的中来自出版社、经销商、读者等方面的全部数据。
笔者依据图书的出版流程和图书进入市场后的各个环节,总结出对出版数据的获取、挖掘和利用的模型,如图2所示。数据挖掘的目标是从大量的数据中发现隐藏的规律或数据之间的关系从而提供决策服务,从该模型中可以发现出版数据的挖掘与利用主要有以下几大部分。
对出版企业来说,图书品种和选题数据是企业内部的核心数据,这些数据反映着出版图书的种类和结构。通过对图书品种数据的挖掘出版社可深入了解自身的图书品种结构和出版社特色,对图书品种数据、选题数据、图书品种版权引进数据、图书版权输出数据进行可视化分析后,出版社进一步明确自身的图书品种优劣势,为企业下一步的选题策划指明方向。传统的图书选题判断充满不确定性[3],基于大数据出版社可以以一年为一个监测周期,对全年出版的新品种图书和版权引进和输出的图书数量、走向、增长率进行监测和分析,通过图书品种数据的挖掘发现图书的年度出版品种在市场上的基本信息反馈。即使是做业务拓展,出版社也应就相关相近的品种进行延伸发展,而不能盲目跨越一味扩大规模。比如像商务印书馆作为工具书和学术著作为主的出版社不会朝着出小说的发现发展。
一家出版社的作者资源也是其赖以生存和发展的重要资源。“作者是出版社的衣食父母,是出版社的上帝”,一个高水平的作者能够创造高质量的内容、为出版社提供优质的书稿。作者资源数据的挖掘可以从两方面做起,一是在多年的积累发展中每个出版社都拥有一定的作者,通过对出版社签约投稿作家出版率的数据挖掘,出版社可以熟悉自己的作者队伍等基本情况。如果出版社已经拥有全社作者资源数据库,包括作者的姓名、年龄、职业、学历背景、专业研究方向、已发表作品及其市场表现、对作者的客观评价等数据信息,并且与作者建立了比较良好的合作关系,这样出版社就拥有了高质量的内容制作队伍。作者资源库的信息是动态的,信息越准确、可利用的价值也就越大。二是随着科学技术的发展,网络在社会生活中发挥的作用随来越大,如果用功能强大的搜索引擎来了解作者的动态,掌握作者有关信息,充分挖掘有价值的签约作者,这对出版社的发展也会大有益处。
图书的印数和库存数量影响着出版企业的经营成本,目前很多出版社都会面临着图书积压、库存庞大的“编发矛盾”。究其原因,图书的印数确定一般是根据以往同类书的销售情况和编辑人员的主观经验而确定,这在很大程度上会与实际图书销售数有所偏差[4],印数预测偏多会造成图书库存积压,预测偏少加印又会造成一定的成本增加,从而造成出版经营风险。而根据出版社内部图书出版发行数据,包括已有各个图书品种的印制数量、重印数量,出版社可以对已经发行的图书确定一个评价周期,对一定周期的图书动态数据进行追踪,从而对新书首印、冲印数量进行预测和评估。与此同时基于对出版社策划编辑建议印数和销售数的分析,建立策划编辑的考核评校机制,以此加强成本控制,做到“少投入多产出”。因此基于图书印数数据的挖掘为出版社合理控制新书的首印数提供了数据支撑。
图书出版物流成本是出版社比较容易忽略的一个部分,图书物流也是一个复杂的系统,包括图书的运输、仓储、配送、搬运、包装等环节,它直接关系到出版社的成本利润与竞争。因此加强对图书物流数据的挖掘十分重要,“图书不同于其他产品,具有批量小、品种多、单价低、市场分布广、市场需求不确定、存在逆向物流等特点”[5],因此出版物流要对市场的需求做出尽量准确的判断,基于对图书物流数据的挖掘提高对图书物流的预测和控制。通过对图书的入库信息、出库信息、退货和回款信息、移库信息等数据进行分析,可第一时间了解客户的需求,便于出版企业做出及时的响应。对图书物流库存数据的挖掘帮助出版社优化图书配送路径、合理安排图书的仓储、对物流需求做出预测,更好地降低出版社的图书物流成本。
以上提到的几点都是对出版社内部数据的挖掘,当图书进入市场后,实时关注图书的动态销售数据和市场走向也是出版社实现数据化管理的重要环节。出版社可以获取的图书数据有很多,最基本是图书销售数据,还有计算机生成的图书排行榜、码洋占有率、动销品种、码洋贡献率、品种贡献率、效率比值、上架率、动销率、存销比等数据指标。[6]这些数据收集以后进行分析处理,对原始数据进行加工、提炼,找出数据背后的联系,将数据进行精细的分解,找出问题产生的原因。基于这些数据挖掘,管理者可以全面了解图书的销售状况以及图书市场的发展趋势。
基于图书市场走向的数据挖掘可帮助出版社打造精品内容。出版产业是内容制造产业,内容的本质是质量。出版企业可根据市场需要,精心策划图书选题,打造高质量图书。来自读者和用户市场的数据是准确、及时、具有预测性的,从出版市场数据中,出版商一方面可获取读者当前的信息需求,另一方面可对读者将来的潜在的需求倾向做出预测,从而为图书选题策划提供充分的依据,超前发掘市场商机。
用户的阅读行为包括读者评价、读者类型、信息需求、信息推荐等数据,借助数据挖掘技术的分析,可以构建出不同用户的阅读行为框架,从而提取不同用户的阅读需求,根据消费者的需求进行选题策划和内容供给,结合相关读者的阅读偏好、舆论话题、社会趋势,策划迎合读者需求的市场的选题内容,为出版社制定精准营销策略提供数据支撑。
基于对用户阅读行为数据的挖掘,读者可以接收到个性化定制服务。当今的数字化时代图书市场从大众市场走向分众市场,而对用户阅读行为数据的挖掘,读者由原来“被动的选择图书”方式转变为“接受主动的个性化推送”模式,实现以“用户”为中心的个性化内容服务。
出版数据贯穿于图书出版的各个环节,而我国出版产业对出版数据的挖掘与应用还有很多不足。市场数据驱动着图书选题策划,用户读者主导着图书内容生产,出版数据的挖掘不是只有出版社在参与,而是包括经销商、零售商、读者用户、第三方机构等在内的全程参与的过程。对出版数据的利用是出版业赢得读者、降低成本、增加利润、提升自身竞争力的有效途径,出版数据的挖掘与应用在图书出版中将会有更加广阔的前景。
本文为国家社科基金项目“NGO和NPO的社交媒体公益传播技巧与动员模型研究(14BXW062)”的阶段性成果。