版权声明: 2018 清华大学
展开
摘要
当前关于数字出版的研究大多集中于出版模式的创新和新技术的应用,而针对传统出版留存内容的价值发现和激活研究较少。传统出版留存内容是出版产业重要的数据资产,其内容质量高但活跃度低,潜在开发价值大。本文从数据资产视角出发,提出传统出版留存内容激活的基本环节,以此为基础构建传统出版留存内容的价值发现体系,为出版企业发现其潜在内容价值和市场价值提供参考。最后基于大数据技术,提出传统出版留存内容产品化思路,提高内容开发效率,激发其活性以重新产生价值,使留存内容成为传统出版企业的重要资产。
关键词:
大数据时代,出版产业以数据为驱动对出版活动的各个环节进行了重构,数据的资产价值日益凸显。当前,不同学者从各个角度对数据资产的含义进行了阐述。
从概念演变的角度看,“数据资产”是经济学公认概念—“智力资产”逐级细化的产物,经历了从“知识资产”到“信息资产”最后演化为“数据资产”的演变历程[1]。
从经济学的角度出发,可将数据资产定义为:企业或组织拥有或控制,能带来未来经济利益的数据资源[2]。这一定义强调了数据资产的两方面特性:一是经济属性,即必须具备获取经济利益的能力;二是法律属性,即必须为主体拥有或控制。
因此,本研究认为,出版业数据资产是在出版活动中产生、并依据出版活动需要而积累或采集的、为出版组织拥有和控制,并能创造出巨大价值(包括经济价值和社会价值)的数据资源。
原国家新闻出版广电总局将出版业数据资源分为4个层面,分别是:以内容资源为代表的核心层数据、以产品信息为代表的产品层数据、以出版产品流通信息为代表的业务层数据、以出版业产品消费数据和消费反馈数据为代表的市场层和用户层数据[3]。
内容数据是出版业数据资产的核心,根据出版介质的不同可分为传统出版留存内容数据和数字出版内容数据。传统出版留存内容,顾名思义,是指在以纸张为出版产品介质的出版活动中产生的出版物内容资源。
与当前互联网上每天产生的庞杂内容相比,传统出版留存内容的平均质量更高,内容组织更规范,知识产权归属更清晰;但也存在着难以被检索、所附着介质的形态落后、内容效用中的时效性较差等缺陷。数字化时代,如何有效激发传统出版留存内容作为数据资产的经济潜力,成为当前出版业亟待解决的问题之一。
在出版价值链不断延长和拓展的今天,出版内容的产品形态和价值实现方式趋于多元化,源内容开发从价值发现、产品推向市场,到形成消费者反馈、利用反馈调整生产活动、重新开发产品的生产闭环,一般需要4个环节:发现具有市场潜力的高质量内容;打造内容产品或服务;将内容产品或服务推向市场;将用户反馈再利用于内容的价值发现与生产。一般来说,这4个环节也正对应了对传统出版留存内容进行价值激活的4项基本环节,见图1。
我国的传统出版业积累了海量内容资源。数据显示,仅2005—2014十年内,我国的书报刊累计出版内容数据量(含复本数)就已达到7.21亿亿汉字,换算成字节约为14.42亿亿字节,即约128.08 PB[4]。在传统出版源内容数据如此庞大的前提下,优质内容的可发现性(Discoverability)对于其价值挖掘而言尤为重要。在信息科学中,可发现性是信息能否被接近和消费的前提条件,同理,对内容而言也是如此[5]。
通过构建传统出版留存内容的价值发现体系,可有效甄选出价值较高但活跃度较低的内容,同时可配合内容激活手段帮助沉积的源内容重新进入内容消费市场。“价值发现”一词来源于金融领域,指通过调查、研究、分析等方式,找出投资对象的市场价格所没有充分反映出的潜在价值[6]。传统出版留存内容的价值发现机制可分为两部分,一是内容质量评估,二是市场价值评估。
传统出版内容质量的评估可采取人工和机器相结合的方式进行。对内容质性化评价的挖掘和分析,以及对内容量化评分的抓取分析,构成了传统出版留存内容质量评估的量化评估模块。
传统出版留存内容质性化评价包括线上和线下两个来源。线上来源主要包括图书电商(如当当网、京东图书等)的消费者的购书评价,门户网站(如新浪网、凤凰网等)的媒体、专栏作家的图书评论,社交平台(如豆瓣读书、新浪微博、个人博客等)的用户、自媒体人的图书评论等。线下来源主要为出版社在编辑和审校过程中留下的出版物质性化评估文件。
线上图书评论的绝大部分来自出版物消费者,能较为直观地反映传统出版留存内容的质量水平,但线上图书评论也面临着缺乏监管、书托泛滥、恶意刷评等问题。线下图书评论来自出版企业,出版企业是图书出版活动的组织者和管理者,也是传统出版留存内容进入市场的源头,其内容评价具备专业性和权威性。但出版社的评价标准仅从内容生产者角度出发,维度较为单一。因此,必须对线上和线下多个来源的出版留存内容质性化评论进行挖掘和分析。
出版企业可利用自身出版情报系统获取线上公开发表的出版物评论,结合线下的编辑过程构建出版物质性化评价的语料库,并利用自然语言处理工具,对图书评论的文本内容进行处理,基于词频统计结果,以语义分析的方式提取出评论中有关内容质量的关键词标签,归纳出内容质量的评价指标,从而借助算法对出版物进行内容质量评分。
出版物量化评价数据有两种:一种是基于内容维度的出版物量化评价;另一种是基于销售、借阅维度的出版物量化评价。
基于内容维度的出版物量化评价,一类来源于图书量化评分网站,如国内的豆瓣读书、美国的goodreads网站、亚马逊的书籍评分系统;另一类来源于媒体和机构推出的书籍推荐榜单,如国外的《纽约时报》“年度好书”和国内的“新浪好书榜”。
基于销售、借阅维度的出版物量化评价一般来源于机构统计数据,如图书电商亚马逊、当当的图书销量排行榜数据,时代出版传媒推出的以新华书店系统为采样点的“中国出版物流通监测系统”数据,北京开卷信息技术公司的“开卷全国图书零售市场观测系统”数据,各图书馆统计的读者借阅数据等。出版企业可通过抓取或协议获取的方式,将各类出版物量化评价数据纳入内容质量评价的参考体系中。
对传统出版留存内容进行质量评估的目的是为内容再版或进行衍生品开发提供决策依据。而传统的质性评估往往是消费导向的,即指导用户进行内容产品消费,缺乏面向内容生产者的以内容再开发为导向的内容质量评价。因此,在价值发现体系中要引入以内容的再开发为导向的评价指标,主要包括内容再开发潜力评估、内容市场化价值评估、市场同类竞品表现评估3个维度。
传统出版留存内容再开发潜力建立在内容质量基础上,评价指标包括传统出版留存内容的知识变现潜力、影像化潜力、游戏化潜力、周边产品开发潜力等。出版企业可邀请专业内容开发人员、制作人员进行内容再开发潜力评估,也可通过门户网站或社交媒体向内容消费者征集内容再开发评价。意见征集中还可让消费者针对某项传统出版留存内容的再开发提出具体建议,如推荐内容影像化时的主创人员、选择内容再开发时的产品形式(影视、游戏、数据库)等。
通过以上措施,一方面将草根话语权引进了传统出版留存内容再开发生态链;另一方面也有效获取了消费者内容评价,通过聚合、挖掘、分析消费者建议,可为出版企业的后续产品开发提供决策依据。综上,专业内容开发者评估与内容消费者评估共同构成了传统出版留存内容的再开发潜力评估模块。
传统出版内容的市场化价值受到市场供求关系、目标消费者规模、付费意愿、消费水平等影响。互联网时代,内容产品的消费具有强烈的分众化趋势,质量水平相似的内容,其市场价值大部分体现在内容本身的再版价值、版权转让价值和衍生品开发价值上。因此,内容质量的高低并不能完全决定其市场价值,在传统出版留存内容的市场价值评估时要更多地考虑内容消费者。
内容市场化价值评估要考虑到原有内容读者的数量(内容的原始传阅度),内容深入开发后的用户转化率,内容品牌化潜质(作者影响力、内容识别度、目标用户匹配度),目标用户购买力(付费意愿、消费水平)等因素,这些都需要通过对用户数据的获取和分析来完成。
在文化产品的市场价值评估领域,一种以同类产品表现进行类比的评估方式也被国内外普遍接受,同样适用于传统出版内容的市场价值评估。这种评估方式以替代原则为评估思路,通过对近期市场上与被评估资产具有相同或类似效用资产的近期表现类比,在可比较因素的适当调整后得到文化资产价值[7]。市场同类竞品表现评估方法需要出版企业对内容市场表现及内容市场交易信息进行采集。
在艺术品交易市场,雅昌集团已经应用了类似的机制。雅昌以“中国艺术品拍卖市场行情发布系统”的拍卖数据为基础建立雅昌指数(AAMI),该指数一定程度上反映了当前艺术品市场价格走势和运行状况,艺术品收藏者、投资者可根据指数对藏品进行估值。出版业可采取相似思路,利用数理统计模型编制以内容为核心的出版指数,将内容交易、开发市场各个方面的行情囊括在内。当前,艺恩咨询旗下的泛娱乐大数据平台和百度旗下的IP魔方已经开始面向IP(intellectual property,知识产权)价值评估进行数据产品开发。IP估值作为内容价值评估的一环,其评估策略能为传统出版留存内容价值评估提供有益借鉴。
由于中国的出版领域受法律法规和政策的影响较大,部分内容的市场价值可能会随政策而变化。因此,出版业在构建出版留存内容价值发现机制时要加强对有关部门的政策进行分析和预测,在争取经济效益的同时遵从政府引导,将内容再开发的社会效益放在首位。
综上,内容质量评估、内容市场价值评估和内容管控政策分析共同构成了传统出版留存内容的市场价值评估模块。在该模块基础上,出版企业可搭建自身留存内容价值发现的综合应用平台。平台既可以对出版企业自身内容进行有效管理,还可以将分析结果开放给合作单位,营造传统出版留存内容再开发的良好生态环境,甚至能将自身的内容指数打造成行业标杆,作为内容再开发的权威参考指数。结合以上研究,传统出版留存内容的价值发现机制架构图(如图2所示)。
价值发现机制为内容的深度价值挖掘提供了决策基础,出版企业可根据内容特性进行针对性的激活策略。内容激活是指通过一系列内容再开发手段提升内容的活跃度,让已经活跃的内容更活跃,让沉寂的内容变活跃。对于“活跃度”这一概念,当前学术界和业界并没有形成统一的认识,在不同的情境下,活跃度通常被赋予不同的含义。例如,在证券交易中,活跃度作为股票术语,反映某只股票或某一行业、某一板块证券交易频率的高低。而在互联网产品的运营中,活跃度则指用户使用这项产品的活跃强度,其衡量指标包括用户的在线时长、登录频次等。在内容生产及消费领域,内容活跃度是指内容对于消费者的传播效果,具体是指内容在一段时间内被发现、消费和再创作的频率。因此,本文提出6种在大数据背景下发现传统出版留存内容价值、激发其活性的思路。
美国财务会计准则委员会曾对资产的概念进行过界定:“资产是一特定主体因为过去的交易或事项而形成的,并为主体拥有或控制的、可能的未来经济利益。”传统出版留存内容如果想成为资产,必须拥有资产意义上的两个属性:一是能为主体拥有或控制;二是能产生未来经济利益。
内容价值化是进行传统出版留存内容激活的前提条件。传统出版留存内容在其附着的出版物淡出市场后常被视为企业的“沉没财产”。大数据时代,内容从“沉没财产”变为内容资产的两个原则是:一方面,使内容能被灵活调用,提高出版生产部门对内容的控制力;另一方面,使内容能被二次开发,提升内容的重复利用效率,通过产品创新实现未来经济利益。
出版企业可利用大数据技术提升对内容的控制力和复用能力。首先,将内容转化为源数据,按照知识体系、结构、主题、关键词、相关性等对内容资源进行分类标引和元数据描述,搭建内容资源数据库服务系统,便于出版企业内部使用。其次,通过对内容数据的重新创建、采集、加工、分类等工作,将内容数据与市场数据、用户数据进行关联,从而提升出版企业对内容进行二次开发和使用的概率,挖掘内容潜在的市场价值。
例如,社会科学文献出版社在传统的皮书出版活动中积累了数十年有关中国各方面发展情况的智库报告资源,然而由于缺乏统一的内容检索平台,智库报告中的大量数据资源处于沉寂状态。社会科学文献出版社在大数据思维的驱动下,引入了内容数据管理系统(CMS,Content Management System),从非结构化留存报告中提取有价值的文本、图表数据进行数据标准化处理,建立了皮书数据库,盘活了常年累积的皮书资源,并延长了其盈利周期。
电子工业出版社通过“动态数字出版关键支撑技术研发与应用示范”项目将其存量图书资源结构化加工入库,建立大数据内容平台,使留存内容能被灵活调用、多格式输出,并结合对用户数据的分析和挖掘,推动其自身的业务体系从出版服务走向基于知识单元的数据库和在线教育服务。
通过大数据技术将内容与实时的用户数据、市场数据有机结合可有效提升内容资源利用率。大数据技术可帮助出版企业筛选、整合内容,以工具形式加工、包装,让用户使用工具的同时进行内容消费。
随着数字技术的发展,内容传播从纸质端扩展到PC端和移动端。出版企业将菜谱、生活百科、摄影书籍、旅游指南、各类教程、纸质游戏等实用性和体验性强的出版资源以电子软件应用为介质进行二次封装后,可借助大数据技术实时采集用户数据、分析用户需求、提供差异化服务、不断实现产品迭代。
以著名的旅行指南出版品牌Lonely Planet为例,这家公司最初以出版旅游指南为核心业务。随着互联网崛起,Lonely Planet将往期出版的旅游攻略内容从线下移植到线上,并利用大数据技术聚合实时地图数据、交通数据、游客历史点评数据等,推出了适配于智能手机和平板电脑的旅行APP,为用户提供更加精准的路线制定和旅行指南查询工具。
知识产权出版社在数十年专利文献出版的基础上积累了海量条目化、碎片化的知识产权数据。知识产权数据含金量高,但由于数据不完整、缺乏关联性,处于难以利用的状态。知识产权出版社通过大数据爬虫技术从103个国家、地区采集专利、商标、标准、法律文书和科技期刊等多种数据资源,结合自身积累的留存内容,建立DI Inspiro“中国知识产权大数据与智慧服务系统”,为用户提供专业的专利检索、追踪、调查、分析工具。
此外,商务印书馆将旗下字典工具书进行数字化整合,利用大数据技术进行深度加工和动态重组,提供知识检索、词汇记诵等个性化学习工具。人民法院出版社通过大数据技术对旗下法律类期刊、图书与实时海量裁判文书、法条案例等进行知识元聚类,构建“法信”平台为法律界人士提供知识服务工具。
内容激活多样化策略的内涵是,变浅层开发为深层开发,实现内容产品生产的全品类化。传统纸质出版物一旦付印,出版产品的开发工作就基本结束。传统纸质出版物内容的影响力有限,内容活跃期较短。大数据背景下,出版企业可依据用户画像将畅销内容开发多种产品形式,有利于满足不同用户群体的内容消费需求,使内容价值最大化。
传统出版内容开发模式为单核心模式,以纸质出版物为核心。当前的内容开发需要借助大数据技术分析用户和市场情况,构建产品矩阵,通过内容产品之间的互联互通形成多核心的开发模式,让内容影响力呈网状扩散,在多个环节吸引用户。表1为当前内容型产品的产品矩阵。
表1
内容型产品的产品矩阵
| 产品形态维度 | 书、报、刊等文本产品 | 不仅包括传统纸质版产品,还包括APP版本、电子书版本以及网页版等 |
| 音像产品 | 包括有声书、电视剧、电影、动漫等音视频产品 | |
| 知识服务类产品 | 包括线上与线下的教育产品、知识问答产品,针对内容生产者开发的版权经纪产品,针对个人和机构开发的管理咨询产品等 | |
| 数据库产品 | 包括文献数据库、出版产品数据库等,在专门领域提供信息服务和数据查询,对企业开放专业咨询 | |
| 游戏产品 | 包括客户端游戏、网页游戏、移动游戏和电视游戏等 | |
| 周边衍生品 | 包括文具、玩具、生活用品、文化旅游产品、公园、会展等文创类衍生品 | |
| 硬件设备产品 | 智能硬件设备,包括阅读设备、影音设备、可穿戴设备等 |
当前,传统出版留存内容是优质IP的源头之一,许多出版企业都已涉足内容资产的深层次开发,由单一的出版企业向知识服务或教育企业转型,但却较少利用大数据助力IP开发。互联网巨头百度利用其用户搜索行为数据、关键词数据、网站流量数据等推出了专业的大数据IP开发分析平台—百度IP魔方,以大数据分析技术对出版物读者群体的地域、年龄、性别、所处人生阶段进行分析,结合内容本身特征,挖掘出内容深度开发的介质选择、开发次序、主创人选等,现已成功协助《大主宰》《锦绣未央》等著名IP完成产品矩阵布局。出版企业可通过与第三方大数据服务机构协作的方式获取内容多样化开发建议。
大数据时代的到来使用户需求更易被企业掌握,小众市场得到发掘。大数据分析技术对于海量内容的搜集、整理具有绝对的优势,它能深入文本,挖掘与特定主题相关的资料,并针对用户的消费趋势、需求特点和功能要求进行内容精准激活。
出版企业可以针对普通读者,精准激活传统出版留存内容中的优质内容,满足用户特定需求。学林出版社开通了人文社科学术著作自出版平台,该平台依据多年来用户反馈数据,陆续上线了近600种绝版学术图书,以按需印刷的方式销售。
出版企业也可针对营销活动,精准激活传统出版留存内容。当前,出版物营销模式频繁出新,如热点营销、社群营销等。出版企业可通过大数据热点监测、议题追踪系统,以蹭热点的方式从留存内容库中寻找合适的营销推介内容,还可通过用户画像分析借助社群平台推介经典好书。
媒介经济学家罗伯特·皮卡德曾经把媒体产品划分为两种:一种是项目驱动的单一创新型产品,这类产品通常是一次性创作后投放市场;另一种是概念驱动的连续型创新型产品,这类产品通过对内容的选择、加工和包装,实现对内容的连续创作[8]。
传统出版留存内容大多数为一次性创作的产物,其中的优质内容没有形成有影响力的长尾。因此,传统出版留存内容激活连续化策略的核心是,以市场数据分析为支撑,延长传统出版留存内容中的优质内容在文化市场上的传播周期,打造品牌影响力。
例如,美国学者出版社在开发畅销书《39条线索》的过程中,利用在线游戏采集用户行为数据,追踪读者最喜爱的线索和人物,借助大数据分析创作了多个系列的全球畅销书,取得了1 500万纸质书销售量。出版企业可深入出版物主题论坛、贴吧、粉丝部落等网络社群采集用户数据,并根据用户行为描绘用户画像,从用户需求出发对留存内容进行迭代开发。
传统出版留存内容复用率低的一个原因是缺乏内容分析和处理工具,内容复用依赖于编辑的人工判断。大数据和人工智能的发展可有效提高内容分析处理效率。
出版企业可利用大数据技术对以往成功作品进行内容解析,判断产品的情节、词语、叙事结构等成功因素。同时,可以将内容资料做深度加工分类,建立选题决策和自动创作的内容数据库,进而发展智能写作工具。
以Intellogo公司为例,其通过自主研发的人工智能系统帮助出版商梳理内容,生成包括风格、主题、观点、情感等在内的细粒度内容分析报告。该系统还可运用大数据分析图书内容和读者行为,以关联推荐的方式精准地为读者推荐图书。根据内容细节,Intellogo可生成增强型的标准化元数据,方便公司、零售商和合作伙伴发现和利用出版商的内容。与此同时,Intellogo将对出版内容的研究同消费者行为数据的研究相结合,深入理解读者的喜好,发现新的出版机遇[9]。
本研究提出了传统出版留存内容激活的基本环节。从数据资产视角出发,从内容质量评估、内容市场价值评估和内容管控政策预测和分析3个维度构建了传统出版留存内容的价值发现体系,并通过国内外典型案例,提出了借助大数据技术进行价值化、功能化、多样化、精准化、连续化、高速化等6种传统出版留存内容的产品化思路。
全文重点在于传统出版留存内容的价值发现和产品化体系的构建过程,为出版社提高留存内容活跃度,进行内容产品再开发,推动出版大数据建设提供思路。由于篇幅所限,本研究没有针对具体产品开发环节进行深入探讨,后期会结合具体案例和产品化策略开展实证研究。
基金项目:国家社会科学基金项目“数据资产视角下出版大数据的构建与应用模式研究”(16BXW031)。
| [1] |
|
| [2] |
数据资产管理及展望 [J]. |
| [3] |
出版业“大数据”时代已来临 [EB/OL].( |
| [4] |
出版业有“大数据”吗? [EB/OL].( |
| [5] |
Discoverability [EB/OL].( |
| [6] |
价值发现 [EB/OL].( |
| [7] |
文化产品价值评估方法的国际前沿 [J]. |
| [8] |
Unique Characteristics and Business Dynamics of Media Products [J]. |
| [9] |
机器学习:出版业的下一个引爆点 ?[J]. |
/
| 〈 |
|
〉 |