数据驱动的机器智能叙事
——以NarrativeScience为例
编委: 苏磊
关键词:
本文引用格式
段弘毅.
如今,当我们进入互联网环境或拿起智能手机使用各类APP时,人工智能已经悄无声息地影响了我们的生活。从腾云的智能检索、XML排版到易观的大数据分析,再从逛淘宝、京东购物到使用百度、今日头条获取新闻信息,人工智能就像一个庞大的内容过滤器一样,以个性化、精准化和智能化的服务来迎合我们的消费需求。然而,人工智能对于出版领域的作用不仅仅是帮助用户实现内容的检索、分析、筛选、匹配与推荐。基于规模化、动态化的数据自动创作出满足用户所需的内容,即机器叙事,是未来人工智能在出版领域发展的重要趋势。试想,当掌阅科技、QQ阅读等APP里的所有小说、教材教辅等数字内容不再是由人去生产、发布,而是由机器代替,这或许会勾勒出不一样的时代画卷。基于庞大的数字内容库,包括已有的数字图书内容、用户阅读行为数据等,并结合读者的阅读情境,机器可以对不同阅读领域的读者进行画像,从而创造出能够匹敌专业写手甚至优于专业写手的内容。
机器叙事是在人类叙事的基础上兴起并不断发展起来的。机器叙事一方面避免了人类叙事过程慢、成本高的缺陷,另一方面又逐步继承了人类叙事逻辑结构缜密、感情色彩丰富的优点。从“扬长避短”的哲学思想观来看,机器叙事经过发展必将在诸多领域取代人类叙事。
1 从人类叙事到机器叙事
在文字出现以前,人类基本是借助客观存在的事物进行记事和叙述。傅修延在《先秦叙事研究—关于中国叙事传统的形成》一书中写道:“在摸索出用文字记事之前,为了突破时空的限制,古人尝试过用击鼓、燃烟、举火或实物传递等方式,将表示某一事件的信号‘传于异地’;也发明过结绳、掘穴、编贝、刻契和图画等手段,将含事的信息传播于异时异地。[1]在文字产生以后,由于口语叙事仅限于当时当地,其局限性显而易见。所以图像便与文字一起,成为人类叙事最基本、最重要的工具或手段。相比于图像而言,文字在叙事过程中更加简洁易懂,按照法国学者塔尔德的“模仿律”理论,“优势媒介”容易成为范本而被模仿,所以在人类的艺术史上就容易出现叙事性图像模仿叙事性文本的倾向。[2]就叙事而言,几乎“任何题材”都可以用来叙事。诚如罗兰•巴特所说:“对人类来说,似乎任何材料都适宜于叙事。叙事承载物可以是口头或书面的有声语言、是固定的或活动的画面、是手势,以及所有这些材料的有机混合。”[3]
无论是在以结绳、燃烟、举火、口语、图画等方式为主的早期叙事阶段,还是在以文字、图画为主的人类后期叙事阶段,其都有一个共性,即叙事主体是人,叙事对象是人类活动,叙事方式或手段是文字或其他客观事物。然而,随着人类文明的不断进步,人类叙事的弊端也随之显现,如叙事过程较慢、叙事成本过高等都难以满足相关行业的发展需求。因此,基于计算机技术、互联网技术和自然语言处理技术等的发展,叙事的主体逐渐由人向机器过渡。
早期的机器叙事形态是“人机结合”的一种叙事方式,即人类在机器中输入一些原始数据或信息,然后由机器生成最终的叙事文本或图像等。如Google翻译系统,可以直接生成人类所需要的多种其他语言文本,它基本不需要人为地去大量翻译文本。又如Excel软件,它可以直接把导入的数据进行可视化处理,从而实现直观的图像叙事。2010年,由美国西北大学启动的一项名为StatsMonkey的软件,基于一些基础数据,如棒球球员的名字、游戏比分和获胜概率等,已经能自动生成棒球比赛的新闻。[4]到2014年7月,全球最大通讯社美联社已经开始使用机器人新闻记者撰写财报新闻。[5]然而,随着人类科技的进一步发展,特别是人工智能技术和大数据分析技术的不断提升,机器叙事的成果将越来越“智能化”和“拟人化”。
现在,机器叙事的过程早已从“语料库—初级自然语言算法—叙事”的模式转变成“规模数据—多模态算法—叙事”的模式。其中规模数据不仅包括用户在线浏览与发布的信息、历史记录等,还包括用户的使用意图和情境,这使得机器叙事的数据从静态转变成了动态。由于数据处于不断更新的状态,所以机器叙事也不再是由人驱动,而是由数据驱动。
2 NarrativeScience的数据驱动叙事
NarrativeScience是位于美国伊利诺伊州芝加哥的一家数据自动搜索与处理的人工智能技术公司。NarrativeScience实现了用机器智能处理数据和信息,并在一定程度上形成符合人类需求的叙事内容。
数据驱动是NarrativeScience叙事的发展理念。过去,计算机“写作”技术只是利用已有的庞大文本库进行简单拼凑,因此,生成的内容必然不会受到市场的青睐[4]。而NarrativeScience首次开发出的机器叙事软件—StatsMonkey,已经能基于一定的规模数据自动生成一系列的新闻故事。但由于StatsMonkey生成内容的水平并不高,因此未能在市场上推广。随着人类数据规模的不断增长和人工智能技术的进一步发展,NarrativeScience开发了一个更为高级的语言生成平台—Quill。作为一种先进的自然语言生成技术,和早期机器叙事方式不同的是,Quill通过分析结构化、规模化的数据从而实现自动叙事。目前,Quill成为NarrativeScience公司主要的机器叙事产品,并被用于数据报告的写作。
2.1 Quill的叙事方式
用户的使用意图和情境是Quill的叙事基础与导向。在叙事过程中,用户的意图和使用情境直接影响Quill智能分析的数据。这就意味着,Quill所分析的数据不仅是客观存在的静态数据,而且把用户的使用行为特征等动态数据也纳入分析,这就使Quill的分析结果更加的精准,更能接近用户所需。
此外,Quill基于用户生成的各类数据和自然语言处理技术,自动将其转化成机器规模的智能叙事,并使用任何人都能理解的语言进行表达,从而实现机器叙事的易懂性和“拟人化”。在整个叙事过程中,Quill还能够实现用户的个性化定制服务,通过用户社区模块与用户实时沟通,及时了解用户的客观需求,以提高叙事的使用情境。
2.2 Quill的叙事优势
NarrativeScience的特别之处在于其能满足人们倾向读故事的心理。虽然在此之前计算机已经拥有了强大的运算能力,可以将数据形成复杂化的图形,却依然不能基于数据生产一篇以自然语言为表达形式的人性化的文章。而Quill的出现和不断升级逐渐满足了用户的这一需求。
首先,Quill把规模数据看作一种庞大的“资产”,不断挖掘数据的潜在价值,从而使叙事结果更加的深入和“拟人化”;其次,Quill基于规模化、动态化的数据进行叙事,可以解放人的双手,增强人的能力,使人不需要花过多的时间去解释或编写新闻报告,转而专注于做其他机器不能做的事情;另外,Quill可以通过分析用户的数据建立更强大的关系群,从而为客户提供最有用的市场信息,最终帮助客户进行决策。同时,Quill使用的是具有人性化的通用语言,因此用户在感官上可以获得真人叙事的体验,而不是冷冰冰的文字内容。
NarrativeScience的智能叙事产品不仅是帮助人类讲一个更好的故事;最重要的是帮助人类更丰富、更微妙地去理解叙事信息,满足人类的情感需求,以及帮助公司、员工和客户等用户对象做出明智的工作决策。
数据驱动的机器叙事,能够解释、放大和阐述重大事件及其内在的价值。因此对于Quill来说,每一个数据集、每一个数据库、每一个试算集都有一个可讲述的故事,这就是NarrativeScience发展的思维。而今,人类生活在科学技术与文明的交汇点,只有将两者聚在一起才能更好地成就人类自身。
3 机器叙事:出版业的涅槃重生
2016年3月,日本研发的一种人工智能程序生成的一篇短篇小说,已成功进入国家文学竞赛的第二轮评选活动;4月,以数据为驱动的出版商Lnkitt宣布与托尔出版公司合作,旨在出版第一部由算法选择的小说。[6]无疑,机器智能叙事时代,对于整个出版业来说是最坏的时代,但是也是最好的时代。NarrativeScience开发的机器叙事软件的写作水平已经趋于“拟人化”,这也就意味着,在一些要求不高的文字写作和编辑领域,机器完全可以取代人,而人可以从传统的工作岗位中退出,转而从事机器难以完成的工作。同时,腾讯DreamWriter累计生成的三万多篇稿件也足以证明机器叙事的惊人能力[5],以及对出版业未来的直接影响。
机器叙事能力的提升必然会为出版业所用。在当前的出版业态中,作者会根据编辑的约稿进行创作,而编辑会围绕选题、策划、约稿、审稿、编辑加工、校对等流程进行工作。无论是稿件的创作者还是稿件的编辑加工者,都是要根据市场需求的规律来完成。但是,在对客观市场需求分析的过程中,人类往往会暴露自身的缺陷—数据挖掘与分析能力不够,以至于对市场需求规律的判断存在较大的误差。而人工智能的优势之一在于对数据挖掘与分析的高精准性和可重复性,这就意味着机器可以无限度地重复高效的挖掘与分析数据,并通过对数据的整理分析最终形成较为客观真实的分析报告。这在很大程度上帮助了选题策划人员进行图书产品的选题策划工作,从而提高图书产品的市场销售量,并减少因选题策划不当而造成的资源浪费现象。另外,基于特定算法,通过对用户意图、使用情境等动态数据的分析,也能够更加精确地预测市场的需求趋势。
未来人工智能与出版的结合将会颠覆整个出版流程。不仅是在图书的选题策划、编辑加工和市场预测上,数据驱动下的人工智能算法还能帮助出版企业主动为每一本图书选择适合它的市场和读者。可以想象,当机器能够根据用户偏好数据计算出读者的需求时,那么,所有的图书都将会成为畅销书[6]。此外,当算法解放出版者的双手后,今后主导出版业内容生产过程的就会是掌握算法模型的技术人员,或者由技术人员和传统编辑组成的跨界组合。
从人类自身的发展进程来看,人工智能时代的机器叙事将不会是我们的对手而是助手。自然语言处理技术和一系列算法模型的不断改进升级,能使机器变得越来越聪明,也越来越懂人类。人工智能时代下出版流程的颠覆使大量的出版从业人员被淘汰,取而代之的是具有高精准性和高效率的机器算法。虽然机器叙事的兴起会造成一定的失业率,但出版产业也将迎来自身的新纪元。正所谓人“生非异也”,但“善假于物也”,当新闻的编辑发布权从人让渡给机器时,人类更多的是去从事决策和创新性的工作,通过人与技术的加持,最终走向增时代。
4 结语
数据驱动下的机器叙事已经渗透到各行各业,其能否对一些行业,特别是出版业产生颠覆性改变,还要取决于机器叙事“拟人化”的能力是否够高,是否能高度地模仿人类的情感、思维与逻辑。尽管现在NarrativeScience已经能够自动生成高质量的“拟人化”文章和数据报告,但是仍然不能高度地模仿人类的情感,这也正是机器叙事至今无法代替人类叙事的原因之一。当人工智能逐渐成为未来经济发展的引擎时,将其作为出版产业变革的核心驱动力,是今后出版业在面临挑战时涅槃重生的最佳良机。
参考文献
/
| 〈 |
|
〉 |
