专用人工智能在新闻业的应用领域、关键技术与研发模式*

专用人工智能在新闻业的应用领域、关键技术与研发模式^*

郭晶, 崔家勇

河南大学编辑出版研究中心，475001，河南开封

编委: 彭远红

摘要

在智媒化愿景下，新闻业如何借助人工智能技术实现智能化创新？研究发现，人工智能提升了新闻采写与编校的工作效率，并在新闻分发方面实现了交互式创新；目前对新闻业影响最大的关键技术为数据挖掘与自然语言处理技术；技术实力不同的新闻媒体通过自主研发、合作研发或技术采购三种模式进行智能新闻的应用研发。研究者认为，专用人工智能技术客观上为内爆逻辑下的新闻生产提供了便利，可能导致新闻业真实性危机的深化；同时，数据保护难题与技术风险引发了新的伦理困境；此外，新闻传播学的人工智能研究应避免混淆人工智能概念，理性看待现阶段人工智能对新闻业的影响，传统新闻媒体应在技术垄断背景下重新审视新闻价值。

关键词： 人工智能 ; 新闻业 ; 应用领域 ; 关键技术 ; 研发模式

PDF (2132KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

郭晶, 崔家勇. 专用人工智能在新闻业的应用领域、关键技术与研发模式^*. 科技与出版[J], 2019, 38(8): 77-82 doi:

人工智能的发展引发国内外新闻传播学界及新闻业界的广泛关注。2015年起中国新闻传播学研究“人工智能”的文献数量激增^①。新闻业界，国内外媒体机构和互联网公司已将人工智能技术应用于新闻生产与传播的各个环节，以实现新闻业的智能化创新。

由于技术发展不成熟，当前人工智能在新闻业的应用场景局限性较强。新闻传播学界对人工智能的认识也不全面，诸如人工智能新闻、自动化新闻、算法新闻、大数据新闻等概念边界模糊。本文引入专用人工智能的概念，从技术视角考察人工智能在新闻业的应用领域、关键技术及研发模式，以理解现阶段人工智能对新闻业的影响。

1　专用人工智能概念的提出

人工智能相关研究已进行了数十年，吸引了计算科学、心理学、生物学等多个学科的研究者。其最终目标是通过跨学科的研究，创造出可完全替代甚至超越人类智慧的“思考机器”，将人类从最后的智慧劳动中解放出来。

麦卡锡提出对人工智能模仿人类的强弱程度进行区分，指出弱人工智能是“机械地取代人类部分工作”，但“欠缺原创、互动与谈判的能力”^[1]。塞尔对弱人工智能概念提出质疑，认为所谓“弱人工智能”不过是一种“将符号按照既定规则进行分解、生成信息的系统……虽然能够在行为层面模仿人类，但并不意味着其理解了信息本质”^[2]。

与学界的争论相比，商业研究机构更关注人工智能研究对生产力的推动作用。经过数十年的研究，人工智能技术在多个专门领域得到了应用。如谷歌的围棋算法Alpha Go接连打败人类围棋高手，无人驾驶、智能医疗等领域的人工智能研究也取得突破性进展。

高盛在其人工智能报告中将人工智能划分为专用人工智能、通用人工智能与超级人工智能，认为目前尚处在专用人工智能阶段。所谓专用人工智能指的是能替代人类解决具体问题，而非完全模仿人类智慧^[3]。目前，新闻业使用人工智能技术开发的写作、编校等程序均不具备自主意识，还属于专用人工智能范畴。

2　专用人工智能在新闻业的应用领域

尽管人工智能技术尚不成熟，但其研究成果已在新闻业的采写、编校、分发等领域得到应用（表1）。

表1 专用人工智能技术在新闻业的应用^①

应用领域	商用名称	研发机构	应用机构	功能特征	人工智能技术
采写	Truth Teller	《华盛顿邮报》	《华盛顿邮报》	事实核查	自然语言处理、数据挖掘
	Buzzbot	BuzzFeed Open Lab	BuzzFeed	新闻聊天机器人	自然语言处理、数据挖掘
	云朵	武汉喻华科智能科技有限公司	湖北广电	实体机器人记者	面部识别自然语言处理（语音识别、语义识别、TTS）
	佳佳	中国科学技术大学	新华社	实体机器人记者	面部识别自然语言处理（语音识别、语义识别、TTS）
	地震机器人	《洛杉矶时报》	《洛杉矶时报》	地震新闻写作	自然语言处理（模板写作）
	统计猴	西北大学	西北大学	体育新闻写作
	梦写手	腾讯	腾讯财经	财经新闻写作
	快笔小新	新华社北京大学中国传媒大学	新华社	财经新闻写作
	Xiaomingbot	头条实验室	今日头条	财经、体育新闻写作
	薇拉	Yandex	Yandex	交通、天气新闻写作
编校	Tensa	Tensa	《经济学人》等1 000多家机构	拼写检查、文字风格检查	自然语言处理
	Style-Checking Tools	美联社	美联社及其用户	拼写检查、风格检查、语法检查
	黑马校对	黑马飞腾	人民网、新华社等	词语检查、禁用词过滤
	字根校对	字根科技	不详	句子通顺度检查、敏感词过滤
分发	无	《纽约时报》	《纽约时报》	新闻聊天机器人	自然语言处理（语音识别、语义识别）
	Quartz	Quartz	Quartz	文字交互式新闻客户端
	百度新闻	百度	百度新闻	内置文字新闻交互服务
	下文	原中国人民广播电台	下文APP	基于关键词匹配的新闻推送
	Alexa	亚马逊	亚马逊	语音交互式新闻
	天猫精灵	阿里巴巴	天猫精灵	语音交互式新闻

注：①根据网络公开数据整理。

新窗口打开| 下载CSV

2.1　新闻采写领域的应用

在新闻采写方面，新闻媒体希望借助人工智能技术突破记者的时空限制。

1）采访辅助程序及机器人记者的出现使自动化采访成为可能。

采访辅助程序有两种应用思路。一是事实核查，如2013年美国《华盛顿邮报》推出的事实核查平台真相讲述者（Truth Teller），可以比对政治人物的演讲内容与历史资料库，判断其演讲是否属实^[4]。二是线上采访，如嗡嗡喂（BuzzFeed）基于“短讯”（Messager）平台开发的聊天机器人“嗡嗡人”（Buzzbot），能向订阅用户发出“线上采访”邀请，以获取新闻信息^[5]。我国新闻媒体常将机器人记者用于会议新闻采访。如湖北广电2016年开始使用机器人记者“云朵”进行两会报道^[6]，它能自动寻找采访对象，并与其进行简单的语言交流^[7]。与“云朵”类似的机器人记者还有新华社特约记者“佳佳”^[8]。

2）自动化写作程序大幅提升了新闻文本的生产效率。

自动化写作程序出现于1994年，《洛杉矶时报》发布了世界上首条自动化新闻，其原理是将地震预警信息套入格式化模板后发布^[9]。中国地震台网在九寨沟地震报道中使用的自动化写作程序也是基于此模式^[10]。专用人工智能技术能丰富自动化写作程序的模板类型，使文字表达更生动可读，适用领域进一步扩展。2009年美国西北大学开发了“统计猴”（Stats Monkey）程序，用于棒球比赛新闻写作^[11]。此外，腾讯的“梦写手”（Dreamwriter）、新华社的“小新”、今日头条的“小明”被用于财经新闻写作，俄罗斯搜索服务商Yandex的“薇拉”被用于天气、交通新闻报道^[12]。

2.2　新闻编校领域的应用

20世纪末，新闻编辑室就开始使用校对程序。自然语言处理技术的进步提高了校对程序的准确度，还新增风格、语法检查等功能，进一步提升了新闻编校人员的工作效率。

坦莎（Tansa）成立于1995年，目前服务于新闻日（Newsday）、经济学人（The Economist）、经济时报（Financial Times）等一千多家媒体机构，向其提供多语言环境下的拼写检查与文字风格检查工具。类似应用还有美联社（AP）推出的写作风格检查工具（Style-Checking Tools）^[13]。中文校对软件出现稍晚，2004年前后，黑马校对开始进入新华社、人民日报、中国日报等各大媒体的编校系统。目前，黑马校对也运用人工智能技术提升校对效率^①。

2.3　新闻分发领域的应用

智能化是数字时代新闻分发的主要特征。借助自然语言处理和数据挖掘技术，新闻聊天应用与智能新闻终端能够提供交互式的新闻体验。

与线上采访程序类似，CNN、纽约时报等媒体在“短讯”应用中嵌入的新闻聊天机器人能为用户提供交互式新闻与智能推送服务。2016年，商业新闻网站Quartz推出的手机应用程序能提供完全拟人化的“聊新闻”服务。在我国，中央人民广播电台推出的交互式新闻应用“下文”能根据用户发送的信息推送内容^[14]。百度新闻客户端还可将长篇新闻内容缩减为口语化内容发送给用户^[15]。另外，科技公司推出的智能语音助手能提供语音对话式的新闻播报，如亚马逊的语音助手“阿莱克沙”（Alexa）、阿里巴巴的智能音箱“天猫精灵”、小米的语音助手“小爱同学”等。

3　新闻业专用人工智能的关键技术与研发模式

目前来看，在新闻业广泛应用的专用人工智能技术种类有限。由于存在技术与数据壁垒，新型数字媒体在人工智能研发方面占据了绝对优势，传统新闻媒体技术研发能力较弱，两类新闻媒体在人工智能应用的研发中采取了不同的模式。

3.1　关键技术

现阶段来看，新闻业应用最普遍的人工智能技术为数据挖掘（data mining）与自然语言处理（natural language process）。数据挖掘技术为采访提供更广泛的新闻线索与信息源，自然语言处理能提高新闻文本的写作、编校效率，并实现交互式的新闻体验。

数据挖掘是从大量数据中挖掘或抽取出知识的过程，难点在于数据清洗，即将“脏”数据转化为“干净的”数据。新闻采编使用的数据源包括专用数据库和网络数据。专用数据库数据结构规范，但信息维度有限，如财经报道常用的公司财报、大盘信息等数据。非结构的网络数据信息量大，维度丰富，数据挖掘难度较高，如《纽约时报》的Blossom用于监测热点的社交网络数据^[16]。

自然语言处理以人机对话为导向，通过语音识别、语义识别和自然语言生成等技术实现。语音识别能将语音转化为文字，语义识别通过词聚类、建立语言模型等方式抽象文本意义^[17]，自然语言生成将数据嵌入模板生成可读文本。机器学习算法能提高处理速度与准确率，丰富模板类型，改善人机交互体验。

3.2　研发模式

在人工智能应用的研发中，新闻媒体根据自身技术实力，通过购买技术服务、自主研发或合作研发三种模式实现智能化创新。

向科技公司购买产品或技术服务的模式最为常见，如国内外媒体购买的黑马校对、坦莎、机器人记者等。2010年以来，美联社、雅虎、《福布斯》杂志等新闻媒体还从自动洞察（Automated Insight）和叙事科学（Narrative Science）两家公司购买自然语言处理服务^①。其中，叙事科学是由“统计猴”开发者所创办的^[18]。

采取自主研发模式的新闻媒体多为科技公司，如嗡嗡喂的开放实验室（BuzzFeed Open Lab）、今日头条的头条实验室等。英国“全数字化新闻媒体”Quartz还将新闻编辑室与技术部门协同办公^[19]。仅有少数传统新闻媒体参与人工智能产品研发，如《纽约时报》的Blossom、美联社的风格检查工具等。

部分新闻媒体还会采取合作研发的模式进行技术创新，合作对象主要是科技公司、高校与科研院所。如新华社与中国传媒大学、北京大学共同开发的“小新”，还联名申请了技术专利《基于模板自动生成新闻的系统和方法》^[20]《一种面向短新闻的机器写稿方法及装置》^[21]。

4　结论与反思

尽管人工智能因高效率、低成本的技术特点备受关注，但其尚不能成为主导新闻业运行的技术力量。在新闻业发展与新闻传播学研究层面，专用人工智能技术的应用还引发了新的问题。

4.1　研究结论

（1）应用领域层面，人工智能技术在新闻业的采写、编校、分发领域均得到了应用，使新闻生产、流通的自动化水平得到提升。从应用场景看，人工智能实现了线上采访、事实核查及新闻交互方面的创新，同时改善了自动化写作、编校程序的工作效率与准确度。但从应用效果看，人工智能技术的不成熟导致自动化写作仍受题材限制，智能新闻交互体验不佳。因此，人工智能技术在新闻业的应用仍处于探索性阶段。

（2）关键技术层面，现阶段数据挖掘与自然语言处理技术对新闻业的影响最大。借助数据挖掘技术，动态的网络信息可被用于新闻的自动化采写与事实核查。机器学习模型的进步，使自然语言处理技术发展迅速，最终表现为自动化写作更生动、文本校对更准确、新闻交互更流畅。

（3）研发模式层面，谷歌、嗡嗡喂、百度等提供数字新闻服务的科技公司技术优势明显，在人工智能的应用创新上走在了传统新闻媒体的前面。只有少数传统新闻媒体拥有人工智能技术团队，能够在应用层面开展独立研究或合作研究。在智媒革命的大潮下，技术研发能力较弱的新闻媒体只能通过购买产品服务的方式实现智能化创新。

4.2　研究反思

专用人工智能的应用在提升新闻生产效率、提升新闻交互体验的同时，也使新闻业及新闻传播学研究面临新的问题。

1）在技术逻辑的支配下，新闻生产的内爆（implosion）效应进一步深化，并表现为新闻业的真实性危机。

内爆是麦克卢汉对后工业化社会电子文化裂变的警示^[22]，鲍德里亚将内爆的概念与他的仿真、拟像、超真实等后现代性概念相结合，提出信息时代意义终结的内爆效应^[23]。王辰瑶等对马航失事报道的量化分析揭示了新闻生产的内爆逻辑。马航失事报道中，网络新闻媒体通过“内生产”“衍生生产”“转引式生产”等方式生产了大量的新闻文本，却无法减少事件的不确定性^[24]。

从数据挖掘和自然语言处理的技术属性看，人工智能在新闻业的应用是以提高速度和自动化水平为导向的。数据挖掘的技术逻辑是从数据中找数据，自然语言处理技术的进步直接表现为“洗稿”难度的降低。从技术角度看，人工智能的应用客观上为内爆逻辑下的新闻生产提供了便利。事实上，20世纪50年代的研究者就意识到电脑系统的“垃圾进-垃圾出”（Garbage In-Garbage Out）法则，品质不佳的数据经过电脑系统处理后输出的仍旧是垃圾信息^[25]。因此，人工智能的应用在提高新闻时效性、降低新闻生产成本的同时，有进一步深化新闻真实性危机的可能。特别是在政治新闻核查方面，既然“政治声明本身就是包含着预设立场和价值观的”^[26]，用数据证明数据的事实核查程序Truth Teller何以担负起真伪判断的重任？

2）与真实性危机并存的还有技术伦理困境。

借助人工智能技术进行数据挖掘与新闻交互时，难免涉及用户数据的获取与使用，这就要求新闻媒体保持足够的自律。但技术垄断背景下，人工智能的应用难以摆脱商业化与资本化的支配逻辑。2016年美国大选期间，5 000万脸书用户数据被剑桥分析（Cambridge Analytica）公司用于精准投放政治广告，人工智能第一次被指责为“成为武器的宣传机器”^[27]。在新闻业的智能化创新中，新闻媒体如何在合理、可控的范围内收集与使用用户数据？行政与法制的力量或许能解决这一问题。2018年5月，《欧盟一般数据保护条例》在欧盟地区正式生效，为“无国界化”时代的数据保护提供了法律层面的支持^[28]。

技术错误还可能导致严重的社会危机。2017年6月，《洛杉矶时报》使用的地震机器人出现故障，通过推特账号虚报了一则地震消息。《洛杉矶时报》随后删除了推文，解释称“已经删除了那条假新闻，那是1925年的一场地震”^[29]。这则错误的地震消息虽然没有引发大范围的社会动荡，但暴露出技术风险仍值得警惕。人工智能发布虚假新闻的后果应由谁来负责？在这一问题有明确的司法解释前，新闻媒体在灾难新闻报道中必须注意速度与准确性平衡。

3）受基础模型与运算能力限制，通用人工智能尚未出现，现阶段人工智能技术的优势主要体现在生产力方面。

从现阶段的应用领域看，专用人工智能对新闻业的影响是有限的。我国新闻传播学界关于人工智能的研究热情很高，应注意厘清技术概念，避免将人工智能与大数据、虚拟现实等技术概念混为一谈，或将其他技术在新闻业的应用都视为人工智能。

从技术应用场景和创新发展模式看，现阶段人工智能对新闻业的影响可能被高估了。目前，人工智能在新闻业的应用还没有引发古登堡式的变革。融媒体背景下，科技巨头已经依靠技术优势完成了社会信息环境的再造，传统新闻媒体如何摆脱当前的发展颓势。在喧嚣的人工智能革命中，以内容生产见长的传统新闻媒体或许应重新审视未来的角色定位，重新思考新闻内容的核心价值。

*基金项目：国家社会科学基金青年项目“融合进程中的电子书出版产业组织研究”（项目编号：17CTQ036）；河南省科技发展计划项目（软科学研究）“河南省数字文化产业创新发展研究”（项目编号：192400410071）。

①在中国知网进行检索关键词“人工智能”，检索时间2019年5月5日，检索范围为“信息科技-新闻与传媒”。检索结果显示，2014年前年发文数量均在10篇左右。2015年起，相关文献数量激增，2018年包含关键词“人工智能”的文献达451篇。

①资料整理自黑马校对官方网站：http://www.bjhm.com.cn/about/show.php?lang=cn【-逻*辑*与-】amp;id=99.

①根据Automated Insight及Narative Science官方网站公开资料整理。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

杜维新，张志强. 围棋人机大战[M]. 成都：成都时代出版社，2016：113-114.