专用人工智能在新闻业的应用领域、关键技术与研发模式*
编委: 彭远红
关键词:
本文引用格式
郭晶, 崔家勇.
人工智能的发展引发国内外新闻传播学界及新闻业界的广泛关注。2015年起中国新闻传播学研究“人工智能”的文献数量激增
由于技术发展不成熟,当前人工智能在新闻业的应用场景局限性较强。新闻传播学界对人工智能的认识也不全面,诸如人工智能新闻、自动化新闻、算法新闻、大数据新闻等概念边界模糊。本文引入专用人工智能的概念,从技术视角考察人工智能在新闻业的应用领域、关键技术及研发模式,以理解现阶段人工智能对新闻业的影响。
1 专用人工智能概念的提出
人工智能相关研究已进行了数十年,吸引了计算科学、心理学、生物学等多个学科的研究者。其最终目标是通过跨学科的研究,创造出可完全替代甚至超越人类智慧的“思考机器”,将人类从最后的智慧劳动中解放出来。
与学界的争论相比,商业研究机构更关注人工智能研究对生产力的推动作用。经过数十年的研究,人工智能技术在多个专门领域得到了应用。如谷歌的围棋算法Alpha Go接连打败人类围棋高手,无人驾驶、智能医疗等领域的人工智能研究也取得突破性进展。
高盛在其人工智能报告中将人工智能划分为专用人工智能、通用人工智能与超级人工智能,认为目前尚处在专用人工智能阶段。所谓专用人工智能指的是能替代人类解决具体问题,而非完全模仿人类智慧[3]。目前,新闻业使用人工智能技术开发的写作、编校等程序均不具备自主意识,还属于专用人工智能范畴。
2 专用人工智能在新闻业的应用领域
尽管人工智能技术尚不成熟,但其研究成果已在新闻业的采写、编校、分发等领域得到应用(表1)。
表1 专用人工智能技术在新闻业的应用①
| 应用领域 | 商用名称 | 研发机构 | 应用机构 | 功能特征 | 人工智能技术 |
| 采写 | Truth Teller | 《华盛顿邮报》 | 《华盛顿邮报》 | 事实核查 | 自然语言处理、数据挖掘 |
| Buzzbot | BuzzFeed Open Lab | BuzzFeed | 新闻聊天机器人 | ||
| 云朵 | 武汉喻华科智能科技有限公司 | 湖北广电 | 实体机器人记者 | 面部识别自然语言处理(语音识别、语义识别、TTS) | |
| 佳佳 | 中国科学技术大学 | 新华社 | |||
| 地震机器人 | 《洛杉矶时报》 | 《洛杉矶时报》 | 地震新闻写作 | 自然语言处理(模板写作) | |
| 统计猴 | 西北大学 | 西北大学 | 体育新闻写作 | ||
| 梦写手 | 腾讯 | 腾讯财经 | 财经新闻写作 | ||
| 快笔小新 | 新华社 北京大学 中国传媒大学 | 新华社 | |||
| Xiaomingbot | 头条实验室 | 今日头条 | 财经、体育新闻写作 | ||
| 薇拉 | Yandex | Yandex | 交通、天气新闻写作 | ||
| 编校 | Tensa | Tensa | 《经济学人》等1 000多家机构 | 拼写检查、文字风格检查 | 自然语言处理 |
| Style-Checking Tools | 美联社 | 美联社及其用户 | 拼写检查、风格检查、语法检查 | ||
| 黑马校对 | 黑马飞腾 | 人民网、新华社等 | 词语检查、禁用词过滤 | ||
| 字根校对 | 字根科技 | 不详 | 句子通顺度检查、敏感词过滤 | ||
| 分发 | 无 | 《纽约时报》 | 《纽约时报》 | 新闻聊天机器人 | 自然语言处理(语音识别、语义识别) |
| Quartz | Quartz | Quartz | 文字交互式新闻客户端 | ||
| 百度新闻 | 百度 | 百度新闻 | 内置文字新闻交互服务 | ||
| 下文 | 原中国人民广播电台 | 下文APP | 基于关键词匹配的新闻推送 | ||
| Alexa | 亚马逊 | 亚马逊 | 语音交互式新闻 | ||
| 天猫精灵 | 阿里巴巴 | 天猫精灵 |
注:①根据网络公开数据整理。
2.1 新闻采写领域的应用
在新闻采写方面,新闻媒体希望借助人工智能技术突破记者的时空限制。
1)采访辅助程序及机器人记者的出现使自动化采访成为可能。
采访辅助程序有两种应用思路。一是事实核查,如2013年美国《华盛顿邮报》推出的事实核查平台真相讲述者(Truth Teller),可以比对政治人物的演讲内容与历史资料库,判断其演讲是否属实[4]。二是线上采访,如嗡嗡喂(BuzzFeed)基于“短讯”(Messager)平台开发的聊天机器人“嗡嗡人”(Buzzbot),能向订阅用户发出“线上采访”邀请,以获取新闻信息[5]。我国新闻媒体常将机器人记者用于会议新闻采访。如湖北广电2016年开始使用机器人记者“云朵”进行两会报道[6],它能自动寻找采访对象,并与其进行简单的语言交流[7]。与“云朵”类似的机器人记者还有新华社特约记者“佳佳”[8]。
2)自动化写作程序大幅提升了新闻文本的生产效率。
2.2 新闻编校领域的应用
20世纪末,新闻编辑室就开始使用校对程序。自然语言处理技术的进步提高了校对程序的准确度,还新增风格、语法检查等功能,进一步提升了新闻编校人员的工作效率。
坦莎(Tansa)成立于1995年,目前服务于新闻日(Newsday)、经济学人(The Economist)、经济时报(Financial Times)等一千多家媒体机构,向其提供多语言环境下的拼写检查与文字风格检查工具。类似应用还有美联社(AP)推出的写作风格检查工具(Style-Checking Tools)[13]。中文校对软件出现稍晚,2004年前后,黑马校对开始进入新华社、人民日报、中国日报等各大媒体的编校系统。目前,黑马校对也运用人工智能技术提升校对效率
2.3 新闻分发领域的应用
智能化是数字时代新闻分发的主要特征。借助自然语言处理和数据挖掘技术,新闻聊天应用与智能新闻终端能够提供交互式的新闻体验。
3 新闻业专用人工智能的关键技术与研发模式
目前来看,在新闻业广泛应用的专用人工智能技术种类有限。由于存在技术与数据壁垒,新型数字媒体在人工智能研发方面占据了绝对优势,传统新闻媒体技术研发能力较弱,两类新闻媒体在人工智能应用的研发中采取了不同的模式。
3.1 关键技术
现阶段来看,新闻业应用最普遍的人工智能技术为数据挖掘(data mining)与自然语言处理(natural language process)。数据挖掘技术为采访提供更广泛的新闻线索与信息源,自然语言处理能提高新闻文本的写作、编校效率,并实现交互式的新闻体验。
数据挖掘是从大量数据中挖掘或抽取出知识的过程,难点在于数据清洗,即将“脏”数据转化为“干净的”数据。新闻采编使用的数据源包括专用数据库和网络数据。专用数据库数据结构规范,但信息维度有限,如财经报道常用的公司财报、大盘信息等数据。非结构的网络数据信息量大,维度丰富,数据挖掘难度较高,如《纽约时报》的Blossom用于监测热点的社交网络数据[16]。
自然语言处理以人机对话为导向,通过语音识别、语义识别和自然语言生成等技术实现。语音识别能将语音转化为文字,语义识别通过词聚类、建立语言模型等方式抽象文本意义[17],自然语言生成将数据嵌入模板生成可读文本。机器学习算法能提高处理速度与准确率,丰富模板类型,改善人机交互体验。
3.2 研发模式
在人工智能应用的研发中,新闻媒体根据自身技术实力,通过购买技术服务、自主研发或合作研发三种模式实现智能化创新。
向科技公司购买产品或技术服务的模式最为常见,如国内外媒体购买的黑马校对、坦莎、机器人记者等。2010年以来,美联社、雅虎、《福布斯》杂志等新闻媒体还从自动洞察(Automated Insight)和叙事科学(Narrative Science)两家公司购买自然语言处理服务
采取自主研发模式的新闻媒体多为科技公司,如嗡嗡喂的开放实验室(BuzzFeed Open Lab)、今日头条的头条实验室等。英国“全数字化新闻媒体”Quartz还将新闻编辑室与技术部门协同办公[19]。仅有少数传统新闻媒体参与人工智能产品研发,如《纽约时报》的Blossom、美联社的风格检查工具等。
4 结论与反思
尽管人工智能因高效率、低成本的技术特点备受关注,但其尚不能成为主导新闻业运行的技术力量。在新闻业发展与新闻传播学研究层面,专用人工智能技术的应用还引发了新的问题。
4.1 研究结论
(1)应用领域层面,人工智能技术在新闻业的采写、编校、分发领域均得到了应用,使新闻生产、流通的自动化水平得到提升。从应用场景看,人工智能实现了线上采访、事实核查及新闻交互方面的创新,同时改善了自动化写作、编校程序的工作效率与准确度。但从应用效果看,人工智能技术的不成熟导致自动化写作仍受题材限制,智能新闻交互体验不佳。因此,人工智能技术在新闻业的应用仍处于探索性阶段。
(2)关键技术层面,现阶段数据挖掘与自然语言处理技术对新闻业的影响最大。借助数据挖掘技术,动态的网络信息可被用于新闻的自动化采写与事实核查。机器学习模型的进步,使自然语言处理技术发展迅速,最终表现为自动化写作更生动、文本校对更准确、新闻交互更流畅。
(3)研发模式层面,谷歌、嗡嗡喂、百度等提供数字新闻服务的科技公司技术优势明显,在人工智能的应用创新上走在了传统新闻媒体的前面。只有少数传统新闻媒体拥有人工智能技术团队,能够在应用层面开展独立研究或合作研究。在智媒革命的大潮下,技术研发能力较弱的新闻媒体只能通过购买产品服务的方式实现智能化创新。
4.2 研究反思
专用人工智能的应用在提升新闻生产效率、提升新闻交互体验的同时,也使新闻业及新闻传播学研究面临新的问题。
1)在技术逻辑的支配下,新闻生产的内爆(implosion)效应进一步深化,并表现为新闻业的真实性危机。
从数据挖掘和自然语言处理的技术属性看,人工智能在新闻业的应用是以提高速度和自动化水平为导向的。数据挖掘的技术逻辑是从数据中找数据,自然语言处理技术的进步直接表现为“洗稿”难度的降低。从技术角度看,人工智能的应用客观上为内爆逻辑下的新闻生产提供了便利。事实上,20世纪50年代的研究者就意识到电脑系统的“垃圾进-垃圾出”(Garbage In-Garbage Out)法则,品质不佳的数据经过电脑系统处理后输出的仍旧是垃圾信息[25]。因此,人工智能的应用在提高新闻时效性、降低新闻生产成本的同时,有进一步深化新闻真实性危机的可能。特别是在政治新闻核查方面,既然“政治声明本身就是包含着预设立场和价值观的”[26],用数据证明数据的事实核查程序Truth Teller何以担负起真伪判断的重任?
2)与真实性危机并存的还有技术伦理困境。
技术错误还可能导致严重的社会危机。2017年6月,《洛杉矶时报》使用的地震机器人出现故障,通过推特账号虚报了一则地震消息。《洛杉矶时报》随后删除了推文,解释称“已经删除了那条假新闻,那是1925年的一场地震”[29]。这则错误的地震消息虽然没有引发大范围的社会动荡,但暴露出技术风险仍值得警惕。人工智能发布虚假新闻的后果应由谁来负责?在这一问题有明确的司法解释前,新闻媒体在灾难新闻报道中必须注意速度与准确性平衡。
3)受基础模型与运算能力限制,通用人工智能尚未出现,现阶段人工智能技术的优势主要体现在生产力方面。
从现阶段的应用领域看,专用人工智能对新闻业的影响是有限的。我国新闻传播学界关于人工智能的研究热情很高,应注意厘清技术概念,避免将人工智能与大数据、虚拟现实等技术概念混为一谈,或将其他技术在新闻业的应用都视为人工智能。
从技术应用场景和创新发展模式看,现阶段人工智能对新闻业的影响可能被高估了。目前,人工智能在新闻业的应用还没有引发古登堡式的变革。融媒体背景下,科技巨头已经依靠技术优势完成了社会信息环境的再造,传统新闻媒体如何摆脱当前的发展颓势。在喧嚣的人工智能革命中,以内容生产见长的传统新闻媒体或许应重新审视未来的角色定位,重新思考新闻内容的核心价值。
参考文献
Announcing truth teller beta, a better way to watch political speech
[EB/OL]. [
/
| 〈 |
|
〉 |
