责任编辑:
版权声明: 2018 清华大学出版社
展开
Abstract
语音交互技术是人工智能技术的重要分支,包括语音识别、语音合成和语义理解3个部分。其核心特征首先在于语音与文本之间的互相转换,其次在于从语音到语音或到功能的实现。语音交互技术从出版实务和核心概念上重构了出版业,为声音和文字的媒介融合提供了新的可能,并且为学界重新审视出版学的核心概念提供了新的视角。虽然该技术还存在着诸多局限,但依托音频数据量的不断增加和与其他信息数据的融合使用,其对出版业的重构正不断显现。
Keywords:
人工智能积极影响着人类社会生产活动,而语音是人工智能技术重要应用领域之一。近年来语音交互技术日趋成熟,数字出版领域有声读物快速发展,市场不断扩大。国内已经先后涌现200多个带有听书功能的移动平台,喜马拉雅FM、蜻蜓FM等有声读物平台已然兴起,市场竞争格局初步形成[1]。用传统的视角看,有声读物高速发展通常被视作对传统出版的补充,但摆脱既定视角,语音交互技术正在重构出版业的核心观念。本文抛砖引玉,对语音交互技术的概念,其对出版业、出版学的重构,技术本身的局限以及未来的发展进行论述,希望引起更多关注。
20世纪后半叶,计算机科学取得巨大进步,使得语音技术有了新的发展可能。计算机科学下的语音技术更多的是语音交互技术。语音交互的关键技术包括语音识别、语音合成、语义理解。语音识别技术将用户输入的语音转化为相应的文本或命令,语音合成技术将文本转换成机器合成的语音,语义理解技术从语音识别输出的文本中获取语义信息从而理解用户的意图[2]。
语音识别、语音合成和语义理解这3个部分不是彼此孤立的,它们按照不同的顺序和结构组织起来,可以实现不同的功能。它的核心特征有二,其一是语音和文本之间的互相转换;其二是从语音到语音或者某个功能的实现,语音可以被理解为命令,当命令需要一个回答的时候就会出现声音的回应。百度搜索、讯飞输入法和搜狗输入法等可以把用户的语音转换成文本,掌阅APP则可以把文字转换成语音,微软小冰、Siri等可以语音聊天或者实现用户命令,翻译机等则可以语音翻译。
可以看出,目前语音交互技术的进步在于交互性,所谓“交互”不仅仅是人与人之间的交互,还包括人与机器之间的人机交互,语音中不同语种的交互,以及声音与文字等不同传播形态之间的媒介交互。交互让原先处于受忽视状态的受众变成了具有充分主体性的用户,正是交互这一特质让语音交互技术改变了出版生态,它从出版实务和出版概念两方面重构了出版。
语音交互技术重构了出版实务,主要表现为对出版社出版流程的优化,创造出新的出版产品和新的审核管理方式。
一本纸质图书的出版,需要经过编辑的选题策划、作者的撰稿和编辑的编校后才能下厂印刷,进入营销发行面向读者。语音交互技术在选题策划、撰写稿件和编辑校对等方面均能起到优化作用。语音搜索可以放宽搜索限制,比如像微软的语音识别开发平台SAPI,只需说出想检索的内容,系统就会自动识别语音,返回检索结果,显示馆藏书刊、借阅情况等信息[3],这对于编辑搜集资料、构想选题大有帮助。采用语音识别技术,5分钟就可以将1小时音频转成文字文本,而用传统听打方式保守估计至少需要4个小时,使用语音交互技术中的语音识别提高了47倍工作效率[4]。这无疑大大提高了撰稿速度。编校中,语音交互技术可以起到重要的辅助作用。Word软件2016年版中,微软公司已经添加了朗读功能,该功能可以大声朗读文字并突出显示朗读的每个单词,这项功能是利用语音交互技术中的语音合成实施的。在实际的校对过程中,通过语音和文本的双输入,激发视觉和听觉的同步运作,可以增强大脑刺激,减少校对失误,提高出版效率。
在传统出版之外,语音交互技术还创造了新的出版产品,目前发展较为成熟的主要有3种:有声书、电子教材和翻译机。有声书是既能看也能听的电子书,不是由朗读者把书的文字内容读出来录成音频传播到网上,而是能够在文字和语音之间进行自由切换的读物。同样电子教材也不是把传统纸质教材简单地进行数字化之后上传到网络上,而是满足学习者各类学习需求的学习出版平台,能够满足学习者听课、练习、测试、拓展等学习需求的多功能平台。比如,在涉及口语学习方面,语音交互技术尤能发挥优势。外研讯飞的FIF云学习平台,包括题库、测试、训练、口语训练、外语资源库、教学评估、学术数据库和职青春8个功能就突破了传统教材和网络课堂的概念,是真正的电子教材。翻译机则是较能体现语音交互技术特色的新型出版产品,翻译机能跨越不同语种,还能跨越语音和文本的障碍,实现自由转换。图书有翻译图书,语音也有翻译语音,而且语音能实现实时翻译,翻译机是重要的出版终端产品。翻译机出版的内容不是固定的,而是根据不同情况输出不同内容,但它的元内容即用户的语音数据是用户先行供给翻译机开发商,开发商再利用这些数据为用户提供翻译服务。
语音交互技术创造了新的审核管理手段。随着近年来网络音频出版的不断发展,音频出版物的数量已经越来越多,而针对这部分音频的审核管理还没有较好的办法,相关法律法规还不完善。目前主要依靠人工进行编辑审核,效率较低,依赖出版机构自律。用语音识别和语义理解技术,可以通过设定关键词和设计算法来对音频内容进行审查,算法监测内容没有问题直接放行,监测到内容含有关键词但没有绝对把握的发送到人工编辑进行审核,明显触及红线的则直接撤掉。语音交互技术既可以对违法违规的音频即时封禁,防止其广泛传播,也可以提高审查效率。
语音交互技术在出版管理方面,也有较大的应用。出版管理包括对出版物和出版人的管理。对于以出版音频为主的出版机构来说,势必要对音频进行管理,传统方式采用对音频资源进行人工标注,效率低下、成本巨大而且不利于检索。语音交互技术可以对语音进行识别,令其转化成文本,使文本和音频打包整理,进行机器标注。这些都能大大提高管理效率。对出版人的管理则可以通过使用具有语音交互功能的办公系统、智能家具等提高出版人的工作效率。
通过对出版实务的考察,可以看出语音交互技术从多个方面重构了出版实践。其交互特性如同润滑油,让不同媒介、不同语种的信息更紧密地融合在一起,使出版物成为一种融合的出版物,而不是单一组合的出版物。不过以上的分析尚属于较为浅显的介绍,想要真正理解语音交互技术的重构力量,必须从现象描述上升到概念分析,通过概念重新把握现象的变化。
语音交互技术在向出版业扩展的过程中,也重构了出版学的核心概念,这些新的概念还不稳定,但已经向我们显露了未来的新可能。理解这些正在更新的概念,无论对学界还是业界都有重要意义,用这些概念工具可以预测未来出版业的形态,形成新商业模式。
传统的书是由文字和图像所组成的,而未来一本书将会被要求不仅可以阅读而且可以收听。随着语音交互技术的不断扩张,语音和文字融合出版的图书将会越来越普遍,直到最后完全替代只能看不能听的图书,这样传统书籍概念在未来将不再成立。重构了的书的概念不同于现在的有声读物、有声书之类,它们只是单纯的音频,且需要人力来录制,无法做到像语音交互的书一样在文字和声音之间自由切换。这类书的好处是可以规避因转换成语音而引发的版权问题,相当于取消了播讲者的版权,因为都是由机器合成的,而不需要人的参与。对业界来说,掌握语音的传播规律,是未来编辑的必备技能。
传统的阅读是指个体从印刷文字、图画、图解、图表等书面材料,获取信息或意义的过程。可以看到,传统的阅读概念将声音排除在外,并且将阅读视作从作品到读者的单向传播过程。语音交互技术将声音和用户的反馈纳入新的阅读概念中。百度新闻推出的“聊新闻”功能,人工智能会通过问题找到核心定位,然后通过语义理解技术,汇编成一段文字发给用户。如此一来,通过系统的回答,读者会对新闻要素进行有条理的建构[5]。对于“语音书”而言,用户的反馈还将包含对语音的评价。
出版是出版学的核心概念,对出版的定义有很多,但核心是复制。有学者把出版定义为“通过复制行为进行规制化知识信息生产的社会活动[6]”,这样的定义已经受到了严重的挑战。出版概念的核心由复制走向共享,由知识走向信息。复制技术从手抄到机械印刷再到电子传输的迭代升级中,复制行为本身在逐渐缺席。手抄书时代,手抄式的复制理解十分简单;印刷时代,对印刷术的理解已经有些困难了,但还算直观;到了互联网时代,除了少数了解计算机科学的人,大部分人都只是知其然,而不知其所以然。复制技术的黑箱越来越大,导致复制行为在用户的理解中逐渐消隐。应当看到复制的目的是为了共享活动,但现在更具启发意义的是共享的出版观。这是因为现在的出版主体未必意识到他的行为是一种复制,而更容易理解为是一种共享活动。Publication的原意是公之于众,就是和众人共享,复制只是和众人共享的一种手段,将出版理解为一种共享,在这个意义上可以说是向原意的一种回归。
翻译机进一步重构了人们关于出版的概念。人们已经迈入第三媒介时代,既是所有人对所有人的传播,也是一对一的传播。[7]出版主体由专业出版商走向公众个体,个人用户成为自己语音的出版者,他的语音数据被收集起来用于优化翻译,而每一个使用翻译机的用户都从其他用户的语音出版物中收益。出版的基本单元从知识变成了信息。这些语音中不全是知识,甚至可以说大部分都不是知识,但这些语音提供的信息用于更精准的翻译。在这些语音中,还包含有一些无意识的喃喃自语、梦话等看起来毫无价值的信息,但若是与心理学、精神分析学等结合,可能会为用户提供破解自己无意识的密码,助其更好地理解自己。
语音交互技术重构了出版实务和理论,但技术本身仍有不小的局限,主要有语音识别准确率低,无法理解语音后的情感,无法识别图像,语音合成的音色、语速、语种不够丰富,等等。语音识别技术准确率虽已高达97%,为了纠正3%的错误仍然要花费大量时间。1小时音频转换成文本仅需要5分钟,不过为了纠正3%的错误,仍然需要人工听声音校对,简单校对1遍的时间至少也需要1小时,2遍就需要2小时,这样算起来,实际工作效率的提高并不是47倍那么夸张。对于图书质量审核0.01%的标准来说,3%的错误率是无法接受的。这些技术上缺陷严重制约了语音识别技术的在出版业的广泛应用。
另外目前部分方言无法识别,多人同时说话识别有困难。语义理解技术的困难主要在于,无法做到全部理解,因为词语有歧义,句法有模糊,语义背后隐含的情感难以理解。语音合成技术在音色、语速和语种等方面的合成上存在不小的缺陷。语音交互技术作为整体来看,目前的交互只能在语音和文本之间进行交互,而不能在语音和图像之间进行交互,可以翻译声音和文本但难以翻译图像。类似的困难还存在于对漫画的翻译,漫画中的图像内容暂且不说,即便是漫画中的文字也很难用语音读出。
声音本身的限制同样制约了语音交互技术在出版业的推广。人的思想未必都需要经过声音的转化,它们可以直接转化成文字进行信息输出;同样,通过声音来接收信息并不是效率最高的方式,图像的信息量要超过声音,而且更容易被记忆。即便是像有声书之类的数字出版物,用户对它的接收效率也不一定比文字高,一个拥有较大阅读量的读者在阅读一本书时完全可以做到不用把文字翻译成声音再进行理解,而是大脑直接从文字中获取信息。除了文字和图像之外,还有行为本身也可以替代语音,在公共场合等不适合声音媒介的地方,用户可以直接使用点击等操作行为代替语音命令。声音在信息量、接收度和适用范围等方面的劣势制约了语音交互技术的进一步应用。
语音交互技术的发展有赖于计算机科学的进步。语音交互技术以机器学习、深度学习等为技术基础,通过广泛采集音频语音样本,形成语音大数据库,而且要尽量包含各个地区的人,以便对方言进行准确识别。各语音交互技术公司等通过开源、免费使用等手段大力推广自己的产品,以利于对数据进行收集。同时应当在全球进行布局,对世界主要语言进行语音收集,扩充自己的语种库。除了收集数据,还应该深入研究语言学,探究语言的一般结构,编写新的语言算法。AlphaGo Zero就是依靠新的算法完全超越了依靠数据量的原型AlphaGo。
由于语音本身的缺点,语音要与其他信息数据结合,取长补短,发挥更大优势。语音互动技术应与图像识别等技术进行融合,增加更多互动的媒介。此外,将语音音频数据与其他数据相结合,判断用户的个性化喜好,形成个性化语音服务。
语音交互技术的相关公司还要提前布局声纹版权。声纹是用电声学仪器显示的携带言语信息的声波频谱。声纹的重要特点是无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。提前做好名人明星等声纹版权的引入工作,用其授权合成语音可以做到完全和本人说话一样。明星的声音可以满足部分特定用户的需求。虽然目前的相关版权法律明显缺失,但提前布局可以在未来的法律纠纷中占据优势。
依靠广泛的语音数据、新的语言算法、与其他数据媒介相结合和布局声纹版权等方式,语音交互技术对出版业的重构将不断显现,未来已经向我们展露了它的面目。对于出版人来说,思考用户对语音接收的习惯和规律,注重反馈,从共享的角度看待出版活动,以信息为基本单位进行传播等,将会成为未来出版人的必备素质。率先认识到这些素质重要性的出版人或出版机构,将在未来的竞争中获得先机。对于学界来说,在新媒体时代重新思考出版学科的合法性问题,重新搭建学科根基则变得尤为重要。一些学者已经做出了尝试,提出了新的说法,拙文提出的共享说希望能开启一个新的角度来思考这个问题。
| [1] |
中国数字出版产业年度报告课题组. “十三五”开局之年的中国数字出版:2016—2017中国数字出版产业年度报告主报告(摘要) [J]. |
| [2] |
移动智能终端语音交互技术现状及发展趋势 [J]. |
| [3] |
语音识别技术在数字图书馆检索系统中的应用 [J]. |
| [4] |
人工智能技术在传媒领域的应用:以智能语音技术为例 [J]. |
| [5] |
文化人类学视野下人工智能新闻内容生产再思考 [J]. |
| [6] |
融合出版环境下对“出版”概念表述的再思考 [J]. |
| [7] |
沉浸传播与“第三媒介时代” [J]. |
/
| 〈 |
|
〉 |