科技与出版, 2023, 42(6): 41-47 doi: 10.16510/j.cnki.kjycb.20230626.003

融媒之光

AI有声书:价值优势与未来进路*

李武1), 谢泽杭1), 杨飞2)

1)上海交通大学媒体与传播学院,200240,上海

2)上海浦东图书馆,201204,上海

摘要

随着AI语音交互和声纹识别等智能技术的发展,AI有声书很大程度上突破了人们传统认知上的局限,同时能够弥补真人有声书的不足。文章分析AI有声书相较于真人有声书的价值优势,基于媒介可供性视角提出AI有声书在未来发展中应注重平台和听众两个维度的信息生产,将听众与真人主播的互动转向听众与虚拟AI主播的互动,进而满足听众在信息生产和社交两方面的可供性需求。听觉文化复兴背景下,AI有声书完全取代真人有声书并非不可能。

关键词: 人工智能 ; 真人语音 ; AI有声书 ; 可供性 ; 文语转换

PDF (1656KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李武, 谢泽杭, 杨飞. AI有声书:价值优势与未来进路*. 科技与出版[J], 2023, 42(6): 41-47 doi:10.16510/j.cnki.kjycb.20230626.003

声音媒介自人类社会发轫之初便与人们相伴共生。但长期以来,视觉经济占据主导,甚至形成视觉霸权,作为人类重要感官的耳朵成为视觉的附庸。[1]不同于视觉所具有的方向性、距离感、客观性、外部性,听觉提供了更为沉浸、更具主体感受的传播体验,给予听者涉身的经验和情感察觉。[2]

借助移动设备的便携性、轻量化优势,听觉文化在近年来走向复兴。有声书产业方兴未艾,成为听觉市场的主力军。根据美国有声书协会的定义,有声书是指“包含不低于51%的文字内容,复制和包装成磁带、高密度光盘或单纯数字文件等形式进行销售的录音制品”。[3]由此,有声书从载体上可以分为磁带型、光盘型和网络数字型三种,前两种是有形的,后一种是在线的,但它们都是电子技术的产物,属于可以用声音表达的电子书籍形式。[4]单纯的声音、歌剧、戏曲等不涉及传统意义上书籍概念的有声产品一般不被纳入有声书的范畴。根据诵读主体,有声书可进一步分为真人有声书和人工智能AI(artificial intelligence,以下简称AI)有声书,前者由真人诵读,后者则是基于人工智能技术的语音合成。

技术进步使有声书研究长盛不衰。在以往的研究中,研究者从不同角度对有声书的诸多方面开展了多维探索,包括有声书的国外发展[5,6]、产业发展[7,8]、版权管理[9,10]、用户行为[11,12]等。但截至目前,鲜有研究深入探讨AI有声书和真人有声书在未来发展的替代问题。事实上,随着AI语音交互和声纹识别等智能技术的不断发展,AI有声书的朗诵水平已经可以媲美真人有声书,而并非传统观念上呆板、错误率高的机器播报。此外,AI有声书还在生产效率和价格等方面具有诸多优势。人工智能生成内容(artificial intelligence generated content,以下简称AIGC)技术有效提高了AI有声书的内容生产效率。换言之,AI有声书很大程度上已经突破了人们传统认知上的局限,同时能够弥补真人有声书的不足。那么,AI有声书未来能否完全取代真人有声书?本研究尝试在听觉文化复兴的背景下探讨这一问题。

1 声音创造价值:有声书的发展意义

从文化视角看,声音有助于人类的知识获取。自文字出现以来,特别是印刷术使得文字得以大规模传播以后,文化传播开始逐渐以视觉为主导。20世纪图像的兴起加速了这一趋势,互联网的出现则将视觉文化推入新的高峰。随着视觉在现实社会的肆意扩张,视觉霸权在当今的哲学、政治、文学和社会文化生活等领域受到了诸多怀疑和批判。[13]数字和网络技术在照亮某些事物的同时,也让另一些事物遁入晦暗——疲惫却贪婪的视力无节制地消耗着物理时间和精神时间,限制了生理机制中其他感官的感知空间和认知能量。[14]在视觉文化如日中天的1997年,德国后现代主义美学家沃尔夫冈·韦尔施率先在其《重构美学》一书中发出“听觉转向”的号召。此后,从“视觉叙事”转向“听觉叙事”的呼声不绝于耳。学者们认为“看”和“听”都是人类获取信息的重要方式,视觉系统和听觉系统都具有重要的作用,两者不可偏倚。诚如本雅明的观点所示,恢复听觉文化与视觉文化的平等性,能使感官间形成互补,形成更多样的文化,是人类感官与文化达到平衡的关键。[15]

从产业视角看,在视觉经济市场趋于饱和的当下,听觉经济仍处于蓝海市场,声音是创造经济价值的重要力量。上海图书馆与樊登读书App发布的《2022年阅读趋势研究报告》显示,有声书市场从2016年的2.18亿人发展到2020年的5.69亿人,5年间增加了约161%。特别是2020年以来,受疫情影响,58.8%的用户增加了听书的时间。[16]相比于用户规模几近饱和的视觉经济市场,听觉经济市场正处于高速发展阶段。以有声书为代表的听觉产品,最早应用于特定的小众群体——视障群体。由于移动场景的普及和多任务并行工作的需要,有声书日益被越来越多的人群认可和使用。有声书为运动、做家务等视觉媒介难以被使用的移动化场景提供了知识传播的可能,它充分利用碎片化时间,让听众在零散时间里通过听书方式完成阅读,使听众既完成既有任务,又通过声音获取知识。[17]此外,终端智能设备的发展进一步扩展了有声书市场。例如,华为旗下的智慧汽车AITO搭载国家5G声音新媒体平台“云听”车载系统,喜马拉雅推出智能音箱“小雅”等,有声设备将有声书融入各个生活场景,有声书的潜在受众面由此不断扩大。

2 “声”临其境与“声”生不息:AI有声书的价值优势

早期有声书以真人诵读为主,但随着AI技术及语音合成技术的发展,这些新技术现已广泛应用于AI有声书。在声音层面,AI有声书的诵读能够媲美真人、质量稳定。在生产层面,AI有声书能够及时更新、价格低廉,AIGC的推出甚至能够帮助AI有声书实现自主生产。

2.1 声音媲美真人

借助技术的发展,AI有声书在诵读质量上已经足以媲美真人有声书。文语转换(text to speech,以下简称TTS)技术是将计算机产生的或外部输入的文字信息转变为可以输出的听得懂的流利口语,是AI有声书发展的关键技术。TTS技术在发展之初水平有限,存在机械感重、识别准确率低等问题。听众使用合成语音听书体验较差,无法同真人有声书相媲美。但随着AI技术的进步,神经网络、深度学习等AI技术为TTS技术赋能,“TTS+AI”的组合使得电子合成语音愈发自然和准确。例如,Tacotron、WaveNet和Parallel WaveGAN等先进的语音合成技术可以生成更贴近真实的人类语音,在音调、语速和语调等方面相比以往更加自然。在“2021国际语音合成大赛”的测试中,微软的“Uni-TTS v4”语音合成技术模型的语音表现与通用数据集上的自然语音相比几乎没有明显差别。[18]喜马拉雅运用TTS技术还原已逝的单田芳先生的声音,并用单先生的AI合成音演绎听众耳熟能详的经典之作,听众基本区分不出是真人录制还是AI录制。[19]

2.2 质量稳定

除声音自然度、复刻接近度方面媲美真人有声书之外,AI有声书具有更加稳定的质量,具体表现在以下四个方面:首先,一致性。真人主播在诵读时,可能受到外部环境或自身因素影响,致使有声书录制品质出现波动。相反,AI有声书受到人和环境的影响较小。通过设定程序,便可使AI有声书从头至尾维持一致的质量、风格和水平。其次,清晰度。人类朗读者在发音上存在一定程度的差异,而AI有声书的语音合成技术可以产生清晰、易懂的发音,使听众能够更好地理解和领会内容。再次,低错误率。人类朗读者在长时间朗读过程中难免出现错误,AI有声书则可以在朗读过程中避免错读、漏读等问题。最后,AI有声书独特的质量评估优势。AI有声书可根据听众使用时切换参数、频繁暂停等行为反馈,找出生成过程中的问题和不足,通过机器自学习,调整模型参数、优化算法等方式对模型进行优化,进而提升AI有声书的质量稳定性。

2.3 自主生产

与真人有声书相比,AI有声书在某种程度上已经具备自主生产能力,表现在基于文本的语音生成和自主内容创作两个方面:一方面,基于文本的语音生成。Google公司的Tacotron和OpenAI公司的WaveNet,能够自主产生非常自然、流畅的语音。应用了TTS技术的AI有声书可自主将纸质书等文本转换为音频,还可实现对文本内容的深入理解,从而生成正确的发音、语调和节奏。2022年4月21日,AI有声书《智能交通》在喜马拉雅App上线。这部有声书基于百度董事长兼CEO李彦宏所作《智能交通》一书,使用李彦宏约300句公开语音数据,通过AIGC技术自主生产几近于李彦宏原声的AI有声书。另一方面,自主内容创作。AI可以用于创作新的故事或文章。使用基于大型预训练语言模型(如GPT系列)的AI系统,可以生成连贯、有趣的文本。在此基础上,利用TTS技术将文本转换为音频,从而实现从文本到语音的自主生产流程。

2.4 更新及时

真人有声书的录制需要经过主播熟悉稿件、诵读、剪辑等流程,录制期间可能因稿件或诵读错误不得不返工。因此,真人有声书的生产周期往往较长,还可能出现断更情况,更新频率不能得到保障。与此形成鲜明对比的是,AI有声书的制作简单快捷,利用TTS技术可以实现快速的文语转换。例如,喜马拉雅语音实验室的文语转换速度可达到每分钟3 000字,从技术角度看,完全可以实现有声书产品一经推出便直接上架全集的目标。即使文稿出现错误,AI有声书亦能迅速修改调整,极大缩短了有声书的生产周期。

2.5 价格低廉

传统有声书往往采取真人录制的方式,录制环节冗长,对轨和审听依赖人工,导致制作成本高昂。将一本200万字的长篇小说制作成真人有声书至少需要花费10万元。相比而言,除了与真人有声书录制同样存在的一些成本支出(如购买版权),AI有声书采用AI录制、自动对轨、AI辅助人工审听等方式实现了制作快速、成本低廉的目标。例如,在Reflect Audio推出的有声读物制作平台上,AI主播的制作速度超过500万字/天,录制成本可节省90%以上。因此,低价甚至免费的有声书产品层出不穷,这无疑进一步扩大了AI有声书的潜在听众规模。

3 真人还是机器:AI有声书的未来进路

如前文所述,以有声书为代表的听觉经济,正逐渐成为文化和经济价值创造的关键,有声书产业将会进一步发展壮大。伴随着技术的发展,AI有声书的声音质量可以媲美真人有声书,此外还具有产品质量稳定、自主生产、更新及时、价格低廉等优势。但亦有研究提出,受听众收听习惯、情感需求等影响,AI有声书很难替代真人有声书。[20]换言之,关于“真人还是机器”这一问题,不能仅从技术层面上探讨AI有声书“能否替代”真人有声书,还涉及技术发展逻辑背后的听众文化、惯习、情感上的改变。由于可供性理论同时强调技术的重要作用和用户感知[21,22],因此该理论可为未来有声书录制者是“真人还是机器”这一问题提供了很好的思路借鉴。

随着可供性理论在传播学中的应用,越来越多学者将可供性用于媒介研究。“可供性”的概念最初由生态心理学学者詹姆斯·吉布森提出,指涉生物或行为主体在物理环境中潜在的各种行动的可能性,它源自主体对效用的主观感知与技术的客观品质之间的相互作用。[23]一般而言,功能是静态的,而可供性是动态的,它体现在用户、对象及其特征之间的关系中。例如,人们可能会对有声书的功能形成共识,但对其可供性的认知则会因人而异。从可供性视角解读未来有声书录制者是“真人还是机器”,本质上是从平衡技术和用户的视角,探讨未来AI有声书能否更好地满足个体听众的需求。

截至当前,传播学界已经提出多种可供性与媒介研究的框架。其中,潘忠党所提出的三分法运用最为广泛,且得到学界的普遍认可。他将可供性分为移动可供性、信息生产可供性和社交可供性。[24]笔者借鉴该分析框架,根据AI有声书特性,提出AI有声书的未来发展进路。无论是真人有声书还是AI有声书,二者均是在满足移动可供性的基础上,运用不同主体生产有声书,在移动可供性方面没有本质差异。AI有声书主要在生产维度和社交维度受到较大质疑,这两点正好可放置于信息生产可供性和社交可供性的框架下予以分析。

3.1 信息生产可供性视角下的AI有声书发展进路

信息生产可供性包括平台生产信息的主体性和听众生产信息的能动性两个方面。虽然AI有声书在生产维度具有更新及时、价格低廉和自主生产的优势,但亦有研究证实,用户普遍存在“人工智能厌恶”,表现为对算法不信任、对机器人持有偏见、对真人高度偏好,导致用户更愿意选择真人生产的内容产品。[25]因此,从生产可供性角度探讨AI有声书能否替代真人有声书,可聚焦AI有声书在生产维度的发展进路,进而讨论“真人还是机器”的问题。

3.1.1 平台生产维度中的AI有声书发展进路

在平台生产维度,AI有声书实现了真人有声书无法匹敌的规模化生产,“TTS+AI”技术能够实现有声书产品一经推出便可直接上架全集。但是,规模化生产致使听众对AI有声书形成了刻板印象——批量化生产导致有声书质量低下,AI有声书难以体现真人的诵读情感。事实上,随着情感合成等技术的不断成熟,AI有声书已经能够体现较为丰富的情感,实现诵读时的抑扬顿挫。虽然目前AI有声书在情感表现力方面暂时还不占据绝对优势,但若进一步在情感合成技术上下功夫,AI有声书替代真人有声书并非天方夜谭。

具体而言,AI有声书制作方可在以下三个方面发力:①AI系统需要具备较高的语义理解能力,如上下文理解能力。系统需要理解整个故事的情节和主题,根据文本内容和不同情境使用适当的语调、语速和节奏。②完善情感合成技术,提升合成声音的真实度和情感表达能力。AI有声书需要模拟人类在表达情感时的微妙变化,如颤音、哽咽等,从而使AI有声书在情感传达上更接近真人表现。③AI有声书在处理多角色对话和场景转换时,需要灵活调整声音和音效。这意味着AI系统需要深入了解不同角色的性格、年龄、身份等特点,以便为他们赋予合适的声音特征。同时,在场景转换时,AI有声书应能够迅速切换声音和音效,为听众呈现一个立体、真实的故事世界。

此外,为了打破听众对AI有声书的偏见,生产平台可重点培育具有人格化特征的AI头部主播,让听众产生类似收听真人主播的“错觉”。例如,喜马拉雅培育的AI主播“喜小道”,从个人简介到动态更新,均具有极强的人格化特征,有效提升了听众对AI主播的情感接近性。据报道,“喜小道”在上线一年后收获近8万粉丝。

3.1.2 听众个性化生产维度中的AI有声书发展进路

从听众个性化生产维度来看,AI有声书在未来很可能完全替代真人有声书。由于版权问题,有声书平台通常只会为一本原著制作一本有声书。对于特定听众而言,录制有声书的真人主播可能并非自己心目中的最佳人选,且反复收听一位真人主播录制的有声书难免产生审美疲劳。相反,有赖于风格迁移、音色克隆等技术,AI有声书能够为听众提供多种多样的声音选择,除切换男女声之外,还可选择名人或名主播的声音(如喜马拉雅复刻的单田芳的声音),或定制其他个性化参数(如语速和背景音效)。换言之,每位听众可根据自身喜好,生产与众不同的AI有声书。但目前AI有声书的个性化生产仍处于探索阶段,听众可以选择的声音和音效较为有限。因此,未来AI有声书可进一步把握好真人有声书所不具备的个性化生产优势,进一步发挥听众的主观能动性,将听众纳入AI有声书生产维度。

在听众个性化生产维度中,AI有声书制作方可在以下四个方面发挥听众主观能动性:①协助内容策划。听众可以参与有声书选题策划过程,提供题材、作者、风格等方面的建议,帮助AI有声书制作方确定选题。②提供语音样本。听众可以提供自己的语音样本,帮助AI学习更自然、更多样化的发音和语调,或定制听众独有的语音库。③参与角色设定。听众可以为每个角色提供特征建议,如声音的音色、音调、音量、语速等,帮助AI为每个角色赋予独特的声音特征,突显他们的个性。④共同探索互动式听书模式。待上述选题策划、语音样本、角色设定功能较为成熟后,AI有声书可引入更多互动元素,如选择性剧情、角色扮演等,让听众根据自身喜好深入参与AI有声书的故事创作。

3.2 社交可供性视角下的AI有声书发展进路

社交可供性指是否为用户建立了网络连接和社会交往的能力,尤其表现为打破基于血缘关系的熟人社会,形成更多基于地缘、趣缘、业缘关系网络的能力。在社交媒体时代,大多数媒介除了提供信息获取和消遣娱乐的功能之外,还积极服务于用户的社会交往需求,有声书也不例外。因此,人与人的互动在真人有声书中十分重要,听众与真人主播之间的互动常被认为是真人有声书无法被取代的优势。那么,从社交维度看,AI有声书真的无法取代真人有声书吗?对此,笔者提出改变社交可供性在有声书领域的内涵,将听众与真人主播的互动转向听众与虚拟AI主播的互动。

在围绕真人有声书打造的虚拟社区中,人与人的互动除了听众之间的互动之外,就是听众与真人主播的互动。从社交可供性的角度来看,听众与真人主播的互动未必能很好地满足听众需要。受限于时间和精力成本,真人主播(甚至是管理团队)不可能时刻关注评论区或讨论群,导致回复消息或发起话题的次数较少。由于部分知名主播的听众规模庞大,即使主播团队投入大量时间,亦无法做到一一回复。因此,真人有声书的社交可供性只能满足部分听众需要。此外,与部分头部真人有声书主播火热的社群讨论氛围形成鲜明对比的是,大多数真人有声书的社群都面临被听众束之高阁的尴尬境地。

在围绕AI有声书打造的虚拟社区中,AI有声书听众之间的互动跟真人有声书听众之间的互动并无差异,但AI有声书听众与主播的互动对象不再是真人主播,而是虚拟AI主播。AI主播具有一项真人主播无法比拟的优势,即回复快速性。历经数十年的发展,人机交互技术已经十分成熟,无论是在评论区还是在讨论群,AI主播均能根据大数据算法,用极短的时间回复听众的评论或留言,很大程度上为每位听众提供了较强的社交可供性,AI有声书在社交可供性方面具有很大的发展潜力。但是,AI有声书制作方目前更多专注声音技术的完善,对社交功能的重视程度不够,致使听众与虚拟AI主播的互动性不强,AI主播还经常出现答非所问的情况,降低了听众的社交可供性感知。因此,AI有声书制作方需要积极关注人机交互技术的发展和应用,使AI主播成为更智能的数智人。

作为数智人的AI有声书主播,在社交可供性维度的发展进路包括:①优化智能问答功能。通过提高AI主播的智能问答能力,使其能够更准确地回应听众的提问,甚至主动引导听众参与讨论,从而增强听众的参与感和满意度。②加强跨平台互通。实现AI有声书跨平台互通,让听众在不同设备和应用上都能轻松地与AI主播互动,享受无缝的用户体验。③探索多样化的AI有声书互动形式。除了传统的评论区和讨论群,AI有声书制作方还可以尝试引入一些创新的互动形式,如创建语音聊天室、定期举办AI主播线上问答活动等,加强听众对AI有声书的情感认同。

4 结语

古语有云,闻其声而知其人。但在AI有声书逐渐壮大的当下,闻其声未必知其人。随着听觉经济的崛起,有声书受到越来越多听众的青睐。凭借声音媲美真人、质量稳定、自主生产、更新及时、价格低廉等优势,AI有声书日益在有声书市场站稳脚跟。鉴于可供性理论的分析框架,不论是在信息生产可供性还是社交可供性方面,AI有声书正逐步实现甚至超越传统观念中真人有声书无法被替代的生产优势和社交优势。

鉴于此,笔者认为AI有声书在未来很可能完全取代真人有声书。在现实世界外,在有声书的私域空间内,有声书不再只是真人对真人的单向度传输,AI主播也不只是“嘿,Siri”式的简单语音助手。AI与有声书的结合,将使AI有声书朝数智人的方向迈进,成为更具智慧的声音伴侣。人们通过AI有声书获取知识,通过与AI主播互动满足社交需求,这将是未来有声书的发展图景。

基金项目:本文受国家社科基金项目“社会化阅读对在线社会资本和知识构建的影响研究”(19BXW019)和上海交通大学文科创新团队(媒介心理)培育计划项目的资助。

参考文献

陆涛.

文化传播中的听觉转向与听觉文化研究

[J]. 中州学刊,201412):95-99.

[本文引用: 1]

STERNE J. The audible past:cultural origins of sound reproduction[M]. DurhamDuke University Press2003.

[本文引用: 1]

张建凤.

欧美有声书发展现状、原因与服务类型

[J]. 科技与出版,20175):89-94.

[本文引用: 1]

耿相新.

出版对象论

[J]. 现代出版,20225):41-59.

[本文引用: 1]

庄廷江.

美国有声书出版与发行模式探析

[J]. 出版研究发行,20172):89-92,105.

[本文引用: 1]

朱娟李永发.

美国有声书产业发展现状及对我国的启示

[J]. 科技与出版,20193):47-51.

[本文引用: 1]

陈洁周佳.

使有声书成为数字出版的中流砥柱:我国有声书产业发展现状与策略研究

[J]. 出版广角,20154):22-26.

[本文引用: 1]

王宇孙鹿童.

2CM理论视野下的有声书发展模式及营销策略

[J]. 中国广播,20224):9-13.

[本文引用: 1]

王辉.

有声书版权集中管理的必要性和模式设计

[J]. 现代出版,20192):52-54.

[本文引用: 1]

郝明英.

人工智能语音合成有声书著作权保护研究

[J]. 中国出版,20231):55-59.

[本文引用: 1]

叶阳张美娟王涵.

有声书APP用户使用行为影响因素分析

[J]. 出版发行研究,20177):38-41,34.

[本文引用: 1]

高志辉.

付费有声书知识服务满意度研究:以“樊登读书”为例

[J]. 情报科学,20205):98-105,119.

[本文引用: 1]

李盈盈单世联.

论当代文化的听觉转向

[J]. 天津社会科学,20203):57-64.

[本文引用: 1]

翟红蕾谢晓枫陈一凡.

听觉文化回归背景下移动音频的内容与功能建构

[J]. 新闻与传播评论,20224):33-47.

[本文引用: 1]

汉娜·阿伦特. 启迪:本雅明文选[M]. 张旭东王斑. 北京生活·读书·新知三联书店200895.

[本文引用: 1]

徐明徽.

上图与樊登读书发布阅读趋势报告:数字阅读、知识付费飞速发展

[EB/OL].(2022-04-28)[2023-02-08]. .

URL     [本文引用: 1]

王娟娟.

我国有声书发展的现状、困境与破局

[J]. 科技与出版,202112):63-67.

[本文引用: 1]

IT之家.

微软Neural TTS新模型呈现真人般情感饱满的AI语音

[EB/OL].(2022-01-27)[2023-02-08]. .

URL     [本文引用: 1]

中商网.

喜马拉雅利用TTS、ASR等AI技术,全面赋能内容生产、提升用户体验

[EB/OL].(2022-10-08)[2023-02-08]. .

URL     [本文引用: 1]

孙艳华.

阅读听书平台智能合成语音的应用进展、质量现状和用户接受

[J]. 编辑之友,202112):81-88.

[本文引用: 1]

HOGAN B J.

Networking in everyday life

[D]. TorontoUniversity of Toronto2009.

[本文引用: 1]

NAGY P, NEFF G.

Imagined affordance:Reconstructing a keyword for communication theory

[J]. Social Media + Society,20152):1-9.

[本文引用: 1]

GIBSON J JThe ecological approach to visual perception[M]. Hillsdale,NJLawrence Erlbaum1986.

[本文引用: 1]

潘忠党刘于思.

以何为“新”?“新媒体”话语中的权力陷阱与研究者的理论自省:潘忠党教授访谈录

[J]. 新闻与传播评论,20171):2-19.

[本文引用: 1]

SRIVASTARA N, MISHRA A, DWIVEDI Y K.

Investigating antecedents of adoption intention for audiobook applications

[J]. Journal of Computer Information Systems,20214):1-13.

[本文引用: 1]

/