出版产业视域下的AI赋能与冲击研究
关键词:
本文引用格式
李强辉.
近年来,当我们激动于数字技术对知识组织、检索的重构,进而提升知识再生产效率,兴奋于互联网对个体网民的激活与赋能,进而扩大内容生产主体时,AI大模型的突然爆发,使很多人相信AIGC(AI Generated Content,人工智能生成内容)将成为继PGC(Professional Generated Content,专业生产内容)、UGC(User Generated Content,用户生成内容)之后,在Web3.0时代主流的内容生产模式。[1]出版的本质是内容生产与传播,AI在内容生成上的革命性突破,与现代出版在主客体上交汇碰撞,必将给出版带来新的机遇和挑战。本文从产业角度分析AI对出版的赋能与冲击,以期为科学认知及产业应对提供参考。
1 内容生产模式演进与新生产力工具
互联网内容生成模式从PGC、UGC发展到AIGC,内容生产的主体、方式、效率等均发生根本性变革,代表了先进生产力的一个发展方向。2022年底,OpenAI推出ChatGPT(Chat Generative Pre-trained Transformer,对话生成预训练Transformer模型),成为用户增长最快的消费级应用。[2] ChatGPT是生成式AI工具,基于深度学习模型,在算法优化、语料支撑、超强算力的加持下,表现出惊人的语言理解、文本生成、逻辑推理等能力,开启AIGC新模式。
1.1 内容生产模式演进
一般认为PGC、UGC、AIGC分别代表从Web1.0到Web3.0的主要内容生产模式,AIGC是内容生成模式不断演进的结果,代表着AI从“感知理解”世界到“生成创造”世界的跃迁,AIGC的爆发加速了互联网内容生产主体的裂变、方式的变革和效能的提升。
Web1.0是门户网站时代[3],以PGC模式为主要特征,以HTTP网页技术为基础,具有静态为主、单向传播的特点,一般由专业机构或专业人士生产内容,具有较高的门槛,比如大型门户网站、具有一定深度的博客等。图书、期刊等出版物具有PGC专业内容生产特征。
Web2.0是交互读写时代[3],以UGC模式为主要特征,以XML、AJAX等动态内容技术为基础,具有动态交互、算法推荐的特点,用户高度参与内容生成和传播,具有较高的社交媒体属性,比如微信等自媒体、抖音等短视频平台。UGC出版物极少,个别数字出版平台虽具有用户生产内容的特征,但尚未占据主流地位。
目前,AIGC技术尚不完全成熟,AI辅助用户创作生产成为当前热点,可以视为向AIGC进化的过渡阶段。
1.2 新生产力工具
AIGC已经成为内容生成领域具有跨时代意义的新生产力工具。过去传统智能偏向于分析能力,如个性化推荐算法。而AIGC是具备生成创造能力的生成式AI,可以基于训练数据和生成算法,自主生成创造新的文本、图像、音乐、视频、3D交互等内容和数据,以及开启科学新发现、创造新的价值和意义等。[5]
AI大模型作为数智时代的“底座”,是新生产力工具的代表。以ChatGPT为代表的大模型在数据训练自主学习和人类反馈强化学习的基础上智能“涌现”,在智能回答、内容创作、代码编写、语言翻译等内容生成方面表现突出,在各种职业考试中的表现已与人类水平相当。GPT-4不仅支持多模态,还开放API(应用接口)和Plugin(插件),功能大幅扩展,智能显著提升:在开放API后,除了支持对话聊天,还支持第三方应用调用,提升服务的智能水平,激发新的产业潜力;在嵌入插件后,扩展应用场景,可以使用人类创造的其他工具,如访问互联网、语音交互、数据可视化及电子商务等。Science研究论文发布首个实验证据,证实ChatGPT能够显著提高人类生产力。[6]
大语言模型(LLM)是大模型的核心和多模态的基石,各种大模型风起云涌,发展进化速度极快。在ChatGPT发布以来的数月内,谷歌巴德、百度文心、阿里通义、华为盘古、腾讯混元、讯飞星火、商汤日日新、拓尔思拓天等国内外大模型纷纷推出,有的瞄准通用人工智能(AGI),有的主打办公场景,有的专注产业应用,有的布局行业服务,还有的开放平台、打造生态,成为各具特色的新生产力工具。2024年2月15日,OpenAI文生视频AI模型Sora问世,其输出的视频效果逼真或想象力丰富,展现出模拟真实世界的潜力,把AIGC的竞争又推向了新的高度。
2 AI对出版业的赋能
基于大模型强大的语言理解生成、逻辑推理及超高执行效率等优势,AI可以赋能出版业从选题策划到编辑出版再到分发传播等多个环节,以及作者研究创作和新型知识服务等相关领域,对行业发展有许多积极影响和促进作用。
2.1 赋能研究创作
作者研究创作与出版产业发展密切相关,从产业链的角度看,有必要关注AI对上游作者研究创作的影响。AI不仅在写作、绘画、作曲等多个领域达到“类人”表现,而且展现出非凡的创意潜能,成为人类作者的助手,亦有望成为未来互联网内容生产的基础设施,激发生产活力,促进产业发展。
在论文写作时,AI工具可以从论文框架、资料收集、观点提取、外文翻译等方面提供参考,从大纲结构、文字润色等方面提升品质,与专业数据库和知识图谱配合使用,可提高内容准确性、提供可信资料来源等。文艺创作中,AIGC在生成大纲、续写扩写、角色扮演、风格变换、文本生图、视频生成等方面“才华”展现,有助于激发人类的创作灵感和创意,已成为当下流行的生产力工具。比如,科普图书《ChatGPT:AI革命》由ChatGPT辅助作者完成写作只用了18天;创意十足、细节拉满、高清逼真的AI作画已屡见不鲜,获得视频生成巨大突破的Sora亦令人惊叹;等等。
2.2 赋能选题策划
市场调研时,AI可以在调研方案设计,材料收集分类、汇总提炼、分析对比,报告起草等方面发挥作用。比如,从海量材料中提取摘要关键词、汇总分析调研数据、辅助撰写调研报告及润色文字等。基于大模型的“感知智能”和泛化能力,AIGC可以根据提示(输入)自动高效地生成(输出)具有一定指向性和随机性的“创意”内容,拓展策划编辑的选题思路,配合市场调研,为选题设计提供多样化参考。组稿约稿中,稿件体例的编制、样例的编写、规范性的检查、与作者的沟通等文书工作完全可以由擅长文本生成的AIGC辅助进行,编辑再修订把关。
消除行业信息壁垒,对接第三方出版物信息数据、市场销售数据、馆配信息数据等行业数据,再结合用户画像分析和本次选题定位,AI能够快速提取有效信息、筛选选题方向、分析选题价值、预测市场热点等,有助于优化选题策划模式,减轻编辑策划负担,提升策划的客观性、全面性、科学性。
2.3 赋能编辑出版
编辑出版是出版活动的中心环节,也是AI赋能出版生产力提升的最重要领域之一。合理运用AI工具,有助于出版生产力发展与信息时代市场需求的匹配,推动出版产业以前所未有的方式在供给侧结构性改革中迈向智能时代。
在编辑加工阶段,AI在稿件原创性检查、内容查重与学术不端检测、内容科学性与敏感词检测、内容创新性分析与审稿人推荐、文字差错检查与质量提升、稿件规范性检查与引文审查、自动预排版与格式规范以及图表媒体内容智能检测与技术审查等生产环节,正在或即将发挥生产力推动作用。例如,方正智能辅助审校云服务[11],基于方正电子高质量新闻、图书、期刊等海量语料训练形成的多模型矩阵,不仅提供字符、知识、体例、格式等几大类常规审校和全面检查,而且可以自动完成文档规划、句子规划、智能写稿等多项任务,大幅提升编审效率和编校质量。再如,AIGC与专业知识库结合,可使内容审校更加精准而高效;大模型多模态能力的突破与持续迭代,使图表、音视频等媒体对象内容的自动识别、理解、提取、审校成为可能,具有革命性意义。
在出版生产阶段,AI在文本格式化与自动排版、文件格式转换与再编辑、元数据提取与自动标引、自动信息收集与数据关联、出版大数据分析与可视化、数据交换与数字营销支持等环节可以发挥重要作用,正在成为新的生产力工具。例如,腾云数字采编出版系统[10]是基于中国知网中文文献数据优势的期刊审稿采编工具,实现编校全流程智能处理,且已发展为综合性全流程智能化数字出版平台。再如,基于大模型的超强能力,借助智能排版工具可大幅提升排版效能;在专业性强、耗时耗力的数据加工中,借助AI工具可以实现元数据自动提取、数据自动标引与关联等,降低出版大数据建设的门槛;通过XML交换数据,实现多端口发布多场景应用的适配,有利于产业链上下游打通和专业知识服务智能化创新。
2.4 赋能分发传播
分发传播是出版社会价值的兑现方式和经营变现的重要途径。AI在分发传播中发挥着超越以往的甚至是颠覆式的效能,不仅体现在传播的方式和效果上,而且体现在AI对传播受众的影响和受众对产业变革的反推上。
在传统出版模式和当前市场环境下,仓储、物流、渠道等成本压力依然较大,发行风险控制较难。基于AI强大的自主学习、精准计算、深度分析、拟人表达、高效反馈等能力,分析出版物信息、过往销售和市场销售等数据,精准预测不同渠道、区域、店铺的供货品类、数量、周期、账期及风险指数等,并实时监测各项数据,发出可视化风险预警或补货提示等,为营销决策提供科学依据。
在网络销售和数字项目运营中,出版单位的出版物信息与第三方网店销售数据打通,数字平台商品内容标签化,结合平台用户画像及行为分析,在智能推荐算法的加持下,可以精准匹配产品服务供给与用户需求,实现靶向传播、精准推送、个性化推荐及热点预测等,降低营销风险,提升传播效能。例如,抖音基于用户基本信息的协同过滤、社交关系的精准推荐和内容流量池的叠加推荐[12]以及用户点赞评论反馈,重构推送模式,实现精准分发,获得超越传统关联推荐的效果,为出版传播提供了借鉴。
在智能搜索与互联网服务中,基于历史数据、行为数据的挖掘分析,可实现更加精准的搜索和推荐;基于自然语言理解能力的提升,智能搜索可以更加精准、全面、有效地反馈结果,大大超越传统关键词检索的效果;AI大模型与搜索引擎、专业知识库结合,不仅支持基于自然语言的文本、图片、音视频等多模态输入的理解,而且可以输出准确性专业性更高的内容并提供可靠信源,提升AIGC的实时性和可信度。例如,微软在必应搜索里内置ChatGPT,百度文心一言以插件方式集成百度搜索,龙源文可知识助手联合调用多种AI服务和期刊可信数据等,它们的使用效果都超越了单纯的AI问答或传统搜索,推进了AIGC的实用化。
在新媒体营销宣传中,注意力经济规律驱动下的传统微博、微信等图文模式正在被流行的抖音、快手等短视频模式所取代。出版单位纷纷试水短视频宣传和直播带货,试图抓住流量经济和算法推荐的红利。在AIGC的加持下,短视频制作的门槛和成本急剧下降,宣传创意的落地变得更加容易,相比传统视频制作和直播模式,数字人的宣传效率大幅提升,生产力进一步解放。例如,抖音剪映专业版强化了传统短视频剪辑中的AI能力;腾讯智影可以在线轻松完成文本配音、一键转视频、数字人及AI主播合成输出等;Sora模型令人惊艳的输出效果,为视频宣传打开了新的想象空间;等等。
2.5 赋能知识服务
从出版的本质看,知识服务应该是出版传播和融合发展的高级形态。AI在赋能专业知识服务、个性化在线教育等应用场景方面表现突出,推动了知识内容生产与服务模式的变革。
基于大量专业知识数据的积累,运用大数据、人工智能等先进技术,通过大量学习和数据分析、用户需求分析与理解、信息和知识挖掘匹配,专业知识服务能为用户提供精准的反馈结果、科学的解决方案、高效的服务支持等。例如,法信、人卫助手、有色金属在线等知识服务平台在各自领域均取得了较好的成果。
AIGC以全新服务模式与体验,给结构化数据标引加工的专业知识库模式带来新机遇:发挥专业知识服务与大模型各自的功能优势,相互支持,协同促进,改善服务;利用大模型的语言理解生成能力,在现有知识服务模式下,拓展服务内容,丰富服务形式,提升用户体验;利用专业知识数据积累,在大语言模型底座的基础上训练特定行业领域大模型,以革新专业知识服务模式;等等。例如,文可知识文库基于龙源期刊海量数据优势和多种AI问答能力,提供新一代智库型知识服务;专业出版机构基于自身优质数据积累和专业知识图谱开展专业领域大模型训练正在变成现实。另外,利用第三方插件,训练大模型学习私域数据,构建定制化智能化专属AI助手也成为可能。
在线教育与个性化学习是知识服务的另一种应用场景。基于大模型在非结构化自然语言处理方面的超强能力和大规模语料预训练后的智能涌现,开发智能化在线教育平台,提供个性化学习服务成为热门方向。例如,网梯基于多年在线教育服务经验,与微软合作对接ChatGPT,开发AI学习工具LearningGPT,既能充当睿学智慧助教,亦可使学员通过与大模型互动来学习各种知识和技能,如个性化自主学习语言、科学、编程、通识等。
3 AI对出版业的冲击
在赋能出版的同时,AI也给产业发展模式、出版的主体、内容与版权、隐私与伦理、文化与安全等带来巨大的冲击。从产业视角看,传统版权管理模式受到极大挑战,出版属性与文化安全受到威胁,出版业发展模式将被大模型彻底改变,出版的主客体、各要素、多环节都将在人工智能技术进步的洪流中发生深刻变革。
3.1 冲击产业发展模式
AI对出版产业发展模式的冲击主要表现在内容生成的机制和方式、传播的理念和方法等方面,其本质是AIGC的爆发使传统出版工业化生产模式与信息化用户需求之间的矛盾、传统纸本发行模式与现代互联网传播理念之间的竞争进一步加剧。
在AIGC时代,强算法、多语料、大算力加持下的大模型有望成为互联网内容生产的基础设施和新型生产力工具,塑造数字内容生产交互的新范式,引领数字内容领域的全新变革。然而,出版业工业化时代的生产模式和传播理念,与信息化时代的社会需求和智能化时代的发展趋势不相匹配,理念上的冲突、模式上的错位,使迈向数智时代的出版危机四伏,供给侧结构性改革势在必行。
出版全产业链从选题策划、编辑出版到分发传播、知识服务等各环节多领域,以及上游的作者研究创作和下游的读者阅读、用户消费等都将或正在不可避免地受到AI的冲击。基于大模型的内容生成传播模式正好契合了互联网的知识服务需求,然而出版单位的无标签、非结构化知识内容并不适合基于互联网的用户服务,况且大多数出版单位拥有的内容资源或者没有数字化数据化标签化深度加工,或者资源体量过小且不成体系,难以形成特色数字资源优势。在迈向数智时代的产业竞争中,出版业可用内容竞争力严重不足,往往处于劣势,因此传统出版数字化转型升级迫在眉睫,出版产业发展模式必将重构。
3.2 冲击出版的主体
出版的主体是人,无论产业中游的编辑,还是产业上下游的作者和读者,都将受到AI的影响、冲击或替代,不仅引发内容生产主导权的冲突与竞争,而且被新技术、新体验培养起来的用户新习惯、新需求又反过来影响出版产业的发展。
从内容生产的角度看,AI在内容生成上的广泛应用将对作者创作形成某种程度上的替代,人的主体地位受到挑战,有作者在用AI辅助创作、有游戏公司引入AI作画并裁掉部分原画师等现象已在发生。同时,我们也应该注意到AI不能为自己生成的内容负责,其生成的科研论文或学术报告的作者身份受到质疑。我国现行《著作权法》也并不承认AI的著作权人身份,多家学术期刊已明确表示AI不能署名为作者,Nature已给作者提出明确规则。[13]
从编辑出版的角度看,AI生成的内容越来越接近人类作品,往往真假难辨,给编辑造成审稿困难和时间浪费,当然编辑也可以利用AI工具辅助审稿和办公。AI是把双刃剑,在利用智能工具提高生产力的同时,文书类工作也可能首先被AI替代,编辑不得不面临与AI竞争的尴尬,抑或受到优先掌握AI应用技能的人的更大竞争,加剧行业内卷。笔者认为,善用AI提高效率和质量的同时,要把更多精力投放到出版选题策划、论文创新评价、作品价值评估、人文情感关怀等更具专业价值和人文价值的环节上,提高核心竞争力和职业壁垒。
从出版受众的角度看,读者是产业链中的重要一环,当前新媒体冲击下的读者分流、用户流失现象已相当严重。更有甚者,在AIGC模式里,读者使用出版产品,用户接受知识服务的方式、途径、体验等都将发生巨大变化,当传统阅读和检索不再是最佳选择、大模型成为巨大的流量入口、服务体验更加智能高效之时,用户消费习惯将被AI彻底改变,最终将倒逼出版产业的变革。
3.3 冲击内容与版权
AI对内容和版权的冲击主要表现在内容安全可靠性和版权管理等方面。内容是出版的客体,亦是AIGC的客体,大模型在辅助人类生成流畅的文本、逼真的图画、丰富的音视频等内容的同时,也存在算法黑箱、数据污染及内容造假等内容问题和著作权属性、版权保护及合法利用等版权困境。
内容的不可靠性给AIGC实用化产业化带来挑战。目前,大模型智能“涌现”的具体机理并不十分清楚和透明,AI在生成文本时,还存在“脑补”的情况,虽然文字表达流畅,但是内容偶有不实,“一本正经的胡说八道”可能与生成算法的随机性和训练语料不足等因素有关。另外,由于训练数据污染,大模型可能输出与客观事实或人类逻辑不符的内容。AI工具的运用,使内容造假和恶意抄袭变得更加容易,给编辑审查带来挑战。AI写作科研论文、编造实验数据等,给严谨的科学研究带来灾难,也扰乱了正常的学术出版秩序。利用AI制造假新闻,甚至换脸拟声行骗等给网络空间治理提出了新课题。使用AIGC引发的学术造假等问题已被广发关注,Nature等多家期刊已要求作者在提交论文时声明是否使用了大语言模型工具,并明确说明使用相关工具的完整细节。[13]另外,斯坦福大学提出的DetectGPT新方法为检测高等教育中AI生成内容提供了可用工具等。
AIGC基于生成算法和训练语料生成内容,《著作权法》意义上的“作品”属性尚难以界定,其版权逻辑与现行法规差异较大,对传统版权管理、保护和利用模式造成冲击。出版本质上属于版权产业,然而出版单位往往不拥有出版资源的完全所有权,如果要提供大模型训练语料或网络传播,将存在侵犯复制权、署名权、保护作品完整权、信息网络传播权等多项法律风险。AI训练时所用网络数据也可能包含受版权保护或授权过期的内容,另外AI生成内容的著作权性质、归属及保护等问题尚未得到法律的明确,使用、传播这些内容同样面临侵权风险。2023年7月10日,国家网信办等七部委联合发布《生成式人工智能服务管理暂行办法》[14],明确要求AI训练数据来源合法和保护知识产权,但是缺乏操作细则,同时出版行业尚未出台配套的管理规范,AI冲击下的版权管理困境依然难以完全化解,面向AIGC的出版高质量发展仍受掣肘。
3.4 冲击隐私与伦理
AI对隐私与伦理的冲击主要表现在隐私保护更加困难和引发新的伦理风险等方面,这些风险亦将间接影响出版业的健康发展。
在隐私泄露与保护方面,AI应用可能存在过度索取用户权限、抓取个人信息、超范围使用、非法传播敏感信息等情况,数字出版产品和专业知识服务中同样存在类似问题。AIGC模式下的隐私泄露则更加隐秘且广泛,隐私保护形势更加严峻。例如,大模型在训练时可能读取到病例报告、医学影像、消费记录、银行流水、聊天记录等个人隐私数据,存在恶意利用、非法传播的可能。又如,与大模型交互时,AI会收集用户输入的大量信息,可能包括健康、偏好、资产、财务等个人隐私或商业秘密等,存在泄露风险。再如,用户画像和行为分析为精准推送、智能服务提供了数据支持,但也为超范围使用或非法售卖等提供了便利。欧洲《人工智能法案》关注隐私与数据治理等[15],已明确禁止欧盟范围内公共场合的人脸识别,但是隐私保护的有效实施与监管仍面临巨大挑战,我国同样面临着有效保护隐私的监管难题。
3.5 冲击文化与安全
AI对文化与安全的冲击主要表现在核心价值观、数据主权和信息安全等方面,在AIGC模式里,社会主义主流文化与意识形态安全受到威胁,网络信息安全受到挑战。
以ChatGPT为代表的人工智能应用与我国社会主义核心价值观和出版管理规范并不完全一致,特别是在当前严峻的国际政治形式下,必然对新时代中国特色社会主义意识形态造成冲击,威胁国家文化与出版安全,必须加以规范。由算法和数据支撑的大模型,其规则由背后的数字资本特别是具有先发优势的国外资本制定,这种规则制定的隐性权利构成资本入侵,对国家数据主权构成威胁。笔者认为,国产大模型必须扛起中国AIGC的大旗,构建自主可控的AI底座、核心技术和产业生态,维护数据主权,促进数据合规,对齐价值观,推动产业繁荣发展。
AI应用中的网络信息与数据安全问题也不容忽视。在个人服务中,当把私有文献数据“喂”给AI,以获得解答综述、数据运算等高效便捷的服务时,科研数据或敏感信息泄露风险极大,我们如何确保敏感信息数据不被ChatGPT外泄?出版单位在基于大模型底座训练自己的专业大模型时,作为语料的专业知识库、知识图谱等核心数据资产将被AI访问学习,信息数据安全又如何保证?据多家媒体报道,2023年3月以来三星被曝芯片机密代码遭ChatGPT泄露,就是鲜活的警示。这些信息安全问题都十分重要且棘手,需要法律的规范、技术的防范及个人的自律。
4 结语
以ChatGPT为代表的AIGC引爆新技术革命,开启AI时代的伟大变革,大模型在赋能产业互联网、消费互联网的同时,也给出版业带来巨大的冲击,从生产力与生产关系矛盾运动的视角看,出版业的发展模式必将重构。AIGC日新月异,其赋能和冲击出版产业的逻辑、方式及效果还需要进一步的理论研究、实践探讨和产业检验。同时,出版业的应对策略和方法也需要更加深入和广泛的研究、探索和实证。笔者认为,出版业必须以习近平总书记关于网络强国、科技强国等重要思想、重要论述为指导,全面贯彻新发展理念,以顶层设计引导行业大模型健康发展,以应用研究推动AI产业落地,以主动作为迎接AI的机遇和挑战,努力构建新发展格局,在强国建设中贡献出版的力量。
国务院《新一代人工智能发展规划》[18]提出我国人工智能发展的战略目标,中宣部《关于推动出版深度融合发展的实施意见》[19]提出“创新驱动出版深度融合发展”,为我们指明了方向;《国家新一代人工智能标准体系建设指南》[20]《生成式人工智能服务管理暂行办法》等为人工智能标准化规范化工作发挥了积极作用。出版产业界,特别是头部企业要在行业大模型构建和产业应用推广上积极发挥引领作用,而一般企业则重在智能新技术应用和特色资源数据开发利用,努力让技术为出版所用,随时准备融入AIGC,推动出版深度融合发展。出版从业者应该以审慎乐观的态度和担当有为的行动,全面客观地认识大模型及其产业应用价值,充分掌握AI应用的基本技能,积极迎接AIGC的挑战,牢牢掌握行业高质量发展的主动权主导权。
参考文献
Experimental evidence on the productivity effects of generative artificial intelligence
[J].
Accurate medium-range global weather forecasting with 3D neural networks
[J].
Tools such as ChatGPT threaten transparent science;Here are our ground rules for their use
[EB/OL]. (
/
| 〈 |
|
〉 |
