AI赋能科普图书内容“二次创作”及多模态转化的路径探析

AI赋能科普图书内容“二次创作”及多模态转化的路径探析

冯立君¹^,², 鲍柳康³^,⁴

1. 陕西师范大学历史文化学院；710100，西安

2. 《陕西师范大学学报》（哲学社会科学版），710100，西安

3. 陕西师范大学新闻与传播学院，710100，西安

4. 世界图书出版西安有限公司，710000，西安

From Static Text to Dynamic Dissemination: AI-Enabled "Secondary Creation" and Multimodal Transformation of Science Popularization Books

FENG Lijun¹^,², BAO Liukang³^,⁴

1. School of History and Culture, Shaanxi Normal University, 710100, Xi'an, China

2. Editorial Office of the Journal of Shaanxi Normal University (Philosophy and Social Sciences Edition), 710100, Xi'an, China

3. School of Journalism and Communication, Shaanxi Normal University, 710100, Xi'an, China

4. World Book Publishing Xi'an Co., Ltd., 710000, Xi'an, China

通讯作者: 鲍柳康

Abstract

Driven by the national science popularization strategy and the in-depth digital–intelligent transformation of the publishing industry, traditional printed science popularization books confront challenges of single-dimensional dissemination and weak interactivity, thereby prompting a paradigm shift from static knowledge storage toward dynamic, user-oriented communication. This paper explores how generative AI can be harnessed to enable the secondary creation and multimodal transformation of science popularization content, aiming to address the practical dilemmas of limited coverage and high cognitive thresholds in traditional science popularization. This study first constructs a systematic practical framework for AI-enabled content transformation, organized around four interlocking dimensions: content structuring, media adaptation, technological implementation, and feedback iteration. Its core logic lies in transforming the linear, systematized knowledge embedded in printed books into decomposable and recombinable knowledge fragments. Through content deconstruction, science popularization content can better adapt to diverse communication media and achieve the reconstruction of its expressive forms. The research indicates that the core of this transformation lies in upholding professional accountability and advancing human–AI collaborative creation. With the support of a data-driven closed-loop user feedback mechanism, publishing institutions can achieve continuous iteration and optimization of science popularization products. Furthermore, this study categorizes the specific forms of AI-powered secondary creation into three types: short-video adaptation, audio adaptation, and AI interactive assistants. Specifically, short videos visualize obscure or complex knowledge points by leveraging AI-generated video scripts and visual materials; audio adaptation converts textual content into accessible audio-based science popularization products; and intelligent interactive assistants upgrade static knowledge into an immersive, inquiry-driven learning experience. Together, these three forms substantially lower the barriers to understanding scientific concepts and effectively boost user engagement, aligning closely with the reading and learning habits of diverse audience groups. Meanwhile, this paper analyzes the inherent risks of integrated AI application, including AI hallucinations, potential copyright infringement, and the weakening of human editorial subjectivity. To mitigate these risks, three targeted countermeasures are proposed: first, strengthening professional editorial review and supervision; second, standardizing the compliant management of data authorization; and third, promoting the shift of AI application from individual trials to large-scale institutional practice. Such management ensures the rigor of scientific content while improving efficiency through technology. Accordingly, AI-driven multimodal transformation functions as a crucial carrier for realizing the digital–intelligent inclusion of scientific knowledge, enabling people from all walks of life to access high-quality science popularization resources. This paper argues that publishing institutions should redefine the value of artificial intelligence as an industry enabler rather than a human replacement. By restructuring business workflows and reasserting the subjectivity of publishers, the industry can strike a balance between technological efficiency and professional ethics. The research framework advanced in this paper provides feasible solutions for adapting to the evolving media environment and offers a forward-looking exploration of reconstructing the popular-science communication paradigm in the digital–intelligent era.

Keywords： artificial intelligence ; science popularization books ; secondary creation ; multimodal transformation ; knowledge service

PDF (1857KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

冯立君, 鲍柳康. AI赋能科普图书内容“二次创作”及多模态转化的路径探析. 科技与出版[J], 2026, 45(4): 94-103 doi:

FENG Lijun, BAO Liukang. From Static Text to Dynamic Dissemination: AI-Enabled "Secondary Creation" and Multimodal Transformation of Science Popularization Books. Science-Technology & Publication[J], 2026, 45(4): 94-103 doi:

2021年国务院发布《全民科学素质行动规划纲要（2021—2035年）》，提出将科学普及放在与科技创新同等重要的位置^[1]。2024年新修订的《中华人民共和国科学技术普及法》鼓励科研机构、高校、企业依托现有资源建设科普创作中心，为内容生产提供硬件支持^[2]。《国家自然科学基金委员会关于新时代加强科学普及工作的意见》支持让基础研究走进社会、让社会理解基础研究，要以科学基金资助创新项目资源科普化^[3]。政策推动下，市场对于优质科普图书的需求持续增长，要求出版企业以更高质量、更优体验和更易获取的产品和服务回应读者升级的知识需求。

近年来，数智技术已经嵌入出版各环节，推动出版方式从单一纸本向多终端、多场景、多模态协同演进，同时也带来了版权、伦理与数据安全等挑战^[4]。在此大背景下，生成式AI的爆发式发展，为科普内容生产从单一纸本向多场景、多模态演进提供了关键动力，以生成式AI为代表的新一代技术与出版业深度融合，也将成为出版学界与产业界共同关注的核心议题^[5]。

在科普传播实践中，单纯的文字表征难以触达更广泛的受众，因此科普内容的多模态“二次创作”实际上是在解决新媒介环境下科普知识如何被看见、被使用以及被掌握的问题，这对提升全民科学素养、落实国家科普战略具有现实意义。

从生成式AI在科普领域的研究成果及其实践应用来看，它能够围绕设定的科学主题和关键词自动生成科普文章、短视频脚本以及配图素材，还能基于对读者的年龄、兴趣与知识水平的分析，定制个性化和多模态的内容。这不仅能降低科学知识的理解门槛，还对增强知识对读者的吸引力有一定程度的辅助作用^[6]。同时，有研究成果也表明，在儿童与青少年阅读场景中，AR、VR、沉浸式交互等技术与生成式AI结合，为科普内容的视觉呈现、故事趣味化和游戏化提供了新的实现路径，推动童书出版进一步迈向智慧出版^[7]。的确，生成式AI通过高效率、多样化的内容生成，打破了专业创作与业余创作之间的边界，为出版企业乃至个体创作者带来了新的机遇。但是，训练数据包含偏见信息、生成内容同质化、主体自主性弱化、作者身份模糊与责任认定困难等问题，也在不断引发人们对出版伦理与治理机制的反思^[8-9]。由此，现有研究还存在一定程度的不足：一是缺乏针对纸质图书微观流程的系统化研究，尤其是如何将整本书拆解为适配AI生产的知识切片；二是对媒介适配、人机协同及数据反馈的联动机制缺乏系统论述。

基于此，本文聚焦科普图书，探讨AI赋能“二次创作”路径，通过构建内容拆解、媒介适配、协同确责、反馈优化的分析框架，剖析短视频、音频与交互化三种转化形态，为出版机构提供可操作的数智化方案，助力其在技术变革中重构科普出版范式。

1 AI赋能科普图书内容“二次创作”的现实路径

对于出版企业来说，一本科普图书只依靠纸质本，很难形成长期投入机制，如果能够在科普内容的基础上开发短视频、音频、课程、互动工具等产品，就有机会形成“一个IP、多个产品、多次变现”的产品格局。但科普图书的多模态“二次创作”并非简单地将图书内容转变为视频、音频等形态，而是要从原书的知识结构中提取、提炼适合不同媒介表达的内容并保证技术能够实现的系统性重构。为了更清晰地描述生成式AI在这一过程中的作用，笔者尝试就内容理解与结构化、媒介适配与表达重构、技术实现与人机协同、用户反馈与迭代优化四个方面展开分析，这样既可解释与当前短视频化、音频化、交互化实践中共通的逻辑，也能为出版企业设计AI时代的科普产品多模态开发提供流程参照。

需要说明的是，转化之后的产品并非独立的产品，而是纸、视、听、智一体化知识服务体系的组成部分。视频形态既是基于图书内容的营销引流工具，也是增强纸质书视觉体验的方式；音频形态依托音频平台打造有声伴读和播客，作为图书的碎片化学习补充；交互形态则深度整合小程序、AR/VR以及AI Bot开发平台，将承载静态知识点的图书转化为可实时开展场景式问答、任务驱动型学习活动的智能助手。这些产品形态都是纸质书价值的延续，旨在形成“一个IP、多次变现”的闭环，而非替代纸质书。

1.1 内容拆解与重新结构化：从纸质图书的有序知识到可重新组合的知识切片

在纸质图书形态下，科普内容往往以线性叙事方式展开，依托章、节顺序层层推进。然而对于短视频、音频与交互式产品而言，受众接触媒介内容的路径并不遵循原书的章、节逻辑，而更倾向于围绕具体问题按需阅读。因此，多模态“二次创作”的首要任务，就是将原本线性展开的科普文本转化为可重组的知识切片库——这是所有多模态转化的前提。

在这个环节上，生成式AI与科普作者及编辑需要形成人机协同：一方面，AI大模型可以根据整本图书内容快速生成章、节摘要、概念索引和知识列表，对关键概念、典型案例、常见误区等内容进行快速标注与归类；另一方面，编辑与作者在AI大模型给出的结构基础上，结合自身对受众与科普内容的理解，对知识切片进行进一步筛选、拆分与重新组合，形成既符合科学逻辑又便于媒介形态转化的知识单元。通过这一过程，原本需要大量人工进行手工标注、拆解的工作，得以在AI辅助下实现效率的成倍提升。以《植物博物馆》的内容拆解为例，将《植物博物馆》纸质版图书的PDF文件作为转化的起点上传至AI大模型，并向大模型输入指令：“提取本书中关于地下部可食用的植物的叙述，根据抖音热搜和百度指数的数据，将相关内容拆解为适合30秒短视频的3个核心知识点。”大模型根据抖音热搜和百度指数以及书中关于根茎类植物的描述，会发现“土豆发芽能不能吃”是高频词，然后进行拆解。在这个过程中，大模型会自动过滤掉纸质书中长段的背景铺垫和介绍，提取出“根茎类植物器官身份的辨析”“根茎类植物能量储存在地下的逻辑”“根茎类植物的环境适应与防御机制”三个知识切片，将原书中层级严密的语言转化为问题导向型的信息。全书的内容拆解如果单纯依靠人工需要数周时间，在AI辅助下这一周期可以缩短至5~8天。这一过程将纸质书中的线性叙事转化为可重组的知识切片，为后续多模态转化提供标准化的原料。

1.2 媒介适配与表达重构：从媒介选择到适配性媒介的内容生产

在完成基础的知识切片化处理之后，便要根据不同媒介的传播逻辑与使用场景，对科普内容进行媒介适配性选择与表达重构。比如短视频，其传播要求在极短时间内吸引读者的注意力，强调视觉冲击与情节吸引力；对音频而言，更看重语音表达的节奏、情感与陪伴感；交互式内容则需要围绕问题、任务与反馈来设计互动路径。

在这些内容形态生产的具体环节，生成式AI可以根据纸质图书的受众画像与分发媒介特性，生成多种媒介表达方案。针对同一知识点，AI大模型可以同步产出多态化的内容底座：适用于短视频的视觉脚本与音频节目的口语讲稿，驱动智能交互产品的结构化语料、RAG问答逻辑、启发式探究路径，以及适用于AR/VR场景的沉浸式叙事脚本。作者与编辑不再需要从零开始为每个形态的载体单独撰写文本，而是在AI提供的多版本草案中进行取舍与修改，这样就可以将有限的精力集中于对语言的准确性、逻辑的连贯性与内容的趣味性等方面的调校上。通过这一媒介适配性及其内容形态的转化过程，科普图书将由单一的文本逐步转化为一组可跨平台表达的模板。

这是《病毒演义——人类与病毒的博弈》中的一段原文：

随着人类对自然界认识的加深和人类科技事业的不断进步，到19世纪末人们已经可以制造出孔径很小的滤器，用以过滤物体上的细菌。此时，随着航海技术和交通运输技术的不断发展，世界各国的交流不断加深，诸如显微镜和过滤器之类的发明也在世界范围内推广了，这为人类的生产生活和科学研究探索活动提供了强有力的工具。在此情况下，人们开始用这些科学工具来解决生产生活中的一些实际问题，烟草叶子的花斑病问题就是其中之一（当时欧洲国家的一些人酷爱吸食烟草）。

分别向AI大模型发出指令，根据图书文稿，将这段内容改写为适合短视频平台、音频平台、可与读者进行互动的脚本。

表 1 多模态转化前后对比

转化维度	AI生成的衍生内容	转化逻辑与效果分析
短视频脚本	19世纪末，人类科技点满了！航海技术让世界成了地球村，精密滤器成了科学家手里的“照妖镜”。可面对烟草花斑病，这个滤不掉的凶手，正藏在液体里……	视觉化重构：将“交流加深”转化为“地球村”，将“滤器”比喻为“照妖镜”，利用悬疑感吸引注意力，适合短视频的高频抓屏需求。
音频脚本	朋友们，想象一下，你回到了1892年的实验室。农场主急坏了：“嘿，用你们的高科技滤器把细菌挡住不就行了？”可结果，所有的实验都失灵了……	场景化沉浸：增加“音效提示”与“角色对白”，将陈述句改为祈使句和疑问句，增强了陪伴感与临场感，完播率预期大幅提升。
互动任务	RAG问答逻辑，这是最基础的逻辑，确保AI助手在回答时不脱离原著语料。以下为示例。用户：“为什么19世纪末能发现烟草花斑病？” AI响应（逻辑）：检索知识库—提取“科技进步”（滤器、显微镜）与“社会需求”（烟草消费、生产问题）—生成回答。 AI回答：“这主要归功于19世纪末科技的进步。当时人类已经制造出能过滤细菌的小孔径滤器和显微镜。同时，由于航海和交通的发展，这些工具在全世界普及，使得科学家有能力去解决当时欧洲人最关心的烟草花斑病问题。”	交互式内化：从“被动阅读”转为“主动决策”。产品不是静态的信息检索器，而是能够引导受众进行科学探究的数字导师，从而在交互中完成知识的深度内化。
互动任务	启发式探究路径的交互逻辑，这种逻辑不直接给答案，而是模拟科学探索过程。以下为示例。 Step 1（背景铺垫），AI主动推送：“你回到了1892年的欧洲实验室，手里有一片长满黄色斑点的烟草叶子。你打算用什么工具来研究它？” Step 2（工具交互），用户选择“过滤器”。AI检索知识库后反馈：“这种滤器孔径极小，连细菌都能挡住。但奇怪的是，滤过的汁液依然能让健康植物生病……” Step 3（因果推导），AI引导提问：“结合当时航海技术发达、各国交流频繁的背景，你认为这种病是怎么传开的？”

新窗口打开| 下载CSV

1.3 专业确责与人机协同：科普内容多模态生成下的工作流程

在内容结构与媒介表达样式确定之后，第三个方面则是具体的工作流程设计。生成式AI在文本生成、语音合成、图像与视频生成等方面的最新发展表明，科普图书的多模态生产将会从高度依赖专业出版团队转向“编辑、策划+AI工具”的人机协同时代。

具体而言，在文本方面，AI大模型已能生成主题明确、结构完整、语言流畅的特定文本，并且在理解上下文语境和创意表达方面展现出惊人的能力，因此可以承担脚本初稿、口语化改写、题目与解析等高重复性工作^[10]；在音频方面，语音合成技术能够快速生成多音色、多语言版本的科普讲解音频，如Tacotron、WaveNet和Parallel WaveGAN等先进的语音合成技术可以生成更贴近真实的人类语音，在音调、语速和语调等方面相比以往更加自然^[11]；在视觉与视频方面，文生图、文生视频、图生视频等工具可生成科普内容的可视化画面，为设计与剪辑提供素材和灵感，如以Sora为代表的视频生成技术可以依据一句话或一张图，生成一个完整且细节丰富的短视频^[12]。在多模态生成的过程中，作者与编辑的角色逐渐从单一文本生产者转变为工作流程的设计者与把关人，由他们来负责确定哪一类内容可以由AI批量生成，在哪些节点必须进行人工审核或者完全人工创作，以及如何将不同模态的内容整合为统一风格的科普产品。

1.4 用户反馈与产品优化：数据驱动下科普内容闭环式的迭代优化

与纸质图书的传播方式不同，多模态科普产品在平台上的传播过程会不断产生丰富的用户行为数据，包括播放量、完播率、停留时长、互动频次、点赞、分享、评论、答题正确率等。这些数据不仅反映了受众对内容的接受程度，也揭示了多模态产品内容中哪些知识点受到欢迎、哪些知识点没有讲清楚、哪些形式更能激发读者的兴趣。

在这些方面，AI大模型可作为数据分析的重要工具，通过对多平台、多批次内容数据的分析，帮助编辑、策划、运营人员发现问题与薄弱环节，例如某一类视频的完播率低、某一类题目错误率异常偏高、某一音频的评论区活跃的原因等；同时，还可以根据历史数据生成优化建议，如视频开始的3秒能够决定视频的完播率、调整视频时长能够提高视频作品的完播率等，从而提高视频在平台传播的权重。可见，多模态科普内容的生产不再是“一次性完成”的线性过程，而是形成“内容生产—发布传播—数据反馈—内容与产品迭代”的闭环，这一闭环又能反过来及时推动纸质图书的后续重印与新版本修订。

综上所述。以上四个方面构成了AI赋能下科普类图书多模态“二次创作”的框架：内容拆解与结构化奠定了从整体到知识切片的内容基础；媒介适配与表达重构致力于将知识转化为适应不同媒介形态的传播形式；技术实现与人机协同重塑创作流程；用户反馈与迭代优化则推动多模态内容开发转向数据驱动的模式。

2 AI赋能下科普图书内容“二次创作”的具体形态

当前，围绕科普图书开展多模态“二次创作”，最具代表性的形态是短视频化、音频化与交互化三大类型。这三种形态对应着不同的使用逻辑和应用场景，但共享一套技术底层逻辑，即先对内容进行结构化处理，再匹配适配的媒介形态，最终通过技术实现转化落地。自然，这三种不同形态的内容生成方式必然要求相应的AI赋能的关键环节与人机协同方式。需要强调的是，多模态“二次创作”的核心风险不在于做不出内容，而在于为了产量和流量而牺牲科学性。在转化过程中，人机协同的合理分工尤为关键，AI适合承担大规模脚本草案与视觉草图生成、字幕与基础剪辑等高重复性工作；而科普编辑与作者则必须保留对比喻是否恰当、描述是否准确、信息是否被过度简化、是否暗含“伪科学式猎奇倾向”等问题的最终裁量权。只有在技术带来的高产能与专业、把关之间形成稳定平衡，多模态的“二次创作”才能真正扩大科普图书的社会影响，而非制造新的信息噪声。

2.1 短视频：从章、节到知识的视觉呈现

短视频平台已成为公众获取科学知识的重要渠道。根据抖音在2024年5月24日发布的一份报告，过去一年，超过77.3亿人次在抖音为自然科学内容点赞；仅2024年前5个月，相关内容投稿量同比增长169%；相关视频一年累计播放量超7 239亿；平均每天有19.83亿人次在抖音浏览科学知识；超过56亿人次在抖音搜索以“为什么”开头的问题^[13]。科普短视频已经演变为常态化的科学传播产品。而一部纸质科普图书，如果仅停留在出书后发几条宣传视频，显然难以完全发挥其知识价值。生成式AI的引入，为科普图书向短视频形态的系统化和批量化转化提供了可能。

首先，在选题与内容拆解环节，大模型可对整本科普图书进行概括与知识图谱化处理，辅助编辑从中筛选适合短视频表达的知识切片。例如，《植物博物馆》本是一本关于植物的科普读物，AI大模型可以根据平台热点话题的提示，将“植物内部机体运行的奥秘”“植物物种的产地、习性”“植物为了生存会勾心斗角吗？”等被读者搜索较多或者受到较高关注的问题生成候选列表，并列出每个问题对应章节的要点与视频元素的提示。编辑在此基础上，可不再从头“啃书划线”，而是在AI大模型初步梳理的结果中做有意识地选择与组合，从而缩短前期策划时间。这个过程可以根据不同的AI大模型的特点选择使用，例如，文心一言的优势是中文语义理解能力较强，能精准把握中文科普表达习惯；KIMI的优势是超长文本理解“零断层”，能记住并关联整本书的细节；智谱清言的优势是知识系统性和准确性较高，适合构建严谨的学科知识体系。

其次，在脚本与分镜生成环节，生成式AI可以根据给定的知识点与目标受众特点，自动产出多种风格的短视频脚本草案。例如《3D奇趣科普系列：恐龙大冒险》这一关于恐龙知识的科普读物，AI大模型可以围绕“恐龙的生活习性、恐龙的生活环境”，生成“情境化故事版”“问答式拆解版”“类比比喻版”等不同叙事结构，并加入“引入问题、设置悬念、科学解释、生活延伸、总结呼应”的基本逻辑。同样，不同的AI大模型在脚本生成和分镜生产上的能力不同，如Claude的脚本特点是逻辑严谨、细节丰富，特别擅长需要深度思考的内容；Gemini的脚本特点是能精准捕捉视频内容的情感和意图，生成符合平台调性的脚本；文心一言的脚本特点是能根据非结构化创意描述生成逻辑连贯的脚本，特别适合中文语境；豆包的脚本特点是以表格形式详细展示文本、配乐、画面、时长、镜头景别，甚至指导主播动作。在文生图、文生视频工具的配合下，AI大模型还能为每一段脚本生成对应的画面提示或初步视觉草稿，如《船：伟大的领航者》这本船的科普读物中，简化造船的示意图、不同船的尺度对比图、船下海的动画等，为后续的设计与剪辑提供参考。

再次，在剪辑与多版本测试环节，AI大模型同样可发挥作用。一方面，AI字幕与镜头自动切分工具可极大地降低基础剪辑工作量，使编辑和运营人员把精力更多放在节奏调整与科学性把关上；另一方面，AI大模型通过对既往内容表现数据的学习，能够给出诸如“开头三秒是否足够抓人”“解释环节是否过长”“结尾是否留有足够的记忆点”之类的优化建议，并为同一知识点生成若干时长与风格不同的版本，便于在分发平台上做测试。

2.2 音频：从纸质文本到可听的科学知识

相较于以视觉冲击为主的短视频形态，音频与有声内容如播客、有声书等，更适合满足公众在通勤、家务、睡前等碎片化场景中的科学学习需求。根据iiMedia Research（艾媒咨询）数据，2024年中国长音频市场规模达287亿元，同比增长14.8%；预计2025年将达337亿元^[14]。因此，科普图书向音频形态的二次转化，符合当代人们获取信息的需求，音频内容能够提供更持续的价值感和深度体验。图书向音频形态的转化一般包括文本口语化改写、结构重组与音频生产三个阶段，AI大模型在其中可发挥显著作用。

在文本口语化环节，大模型可根据原书内容与目标听众年龄自动改写文本表达方式。模型可以在不改变核心逻辑与论证结构的前提下，将书面语转化为更接近日常谈话的语体，如适当加入提问句式、生活类比等过渡语，从而提高听觉理解度。以《病毒演义——人类与病毒的博弈》的原文为例：

从传染的角度来讲，流感的传染源主要是流感病人和流感病毒隐性感染者。传播途径以打喷嚏、咳嗽等空气飞沫传播为主，也可经过口腔、鼻腔、眼睛等黏膜直接、间接接触方式感染，接触被病毒污染的物品也可感染，在人群密集且通风不良的环境中尤易感染。因此，在流感流行季节，应注意保暖，防止受凉，与感冒病人保持一定距离（1.5米左右），打喷嚏和咳嗽时注意相关礼仪，最重要的是要戴好口罩。同时注意勤洗手，多通风，少聚集，少到人流密集和环境封闭的场所去，这是预防流感发生和传播的重要措施。当然更重要的是加强锻炼、增强体质，一旦感到不适应及时就医。

将这段原文输入给AI，并设定如下指令：“请作为一名专业的健康播客主持人，将这段文字改写为一段60秒的有声书脚本。要求：去掉学术腔，使用拟人化或生活化的比喻，增加与听众的互动感，保持科学性。”转化效果对比见表 2。

表 2 音频化脚本转化前后对比

维度	纸质书原稿	AI生成的音频脚本（口语化）
文本内容	从传染的角度来讲，流感的传染源主要是流感病人和流感病毒隐性感染者。传播途径以打喷嚏、咳嗽等空气飞沫传播为主……	嘿！听说了吗？流感这个“不速之客”最近又在串门了。它最喜欢藏在病人的喷嚏和咳嗽里，坐着“飞沫快车”到处跑。甚至你揉个眼、抠个鼻子，它都能顺着黏膜溜进去！
预防措施	在流感流行季节，应注意保暖，防止受凉……最重要的是要戴好口罩。同时注意勤洗手，多通风……	怎么挡住它？记住这套“防身术”：口罩是你的金钟罩，一定要戴好！跟人聊天保持1.5米，这是安全距离。回家第一件事是洗手，把病毒通通冲进下水道。
语言风格	客观、冷静、严谨、多长句。	亲切、有画面感、短促有力、强互动。

新窗口打开| 下载CSV

通过上面的对比，可见AI将科学概念与日常生活中的常见行为进行匹配，将“传播途径”转化为“坐着飞沫快车”，将“黏膜接触”简化为生活动作揉眼、抠鼻，并且在原文比较线性、客观的叙述中使用了“嘿，听说了吗？”等唤醒词，还使用了“溜进去”等动词，增强了音频的画面感和动感，符合音频受众碎片化和陪伴性的收听习惯。在转化后，编辑需要核实关键数据，实现从纸质文本向音频文本的正确转化。这种转化相较于原书文本内容的朗读版，其优势在于在通勤、运动等场景下，能够增强科普内容的渗透力。

在结构重组环节，AI能以整本书为单位，依据读者单次聆听时长、主题聚合度等条件，将内容自动拆分为若干音频单元。例如，以5~10分钟为一单元，围绕一个核心问题与若干支撑论据构建音频模块，并为每个模块生成简要小结。这种音频的单元化处理，便利了后续的录制排期与栏目化运营，也为听众按需选择、分段学习提供了结构基础。

在音频生产环节，语音合成技术与AI的结合，降低了有声科普内容制作的门槛。一方面，AI配音已能提供不同性别、年龄、情绪与语速的声音，科普出版机构可以在保证声音清晰度与自然度的前提下，快速生成多版样本，再由作者与编辑共同选择更符合内容气质的声音。另一方面，出版机构也可采用“专家真人录制+AI后期增补”的混合模式，即由专家录制关键章节或核心段落，将普通背景知识解释与补充说明交由AI合成完成，以兼顾权威感、亲切感与成本控制。

但需要注意的是，科普音频内容中涉及医学、营养、安全等领域时，任何一句话被误听、误解，都可能引发风险。相较于短视频的强视觉提示，纯音频场景下读者更难察觉自己的理解偏差，因而更需要在内容策划阶段就引入安全提示，作者和编辑在审读时加以控制和把关，对那些必须进行风险与适用范围提示的内容进行说明。

2.3 交互式内容：从静态知识到启发式的AI学习助手

与短视频、音频相比，交互式内容更注重读者的深度参与和双向反馈，对于提升读者对科学知识的理解和学习动机具有独特作用。围绕科普图书开展交互层面的“二次创作”，涉及以下三个方面。

第一，原著知识的分解与结构化语料的生成构成了驱动智能化交互的知识底座。交互体验的准确性源于底层数据的严密性。AI大模型能够对纸质原著内容进行分解，通过提取书中知识点的语义标签，构建支撑智能化交互产品逻辑推理的知识图谱，使碎片化的信息具备逻辑关联。同时，基于检索增强生成（RAG）技术，AI能够精准提炼出高质量、锚定原著内容的RAG问答对话。例如，针对植物科普读物《草木祁谈》，AI大模型不仅能生成关于仙人掌的知识摘要，还能自动产出如“如果你要在自己家里种植一盆仙人掌，应该注意哪些问题？”等情景化问答。编辑的工作由此从需要根据原著内容进行文本创作转变为对AI生成语料的合规性筛选和语义调校。

第二，在结构化语料的基础上，AI能进一步驱动问答逻辑和启发式探究路径的生成，使图书从单向阅读转变为陪伴阅读。基于知识库的问答逻辑可以很好地处理读者在阅读过程中遇到不理解的概念、公式或背景知识等情况，智能化交互产品能够实时地在知识库中检索并给出解释。这种设计将纸质书转化为可反复查询的知识工具，延长了科普图书的使用寿命，同时也能积累读者行为数据，让高频问题和内容表达薄弱的地方凸显，为后续修订与新书策划提供依据。在启发式探究路径方面，AI助手可以协助作者与编辑，将原本线性的科普叙事转化为一系列循序渐进的学习活动。AI可以模拟导师角色，设计循序渐进的引导逻辑。它不再直接抛出答案，而是通过提问引导读者思考。这种设计，有效增强了读者的学习动机。

第三，是空间叙事脚本的构建。AI大模型可以协助编辑和作者将线性叙事转化为任务驱动型活动及AR、VR等沉浸式体验。针对AR、VR场景，AI可自动产出空间位置对齐的解说文本与环境触发指令。以《3D奇趣科普系列：宇宙大探索》为例，AI大模型可辅助生成“手工太阳系仪”任务的全程引导。从任务说明到关键环节的思考题，再到根据用户反馈给出的实时提示，AI生成了一套动态的沉浸式脚本。通过这一过程，纸质科普图书不再受限于扁平的纸面，而是演化为一套可引导实践、支持探索的学习系统。

在交互化转化过程中，风险与边界问题同样不容忽视。生成式AI在回答超出原书范围的问题时，可能因AI幻觉给出不够严谨甚至明显错误的答案。因此，有必要在模型调用层面限定其知识库，使其所用知识主要来源于图书与期刊等权威资料。

无论是短视频化、音频化还是交互化，AI大模型都极大地拓展了科普图书内容“二次创作”的边界，使原本高成本、零散化的多模态开发，走向了流程化、规模化。这种技术赋能并不是自动升级或者是一劳永逸，而是要求出版企业在每一种形态中都需要设计人机协作的工作流程，将科学性深深地嵌入系统之中。

3 AI赋能科普图书内容“二次创作”的风险及其规避策略

在AI大模型的赋能下，科普图书的多模态“二次创作”为科学传播提供了新的路径，但同时也带来了风险。如果缺乏相应的边界意识与规范的审核机制，再高效的技术也可能导致新的信息风险。

3.1 以专业责任感与内容准确性规避AI幻觉

科普内容与泛娱乐内容的本质区别在于其科学性。AI大模型在多模态生产上的效率，在缓解了科普产品开发的效率和成本压力的同时，也放大了AI幻觉。如果未经核查的生成内容被认为是官方科普或者专家解读，不仅会误导公众，更会削弱图书在知识传播中的权威性。

在文本层面，AI大模型生成的文本往往语气自信、包含细节、逻辑连贯，看上去正确，但往往存在错误，也就是AI幻觉。在视频和图像层面，文生图与文生视频工具很可能生成看似科学的图像与动画，其细节上的错误让普通读者难以察觉。因此，在AI大模型参与科普图书多模态转化的过程中，某些内容必须列入人工审查的重点范围，如涉及医学、健康、食品安全等现实指向性强的内容；同时在工作流中设计终审环节，由具备相应学科背景的专家对关键内容进行抽样或全文审读。

3.2 以版权、授权的合规防止数据违规

围绕科普图书开展的短视频、音频与交互内容的“二次创作”，属于著作权法中改编或者演绎作品。一方面，纸质科普图书的作者享有对其作品的改编权和信息网络传播权。因此，出版机构在合同中如果仅获得纸质、电子书或传统有声书等形态的使用权，那么基于该书内容开发的短视频、互动设计、在线课程等都需要取得作者额外授权。虽然在引入AI大模型辅助创作的情况下，具体文案、题目或画面由模型生成，但其内容的来源高度依赖纸质书的结构与表达，因而出版机构在选题立项与合同签订阶段，应充分考虑未来多模态开发的可能性，将相关权利范围、收益分配和署名方式等进行说明，如果是对老选题进行开发，则应该与作者签订补充协议说明。

另一方面，AI工具本身在训练数据和生成内容上也存在版权风险。部分文生图、文生视频模型可能将未经完全授权的图像或视频作为训练数据，如果直接使用其生成的图像作为图书配图、封面或短视频主要画面，就存在侵权隐患，需要出版机构在法律框架内评估AI生成物料的权利归属。此外，在交互式科普产品中，用户行为数据、提问内容等也涉及个人信息保护与数据保护问题。因此，出版机构在选用具体AI工具时，应尽量选择合规性较高、可溯源的工具。

3.3 以“组织化实践”规避“个体尝试”带来的风险积累

当前大多数出版机构对AI大模型的应用停留在编辑自发尝试的阶段，缺乏公司层面的统筹规划与流程设计。这不仅难以充分释放技术潜力，也在不知不觉中积累了风险。要让AI真正赋能科普图书的多模态开发工作，需要出版机构在公司层面统筹规划流程构建与能力建设。

在流程方面，应制定明确的AI使用规范与负面清单，界定哪些内容类型可以由AI生成初稿，哪些内容必须坚持人工原创，哪些环节必须引入人工审核。在能力建设方面，编辑需要参加提升AI工具使用能力与风险识别能力的培训。培训内容应聚焦于实务技能，例如，如何提出高质量的提示词，如何判断模型输出的可靠性，如何收集和利用平台反馈的数据，等等。

总的来看，AI大模型不会突然给科普出版带来质变，同时也不应把AI大模型简单视为可替代人工的捷径。只有在明确风险、规避风险、规范流程以及能力培养的前提下，将AI纳入一个可控、可迭代的工作实践之中，科普图书的多模态“二次创作”才能真正成为推动科学传播创新的稳定动能，而非短暂的技术潮流。

4 结语

在国家科普战略与出版业数智化共同推进的背景下，纸质科普内容的“二次创作”与多模态转化，不仅是技术手段的迁移，还是科普知识从静态储存向动态传播的范式跃迁，更是出版机构应对媒介环境变化的现实选择。本文研究表明，多模态转化延伸了科普知识的价值链条，打破了知识习得的专业壁垒，拓展了科普内容的传播范围，对落实国家科普战略具有重要价值。

AI赋能的多模态转化，是针对知识内容的数智化平权。本文深度分析了科普图书内容向多模态产品的转化路径，阐明这一过程如何跨越传播壁垒，目的是扩大科学知识的受众范围。多模态转化通过语义的重构，可适配不同人群的感官偏好，并通过网络分发跨越地域差异，帮助实现科学知识的无障碍获取，这正是通过技术手段促进知识获取机会的均等化，帮助弥合知识鸿沟。

面对AI带来的生产力革命，出版机构应该将AI在科普图书多模态“二次创作”中的角色定为赋能而非替代，出版人的主体性不应被消解，而应被重构，即通过多模态视角的策划前置与流程系统化，将编辑个体的自觉转化为企业集体的制度理性。出版的未来，不在于盲目追求技术迭代带来的效率，而是在于如何以制度设计与专业判断作为支点，在技术效率和严谨的专业内容中找到平衡。本文所构建的框架，既是出版业应对媒介环境变化的现实应答，也是出版业走向数智时代对科普范式进行重构的初步探索。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

国务院关于印发全民科学素质行动规划纲要(2021—2035年)的通知[EB/OL]. (2021-06-03)[2025-11-15]. https://www.gov.cn/gongbao/content/2021/content_5623051.htm.

[本文引用: 1]

[2]

中华人民共和国科学技术普及法(2024年修订)[EB/OL]. (2024-12-25)[2025-11-15]. https://www.most.gov.cn/xxgk/xinxifenlei/fdzdgknr/fgzc/flfg/202412/t20241226_192778.html.

[本文引用: 1]

[3]

基金委: 关于新时代加强科学普及工作的意见[EB/OL]. (2023-09-15)[2025-11-15]. https://news.sciencenet.cn/htmlnews/2023/9/508549.shtm.

[本文引用: 1]

[4]

黄先蓉, 罗玥莹.

数智赋能下的出版业新变革

[J]. 出版广角, 2025 (1): 31- 37.

[本文引用: 1]

[5]

王勇安, 葛丹.

基于DeepSeek开发AIGC集成工具赋能出版

[J]. 出版广角, 2025 (3): 33- 38.

[本文引用: 1]

[6]

朱颖褀.

生成式人工智能在科普传播中的应用研究

[J]. 数字通信世界, 2024 (11): 165- 167.

[本文引用: 1]

[7]

王壮, 陆贵曦, 卢明嘉, 等.

全面迈向智慧出版: AI时代AR/VR类童书的发展困境、技术赋能及价值重构

[J]. 科技与出版, 2024 (8): 51- 59.

DOI:10.16510/j.cnki.kjycb.2024.08.010 [本文引用: 1]

[8]

揭其涛, 王奕诺.

玫瑰荆棘: 生成式AI赋能数字出版内容生产的逻辑、机遇与隐忧

[J]. 科技与出版, 2024 (4): 64- 70.

URL [本文引用: 1]

[9]

陈雨, 杨璐颖, 冯锐.

从内容生产到秩序重塑: 生成式AI出版的内容生产风险与规制研究

[J]. 出版广角, 2024 (22): 61- 67.

[本文引用: 1]

[10]

罗长青.

重塑边界: AI赋能创意写作的角色、范式及争议

[J]. 湖南师范大学社会科学学报, 2025, 54 (4): 55- 63.

[本文引用: 1]

[11]

李武, 谢泽杭, 杨飞.

AI有声书: 价值优势与未来进路

[J]. 科技与出版, 2023 (6): 41- 47.

DOI:10.16510/j.cnki.kjycb.20230626.003 [本文引用: 1]

[12]

邓笑然.

AI视频技术赋能短视频内容生产研究

[J]. 中国广播电视学刊, 2025 (11): 64- 68.

[本文引用: 1]

[13]

科普短视频点亮求知之光[EB/OL]. (2024-06-06)[2025-12-01]. http://www.news.cn/tech/20240606/3a08324a760f42ccb441e19383f5ae70/c.html.

[本文引用: 1]

[14]

艾媒咨询. 2025年中国长音频市场竞争格局分析报告[EB/OL]. (2025-09-29)[2025-12-01]. https://www.toutiao.com/article/7555445821795025417/?&source=m_redirect&wid=1765203133896.

[本文引用: 1]

... 2021年国务院发布《全民科学素质行动规划纲要（2021—2035年）》，提出将科学普及放在与科技创新同等重要的位置^[1].2024年新修订的《中华人民共和国科学技术普及法》鼓励科研机构、高校、企业依托现有资源建设科普创作中心，为内容生产提供硬件支持^[2].《国家自然科学基金委员会关于新时代加强科学普及工作的意见》支持让基础研究走进社会、让社会理解基础研究，要以科学基金资助创新项目资源科普化^[3].政策推动下，市场对于优质科普图书的需求持续增长，要求出版企业以更高质量、更优体验和更易获取的产品和服务回应读者升级的知识需求. ...

数智赋能下的出版业新变革

2025

... 近年来，数智技术已经嵌入出版各环节，推动出版方式从单一纸本向多终端、多场景、多模态协同演进，同时也带来了版权、伦理与数据安全等挑战^[4].在此大背景下，生成式AI的爆发式发展，为科普内容生产从单一纸本向多场景、多模态演进提供了关键动力，以生成式AI为代表的新一代技术与出版业深度融合，也将成为出版学界与产业界共同关注的核心议题^[5]. ...

基于DeepSeek开发AIGC集成工具赋能出版

2025

生成式人工智能在科普传播中的应用研究

2024

... 从生成式AI在科普领域的研究成果及其实践应用来看，它能够围绕设定的科学主题和关键词自动生成科普文章、短视频脚本以及配图素材，还能基于对读者的年龄、兴趣与知识水平的分析，定制个性化和多模态的内容.这不仅能降低科学知识的理解门槛，还对增强知识对读者的吸引力有一定程度的辅助作用^[6].同时，有研究成果也表明，在儿童与青少年阅读场景中，AR、VR、沉浸式交互等技术与生成式AI结合，为科普内容的视觉呈现、故事趣味化和游戏化提供了新的实现路径，推动童书出版进一步迈向智慧出版^[7].的确，生成式AI通过高效率、多样化的内容生成，打破了专业创作与业余创作之间的边界，为出版企业乃至个体创作者带来了新的机遇.但是，训练数据包含偏见信息、生成内容同质化、主体自主性弱化、作者身份模糊与责任认定困难等问题，也在不断引发人们对出版伦理与治理机制的反思^[8-9].由此，现有研究还存在一定程度的不足：一是缺乏针对纸质图书微观流程的系统化研究，尤其是如何将整本书拆解为适配AI生产的知识切片；二是对媒介适配、人机协同及数据反馈的联动机制缺乏系统论述. ...

全面迈向智慧出版: AI时代AR/VR类童书的发展困境、技术赋能及价值重构

2024

玫瑰荆棘: 生成式AI赋能数字出版内容生产的逻辑、机遇与隐忧

2024

从内容生产到秩序重塑: 生成式AI出版的内容生产风险与规制研究

2024

重塑边界: AI赋能创意写作的角色、范式及争议

2025

... 具体而言，在文本方面，AI大模型已能生成主题明确、结构完整、语言流畅的特定文本，并且在理解上下文语境和创意表达方面展现出惊人的能力，因此可以承担脚本初稿、口语化改写、题目与解析等高重复性工作^[10]；在音频方面，语音合成技术能够快速生成多音色、多语言版本的科普讲解音频，如Tacotron、WaveNet和Parallel WaveGAN等先进的语音合成技术可以生成更贴近真实的人类语音，在音调、语速和语调等方面相比以往更加自然^[11]；在视觉与视频方面，文生图、文生视频、图生视频等工具可生成科普内容的可视化画面，为设计与剪辑提供素材和灵感，如以Sora为代表的视频生成技术可以依据一句话或一张图，生成一个完整且细节丰富的短视频^[12].在多模态生成的过程中，作者与编辑的角色逐渐从单一文本生产者转变为工作流程的设计者与把关人，由他们来负责确定哪一类内容可以由AI批量生成，在哪些节点必须进行人工审核或者完全人工创作，以及如何将不同模态的内容整合为统一风格的科普产品. ...

AI有声书: 价值优势与未来进路

2023

AI视频技术赋能短视频内容生产研究

2025

... 短视频平台已成为公众获取科学知识的重要渠道.根据抖音在2024年5月24日发布的一份报告，过去一年，超过77.3亿人次在抖音为自然科学内容点赞；仅2024年前5个月，相关内容投稿量同比增长169%；相关视频一年累计播放量超7 239亿；平均每天有19.83亿人次在抖音浏览科学知识；超过56亿人次在抖音搜索以“为什么”开头的问题^[13].科普短视频已经演变为常态化的科学传播产品.而一部纸质科普图书，如果仅停留在出书后发几条宣传视频，显然难以完全发挥其知识价值.生成式AI的引入，为科普图书向短视频形态的系统化和批量化转化提供了可能. ...

... 相较于以视觉冲击为主的短视频形态，音频与有声内容如播客、有声书等，更适合满足公众在通勤、家务、睡前等碎片化场景中的科学学习需求.根据iiMedia Research（艾媒咨询）数据，2024年中国长音频市场规模达287亿元，同比增长14.8%；预计2025年将达337亿元^[14].因此，科普图书向音频形态的二次转化，符合当代人们获取信息的需求，音频内容能够提供更持续的价值感和深度体验.图书向音频形态的转化一般包括文本口语化改写、结构重组与音频生产三个阶段，AI大模型在其中可发挥显著作用. ...

〈

〉