出版研究的可视化分析与热点追踪
——基于《科技与出版》的3 388条主题词数据
通讯作者:
关键词:
本文引用格式
孙晓翠, 孟祥晴, 张馨月.
2022年4月,中宣部印发《关于推动出版深度融合发展的实施意见》,提出要加强重要领域专业数据库建设。建设出版行业数据库,对完善行业治理体系、提升治理能力、实现出版高质量发展具有重要意义。当下的出版研究多基于质化的方法,研究出版理论体系构建、知识脉络演进、数字化转型升级、编辑实务路径优化等。本文基于文献计量学视角,采用词频分析和话语分析的研究方法,整合出版研究领域学术论文全文的主题词数据库,建立区别于既往量化研究中多基于关键词统计的主题词分析思路与方法,以此观察出版研究热点,把握出版发展的内在规律,为建设出版高质量发展体系提供理论支撑。
1 研究设计
1.1 研究方法
本研究主要基于文献计量学方法,辅以话语分析方法,研究出版学术论文主题词的排布特征,揭示出版研究热点及其规律。文献计量学方法最早由Pritchard提出,该方法通过定量分析和统计,能够深入了解各个研究领域的特征。文献计量学方法作为一种量化研究的方法应用于出版研究,可以将文字、图片等非结构化数据转化为结构化数据,为出版理论研究提供数据支持,增强出版研究的客观性、科学性。
词频分析法是一种文献计量学方法,通过统计揭示或表达文献核心内容的关键词或主题词在某一个研究领域文献中出现的频次高低,来确定该领域的研究热点和发展动向。当下的词频分析法与共词分析法主要基于提取关键词来分析出版领域的研究热点和趋势。论文关键词是研究成果的高度概括性表达,体现研究成果的核心思想或主要内容。但是,论文关键词一般在3~5个不等,并不能全面概括论文研究的重点指向。因此,本研究对《科技与出版》2017年第1期至2023年第2期刊载论文进行全文分析,提取与研究主题高度契合的相关词,形成主题词库,分析出版研究领域的话语框架与研究热点。
1.2 数据来源与处理
1.2.1 数据采集
本研究以知网(CNKI)数据库作为数据来源,以期刊《科技与出版》2017年第1期至2023年第2期刊载的学术论文作为研究对象。为保证样本资料的准确性和有效性,剔除卷首语、简讯等研究价值较低的内容共204篇,最终采集到1 865个有效样本。笔者利用Beautiful Soup爬虫工具,基于自由度、凝固度的新词发现、新词挖掘技术,对1 865篇论文的标题与正文部分进行内容挖掘,最终提取出6 194条主题词数据并形成词汇集群,包括主题词名称、频次、上下文语境等信息。
1.2.2 数据清洗与处理
数据清洗包括机器清洗与人工筛选两阶段。在机器清洗阶段,利用Python进行多轮数据清洗后,初步过滤掉872条重复词汇、异常词汇等无效数据;之后又加入多轮人工筛选,以保证主题词库的专业性、科学性和准确性。在人工筛选阶段,确定筛选规则,过滤掉1 834条通用语料和研究价值较小的词汇数据,如“纸张”“评价”“内涵”“阶段”等。经过多轮机器清洗和人工筛选,最终得到3 388条有效主题词数据,篇均有效主题词1.82个。
1.3 数据统计与特征提取
数据处理与统计分析过程分为三个阶段。第一阶段是人工筛选主题词库的无效数据,将主题词总表按照年份划分为7个分表进行处理,每个分表至少由2位编码者进行数据清洗。第二阶段是词频分析、词性分析和上下文统计分析,由至少2位编码者进行编码,以保证信度。第三阶段是统计分析主题词词频、词性、搭配及主题词左右共现的词语属性来识别话语特征,即通过话语分析的方法,将话语置于社会情境中进行解读与阐述。
2 数据分布与特征分析
2.1 词频统计分析
表1 主题词分段统计总表
| 词频/次 | 词数/个 | 占比/% |
| 1 000以上 | 184 | 5.4 |
| 901~1 000 | 15 | 0.4 |
| 801~900 | 22 | 0.6 |
| 701~800 | 30 | 0.9 |
| 601~700 | 42 | 1.2 |
| 501~600 | 44 | 1.3 |
| 401~500 | 71 | 2.1 |
| 301~400 | 110 | 3.2 |
| 201~300 | 197 | 5.8 |
| 101~200 | 435 | 12.8 |
| 1~100 | 2 238 | 66.1 |
表2 低频词分段统计表
| 词频/次 | 词数/个 | 占比/% |
| 91~100 | 81 | 2.4 |
| 81~90 | 86 | 2.5 |
| 71~80 | 104 | 3.1 |
| 61~70 | 113 | 3.3 |
| 51~60 | 145 | 4.3 |
| 41~50 | 184 | 5.4 |
| 31~40 | 219 | 6.5 |
| 21~30 | 270 | 8.0 |
| 11~20 | 401 | 11.8 |
| 1~10 | 635 | 18.7 |
表3 极高频词范畴统计表
| 范畴 | 主题词(频次) | 总频次 | 篇均频次 |
| 出版物与内容 | 出版物(10 297);期刊(93 996);内容(38 645);图书(36 165);科技期刊(24 072);信息(21 497);学术期刊(17 353);作品(16 999);教材(12 501);文献(11 260) | 282 785 | 151.6 |
| 出版技术 | 科技(42 261);技术(33 069);数据(28 402);智能(10 445);数字出版(15 025) | 129 202 | 69.3 |
| 学术研究 | 学术(51 082);科研(12 118);文化(28 363) | 91 563 | 49.1 |
| 出版人员 | 编辑(36 675);作者(21 611);读者(17 063) | 75 349 | 40.4 |
| 出版机构 | 出版社(23 134);媒体(20 519) | 43 653 | 23.4 |
| 版权 | 版权(15 003) | 15 003 | 8.0 |
2.2 词性分析
首先,词语结构分析。在剔除了163个机构名称或人名类专有名词后,对剩下的3 225个主题词进行词语结构的类型分析。根据词语结构,将主题词分为词语和词组两类。其中,词语的定义为单独的词,如“科技”“文化”“期刊”等;词组的定义为两个或两个以上的单独词的组合,如“学术期刊”“数据新闻”“智能媒体”等。统计发现,词组的数量高达2 860个,约占所有被分析主题词的89%;而词语的数量仅365个,约占所有被分析主题词的11%,数量较少。
其次,词语与词组属性分析。在词语类别中,“名词”289个、数量最多,“动词”34个,“形容词”19个,“英文缩写”21个,“副词”2个、数量最少。2 860个词组的属性分析结果如图1所示。其中,“名词+名词”的组合出现1 485次,约占所有词组数量的52%;“名词+动词”出现598次;“动词+名词”出现332次;“形容词+名词”出现227次;“动词+动词”出现92次。
图1
最后,数据分析。由图1可见,独词中的名词占比高达57%。而组合词中,名词与动词的搭配最为常见。分析主题词的属性特征可见,出版研究的主题词往往选择名词或“名词+名词”的建构型式,如“孤儿作品”“社交出版”“数字版权”“编辑队伍”等。相较于“名词+动词”“动词+名词”和“动词+动词”动态的话语建构型式,如“伦理审查”“整合资源”“融合发展”等,“名词+名词”的话语建构型式是静态的,且独立性较高。
2.3 主题词的上下文语境与关联分析
首先,数据统计。通过Beautiful Soup软件提取3 388条主题词的上下文语境数据,得到16 639个句子;剔除参考文献、书名等无效数据,获取有效句子数据12 831条,部分主题词上下文语境截图如图2所示。由6位编码者对主题词在特定语境下充当的句子成分进行分析,观察主题词左右共现的语言型式、搭配等,进一步分析出版研究的话语建构。
图2
其次,主题词左右共现的词语属性分析。分析主题词在特定语境下的句子成分可知,主题词在文章中的主要作用和角色有所差异。主题词左右共现的词语属性如图3所示。其中,最常见的是主题词作定语,有4 270条句子数据、占比高达33.28%,修饰限定其他关涉主体。其次是主题词作宾语,有4 169条句子数据、占比32.49%,用于表示被其他关涉主体影响的对象。再者是主题词作主语,有3 655条句子数据、占比28.49%,用于表示施加作用或影响的主体。而主题词作状语和谓语的占比较低,作状语的句子数据为365条句子数据、占比2.84%,作谓语的句子数据为318条句子数据、占比2.48%。主题词作补语的情况最少,仅有54条句子数据、占比0.42%。
图3
3 研究结论与热点追踪
3.1 话语建构:独立性、稳定性、发展性的型式特征
主题词是学术论文核心议题的中心所指。在去语境化的语料库分析过程中,发现主题词的话语建构多以“名词”或“名词+”的型式为主,呈现出极强的独立性、稳定性和发展性特征。首先,独立性体现在绝大多数常用主题词的语义所指明确且表述通俗易懂,无须依赖其他名词或阐释进行语义补充。例如,“主题出版”(5 356)、“全民阅读”(3 133)、“数字阅读”(1 847)、“出版传媒”(1 414)等主题词所指与能指均明确清晰,即在去语境的单独呈现时仍具有完整意义,独立性较高。其次,稳定性体现在主题词极少发生语义拓展或概念延展,能指的范畴较窄,且都是出版语料库中的基础词。例如,“纸质书”(3 724)、“读物”(2 837)、“封面”(1 902)、“预印本”(1 592)等主题词,其概念内核相对稳定,内涵一般不会发生外延。最后,发展性体现在出版领域新业态、新事物的概念化表达和抽象性概括上不断发生的调试与整合。例如,与“传统出版”(4 458)相对的“数字出版”(15 025)、“媒体融合”(2 425)+“出版”=“融合出版”(1 451)等主题词,在继承既有出版术语的基础上进行重构与创新。
在主题词左右共现的语境化分析过程中,发现主题词在句子中多作定语、宾语、主语成分,修饰限定其他关联词,表示施加影响的主体,或表示被影响的客体。并且,主题词的左右共现词汇与搭配相对稳定,这说明出版研究的知识图谱中建立了稳定的理论搭配和概念连接。随着出版实践的脉络演进和知识深化,出版新业态、新事物将加速涌现:一方面,描述性、概括性、抽象性的新概念、新理论将不断拓展;另一方面,不同语境下出版研究的话语建构型式和理论共现模式将日趋稳定。
3.2 主题聚焦:政治性、文化性、技术性的研究框架
通过分析极高频主题词、高频主题词、中频主题词的内容与所属范畴,发现当下出版学界的研究重心和研究框架围绕三大主题展开,分别是政治主题、文化主题和技术主题。并且,出版研究有突破条块分割的单一主题框架的趋势,学者们更加重视关联主题的融合叙事策略,主题研究的融合框架有强化的趋势。
出版研究的政治性主要表现在研究主题和研究方向与国家政策法规保持同频共振。一是围绕“主题出版”(5 356)展开的宣传国家重大方针和战略思想的研究,并且根据国家政策法规的发展脉络,进行国家大政方针的出版适用性与发展性解读,主动服务于国家发展战略。二是围绕“出版融合”(1 615)与“出版智库”(1 098)展开研究,以出版功能角色的重新定位、赋能价值的充分挖掘、现有模式的持续思考与发展路径的持续创新为切入点,不断探索出版服务政治大局的新智慧与新方案。
文化主题仍然是出版研究的重点。通过主题词分析,发现当下出版文化功能研究主要包含三重维度,一是强调“信息”(21 497)传播与“内容”(38 645)供给;二是“知识服务”[1](3 877)和“科普”(4 995);三是价值“导向”(3 136)和文化“赋能”(1 104)。可见学界对出版功能价值的研究经历了从“信息流通的集散地”到“知识服务的大平台”,再到“服务大局的新智库”的发展脉络。从2017年党的十九大报告提出“文化兴国运兴,文化强民族强”到党的二十大报告中关于文化建设的重要指示,出版文化主题研究热度不减。“出版社”(23 134)与“出版物”(10 297)作为服务上下、链接多方的文化“载体”(2 310),聚焦于出版社的数智化转型、运营策略优化、知识服务升级,以及出版物的选题创新、质量提升、国际化传播等方面的研究成果日益丰富。
出版研究的技术转向成为重要趋势和改革方向,具体体现在研究理念、研究方法、研究结论的技术转向。自2017年文化部《关于推动数字文化产业创新发展的指导意见》至2021年《“十四五”数字经济发展规划》等指导意见和规划出台,“科技”(42 261)、“技术”(33 069)、“数据”(28 402)、“人工智能”(5 491)等主题词被广泛引入不同主题的研究语境中。在研究理念上,“数字出版”(15 025)、“版权”(15 003)等主题词在知识图谱中的地位显著,数据即生产要素、科技即生产力[2]的理念将继续指导出版技术研究。在研究方法上,基于CiteSpace的科学知识图谱、聚类分析、社会网络分析、多维尺度分析等文献计量学方法的研究不断增加。在研究结论上,技术成为出版变革的关键归因变量,也是未来出版数智化转型的关键突破路径。
3.3 路径优化:纵深化、低维度、小视角的主题关照
如前文所述,对主题词的内容加以分析,可以发现当下的出版研究多停留在政治、文化和技术主题的宏观维度。虽然研究理念的站位较高,研究主题的视域较广,研究视角在横向拓展,但是缺乏纵深化、低维度和小视角的研究。例如,在提到版权的诸多文献中,主题词“版权”出现的频次为15 003,而针对“版权法”(722)、“版权交易”(316)、“版权制度”(180)、“版权合作”(63)、“影像版权”(7)等版权细分领域的研究较少。这在一定程度上说明研究视角多聚焦于宏观层面的议题与概念,缺乏对微观概念和细分议题的纵向深挖。而小视角、小切口的研究往往缺乏横向比较与联系的思维,如在关于书店的研究中,“实体书店”(2 665)与“网络书店”(216)、“数字阅读”(1 847)与“传统阅读”(102)的文献数量差异较大,且该类主题词很少出现近距离共现的情况。这说明出版研究仍需进一步增强多元主题之间的关联探析与相对主题之间的横向比较。
未来,出版研究应加强纵深化、低维度、小视角的主题关照,处理好宏观的政治、文化、技术主题与微观议题之间的关系。例如,在版权研究中,既要看到“区块链”(2 283)、“元宇宙”(1 061)等新兴技术对版权保护的赋能与风险,也要关注“孤儿作品”(193)、“影像版权”(7)等微观议题。在出版内容资源的研究中,既要看到知识服务与文化导向方面的价值,也要关注“AR图书”(213)、“盆景图书”(13)等“小众图书”(50)的内容资源开发。在出版营销效果的研究中,既要看到数字营销的效果优化,也要关注数字鸿沟下“老龄阅读”(3)的困境与解决方案。只有加强宏观主题下的微观关照,出版研究才能摆脱研究浮光掠影、浅尝辄止的局限性。
4 结语
从微观视角切入,通过对出版研究主题词的词频统计、结构分析、词性分析和左右共现的词语属性分析,发现出版研究主题词的使用和建构呈现独立性、稳定性和发展性的特征,出版研究的话语框架走向规范化和系统化。宏观来看,通过分析极高频词、高频词和中频词的内容与所属范畴,发现出版研究的政治性、文化性和技术性的研究框架趋于稳定。当下,高站位、宽视域、大视角的研究理念下,出版研究应该加强对纵深化、低维度、小视角的研究主题的关照,以进一步拓展研究视域,最终形成出版业服务大局、赋能发展、引导文化的可持续发展路径。
参考文献
/
| 〈 |
|
〉 |
