人工智能时代出版业知识服务的伦理挑战、价值重构与实践进路
Ethical Challenges, Value Reconstruction, and Practical Approaches of Knowledge Services in Publishing Industry in the Era of Artificial Intelligence
通讯作者:
| 基金资助: |
|
In recent years, alongside the rapid development of artificial intelligence (AI) and its creation of new application scenarios across various sectors of society, increasing attention has been drawn to the ideological impact and ethical challenges it poses to societal functioning and human value systems. While knowledge services remain the core function of the publishing industry, they have also brought a series of new ethical challenges, such as "technical failure", "copyright invalidation", and "value deviation", impacting business ethics, industry ethics, and social theories of the publishing industry. This necessitates restructuring the value system of the publishing industry as a new knowledge service industry in the AI era from three dimensions: commercial value, industrial value, and social value. Through the transformation of individual knowledge into data assets, industry knowledge into decision-making wisdom, and public knowledge into social consensus, the publishing industry has restructured its value in the field of knowledge services with the help of AI, achieving a value upgrade from "individual knowledge inheritance" to "industry intelligent decision-making" and ultimately to "social consensus construction". Value reconstruction has further driven innovations in product models and the shift in subject practices. Publishers, as the main body of knowledge service activities, need to continuously enhance their value innovation closed loop of "knowledge data resource accumulation + knowledge product solution output + cross-industry social overall empowerment" through new pathways, such as multi-subject collaboration, human-machine cross-verification, and value ecosystem co-creation in knowledge service practices. Internally, this enhances the quality and efficiency of knowledge production, cultivating and developing new quality productivity of knowledge services in the publishing industry. Externally, it serves the new demands of cross-industry and wide-ranging social integrity and diversity of knowledge data, thus promoting knowledge sharing, application and innovation. By strengthening intellectual property protection, addressing data "noise", and eliminating "AI illusions", new subject practices in the publishing industry can be implemented, thereby achieving a value reconstruction and practical approach innovation of knowledge services in the publishing industry from "subject collaboration" to "ecological co-creation". In the future, with the in-depth application of AI technology and its deep integration with the publishing industry, intellectual property protection, the management of "AI illusion", and the control of "data noise" will remain key contents of comprehensive governance in the knowledge service sector and important paths for publishing entities to practice. It is essential to explore the establishment of a value ecosystem in which the rule of law, technology and humanity coexist, continuously innovating service models and conducting practical exploration in the co-creation of such a value ecosystem. This represents an inevitable pathway towards the intelligent era of knowledge services in the publishing industry.
Keywords:
本文引用格式
吕晓峰, 孟祥晴, 詹洪春.
LYU Xiaofeng, MENG Xiangqing, ZHAN Hongchun.
快速迭代进化的人工智能(Artificial Intelligence,AI)技术在各行业领域不断制造新场景应用的同时,对人类社会运行和价值观念世界产生的思想冲击与伦理挑战日益引发关注。一方面,人工智能生成内容(AI-Generated Content,AIGC)在数字虚拟人、人机对话、个性化知识服务领域为人类社会交往和知识生产提供了全新可能和消费想象;另一方面,AIGC嵌入社会系统带来的算法决策“黑箱”、深度合成诈骗、人伦道德难题正在成为引发社会关注和警醒的新“技术危机”。作为以知识服务为核心的出版活动,随着AI技术的引入和应用,以“人—技术(机器)—知识产品”为核心的出版业传统伦理关系将逐渐被“人—智能技术(智能体)—数据流/集”为核心的新伦理关系取代。知识数据分析中出现的数据造假与数据缺失,知识问答服务中大模型的“信口雌黄”,人机对话中含有不良价值观诱导的对话内容和情绪渲染等问题,都成为AI技术应用中制约出版业知识服务水平和效能的新挑战。为此,中国、美国、欧盟等国家和组织已先后颁布实施了一系列针对AIGC的限制性规范和指导性意见。对以知识资源作为核心资源的出版业而言[1],当务之急是直面AI技术带来的全新伦理挑战,重构出版业知识服务的价值观念体系,找到适宜数智化知识服务时代的出版实践新进路。
1 从“技术失灵”到“价值失范”,出版业知识服务的伦理挑战
AI推动知识生产从传统的“归纳—演绎”模式向数据驱动与算法生成模式转型。[2]在出版领域,面向读者、作者和专门知识用户的知识服务形态分别是以“人机对话”平台为渠道的知识问答服务、以“知识创作”为核心的智能辅助服务和以“知识库”为核心的知识资源服务。数智化的新知识服务形态不仅需要专业且全面的垂直领域知识资源,更需要将非结构化的文本和图像等转化为结构化的数据资源,实现知识价值释放和增值的最大化。然而,正如刘易斯·芒福德(Lewis Munford)笔下的“王者机器”也会发生故障一样,AI时代的技术也有“失灵”的风险。在出版业知识数据化、知识服务数字化的过程中,大数据分析、大模型运算、智能化推荐隐匿着“技术失灵”的数字风险——“数据技术故障”可能产生“低质数据集”,形成“低值数据资产”和“数据残次品”,进而引发整个行业和社会的决策偏差;AIGC的著作权归属争议与知识产权保护难题可能带来“版权失效”;社会整体的“数据迷信”与“AI幻觉”不仅会降低知识用户对出版业知识产品的信任度,更有可能带来社会整体的伦理价值失范和观念行为危机。从AI“技术故障”到社会整体知识生态的系统性崩溃,AI技术在出版业的应用不仅带来商业价值变现和行业价值规范方面的伦理挑战,甚至可能为整个社会结构和系统带来伦理风险。
1.1 “技术失灵”:“数据技术故障”制造“知识残次品”,挑战商业伦理
AI技术在各行业的广泛应用,带来了数据生产和沉淀的“巨量化”,使得基于海量个体“数据流”和行业“数据集”的数据资产化、市场化、商品化成为可能。特别是2024年初,国家数据局等十七部门联合印发了《“数据要素×”三年行动计划(2024—2026年)》后,数据作为关键生产要素的价值日益凸显。出版业作为知识服务业,出版商、作者、知识用户者等不同主体积累了大量行业数据、专业数据、个体数据和借助AI技术,出版业通过实现“知识—数据—智慧”的价值变现,有助于实现商业模式、市场价值和行业生态的创新转型。特别是对出版业数据资产化的两端而言——由个体数据转化而来的消费者大数据可以借助智能技术实现数据资产交易,由专业出版商商业数据转化而来的专业大数据可以借助数字化平台升级为辅助企业和政府决策的“专家系统”。
在此过程中,数据是知识转化为智慧的资源,数智化技术则是转化的媒介和工具,发挥更为关键的作用。所谓“数据技术故障”,就是在出版业个体数据和专业数据进行资产化、市场化和商品化的过程中,自身数据质量低下和数智化技术缺陷导致的数据缺失、重复、不完整、冲突、逻辑错误、时效性差、准确率低、开放性不足等系列问题。“数据技术故障”出现的根本原因是技术“失灵”,即在数据收集、存储、清洗、加工、开发、流通过程中过度依赖AI和大数据技术而产生的“数据黑箱”“算法黑箱”和“模型黑箱”,最终导致产出的数据“低值”“低质”,由此数据所形成的数据商品自然成为“知识残次品”——既不具有市场化、商业化交易的知识价值,也很难满足支撑企业和政府进行相关决策的科学性知识要求。对出版业知识服务的数据化转型而言,这无疑是对商业伦理的巨大挑战——不能提供优质的数据商品和知识服务,自然也不可能实现从优质出版商向优质“数商”的转型升级。
1.2 “版权失效”:“权属争议”与“保护难题”并存,挑战行业伦理
在知识服务智能化转型的场景下,“版权”问题是数据资产化、决策智慧化到专业知识建构、社会共识建构都绕不开的核心环节。AI技术应用带来的知识产权伦理问题主要涉及两个方面:一是AI参与内容生产带来的著作权归属争议;二是AI技术应用普及过程中产生的专利保护法律滞后和模型训练中的版权保护难题。“权属争议”与“保护难题”交织,使得出版业的知识产权保护面临“版权失效”的尴尬和伦理挑战,给出版业的数智化转型和行业升级带来了伦理危机。
AIGC著作权归属争议点在于AIGC涉及大量人类创作的知识数据和算法,这使其著作权归属难以界定。AI作为技术和工具,本身没有作者身份,无法享有著作权,且算法工程师、知识库归属者、知识语料提供者的知识创造价值难以量化,著作权归属何行为主体,著作权的享有边界如何都亟待确定,加大了利益合理分配的难度。生成式AI在知识数据收集和语料训练阶段会触发著作权侵权风险,引发诸多争议。AI时代知识产权的保护难题影响了知识服务生态的有序性。
法律滞后与版权保护的困难限制了行业积极性和数据资产商业价值的释放与转化。数据资产化的前提是权属清晰[3],数据权属涉及数据采集与获取、存储与传输、加工与应用、流通与交易的全生命周期,在此过程中需要严格明确权利主体及其范畴、类型,数据应用的范围、期限、限制等信息。出版企业必须合法拥有或控制数据,才能主张其资产价值。但是,版权确权、版权授权与收益分配等问题尚未达成行业共识,出版业数据资产交易机制的不完善影响了出版业数据要素市场的流通性、规范性和有序性,进一步阻碍出版业数据资产价值的充分释放,制约出版业的数智化转型和对外赋能效果。
1.3 “价值失范”:“数据迷信”与“AI幻觉”叠加,挑战社会伦理
早在AI大规模应用前,大数据技术的横空出世已使一些学者意识到盲目的大数据“迷信”和“崇拜”可能带来的“数据巫术”困局。传媒经济学者戴元初在2014年即以电视媒体为例,认为大数据的引入看似给新闻报道提供了直觉依据和数据化呈现形态,为节目生产提供了用户心理和行为画像,给节目评价提供了收视率之外更加全面的数据支持。然而,一些人和机构为了商业利益,找准“大数据崇拜者的知识空白和信息渴望,用一些似是而非的概念给那些需要新证据支持的机构提供‘合意’的数据。” [4]这种“迎合无知者内心期待的数据巫术”所产生的“数据崇拜”和“数据迷信”对于身处AI应用转型升级急迫期的出版业和出版商而言,仍然“甜蜜”而充满诱惑。
同时,基于大语言模型(Large Language Model,LLM)技术的知识服务平台也普遍存在“AI幻觉”问题。“AI幻觉”是指生成式AI或LLM在内容自动生成或问答交互的过程中,输出的内容看似科学合理且来源可溯,但实际上存在指令误解、内容虚构、事实偏差、数据错误、知识谬误、逻辑矛盾等问题。[5]研究发现,DeepSeek推理模型R1的幻觉率为14.3%,远高于非推理基础模型V3的3.9%。[6]“AI幻觉”不仅会降低用户的知识交互体验、出版业数据决策的可信度和科学性,甚至会影响出版业知识服务的权威性,引发知识生产者与用户之间的信任危机。“AI幻觉”是LLM的技术基因。LLM通过对大量语料无监督的深度学习和分析,预测下一个特定token(在自然语言处理中,token是文本的最小语义或结构单位,通常由“分词器”将原始文本中的句子或段落拆分而成)的概率,其本身可能并不擅长理解事实和知识的深层逻辑,“token by token”的知识生成策略使得LLM无法修正早期的错误,导致滚雪球式的幻觉扩大。如何让AI技术深度理解词义与语义,如何判断事实要素的逻辑关联,如何构建知识元之间的正确连接,如何作出正确的推理与预测,仍然是LLM的瓶颈。在数据集与语料库层面,出版业大数据的完整性、一致性、准确性、真实性、可靠性等也会影响“AI幻觉”与推理能力;数据共享的制度性梗阻、数据壁垒的存在会影响出版业大数据与关联行业的知识连接,使得AI在知识关联上出现常识与逻辑错误等问题。
技术“失灵”、版权“失效”、模型“失智”最终将导致知识“失信”。“迷信”与“幻觉”的叠加必然带来出版业为社会所提供的知识建构体系的崩塌与价值观念的失范。一旦社会大众不再相信出版业提供的社会知识观念与价值规范,遭遇伦理挑战的将不止是出版业自身。“数据迷信”与“AI幻觉”凸显了AI在知识服务应用中公共性技术规范的缺失与不足,更深层次地折射出数智技术应用对社会整体知识生态的异化——AI技术越发展、应用越广泛深入,越需要技术规范和行业标准,越需要社会整体提高警惕、明晰是非、祛魅除幻。
2 从“知识增值”到“共识建构”,出版业知识服务的价值重构
劳动产品只有在相互交换中,才会被社会所承认,才能表现出价值。[7]知识作为一种社会实践的结果和产物,作为具有流通和交换价值的特殊商品,自然要用于交换——依赖出版业作为媒介进行的社会交换。作为劳动产品和社会商品的知识,出版就是它的流通和贮藏手段,出版物就是知识的“货币”。AI时代,大数据分析、智能算法等技术深度嵌入知识服务的全链路,知识生产协同化、流通数据化、平台融合化、需求多元化、消费场景化趋势加速、特征交叠,使得个体经验知识逐步超越传统的知识传承价值范畴,成为出版业大数据模型的语料来源与数据资产,具有商业价值的个体知识集合成为行业知识数据的重要构成,进而沉淀为行业智慧决策的数字化依据。同时,传统出版业提供社会公共性知识的价值,随着信息茧房的加剧、智能算法的推荐和舆论场域的极化,进一步转化为生产传播社会共识性知识的价值。然而,AI对出版业知识服务带来的伦理挑战,不仅影响知识数据挖掘与获取、整合与分析的广度,降低出版业对外赋能的效果,从而波及出版业高质量知识服务的价值构建,也将影响出版业价值生态实现从个体知识传承到行业智慧决策和社会共识建构的有效延展和价值升维。从“知识信息”到“数据资产”,从“个体”到“行业”,从“专业知识”到“社会共识”,消解AI带来的伦理挑战,必须推动知识服务价值重构,进一步释放出版业知识服务的商业化、产业化和社会性价值。
2.1 推动个体知识向数据资产转化,重构知识服务商业价值
20世纪80年代,卡斯特(Custer)提出,信息社会中“数据——而非资本或劳动——是价值的最重要来源。” [8]随着数字媒介与数据信息在知识系统和社会系统的深度嵌入,以及个体对数字平台依赖程度的加深,用户个体在数字平台上的知识消费越来越呈现知识盈余和冗余状态。以各类专业平台和专门应用为代表的知识问答、检索、订阅、集成、分享平台,在大量用户共创、圈层传播的过程中,积淀了大量无人问津、难以检索、不被发现的“无用知识”“沉默知识”和“冷知识”。用户在数字平台上的知识协同式创作、分享与互动,只有进入公共领域将个体经验性知识和理论知识进行系统化输出之后,才能转化为大众知识产品和平台的知识资产。如何激活这些盈余和冗余的知识,激发个体知识作为生产要素丰富知识生产资料、创造知识商品的社会价值,是重构出版业知识服务商业价值必须要解决的问题。
公有领域中的未发表作品常因散佚、私藏或尚未系统整理而难以真正为公众所用。[9]在出版业知识服务的算法转型和数智化实践中,出版机构和专业编辑难以高效挖掘的个体知识与公共平台中的离散知识,可以被知识图谱技术批量获取并进行数据转化。个体知识和平台知识转化为数据资产的底层逻辑,是通过AI采集工具在数字平台上提取个体知识与经验,使用自然语言处理(NLP)将非结构化知识(如文档、语音、视频)转化为结构化的数据,根据知识内容的标签进行分类,存入知识数据资源库,用于算法或大模型的开发与训练。深度学习技术可以对数据库中庞大的知识内容和体系进行无监督学习,个体知识成为模型“智力”的重要来源。拥有强大的知识学习能力和知识生成能力的模型嵌入出版融合平台的技术底座中,通过AI问答功能、算法推荐功能为个体提供个性化、智慧化的知识服务,以积聚流量搭建双边市场,由此实现了“个体知识挖掘—知识数据积累—数据资产转化”的商业逻辑。
2.2 推动行业知识向决策智慧转化,重构知识服务产业价值
当前,出版业销售数字版本(如电子书、数字杂志)、数据库产品、数字文件(如研究报告、数据表格)以及提供市场调查等相关服务的收入在总收入中的占比已经超过了50%。[10]出版业掌握大量垂类知识资源,通过售卖数字出版物、数据库产品等,为细分领域的大模型训练提供专业、优质、丰富的行业知识数据资源。例如,人民法院出版社将多个法律大数据平台经过高质量专业标注的3.2亿篇共计3.67万亿字的法律文献、裁判、案例、观点等数据语料,以及人民法院电子音像出版社18万个法律知识体系编码的“法信大纲”,作为“法信法律基座大模型”的训练数据。该模型已应用于“法院人工智能辅助审判系统”“法答网案例库库网融合检索系统”等场景中,提升了法律统一适用和审判工作质效。[11]值得注意的是,出版业虽然掌握大量优质的知识数据资源,但是非结构化的文本与影像向结构化的数据转化仍然是当前的行业难题。一方面,高质量数据的开放共享存在利益分配难题和制度性约束;另一方面,在知识转换为数据资产的过程中,涉及复杂的技术环节、多元的协同主体和诸多的管理节点,容易增加数据“噪音”。此外,可采集的公共数据质量参差不齐,甚至存在知识谬误,而通过其他渠道获得的数据又涉及隐私泄露和知识产权侵权等法律风险。出版业的知识数据资源向数据商品和决策智慧转化过程中,高质量数据集是建构大模型的难题之一,也是知识数据能否代替人类成为“专家系统”进行智慧决策的关键难点。
而在企业和政府决策领域,传统的经验决策往往依赖决策者的个体经验,容易受到知识结构的有限性,决策思维的惯性和滞后性等的影响,“经验决策”转变为“经验决策+数据决策”结合的决策方式尤为重要。因此,充分发挥出版业的知识资源优势,精研垂类大模型服务于跨行业的专业知识和高质量数据需求,是出版业知识服务产业价值释放的关键通路。目前,出版业知识服务的垂类AI大模型涵盖出版、司法、教育、科研、农业、医疗等多个领域。例如,同方知网与华为共建我国首个知识服务与科研行业大模型“华知大模型”,助力科学研究的热点趋势总结、选题推荐、文献综述、润色修改、智能伴写等。未来,在医学、党政、金融、教育、科研等细分领域,出版业要打造“高精深”专业知识服务数据库,加快建设细分领域的“专精尖”行业大模型,以知识生产、知识共享、知识创新、知识服务与知识应用的数智化和全场景化,实现知识数据赋能产业价值提升。
2.3 推动公共知识向社会共识转化,重构知识服务社会价值
在知识社会学语境下,知识在社会互动中产生并传播。也就是说,知识的生产与创造、传播与共享、创新与应用,都离不开社会系统中各结构要素的相互作用。技术作为社会系统中不可或缺的结构要素,知识与技术之间的互构成为公共知识向社会共识转化的关键路径。出版作为中介性、技术性的媒介平台,在知识系统间促进各类知识的交流,从而推动不同学科、不同层次、不同形态的知识实现融合。在此过程中,不同知识系统间的关系得以确立,跨文化的对话交流得以实现。这种互构的二元中心是知识与社会,关键是社会内系统中的知识建构。知识是社会系统内部个体感知社会的环境系统,也是个体感知同类组成群体的环境系统。这意味着,作为个体的社会成员,在参与群体活动,成为“社会人”的过程中,与其他个体、群体、组织的交流过程中所依赖的并不是一般意义上的信息,而是社会所普遍认同和共同遵守的知识。
公共知识向社会共识的转化,本质上是将社会内部差异化的、分散的、潜在的群体认知,通过传播、互动与价值认同的层层递进,最终转化为社会成员接受和共享的价值判断和行为准则。出版融合平台在自然语言处理、机器学习、大数据分析等技术加持下,其多元化的知识内容和形态、个性化的算法推荐与知识分发、跨群体的知识协同创造与对话交互,会提升个体对技术的依赖和信任,进而促进社会共识的形成。伯格(Berg)和卢克曼(Lukman)将之称为“社会知识库”(social stock of knowledge)。在这个语义场中,个人经验和历史经验都可以被客观化,并被保存和积累[12],为“众智连接”和“社会共识”的形成提供了可能。人机协同化的知识生产改变了知识、技术与认识之间的关系,使得人与人、人与机器、机器与机器之间的知识得以贯通,从而塑造一个庞大、多元且有自进化能力的社会知识库。在此过程中,公共性知识向公约性共识转化,推动知识服务实现从传统知识传播价值到“数据资产—决策智慧—社会共识”的多元价值转向。传统知识服务的价值逻辑被重塑,进而推动知识服务具体模式和主体实践的创新与升级。
3 从“主体协同”到“生态共创”,出版业知识服务的实践进路
智能化新知识服务场景中,“人—技术(机器)—知识商品”的关系重塑,推动了出版融合发展阶段从数字出版之“相加”、融合出版之“相融”走向数智化时代的“深融”。[13]这意味着,随着出版业知识服务对个体、行业、社会知识价值认知和价值呈现的重构,出版业知识服务的具体模式和主体实践重点相应发生变化。AI技术的参与,使得以“人机协同”为核心的知识生产模式、以“融合产品”为核心的知识分发模式、以“智能场景”为核心的知识消费模式三者互构融合,推动知识服务由“生产、发行、消费”的“相加”走向智能驱动的“深融”,共同构成了出版业知识服务的新模式。在此过程中,当作为知识服务主体的出版者面对AI的攻城略地、狂飙突进时,自印刷术时代建立起来的“主体分工”实践、大众传媒时代逐步形成的“主体协同”实践,必然走向法治约束、技术规范、人本取向的“生态共创”实践。这一“生态”,既是出版业知识服务所营造的社会“知识生态”,也应是“人—智能技术(体)—数据流/集”和“人—技术—社会”所共生的社会“系统生态”。在这一“生态共创”的主体实践中,以保护知识产权为前提实现法治约束,以降低“数据噪音”为关键彰显人本取向,以应对“AI幻觉”为重点塑造技术规范,才是消解AI带来的知识服务伦理挑战、重构知识服务价值体系的根本实践之路。
3.1 保护知识产权,加大知识服务“力度”
解决AI知识服务的知识产权确权等问题,需要运用法治思维,尽快构建“政府主导、多部门协同”的多元主体协同治理网络,加快相应制度与法律体系建设。欧盟于2024年7月出台全球首部AI监管法规《人工智能法》(Artificial Intelligence Method),为AI应用制定了约束性框架。我国于2023年7月出台的《生成式人工智能服务管理暂行办法》,为生成式AI的服务提供者使用版权作品行为作出了基础规范。[14]在知识服务的知识产权保护体系中,我国可借鉴欧盟版权保护的“介入式监管”原则,通过成立专门的数字版权保护部门或专门工作组,直接参与数字版权治理实践中,通过完善相应制度和法律,针对生成式AI的服务提供者需承担的注意义务与相应的归责原则作出界定,明确“合理性使用”与“侵权性使用”,提升生成式AI知识服务的管理效能。
此外,出版企业在建设知识数据资源库时,对版权明确的专业出版物数据与溯源困难的网络公共知识要分类、分级存储,建立统一的知识应用标注规范。同时,技术公司应提升公开模型训练语料的透明度,主动打破算法深度学习的“黑箱效应”,在保障商业机密不被泄露的前提下,最大程度上提高训练语料库的公开性。最后,应集聚社会各界的力量,制定适用于生成式AI的知识共享协议方案,打破壁垒,作为节约许可成本的行业合规路径。[15]只有在产权归属明确、权责划分明晰的基础上,才能进一步培育知识数据要素市场,盘活出版业知识数据资产。保护知识产权,有利于促进知识产业的合规与规范性,逐步建立AI知识服务的法治规制,促进社会知识生态的良性、理性、善性发展。
3.2 降低数据“噪音”,提高知识服务“效度”
随着出版知识的数据化和知识服务的数字化转向,知识服务质量的高低越来越受知识数据质量的影响。因此,要持续探索降低“数据噪音”的治理方案,不断打破数据壁垒和制度梗阻,将政府部门、出版机构以及技术公司等实践主体纳入知识服务生态共创的价值体系中,发挥政府部门进行科学顶层设计、出版机构供给优质专业知识资源、技术公司实现知识数据转换和价值释放的协同共创作用,进一步构建出版业知识服务的数据治理体系。
制度上,政府部门在健全公共数据开放政策体系的同时,应加快制定数据基础设施标准规范,加快建立数据产权归属认定、市场交易、权益分配、利益保护制度,推动出版业大数据的标准化建设、制度化运维和开放共享,打破知识数据壁垒和制度梗阻。其次,针对多元协同主体和过多的管理节点造成的数据标准混乱、管理“堵点”等问题,出版机构、知识需求方与第三方技术公司可通过深度合作,完善数据仓库系统及元数据标准化管理,加快建设知识资源数据库、作者数据资源库和用户数据资源库。例如,开放文献存储平台AMiner在整合多类学术资源的基础上,通过数据挖掘与关联分析,提供文献引用关系分析、研究趋势预测等多项专业性知识服务,构建起多模式的知识资源库。[16]在知识资源集中和数据化转换阶段,可以建设出版业知识服务数据大平台,将行业共享知识与数据进行统一管理,为数据要素价值释放和行业大模型应用场景的创新提供有力支撑。
3.3 消解“AI幻觉”,提高知识服务“信度”
要解决生成式AI嵌入出版业知识服务的“幻觉”问题,需要从底层技术优化与知识数据资源库运维着手,提高出版数据集质量,构建可信的知识服务生态。一方面,加快检索增强生成(Retrieval-Augmented Generation,RAG)等“幻觉”检测技术的优化升级,如在AI知识服务系统中开发“幻觉”检测模块,自动监测并示警可能存在的“幻觉”问题,高效识别知识交互中事实与知识错误、观点偏见、数据造假等问题。另一方面,加强出版业知识数据库的制度化运维,对数据集进行常态化监控,减少知识服务大模型训练数据的质量故障问题,以“人机协作”的方式清洗训练数据中存在错误、偏见或过时的数据信息;提升人工数据标注工作的标准化水平,以解决由于人工标注标准不一而引发的“幻觉”问题,帮助模型更好地理解知识元网络、知识逻辑和语义关系;通过出版业上下游的关联主体共建高质量知识数据库,打破跨行业、跨部门的知识数据壁垒。
生成式AI加持下的知识交互模式依赖于可实现“人机对话”的数字化融合平台,即Platform as a Service(PaaS,平台即服务)模式——平台既是人机对话、知识交互的场域,也是进行知识分发的“权力枢纽”。作为出版业知识服务与知识交互的中台,出版融合平台需要畅通“人机交叉验证”通道。一方面,可以通过“人机交叉验证”的方式来减少“幻觉”现象,在将LLM嵌入知识服务系统的同时,平台需在交互端设置知识的多重“人机验证”通道,为用户提供事实或数据的交叉验证、反馈通道,对AI知识服务平台输出的幻觉问题进行矫正。另一方面,平台要建立专门的用户反馈征集系统,深度分析知识交互中存在的高频问题,并进行针对性的技术升级与产品优化。解决知识服务因“AI幻觉”问题产生的价值负荷和伦理问题,有利于提升知识服务和知识决策的权威性与可信度。
4 结语
AI时代新的传播技术应用与产业智能化升级,不仅改变了社会信息原有的生产流程、分发机制与消费惯习,带来“技术失灵”“版权失效”“价值失范”的商业、行业和社会性伦理挑战,也推动以知识服务为核心的出版业逐步实现从传统社会性信息供给、专业化行业知识服务到系统性社会共识建构的价值重构:个体知识向数据资产转化,行业知识向决策智慧转化,公共知识向社会共识转化——出版业借助AI重构了自身在知识服务领域的商业价值、产业价值和社会价值,实现从“个体知识传承”到“行业智慧决策”再到“社会共识建构”的价值升维,推动知识服务实现从传统知识传播价值到“数据资产—决策智慧—社会共识”的多元价值转向。价值重构进一步推动产品模式创新与主体实践转向:“人机协同”成为知识产品生产模式的全新驱动力,“融合产品”成为知识产品分发模式的关键依据,“智能场景”成为知识产品消费模式的核心需求。作为知识服务活动的主体,出版者在知识服务实践中需要通过多元主体协同、人机交叉验证、价值生态共创等新路径,不断完善“知识数据资源沉淀+知识产品方案输出+跨行业社会整体赋能”的价值创新闭环,对内提升知识生产的质量和效率,培育发展出版业知识服务的新质生产力,对外服务于跨行业、宽领域的多样化知识数据新需求,促进知识共享、知识应用和知识创新。未来,随着AI技术的深度应用和其与出版业的深度融合,知识产权保护、“AI幻觉”“数据噪音”仍将是知识服务业综合治理的重点内容,探索建立法治、技术、人文共生的价值生态,在价值生态共创过程中持续创新服务模式,是迈向出版业知识服务智能时代的必经之路。
参考文献
A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions
[J].
/
| 〈 |
|
〉 |
