出版行业构建高质量数据集的优势分析与方法研究
Advantage Analysis and Methodological Approaches for Constructing High Quality Datasets in Publishing Industry
Nations worldwide are actively developing and leveraging data resources both domestically and internationally. These resources exhibit economic characteristics including externalities, non-rivalry, and non-excludability, alongside sociological attributes such as shareability, spatiotemporal relevance, and public accessibility. Data quality serves as a critical determinant of model performance in generative artificial intelligence (GenAI) systems, and the lack of high-quality training datasets remains a significant challenge across sectors. While previous research on data elements has focused on implementation aspects, this study examines the underlying rationale and methodologies. This paper establishes the connotation and extension of high-quality datasets, identifying four quality dimensions within a three-dimensional six-tier analytical framework; 1. Structural Dimension; 2. Spatiotemporal Dimension; 3. Security Dimension: The core requirements for constructing high-quality datasets are categorized into four dimensions; 1. Data Unit Level; 2. Dataset Level; 3. Social Benefit Perspective; 4. Economic Benefit Perspective: This framework integrates technical specifications with governance principles, addressing both operational efficiency and societal value creation. The analysis examines industry-specific characteristics and resource endowments to demonstrate why the publishing sector holds unique social responsibility in constructing high-quality datasets. Publishing data exhibits inherent advantages: 1. Quantity: Rich diversity of types and abundant reserves; 2. Quality: Rigorous supply mechanisms and strict review processes; 3. Externality: Traceable ownership and privacy clearance; 4. Standardization: Technical support and cross-referencing capabilities. At the data unit level, publishing data undergoes comprehensive peer review and expert verification, ensuring superior accuracy and reliability compared to alternative data sources. Publishing data achieves substantial completeness and richness through comprehensive industry coverage. At the dataset level, professional editorial teams facilitate secondary knowledge production during data aggregation. They integrate technology with publishing workflows in processes such as packaging, delivery, error correction, and iterative updates, establishing sustainable version control mechanisms. Regarding benefits, publishing data inherently features desensitization and alignment with mainstream ideological values, addressing the balance between data protection and public accessibility. Moreover, the publishing industry's established ownership tracing and benefit distribution mechanisms provide a foundation for business evolution, facilitating trust networks and incentive-compatible business models between data providers and users. From a meso-theoretical perspective, this study employs a best-practice approach, examining mature image databases in the digital copyright trading industry as case studies. It analyzes principles and methodologies for constructing high-quality datasets, proposes operational and training recommendations, and achieves alignment between theory and practice. The marginal contributions of this paper are threefold: first, clarifying the scope and definition of high-quality datasets; second, analyzing the publishing industry's characteristics and advantages to identify key stakeholders; and third, recommending standards, operational principles, and construction methods for high-quality datasets.
Keywords:
本文引用格式
王钧, 王飚, 李苏航.
WANG Jun, WANG Biao, LI Suhang.
2025年《关于推动文化高质量发展的若干经济政策》的通知中,鼓励探索文化和科技融合的有效机制,要求建设高质量数据集,支持人工智能大模型建设。出版行业作为文化产业重要组成部分,在过去几年中就着手研究了高质量数据集如何影响产业发展,并积极探索了模式转型的路径和方法。在图书出版方面,张鑫等基于PubMed-20k和Paper with Code构建了两类不同领域、语步类别略有差异的5个数据集。[6]雷珏莹等则从古籍出版角度出发,重点考查了6个古籍数据库产品,建议出版成果逐渐由传统纸质图书出版拓展为在线发布的数据库出版形式。[7]在期刊出版方面,刘智锋等指出了社会科学领域统一标准的数据集相对较少,数据集的共享和重复利用率较低等问题。[8]自然资源领域学术资源丰富与分散情况并存,各期刊社难以形成合力和发挥自然资源整体的优势,需要探索由传统出版向知识服务的转型。[9]不同于过往数据要素研究聚焦于做什么的议程,本研究关注为什么和如何做,首先辨析高质量数据集的内涵与外延,在三维六层的分析框架下提炼出四个层面的质量需求。以此为出发点,结合行业特征与资源禀赋展开优势分析,阐释了为什么出版行业在构建高质量数据集的历史机遇中肩负独特的社会责任。以中观理论为视角,本研究选取数字版权交易行业相对成熟的影像数据库作为案例,具体讨论高质量数据集的构建原则与方法,提出运营和培训建议,促成理论与实践内在统一。
1 数据集质量需求
数据质量相关研究仍处于早期阶段,各种概念定义重叠、边界模糊,因而需要厘清其内涵与外延。内涵是概念反映的思维对象的本质属性,外延是指具有概念反映本质属性的一切对象。具体到高质量数据集,内涵指其特征,而外延指其应用。
1.1 高质量数据集内涵与外延
厘清高质量数据集内涵与外延,需从定义上辨析数据、数据要素、数据集和数据资产等一系列概念。数据是信息的载体,从远古结绳记事到当下人工智能,人类社会发展可被视为数据嵌入生产生活的深化过程。数据要素是数据成为用于生产产品和服务的基本投入因素之一,是形成新质生产力的优质生产要素资源,是数字经济深化发展的核心引擎。[10-11]数据集则是基于一定的规则,通过特定的技术将数据归并、整合为聚合形态的数据资源。数据集之于数据是集合和对象之间的关系,处于不同的客体层面。数据资产定义为有数据权属、有价值、可计量、可读取的网络空间中的数据集。[12]实际上,这些概念是从不同视角出发的分类体系,因此可将数据资源和数据资产、数据资本、数据要素分别归属于权属层面、作用层面和要素层面。[10]
质量和价值是业界和学界评估数据的常用尺度,二者既有联系,又有区别。价值是一个关系范畴,涉及主客体之间的互动,既有客体对主体的可供性,又有主体对客体的认知、判断和共识。数据质量,即数据特征满足用户要求的程度,[13]偏向客体的内在特征,可被主体以科学方式测量。数据质量可以被认为是数据价值的前提和必要条件。自20世纪末,国外学者就通过量化方法建立层次框架,包含完整性、准确性、一致性和及时性等四个方面,[14-15]用以测度数据质量,后续学者将其扩展为完整性、准确性、可靠性、及时性、关联性、一致性、开放可访问性七个方面。[16]但上述界定没有区分数据对象和数据集合的不同需求,因此,Serhani等提出了一种基于大数据价值链的质量评估方法,将数据驱动的质量评估方法和流程驱动的质量评估方法结合,既评价数据的质量,又评价数据处理流程、方法,并分别给出了完整的数据、流程的质量评价指标和相关评估方法。[17]
高质量数据集的内涵既包含对象(数据单元)层面的质量要求,也包含集合(数据集)层面的质量规范。结合不同应用场景,还需要在对象和集合两个层面进行延展和调适,从集合(纵向)与场景(横向)两个方面考虑,分析不同层面的场景化质量特征。
1.2 数据集质量特征分析
纵向视角的重点是区分数据单元和数据集之间的质量需求差异与关联。数据单元是信息的独立记录,应该具备完整性、准确性、可靠性、真实性和可信度等质量要求。其中,数据准确性是指数据正确、可靠、无误;数据完整性是指数据有足够的深度、广度和范围来完成当前任务;数据可靠性是指数据能够传达正确的信息,是可信赖的或可信任的。[18]而数据集应当具备及时性、关联性、一致性、开放可访问性等整体性质量特征。数据一致性是指数据总是以相同的格式显示,并且与以前的数据兼容;数据及时性是指数据的新旧适合于当前任务;数据关联性是指数据对当前任务是适用的和有用的;数据的开放可访问性是指数据容易利用,适合快速检索,并且能够公开发布与传播。[18]因此,数据集不仅仅是把数据简单归并和堆砌,而是遵循特定的逻辑,在明确规则指导下完成的构建成果。其质量要求涵盖构建和运营的全生命周期,即采集、入库、审核、发布、反馈、优化和迭代,反映出过程管理的动态性和反馈性,其本质是使重复可用性最大化。在生成式人工智能时代,数据集高质量构建方法完成了从符号学派到联结学派的范式转变,主流的联结主义方法通过对海量数据的有效聚合、识别与分析,得以自动化完成知识构建与生成。[19]纵向质量视角下,数据集的结构性要求涵盖两个方面,即集合的构建过程与单元的原生特征。
横向视角关注应用场景外延,需要分为两个层次:基础应用和行业应用。其一,在基础技术层面,生成式人工智能是当下高质量数据集最大的需求领域。在大语言模型开发领域,数据易得,标注数据少有,人工标注数据耗时费力,代价较高,[20]国际上PWKP、SEW以及Newsela是公认较为经典且公开的篇章级英文新闻数据集。相关生成式人工智能多局限于具体的下游任务,缺乏上游的顶层设计,所开发的模型仍有普适性和可迁移性较低的问题。[21]更为紧要的是在相关研究中,所使用的数据集大部分来自国外,如TACRE、FewRel、DMSC和MNIST等。[22]其二,行业科研热度上升,高质量数据集渗入具体场景。在化工领域,以SciFinder为代表的商业文献数据库中,有多个有机/无机合成实验规程数据集。[23]地理领域,孙宝磊等基于NetCDF多维栅格数据结构建立了LVPLM数据集,建构视觉感知区位与景观语义之间的可视关系。[24]世界各地传统音乐的相关研究处于初级阶段,其中一个主要原因是缺乏高质量的数据集和标注规范。[25]黄世忠等则通过对高质量会计信息发现存在隐性关联关系的上市公司具有更高的真实盈余管理水平。[26]法律领域的数据总量十分有限,并且格式上多以无标注、非结构化形式为主。[19]制约情报研究结论一致性的首要因素是信息不完全和信息量短缺,这两种现象的产生都存在于数据集构造阶段。[27]综上所述,各行各业的共性问题是如何在保障数据单元质量的同时,管控数据集的构建方式对质量的影响,其本质是行业应用场景在实质上将质量需求升维成时空关联性要求。
在纵向与横向两个维度之外,还需要考虑质量安全维度。其核心是伦理底线和价值对齐,即关键在于如何保障效益、公平和可持续发展之间平衡。多元主体可以为各种目的无限次地使用和重用同一数据集而不消耗其质量和数量。因此,数据集具备不完全竞争性和不完全排他性、外部性、时空相对性等四大特征。[31]其一,数据集应该被划归为准公共物品,可以交由市场提供,以提高资源的配置效率。[32]其二,数据要素所产生的外部性本质上是复杂外部性的第二类外部性,即马歇尔外部性,具有间接性、紧密型和规模性的特点。[10]进一步分析,其外部性成分复杂,既有正面的数据溢出效应、产业渗透效应和加速飞轮效应,也有负面的隐私与机密泄露、意识形态偏离和数据独裁潜在风险。[1, 2, 30]数据集在其生命周期中的各个环节上始终伴随着多元主体的社交互动,其价值在持续复用中非但不减损,反而因互动场景扩展而增加。传统的生产要素理论在其管理中已经无法适应,应该使用界面治理理论,打造耦合联动的众包治理共同体,形塑高质量低风险的数据交互集,构建全局关联的网状组织关系谱,优化功能互补的协同治理工具箱。[16]在应对多元主体方面,通过群组等组织方式将正外部性内部化,形成软法治理的扩展生态;另外在处理客体负外部性方面,宜根据数据二十条分级分类原则,建立公共数据、企业数据、个人数据的分类分级确权授权制度以及数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,再按照国家机密、商业机密和个人隐私等不同级别进行针对性脱密脱敏运营。
1.3 数据集质量需求框架
基于以上分析结构,本文提出数据集质量特征的三维六层框架:分别是结构性维度,涵盖数据单元和数据集两个层面;时空性维度,包含技术基础和行业应用两个层面;以及安全性维度,包含公共性和外部性两个层面。进一步提炼,构建高质量数据集的核心需求,其内容包含四个方面:在数据单元层面,需要在碎片化同时保证结构化,从而达成真实性、完整性和可靠性;在数据集层面,需要综合考虑标准化与灵活性,从而对内保证构建规则一致性,对外保证多场景复用性;在社会效益方面,需要在回应社会关注、平等信息接入的公开性与保证国家和企业机密以及个人隐私的安全性方面达成平衡;在经济效益方面,需要在服务行业需求、促进经济发展的公共性和合理分配利益、多元主体共治的可持续性方面形成激励相容。
以上需求层级交错、情境复杂,极易形成多维目标共同约束的不可能三角,如何找到合适的切口,破壳出圈,成为业界与学界共同努力的目标。出版行业因其自身独特能力与资源禀赋,应当打造构建高质量数据集最佳实践,形成标杆效应,并成功复制模式,推广传播到千行百业。
2 出版行业大有可为
出版业作为人类知识守护者和传播者,理应承担起高质量数据的社会供给责任。
2.1 出版的行业特征与资源禀赋
首先,在数据单元层面,出版行业保有历史上最完整、最准确和最可信赖的数据资源。出版行业作为严肃的知识管理方,拥有无可比拟的权威性。一方面,广大研究者历来将著作等身作为自己的学术目标之一,他们构成了出版单位海量的高质量数据贡献者群体;另一方面,出版行业严格的审核机制保障了流程严肃性,有效确保了被接纳内容的质量底线。出版行业与不同垂直行业深度嵌入,发展出全面的内容生态,拥有丰富的数据资源。
其次,受益于内容审核机制和专业编辑资源,出版社可以基于既有规则建立数据集构建质量标准,发挥知识传播监管者和守门人的作用。数据集构建是知识的二次生产,流程资源禀赋支持出版行业在每个环节严格把控质量,把分散的碎片化数据单元封装为集约化数据集,形成价值的升级和超越。大量具备不同专业知识的编辑团队在完成从编辑理性到数据理性的转化后,将为高质量数据集构建提供独特的人力资源禀赋。融合出版、数字出版等项目为出版单位积累了数字技术能力和知识管理诀窍,为构建高质量数据集提供了技术资源禀赋。
再次,出版行业在社会效益方面有内容共同治理基因。同行评议与公开发表机制为数据公开性、可用性提供生态环境保障,利于多主体参与治理等措施的落实。学术伦理审查机制保障数据质量安全性,确保出版价值链主体权责清晰可追溯。当下生成式人工智能高质量训练数据集供给侧问题突出,基础模型开发公司为避版权、隐私风险,常直接从互联网爬取公开数据,但数据质量参差不齐,价值观复杂,有的含极端主义思维。出版单位应利用好经严格审核、符合主流价值观且具高度理论价值的内容资源,构建可信高质量数据集,为生成式人工智能可持续发展提供优质数据养料,发挥其在社会效益方面的独特作用,助力人工智能健康发展。
最后,成熟的出版商业模式为实现经济效益提供逻辑基础。鉴于出版数据在供给、采集、审核和发布过程中,不同主体的权属业已明晰,因此后续仅需就新载体、新模式和新业态提供增补协议即可。出版单位应当延续其知识中介作用,在数据提供者和数据使用者之间建立协商机制,促成各方达成利益分配共识,促成动态平衡的激励相容。
2.2 出版行业在构建高质量数据集方面具有独特优势
出版数据具备天然优势:1)数量:类型丰富、存量充足;2)质量:严肃供给、严格审核;3)外部性:权属可追、隐私清除;4)标准性:技术支持、相互引用。
表 1 出版行业构建高质量数据集优势分析
| 高质量数据集需求 | 出版行业特征与资源禀赋 | |||
| 行业特征 | 资源禀赋 | |||
| 供给侧 | 数据单元 | 碎片化 | 内容生产生态权威地位 | ·海量多元创作主体 ·历史沉淀资源 |
| 结构化 | 内容审核流程 | ·严肃研究者 ·严格审核流程 | ||
| 数据集 | 标准化 | ·同行评议制度 ·内容引用制度 | ·专业编辑团队 ·学术团体生态 | |
| 灵活性 | ·内容引用制度 ·反馈制度 | ·行业覆盖度 ·信息技术支持生态 | ||
| 应用侧 | 社会效益 | 公开性 | 知识把关人和传播者 | 既有出版发行体系 |
| 安全性 | 学术伦理 | 既有权属溯源体系 | ||
| 经济效益 | 公共性 | 知识把关人和传播者 | 既有出版发行体系 | |
| 持续性 | 商业模式 | 既有权益分配体系 | ||
3 构建方法探讨
3.1 构建方法原则与标准
根据上述原则,构建影像数据集应包含四个环节:1)数据采集和治理,核心是语义学意义上的标识;2)数据检索和审核,核心是语用学意义上的封装;3)数据运营与维护,核心是系统论意义上的反馈和迭代;4)数据交付和收益,核心是市场论意义上的资源配置和利益分配。同时还需要考虑编辑的个体、团队和组织层面素养、能力和文化建设。
3.2 数据层面:内容结构化
影像数据结构化分为两方面,一方面是分级分类,一方面是标签标引。
根据数据二十条要求,数据分类分级框架需要综合考虑不同过程和场景下的多重维度。分级是数据在特定维度的水平方向上,按照标准划分为不同层级。对影像数据而言,考虑技术、美学和权限三个维度:在技术上,其格式可能是4K或高清;在美学角度,其标签可以是高级;权限层级则可能是公开或保密。分类则是数据在特定维度的垂直方向上裂分不同类别,影像数据通常选取媒介、来源和权利三个维度。在媒介维度,其分类为视频或图片;在来源维度,其可能是PGC,UGC或者OGC;在权利维度需要考虑其著作权、肖像权和物权的清除状态。各媒介类型所对应的技术体系不同,需要不同技术标准进行细致约束。因此,分级分类的完备性和通用性显著影响结构化质量。
标签标引指的是对影像的描述性标识。传统数据标注技术需要定义元数据和扩展元数据,通常依赖于创作者和编辑的手动输入和人工审核。人工模式下标签标引的质量固然得到保障,但缺点在于效率低、成本贵和专业门槛高,不利于规模化生产,难以满足日益增长的生成式人工智能训练数据需求。AI数据标注应运而生,其可以完成自动语义标识,甚至可以基于多模态模型进行隐语义标识。除静态标识外,还需根据互动使用情况,为影像数据添加动态标识。
■ 语义标识
对影像的语义标识分为标题、描述或者关键词三个部分。在实际工作中,通常将分析式AI技术和大语言模型结合,利用算法自动对影像批量打标签,再经过人工抽检和众包审核等流程提升质量。
■ 隐语义标识
隐语义标识是AI算法对数字内容数据赋予的特征标识,分为两类:分析式AI给予影像特征标识,如色彩、构图等。生成式AI利用CLIP模型对不同影像内容赋予矢量特征标识。区别于分级分类以及语义标识,隐语义标识不可理解,因而不在使用端展示,仅存为后台数据服务后续数据集构建的封装环节,为检索算法提供匹配依据。
■ 互动标识
互动标识来源于影像在使用过程中的浏览、查看、点赞、下载、转发、评论等一系列互动操作。其本质是动态数据标识,适用于相关性推荐以及搜索结果排序,是个性化交付的依据。
3.3 集合层面:交付标准化
影像数据集构建的核心包含语用意义上的灵活聚合和交付意义上的标准封装两个方面。
检索的灵活性、准确性和可控性是数据灵活聚合的核心质量要求。在影像数据集构建场景下,分为标签弹性搜索、智能扩展搜索和自然语言搜索三个层次。弹性搜索能够处理多种类型的数据,以其强大的标签搜索和分析能力、高可扩展性和多用户支持,在多个应用场景中表现出色。然而,其最大局限在于以标签作为搜索条件,高度依赖语义标识的准确性和完备性。智能扩展搜索基于分析式AI能力,对多影像数据进行色彩搜索、以图搜图和以形搜形等。在语义标识过程中,影像不可避免地受到创作者、编辑者和加工者的主观处理,形成所指扭曲。隐语义的语用操作可以理解为一种对影像内容的意义回归,其直觉性和联想性将语义标识还原为符号学意义的象征体现。意义还原消除了语义的默会影响,将影像解构为更底层的感觉元素,如色彩、线条、布局和构图,强化潜在使用者知觉层面的共情,提升供需匹配效率。自然语言搜索是语用操作的极致场景,理论上可以将整段文字作为搜索条件,召回基于语义理解的影像数据。语义理解依赖于矢量标识,其基础来源于CLIP模型所代表的社会共识。如果说智能扩展搜索为个体间创造了共情链接,那自然语言搜索则提供了基于社会群体的共识匹配。本质上CLIP模型可以使用任意媒介形态作为搜索条件,要求语用操作系统召回多种媒介组合的检索结果。在此过程中,语用操作技术已经由弹性搜索(显语义标识)和特征对比(隐语义标识)转换为矢量计算,所谓的检索就是高维空间的距离计算、数乘计算或叉积对比。在实践中,可以灵活聚合多种搜索方法,在召回效率、算力消耗和匹配效果等方面达成均衡。
标准交付则依赖于敏捷高效的封装流程管理,主要依赖于HI+AI的编审机制。虽然人工智能(AI)在过去几年得到长足发展,但是在高质量数字内容数据集构建中,仍然需要人类智能(HI)介入,因此建议使用以HI+AI为原则的编审机制。以权限维度为例,由AI系统对安全或者敏感内容进行识别,在编审系统中提出警告,最后由编辑人员进行重点审查,确认是否予以发布。分级访问控制机制是依据使用端分级标识所采取的差异化处理机制,具体而言就是根据用户画像,决定其是否可以操作某一级别的影像数据。具体功能点包含但是不限于:1)搜索召回:是否可以在搜索结果中呈现,控制强度最大;2)详情浏览:是否可以浏览详情页,控制强度中;3)下载控制:可否下载,或者能够下载何种级别的内容(如只可以下载低码流视频),控制强度弱。除了以上的通用分级控制以外,还可以针对特殊群体搭建临时访问权限组,以适配特定时间段的特定任务,临时访问某一级别的影像内容。在高质量数据集的构建过程中,灵活的用户管理模块不可或缺,权限矩阵设计需要与数据的分级分类体系映射,关键在于解耦用户、角色、组织和权限之间的关系,抽象为标准的网格化管理单元。
3.4 运营层面:反馈交互化
运营是交付的延续,归属于用户管理模块,用以实现多元主体共同治理。互联网技术发展将社会媒介化的同时型塑了新的内容消费模式,即从传统媒体的单向模式转化为新媒体视域下的协同创作模式,而用户也从阅听者转变为产销者。在数据生产意义上,用户可以主动对内容进行反馈,也可以被动产生数据,为内容数据闭环贡献自己的互动行为记录。因此,在运营层面上需要充分考虑多元主体的数据产销者特性,利用社交网络分布式、去中心化和自组织等特性,构建交互式反馈机制。具体而言,就是把数据提供者、数据管理者和数据使用者融合在一个社交网络中,赋予其个人档案管理和社交互动能力,打通用户和内容数据之间关联,链接静态与动态数据。从而赋予管理者运营数据分析能力,在高效获取反馈信息基础上修正错误、精益管理,促进数据集产品质量持续提升。
3.5 效益层面:服务差异化
交易模块是达成效益平衡行之有效的解决方案,其本质是通过定价、发布、交易和分配等环节打造资源配置机制。按照市场经济理论,影像数据为供给侧而用户为需求侧,通过定价机制构建基于供需平衡的公开服务体系。授权体系由数据分级分类管理、用户权限管理和价格管理三者共同构成,其实现了一个供需关系连续统,两端分别为所有人均可使用的免费公开数据和仅限特定客群可操作的高价机密数据。数据集的交易模块主要包含版权确权、版权授权和收益分配等子模块,通过业务流程串联后,可根据不同运营策略提供差异化服务。策略选项包含价格制定方式(管理者定价 vs 提供者定价)、交易达成方式(固定价格制 vs 投标竞价制)以及不同主体间收益分配比例等等。举例来说,最极致的公开服务场景就是彻底公益化服务,即所有资源均免费向全社会开放,一般适用于完全公共物品,如政府公开数据。但是对于出版行业而言,合理方式是利用授权体系所提供的工具箱,打造灵活的差异化服务体系。比如对某特定场景的影像数据集,可以实行免费访问加付费下载的策略,在社会效益和经济效益之间达成平衡,既保障知识传播又激励数据提供。
3.6 组织层面:团队新质化
编辑是高质量数据集的责任行为主体,因此打造出版行业具备数据思维的人才梯队是重中之重。个体层面,既需要开展系统化培训以提升编辑的数字素养,也需要吸纳数字技术人才打造科技与出版融合的新质团队;部门层面,需要塑造数字化转型升级的企业文化和勇于创新的团队文化,突破保守的传统数据资源观,树立开放共享理念;行业层面的挑战更为突出,需要主管单位、协会以及出版机构的负责人协商,打造数据全生命周期管理规范、标准和协同方式,甚至可以考虑共同建设行业级别的高质量数据集服务平台,对全社会提供一站式服务。
4 结语
数据资源作为一种全新的国家战略性资源,正在被世界各国抢先开发和利用。高质量数据具有放大、叠加、倍增作用等特征,可以突破传统产业边界的约束而产生乘数效应,因此高质量数据集已经上升为国家级战略资源,也是人工智能技术发展与应用的紧迫需求。把海量数据中隐藏的知识和规律发掘出来,是出版业知识创新的利器,能生成全新的业务功能,形成高品质、高质量出版产品,使传统出版及相关产业通过跨界衍化为一种“新物种”。[1]出版数据的知识计算提供的多元化知识服务,能使用户随时随地高效、精准获取知识,整合数据要素能有效创新出版产品形态。[11]高质量数据集作为出版产品形态的新物种,不仅可以成为本行业新商业模式的载体,同时可能成为出版行业整体数字化转型升级的有力抓手和数字经济产业模式下新质生产力的具体实践。在国内外政府高度重视数据要素,人工智能发展亟须数据资源的背景下,出版行业需要抓住历史机遇、回应社会关注、承担时代责任,向各行各业提供高质量数据集。
参考文献
出版业高质量发展中大数据的影响机制、作用路径及驱动效应
[J].DOI:10.3969/j.issn.1001-9316.2023.09.005 [本文引用: 3]
观念与规范:人工智能时代媒介伦理困境及其引导
[J].DOI:10.3969/j.issn.1002-4166.2019.02.003 [本文引用: 2]
生成式人工智能数据原生风险与媒介体系性规范
[J].DOI:10.3969/j.issn.1002-4166.2023.10.002 [本文引用: 1]
数字人文视域下古籍出版的内容价值增值
[J].DOI:10.16510/j.cnki.kjycb.20230314.007 [本文引用: 1]
社会科学数据集的跨学科性研究:以CHARLS和CGSS数据集为例
[J].DOI:10.3969/j.issn.1008-0821.2023.09.014 [本文引用: 1]
Beyond accuracy:What data quality means to data consumers
[J].DOI:10.1080/07421222.1996.11518099 [本文引用: 1]
Numerical data quality in IS research and the implications for replication
[J].DOI:10.1016/j.dss.2018.08.012 [本文引用: 1]
ChatGPT类技术:法律人工智能的改进者还是颠覆者?
[J].DOI:10.3969/j.issn.1000-0208.2023.04.004 [本文引用: 2]
SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究
[J].DOI:10.3772/j.issn.1673-2286.2022.06.005 [本文引用: 1]
公平利用权:公共数据开放制度建构的权利基础
[J].
公共物品概念的延伸及其政策含义
[J].
/
| 〈 |
|
〉 |
