大模型视域下科技期刊数据资产的定义、价值与策略*
关键词:
本文引用格式
沈锡宾, 刘鲲翔, 刘红霞.
笔者在中国知网等平台以“大模型/生成式人工智能+数据资产+科技期刊”为关键词进行检索后,未发现相关学术成果,但通过“出版+数据资产”等关键词检索,可以发现业界已对数据资产和预训练相关的责权利问题有部分研究。[6,7,8,9]笔者认为,面对大模型时代的新挑战,业界要敢于突破技术惯性和传统价值观念,从深度和广度等多方向探讨科技期刊数据资产的价值识别与管理、数据脱敏与隐私计算、数据智能生态与激励设计、人工智能伦理规范等各方面问题,为加速融合前沿技术、开拓科技期刊的新视界打下坚实地基。本文基于“中国科协大模型技术对中国科技期刊发展的影响分析及对策”课题对国内几十家机构的实地调研及专家访谈,并结合中华医学会杂志社在数据资源开发与利用方面的实践经验,通过阐述科技期刊数据资产在大模型技术背景下的价值、面临版权挑战和收益,从积极拥抱前沿技术和加速资产变现角度探讨科技期刊如何开展有效的知识标注和数据管理以提升内容价值和专业潜力,更好地支持大模型训练和知识服务类产品的研发,提出针对科技期刊数据资产管理、利用和交易的对策建议,期望为科技期刊的政策制定者和行业实践者提供决策支持与参考,共同推动人工智能时代科技期刊行业的持续健康发展。
1 数据资产的内涵、评估方法及相关政策
数据资产最早由美国学者理查德·彼得森提出[10],并随着数据管理、数据挖掘和数字经济的发展而普及。和数据资产密切相关的概念还包括数据、数据资源、数据要素、数据治理、数据入表等,要想厘清数据资产的内涵,要将其和以上数据相关的概念一并研究。数据是指对客观事物或事件的性质、状态以及相互关系等记录并可以鉴别的符号。通过利用、挖掘可以产生价值的数据就是数据资源。而数据资产是指企业拥有合法控制权的,可以可靠计量的,未来能够带来明确经济利益流入的数据资源。数据资产的本质依然是资产,它指的是以数据为主要内容和服务的、满足资产确认条件的数据资源。将数据确认为企业资产负债表中的数据资产的过程称为数据入表。当数据资产作为生产要素参与到整个社会的数据市场、数字经济的交易流通,就转化为数据要素。
根据《数据资产评估指导意见》,数据资产的评估方法主要有成本法、收益法和市场法等[11],在执行数据资产评估业务时,需要关注影响数据资产价值的成本因素、场景因素、市场因素和质量因素。[12]其中,成本法的本质是重置成本法,指的是对被评估数据资产以特定应用场景开发为前提,通过溯源分析重新开发该数据产品可能发生的成本,并结合数据产品的实际情况进行调整。收益法指的是根据数据资产历史应用情况和未来应用场景,结合企业经营情况分析该资产经济利益流入情况,并重点考虑数据资产的贡献比例、相关风险等等。市场法需要考虑类似数据资产是否存在合法合规、活跃的公开交易市场,根据相关资产的特点选择合适的可比案例,并根据其中差异做相应调整。
近年来,我国在数字经济和数据资产管理领域连续推出重大举措。2021年12月,国务院发布了《“十四五”数字经济发展规划》,强调要坚持应用牵引、数据赋能,要充分发挥数据要素作用。[13]2022年12月,中共中央、国务院审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”),构建了数据基础制度体系、创新了数据产权制度、保障了效率和公平、强化了数据安全治理,对数据要素价值的释放具有里程碑意义。[14]2023年2月,中共中央、国务院印发了《数字中国建设整体布局规划》,阐述了数字中国建设的“2522”整体框架,在第一个“2”中提出了畅通数据资源大循环的要求,进一步明确有关数据要素的全方位管理体系和管理制度。[15]2023年10月,国家数据局成立,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设。2023年12月,中央经济工作会议提出要加速人工智能和数字经济的发展。紧接着,国家发展改革委及国家数据局发布了《数字经济促进共同富裕实施方案》,突出数据在实现高质量发展中的作用。[16]2024年1月,财政部发布了《关于加强数据资产管理的指导意见》。[17]随后,国家数据局会同其他16个有关部门共同制订《“数据要素×”三年行动计划(2024—2026年)》,进一步明确了数据资产管理的方针和具体任务,揭示了数据要素在工业制造等领域的潜在应用。[18]这些政策和措施共同促进了数据资源的资产化和价值激发,为数字经济的发展提供了清晰的方向和强有力的支持。
2 科技期刊数据资产的定义与数据资源分类
目前,业界尚无对科技期刊数据资产的相关定义,笔者依据对数据资产内涵的理解,将科技期刊数据资产定义为在科技期刊生产和传播过程中产生的以物理或电子的方式记录的数据资源,它须由科技期刊法人单位合法拥有或控制,能进行货币计量与交易,能为单位带来直接或者间接经济利益。因此,清晰明确地划分科技期刊数据资源分类,对确定数据资产的边界和价值意义重大。
表1 科技期刊数据资源分类
| 分类 | 数据来源 |
| 内容数据 | 论文全文数据 |
| 论文元数据 | |
| 版权数据 | |
| 知识标引数据 | |
| 生产数据(内部数据) | 采编数据 |
| 评审数据 | |
| 编校数据 | |
| 出版数据 | |
| 发行数据 | |
| 运营数据(外部数据) | 用户数据 |
| 论文影响力数据 |
(1)内容数据:指构成科技期刊核心知识资源的各类结构化和非结构化信息。①论文全文数据:包括论文前置信息、正文内容、参考文献、文后备注信息、附加图表、视频、数据集等内容。作为科技期刊的核心资产,其质量直接关系到期刊的学术价值和影响力。期刊论文按文献类型可以分为原创型研究(original article)、共识标准(guideline)、案例报告(case report)、设计方案(protocol)、综述(review)、述评(editorial)、资讯(news)等。②元数据指与内容直接相关的描述性数据,包括作者信息、关键词、文献出处、文献类型等。元数据不仅有助于内容的组织和检索,也是实现内容更广泛分发和引用的关键信息。③版权数据。科技期刊中的论文内容数据所涉及的版权信息,包括版权所有者、使用权限、版权期限等。此类数据资源是确保内容合法使用和转授权管理的基础。④知识标引数据。对期刊或者论文进行知识标引的增值型数据,包括不同维度的分类信息、标签,以及从文献衍生的知识图谱、问答集等材料。
(2)生产数据:指期刊生产过程中产生的内部数据,包括采编、评审、编校、出版,以及发行过程中的数据。通过对于这些数据的治理与分析,有助于出版机构优化流程和提高工作效率,其中评审数据还有助于文献、学者以及机构的评价。
(3)运营数据:指期刊在内容发布、传播以及利用过程中积累的外部数据,包括①用户数据:涵盖用户的基础信息、访问下载历史、期刊订阅历史、交互行为日志等。此类数据对于理解用户需求、优化用户体验以及开展个性化服务具有重要价值。②论文影响力数据,包括论文的被引频次、下载量、阅读量、评论量等数据,以及透明度数据等。此类数据是文献、学者以及机构的评价的重要依据之一。
3 大模型技术背景下科技期刊数据资产入表的合规性问题
高质量语料素材可以更好地模拟客观世界,在大模型技术日新月异的迭代中,将其作为预训练数据是增强模型能力的关键要素之一,决定了基础模型能力的优劣。2024年作为大模型的落地元年,基础模型开始不断呼唤特定场景(如医疗、法律、金融等)的开发,对于引入大规模专业领域语料开展有监督微调的诉求变得愈加强烈。而科技期刊的数据资源多为经过同行评议且长期更新的专业知识,是提升模型语义理解和逻辑推理能力不可或缺的资源。
在强调科技期刊数据的原生价值外,我们也更需要关注资产入表过程中数据的合规性问题,根据《企业数据资源相关会计处理暂行规定》[21],“企业需要在对数据资源披露时考虑其数据来源的合法性问题,数据的取得应当是依法合规的”。对于出版物来说,这意味着在数据入表时,必须确保数据的来源合法,权属清晰。在参阅相关文献后[22],笔者理解,将相关素材作为大模型训练数据使用,除涉及网络安全、数据安全、个人信息保护及《深度合成管理规定》《生成式人工智能服务管理暂行办法》[23]所涉及合规事项之外,还涉及《民法典》《著作权法》等知识产权侵权风险和人身权侵权风险等问题。所以,科技期刊数据资源在入表前须厘清资源的合规性问题,包括知识产权、人身权保护合规等。
首先,著作权的合法获取是科技期刊数据资产入表的首要条件。在披露数据资源时,科技期刊必须确保拥有或控制这些数据资源的合法权益。考虑到大模型的训练以及对外的服务,出版机构需要获得以下权利,包括但不限于科技文献的复制权、衍生作品权、公开表演权和信息网络传播权、翻译权以及汇编权。为此,科技期刊在获取发表文献的著作权时,需要与作者签订明确的合同,确保合同中明确规定了这些权利的归属和使用范围。
其次,人身权的保护同样不可忽视。科技期刊在处理包含个人信息的数据时,必须严格遵守《民法典》《个人信息保护法》等相关法律法规,确保个人隐私得到充分保护。这不仅包括对作者/用户个人信息的保护,也包括如医学类论文在发表文献中对患者信息进行脱敏处理,避免泄露患者姓名、ID、住院号等身份信息,在影像图中抹除患者的身份信息,遮挡患者可识别的面部信息等。此外,科技期刊还应关注不正当竞争风险,避免在数据资产入表过程中侵犯他人的合法权益。
之后,随着科技的发展以及期刊范畴扩大,科学数据论文/论文关联数据的出版也日渐盛行,这些数据的出版既要面临着数据安全法、著作权法、科学数据管理办法、出版管理条例等方面的约束,在特殊的生物医学数据出版等领域还面临着个人信息保护法、生物安全法、人类遗传资源管理条例等相关限制。在科技期刊界,这些数据产权的归属问题目前仍以学术讨论为主,国家尚没有相对明确的规定,因而在数据出版及数据资产评估时,科技期刊应当对其进行审慎处理。
4 大模型背景下数据资产化对科技期刊发展的意义
数据的使用价值与资产价值之间存在着相互促进的密切联系。在大模型技术日益成熟的当下,数据资产化不仅是一项重要任务,对科技期刊的持续发展与创新同样具有深远的影响。它不仅能够激发数据的内在潜力,还能为科技期刊注入新的活力,推动其在信息时代的浪潮中稳步前行。
4.1 大模型技术赋能科技期刊,加速数据资产化进程
近年来,关于大模型技术对科技期刊的影响的研究已经证实生成式人工智能以多种方式加快了科技期刊的内容生产、传播以及服务增值。首先,大模型技术以其卓越的内容生成能力,为期刊的组织、评审、编校、排版等生产流程带来了变革,显著提升了科技期刊的生产力,加快了内容数据的生产效率及质量。其次,生成式人工智能通过提供多样化和智能化的内容展示方式,吸引了更多研究者的关注和使用,加速了学术研究与交流的进程,促进了用户数据的回流和收集。再次,通过大模型的应用反哺,促使期刊管理人员认识到数据资产化是推动公共数据赋能数字经济、数字政府、数字社会建设,带动数据资源整合共享与开发应用,充分释放公共数据价值的重要途径。最后,随着大模型技术的商业化运作,数据的规范化、市场化运用。期刊出版机构在不断增强保护自身数据资产的意识,为科研成果的产业化和商业化提供了可靠的版权保护机制。
4.2 科技期刊数据资产化,供给大模型优质训练数据
大模型的预训练是利用深度学习算法从海量数据中学习并生成语义理解和创造性文本,这要求投喂数据的高度准确性、完整性和多样性。科技期刊作为高质量学术资源,提供了丰富的学科知识、专业术语和学术观点,是专业领域大模型训练的最佳知识来源之一。从目前中华医学会杂志社与大模型公司的合作实践来看,科技期刊可以提供以下数据和服务。其一,科技期刊可以提供经过同行评审以及专业编校的文献数据,而且该数据具备可持续供给的能力,尤以具有行业性的指南共识以及案例文献最具备知识预训练的价值。其二是提供专业领域标注文本,科技期刊机构可以组织领域专家为大模型制作强化训练和测试用的数据集,譬如文献的分类和标签、基于文档的问答对以及知识图谱等。其三是协助开展大模型的对齐和测试工作,科技期刊的领域专家可以对大模型生成的内容进行评价,指出其错误与不足,提出改进建议,通过不断反馈提高模型问答的准确度。最后,科技期刊可以为RAG方案提供外挂知识来源。RAG方案将既有的内容通过向量化的方式进行存储,在问答过程中通过检索召回再经大模型处理后返回答案,该模式高度依赖于科技期刊的学术文献。
4.3 数据资产化对科技期刊界的积极影响
科技期刊数据资产化将对业界带来更多积极的影响,它不仅能促进期刊影响力的提高,促进数据出版经济及数据管理技术的提升,还有可能进一步推动科学研究的进步。笔者认为,在如下几个方面的改变将快速而持久。①提升科技期刊出版机构的数据资产管理意识,激发数据要素市场主体的活力,增强数据交易和流通的积极性。②数据资产化是实现科技期刊数据资源高效管理和利用、完成数据治理的关键途径。科技出版机构应逐步采用统一数据标准,生成高质量的数据,促进内外部数据的整合,以及机构间的数据共享。③通过实现数据资产化,可以将数据直接转化为生产和经营的动力,服务于出版机构的数字化转型,实现数据价值的市场化。④实施数据资产化策略,能够推动企业从业务驱动型决策向数据驱动型决策转变,实现资源的优化配置,从而在提升运营效能的同时,达到降低运营成本的目标。⑤数据资产化拓宽了期刊内容的分发渠道,而且通过与第三方平台的合作,实现了更广泛的传播,从而增强了期刊的传播力,提升期刊的影响力和认知度,为期刊的长远发展奠定了坚实的基础。
5 关于大模型技术浪潮下科技期刊数据资产化的几点想法
大模型技术给与科技期刊巨大的机遇,鉴于此,我们呼吁科技期刊要从国家战略角度考虑,在保护数字版权的同时,提升数据资产价值,加快数据资产流通。
5.1 多措并举,提升科技期刊数字资产化的认知度
目前,科技期刊编辑对于大模型的了解还停留在简单利用的层面,很少有关注其数据资源的利用问题,所以科技期刊应通过举办各类研讨会、培训班、学术交流等活动,普及数字资产化的重要性和操作方法,提升编辑、审稿人以及科研人员对数字资产管理和利用的认识。例如,尽管全国已建立了80多个数据交易所和数据交易中心,但科技期刊编辑对这些平台的了解仍十分有限,实际参与数据登记的案例更是寥寥无几。这表明,加强数字资产化教育和培训,对于提升科技期刊在数字经济时代的竞争力至关重要。
5.2 尊重知识产权,完善大模型利用的版权法规
科技期刊在大模型时代面临版权保护的新挑战。根据《生成式人工智能服务管理暂行办法》要求[23],运营方需要保证服务生成内容合规,尊重他人知识产权,在训练数据中不得对他人已发表并享有著作权的作品造成知识产权侵害。但迄今为止,尚未有清晰的关于大模型技术在语料利用方面的法规,所以为维护创作者权益,我们须跨行业合作,推动修订相关规定,明确界定大模型技术在语料使用中的权利界限和义务规范。
5.3 建立有效监管体系,加强数据司法保护
“数据二十条”第七条提出要建立健全数据要素各参与方合法权益保护制度,保护数据来源者合法权益,推动基于知情同意或存在法定事由的数据流通使用模式;建立健全基于法律规定或合同约定流转数据相关财产性权益的机制。[14]据不完全统计,中国已经有超过200家大模型,其中不乏有利用期刊与图书的数据开展预训练的,但获得完整授权的比例尚不明确。因此,笔者建议政府和相关部门建立有效的监管体系,制定大模型训练数据的清单披露机制,要求公开数据来源,确保内容的真实性和合法性。此外,还应建立内容使用授权制度,加强版权认证和监管机制,以维护数据要素市场的健康发展。
5.4 加快利用交易平台,开展数据资产交易
上海数据交易所刘小钰等[24]认为数据资产交易现存痛点之一是超过半数的企业通过点对点模式进行数据资产融资,而非通过正规的交易平台。公共数据资产的运营还处于初期阶段,尚未形成成熟的运作模式。当前的数据资产交易市场存在信任基础薄弱、供需匹配机制不完善等问题,市场迫切需要建立一个具有公信力的平台,以实现资产的有效配置。笔者呼吁为中国科技期刊数据资产的交易提供公开高效的平台,为科技期刊的数据入表、资产登记、认证、评估、授权和交易提供服务,促进科技期刊与大模型技术企业之间的合作,以此推动科技期刊数据资产的价值实现和创新发展。
5.5 发挥期刊专业优势,推动高质量专业性语料的生产和共享
科技期刊须积极引导领域专家组织和生产高质量语料,这包括利用期刊平台发表更多重大科研成果、行业共识以及案例,也包括对期刊内容进行数据标注、构建专业语料库和数据集等。此外,科技期刊应在互利共赢的框架下,推动预训练语料库的共享与开放。这种开放的姿态不仅能够提升数据资源的可获得性,还能极大地增强其可利用性,从而激发更广泛的创新应用。
6 结语
与此同时,科技期刊界也必须警惕各种不法窃取知识产权、构成不正当竞争,甚至损害品牌价值的行为。2024年1月,OpenAI与多家出版商达成协议,计划通过支付每家媒体公司100万~500万美元的年费,获得受版权保护的新闻文章的使用权。[27]2024年2月,为训练Bert模型,Google和Reddit达成协议,每年支付Reddit高达6000万美元的版权使用费。[28]2024年3月,法国市场监管机构因Google公司未经授权使用法国出版商和新闻机构的内容训练其AI聊天机器人,违反欧盟知识产权法规,对其开出2.5亿欧元罚单。[29]诸如此类的版权纠纷事件在欧美反复发生,突显数据资源保护的重要性和挑战。
2024年,中华医学会杂志社收到两家海外机构关于大模型数据训练的诉求,但中国科技期刊界尚未对数据资产价值的评估与交易流程有足够的认识。此外,科技期刊的数据资产仍面临高质量供给明显不足、合规化使用路径不清晰、应用赋能增值不充分等难点。为此,笔者抛砖引玉,希望通过本文,就科技期刊数据资产的概念、分类及价值与同仁展开讨论,共同把握大模型时代赋予科技期刊数据资产的机遇与挑战。我们呼吁科技期刊界要珍视数据资产的价值,健全版权保护与监管机制,探索高效便利的数字入表与变现机制,形成科技期刊数据资产利用的良性循环,为科技期刊内容生产的可持续发展提供助力。
参考文献
A cross section study of the demand for money:The United States,1960-62
[J].
Exclusive-Reddit in AI content licensing deal with google,sources say
[EB/OL].(
/
| 〈 |
|
〉 |
