人文社科数据出版平台FAIR原则应用调查研究
武汉大学信息管理学院,430072,武汉
编委: 苏磊
关键词:
本文引用格式
段青玉, 王晓光.
数据出版的核心问题是如何在数据发布流程中最大限度地为再利用提供可能。FAIR原则作为一套国际化方法,突破数据开放获取的设定,强调以开放的结构化元数据及可互操作的机器可读数据格式来推进数据再利用,应用对象由传统数据扩展至算法程序、工具软件和工作流程[5],适宜于指导数据格式多样、非结构化数据普遍的人文社科数据出版。但目前,FAIR原则的应用研究仍集中于自然科学领域及具体数据库构建的指导[6,7],人文社科领域FAIR数据实践的关注与研究相对较少。本文即基于FAIR原则,调查人文社科数据出版平台的FAIR数据实践,并据此形成数据出版系统模型,梳理实践FAIR原则的基本流程,促进人文社科领域的数据再利用。
1 FAIR原则及相关研究
为进行FAIR原则的量化评估,尽量避免数据“FAIRness”评估的主观性与模糊性,由Wilkinson等人自主成立的“Go FAIR指标小组”(Go FAIR Metric Group)基于15条原则从14个方面制定了评估量表[8]。欧盟委员会FAIR数据专家组在2018年“欧洲开放科学云”研讨会中提出FAIR化的最低标准是数据的元数据描述、持久标识符及数据和元数据的可访问性,同时指出FAIR原则需要根据具体的学科互操作框架研究出针对性指标。为实现FAIR数据,欧盟委员会FAIR数据专家组还认为,FAIR原则在4个维度之外应必须包括适当的开放性、数据的可评估性、长期管理和其他相关特征。Wikinson等人探索以W3C的关联数据平台、RDF映射语言(RDF Mapping Language,RML)与三元组模式碎片(Triple Pattern Fragments,TPF)三大Web技术的组合来创建互操作性基础架构,实现FAIR数据[9]。综上所述,FAIR原则的内涵与应用基本成熟,具有实用性与可行性,可用于指导人文社科的数据出版实践。
2 研究方法与样本选择
研究基于FAIR原则及量表,在理论层面使用文献调研法,结合欧盟“Horizon 2020”项目研究数据调研报告[10]、平台自测报告及CNKI等数据库中相关文献厘清评估指标与平台构建信息;在实践层面采取个案研究,综合考虑成熟性、代表性与数据领域等因素,基于“Go FAIR”倡议创始国及国际数据项目的调查,选择荷兰国家级数据平台——Data Archiving and Networked Service(DANS),法国超大型研究基础设施TGIR Human-Num、北京大学开放研究数据平台作为评估样本,于2018年12月以网络调查法获取平台的数据与元数据信息、数据服务政策与流程,并通过比较研究法对3家平台以定性方式在各项FAIR指标上进行单项比较,综合多指标措施形成多层次系统结构模型,实现FAIR原则实践的流程梳理,见表1。
表1 家数据平台的基本情况
| 北京大学 开放研究数据平台 | DANS | Huma-Num | |
| 网址 | http://opendata.pku.edu.cn/ | https://dans.knaw.nl/en/deposit | https://www.huma-num.fr/ |
| 上线时间 | 2015 | 2005 | 2013 |
| 定位 | 以社会科学和管理科学数据为主的多学科数据平台 | 以人文和社会科学数据集居多的综合型学科数据平台 | 人文社科研究数字转换基础设施和数据文件服务平台 |
| 数据类型 | 以调查类数据为主,包括问卷文本、数值型数据等 | 多学科数据,类型包括研究数据、科研信息数据 | 文本、图像、音视频等多类型数据 |
| 数据量 | 236个数据集、37个数据空间 | DataverseNL库包括312个Dataverse项目,660个数据集,3 880个数据文件;EASY库包括77 706个数据集;NARCIS库共有2 212 913个资源,213 467个数据集,1 867 706个出版物,69 168个研究项目,59 611个学者,2 979个机构 | 全流程数据出版工具、ISTORE存有600万份数据文件 |
| 平台依托软件/技术 | Dataverse | Dataverse | RDF/RDFs/OWL等语义网技术;NAKALA/NAKALONA/ISIDORE等软件工具 |
| 特点 | 强调可发现和可访问 | 强调数据可访问,详细规定数据重用条款 | 注重数据可互操作性 |
3 FAIR原则应用措施分析
3.1 基于可发现原则的FAIR应用措施
可发现原则的基本含义是通过元数据描述,人和计算机可以与数据交互,并搜索到特定数据。由于人文社科的研究问题具有复杂性,异源异构数据大量以整体形式存储,非结构化数据普遍存在。机器很难直接发现与读取此类数据,数据的互操作和重用障碍明显。而元数据对数据属性信息进行描述,可以极大提升数据的发现效率,对人文社科数据的再利用而言显得尤为重要。对比3家平台,三者在遵循可发现原则进行出版实践方面具有共性措施和分级措施。
持久标识符方案:与其他出版物一样,数据也需要申请获得唯一国际编号,从而使得为数据注册DOI号成为数据出版的广泛共识(北大,DANS,Huma-Num)。此外,ID作为URI的命名空间,为研究数据注册统一资源标识符(URI)(北大,DANS),允许用户通过通信协议与数据进行交互,提供数据检索路径,构成了数据可访问性的重要基础。
元数据元素设计:元数据元素描述数据某一方面的属性,构建多元信息聚合的元数据框架有助于提升数据发现效率。完整的数据出版元数据框架应描述4方面信息:出版信息、内容信息、支持信息与来源信息[11]。标识符作为数据的出版信息,在FAIR原则中要求必须纳入元数据框架中。
可搜索资源索引:(元)数据被编入可搜索资源索引为查询、收集、浏览和下载数据等诸多功能的实现提供路径。在数据独立出版模式下,数据出版平台不仅建立数据发布机制,同时也充当数据服务平台,从而使编制平台可搜索资源索引成为推进数据利用的基本方式(北大,DANS,Huma-Num)。但随着语义网技术的发展,数据不仅仅被出版和存储于自有数据库,同时被提交到外部可搜索资源索引,与众多数据仓储库通过数据条目建立链接,以便人和机器探索数据网,即以关联数据的发布方式提高数据的可发现性(DANS,Huma-Num)。
3.2 基于可访问原则的FAIR应用措施
可访问原则要求(元)数据长期存储,需要定义元数据及数据的许可和访问条件,重点在于实现机器可读与可检索功能。第三方数据是人文社科研究的重要数据源,包括权威机构的统计数据、他人的数据成果。因而数据可访问与再利用能极大丰富人文社科的研究论据,拓展新课题发现与规划的信息来源。三者形成了以下可访问措施。
数据管理方案:FIAR原则下的数据可访问性以元数据的可访问性为基础。由于部分数据可能具有敏感性或处于专有期,FIAR原则不强制要求数据开放获取,但强调即使在数据不具有“FAIRness”的情况下,也需要提供高度“FIAR”的元数据[5]。
可访问工具:三者以HTTP通信协议为基础,配合使用URI来定位与访问资源,使用通用API接口作为基本工具开放获取部分数据与元数据。而针对人文社科存在大量文献型数据的现象,利用OAI-PMH(DANS,Human-Num)互操作协议,为实现不同Web间关联数据的访问提供互操作框架。同时,基于语义网技术下RDF三元组的数据结构提供Sparql接口(Huma-Num)自动获取元数据,返回XML、JSON等多种格式的数据结果,从而满足不同研究需求。综上所述,API接口是数据平台出版的共性方案,与基于RDF的访问工具、基于关联数据的访问工具等共同提供多样化数据可访问路径。
永久可访问措施:永久可访问性由基础设施与数据本身的开放度两部分构成。元数据可访问是永久可访问的主要对象,要求通过良好的网络基础设施与持续性的数据更新和维护来支持数据、元数据的长期访问。目前,在平台型数据出版中,所有数据的元数据开放访问已得到广泛实践,并以数据版本更新进行维护(北大,DANS,Huma-Num),但网络基础设施对数据访问的支持根据平台不同而存在差异,平台较少直接声明自身网络基础设施的持久稳定(Huma-Num)。
3.3 基于互操作原则的FAIR应用措施
机器可读特性:FAIR原则所强调的机器可读特性包括计算机自动发现、获取、整合与分析数据等多种内涵,其易读性由知识表示语言与方法决定。
数据可互操作:数据可互操作由元数据可互操作和原始数据可互操作两部分构成,实质是数据以非专有格式发布。在元数据层面,要尽量复用现有词表与本体,与其他平台数据保持概念及概念间关系的一致。在数据层面,数据格式是支持数据集成的重要因素。由于人文社科领域半结构化、非结构化数据普遍存在,数据引用格式的可互操作成为数据可互操作的基础(北大,DANS,Huma-Num),结构化数据自身使用广泛共享的语言进行表示,支持多种主流的机器可读格式(Huma-Nuam)。进一步讲,元数据内部以及本地数据和第三方数据形成关联关系,实现数据的深度可互操作(DANS,Huma-Num)。
工具可互操作:工具可互操作包括知识表示、组织、检索和分析工具等可互操作,即在数据采集、处理、发布环节中尽量使用具有领域认可度的工具,或将数据导出为适应主流工具处理的数据格式再进行发布。
3.4 基于可重用原则的FAIR应用措施
数据可重用原则需要首先符合F、A和I原则,但要充分体现上下文信息,以准确链接与集成其他数据源,同时提供充分的出处信息来支持数据引用[5],推动数据用于进一步的计算研究。上下文信息描述了生成数据的各类环境的集合,包括物理环境属性及与获取数据相关的技术和社会环境属性。它与可发现、可访问及可互操作原则在部分原则上重复,但侧重于从数据使用的角度进行描述。
数据上下文信息:数据上下文信息具体体现为数据相关属性的描述(R1),分为出处信息(R1.2)和(元)数据符合领域标准(R1.3)。出处信息用于描述数据生成的物理环境属性;同时学科领域的分析软件往往依赖于特定的元数据字段,因而需要符合领域标准。
数据许可声明:许可声明用于确定数据允许重用的能力,可以HTML文档与RDFa两种形式提供[19]。根据A2原则,至少元数据应遵循CC0协议,即元数据进入公有领域允许第三方获取。
数据引用规范:数据引用规范规定数据引用元素、引用方法与引用格式等内容,从而规范数据使用者重用行为。
4 现有平台的FAIR原则应用启示
根据以上调研,本文认为平台型数据出版至少需要在5个层面共同推进数据的可发现、可访问、可互操作与可重用,每个层面的基本内容与原则如图2所示:
知识基础设施层:保罗·爱德华兹把知识基础设施定义为“由人、构件和组织机构三种要素组成的稳健网络,这三种要素能够产生、共享并维护人与自然世界的具体知识”[12],人文社科数据出版的知识基础设施层在数据相关利益者的支持下,由分类机制、原始数据和网络基础设施共同构成,提供数据源、专业知识与相关技术支持。
元数据层:人文社科数据非结构化和半结构化数据的普遍存在使得元数据层成为数据出版后的重要数据源与数据重用依据,是数据可互操作的基础,需要遵循高标准的可发现、可访问与可互操作原则。它要求符合特定的语法和语义结构,拥有某种形式规范,从出处、内容、支持与出版4方面形成细粒度描述,使得数据具备自描述机制,具有可溯源性,支持逻辑推理,为数据的语义检索提供检准率与查全率依据,是数据关联分析的基本语义单元。同时元数据层支持独立发布,编入平台资源索引与外部可检索资源索引作为数据源重用。
工具层:工具层包括知识表示工具、检索工具与分析工具。FAIR原则作为参考指南并不建议具体的技术或工具,但就当下的技术环境而言,RDF三元组及W3C标准应是机器可读、可检索、可发现与可互操作的知识表示基础架构[19],符合高标准FAIR原则,使得数据具有可解释性;HTTP URI、API接口、Sparql接口作为基本检索工具,必须匹配相应的Sparql转换算法提供自然语言查询。而结合领域数据特性,可考虑提供数字全文文献检索的OAI-PMH接口,支持数据访问;分析工具并非FAIR原则实践的必需措施,但在数据重用层面可为数据服务提供数据展示或管理支持。
数据层:数据层重点关注数据结构与数据重用行为的规范,基于领域标准表示、描述数据,基于语义网技术以关联数据结构组织数据,支持数据资源关联化、逻辑推理网络化。为推进数据重用行为,数据层需规定数据访问条件、可访问状态及数据引用规范。关于数据格式的可互操作,人文社科结构化数据基于RDF三元组以主流的形式化语言表示,实现深度可互操作;非结构与半结构化数据则基于结构化的元数据描述提供多种机器可读的数据引用格式,提升数据的可互操作能力。
资源层:资源层是FAIR数据的实现层次,以可搜索资源索引为数据发现、访问、互操作和重用提供路径。为提高数据的FAIRness,需要在关联数据结构的支持下,扩大外部资源索引链接以提高数据可发现范围,实现逻辑推理网络化。
5 结语
数字技术已成为人文社科研究的必要手段,数字学术推动数据驱动的研究范式渗透至人文社科工具论、方法论与研究思维,数据的产生规模与需求规模日益增长,数据再利用问题受到关注。详细而具有普适性的FAIR原则可为数据出版工作流程与已出版数据的可重用性评估提供指导,其实质是通过知识单元语义化、数据资源关联化、推理逻辑网络化来推进数据可发现、可访问及可互操作,实现数据的跨学科、跨领域与跨时间重用。人文社科数据出版的难点在于数据格式的多样化、非结构化与半结构化数据的普遍化,需要在五大层面共同遵循FAIR原则,其重点在于充分利用结构化元数据的可发现、可访问、可互操作与可重用性提升数据的FAIRness,从而推进数据再利用。
参考文献
Global data repository status and analysis: based on Korea, China and Japan
[J].
Data, discipline, and scholarly publishing
[J].
The FAIR Guiding Principles for scientific data management and stewardship
[J].
FAIR principles and the IEDB: short-term improvements and a long-term vision of OBO-foundry mediated machine-actionable interoperability
[J].
FAIR data principles and their application to speech and oral archives
[J].
A design framework and exemplar metrics for FAIRness
[J/OL].
Interoperability and FAIRness through a novel combination of Web technologies
[J].
State of the art report on open access publishing of research data in the humanities
[EB/OL]. .
/
| 〈 |
|
〉 |
