面向数据出版的高校社会科学数据资源库的建设*
1)复旦大学大数据研究院人文社科数据研究所,200433,上海
2)复旦大学社会发展与公共政策学院,200433,上海
编委: 苏磊
关键词:
本文引用格式
殷沈琴.
基于数据的定量研究是社会科学基本的研究范式之一,也是科学研究的重要步骤和方法之一[1]。早在1662年,英国人John Graunt通过调查伦敦的人口死亡情况出版的书籍《关于死亡公报的自然和政治观察》(《Natural and Political Observations Made Upon the Bills of of Mortality》),被认为是定量研究的开山之作[2]。紧随其后,1676年,英国学者William Petty出版了《政治算术》,对国家的经济财税进行了大量的数据研究[3]。而1890年的Hollerith Cards是迄今为止最早的数字化数据[4]。自300多年前的人工统计到今天的大数据,社会科学研究积累了海量的数据,数据需要被存储、管理、发布、分析、共享和传播。
在此背景下,本文从数据出版的定义和模式出发,回溯全球知名的社会科学数据中心,梳理数据资源库的发展历史和演变过程,归纳面向数据出版的高校社会科学数据资源库建设的基本要素、内生逻辑、机制和路径。
1 数据出版
关于数据出版(Data Publishing)的定义有很多,有广义和狭义之分。广义的数据出版等同于数据发布或发表,在互联网上公开数据资料就是数据出版,这个定义强调了数据的公开性,但缺乏数据标识和质量控制。狭义的数据出版,则严谨得多,如根据Pensoft Publisher的定义,“在互联网上公开数据,在尊重版权的前提下,使数据生产者以外的机构和个人能够下载、分析、复用和引用数据”[10]。又如维基百科对数据出版的定义,“将研究数据以出版的形式发布以便于其他人使用。这是为了公共使用而准备某些数据或数据集的实践,让每个人都可以随意使用。这种实践本身是开放科学运动的一部分”。[11]这里的以“出版的形式”,指的是类似学术论文、学术著作发表的正式出版,有特定的流程和格式,经历同行评审且可以被引证。狭义的概念均体现了数据出版的典型特征,“来源可靠”“质量可信”“公开发布”“公共利用”“唯一标识”“知识产权清晰”“可正式引用”[8],笔者在此基础上补充“元数据规范”和“隐私安全”。
高校社会科学数据中心作为一个实体,有使命愿景、组织架构、专业人员、经费支持、平台工具、标准规范、规章制度和运营管理等一系列系统的支撑体系和保障措施,历史悠久,影响巨大,拥有遴选后的高质量的、可靠的、具代表性的数据,本文将着重讨论第⑥种模式。
2 欧美高校社会科学数据的出版
社会科学数据对于社会科学领域的实证研究具有重要价值和决定性意义。社会科学数据目前主要集中于经济、社会领域[14]。欧美社会科学数据中心的数据资源库是鼻祖,推动引领着社会科学数据领域的发展。
2.1 历史渊源
目前,全球社会科学数据中心建设的数据资源库,其原型是数字典藏库(Digital Archiving),最早用于存储社会调查的数据,可以追溯到20世纪的20年代到60年代,这期间欧美诞生了一批著名的社会科学数据中心。例如,1924年北卡罗纳大学成立的Odum(奥德姆研究所,Odum Institute)[15];1941年芝加哥大学成立的NORC(全国民意调查中心,National Opinion Research Center);1957年美国康涅狄格大学创建的Roper(罗普中心,Roper Center)。紧随其后,欧洲第一个调查数据典藏中心——德国科隆大学的社会科学实证研究典藏中心(现在是GESIS-莱布尼茨社会学院的一部分)成立于1960年;1962年美国密西根大学联合周边高校创建ICPSR(校际社会科学政治联盟,Inter-university Social Science and Political Consortium);1967年英国埃塞克斯大学的UKDA(数据档案馆,UK Data Archive)成立。
在这股风潮的带动下,全球具有前瞻眼光的高校跟随这些创新行动,不仅为了现在,而且为了未来全球范围内的研究和教学而保存数据[16]。五十余年前,这些数据中心为了共享数据、开展数据培训和交流数据典藏的理论和实践经验,开始了早期的合作。目前,比较有名的一些国际组织,如IASSIST(国际社会科学信息系统和技术联盟,International Association of Social Science Information Systems and Technology),CODATA(国际科技数据委员会,Committee on Data for Science and Technology),RDA(研究数据联盟,Research Data Alliance),汇聚了全球领域内最有名的专家,至今生机勃勃。
2.2 数据资源的遴选和隐私保护
社会科学数据类型包括定性数据和定量数据,来源主要有3类:政府拥有的政务数据和调查数据;高校研究人员产生的数据;公司的商业数据。
2.3 系统平台的演变进化
技术的迅猛发展驱动了整个社会科学数据出版系统的发展,其内生逻辑、机制和路径梳理归纳如下:
第一代系统,20世纪80年代,从早期的穿孔卡片和磁带机过渡到单机版数据目录的检索,数据主要以社会科学学者感兴趣的定量的民意数据和选举数据为主。
第二代系统,20世纪90年代,联机检索系统,利用数据库仓储数据。开始建设国际比较调查数据、政府调查数据和人口普查数据。社会科学通用的元数据标准DDI(数据文档倡议,Data Documentation Initiative)开始出现。
第三代系统,大约在2000年,C/S架构的数据仓储平台,嵌入在线分析可视化功能。社会科学数据标准DDI开始成为通用的ISO国际标准[21]。代表性系统有欧美知名社会科学数据中心自建系统和Nesstar。
第四代系统,大约在2008年,B/S架构的数据仓储平台,出现数据分级管理、数据标识、数据在线分析挖掘、数据引证功能。代表性系统有ICPSR的平台、UKDA的平台、哈佛大学Dataverse Network,复旦大学的社会科学数据平台。元数据的格式从机器可读(Machine-readable)变成机器可操作(Machine-actionable)。收藏的数据资料越来越丰富,脱离了单纯的数据,开始出现囊括非数值型、文本型、图片和混合方法的数据集。
第五代系统,2017年至今,整合数据和大数据的仓储平台系统,代表性系统为南京大学的双创大数据平台,采用虚拟文件技术,实现大数据的子集可以被出版、被引证的系统。数据类型更加多元,增加了互联网采集的各个研究主题的大数据。
未来,区块链和人工智能将极大地改变现有的数据生态系统,进而改变学术生态系统,随着社会科学大数据的不断积累,人工智能将大大增强学术数据的生产力,基于区块链技术的数据知识产权保护将改变学术数据的生产关系。例如,在学术界,通过基于区块链技术的数据集的出版,可以早在学者发表论文之前就确认其学术贡献和价值[22],更好的激励机制将更有助于数字学术的繁荣。
2.4 元数据标准规范
良好的元数据对于社会科学数据的揭示与发现、获取与传播、出版和长期保存至关重要。欧美领先的社会科学数据中心,在六十多年的数据处理实践过程中积累了大量的经验和操作规范,逐渐转化成社会科学界的标准,并在学术团体中应用推广和迭代更新,进而成为国际标准。DDI(数据文档倡议,Data Documentation Initiative)就是按照这种思路发展起来的符合ISO的社会科学元数据标准。
DDI是一个结构化和标准化的元数据标准,提供课题层级的描述信息和变量层级的描述信息,涵盖课题详细信息、描述范围、数据收集和方法、数据集可用性、使用条款、引证信息等,有105个基本元素,可按需求扩充元素。DDI使用XML格式保存元数据元素,能够机器读取,这些元素提供了可检索的信息,帮助用户快速发现数据资源,并为引证数据提供书目记录。
DDI字面中的“数据文档”(Data Documentation)是一个集合名词,涵盖如下方面:课题数据创建、准备以及数字化的原因和具体做法,数据的含义、内容和结构,以及可能发生的一些数据变换和编码[23]。
DDI将项目生命周期和数据生命周期紧密关联在一起,即将研究过程、活动与数据监护、数据保存、数据发布、数据共享的概念结合起来。一份高质量的数据文档是理解和使用数据的关键,它贯穿整个数据生命周期的始终。近年来,欧美的高校数据中心使用数据管理计划工具(如欧洲的DMP Online工具,美国的DMP Tool工具),在研究项目伊始,就制定整个项目过程的数据管理计划,确保收集到完整的数据集及相关数据文档。
数据集的质量控制和引证,采纳国际标准的元数据标准是非常重要的一环。
欧盟委员会开放科学云(European Open Science Cloud,EOSC)专家委员会提出的“FAIR原则”(Findable、Accessible、Interoperable、Reusable,即可发现、可访问、可交互、可重用)正成为科学数据管理、监管与出版的最新通用原则[24]。基于FAIR原则的网站FAIR Sharing正在汇集各类数据出版的元数据。此外,Google Dataset Search也鼓励各种数据中心和期刊出版社提交元数据。这些系统让数据资源的发现和互操作变得更加简单、快捷。
2.5 数据引证
数据引证(Data Citation)这个概念于1982年由美国图书馆协会的Sue Dodd在“给机器可读的数据文件编目”提出。ICPSR从1990年开始提供数据引证。1995年,哈佛大学著名的政治学学者Gary King在《复制,复制》一文中呼吁政治科学中“数据可复制,研究成果可重现”的重要性[25],强调政治科学数据集可获得性对同行的作用。在2007年,Gary King又和Altman一起号召在社会科学研究中进行数据引证,他们提出了“一种定量数据引证的通用标准,既能保留印刷文献引证的优点,又能按需补充其他引证项”。“他们认为利用6个引用项就能兼顾印刷文献和电子格式文献的特性”[26],从此开启了社科学术研究进行数据引证的大门。近10年来,一些有影响力的国际组织如OECD、FORCE11、DataCite相继发布了数据引证的标准,在学术界起到了很好的引领作用。
数据引证除了规范引证的元素,关键是数据标识,它具有追溯、引证、集成和关联的价值,能实现数据出版的原文获取、引文链接、数字版权管理等功能,解决数据多重链接和知识产权问题[27]。
数据标识包含数据的唯一标识符和作者的唯一标识符。在欧美社会科学数据中心,数据的唯一标识符常用的有DOI(Digital Object Identifier,数字对象标识符)和Handle System(句柄系统),在UKDA、NORC、ICPSR和HMDC(Harvard-MIT Data Center,哈佛麻省数据中心)均有采纳。作者的唯一标识符,比较常用的有ORCID。迄今已有超过1.4万个研究项目使用了芝加哥大学的GSS数据,每年有约25万名学生在社会研究相关课程的学习中使用GSS数据[28]。已超过60 000篇文献引证了ICPSR的数据。
数据出版和引证的文化,不仅仅局限在欧美顶级的社会科学数据中心,而是随着全球开放获取运动、开放科学运动的蓬勃发展,辐射到了全球其他地域的高校。全球高校、研究者、出版方、期刊社、基金资助者等利益相关者共同组成了复杂的学术生态系统。如果从系统动力学角度解读学术出版生态系统的动力体系,借鉴经济学家亚当·斯密和凯恩斯的思想,欧美自2010年以来进行的数据共享政策是“看得见的手”,自上而下进行调控;而基于数据出版和引证的学术评价体系则是“看不见的手”,激发了学术生态系统里每一个学者的积极性,自下而上进行协调,使得学者“从不得不为之”到“主动为之”。科技、政策、利益相关者对数据出版和引证的共识,以及因此而形成的一种文化、学术评价系统和激励机制等,共同组成了推进学术生态系统发展的因素。而面向数据出版的高校社会科学数据中心的数据出版系统,成为近几十年来社会科学领域数字学术繁荣的重要推手。数据出版还涉及同行评审、数据质量、数据格式和知识产权,在此不一一赘述。
2.6 小结
欧美高校社会科学数据中心的数据出版的优点,总结如下:
(1)拥有比较健全的组织架构、人员配置、运营管理、规章制度、系统平台、软件工具和标准规范,处于井然有序的精细化管理阶段;
(2)有一套遴选评估机制来发展有特色的数据收藏;
(3)遵循特定的数据摄取(Ingest)流程,确保数据符合现有的质量标准;
(4)数据以标准的文件格式进行长期保存,当软件升级或改变时它们能被及时按需升级;
(5)数据存储在一个安全的环境里面,需要时可进行访问控制;
(6)通过许可管理来保障数据权利,采取合适的方式来处理保密数据;
(7)采用国际标准的元数据标准规范和数据引证机制。
3 案例:复旦大学社会科学数据资源库的建设
复旦大学社会科学数据研究中心成立的使命就是,为“收集、整理和开发中国社会经济发展数据,为学者提供有最具竞争力的研究条件和数据服务,为学生提供更加坚实的社会科学调查方法和应用的训练,鼓励跨学科的研究,为复旦大学履行大学传承、记录文明的职责和成为‘国家智库’提供重要和基础性的支撑[29]”。2012年中心成员实地参访全球知名的30余家社会科学数据中心,了解它们的组织架构、规章制度、人员配置、运营管理、平台建设等一系列事宜,初窥堂奥。在整体规划下,经过需求确定、测试、评估、开发,国内第一家高校社会科学数据管理平台——复旦大学社会科学数据平台于2014年上线,采用了国际标准的收割获取协议OMI-PMH和元数据标准规范DDI。2016年新版上线,数据出版功能更为强大,能够动态更新数据的版本,迄今该平台的人文社科数据资源超过100 TB。
2018年,复旦大学社会科学数据平台跟校内的大数据系统、数据实验教学科研平台融合互通,集大数据基础设施、核心文理医工的数据资产、系统平台、软件工具、规章制度于一体。迄今该平台首页访问量已经接近500万人次,为高校的教学、科研、智库决策支持和双一流建设奠定了坚实的基础,取得了突飞猛进的发展。但是,该平台在数据的处理流程、质量控制等方面亟待加强。
通过复旦大学近8年的研究、探索和实践发现,数据出版是研究数据生命周期重要的一环,直接的要素和数据标识、数据引证密切关联,外围的因素则体现出“功夫在诗外”,和学术生态系统密不可分,资源、平台、管理、人员和运营都是关键因素。
4 结语
高校的社会科学数据资源库自20世纪20年代开始建立,至今一直不断随着技术的发展迭代演变,给量化社会科学的教学、科研和智库决策支持带来了深远的影响。高校社会科学数据资源库建设的演变史,同时也是学术不断规范化、全球化的历史。数据引证的出现,使数据中心的仓储平台从存储、检索、管理和发布,迈入真正意义上的数据出版。数据论文的出现,确定了数据生产者的学术价值和学术地位,是学术生态系统有效的激励机制。
整个社会科学建立在定性研究和定量研究之上,欧美知名的社会科学数据中心拥有悠久的历史和丰富的经验,牵头发起了科学数据相关的国际组织,通过各种模式的数据出版促进全球科学共同体的数据交换共享。近年来,国内高校逐步意识到建设社会科学数据资源库对于学科发展的重要性,纷纷开始展开行动,如中国人民大学、北京大学、上海财经大学、上海外国语大学等均建设了带有数据出版和引证的功能的专题数据资源库。但是,国内高校社会科学数据资源库在整个数据资源的持续更新、获得国际标准认证、组织架构和运营管理等诸多方面,还需要向国际组织和欧美社会科学数据中心借鉴学习。
参考文献
OECD Principles and Guidelines for Access to Research Data from Public Funding
[EB/OL]. [
Guidelines on Open Access to Scientific Publication and Research Data in Horizon 2020
[EB/OL]. [
Pensoft data publishing policies and guidelines for Biodiversity Data
[EB/OL]. [
Citation and Peer Review of Data: Moving Towards Formal Data Publication
[J].
Improving the evidence base for international comparative research
[J].
Bitcoin Peer-reviewed Academic Journal ‘Ledger’ Launches
[EB/OL]. (
“Replication, Replication.”
[J].
A Proposed Standard for the Scholarly Citation of Quantitative Data
[J].
/
| 〈 |
|
〉 |
