数字学术视域下的数据库设计与建设

数字学术视域下的数据库设计与建设

——以旧海关刊载中国近代史料数据库为例

刘冬

中国海关出版社有限公司，100023，北京

编委: 苏磊

摘要

互联网时代的学者们可获取大量内容资源，人文学科以阅读获取信息的研究方式已经无法再满足学者对海量内容的认知，在跨学科思维的指导下，他们对内容提出了不同于传统学术研究的众多需求。图书馆作为内容存储者已经做出了反应并成功实践了多个项目。出版机构作为重要的内容供给者，也应该密切关注数字人文的发展动向，结合学术研究的特点和需求，为用户提供多样化的内容资源，实现出版机构由产品到服务的数字化转型升级。

关键词： 数字人文 ; 研究需求 ; 知识服务 ; 跨学科思维

PDF (1800KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘冬. 数字学术视域下的数据库设计与建设. 科技与出版[J], 2019, 38(4): 17-22 doi:

国际电子文本研究专家S.Hockey指出，人文计算发端于1949年，其后经历起步、巩固、新发展和互联网时代四个演进阶段，而在深度数字化的信息时代，人文计算已经不能客观地反映其时代内涵，数字人文成为最恰当的称谓^[1]。互联网的高速发展影响着各行各业，数字化改变并革新着人文学术研究，数字学术这场创新性的运动应运而生，它对研究链条上的每个角色都提出了新要求，图书馆作为内容存储者已经快速做出了反应，经过数年的建设，多个项目已初具规模，面向数字人文的图书馆服务内容成为数字人文的研究热点。^[2]本文拟根据终端用户在学术研究方面的新要求，从研究链条的另外两个角色，即内容供给者和内容使用者的角度，探讨作为内容供给者的出版机构应该做出的反应和行动的可能性，以期进一步促进数字学术的发展，并将以旧海关刊载中国近代史料数据库（以下简称“史料数据库”）为例，论述出版机构角色转变的实践成果。

1　数字学术研究的特点

数字学术是以数字为工具的新型学术研究，它与传统学术研究相比具有以下三个特点。

1.1　内容极其丰富，时间是最稀缺的资源

互联网时代，学者们可获取的内容资源不再受限于时空，面对的资源比以往任何时候都丰富，学者们最稀缺的不再是内容，而是自己的时间。尽管学者们可以便捷地查询到以往的研究成果，但是随着内容的不断新增，曾经研究成果的正确性可能只局限在成果发表当时，研究对象任何新资料的出现，都可能颠覆以往的成果。

正如许煜所指出的，在我们思考人文危机的时候，问题早已不在人文，而是整个知识体系的分工及其结合将会面临巨大的挑战，由此，新秩序的出现也成为可能。^[3]

学术研究不是简单的数学计算，不能仅仅在以往成果之上继续叠加，建立在所有已知内容基础之上的研究才是全面的研究，这就要求学者们必须在有限的时间内对已知内容进行全面了解。这时，数字化提供了可能性，它使学者们从大量的简单重复劳动中解放出来，将注意力集中在更为复杂的创新劳动上。

1.2　研究者应具备跨学科的思维和能力

查理·芒格说，思维模型是重要学科的重要原理，我们通过已经掌握的学科思维模型做出相应的分析行为。思维模型按照解决问题的类型可以分为解决具体问题、解决学科问题以及解决跨学科问题三种，解决具体问题的思维模型工具属性最强，解决跨学科问题的思维模型解释属性最强。跨学科思维模型不再是解决某一个实际问题，而是提供了一种看待事情的方式。

王东岳先生在《物演通论》中认为，“人类文明一切进步都源于逻辑变革”，传统的人文研究以阅读并获知信息为起点，当这种方式已经无法匹配人们获取资源的能力，学者可能即使耗尽毕生精力也无法再掌握研究对象的所有信息。传统的单学科思维就需要做出改变，结合其他学科的思维模型做出更丰富的决策依据，以此替换自己已有的经验，实现研究成果的非连续性升级。

进行数字学术研究的学者往往来自于人文专业或者信息化专业，人文学科和信息化兼备的思维宽度决定了学者在处理电子文献时对数据中知识的获取能力，效率则取决于是否熟练使用工具。处于互联网时代的人文学者必须面对文献介质多样化的现实，这就要求其应同时掌握处理多种文献的能力才有可能获得更全面的研究资料。数字技术让人文研究有机会进入一个全新的阶段，借助信息化的平台和工具，人文学者在已有的文献上能够挖掘更多信息，发现更多关联，学者的观察将置于前所未有的时空中。而来自于信息化专业的学者也要以数字技术为利器，以具体问题为解决对象，从人类传承已久的文献中继续寻找那些原本隐藏在其中的知识。

1.3　对内容的使用从数字化到结构化

学者们借助数字工具对文本的使用经历了三个阶段，即纸质文献的数字图像化、文献的全文数字化以及半结构化或者结构化的数据库。纸质文献的数字图像化与纸质文本本质是相同的，主要功能都是阅读，只是介质发生了变化，图像化的文献更易于保存和携带；从数字图像化到全文数字化，文本实现了全文识别，这是检索的基础，也是文本挖掘的前提，学者对内容的使用不再以阅读为前提，实现了先查找后阅读；从全文数字化到半结构化或者结构化的数据库，文本实现了量化，建设方通过元数据提取、标引等数字加工，将非结构化的文本转换成半结构化或者结构化的文本，从而使得内容可以被计算机识别并且运算，供学者进行更深层次的分析和挖掘。

2　数字学术研究的需求

图书馆的数字人文进程正是在以上特点的基础上开展起来的，但是图书馆毕竟是内容的存储者，它的数字人文建设围绕着馆藏内容的共性设计，如果学者想获得更好的研究体验，以出版机构为主体的内容供给者提供契合学术研究需求的数字内容将更受学者的欢迎，这也是出版机构知识服务转型的方向之一，学者们的需求主要体现在以下方面。

2.1　整合关联知识

完全脱离于以往知识的创新非常少见，更多的创新来源于知识重组，重组的能力越强，创新的能力也就越强。以纸张为代表的物理媒介在传递知识的同时也造成了学术研究的客观壁垒，知识被人为地分割在物理载体中，仅仅依靠大脑很难将多本书上的知识串联起来。信息化为知识重组提供了可能性，以某一主题为主体的相关知识整合将为学者的研究提供便利和动力，学者也可能找到新的出发点和研究方向。

例如，上海图书馆建设了中国历代人物传记资料库的关联数据网站，将其中约42万个人物的传记资料发布为关联数据，还把这些数据与已有的“人名规范库”关联使用，去重合并处理后形成约120万人的人名资料库。

2.2　配备简易工具

现代社会的信息技术发展逐渐呈现两极分化，要么是操作熟练的程序员，要么是只会使用工具的普通人，而在数字学术的需求下，人文研究应该发展出第三个可能性，创造性使用已有工具降低跨学科研究的门槛，也就是通过数字方式进行学术研究的学者虽然不必亲自编程，但是应该在跨学科思维的基础上利用工具创新研究。这就要求内容供给者应该给产品配备便利化的数字工具，尤其是针对内容资源设计的个性化工具将更有可能重焕资源的内涵。

例如，2018年9月发布的Gale数字学术实验室将文本挖掘和可视化工具整合在内容平台上，便于学者对文本汇编、管理以及分析研究。

2.3　结构化数据资源

与数值数据的挖掘对象不同，文本挖掘的对象是非结构化的数据，可以实现从众多文本中发现人力难以察觉的趋势和模型，而这种挖掘所达到的效果是有限的，不能完全满足学者对内容研究的需要，更需要学者们在半结构化或者结构化的数据内容上做个性化的数据分析。

通过数字加工，结合不同资源特点制定的内容元数据可以解决这个问题，在非结构化的文本之上，构建出一定数量和框架的结构化数据，使得其可以被计算机准确识别，并关联相对独立的文本内容，为学者提供理解文本的深层次需求。

例如，中国历代人物传记资料库系统性地数字化处理中国历史重要人物的传记资料，提供了批量的人物结构化数据资源，供学者作数据统计、社会网络以及空间分析等学术使用。

3　旧海关刊载中国近代史料数据库的探索

旧海关刊载的中国近代史料，在近20年来以约600册的纸质图书形态陆续出版，中国海关出版社根据内容资源的特点，针对学者在数字研究中的需求，规划了系列史料数据库产品，重新组织资源呈现形态，设计契合学者需求的服务功能，不断迭代更新，以期向学者的学术研究提供更好的服务。本文拟从内容资源的特点入手，以第一期通令数据库为例，分别介绍资源呈现形态以及服务功能。

3.1　内容资源的特点

旧海关刊载中国近代史料形成于中国近代时期，大部分由近代中国海关机构官方组织记录，经海关造册处印刷出版并面向全世界对外销售，其中有少量是该时期的关员信件等其他资料，该批史料资源具有三个特点。

3.1.1　英文为主，兼多语种

自1854年英美法各派一人担任中国海关税务司到1859年英国人担任中国海关总税务司，由外国人建立并管理的近代中国海关直到1949年新中国成立时才被废除。由于英国在近代中国海关中的主导地位，该批史料的语种以英文为主，兼有中文、日文、法文等语种。

3.1.2　系统丰富，科学记载

该批史料自成体系，分为统计丛书、特种丛书、杂项丛书、服务丛书、督察丛书和邮政丛书七大系列以及语言学著作等其他系列，共计900余卷，涵盖了中国近代社会事务的诸多方面，包括进出口贸易、征收关税、查缉走私、编制进出口统计、港务、海事、检疫、气象、邮政、教育、外交、军事等。史料的记载严谨精确，尤其是数值型数据的记载，秉承着科学的记录原则，按照当时世界通用的计量单位和计算方法精准记录，成为学者研究近代中国历史的翔实资料。

例如，1889年浙江地区连日降雨，但是国内的文献多为简短的一句话概括^①，具体时间及雨量均不知晓，而旧海关刊载中国近代史料则详细记载了下雨的日期、风级、降雨量以及灾害损失等情况。^②

3.1.3　体系健全，格式化记录

不管近代中国国内政治局势如何变化，外国人在90多年的时间里持续地管理海关，建设了一套完整健全的文件传达和管理体系，分门别类记载浩瀚的内容资源，并且按照资源的特点针对性地规定文档格式。

例如，作为规范性文件的通令原件保存至今约9 000余件，所有文件格式统一，题名、日期、签发人、签发地域信息完整无缺，按照当时中国政权记录历史年号，自咸丰十一年至宣统三年，自民国一年至民国三十八年。

3.2　资源呈现形态

数据库通过大量的数字加工最终以半结构化的数据库形态呈现，具体形态特点有3个。

3.2.1　打破图书界限

目前已经出版的史料被装订成册，每个系列多则百余册，少则几十册，而它们原本的状态是以文件而不是图书的形式存在，只是为了便于出版才集结成册。所以数据库产品设计分库的时候根据内容资源分门别类记录的特点，还原史料原貌，以主题作分割，以文件为单位。

通令数据库包括了51册书籍中的10 718件通令原件和翻译件，如果以书籍为单位展示，产品信息是书籍的版权信息；如果以文件为单位展示，产品信息是书籍中文件的内容信息，颗粒度更小，可辨识度更高，为数据库整合资源和个性化提取元数据打下了基础。

3.2.2　整合关联资源

通令数据库整合了3套（种）图书共52册内容资源的无缝衔接，便于学者关联使用。

这些内容资源来源于《中国近代海关总税务司通令全编》（以下简称“全编”）、《旧中国海关总税务司署通令选编》（以下简称“选编”）两套丛书和《中国近代海关常用词语英汉对照宝典》（以下简称“宝典”），共52册书籍。全编是通令文件原件影印版，选编是1 127件通令原件的中文翻译件，宝典是由史料的研究者总结多年经验编纂而成的近代海关常用词汇，包括专用名词和常用语。通过前述以文件为单位展示资源，通令数据库得以将因为物理介质阻隔的关联资源重新即时被用户获取。

建设方在史料数据库建设同期规划了包含宝典在内的“海关辞库”数据库，海关辞库是一个汇集海关专业词汇释义的数据库，建设方将海关辞库整体嵌入史料数据库，为使用数据库的学者随身配备了一个专业词典。

3.2.3　定制内容元数据

元数据是描述信息内容的数据，分为形式元数据和内容元数据，形式元数据是为了行业流通和交换使用，内容元数据是为了描述作品的实质内涵^[4]。如果以图书为单位描述信息，元数据以作者、字数等版权信息形式元数据为主，每册书的元数据仅为数十项；以文件为单位描述信息，则可根据资源特点制定个性化的内容元数据。在通令数据库中，建设方以“有则必备”的原则为每件通令设计了13项元数据，最终数据库的元数据达数万项，这些信息成为数据库多项功能的设计基础。

3.3　面向学者的数字学术服务功能

数字人文是出版机构知识服务业务转型的方向之一，它将促进出版机构关注用户需求，缩短用户获取知识的路径，数据库为此设计了以下三个服务功能。

3.3.1　关联知识即时获取

数据库的知识关联包括原件与翻译件的关联和重点单词与释义的关联两种。

数据库的页面均为双版对照阅读，或为原件对照OCR件，或为竖版繁体对照横版简体，或为原件对照翻译件。通令原件与翻译件原本属于两套分别出版的图书，数据库通过签发时间和通令编号将原件与翻译件一一关联起来，便于用户阅读使用。

因为该批史料由近代中国海关机构刊载，所以其中包括了部分海关专业词汇，而且很多词汇随着历史的变迁与现代释义也有所不同，因此在设计产品的时候，出版机构将“海关辞库”嵌入数据库之中，选取其中近代中国海关专用名词、技术名词、常用语、近代中国海关组织机构和职衔名称以及业务涉及的地名共约2万条史料常用词汇，便于查阅该批资料的学者理解原文，该批词汇同时也作为史料的索引附加使用。当访问英文文本的时候，鼠标移至单词时，单词右上方会自动实时向用户提供中文释义，此项知识关联增加了用户对于文本访问的便利性。

3.3.2　配备文本挖掘工具

数据库内嵌了文本挖掘工具，允许用户在内容资源跨越的时间维度内，自选关键词查询它们在历年文件中出现的频率。产品支持三个以内关键词词频的查询，用户还可查询关键词词频结果的对比，每次查询结果都可以以自选可视化的形式展现，并且查询结果和可视化图像均可下载至用户本地供使用。

此项功能便于用户快速总览目标查询对象在整个数据库中的情况。例如，输入“鸦片”可以看到1887年和1911年关于鸦片的通令件数最多。通过查询这两个年份的文件可知，1887年清政府开始实行鸦片税厘并征政策，设立拱北关和九龙关，严厉打击鸦片走私活动；1911年5月18日总税务司署发布通令，《中英禁烟协定》的汉文文本下发各税务司执行。由此可知，海关在当年打击鸦片走私活动和中国近代的禁烟历史上发挥了重要的作用。

3.3.3　结构化数据下载

如果说文本挖掘和可视化技术帮助学者加深对海量文本的理解，辅助学者增强关联和推理的能力，那么结构化的文本将进一步提升数据挖掘的能力。

出于版权保护的需要，数据库不允许用户下载非结构化的全文文本内容，但是数字学术的成果依赖于资源的获取和对资源的分析，为了在版权保护和学术需要之间获得平衡，数据库将自定义的结构化数据内容开放出来供学者使用。

用户可以自定义目标研究对象，通过筛选条件留下被检索结果，产品支持用户将研究内容的元数据以EXCEL表的形式下载至本地，EXCEL表则可以对接多种数据分析和数据挖掘工具供用户再研究使用。

4　结语

在数字学术研究的链条中，图书馆比出版机构拥有更多机会直接向学者提供批量出版物，因此图书馆面对学者们研究方面的需求反应更迅速，它们已经在数字学术方面进行了多项尝试并且提供了多种便利，例如，纽约公共图书馆的“地图整经机”等项目。但是图书馆馆藏丰富，数字人文的服务功能不可能一一契合每部分内容。出版机构作为内容资源的重要提供者之一，是最适合提供满足数字学术研究的内容机构，也应该与时俱进，适时了解用户需求，在数据资源提供和出版方式上有所突破，从而提供更为个性化的服务功能。

①鄞县：八月，大雨不止，水暴涨伤禾（民国《续纂浙江通志》卷七十三灾异）。奉化县：秋八月至十月雨不止，禾稼减收（光绪《忠义乡志》卷二十祥异）。慈溪县：自八月至十月淫雨大水，田禾淹腐。饥，减粮三分，于次年粮内除征（光绪《慈溪县志》卷五十五祥异）。

②1889年8月22日和25日，8级大风伴以倾盆大雨，使宁波及周边地区大受其害。江河猛涨，水流湍急，冲走宁波城内2座浮桥，淹没外国租界堤岸流入大街。周围农村遭水淹，多人淹死。24日降雨达10英寸，奉化地区500多幢房屋被水浪冲走，稻、棉等收成严重受损。同年9月20日，再次连续大雨，一直下到10月27日。许多地区洪水泛滥，人死财亡非常大。大部分收成损失，引起老百姓、士绅和官员的困苦和忧虑……到11月的上半月，天气良好，使农民获得一半的收成，事态好转……为救济贫困，皇帝和太后发下10万两，本省藩台取出15万两，以及为此目的成立的委员会募集的大量钱款，得以度过随之而来的冬天，困苦减轻，不法行为也罕见。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Susan

Hockey

. The History of Humanities Computing[M]//Susan

Schreibman

, Ray

Siemens

, John

Unsworth

. A Companion to Digital Humanities. Oxford （UK）: Blackwell Publishing, 2004: 3-19.

[本文引用: 1]

[2]

周晨

国际数字人文研究特征与知识结构

[J]. 图书馆论坛，2017，37(4)：1-8.

[本文引用: 1]

[3]

许煜

数码化时代科技和人文的契机

[J]. 文化纵横，2017(5)：20-27.

[本文引用: 1]

[4]

刘冬

如何让数据库版权具有独创性：知识服务模式探索实践中的版权问题思考

[J]. 出版参考，2017(12)：44-46.

[本文引用: 1]

2004

... 国际电子文本研究专家S.Hockey指出，人文计算发端于1949年，其后经历起步、巩固、新发展和互联网时代四个演进阶段，而在深度数字化的信息时代，人文计算已经不能客观地反映其时代内涵，数字人文成为最恰当的称谓^[1].互联网的高速发展影响着各行各业，数字化改变并革新着人文学术研究，数字学术这场创新性的运动应运而生，它对研究链条上的每个角色都提出了新要求，图书馆作为内容存储者已经快速做出了反应，经过数年的建设，多个项目已初具规模，面向数字人文的图书馆服务内容成为数字人文的研究热点.^[2]本文拟根据终端用户在学术研究方面的新要求，从研究链条的另外两个角色，即内容供给者和内容使用者的角度，探讨作为内容供给者的出版机构应该做出的反应和行动的可能性，以期进一步促进数字学术的发展，并将以旧海关刊载中国近代史料数据库（以下简称“史料数据库”）为例，论述出版机构角色转变的实践成果. ...

国际数字人文研究特征与知识结构

2017

数码化时代科技和人文的契机

2017

... 正如许煜所指出的，在我们思考人文危机的时候，问题早已不在人文，而是整个知识体系的分工及其结合将会面临巨大的挑战，由此，新秩序的出现也成为可能.^[3] ...

如何让数据库版权具有独创性：知识服务模式探索实践中的版权问题思考

2017

... 元数据是描述信息内容的数据，分为形式元数据和内容元数据，形式元数据是为了行业流通和交换使用，内容元数据是为了描述作品的实质内涵^[4].如果以图书为单位描述信息，元数据以作者、字数等版权信息形式元数据为主，每册书的元数据仅为数十项；以文件为单位描述信息，则可根据资源特点制定个性化的内容元数据.在通令数据库中，建设方以“有则必备”的原则为每件通令设计了13项元数据，最终数据库的元数据达数万项，这些信息成为数据库多项功能的设计基础. ...

〈

〉