出版受技术革新影响显著,学术出版尤其如此。学术出版以促进科研人员信息交流、推动学术研究进步为旨归;技术变革改变了当今科学研究的进行方式和科研人员的行为模式,同时也深刻改变着学术出版的产业生态。2016年4月,国际科学技术与医学出版商协会(The International Association of Scientific,Technical and Medical Publishers,简称STM)发布了《STM出版技术趋势2020》(STM Tech Trends 2020),颇具前瞻性地展望了学术出版技术的未来发展趋势。[1]STM是全球领先的学术和专业出版行业组织,拥有来自21个国家的120多位会员,每年出版的研究性文章占全球期刊文章出版总量的近66%。旗下的 "STM未来小组" (STM Future Group)从2013年起,每年发布一份学术出版领域的技术趋势报告。最新一期报告的主题为 "学术出版:技术的水闸已开启" (The Floodgates of Technology are Open),报告以关键词地图的形式揭示和预测了学术出版技术领域的热点,但并未展开介绍,本文结合2016年诸多国际学术出版商的业务活动,对相关技术热点进行分析和论述。
开放科学(Open Science,或称Science 2.0)的概念早在国外20世纪末就已风行[2],2014年欧盟委员会发布咨询报告《 "Science 2.0" :Science in Transition》,将开放科学的影响趋势概括为三个方面:研究产出急剧上升;科研人员和科研受众显著增加;数据密集型科学必然兴起[3]。数据密集型科学(Data-intensive Science)是在现代科研手段、科研方法和科研设备日益丰富之后出现的必然产物,其不仅导致随之而来的科研数据管理问题,而且重新定义科学研究的一般模式。在传统科研模式下,科研人员一般基于研究假设搜集有限的必要数据,而在数据密集型科学模式下,研究数据(Research Data)的极大丰富从反向刺激了研究假设和研究结果的诞生,呈现出一种数据推动型的科研模式。图灵奖获得者、数据库专家詹姆斯•格雷(James Gray)将其视为继实验法、推演法、仿真法之后的 "第四范式" (Fourth Paradigm)。
数据密集型科学对学术出版提出了新的要求,倒逼学术出版数据仓储技术再造和革新。这是因为,科研人员在数据推动型科研模式下必然需要获取大宗研究数据(包括体量巨大的期刊论文、学术著作、非正式网络文献等),而传统学术出版,无论是从出版模式(出版商垄断资源阻碍开放获取)方面,还是从出版技术(数据库结构化程度不高,文献内部关联和机器自动识别尚未完全实现)方面,都无法满足学术出版用户的新需求。因此,学术出版的当务之急就是利用高新技术彻底改造落后的数据库平台,全面提升作为学术出版本质功能的学术内容信息服务能力。纵观2016年海外发达国家学术出版业,诸多学术出版巨头围绕数据仓储技术革新进行亮点纷呈的尝试。
数据仓储是当前主流的几种学术出版模式之一,据全球知名数据仓储集成平台re3data.org(Registry of Research Data Repositories)的统计,截至2016年3月份,全球共有超过1 500个研究型数据仓储[4]。数据仓储的设立初衷在于沟通研究数据(Research Data)和研究论文(Research Article)之间的鸿沟,为科研人员获取和管理数据提供便利。
2016年4月28日,爱思唯尔(Elsevier)宣布正式上线全新的数据仓储平台Mendeley Data,该平台允许不同学科的科研人员上传、发布和管理其研究数据。与其他以期刊论文为主的数据仓储产品不同,Mendeley Data上的数据遵循公平(Fair)原则,即易检索、可获取、互操作、可再用(Findable,Accessible,Interoperable,Reusable)[5]。这几项原则完全符合开放科学理念,是爱思唯尔在数据密集型科学研究模式推动下进行的有益探索。与此前收购Mendeley类似,资本永远是技术市场的真正大佬,为了迅速扩大Mendeley Data的影响力,扩充其数据容量,2016年6月7日,爱思唯尔收购一家实验室数据管理平台Hivebench,将其整合到Mendeley Data中来,为这一全新的数据仓储产品注入了第一管强心剂[6]。
同为学术出版巨头的斯普林格•自然(Springer Nature)走得更远,于2016年10月17日宣布将旗下超过1 300种期刊全部纳入SharedIt开放平台,从而将斯普林格•自然所属全部学术资源打造成一个开放共享的整体数据仓储。SharedIt允许已订购数据库服务的个人和机构用户自由分享内容,分享渠道十分多元,包括社交媒体、个人网站、邮件甚至是其他数据仓储。[7]斯普林格•自然此举旨在响应当今世界风起云涌的开放获取运动,缓和作者、机构订户与学术出版商之间的矛盾,据其首席出版官Steven Inchcoombe称: "作为世界最大的几家学术出版商之一,我们十分重视平衡科研人员自由获取内容和维持产业良性发展之间的关系,我们希望在SharedIt平台上提供更多可便利获取的、动态的、更有价值的内容资源,而非仅仅是传统的静态PDF文件。" [8]尽管允许付费用户自由分享并未降低订阅实际成本,但斯普林格•自然此举显然极大提高了付费内容的利用效率,必将得到广大科研人员和机构用户的欢迎。
文本数据挖掘(Text and Data Mining,简称TDM)技术利用自然语言处理和信息抽取将海量结构化或非结构化的文本、数据信息拆分、重构,找到数据之间的关联,并以新的形式呈现出来。[9]如果说学术内容资源是一座宝库,那么TDM就是目前最受追捧的掘金利器。科研模式和科研人员研究路径的转变,很大程度上就得益于TDM技术在前述学术数据仓储中的应用。
2016年1月22日,著名信息咨询公司Outsell发布了一份研究报告《Text and Data Mining:Technologies Under Construction》[10]。报告详细阐述了TDM技术的应用领域、发展前景和面临的挑战等诸多关键议题,指出当前TDM主要应用于生命科学领域,能够帮助科研人员从海量文献资料中提取高质量的研究数据,从而加速研究成果转化。在其他领域尚未全面铺开,主要原因是法律层面而非技术层面,即学术出版商在版权内容保护方面的严厉政策导致科研人员运用TDM工具大规模提取学术资源受到阻碍。报告还列举了10个主流的TDM工具,其中包括大名鼎鼎的CrossRef TDM Tool以及Copyright Clearance Center的RightFind® XML for Mining。CrossRef是一个基于DOI(Digital Object Identifier,数字对象标识符)实现文献引文跨平台链接的参考链接服务系统,目前已有4 000多家期刊成为其会员,在CrossRef首页详细介绍了其TDM Tool的使用方法,十分简便易学[11];Copyright Clearance Center则是基于XML技术从订阅或非订阅数据库中抽取全文信息的科技公司,主要用于商业用途。[12]
由于应用TDM技术大规模提取数据库全文内容遭到许多学术出版商联合抵制和制裁,为缓和出版商与学术界之间的紧张关系,国际科学技术与医学出版商协会STM于2016年11月发布了一则简短倡议,提出使用TDM工具的三大准则:非商业用途;所提取数据库必须已付费订阅;保护数据隐私和防止剽窃[13]。可以预见,在不久的将来,科研人员应用TDM技术仍会面临重重阻碍,但随着技术的不断成熟和版权保护机制的建立,文本数据挖掘技术必将成为学术科研人员的标配。
语义技术(Semantic Technology)的核心是通过编码将零散的非结构化数据赋予语义含义以便机器理解,语义增强(Semantic Enrichment)的基本思路是借助语义技术识别某一领域的术语和概念,并建立相互联系,最终生成结构化的分类系统(Structured Taxonomies)。在语义技术产生之前,这一过程通常借助人工实现,但随着现代科学进入大数据(数据密集型)时代,人工判别、分类的工作就变得极为繁琐,语义技术适时而出,成为内容增强的不二法门。具体来说,语义增强的一般步骤:首先自动抽取某一领域的元数据(Metadata),识别出该领域的术语和概念,进而构建领域本体(Entity);然后定义领域本体之间的关系,建立知识库(Knowledge Base),最后通过分析软件重新提取新知识。对学术出版商而言,借助语义技术可以在以下三个方面实现内容增强:一是内容智能化,由于经过语义处理的内容已经建立起内部关联,用户在搜索时即使数据库中并不包含该关键词,系统仍能通过语义关联反馈给用户理想结果,从而真正实现了内容智能化和用户需求个性化;二是开发新的内容产品和服务,借助语义技术,学术出版商可以实现学术内容和用户需求的精准匹配,从而从原先不分学科、领域的整体数据库中开发出针对专门领域的内容产品;三是提高出版商内部工作效率,语义技术还可利用自动或半自动化的内容标注技术优化编辑流程,如在同行评议时引入机器建议,辅助编辑和审稿人决策。
当前各大国际学术出版巨头已纷纷开展语义出版实验,将语义技术纳入各自内容平台的改进与增强过程中。2016年9月9日,威立(Wiley)与欧洲分子生物学组织(European Molecular Biology Organization)联合创建SmartFigures智能实验室。该实验室将不同生物学数据库的文献信息进行内部关联,用户可以直观地跨库检索,从而将不同论文的研究数据和结果整合到一个知识图谱(Knowledge Graph)中来,方便科研人员发现新的研究结论。任何研究数据,一旦纳入SmartFigures智能实验室,就能通过内部搜索引擎以高度匹配的个性化方式呈现给用户,使得源数据(Source Data)的可检索和再利用性能大幅提高。正如威立执行副总裁Philip Carpenter所言: "我们相信开放科学将开启下一个学术交流的崭新时代,在此背景下,我们希望建立一个包纳研究人员、投资者、社会团体和研究机构在内的学术共同体,以促进知识发现、分享和再生产。SmartFigures智能实验室的建立正是基于这一考量而做出的重要举措,同时也是威立大规模语义增强计划(Wiley’s Large-Scale Semantic Enrichment Technology)的一部分。" 应当指出的是,尽管当前的语义增强技术水平尚不能完全实现学术内容的自组织和智能化,但上述出版商的积极试水必将助推传统静态数据库升级再造,不断提高学术出版用户的使用体验。
ORCID(Open Researcher and Contributor ID)开放研究者与贡献者身份识别码是一套世界通用的非营利性16位学术科研人员唯一身份识别码,相当于数字资源领域的DOI、每一个公民的身份证。它可以有效解决科研领域研究成果、权利人含混不清的问题,如重名、别名、名字变动,等等,尤其是中国学者姓名翻译成英文时,经常会遇到同名的情况。该协议由汤森路透集团、自然出版集团2010年发起,现今已有超过283万个ID投入使用[14]。ORCID提供两大服务:一是为每一位研究者提供唯一的识别码,并将研究者身份与其研究成果进行关联;二是提供一套API开放平台供研究者跨系统交流与认证。
对于学术出版商来说,混乱不清的研究者姓名与研究成果归属问题加重了工作负担,身份识别方面的统一标准亟待建立,ORCID正好让这一行业难题得以解决,因而得到学术出版商的普遍欢迎。早在2015年底,国际ORCID组织orcid.org就向各大出版商及学术机构发出了一封公开信(Open Letter),呼吁其在论文采编过程中采纳ORCID作为行业标准,迄今为止,共有25家出版商或学术机构签署了这份公开信,包括英国皇家学会、欧洲分子生物学组织、美国化学学会、《自然》杂志等[15]。2016年1月7日,斯普林格•自然发布消息称,旗下期刊已累计拥有超过20万个ORCID识别码,达到了一个空前的里程碑(Milestone),至此,斯普林格•自然已成为首个要求所有作者注册ORCID的出版商[16]。同为学术出版Top5的威立也不甘落后,于2016年11月28日宣布旗下超过500种期刊全部要求作者在提交论文时必须注册ORCID识别码,威立已拥有2.4万多个ORCID,虽然在数量上与斯普林格•自然相比差距不小,但威立高层对该标准的重视程度值得注意,其执行副总裁Judy Verses表示: "作为首批采纳ORCID标准的大型学术出版商,威立在提高科研领域数据管理水平、解决姓名歧义方面迈出了重要一步。我们将继续与学术社团各利益相关者合作,进一步为科研人员提供数据管理工具和服务,帮助他们更好地发现、获得研究数据并得到应有的声誉" 。[17]
确实如威立这位执行副总裁所言,ORCID的真正价值不仅仅在于为科研人员提供了一套唯一的识别码,更重要的是通过学术标准的建立将作者与其研究成果关联起来,有助于学术出版商开发进一步的科研数据管理服务。从这个意义上讲,ORCID可以看作一个个集成了作者信息、作品信息、引用信息等的数据单元,当学术出版商进行后续研究信息管理系统(Research Information Management Systems)建设时,统一的数据单元十分有利于其进行集约化管理,从而大幅降低管理成本。因此,以ORCID为代表的学术科研标准将进一步充实学术出版技术标准体系,为打造统一开放有序的学术出版产业生态奠定坚实基础。
当前科研产出的主要形式仍是学术论文,2016年各大学术出版商除了利用各类数据挖掘、数据分析与管理技术改造原有数据库平台,还在研究数据和研究结果的最终呈现形式,即在论文版式(Article Formats)方面进行了不少探索。
传统的学术论文版式以静态PDF为主,阅读体验欠佳,随着版式技术革新,越来越多全新的论文呈现方式不断涌现,主要有以下3种:
一是增强型HTML版式(Enhanced HTML-Based Formats)。典型代表是爱思唯尔的Article of the Future项目。爱思唯尔的Article of the Future项目基于HTML5技术,旨在改造传统的线性论文版式,使得学术阅读更加动态化和人性化。Article of the Future通过将线性结构的文章碎片化、结构化,对细粒度的内容重新进行组织、呈现、关联和利用,使得所呈现的文章内容更加丰富,并且支持数据挖掘和知识发现等功能。一篇增强型的HTML版式论文,除了固有的文本内容,还包含作者信息、研究原始数据、引文信息等以图片、表格甚至是幻灯片形式呈现的可扩展信息。Article of the Future满足了该项目提出的未来期刊应具备的可读性、可发现性、可扩展性3大要求,当前ScienceDirect上的所有文章都已采用此种版式[18]。
二是增强型PDF版式(Enhanced PDFs)。考虑到目前大多数研究者仍习惯阅读PDF文章,学术出版商也在传统PDF版式的基础上进行了革新。ReadCube就是一个提供增强型PDF版式论文的工具,ReadCube基于PDF版式,将论文内的数据、图表、参考文献等提取出来分割成3D模块,并加入交互性的 "1-click Author Searches" 功能,方便用户检索。ReadCube同时能适应各类终端设备,目前已开发出Desktop、iOS、Android、Kindle等多个版本。[19]
三是微型论文(Micro Articles)。微型论文是爱思唯尔首创的一种专门出版研究数据、方法描述及其他有用研究结果的简短论文版式。众所周知,由于某些研究数据、研究结果在传统的学术期刊上没有容身之所,如医药学领域的零结果或阴性结果(Null/Negative Results),即研究结论与学界主流阳性结果相悖,如证明某种药品不具备通常认为的疗效,由于编辑歧视和学术偏见,往往并不能获得权威认可,因此爱思唯尔采用微型论文的形式将其公之于众,保障研究人员公开发表研究成果的权利。
应当指出的是,上述3种论文版式并非在2016年首度出现,但均在2016年有了新的进展,不拘泥于传统静态PDF版式的学术论文呈现方式多样化,将有效改善学术出版用户的阅读体验,充分挖掘学术论文价值,为出版商创造更多新的细分需求。
学术出版借助技术的翅膀才能腾飞,2016年国外学术出版商继续秉持为科研助力、为学术人员服务的宗旨,在涉及数据仓储建设、数据挖掘和语义分析、行业统一标准及研究数据呈现形式等方面进行了卓有建树的探索和创新,彰显出当今学术出版产业的巨大活力。反观国内学术出版,数据仓储建设尚处于初级阶段,相关行业技术标准也有待完善,通过梳理并借鉴上述国际学术出版商的成功经验,将对我国学术出版转型升级有所裨益。