科技与出版, 2024, 43(8): 74-84 doi: 10.16510/j.cnki.kjycb.2024.08.005

编辑实务

学术期刊对出版内容中个人信息的合理处理及其技术应对*

周濛

《深圳大学学报(人文社会科学版)》编辑部,518060,广东深圳

摘要

在作者信息与读者信息泄露之外,现实中也会不时出现由于对出版内容中个人信息的处理不当而引发的隐私安全事件。然而,学术期刊行业目前较少关注对出版内容中个人信息的合理处理,隐私保护意识与技术应对手段依然存在不足。在自行公开、合法公开、同意公开三类合理处理个人信息的场景中,遵守符合场景需求的法律规则与处理标准是学术期刊应对出版内容中隐私风险的重要策略。除此之外,在合理处理个人信息的基础上,以降低识别性为目标,以比例原则为限制,学术期刊应当积极主动采取匿名化、假名化、去标识化等去识别性技术措施,力所能及避免可预防的隐私事故和司法纠纷,从而确保学术出版的合规与安全。

关键词: 学术期刊出版 ; 出版内容 ; 个人信息 ; 合理处理 ; 技术应对

PDF (1583KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

周濛. 学术期刊对出版内容中个人信息的合理处理及其技术应对*. 科技与出版[J], 2024, 43(8): 74-84 doi:10.16510/j.cnki.kjycb.2024.08.005

学术期刊出版活动涉及的个人信息主要可分为三类:作者个人信息、读者个人信息、出版内容中的个人信息。[1]目前国内已经有较多出版领域的学者对前两类个人信息的保护与利用进行了研究,如周莉对能够识别作者/读者个人信息的用户画像技术进行了探讨,指出学术期刊需要遵守个人信息收集的最小必要原则以及用户知情同意原则[2];杨郁霞对学术期刊网站中的作者/读者隐私信息进行了调查,分析了其中的潜在风险并总结了相关保护策略[3];陈华丽、王飞[4]以及金伟[5]分别从法学期刊和科技期刊的角度提出了保护作者个人信息的建议;姚锋[6]以及章诚[7]则从隐私保护的法律价值与作者的数据权利两个角度分析了期刊对个人信息的体系化与法治化保护路径。整体看来,一方面,现有文章大多关注作者与读者的个人信息保护,鲜少有学者对学术期刊出版内容中个人信息的利用与保护进行研究;另一方面,这些文章偏向于关注个人信息保护的应然问题,即个人信息的处理合不合法、符不符合学术规范以及信息泄露事件发生之后相关主体应当如何承担责任,而很少从实然角度或者技术角度说明期刊怎么有效规避外界对个人信息的识别以及如何实施匿名化、脱敏化等隐私保障措施。现实中,《苏州大学学报(法学版)》由于发表了牵涉个人姓名司法案例的学术文章而被信息主体要求删除文章,这应当属于出版内容中个人信息的传播所引发的隐私权益纠纷,由此也暴露出学术期刊行业对出版内容中个人信息的保护意识与处理能力存在不足。鉴于现有学术研究的欠缺以及期刊出版实务的现实需求,本文以学术期刊出版内容中的个人信息为研究客体,对其合理处理的法律场景进行细致分析与罗列,并基于自行公开、合法公开、同意公开三类具体场景,提出学术期刊积极主动实施技术措施的实操性建议,以避免外界对出版内容中的个人敏感信息进行识别。

1 学术期刊在出版内容中对个人信息的处理及其隐私风险

1.1 出版内容中的“处理”行为与个人信息类别

根据我国《民法典》第一千零三十五条以及《个人信息保护法》第四条的规定,个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。在学术期刊的出版流程中,作者完成了大部分个人信息的前期处理工作,期刊单位实施的处理行为主要体现为使用和公开,在预防隐私风险的场景中还可能会包括加工或删除。“合理使用”或“合理公开”是在出版内容中利用个人信息的基本要求,但不管在适用场景上还是在法益保护上都与对作品的“合理使用”(fair use)存在区别。我国《著作权法》第二十四条规定的为介绍、评论某一作品或者说明某一问题在出版内容中引用他人已经发表的作品是学术领域中“合理使用”的传统场景,作者或期刊单位不能合理引用作品损害的是其他作者的著作权,更确切地说是作者的署名权。该场景之下,作品作为一个整体受到法律的保护,与其内容直接指向或间接影射主体的权益并无关联。与保护作者著作权益的目的不同,个人信息的“合理使用”或“合理公开”保护的是作品内容所涉及的特定主体的个人信息权益,一般与作者本人或作品整体无关,除非引用作品时刻意描述了作者本人的个人信息,此时的不合理使用可能同时侵犯作者的著作权益与隐私权益。以《苏州大学学报(法学版)》一案为例,期刊单位对司法裁判的“合理使用”实质上影响的是作者之外其他主体的个人信息权益而非作者自身的著作权益,案件的争议焦点也在于公众知情权与个人信息自决权的冲突而非公众文化权与作者知识产权的冲突,因此应当以《个人信息保护法》而非《著作权法》来裁夺期刊的合理使用行为。为了区分传统意义上作品的“合理使用”与数字时代个人信息的“合理使用”,本文以能包含“合理使用”的上位概念“合理处理”(Reasonable Processing)一词来指代学术期刊在合理范围内操作出版内容中个人信息的一系列行为。

学术期刊在出版内容中处理的个人信息主要有以下4种类型:①被引用对象的个人信息:作者在文章中引用他人观点或理论时指明被引者的姓名作为引用来源的明确标识,有时为了突出被引者的学术背景可能还会加上其所属单位、研究领域、发表文章等附加信息;②研究对象的个人信息:在社会科学和医学领域中,研究对象的个人信息(如年龄、性别、职业、收入、地理位置等)可能会被提及,以支持研究方法或者研究结论;③时事新闻或重大事件亲历者的个人信息:作者在文章中评述新闻或历史事件时提及重要参与者或亲历者的姓名与相关事迹,以作为例证支持作者观点;④司法案件相关方的个人信息:在法学领域中,法院已公布的裁判文书中原告或被告的姓名需要出现在论文的正文、注释、参考文献之中,以陈述案情或指明引证来源。就论文写作的学术规范而言,不同领域学者在使用不同类别的个人信息时对其匿名化的程度存在差异,学术期刊需要采取的处理措施也各不相同。

1.2 个人信息处理的隐私风险

作者/读者的个人信息是学术期刊开展出版发行活动的核心数据,由于作者/读者在大多数情况下都知晓并愿意将信息提供给期刊使用以实现其发表文章或者阅读文章的目的,因此相关处理行为引发隐私安全事件的概率较低。然而一旦个人信息出现在期刊文章内容之中,可被识别出的信息主体一般对自身个人信息的处理并不知情,也难以获得学术期刊的通知,因此在出版内容中处理个人信息潜藏着更加难以辨识的隐私风险。随着个人信息的可识别性从弱到强,相关信息主体遭受隐私泄露风险的概率也逐步增加。

1.2.1 研究对象的个人信息

学者在处理研究对象的个人信息时,一般都会对姓名和地理位置进行拼音/英文首字母简化的脱敏处理,以防止直接识别或者结合论文其他相关信息推定出特定个人。研究对象在参与问卷调查和临床试验时,一般也会被告知个人信息仅用于学术研究目的,并且信息处理者通常会承诺对所收集的信息严格保密,有些情况下研究对象还会签署参与者知情同意书。在此种场景下,个人信息的可识别性最弱,相关科研领域也具有模板化与程序化的脱敏措施,再加上取得参与者的知情同意较为容易,因此隐私泄露风险在论文发表阶段已降至最低水平。

1.2.2 司法案件/新闻事件中的个人信息

学术论文提及案件当事人姓名主要有两种情形,一种是在正文介绍具体案情时使用当事人姓名,另一种是在文章注释或者参考文献中引用包含姓名的裁判文书编号或案件具体名称。

正文中出现案件当事人姓名类似于新闻事件中出现被报道者姓名的情况,我国法律并没有明令禁止案件通报和新闻报道不能使用个人姓名,原因在于姓名属于个人的一般信息而非敏感信息,如《民法典》第九百九十九条规定,为公共利益实施新闻报道、舆论监督等行为的,可以合理使用民事主体的姓名、名称、肖像、个人信息等。《个人信息保护法》第十三条作出了更加明确的规定,即新闻媒体在合理的范围内处理个人信息,不需取得被报道者本人的同意。然而在实际操作中,尤其是当犯罪嫌疑人未被确定或者被报道者身份未被核实时,作者或撰稿者通常会使用姓氏加上“某”或“某某”的方式指代特定当事人,以保障案件或新闻的真实性,并尽到自身的核实义务。值得注意的是未成年人犯罪的情况,我国立法明确禁止在新闻报道中披露该未成年人的姓名,如《预防未成年人犯罪法》第四十五条第三款规定:“对未成年人犯罪案件,新闻报道、影视节目、公开出版物不得披露涉案未成年人的姓名、住所、照片及可能推断出该未成年人的资料。”根据以上法律规定和实践中的惯常做法,学术论文在陈述公开的司法案情或者评述公共的新闻事件时提及个人信息虽然会引发对特定个人的识别,但识别结果指向的一般是公权力机关或媒体已经公开的个人信息,为社会大众所知晓。这些信息经过一定程度的匿名化处理,对信息主体权益不会再造成其他不良影响,信息主体对此种轻微程度的识别也具有一定的容忍性。

在文章注释或者参考文献中引用裁判文书或案件名称的情况要比前述情形复杂得多。我国民事案件命名方式一般为“民事案件名称+案号”或“民事案件名称+当事人双方名称”,如“合同纠纷案(案号)”或“合同纠纷案(被告姓名vs.原告姓名)”,而刑事案件命名方式为“被害人或者嫌疑人名称+刑事罪名”,如“嫌疑人某某涉嫌抢劫罪”。我国并没有公开实施的民事案件命名的行业标准,对于法人当事人一般都会写明公司或企业全称,因为法人实体一般不涉及个人信息权益问题,而涉及自然人当事人时,命名方式并不统一,有些情况下会出现当事人全名,有些情况则将当事人以姓氏加上“某”或“某某”的方式指代。例如,中国裁判文书公开网公开的裁判文书一般会包含自然人的全名,但北大法宝数据库收录的案件名称一般只包含当事人的姓氏。刑事案件命名的实践做法同民事案件类似,但根据2015年7月16日公安部实施的《刑事案件命名规则》,公安系统对于刑事案件命名一般不得出现嫌疑人的全名,应当以姓氏加上“某”或“某某”的方式指代。根据以上司法实践,期刊文章在注释或文献中引用法院公开的案例或者裁判文书名称时,对当事人姓名原则上既可以使用全名,也可以进行模糊处理,并无强制要求。但由于案件或文书一般都附有具体的案号编码,就算对姓名进行匿名化处理,读者也可以通过案件细节信息和网络搜索来识别当事人姓名和相关敏感信息。《苏州大学学报(法学版)》一案的源头正是由于当事人姓名的极其特殊性导致大众可以通过脚注中的裁判文书识别该特定个人,进而引发隐私争议与诉讼。尽管《苏州大学学报(法学版)》的引用不管从法律规定还是学术规范而言都符合个人信息合理处理的规定,但合理处理的形式合规并不一定能得到法益保护的实质结果。如果期刊不能够谨慎地对当事人的个人信息进行二次加工,仍可能会暴露个人敏感信息,并对特定主体的日常生活和隐私权益产生一定影响。

1.2.3 被引用对象的个人信息

引用其他学者的观点、理论、模型等是大多数学术论文成型的基础,作者对被引用对象的个人信息一般不做任何匿名化处理,外界可以直接识别出特定个人。学术论文引用规范会强制要求作者指名道姓地列明非本人观点的出处,包括被引用对象的姓名全称和文章题目。有时为了强调引用观点的权威性,作者还会进一步介绍被引用对象的工作单位、学术背景、国籍等具体信息,使得几乎任何人都可以直接知晓被引用对象的身份。就学术出版的目的而言,期刊公开刊载被引用对象的个人信息与学术观点对于学术行业的整体发展与特定学者的思想传播都具有积极意义。学者们虽然牺牲了部分个人隐私,但也获取了更为需要的学术推广利益。此时,个人信息权益虽然最容易受到侵害,但信息主体往往乐意自身的个人信息被广泛传播,很难会出现期刊与被引者之间的隐私纠纷。

2 学术期刊对出版内容中个人信息合理处理的场景

通过分析出版内容中4类个人信息引发的隐私风险,可以总结出学术期刊需要合理处理个人信息的3类场景:处理信息主体自行公开的个人信息(引用他人公开发表的文献)、处理社会已合法公开的个人信息(引用公开的新闻事件或司法案件)、处理他人收集的信息主体同意公开的个人信息(引用研究对象参与的问卷或实验)。

2.1 处理自行公开个人信息的场景

《民法典》第一千零三十六条第二款规定,行为人合理处理自然人自行公开的个人信息不承担民事责任;《个人信息保护法》第十三条第六款和第二十七条也都规定信息处理者可以在合理的范围内处理个人自行公开的个人信息,但个人明确拒绝的除外。以上条款强调了3个方面:一是自行公开,二是信息主体明确拒绝的例外,三是处理的合理性。

学者主动投稿给学术期刊并公开发表作品的行为应当被视为自行公开文章的全部内容,包括学者自身的姓名、工作单位、邮箱、通信地址等个人信息。除非学者要求期刊不能公布其真实姓名并使用笔名的情况下,其真名才不应当出现在其他出版物的内容之中,这属于信息主体明确拒绝的场景之一。如果期刊未能按学者要求公布相关个人信息,则可能既侵犯作者的署名权,违背著作权法的合理使用原则,又侵犯其个人隐私,超出《个人信息保护法》的合理处理范围。

合理性是指信息处理者既要在合理的范围内、以合理的手段处理个人信息,也要将学术出版与学术传播的具体目的作为信息利用之必要限制。当学者引用他人公开发表的作品时,在合理范围内意味着可以利用的被引者个人信息一般仅限于姓名和工作单位,性别、种族、政治党派、宗教信仰等敏感信息不应当出现在出版内容之中,除非通过这些信息的佐证才能表明学者观点或者被引内容本身就包含以上信息。以合理的手段处理意味着引用者必须保证被引用者个人信息的正确性,既不能弄错学者的姓名、文章的标题,防止张冠李戴,也不能随意歪曲学者的论点或以增删、篡改的方式导致他人对学者身份信息或者学术观点产生误解。这不仅在过程中蕴含着信息处理手段的正当性,也在内容中表明了学术论文引用的严谨性。以学术出版与学术传播目的作为限制体现了个人信息处理的目的限制原则,即不管是学者在写作过程中收集被引用者的个人信息,还是学术期刊在编辑出版过程中加工对应的个人信息,都应当以阐明学术观点为必要。如果只是为了进行人身攻击、抨击政治偏好与宗教信仰,或者论证相关内容完全不需要利用特定学者的个人信息,则不符合学术出版与传播目的。

2.2 处理合法公开个人信息的场景

与自行公开的场景类似,《民法典》第一千零三十六条、《个人信息保护法》第十三条第六款和第二十七条也规定了信息处理者可以在合理的范围内处理已经合法公开的个人信息,但个人明确拒绝的除外。以上条款同样强调了合法公开、信息主体明确拒绝以及处理的合理性3个方面。

新闻事件报道和司法案件公布是社会合法公开个人信息的两个主要渠道。前者属于新闻媒体基于公共利益公开社会现实的需要,后者属于政府部门基于社会管理和社会福利履行法定职责的需要。合法不仅意味着公开行为的合法,还意味着公开内容的合法,事件真实、当事人准确、通过合法手段获取信息是学者或学术期刊合理处理公开个人信息的前提。在出版内容中引用相关新闻报道或司法案件时,要预先核实新闻本身是否由权威媒体公开,新闻所涉当事人的个人信息是否经过核实,司法案件是否涉及国家秘密,个人隐私、商业秘密、未成年人等不公开情形,裁判文书是由政府依法公开还是由民间组织、企业或个人私自公开。只有预先明确内容的合法性,才能确认特定的新闻报道和司法文书属于合法公开,期刊后续对其中个人信息的合理处理才具有合法性基础。

信息主体明确拒绝其个人信息出现在新闻报道和司法文书中实质上既包含拒绝权的行使,也包括删除权的行使,两者存在一定区别。根据《个人信息保护法》第二十七条,拒绝权的行使基于合法处理,即在利用个人信息的行为本身是合法的情况下,信息主体考虑此种行为可能会对自身正常生活和隐私权益造成影响,因而拒绝其他主体对其个人信息进行利用;而根据《民法典》第一千零三十七条和《个人信息保护法》第四十七条,删除权的行使基于违法处理,即在个人信息存在错误或处理行为本身无法律或合同授权的情况下,直接要求相关主体删除个人信息。[8]但实践之中,人们对两种权利的区分没有这么严格,都可参考欧盟《通用数据保护条例》所规定的“被遗忘权”进行理解。要求删除新闻报道中个人信息的著名案件要数欧盟“被遗忘权”第一案——“冈萨雷斯诉谷歌案”,原告要求西班牙数据保护监管局命令《先锋报》移除或者修改相关新闻网页从而确保他的个人信息不能通过谷歌搜索到,并命令谷歌西班牙分部和总公司删除涉及其个人信息的链接。要求删除司法文书中个人信息的场景其实广泛存在,甚至还催生了专门从事裁判文书下网业务的信用修复市场。前述《苏州大学学报(法学版)》被要求删除牵涉个人隐私的法学论文,则属于学术期刊处理合法公开司法文书的场景。该篇文章在脚注中引用了包含Y某全名的案件,且苏大学报编辑部未将姓名作匿名化处理,Y某因此认为其隐私权受到了侵犯,进而要求编辑部删除文章。编辑部基于文章对判决书中全名的使用属于合理处理而拒绝了删除要求,最后导致Y某向苏州市虎丘区人民法院起诉苏大学报主办单位苏州大学。此后,由于Y某经法院传票传唤未到庭参加诉讼,且Y某在开庭前向法院邮寄了撤诉申请,法院最终裁定准予原告Y某撤诉。

虽然该案以原告申请撤诉而终结,但此结果未能为司法案例的引用确定相关标准,以保障学术研究的自由和可持续性。正如结案后苏大学报编辑部公开发文所述,公开审判案件的裁判文书所载个人信息的传播和使用问题仍值得进一步研究。就处理公开个人信息的学术场景而言,该案中有两个合理性问题需要得到重视,一是原告基于拒绝权提出诉讼的合理性,二是学术期刊基于公益性拒绝删除的合理性。前者的合理性基于两个层面——原告姓名的特殊性存在与先例判决的指示性影响。Y某的全名有5个汉字,在全国范围内具有异于普通人姓名的特殊识别性。就学报文章引用的案件(启信宝案)本身来看,苏州中院的审理思路认同了Y某姓名的独特性与显著性,并从裁判结果上肯定了二次转载裁判文书违背其本人意愿并对其后续就业及生活等造成了重大影响。结合先例判决以及《个人信息保护法》第27条有关拒绝权的规定,Y某向苏大学报提出诉讼具有合理性基础。后者的合理性也是基于两个层面——处理行为的学术规范性与学术出版的公益传播性。正如苏大学报编辑部对起诉的回应,其援引中国法学会法学期刊研究会推荐的《法学引注手册》格式标准表明其已经在合理的范围内、以合理的手段处理了案件的个人信息,并且已经将姓名的利用限制在司法公开、促进法学教育、推动学术研究的公益目的之中。该案与启信宝案最大的不同之处正是在于二次传播的公益性与商业性之差别,否则基于法院判决的一致性,Y某具有胜诉的可能。因此,该案冲突最终的落脚点就在于传播裁判文书的学术价值与司法价值是否超出了个人隐私利益。

虽然该案背后所体现的利益冲突是目前的法律规范与行业准则难以协调的问题,但客观而言,学术场景下合理处理的界限依然较为明确,因为隐私主体负有的容忍义务依然需要存在以体现裁判的公信力与信息公开要求,拒绝权的行使在公共利益面前需要得到一定程度的限制。然而,该案的发生也应当让人们意识到,学术期刊合理利用新闻报道和司法文书合法公开的个人信息仍然可能会影响到相关信息主体的隐私权益。为了避免冲突与隐患,在法律上的合理性与业务上的出版目的兼得的基础上,学术期刊依然要注意处理的合理性在不同场景下的外延,根据现实情况来确定个人信息的利用形式是否必要、处理手段是否合适,预先对隐私损害影响进行评估,以彰显出版单位在数字经济时代的人文关怀理念。

2.3 处理个人同意公开个人信息的场景

在前述两类场景之中,合理处理自行公开或合法公开的个人信息无需取得信息主体同意是《个人信息保护法》第十三条明确的例外情况。在非公开场合,信息处理者利用个人信息一般都需要取得个人的同意,这体现了各国个人信息保护法一致要求的知情同意原则。根据《个人信息保护法》第十四和十五条的规定,个人同意处理个人信息的,该同意应当由个人在充分知情的前提下自愿、明确作出;个人信息的处理目的、处理方式或种类发生变更的,应当重新取得个人同意,同时个人有权随时撤回其同意。以上条款强调了3个方面:一是充分知情,二是重新通知,三是同意撤回。

在学术研究中,研究对象对问卷调查和科研实验的充分知情是指了解研究的具体目的、其参与对研究的意义和价值、可能涉及的风险、其个人信息将如何被处理、存储和保护以及如何退出调查或实验。确保研究对象的充分知情不仅是知情同意原则的具体体现,也是学术伦理的核心要求。在调查问卷的场景下,如果学者使用的是国家标准化的调查问卷模板,如《中国综合社会调查》(CGSS),则参与者回答问卷之前会事先了解到后期的科学研究、政策分析以及观点评论中只会存在信息的汇总而非个人、家庭的具体信息,一般不会造成隐私泄露。在科研实验的场景下,研究者则会提供数据收集的详细流程,包括采集个人信息的类型、采集方式、存储地点、数据处理方法、数据保留期限等,有时还会说明采取的隐私保护措施,如数据加密、匿名化处理、访问控制等。如果研究团队计划与其他研究机构或合作伙伴分享数据,也需要明确告知参与者与谁分享、分享的具体信息以及分享目的等。基于科研实验的复杂性,大多数情况下研究对象都会被要求签署载有上述信息的参与者同意书,以充分保障其知情同意权。由此可见,不管是问卷调查还是科研实验,充分保障研究对象参与前的知情同意是研究者利用其个人信息的前提条件,也是学术期刊后续处理研究成果中个人信息的合法性来源。

重新通知体现的是目的限制原则。将信息处理范围限制在参与者原先知晓的研究目的之内,实质上是对知情同意原则的延续。如果研究者基于研究对象的个人信息进行新的研究或将其用于原先未明示的其他目的,则需要重新通知参与者。在收到通知后,参与者应该再次确认他们的同意,或者选择退出研究,以确保其信息权益得到保护。学术期刊陆续发表某研究团队基于同一群体样本得到的学术成果时,应当逐篇审查参与者的个人信息以及研究目的是否存在变化,如有变化,则应询问研究者是否已经重新通知参与者。期刊编辑在审校稿件时,应当审慎注意投稿者在其他期刊发表的文章是否利用了相似的个人数据集合,以防止作者未能尽到重新通知义务而导致处理隐患。

与前两类场景的拒绝权不同,同意撤回是参与者对于“告知—同意”模式的后续意思表示,其行使具有一定限制。例如,其行使不能影响数据信息留存义务的履行,尤其是当数据留存具有维护国家安全及公共利益的重要功能时;其行使不具有溯及力,建立在“同意”基础上所取得的科研实验阶段性成果不应因参与者撤回同意而被归于无效或不可使用;其行使不能有损害信息处理者正当权益的故意,虽然研究者重新识别已标识个人信息或重新调整权限所产生的额外费用不可要求参与者承担,但当参与者恶意撤回同意并使研究者的基础性权利遭受不法侵害时,则会产生赔偿责任。[9]学术期刊可以要求研究者在投稿时告知研究过程中是否存在参与者撤回同意的情况,并审查撤回主体的相关个人信息是否存在于研究者提交的数据集之中。发现撤回主体的个人信息后,还需进一步审查这些信息是否为撤回之后才被收集或加工,防止未经二次授权同意的个人信息出现在研究成果之中。

3 学术期刊对合理处理场景的技术应对

在前述合理处理的三类主要场景中,虽然大部分情况下学术期刊可以不利用额外的技术手段实现个人信息的不可识别,但由于各种主客观因素,出版活动中不合理的处理行为与难以预料的隐私风险仍会不时出现。因此,学术期刊主动对出版内容中的个人信息进行符合场景需求与风险程度的技术处理,可以有效防范潜在的隐私安全事件,避免不必要的司法纠纷。

3.1 以降低识别性为目标,以比例原则为限制

识别性是体现个人信息敏感程度的重要指标,因而技术处理的核心目的就是降低信息自身的可识别性以及与其他信息关联后的可识别程度。但实践中,具体如何识别或者以何种标准去识别还存在很多争议,甚至对于已经过适当技术处理的个人信息来说,如果按照较为严格的数据保护标准来判定,依然可能被认为具有一定的识别性。根据我国2017年出台的《网络安全法》,个人信息处理后不具有识别性的标准有两点:一是根据信息无法识别特定个人,二是信息不能再次被复原。无法识别特定个人是去识别化的最终法律效果,也是该法律标准意图实现的技术目标。不能被复原则要求不存在能够实现信息复原可能性的技术手段,属于绝对的去识别化。但鉴于技术手段的不断发展,不同的去识别化技术具有不同的适用情形,依靠技术实现的去识别化在理论上仍可被破解和还原。[10]因此,个人信息的去识别化结果只能处于相对稳定的状态,期刊单位需要结合出版活动的具体情境因素设计相关技术手段,在作者、读者以及大众主体使用多数合理可行之手段都无法识别信息主体身份时,应当认为技术处理后的个人信息无法被复原。

降低去识别性要讲究一定的分寸,不能滥用技术手段。具体而言,学术期刊在选择技术手段时应当适用比例原则,即满足学术出版的目的性、处理手段的适当性与必要性、技术成本与期刊收益的均衡性。

首先,虽然学术期刊的去识别化手段应当以减少隐私风险为目标,但仍需兼顾识别性对于学术研究的功能性意义:对于自行公开的个人信息可以尽量保持原状,彰显学术传播价值;对于合法公开的个人信息应在能够呈现学术论点、得出学术结论的范围内进行模糊化处理,以强调事件或观点本身的事实价值而非当事人身份;对于同意公开的个人信息则需要尽量降低个体在群体之中的可识别性与关联性,突出数据集合的整体价值。

其次,学术期刊的去识别化手段应当仅限于防止信息与身份相匹配的操作,实现的去识别化结果也应当对相关主体权益影响最小。一方面,学术期刊对出版内容中个人信息的技术处理是作者收集与加工活动的延续,处理后的信息依然需要满足作者的学术预期、具有数据的原始属性以及学术论证能力。如果技术手段不仅降低了识别性,还在一定程度上降低了信息的学术功能性,则属于不相称的方式。另一方面,在有效降低去识别性的技术手段中,学术期刊应当选择对相关主体权益影响最小的方式。例如,对新闻事件或司法案件中当事人的姓名去识别化时,虽然使用化名比只使用姓氏的模糊化处理更有利于保护当事人隐私,但其结果可能会侵犯到真名与化名相似的主体的名誉权。

最后,学术期刊的去识别化手段应当符合出版活动的客观实际与运营成本。对于科研数据集合的排查与脱敏而言,部分科技、医学期刊或期刊群可能有意愿也有经济实力去获取相关技术,但对于其他期刊单位来说可能既无必要也不现实。如果经过简单的培训就能使期刊编辑或者技术人员掌握基本的去识别化手段,则不需要大肆外包给专业人员去做。对于较少涉及数据集合的综合类或者文科类期刊而言,提升自身的去识别化意识和数据安全思辨能力可能更有利于去识别化手段灵活、简便、经济地被应用在日常学术出版活动之中,以对隐私保护的人文关怀理念强化去识别化效果。

3.2 去识别化手段的类型

3.2.1 匿名化与假名化

匿名化(anonymization)或假名化(pseudony-mization)是指有意对个人信息采取的旨在掩盖或隐藏信息主体身份的过程,常见手段有删除或省略身份识别细节(如姓名)、用代号替代姓名、根据类别整合或重组信息、添加妨碍信息等。我国在法律实践之中一般不太区分匿名化和假名化,因为很难基于法律标准区别两者的去识别化法律效果。但在技术层面,匿名化和假名化的去识别程度是不同的,前者强调去识别化的实际结果,后者强调去识别化的特殊方式。[11]匿名化和假名化都可以降低个人信息的直接识别风险,帮助信息处理者履行其数据保护义务。在合理处理场景中,可以利用这两类手段对科学、历史、统计研究中的个人信息进行脱敏保护。而对裁判文书中个人信息的匿名/假名化处理,还应当考虑到去识别化结果是否会影响司法公开制度以及公众因该制度所受保护的知情权、监督权等公共利益。在学术出版场景中,其标准至少应当是经过去识别处理的引证仍具有可验证性,即引用的案例原则上必须能够让读者找到所引案例的原始出处。如有必要,公开审判的裁判文书所载的信息都已经依据《最高人民法院关于人民法院在互联网公布裁判文书的规定》第8~9条对当事人进行了隐名处理,学术期刊二次传播的当事人信息一般不属于个人隐私。因此,对于类似于启信宝案裁判文书的引用,比较合适的处理方式应当是仅针对特殊姓名本身进行匿名/假名化操作,保留裁判文书中其他的公开个人信息,在案件名称无法识别的情况下,还有必要附上裁判文书编号以保证原始出处的可追溯性。

欧盟《通用数据保护条例》第4(5)条对匿名化给出了具体的定义:“一种处理个人数据的方式,即不使用额外信息便不能将个人数据归于某一特定数据主体,该处理方式需将额外信息分开存储,并施加技术和组织措施,以确保个人数据不属于已识别或可识别的自然人。”根据该定义,匿名化的实现过程应当是将个人信息与非个人信息分开存储,确保最终得到的匿名化信息不包含任何可以直接或间接识别个人身份的信息。实践中,学术期刊可以利用以下3类方法实现匿名化:①数据聚合。将数据进行聚合,以确保统计数据不包含小样本或极端个别数据,避免通过统计结果推断出特定个体信息;②数据泛化。对特定的数值或描述性信息进行泛化处理,把较低层次的概念(如年龄的数值范围)用较高层次的概念(如青年、中年和老年)替换来汇总数据,以防止个体的具体信息被推断出来;③数据替换:对敏感个人信息采用加密、哈希或其他替代性方法进行处理,以替代原始数据,使得个人身份不可识别。数据聚合与数据泛化适合于处理研究对象同意公开的个人信息,能够降低科研实验或者调查问卷中个体信息的群体关联性。数据替换则适合于处理新闻报道、司法案例中合法公开的个人信息,将其中的敏感信息转化为不特定内容或可替代内容。

假名化是一种使用假名替换直接标识(或其他敏感标识符)的去识别化技术,具体指用生成的新字符(即假名)取代原来的直接标识符,使得在不借助额外信息的情况下无法识别出个人信息主体。[12]在即时通信工具中使用网名或者昵称聊天就是一种典型的假名化手段,因为单纯观察聊天记录而不借助“姓名—昵称”的实名映射表是无法识别出用户的。在研究对象参与的访谈对话中,假名化可以在突出部分关键信息的同时模糊特定访谈个体。例如,在一篇研究父母与子女关系的社会学文章中,访谈对象“张三”和“李四”的真实姓名可以被转化为“军军爸爸”和“媛媛妈妈”,这样一来研究对象及其子女的性别都可以一目了然,其实际身份也不易被识别出来。在文章中引用新闻报道和司法案情时,如果为了保留地点和时间信息,可以把“张三,深圳市南山区,2023年11月3日”等真实信息转化为类似于“ZS51800020231103”的长字符串,大众可以识别出邮政编码与日期却不能识别出特定主体。

3.2.2 去标识化

《个人信息保护法》第七十三条第三款规定:“去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。”虽然我国对去标识化的定义与欧盟对匿名化的定义十分接近,但在各国实践中,匿名化制度一般要比去标识化制度更加严格,匿名信息一般不再被视为个人信息,而去标识化信息在许多国家或地区依然被视为个人信息。这也导致在特定场景之下去标识化的效果可能减弱,去标识化信息与一般个人信息的界限没有特别分明。前文列举的裁判文书的命名方式正是此类,部分经过去标识化的当事人信息看似被去除了识别风险,但在司法信息公开的场合之下依然具有识别特定主体的可能性。[13]但无论去识别化的最终效果如何,学术期刊对裁判文书名称进行的去标识化操作在形式上不仅要符合前述公安系统的命名规定与法院系统对当事人的隐名处理规则,还要体现出案例的公开性与可验证性。

比起注重信息难以被再次识别的结果,去标识化更加注重体系化与标准化的信息处理过程,即确认目标、识别标识、处理标识和验证批准这4个严格的步骤,缺一不可。[14]屏蔽是处理标识的常用方法,实践中一般利用符号“*”去屏蔽敏感信息片段,手机号码、身份证号码、银行账户、电子邮箱等个人信息都可以通过屏蔽部分字符串的方式实现去标识化。学术期刊也可以利用随机生成的类似于“××”的字符串代替姓名、工作单位、家庭住址等出版内容中的个人信息。具体而言,去标识化更适合于处理科研数据集合,不管是部分去标识化还是完全去标识化,都可以通过集成屏蔽、过滤、转化以及合规性校验等功能的计算机程序批量完成所有步骤。但在小规模的去识别化场景中,批量去标识的操作成本过高,缺乏技术资源的小型期刊单位难以实操。

4 结语

虽然作者与学术期刊在大部分场景之中都能够依法合理处理各类个人信息,但实践中依然存在某些出版内容会导致对特定信息主体的识别,引发隐私风险。针对不同场景,以比例原则为限制,学术期刊利用匿名化、假名化、去标识化等技术手段可以有效降低出版内容中个人信息的识别性,构筑期刊出版隐私保护的最后一道墙。随着数字技术与人工智能的发展,个人信息的保护面临更加复杂的挑战,现有去识别化手段仍然存在局限性,难以完全避免潜在的隐私风险。此外,数据法规与隐私伦理规范也在不断演变,对出版活动提出了更高的个人信息保护要求。学术期刊主动持续关注个人信息保护的前沿技术和法规要求,不断优化现有出版流程与编校过程,提供更加安全、合规的信息处理方案,既是学术期刊坚守隐私保护与数据安全防线的制胜法宝,也是期刊单位在服务学术、服务学者、服务大众过程中发展人文关怀的必经之路。与此同时,还需要加强对作者、读者和学术期刊利益相关者隐私保护意识的培养,以共同维护学术研究领域的隐私安全,促进学术出版行业在技术崛起中安定有序发展。

基金项目:教育部人文社会科学研究青年基金项目“数据交易中的跨境数据流动法律规制研究”(23YJC820058)。

参考文献

贺文奕.

出版活动中对个人信息的保护、豁免与利用

[J]. 科技与出版,20223):134-141.

[本文引用: 1]

周莉.

学术期刊用户画像个人信息保护:风险与规制:以《个人信息保护法》为视角

[J]. 武汉科技大学学报(社会科学版),2023251):95-99.

[本文引用: 1]

杨郁霞.

学术期刊网站用户隐私信息的保护

[J]. 传播与版权,20199):154-157.

[本文引用: 1]

陈华丽王飞.

作者个人信息如何保护:基于法学类CSSCI来源期刊的实证分析

[J]. 科技与出版,20191):117-123.

[本文引用: 1]

金伟.

科技期刊作者个人信息著录问题探讨

[J]. 辽宁师范大学学报(自然科学版),2013362):260-263.

[本文引用: 1]

姚锋.

大数据时代期刊作者隐私保护的价值平衡与法治规范

[J]. 南昌大学学报(人文社会科学版),2022535):67-76.

[本文引用: 1]

章诚.

基于数据主权与数据权利的学术期刊数据权保护

[J]. 南京大学学报(哲学·人文科学·社会科学),2022596):149-157.

[本文引用: 1]

韩旭至.

认真对待数字社会的个人拒绝权

[J]. 华东政法大学学报,2023261):22-34.

[本文引用: 1]

万方.

个人信息处理中的“同意”与“同意撤回”

[J]. 中国法学,20211):167-188.

[本文引用: 1]

张建文高悦.

我国个人信息匿名化的法律标准与规则重塑

[J]. 河北法学,2020381):43-56.

[本文引用: 1]

MIRANDA M, et al.

Are‘Pseudonymised’data always personal data? Implications of the GDPR for administrative data research in the UK

[J]. Computer Law & Security Review,201834):232-233.

[本文引用: 1]

袁纪辉.

有关个人信息处理技术概念的厘清:匿名化、去标识化、假名化、去识别化之辨析

[J]. 保密工作,20215):59-60.

[本文引用: 1]

张新宝魏艳伟.

司法信息公开的隐私权和个人信息保护研究

[J]. 比较法研究,20222):104-120.

[本文引用: 1]

于佳华刘琨常远.

面向个人信息的公示页面发现与去标识化合规性校验技术研究

[J]. 网络安全技术与应用,20231):46-47.

[本文引用: 1]

/