当前智能出版研究的现状、困境与出路
关键词:
本文引用格式
冯小桐.
近年来,人工智能概念火热,国家从顶层设计层面推出相关政策,推动人工智能与产业深度融合。出版界的学者从不同角度展开了对“人工智能+出版”的研究,探讨人工智能技术对出版业带来的创新性突破。然而,智能出版研究尚处于早期探索阶段,当前研究难免会陷入一些困境。一方面,基于技术自身逻辑,目前人工智能技术水平还没有达到出版界学者预期的高度,甚至在可预见的未来都难以实现;另一方面,人工智能技术在发展过程中衍生出新的细分方向,可以为出版业界带来更多可能。本文目的即是厘清相关困境并指出根源所在,提出走出困境的解决方案。
1 研究现状
随着人工智能技术的迅猛发展,智能出版成为出版界的研究热点,多本核心期刊刊登大量文章甚至开辟专栏探讨人工智能技术带来的机遇和挑战,理论层面的“智能出版热潮”已然来临。目前,已有的智能出版研究主要集中在如下三个层面:一是业态层面,主要讨论人工智能对出版业发展可能带来的改变;二是从业者层面,关注人工智能对从业者工作环境的潜在影响;三是技术层面,分析现有智能出版软件的准确性与适用性。
业态层面的研究主要关注人工智能技术对出版流程的变革。这些研究关注的细分领域包括出版业务的流程再造、用户服务、出版资源数字化拓展、内容智能化生产、业务整合等[1]。有学者通过解读政策分析中国国内智能出版发展的有利外部环境[2]。还有学者关注了智能出版的管理学问题,如施超凡(2020)等人利用信息生态理论构建智能化出版产业信息生态系统,揭示出版产业各信息要素间的相互关系[3]。从业者层面的研究主要关注人工智能技术的介入对编辑工作造成的冲击与改变,如夏德元(2020)认为读者、编辑与作者之间的固有边界被打破,出版市场的供需错配直接导致编辑主体的身份认同危机[4]。但此类研究鲜有基于案例的扎根研究,更多是参照其他行业的变化或对技术的理解进行合理推测。技术层面的研究成果并不丰富。部分学者意识到这方面的欠缺,并积极填补这一空白,如易龙(2020)基于实测数据对中英文智能编校系统进行了对比[5],类似研究主要集中于测试现有较为成熟的软件系统。
虽然智能出版相关讨论非常热烈,但是已有研究之间相互关联性较小,理论对话不足。从研究对象角度来说,虽然都在讨论智能出版,但有的在讨论出版流程,有的在讨论编辑审校,有的在讨论内容生产。从研究方法角度来说,大多以思辨性分析或案例分析为主,实证研究主要集中于技术层面的讨论。从研究范式角度来说,在智能出版领域已知正确的基础知识和假设之上,哪些未知问题值得被研究,哪些方法和证据可以被接受,研究者之间尚未达成共识。
2 研究困境
2.1 概念边界模糊,理论对话不聚焦
在过往有关“智能出版”的研究中,出现了因概念边界不清晰而导致的讨论泛化。例如,在讨论智能技术介入出版流程时大量讨论内容生产,将创作环节的问题与编辑环节的问题混淆。因此,要想把“智能出版”的相关问题讨论清楚,首先需要对三个常见的关键概念进行界定。
第一,“人工智能”。尽管人工智能作为一个术语已经出现了几十年,但目前还没有一个普遍接受的定义。比较通行的定义有“人工智能是能够学习、适应、创新和解决问题的程序”[6],“人工智能系统能够执行高级操作,可以执行接近、达到或超越人类能力的操作”[7]。但不论何种定义方式,“智能”即意味着逻辑、理解、自我意识、学习、情感知识、推理、计划、创造力、批判性思维和解决问题的能力。更抽象地说,“智能”可以被描述为感知或推断信息的能力,并将自主生产的知识保留下来,以应用于环境的适应性行为[8]。“人工智能”则是赋予计算机学习和模仿人类“智能”的能力,即感知环境并采取行动以最大限度成功实现目标[9]。所以,人工智能系统应具有一定程度的自主工作能力,而非仅仅机械替代人工工作。
第二,“大数据”。已有研究在讨论人工智能技术时,常常将其与大数据混为一谈。尽管这二者之间有紧密联系,但在本质上却各不相同。许多研究都对人工智能进行了定义,目前被广为接受的是“一个系统正确解释外部数据、从这些数据中学习的能力,并利用这些经验通过灵活的适应来实现特定的目标和任务”[11]。这就意味着,人工智能与大数据一个主要的区别是,大数据重在数据变得有用之前进行清理、结构化和集成的原始输入,而人工智能重在输出,即处理数据产生的智能。从技术原理上来说,大数据仍然是一种传统计算,它不会根据反馈采取自主行动,而仅仅是寻找结果,揭示现象。例如,前文所言的“个性化”出版主要采用大数据技术了解读者的阅读内容,并有选择性地向读者推荐内容,使用的核心技能是大数据工具和控制论算法,用PID(Proportion-Integral-Differential,比例—积分—微分)等算法对输出结果自动调控。
严谨区分上述概念的边界与区别,并非为了“咬文嚼字”,而是为了理解不同技术之所以可以成立和运转的基础逻辑,并对应实践中亟须解决的问题实质。只有这样,研究者才能在更细分的领域沿着正确的技术路线深度挖掘,从而得出对实践有指导性意义的结论。
2.2 误解技术自身逻辑,高估技术的变革能力
目前出版界的相关研究显示出了业界对人工智能技术发展水平过于超前的乐观。有学者认为,人工智能技术算法不透明会让算法的使用者难以理解其决策过程,“决策权和控制权的让渡让期刊界对AI可能发生的错误异常敏感”[15]。这样的担忧不能说没有道理,但如果回归当前技术实践的层面就会发现,即使是算法建模者自己,也不一定能充分解释清楚某一些参数为什么准确率最高,算法建模者常常调侃自己为“调参民工”。搭建算法的过程,并非如外界所想象的那样,从底层到高层严格按照预设蓝图搭建;它更像是一个经验过程,即不断试错,在错误和偏差中调整,并以需求为导向,根据不同结构模型的优势优化算法。目前大部分智能算法的底层架构都是开源的,并非如“黑盒”一般“不可知”。无论是经典的SVM(Support Vector Machine,支持向量机)、KNN(K-Nearest Neighbor,最邻近节点算法),还是比较前沿的LSTM(Long Short-Term Memory,长短期记忆人工神经网络)等算法和模型结构,都可以在公开发表的论文和开源数据代码库中找到其架构原理和底层代码。在出版实践中,编辑可能因技术壁垒或自身知识体系所限,难以理解智能算法的基本原理,但并不意味着这些算法不透明。
对于人工智能在出版业的潜在应用方向,一些学者在内容生产[16]、选题策划、编辑加工、营销发行和阅读方式[17]等环节就人工智能技术的应用进行了不同程度的讨论。这些环节涉及的细分方向主要包括自然语言处理(Natural Language Processing)、机器学习(Machine Learning)和人工神经网络(Artificial Neural Network)。虽然这些技术在部分行业有极为出色的表现,但目前的发展水平难以满足出版业的需求。例如,只要进行文字工作,就必须使用自然语言处理技术,但目前的自然语言处理技术只有在处理150~200字符的文本时才能表现出较高的准确性,而如何准确处理300字符以上的长文本是人工智能学界亟待解决的难题。此外,不能忽视不同国家人工智能技术的发展差异。目前许多自然语言处理的算法规则、机器学习的语义库都是基于英文开发或“预训练(Pre-train)”的,如GloVes或word2vec。而基于中文规则编写的算法规则或语义库,尚未发展得如英文语义库一样成熟。
2.3 以“技术导向”进行出版研究,忽视实践中必要的基础条件和存在的限制条件
诚然,人工智能技术可以完成许多人力所不能及之事,而且现在的科研人员已经做出了许多杰出的人工智能样品,甚至有些已经做得较为成熟,如被大众所熟知的围棋软件“AlphaGo”,松原仁教授团队创作的由人工智能与人类合作完成的短篇小说成功通过了《日本经济新闻》微型小说文学奖初审评选[18],等等。然而,人工智能技术的介入并不意味着出版业一定会比过去发展得更好。对于一个行业或者一个学科而言,最重要的是如何将技术的强大功能与实践需求相匹配,从而提高工作效率。
在传统出版业的实际应用场景中,只有少部分环节适合人工智能介入。人工智能系统可以在校对环节辅助识别一些低级错误,如相似字符的输入错误;还可以辅助校正一些碎片化、更新快的事实性错误,如核对稿件中提及的领导人的职务信息。然而,出版流程中的其他环节并不一定适合引进人工智能参与工作。例如,在选题策划环节,需要策划者对选题的社会价值和经济价值做出判断。有观点认为,人工智能可以帮助编辑进行选题决策,但是这种观点忽略了三个限制条件:一是出版业很难建立人工智能系统所必备的庞大且能够实时更新的数据库。目前许多网站和数据库都设置了反爬虫防火墙,而要一一申请获取这些数据并不现实。更关键的是,出版业内部的数据也缺乏流动性,单一出版单位无法形成训练智能系统必备的“数据训练集”。二是传统出版业没有财务能力和技术能力去维护高质量的人工智能系统。在人工智能介入决策的行业,如量化交易、医药咨询、物流航运等高收益行业,拥有专门团队维护数据分析系统,为决策提供支持。很显然,出版业不具备类似的高获利能力,缺少运维团队。三是人工智能不擅长进行价值判断。目前人工智能技术的发展水平尚处于“低智能”阶段,几乎无法处理人类社会中复杂的价值判断,而策划者恰恰需要对选题的社会价值进行判断。
当讨论人工智能对出版业的影响时,必须从社会需求出发,从行业自身规律和要求出发,进而倒推需要使用什么技术,怎么使用这些技术;而不能单纯以技术为导向去讨论如何把经过人工智能“改进”过的流程或产品推向市场。当探讨出版业的未来发展时,应当基于怎样能为读者带来更优质的阅读体验,怎样能为社会传播更有价值的信息,怎样能为出版社带来更多收益。实践需要是“本”,而技术是“末”,是实现需要的工具。只有围绕出版实践中的痛点和需求讨论人工智能的具体应用,才能避免因追逐技术热点而陷入资源浪费的陷阱。
3 解决方法
3.1 打破行业内部数据壁垒
如前文所述,无论是从业态或技术角度讨论智能技术给出版业带来的改变,都面临两个重要的限制条件:一是人工智能系统的使用成本,二是行业数据的质量与集成。高质量、结构化的数据是“当前人工智能系统的基本驱动力”。对出版业而言,尝试打通或降低全行业数据壁垒,建立一个能够集成和管理数据的“数据池”,对于引入人工智能提升出版业工作质量至关重要;对个体出版单位而言,率先建立起有实用价值的数据库并开发出智能系统,可以获得“先发优势”。
预算不足是启动人工智能项目时面临的最大挑战之一。因此,在开发或引进人工智能系统之前,需要提前考虑总成本和预期收入,以便评估人工智能解决方案是否可持续进行。对于有一定规模或盈利情况较好的出版单位,可以尝试建立满足基础需要的低成本“数据池”。一般来说,引入人工智能系统有两个主要的项目支出:一是复杂的基础设施建设需要大量投资,二是聘请相关专家团队所需的人工成本。但如果从基础级的“数据池”做起,第一类项目支出可以大大减少,因为几乎所有出版环节都不需要处理实时更新的海量数据,所以企业级办公电脑的硬件配置基本可以满足工作需求。极端情况下,出版单位也可以租用成熟的商业云服务,通过“小步快跑,不断试错”的方式,找到使用人工智能技术的最佳方案,以此为基础逐步引入更复杂的智能系统。
3.2 研究已有开源代码
合理复用开源代码有助于快速压缩开发成本,提高软件开发效率。直接复用开源代码要面临许多版权问题,但是这并不妨碍研究人员在现阶段投入精力研究开源代码,学习和分析代码逻辑。目前,比较前沿的算法逻辑大部分都能在开源社区中找到,甚至有公开发表的专业论文解释算法原理。通过研究这些开源代码,可以找到现有技术与出版业发展的契合点,避免因不理解技术出现盲目的“技术导向”。
当然,建立智能治理体系以规范责任、保护数据安全等问题至关重要。尽管所有新技术应用在诞生之初都会挑战现有监管秩序[19],但是,将智能技术带来的收益与社会监管对立起来讨论是不必要的。毕竟出版业的人工智能研究还处于早期阶段,学者们要在社会伦理和法律框架内展开研究,以扩展这一领域的理论和经验。
3.3 增加实证研究
当前我国智能出版研究中,实证案例分析较少。从出版业内部看,不同出版环节,不同类型的出版社,皆有各自的特殊性。运营目标的不同,人工智能带来的实际帮助也有所区别。从出版业外部看,技术的进步对所有行业都是公平的。如果其他行业运用新技术冲击了出版业,出版学者就更需要回到行业本身的痛点上,以解决问题为导向讨论人工智能技术。除了与人工智能方面的专家合作以外,还可以综合运用多种研究方法对智能出版进行深入分析。例如,运用计量分析法或田野调查法可以获得大量一手数据,在此基础上采用比较分析法、归纳法,循证地讨论新技术对出版业的影响。总之,交叉使用不同学科的研究方法,不仅可以充分讨论人工智能与出版业之间的联系,而且可以加强理论观点的科学性。
实证研究的主要目的在于,通过“庖丁解牛”与历史对比,使学界与业界能充分理解人工智能技术浪潮可能带来的行业机遇,从而使未来的智能出版研究更有主动性。因此,在进行实证案例分析和比较研究时,应当着重关注如下三个方面。一是技术带来的实际影响,即出版实践中运用人工智能技术的深度和广度、实际效果、准确性、与需求的匹配性、劳动生产率的变化、人工辅助的程度等。二是产生影响所处的时空背景。不同国家的社会环境、同一国家不同出版社的不同所有制,不同出版社的运营目标等复杂约束条件,都有可能影响人工智能技术的应用效果。三是技术自身演进逻辑。一方面,因为不同领域人工智能技术的算法逻辑各不相同,需要审慎加以讨论;另一方面,有些技术的计算逻辑有非常宽广的延展性,有些则十分局限,缺少潜力。分析技术本身,有助于透过现象看本质,了解技术是否真正与实践需要相适应。
4 结语
在未来的智能出版研究中,依然需要以问题为导向,以实践需求为导向,在现有伦理和法规框架下,超越单一学科的桎梏,运用交叉学科的知识和多种研究方法,开展深入且科学的讨论。只有发现“真问题”,揭开技术的本质,智能出版研究才有可能在理论上取得实质性突破,并最终指导出版业在实践中合理运用人工智能技术。
参考文献
A framework for searching for general artificial intelligence
[J].
Parents’views of failure predict children’s fixed and growth intelligence Mind-Sets
[J].
Siri,Siri,in my hand:Who's the fairest in the land?On the interpretations,illustrations,and implications of artificial intelligence
[J].
Regulating artificial intelligence systems:Risk,challenges,competencies,and strategies
[J].
/
| 〈 |
|
〉 |
