核心阅读
计算机可以帮助学者在纷繁庞杂的信息中快速发现和定位议题,在宏观的学科脉络中把握关键问题;学者又可以发挥个人学养所长,深刻探究问题所在,解释背后的义理与规律
新兴数字技术正在加速数字中国的构建进程,以数字媒介和人工智能为基础的新兴文化形态和知识生产体系正日见雏形,数字人文正在积极引领文化时空的数字化转换,并展现出广阔的发展前景
数字人文是一种将计算机方法与技术融入人文研究,进而提出并回答人文问题的新范式。在传统人文研究中,研究过程多表现为一种书斋式的、针对典籍文献的细读和考据。随着计算机和电子文本的发展,研究者开始利用数据库查找资料,并借助地理信息系统、机器学习、信息可视化等多种计算分析工具,开展认知计算、文本挖掘、情感分析、图像识别、视觉分析、社会网络分析、数字记忆构建等研究。在此过程中,一些新型研究方法,如远读、文本计量、文化分析等陆续浮现,并在文学、史学、文化研究等领域得到创新性应用。
为人文研究提供显微镜和望远镜
数字人文为人文研究开启三种新维度,分别是快读、远读、共读。
快读,指的是借助计算机技术,大大加快阅读和利用文献资料的速度。随着图书文献的数字化转换,高校、科研院所、图书馆等机构建设了大量数字资源。如果用传统研究方式,以个人之力“穷尽”所有文献资源,根本不可能。如何从海量数字资源中发现并获取所需文献,完成研究任务,这就需要元数据、关联数据、知识图谱等数字技术支撑研究者实现“快读”的需求。比如《红楼梦》中姓名称谓有730多个,想要从70多万字的文本中找到这些人名,需要花费大量时间。清华大学统计学研究中心团队利用数据科学方法,在不到1分钟的时间内,得到按照词频排列的各类词,其中出现两次以上的人名抓取准确率达93%以上。这极大缩短了研究者的搜索查询时间,同时还减少了手工筛选过程中的失误。再比如中国历代人物传记资料库,共收录超过42万条人物传记资料,记录了各方面的详细数据,这些数据可以为各领域的人物关系和历史事件研究提供基础数据支撑,检索技术可以帮助研究者快速获取所需数据。
远读具有两重含义,第一重含义是指传统的细读方法导致大量文学作品从未被研究者阅读,如果要理解整个世界文学体系,就必须采取远读方法,聚焦“比文本小很多或大很多的单位:手法、主题、修辞或文类和体系”。在该理论影响下,研究者开始运用计算方法研究文学作品。也有学者将社会网络分析方法和信息可视化技术相结合,描绘小说的叙事结构、情节发展和人物关系。这些尝试都为文学文本提供了一种新的解读视角与研究路径,凸显了一种更为“宏大”的叙事逻辑。
远读的第二重含义是指时间跨度上较大或素材数量较多的研究,这在近年来数字文化遗产和数字博物馆建设中体现得较为充分。在我国,敦煌研究院和上海博物馆率先引入数字人文理念,并借助“数字敦煌”和“董其昌数字人文”书画专题展览,为文化遗产知识与数字资源的关联性可视化呈现提供了示范。以“数字敦煌”为例,敦煌研究院在已经完成的敦煌石窟数字化基础上进行敦煌知识图谱建设,借助更细粒度的敦煌壁画图像语义标注,可以实现图像片段的全球发布和链接,研究者和大众在看到特定主题图像的同时,也能看到全球其他博物馆中相同主题的图像片段。这为图像学、考古学以及文化研究学者提供了巨大的“阅读”便利,也为公众亲近人类丰富的历史文化遗产提供了更多可能。
共读则强调合作。尽管我们强调数字人文在人文研究方面的“快”与“远”,但并不意味着数字人文就以机器阅读代替了人工阅读。数字人文强调人与机器的合作,远读与细读的结合。计算机可以帮助学者在纷繁庞杂的信息中快速发现和定位议题,在宏观的学科脉络中把握关键问题;学者又可以发挥个人学养所长,深刻探究问题所在,解释背后的义理与规律。比如有研究者在对中国近代“美”的观念进行概念史研究时,借助大规模数据库的文本资料,以一亿两千万字的文本为研究范围,对中国近代“美”观念的发展轨迹进行远读式描绘,为传统细读研究提供了颇为有效的实证支撑。
除了人与机器的合作,共读还意味着将多种阅读模式结合,获得全新知识图景。其中值得关注的是电子文本与数字地图相结合形成的时空交互阅读框架。比如中南民族大学研究团队就“唐宋诗人行旅路线”建立“唐宋文学编年地图”,以地理信息系统为基础架构,在数字地图上呈现唐宋著名诗人词人的行旅踪迹,为读者理解唐宋诗词打开新视角。时空交互阅读框架不仅以时空架构直观展示时间、地点、人物、事件、作品间的网络关系,还为深入解读文本内涵提供可能。
此外,共读还强调众包协同。借助开放众包技术,上海图书馆开发“中国家谱知识服务平台”,允许用户上传和编辑自己家族的家谱。中华书局建立的古籍整理平台,也采取众包模式,组织高校学生、出版社编辑、图书馆馆员等社会力量进行底本校对,日均工作量达100万字,大大提升了古籍电子文本的审校速度。
引领文化时空数字化转换
进入新世纪以来,以大数据、人工智能等为代表的新兴数字技术正在加速数字中国的构建进程,以数字媒介和人工智能为基础的新兴文化形态和知识生产体系正日见雏形。作为新一代人文学者认知世界和传播文化的路径,数字人文正在积极引领文化时空的数字化转换,并展现出广阔的发展前景。
数字人文可成为推动人文学术创新的重要力量。与自然科学和社会科学相比,人文学者对数字技术的采纳相对滞后,甚至有一定误解。比如有人认为,“将文学当作数据会失去文学本身丰富的意蕴”,这种观点是对数据功能与意义的误读。事实上,凡是计算机可以处理的电子文本都可称为数据。随着数字社会的发展,文本的主体形态早已转换成计算思维下的数据,文学对“人本”和“文本”意义的追求并不会因其形态而改变,所以说文学与数据的关系是“道”与“器”的统一,而非对立。在利用新技术解决传统人文问题的同时,数字人文也应更加关注新兴人文议题,比如新闻推荐算法和人工智能模型的伦理约束等。数字人文在强调知识生产、表现、教学、传播数字化转型的同时,应更加积极对接开放科学行动框架,支持科研领域的开放获取、开放数据、开放创新,并在学术活动中推动协同、众包、互联、交互、跨学科、跨国界、跨专业合作等学术理念的普及与范式创新。
数字人文可为优秀传统文化传承发挥积极作用。目前,数字人文正在引领文化生产体系的数字转向,已经成为一个语言学、文学、史学、哲学、艺术学等传统人文学科与图书情报学、计算机科学、人工智能等信息科学共同关注的新兴跨学科领域。数字人文不仅推动了大学与其传统科研学科体系加速适应社会的数字化转型,还在公共文化机构中推动了人文知识向更大范围的公众开放,使得普通人能够更加便捷有效地学习传承中华优秀传统文化。敦煌研究院、上海图书馆、中华书局等单位推出的一系列数字人文项目和成果,在推动优秀传统文化传承和传播方面具有很强的示范意义。
数字人文应致力促进科技与人文的互动与融合。过去几年里,人工智能不仅是科技界热点,同时也是人文研究及艺术界热点。对人文学者来说,人工智能不仅是一种工具技术,也是一种人类文明活动的参与主体,由此带来的文本生产问题、情感经验问题以及审美问题等都是难以回避的新兴人文学术课题。对于人工智能专家来说,人文思考和伦理关怀也是研究过程必须引入的维度。在此背景下,数字人文研究应以更加积极的姿态为科技与人文、机器与文艺互动融合提供试验场和方向标,面向未来打开文化新视野。