网易首页 > 网易号 > 正文 申请入驻

科幻作家刘洋:文学计算研究不仅是可行的,而且是必要的

0
分享至


文学计算( Literary Computing ),即通过计量的方式进行文学作品的挖掘、分析、比较和批评,是当前方兴未艾的数字人文潮流的一个重要组成部分,但其传统和源流又远远早于数字人文这一概念所通常涵盖的时间范围。在 19 世纪末,欧洲和美国的一些科学家就已经尝试通过量化的方式,对文学作品进行分析,这可以看作是最早期的文学计算研究。显然,这一领域属于典型的跨学科研究,对文本的数字化和特定要素的读取涉及信息科学,对数据的计算涉及统计学,对数据中隐藏模式和结构的提取涉及物理学,对作品中角色或创作者的性格、精神的量化分析涉及心理学,对文本中地理分布和变迁路径的提取和可视化呈现涉及地理学,等等。

跨学科研究固然是令人兴奋的,因为它打破学科的边界,通过新的视角和范式来处理既有的问题,往往能带来新的洞见,但也带来了新的困惑、怀疑和批评。特别是那些尝试在人文学科与自然学科之间架设有效联系和方法论桥梁的努力,尤其容易遭受各方的质疑。正如查尔斯 · 珀西 · 斯诺( Charles Percy Snow )在《两种文化与科学革命》的演讲中提到的那样,科学与人文之间 “ 存在互不理解的鸿沟 ” ( Snow , [1959]1990 )。作为一名科学家与作家,斯诺常常白天和科学家同事们一起工作,晚上则又和文学家朋友们聚在一起,因此他深刻地体会到在当时的社会环境中,文学家和科学家之间的互不理解甚至是厌恶、敌意。我非常理解斯诺的这种感受,因为我本身是做物理研究出身的,在我学术生涯的初期,我主要从事凝聚态物理学研究。与此同时,在读研究生的时候,我就开始创作科幻小说,并一直持续至今。也正因为我对科幻小说的喜爱,后来,我从理学院转到人文学院,开始接触到更多人文学者和文学理论。我发现,斯诺所说的鸿沟,在今天并没有弥合,因为两类学者的基本学术素养、关心的问题和研究的范式都截然不同。但与斯诺所说不同的是,今天的两类学者之间似乎并没有太多敌意了,因为随着人文学科在话语权利结构中的整体收缩,两者 连产生 敌意的基础都已经失去了。

事实上,在文学与自然科学的交融进程中,我们可以大致区分出两种学科跨越的方向,每一种都引起了众多争议一种是将自然科学的概念引入文学理论中,但抛弃了其数学上的复杂结构,而是仅将其作为一种类比物,以帮助阐明某种特定的理念、结构和关系。例如,当丹尼尔 · 奥尔布赖特( Daniel Albright )使用 “ 波浪美学 ” ( Wave-Aesthetics )分析叶芝的诗歌时,他只是借用量子力学中微粒和波之间的模糊关系,阐释某些诗歌文本所具有的特征,比如内部边界的丧失、主客体与主体间界限的丧失等。他并不是说,诗歌的内部结构与 波具有 数学上的同构性,因此,自然也不能将涉及波的一系列数学公式套用到诗歌结构分析之中。显然,这类学科跨越的方式通常由人文学者发起。在后现代文化理论中,我们还可以找到很多这样的例子,比如让 - 弗朗索瓦 · 利奥塔( Jean-Francois Lyotard )对不确定性原理的借用、 让 · 鲍德里亚( Jean Baudrillard )对熵的借用、雅克 · 拉康( Jacques Lacan )对拓扑学概念的借用,等等。这种做法在自然科学界引起了一些不满,比如物理学教授艾伦 · 索卡尔( Alan Sokal )及其合著者在一本书中就批评道: “ 自然科学并非仅是可供人文科学随时取用的隐喻库。 ” (莫兰, 2023 : 176 )

另一种跨越方式则是由自然科学家主动发起。他们将原本属于自然科学的研究范式引入文学研究领域,发展出实证的、量化的文学研究。这个过程中有时候也会借用一些科学概念,比如信息熵、温度等,但这类借用并不只是将概念作为某种隐喻,而是伴随着其数学结构的引入。比如,对文学文本的信息熵的计算,使用的正是克劳德 · 艾尔伍德 · 香农( Claude Elwood Shannon )给出的公式,而当我们讨论文本的温度时,其背后的机制也正是热力学中的麦克斯韦 - 玻尔兹曼分布。在 20 世纪后半叶,随着计算机的出现和自然语言处理算法的发展,对文本的读取、数值统计和数学建模变得更为方便,这类量化研究就逐渐变得流行起来。本书所涉及的内容大部分即是这一类的研究。为了与文学史考证等实证 型研究 相区别,我们统一将其称为文学计算。

对文学计算的批评主要来自人文学界,他们的意见大致可以分为三类:其一,文学文本来自具有主观性的人类,其中并不具有如物理学那样的客观规律;其二,量化研究只是复现了一些我们早已经知晓的结论,并没有提出和解决有意义的文学问题;其三,大部分文学计算研究只是基于词频的模式分析,其数据不足以支撑它所声称的结论,或者说,文学文本和文学概念在计算过程中被简单化了。

对于第一类批评,已经有大量的研究结果可以作为反驳的案例。 从齐普夫 定律( Zipf ’ s Law )到最近基于情感计算的文本叙事模式划分,大量的研究都显示,在看似随机和主观的文本中,的确存在着某些客观的规律。这一点很好理解,因为作家的写作过程并非完全自由,他会受到诸多客观条件的限制:正确的语法、叙事的惯例、词汇的有限性,等等。它们就像一个封闭的箱子一样,将大量的随机运动的分子约束在一起,虽然每个分子的运动轨迹是很难预测的,但作为一个整体,这个体系却呈现出很多可以量化的特征,比如压强、温度、平均自由程、动能分布函数等。

第二类和第三类批评事实上指出了当前文学计算研究应该努力的方向。也就是说,多做探索性而非验证性的工作,而且尽量超出词频、 句长等 简单指标,对高层次文学概念进行更精细的数学建模,以处理真正的文学问题。当然,要进行探索性的工作,通常就需要处理新的概念和新的问题,自然也就需要进行复杂特征量的建构。所以,从某种程度上来讲,这两个问题是一体的。

《文学计算导论》

刘 洋 著

北京: 科学出版社, 2025. 12

ISBN978-7-03-083198-9

必须承认,在高层次文学概念和计量的特征量之间建立稳定而有效的连接并不容易,但也绝不是不可能完成的任务。例如,在本书 (《文学计算导论》,刘洋著. 北京: 科学出版社, 2025. 12) 的第四章,我提出了一种对叙事节奏进行量化表征的方法。在文学计算领域,叙事研究一直相对匮乏。因为叙事研究中的要素难以量化,带有强烈的主观性,所以比其他文本特征更难处理。例如,研究文体风格、人物关系网络、情感分析等可以分别通过词频统计、对话关系、情感词典等手段实现量化,但叙事风格、手法、场景等要素的界定方式则极为模糊。在传统的叙事学研究中,通常需要根据叙事场景的切换,将文本划分为不同的叙事单元,这种工作通常只有具备较高文学素养的专业人员才能完成,因为叙事场景之间或许并不存在天然的分割线,要让计算机准确分辨是十分困难的。但是,基于叙述的两种形式 — 展示 和 告知 — 来体现 出叙事节奏的特征,可以绕开场景划分的 障碍。具体来说,我设计了一种算法,可以将这两种叙述形式进行自动识别,从而得到了一条叙述形式的时间序列。基于这个时间序列,通过傅里叶变换等数学手段,就可以从中提取出与叙事节奏相对应的特征量。

比起自然科学领域的概念,比如温度、动量等,文学概念的量化不仅更难以处理,而且这些可计量的特征量与传统的文学概念在匹配时往往具有与自然科学概念不同的三种特性。其一,非精确性,也就是说两者并不是精确契合的。比如我之前提到的对叙事节奏进行量化的特征量,其本质上来源于从叙述形式时序数据中提取出的频谱峰。虽然其与叙事节奏具有较强的关联,但这毕竟只是一个间接的匹配方案。此外,实际的频谱图通常是一个连续谱,其中的峰值可能并不显著,呈现出一个平台状结构,这也会影响到对峰值数据的提取。所以,从概念到数据,这中间其实经过了多次近似过程。其二,非唯一性,也就是说用于表征某个文学概念的特征量并非只有一种形式。比如对于 “ 词汇丰富度 ” 这个概念,用以表征它的特征量就有数十种之多,从最简单的型 — 例比 ( Type Token Ratio , TTR ), 到特征 量 K ( Characteristic K ),乃至文本的信息熵,等等。其三,非普适性,也就是说这些特征量并不是在任何情况下都适用的。比如我们刚才提到的特征量 K 和信息熵,在表征词汇丰富度时,它们都具有一个难以克服的缺陷,即对雷同文本的不敏感。如果我们将同一段文字重复一遍合并成新的文本,那么根据两者的计算公式,其计算结果和单一文本是完全相同的,而这显然是不合理的。这意味着,对于具有较多雷同片段的文本来说,用特征量 K 和信息熵 来作 为词汇丰富度的指标是不合适的。

在人工智能算法迅速发展的今天,我们越来越强烈地感到,文学计算研究不仅是可行的,而且是必要的。这种必要性至少体现在两个方面。其一,传统的文学细读方法无法处理当前迅速涌现的巨量文学文本。除了由传统出版社出版的纸质书籍,还有数量远超前者的网络文学作品 —— 其每部作品的文本长度也几乎比前者大一个数量级。其二,人工智能文本生成正在逐渐进入人们的生活,其在大部分制式文章的写作上都取得了较好的效果,但在文学创作领域仍然很不成熟。从已有的一些基于大语言模型的小说写作实验来看,其主要缺陷可以归纳为一点,就是缺少 “ 文学性 ” 。比如,它的叙事节奏很不稳定,在很多不重要的细节上花费大量笔墨,而在关键情节上却一笔带过;它的比喻和描写都极为平庸,没有新奇性和创造性;它的人物缺少鲜明的个性和深刻的行为动机;故事情节的套路化痕迹极为明显;等等。克服上述这些缺陷的方法,就是加入一个文学插件,或者定制专业的文学创作大模型。想要向计算机系统传达何谓 “ 文学性 ” ,自然需要采用计算机的语言 —— 也就是数字化的、量化的表述,这正是文学计算研究所要做的。当我们能用量化的方式对比喻、隐喻、风格化的描写、叙事节奏等文学概念进行表征以后,它们就可以作为一些重要的控制指标参与到文本生成算法之中,帮助其增强生成内容的文学性。

然而,即使在当前这个普遍数字化的时代,进行文学计算研究的困难仍然是巨大的。除了来自领域本身的巨大挑战,教育体系、学科壁垒等社会层面的客观障碍也不容忽视。如何在学生培养和制度管理上克服这些障碍,是当前发展文学计算这类跨学科领域所必须思考的问题。

事实上,打破专业和学科的界限,不仅是文学计算的需要,也是当今众多跨学科研究和前沿领域发展的需要。希望本书可以在跨学科研究的方法和路径上为各领域的研究者提供一些有益的参考。

本文为《文学计算导论》(刘洋著. 北京: 科学出版社, 2025. 12)一书“绪论”,标题为编者所加。

ISBN978-7-03-083198-9

责任编辑:王 丹 张翠霞

《文学计算导论》是一部深入探讨文学作品量化分析方法的专著。它系统介绍了文学计算这一领域,从 19 世纪的手工文本统计分析到数字时代利用计算机技术的系统研究方法,不仅回顾了历史渊源,还探讨了如何通过数学模型、特征量建构、数字细读等方法解析文学作品,以揭示其内在的隐藏结构和普遍规律。全书覆盖了作者归属与风格分析、人物关系网络、计量叙事研究、文学文本的情感计算、文本分形结构分析及最新的人工智能技术在文学研究中的应用等多个方面,全面展示了文学计算这一前沿的跨学科领域的发展现状和未来潜力。

本书适合数字人文、文学、语言学、自然语言处理、复杂系统等领域的研究者以及对文学计算感兴趣的研究生和本科生阅读。

(本文编辑:刘四旦)

专业品质 学术价值

原创好读 科学品位

一起阅读科学

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国突然在南海动手,羚羊礁传来大动作

中国突然在南海动手,羚羊礁传来大动作

回京历史梦
2026-01-20 18:39:09
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
香港最乖富二代邓兆尊,27年不动本金,利息滚到17亿,太清醒

香港最乖富二代邓兆尊,27年不动本金,利息滚到17亿,太清醒

牛牛叨史
2026-01-18 22:43:20
女明星的“妈妈臀”上热搜,网友吵翻了!医生:适度的小肚腩和臀部脂肪是健康的

女明星的“妈妈臀”上热搜,网友吵翻了!医生:适度的小肚腩和臀部脂肪是健康的

极目新闻
2026-01-21 15:48:28
10国签字,加入特朗普版联合国,特意给中俄留的位置,现在还空着

10国签字,加入特朗普版联合国,特意给中俄留的位置,现在还空着

古史青云啊
2026-01-21 22:07:24
王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

百态人间
2026-01-16 16:02:25
央5直播U23亚洲杯决赛,拜合拉木脑子好用,王钰栋踢日本能否进球

央5直播U23亚洲杯决赛,拜合拉木脑子好用,王钰栋踢日本能否进球

体育大学僧
2026-01-21 10:40:27
目睹80岁父亲临终的经历后,我才明白:有些病不治才是最大的孝顺

目睹80岁父亲临终的经历后,我才明白:有些病不治才是最大的孝顺

小马达情感故事
2025-12-14 18:55:03
贝森特放狠话:无惧美债遭抛售,“丹麦本身都无足轻重”

贝森特放狠话:无惧美债遭抛售,“丹麦本身都无足轻重”

财联社
2026-01-21 18:10:41
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
同事拿28万奖金我一分没有,我没闹关机睡觉,第二天公司却炸了锅

同事拿28万奖金我一分没有,我没闹关机睡觉,第二天公司却炸了锅

温情邮局
2026-01-17 13:40:05
释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

以茶带书
2026-01-15 13:07:47
吊带:一种悬浮的平衡

吊带:一种悬浮的平衡

疾跑的小蜗牛
2026-01-21 21:58:35
倒闭!常州知名大饭店全面停业!

倒闭!常州知名大饭店全面停业!

常州大喇叭
2026-01-21 17:14:30
摩尔线程发布上市后首份业绩预告

摩尔线程发布上市后首份业绩预告

21世纪经济报道
2026-01-21 21:40:44
真没想到!日本球迷傻眼:决赛对手是中国男足,这以前谁敢信?

真没想到!日本球迷傻眼:决赛对手是中国男足,这以前谁敢信?

国足风云
2026-01-22 07:46:52
最后48小时,无一国领导人确定出席,普京都不给特朗普留薄面

最后48小时,无一国领导人确定出席,普京都不给特朗普留薄面

阿天爱旅行
2026-01-22 10:58:04
U23国足主帅安东尼奥:改变了战术,控制了比赛

U23国足主帅安东尼奥:改变了战术,控制了比赛

环球网资讯
2026-01-21 08:53:50
农业农村部:第二轮土地承包到期后再延长30年试点扩大到7个整省

农业农村部:第二轮土地承包到期后再延长30年试点扩大到7个整省

财联社
2026-01-22 10:12:06
马斯克希望7月前让SpaceX上市

马斯克希望7月前让SpaceX上市

界面新闻
2026-01-22 09:42:11
2026-01-22 12:12:49
科学出版社 incentive-icons
科学出版社
科学出版社官方号
5933文章数 27923关注度
往期回顾 全部

艺术要闻

一场雪,飘进了唐诗

头条要闻

牛弹琴:特朗普大闹达沃斯 将欧洲同行骂了个狗血喷头

头条要闻

牛弹琴:特朗普大闹达沃斯 将欧洲同行骂了个狗血喷头

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

科技要闻

日系彩电时代“彻底落幕”

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

游戏
时尚
房产
亲子
军事航空

预购《马拉松》自动下载《命运2》 官方回应:是bug

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

亲子要闻

我没挨收拾给他气够呛

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版