网易首页 > 网易号 > 正文 申请入驻

IN用丨龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译

0
分享至

以下文章来源于HyperAI超神经 ,作者神经小兮

内容提要:来自最强科研寺庙龙泉寺的贤超法师,近年来一直在研究人工智能与文献古籍的融合,目前,他已带领的《大藏经》团队实现 AI 自动标点、文白翻译、古籍文字识别等技术实践。

关键词:NLP,LSTM,自动标点

坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。

凭借当年学诚法师的一句「佛教是古老的,但佛教徒是现代的」,推动了龙泉寺里的高僧们搞科研、写代码,将佛学与新技术结合,将项目大众化、国际化。成果不断,屡上热搜,被外界持续关注。

近期龙泉寺的贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理和校勘的技术实践。

佛系 AI 的诞生:让佛经更易读

贤超法师原是北京大学物理学院凝聚态物理硕士,2007 年他从北大毕业,2008 年在龙泉寺皈依,此后一直致力于龙泉大藏经的编修与佛学义理研究。

2016 年,AlphaGo 在战胜李世石的历史性事件,引起了贤超法师对 AI 的关注。从那时候起,他便开始尝试将 AI 和自己正在研究的 OCR 技术以及自动标点相结合。

贤超法师在 Techo Park 开发者大会上介绍其研究成果

佛原生 AI 解决古籍经文痛点

龙泉寺在整理和校勘的《大藏经》为佛教经典的总集,也称为一切经。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行了翻译、增补、修订。

流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。

《乾隆版大藏经》的修订参与官员、学者、高僧等 60 余人,刻字、刷印和装帧等工匠 860 余人,历时六年完成(图为《乾隆版大藏经》雕版)

2012 年,龙泉寺就着手整理《大藏经》,计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。

三年后,龙泉寺整理出版了《南山八大部》;再次年,龙泉寺的藏经办公室成立,旨在探索利用人工智能技术,研发出基于深度学习的单字识别引擎;

2017年,龙泉寺成立人工智能与信息技术中心,研发出能识别各种不同大藏经版本的整列识别引擎,并成功的将《六十华严》的大藏经版本进行电子化。

贤超法师目前担任藏经办公室主任,负责《大藏经》的整理工作。

自动标点:OCR +深度学习

为了降低人们阅读古文典籍的门槛,提高学者的工作效率,在近年来贤超法师团队,运用了包括深度学习、OCR 在内的技术改变传统《大藏经》的解读方式,目前已经取得了颇为惊艳的效果。

现代汉语中,句号、引号、书名号等常用标点近十种,古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读

贤超法师介绍道,所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术,这主要是为了方便现代读者阅读。

此前,已有人工智能为古文加标点的相关研究,不过贤超法师表示,之前基本只是为古文加句号,他认为这个做法「比较保守,比较学术性」。

而他的团队将深度学习运用到了自动标点上,可以以更高的准确性,给古文添加句号、逗号、问号、感叹号、冒号、分号和顿号其中标点符号。经过验证,他们所研发的 Transformer 标注结果,和人类的标注结果「几乎已经无法区分」。

RNN+LSTM+ResNet 效果全面提升

自动标点,在 NLP 领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经网络(RNN)。

为了增强 RNN 的性能,在此基础上又发展出来了双向 RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。之后,贤超法师团队又将 LSTM 方法引入。

但是此前基于这些技术所实现的自动标点,效果仍不是很令人满意。贤超法师团队之所以达到出乎意料的效果,是因为他们在此前的基础上,引入了 ResNet 残差网络(Residual network)。

团队 2019 年发表论文《大藏经的汇编:当 AI 遇见佛教》,介绍了其自动标点技术

贤超法师解释道,以往的神经网络最多就是十几层、二十多层的结构,如果层数再多,训练结果就不太容易收敛了。而残差网络动辄几百层,甚至上千层。更深的网络有助于捕捉到更深层的语义信息,这是其大获成功的关键。

团队也曾尝试使用卷积神经网络(CNN),最终效果是,残差网络比卷积神经网络的标点准确率平均高出 20-30% 左右。

AI 自动标点工具效率如何呢?贤超法师用一天时间完成了 2 万字左右规模的古文标点,按照古标点每千字 15 元的一般稿酬水平,相当于一天创造了 300 元的经济价值。即使自动标点的准确率只按照 60% 来算,其每天也创造了 180 元的价值。

团队对该自动标点工具也在不断升级目前最新一代的准确率达到 93.3%

目前,由于贤超法师团队的训练数据多取自佛经,因此其自动标点更适合标点佛教典籍。不过,他表示,未来该技术也将应用在,经史子集等更多领域的古文献整理工作之中,从而让学者们摆脱机械、重复性的劳动。

今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。

贤超法师团队在 18 年就开源了这一自动标点的在线服务,访问古籍·酷http://gj.cool)可以试用,还可以申请免费调用 API。

识别、翻译:AI 成为佛经汉化百宝箱

除了自动标点,贤超法师还将 AI 应用古籍研究的多个方面。

文白对句:对齐 & 翻译

文白对句,也就是古文到现代文的对齐和翻译。为了实现 AI 文白对句,贤超法师首先构建了一个文白对齐的语料库,然后设计了一个对齐算法,取得了很好的效果。根据相似度和差异度这两个独立指标,可以非常容易地定位出对齐错误的句子。

将《大藏经》翻译并单句分离开对齐有助于人工后期检索与校对

由于《大藏经》专业名词众多,且历代翻译著作语料繁杂,因此并非古文相关专业就能搞定。《大藏经》的总字数以亿计,如果仅依靠有限的几位专家,工作量将十分巨大,所以,AI 的介入,为专家们分担了不少工作量。

基于深度学习的 OCR,识别古籍文字

目前市面上的 OCR 软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。

贤超法师及其合作团队,基于 CNN+LSTM+CTC 框架,开发了新的 OCR 引擎。然后基于《大藏经(高丽版)》的七万多张整图,168 万条文本行图像的数据集进行训练。

基于弱监督学习的精确文字分割

最终,其开发的 OCR 方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。

OCR 软件识别古文将其数字化

贤超法师还在其公众号「贤超小和尚」(微信号:xianchaofashi)中,分享了更多项目实践和学佛感悟,感兴趣的朋友可以关注。

科技与佛法:以悲悯为内核的不同外化

佛法与科技,距离并不遥远。

我们也曾在《本世纪,佛祖派机器人来弘扬佛法》一文中,对佛教与科技融合的趋势做出过报道,近年来涌现的贤二机器人、机器观音、智能佛珠等等,早已讲科技深刻和谐地融入进佛法。

科技与佛学的融合中佳作频出,吸引关注

龙泉寺的另一位知名高僧、IT 禅修营的创办者贤信法师,在一次访谈里被提问佛法和科技的关系。

他回答:「科技,是追求物质世界的真。佛法,是内心世界的真。很多在科学上做出探索、在技术上做出探索的人,最开始是抱着想为人类做贡献的心,跟佛教提出最慈悲的追求也是相共的,这就是科技与佛法的共同点。」

参考资料:

贤超小和尚公众号:《人工智能与中华文明的碰撞交融》

2050 云栖大会:《贤度法师——龙泉寺的科技实践》

龙泉寺自动标点工具:http://gj.cool/gjcool/index

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
工龄33年7个月,个人账户储存额551080.04元,江苏职工退休了,养老金有多少?开心坏了

工龄33年7个月,个人账户储存额551080.04元,江苏职工退休了,养老金有多少?开心坏了

养老规划罗姐说
2025-09-14 19:59:30
魔术师:乔丹推出AJ时我就知道自己搞砸了 不懂理财的我犯了大错

魔术师:乔丹推出AJ时我就知道自己搞砸了 不懂理财的我犯了大错

直播吧
2025-09-15 14:15:06
有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

会计人
2025-09-13 23:50:39
被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

书雁飞史oh
2025-09-12 16:09:35
爆笑经典搞笑冷笑话,我的笔不知道怎么了,女同学只要一穿短裙它就不停的掉到地上!

爆笑经典搞笑冷笑话,我的笔不知道怎么了,女同学只要一穿短裙它就不停的掉到地上!

天天明星
2025-09-14 12:15:52
梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

清风拂心
2025-09-14 13:15:08
8月中国对美出口骤降33.1%,背后的真正考验

8月中国对美出口骤降33.1%,背后的真正考验

黑噪音
2025-09-14 22:17:35
3克就致死?2010年,浙江男子为母亲治病试吃1克,嘴烂了

3克就致死?2010年,浙江男子为母亲治病试吃1克,嘴烂了

万象硬核本尊
2025-09-12 19:43:18
张琳芃武磊更衣室激励队友:每个人都要拼,冠军不能光靠嘴说

张琳芃武磊更衣室激励队友:每个人都要拼,冠军不能光靠嘴说

雷速体育
2025-09-15 12:53:16
河南一邪教头目自封“玉皇大帝”:奸淫妇女10人,敛财超500万元

河南一邪教头目自封“玉皇大帝”:奸淫妇女10人,敛财超500万元

界面新闻
2025-09-15 08:37:27
百余名货车司机利用磅差倒卖货物,是“外快”还是犯罪?

百余名货车司机利用磅差倒卖货物,是“外快”还是犯罪?

重案组37号
2025-09-15 09:11:49
天道:人际关系不取决于你们多好,而取决于强弱最关键你手上筹码

天道:人际关系不取决于你们多好,而取决于强弱最关键你手上筹码

剧观花开
2025-09-14 15:05:56
十亿换一命?47岁蔡磊现状曝光,面色红润精神佳,6岁儿子牺牲大

十亿换一命?47岁蔡磊现状曝光,面色红润精神佳,6岁儿子牺牲大

以茶带书
2025-09-11 11:45:09
倒计时10天!国乒15人出战WTT中国大满贯,赛事总奖金1460万

倒计时10天!国乒15人出战WTT中国大满贯,赛事总奖金1460万

乒谈
2025-09-15 06:10:15
继父卖房供我读完博士后消失,十年后我在集团年会上看到他愣住了

继父卖房供我读完博士后消失,十年后我在集团年会上看到他愣住了

新时代的两性情感
2025-09-15 08:47:03
人民日报犀利点评胖东来聘用释犯,直指核心,东来身份发生转变

人民日报犀利点评胖东来聘用释犯,直指核心,东来身份发生转变

鹿鹿156
2025-09-15 11:07:26
乌克兰找到了俄罗斯的罩门?“袭油攻势”达到历史高峰,危机浮现

乌克兰找到了俄罗斯的罩门?“袭油攻势”达到历史高峰,危机浮现

有凤Talk
2025-09-13 11:14:31
西贝门店回应使用转基因大豆油,伊斯兰教的消费者要注意了

西贝门店回应使用转基因大豆油,伊斯兰教的消费者要注意了

映射生活的身影
2025-09-14 15:22:35
借你丈夫用用!山西女子向闺蜜借丈夫一用,并承诺会给10万感谢费

借你丈夫用用!山西女子向闺蜜借丈夫一用,并承诺会给10万感谢费

百态人间
2025-09-13 16:15:30
上海天气突变!暴雨范围扩大,这些地区将现强降水!冷空气已发货,这一天最高温跌破“3字头”

上海天气突变!暴雨范围扩大,这些地区将现强降水!冷空气已发货,这一天最高温跌破“3字头”

鲁中晨报
2025-09-15 15:19:39
2025-09-15 17:07:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3600文章数 1486关注度
往期回顾 全部

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

头条要闻

数百名韩国工人在美被捕 韩国工会要求特朗普就此道歉

头条要闻

数百名韩国工人在美被捕 韩国工会要求特朗普就此道歉

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

知名男演员官宣三胎

财经要闻

西贝发布致歉信:10月1日前完成整改

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

汽车要闻

空间、科技、驾控全在线 Q5L现款优惠不容错过

态度原创

时尚
艺术
数码
本地
游戏

别再买“网红同款”了,显胖又低级!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

A19 Pro与A19规格对比 缓存、GPU、内存频率、带宽等均有大差异

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

《空洞骑士》已故粉丝在《丝之歌》里化为永恒

无障碍浏览 进入关怀版