网易首页 > 网易号 > 正文 申请入驻

3000多年前的甲骨文,AI能读懂它吗?厦大团队尝试破译古老文字

0
分享至

喂养AI

利用破译出的1000多个甲骨文,人工拆解为IDS(表达结构的部首偏旁序列),同时找出与现代文字IDS的对应关系。

训练AI

设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS解码和甲骨文现代字对译关系等,以有效训练多模态大模型。

运用AI

未来设想是上传甲骨文图像,让AI告诉你这个图像可能对应的现代汉字候选,以及每个候选字的概率。

破解一字奖十万元,甲骨文还是难以破解。那么,可不可以有一个系统,上传甲骨文图像,系统告诉你这可能是什么字?厦门大学信息学院自然语言处理实验室史晓东教授团队就正在做这件事——尝试用AI(人工智能)破译甲骨文。

近日,史晓东团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”,入选“探元计划2024”“创新探索型项目”TOP10榜单。

“探元计划2024”由国家文物局科技教育司指导,中国文物信息咨询中心(国家文物局数据中心)、腾讯SSV数字文化实验室、腾讯研究院、社会价值投资联盟(深圳)与中国文物报、紫荆杂志社联合发起。

甲骨文破译,为何那么难?

“一字十万”的甲骨文

 出土16万片,包含单字四五千个,考释出的不到三分之一。

甲骨文,主要流行于商周时期,距今3000多年,又称“契文”“甲骨卜辞”“殷墟文字”或“龟甲兽骨文字”,是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉。

不过,在西方屡破“死文字”之时,不是“死文字”的中国甲骨文破译却举步维艰。百年殷墟考古中,一共出土16万片甲骨文,其中包含的单字大约有四五千个,但无数顶尖语言学家的百年探索,考释出、得到公认的约1160个,占比不到三分之一。

2016年,为了吸引更多的天才破解甲骨文,中国文字博物馆发布了一则“甲骨文释读优秀成果奖励计划”公告:破译出一个未解甲骨文字,奖励10万元人民币。但迄今为止,只有复旦大学蒋玉斌教授破解了一个“屯”字,拿到了3亿元奖金池里的10万元。

“一字多义”的甲骨文

不仅与现代字的字形存在一对多的关系,一个字也往往承担多种意思。

史晓东说,尽管甲骨文的字形和现代汉字之间有传承关系,但是字形和语义的对应并不简单,譬如“万”字的甲骨文本意为蝎子,它的写法呈蝎子形,上部是两个“钳子”,中间是蝎子的身子,下部是蝎尾,后引申为极多、极甚的意思,与繁体的“萬”还能看出字形的相似性,但与经过简化的“万”就相差甚大。

其次,很多甲骨文的字形与现代字的字形都存在一对多的关系,例如,甲骨文中的“手”,可对应现代汉字中的“手”“爫”“又”“右”“寸”等等,增加了破解甲骨文的难度。

此外,甲骨文中也普遍存在一字多义的现象,这使得解读变得更为棘手——在文字数量有限的情况下,一个字往往要承担多种意思,而甲骨文有的字出现数量很少,这些都使得猜测其精确意义并不简单。

古文字+AI,为何值得期待?

一本异体字字典

 研究者用几个月时间写软件,AI用半天时间就将字典编写完成。

甲骨文的破译之路充满了曲折与挑战,各种难题交织在一起,让研究者们屡屡碰壁。因此,当研究人工智能的史晓东团队尝试破译甲骨文的消息传出后,很多人很吃惊。

事实上,史晓东团队已经在古籍和人工智能跨领域方面探索多年。大约十年前,史晓东承接国家语委的一个繁体字和简体字相互转换的项目,这也把他引入古文字的领域。

因为研究繁体字和简体字转换,史晓东收集了很多古文字资料,之后,他采用大规模古籍语料+人工智能办法,编写了一本异体字字典,收字接近9万字,应该是目前大陆最详尽的异体字字典。

在此之前,台湾也有一本异体字字典,100多位语言学家花费十几年编写,字数约10万个。

史晓东说,人工智能用了半天时间就编写完成这本异体字字典,当然,在这之前,他花费了几个月时间写软件。他说,AI要做的事是,从数据中抽取所有信息,以AI算法自动进行异体字识别。

比如,字典中列举了“丘”的几种异体字写法,有的已经消失,人们都没有见过,如何确定这个字就是“丘”?史晓东说,那是AI通过古籍文献找到相关信息,从上下文判断,它就是“丘壑”的“丘”。

一个甲骨文数据库

他们研制出了甲骨文手写输入法,积累了大规模的甲骨文相关语料。

从繁简转换和异体字字典,人工智能专家史晓东一头扎进了古文字+人工智能的跨界研究。七年前,他带领的团队开始涉足甲骨文考释。不到一年,他们就研制出了甲骨文手写输入法。

与此同时,史晓东团队在研究中积累了大规模的甲骨文相关语料,即有关甲骨文的数据库。

过去史晓东采用的是专用模型,他认为,随着多模态大模型的出现,后者有更强的语义理解和表达能力,或许甲骨文破译将迎来一个春天。

史晓东说,了解一个汉字,要从“形、音、义、用”四个维度进行,如果一个甲骨文的形、音、义、用全都清楚了,和其他古文字之间的演变脉络也弄明白了,并且在该文字的各种上下文中都可解释得通,就可以说它已被完全考释出来了,但这需要数据的支持。

一个“喂养”计划

尽可能收集更多相关的图像数据和文本数据,“喂”给人工智能大模型,让其找出破译甲骨文的规律。

史晓东说,AI要做的工作,就是在已搜罗尽可能多的数据的基础上,计算文字之间的各种概率关系,为文字学专家考释创造条件。

据厦大官方介绍,史晓东团队将设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码和甲骨文现代字对译关系等,以有效训练多模态大模型。利用其强大的跨模态理解能力,辅助甲骨文考释。

与此同时,在大模型提供的语义嵌入基础上,史晓东团队还将设计融合形、音、义、用多元信息的端到端甲骨文综合考释模型,综合利用字形结构、语义关联、同音通假和用法聚类分析,开发一种更加轻量的考释系统,以适应资源有限的实际考释场景。

史晓东进一步解释说,现在团队已经做的一个工作是利用破译出的1000多个甲骨文,人工将甲骨文拆解为IDS,同时找出与现代文字IDS的对应关系,将这些数据“喂”给AI,因为AI要学习。

用大白话说,团队尽可能收集更多相关的图像数据和文本数据,“喂”给人工智能大模型,让其找出破译甲骨文的规律。

史晓东说,未来设想是上传甲骨文图像,AI告诉你这个甲骨文可能对应的现代汉字候选,以及每个候选字的概率。

这需要多长时间?史晓东没有给出明确答案,他说,目前已构建了相关数据集,但是多模态大模型尚未开始训练,正处于准备过程中。

他说,甲骨文破译是一项非常困难的任务,不可能一蹴而就,但是,AI的发展的确带来了新的可能,一定能助力这项具有重大意义的研究。

(厦门日报记者 佘峥 通讯员 戴佩琪)

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
取消年检呼声终于被听见!交通部新规落地,车主:早该这么改了

取消年检呼声终于被听见!交通部新规落地,车主:早该这么改了

复转这些年
2026-04-09 11:29:42
特朗普准备打“世界大战”?

特朗普准备打“世界大战”?

合赞历史
2026-04-09 13:23:40
近70亿市值的浙江“小巨人”,在青岛建厂

近70亿市值的浙江“小巨人”,在青岛建厂

凤凰网青岛
2026-04-09 11:12:01
今天,A股突然缩量下跌,做好准备了,不出意外,很可能这样走

今天,A股突然缩量下跌,做好准备了,不出意外,很可能这样走

丁丁鲤史纪
2026-04-09 11:58:26
中日开战谁会出兵助华?唯一法定盟友铁定出手,美国根本拦不住

中日开战谁会出兵助华?唯一法定盟友铁定出手,美国根本拦不住

阿裤趣闻君
2026-04-09 12:23:59
美国华裔科学家李飞飞:若夺下诺贝尔奖,我定以中国人身份领奖!

美国华裔科学家李飞飞:若夺下诺贝尔奖,我定以中国人身份领奖!

领悟看世界
2026-04-09 01:04:16
2026年交通执法新规!无证据不拦车,随意检查正式成为历史

2026年交通执法新规!无证据不拦车,随意检查正式成为历史

复转这些年
2026-04-08 12:36:32
38岁女上司生病我照顾9天,出院时她当众说我是她认定终身的人

38岁女上司生病我照顾9天,出院时她当众说我是她认定终身的人

晓艾故事汇
2026-04-07 09:08:38
北京银发帅哥雌雄难辨,女粉疯狂沦陷,男网友酸到破防:太娘了

北京银发帅哥雌雄难辨,女粉疯狂沦陷,男网友酸到破防:太娘了

TVB的四小花
2026-04-09 12:55:29
卫报:耐克新球衣的肩部设计与身体不贴合,耐克称正设法解决

卫报:耐克新球衣的肩部设计与身体不贴合,耐克称正设法解决

懂球帝
2026-04-09 11:30:09
倒闭车企留下的百万烂尾车主,被逼成了修车大神

倒闭车企留下的百万烂尾车主,被逼成了修车大神

酷玩实验室
2026-04-07 16:58:15
2-0!亚马尔被冻结,小蜘蛛世界波,马竞终结魔咒,巴萨命悬一线

2-0!亚马尔被冻结,小蜘蛛世界波,马竞终结魔咒,巴萨命悬一线

我的护球最独特
2026-04-09 05:01:50
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

有范又有料
2026-04-07 16:45:46
王思聪女友懒懒 简直就是一个行走的芭比布娃娃,幼态型美女天花板

王思聪女友懒懒 简直就是一个行走的芭比布娃娃,幼态型美女天花板

乡野小珥
2026-04-09 06:20:53
又是抑郁症去世!广东21岁爱笑女孩写下遗书,留8万安顿3只小狗

又是抑郁症去世!广东21岁爱笑女孩写下遗书,留8万安顿3只小狗

火山詩话
2026-04-09 06:23:23
“人间悲剧”张紫妍:被31位财阀灌药性侵,总统都无法替她申冤

“人间悲剧”张紫妍:被31位财阀灌药性侵,总统都无法替她申冤

她时尚丫
2026-04-07 23:22:56
陈丽华66岁儿子赵勇担任富华国际集团总裁,是陈丽华和前夫所生

陈丽华66岁儿子赵勇担任富华国际集团总裁,是陈丽华和前夫所生

观鱼听雨
2026-04-07 17:58:37
金子涵直播疑似求救:脸部被注射50针不明物质,不服从便会头痛

金子涵直播疑似求救:脸部被注射50针不明物质,不服从便会头痛

开开森森
2026-04-09 07:58:17
如果没有扣分,这才是真实的中超积分榜排名

如果没有扣分,这才是真实的中超积分榜排名

足球大腕
2026-04-08 21:53:28
山东一阿姨火了,“一棵菜养9年”,根本吃不完,网友:也太牛了

山东一阿姨火了,“一棵菜养9年”,根本吃不完,网友:也太牛了

观察鉴娱
2026-04-09 10:24:45
2026-04-09 14:07:00
厦门日报 incentive-icons
厦门日报
厦门日报是本地具有权威性、公信力和影响力的主流大报,全国百强报刊。
2487文章数 26742关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

达赖深度卷入爱泼斯坦权色网 印媒再披露惊人新证据

头条要闻

达赖深度卷入爱泼斯坦权色网 印媒再披露惊人新证据

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

态度原创

房产
游戏
健康
教育
艺术

房产要闻

超级卷王登场!海口首个抬板四代宅,彻底刷新认知!

前GTA6开发人员警告!小心R星第3支预告搞预告"骗"

干细胞抗衰4大误区,90%的人都中招

教育要闻

北京这三位中小学校长书记上榜!全国五一劳动奖章公示名单出炉

艺术要闻

庞茂琨 2026油画写生新作

无障碍浏览 进入关怀版