网易首页 > 网易号 > 正文 申请入驻

Nature | 从「上古卷轴」到楔形文字!AI揭开古代文献神秘面纱,或将重写历史

0
分享至

新智元报道

编辑:alan

【新智元导读】AI的飞跃可能会开辟我们理解古代世界的新方法。想象一下,如果ChatGPT可以在「上古卷轴」的文本洪流上接受训练,我们将有机会直接与历史对话。

2023年10月,一封电子邮件发到了Federica Nicolardi的手机上,其中有一张图片将永远改变她的研究。

这是一张纸莎草卷轴的碎片,此卷轴在公元79年维苏威(Vesuvius)火山喷发时被烧毁——也就是导致庞贝古城被埋于地下的那次灾难。

18世纪,人们在意大利庞贝城附近Herculeaneum的一座豪华罗马别墅遗迹中发现了数百件卷轴,这本烧焦的卷轴就是其中之一。

几百年来,研究者们试图剥开卷轴上脆弱的碳化层,探寻内部记录的秘密,却都没有成功,许多卷轴因此变成了碎片。

学者们只好接受这些「上古卷轴」永远无法打开的事实。

意大利那不勒斯大学(University of Naples)的纸莎草纸学家Nicolardi曾尝试使用AI来阅读这些难以辨认的内容。

现在最新结果已经发过来了,AI将文字还原为了整齐清晰的希腊字母,——这是一段过去2000年来完全无法访问的文本。

从希腊语、拉丁语、到中国的甲骨文(Oracle Bone Script),AI正在准备重塑我们看待古代世界的方式。

重建古代文本

几十年来,计算机一直被用于对数字化文本进行分类和分析,AI的加入使研究者有望处理之前无法理解的庞大档案。

于是,大量新文本得以涌现,比过去几个世纪得到的数据还要多。

在2010年代,将深度学习应用于古代文本的早期尝试是基于文本的数码照片(拍摄纸莎草纸或者棕榈叶的原件)。

这个时期最常用的网络是CNN,对图像进行光学字符识别(OCR)。

研究甲骨文的团队使用模型来还原残缺的字母图像、拼凑碎片、以及分析字符如何随着时间的推移而演变。

与此同时,RNN网络也发挥了自己处理时间序列数据的优势,被用于搜索、翻译和填补已翻译文本的空白。比如,用RNN来猜测古巴比伦文字中数百个公式化的行政和法律文本中缺失的字符。

除了加速繁琐的任务,神经网络还帮助建立了人类专家无法发现的关系。

2017年,英国牛津大学开展了第一个展示AI潜力的大型项目:破译来自西西里岛的希腊铭文。

这些古文字读起来非常复杂,保存得也很糟糕,有一部分缺失还混合了方言,研究者不确定铭文的具体归属地以及日期。

过去的研究人员一般利用自己对类似现有文本的了解来解释新的资料,他们通常是特定时间和地点作品的专家。

但一个人不可能掌握与新文本相关的所有信息,于是AI登场了。

研究人员在公元前7世纪至公元5世纪之间写成的数万个希腊铭文上训练了一个RNN模型:Pythia。然后要求模型文本在它以前从未见过的文本上,预测缺失的单词或字符。

2022年,他们又使用流行的Transformer训练了一个名为Ithaca的模型,在之前的基础上加入了预测未知文本的日期和起源地点的能力。

Transformer通过并行分析输入的不同特征(字符或单词)来捕获比RNN更复杂的语言模式,并根据上下文对其进行加权。

最终,Ithaca以62%的准确率恢复了古代文本中人工产生的空白,相比之下人类专家的准确率为25%。而Ithaca和专家合作时,预测准确率达到了72%。

此外,Ithaca还以71%的准确率确定了铭文的地理来源,且日期预测也与公认的时间接近。

创建者将Ithaca免费开源后,每周都会收到几百次的访问。迄今为止,Ithaca做出贡献的例子包括重新确定雅典政治法令的日期,以及对公元前4世纪泥板的调查等等。

海量档案

关于古代文献,另一个截然不同的挑战则是数据量。

比如研究人员在处理的世界上最大的历史档案之一:包含数十万篇文章,涵盖27位韩国国王的统治时间(14世纪至20世纪初)。

这些记录是完整的,来源也是已知的,但几乎没有人能读懂,因为它们是用古汉字书写的,不同于现代汉字或韩文。

一个由政府翻译组成的小团队,正在努力手动将这些文本翻译成现代韩语,但这项任务可能需要几十年才能完成。

来自纽约大学(New York University)的首席机器翻译研究员 Kyunghyun Cho与同事合作,训练了一个基于Transformer的网络来自动翻译这些记录。

由于目前还没有足够的类似数据来训练这样的模型,因此团队采取了多语言方法。专家认为AI的翻译(对国事访问、惩罚叛徒和音乐会等事件的描述)比古代的翻译更准确、更易读,在某些情况下甚至比现代翻译更好。

另一方面,研究人员正在使用神经网络来处理只有少量文本幸存下来的古代语言。

训练Transformer一般需要大量的数据,不适用于这种情况,研究者于是回归以前的模型。

例如,希腊Patras大学的Katerina Papavassileiou和同事使用RNN从克里特岛克诺索斯(Knossos, Crete)的1,100块迈锡尼泥板(Mycenaean tablets)中恢复了缺失的文本,包含公元前两千年书写的羊群记录(Linear B)。

在人工测试中,模型的前十个预测准确率达到了72%,而在实际应用中,其性能通常能跟人类专家打平。

为了进一步改进结果,Papavassileiou希望添加视觉数据(如不完整字母的痕迹),而不仅仅是依赖音译文本。她还在研究「迁移学习」,将模型从一个系列的泥板中学到的知识应用于其他系列的泥板。

看似不可能的任务

让我们回到最开始的例子,阅读赫库兰尼姆(Herculaneum)卷轴涉及克服两个大问题。

首先,脆弱的卷轴无法展开。为了看到它们的内部,计算机科学家 Brent Seales花了数年时间开发「虚拟展开」技术,包括对卷轴的内部结构进行高分辨率计算机断层扫描(CT),并手工绘制横截面每一帧中可见的表面,然后使用算法将表面展开成平面图像。

2015年,研究人员使用这种技术从以色列恩戈地(EnGedi)的一个烧焦、无法打开的卷轴(公元3世纪左右)中阅读完整的文本,结果证明它来自圣经的章节。

相比于EnGedi的卷轴,Herculaneum的卷轴每卷都有几百圈,而且像丝绸一样薄。为了捕获极高分辨率的CT数据,团队将几个卷轴运送到牛津附近的Diamond Light Source使用粒子加速器。

但是,EnGedi卷轴和其他后期作品的墨水往往含有铁,在CT扫描中会发出明亮的光芒,而Herculaneum的抄写员使用的是碳基墨水,在扫描中是看不见的,因为它的密度与使用的莎草纸相同。

Seales团队意识到,虽然他们无法直接看到墨水,但有可能检测到它的形状。——如果裸露的纸莎草纤维与涂有墨水的纤维相比,表面纹理存在细微差异,也许他们可以训练神经网络来捕捉这种差异。

不过对于Seales的小团队来说,这个工作量太大了,因此他们在2023年3月与硅谷企业家Nat Friedman合作发起了维苏威火山挑战赛(Vesuvius Challenge),并提供了丰厚的现金奖励。

Seales团队发布了卷轴表面的扁平图像,并要求参赛者训练神经网络来找到墨水。超过1,000个团队参加了比赛,每天都有数百人在比赛的Discord频道上讨论进度。

最终在2024年2月,计算机专业的学生Youssef Nader、Luke Farritor和Julian Schilliger 获得了700,000美元的大奖。

获胜团队使用了TimeSformer,是Transformer的一种变体,通常用于在视频数据中分别处理空间和时间维度。

对于散落在那不勒斯、巴黎、伦敦和牛津的这些「上古卷轴」,这个时代的AI将有望令其重见光明。

参考资料:

https://www.nature.com/articles/d41586-024-04161-z

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来早已不是中国籍?事业巅峰远赴美国,被老外“玩腻”晚年回国

原来早已不是中国籍?事业巅峰远赴美国,被老外“玩腻”晚年回国

往史过眼云烟
2026-02-27 23:04:59
年后快递员大批离职,他们不是不想干了,而是心彻底凉了!

年后快递员大批离职,他们不是不想干了,而是心彻底凉了!

一口娱乐
2026-02-27 16:55:34
CCTV5直播!王楚钦时间提前,孙颖莎VS早田,王曼昱打爆张本美和

CCTV5直播!王楚钦时间提前,孙颖莎VS早田,王曼昱打爆张本美和

体育就你秀
2026-02-28 06:20:03
好消息!嫣然医院暂不搬迁,已张贴最新宣传海报,欠款公告被撤下

好消息!嫣然医院暂不搬迁,已张贴最新宣传海报,欠款公告被撤下

达文西看世界
2026-02-27 20:35:55
再不阻止,劣迹艺人可真就要复出圈钱了!

再不阻止,劣迹艺人可真就要复出圈钱了!

华人星光
2026-02-25 11:40:10
央视主持沙桐:离婚后妻子嘲讽二人多年没性生活,前妻直言别扯淡

央视主持沙桐:离婚后妻子嘲讽二人多年没性生活,前妻直言别扯淡

冷紫葉
2026-02-25 15:28:41
巴拿马刚接管港口,李嘉诚就出手,长和开始大清仓,海量资产甩卖

巴拿马刚接管港口,李嘉诚就出手,长和开始大清仓,海量资产甩卖

梦想的现实
2026-02-28 04:30:02
震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

火山詩话
2026-02-27 12:08:36
中方两大邻国发生激烈冲突!巴铁战机被击落!已正式对阿富汗宣战

中方两大邻国发生激烈冲突!巴铁战机被击落!已正式对阿富汗宣战

霁寒飘雪
2026-02-27 22:54:45
深夜,全线大涨!中东局势,骤然升级!黄金、白银、原油,集体拉升!

深夜,全线大涨!中东局势,骤然升级!黄金、白银、原油,集体拉升!

证券时报
2026-02-27 23:23:06
基因真的太真实了,熊黛林的两个双胞胎女儿被说龅牙

基因真的太真实了,熊黛林的两个双胞胎女儿被说龅牙

陈意小可爱
2026-02-25 21:22:34
美军航母“炸”了,史诗级灾难,把脸都丢光了

美军航母“炸”了,史诗级灾难,把脸都丢光了

毛豆论道
2026-02-26 19:32:00
曾叫板董明珠,老牌空调巨头倒在春节前

曾叫板董明珠,老牌空调巨头倒在春节前

螺旋实验室
2026-02-25 18:38:13
崩了!3400 万巨星沦为利物浦最大累赘,复刻法比尼奥式崩盘

崩了!3400 万巨星沦为利物浦最大累赘,复刻法比尼奥式崩盘

澜归序
2026-02-28 05:59:00
每年30亿吨,已持续上百万年,马里亚纳海沟吞掉的海水到哪去了?

每年30亿吨,已持续上百万年,马里亚纳海沟吞掉的海水到哪去了?

心中的麦田
2026-02-27 19:34:54
一颗没卖出去!英伟达H200对华销量归零,美国芯片闹剧演砸了

一颗没卖出去!英伟达H200对华销量归零,美国芯片闹剧演砸了

Thurman在昆明
2026-02-27 11:22:09
华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙

快科技
2026-02-27 00:27:08
狂飙5600点!美元稳如泰山,人民币却突然暴涨,到底谁在疯狂扫货

狂飙5600点!美元稳如泰山,人民币却突然暴涨,到底谁在疯狂扫货

万物知识圈
2026-02-27 16:56:03
王祥喜被免去国家消防救援局第一政治委员职务

王祥喜被免去国家消防救援局第一政治委员职务

澎湃新闻
2026-02-27 17:57:14
澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

第7情感
2026-02-23 20:45:16
2026-02-28 09:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14604文章数 66648关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

教育
艺术
亲子
数码
军事航空

教育要闻

刚刚!考研,出分!(附历年国家线)

艺术要闻

这幅草书中19个字,您能一眼看懂吗?“徐娘半老”含义引热议!

亲子要闻

苦尽甘来!香港女星自曝试管婴儿艰辛,打针调理终迎双胞胎喜讯

数码要闻

苹果OLED版iPad Mini即将发布 或将成为Kindle杀手?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版