网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI秒破18世纪「天书」账本！谷歌新模型盲测刷屏全网

2025-11-12 18:55:19　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】最近，谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本，而且还修正了里面的格式错误和模糊表述，展现出的推理能力令历史学家震惊。

悄悄地，谷歌已经解决了AI界的两大古老难题？

前不久，谷歌AI Studio上的一个神秘模型引发网友关注，其中包括一位叫Mark Humphries的历史学家。

他拿出了200多年前一位奥尔巴尼商人的「天书」账本，来测试大模型在手写文本识别（HTR）上的能力。

令人震惊的一幕出现了！

神秘模型不仅在自动手写识别上接近满分，还纠正了原账本中的一个书写格式错误，优化了其中一个可能引发歧义的模糊表述。

这意味着该模型不仅能识别字母，还可以理解字母背后的逻辑和知识背景。

而且，这些能力都是在模型未被提示的情况下展现出来的。

专家级的手写文字识别能力，无需显式规则的推理能力，这两大难题的解决标志着AI模型能力上的一次跃迁。

网友推测，这个神秘模型可能就是谷歌即将在今年推出的Gemini-3，但尚未官方确认。

破解历史学家难题

Mark Humphries是Wilfrid Laurier大学的一位历史学教授。

作为一名历史学家，他十分关心AI在自己的专业领域是否已经达到了人类专家级的推理水平。

因此，Humphries选择了让大模型来识别历史手写体，他认为这是检验大模型整体能力的一个黄金测试。

识别历史手写体，不仅是一个视觉任务，还要对历史手稿所在的历史背景有一定的了解。

如果缺乏这些知识，要准确识别和转写一份历史文献几乎是不可能的。

在Humphries看来，这恰恰也是历史文献中最难识别的部分。

随着大模型能力的发展，它们在HTR上的识别准确率可以超过90%，但剩下的10%才是最难，也是最关键的。

Humphries认为，如今的大模型（Transformer架构）在本质上是预测式的（其核心机制是预测下一个token），但历史文献中的拼写错误和风格不一致，本来就是不可预测、低概率的答案。

因此，要把「the cat sat on the rugg」而不是「mat」转写出来，模型就必须逆着训练分布的倾向来做。

这也是为什么大模型在转写不熟悉的人的名字（尤其姓氏）、冷门地名、日期或数字（比如金额）时不太擅长的原因。

比如，一封信是Richard Darby写的，还是Richard Derby写的？日期是1762年3月15日，还是1782年3月16日？账单是339美元，还是331美元？

当历史文献中，出现这类难以辨认的字母或数字时，往往需要通过其他类型的背景知识来找到答案。

Humphries认为，这「最后一英里的准确性」，才是历史手写文本识别能被人类使用的前提。

预测式架构是否存在「天花板」？

为了衡量手写转写准确性，Humphries与Lianne Leddy博士专门做了一个测试集，这是一个包含50份文档、总计约1万词的集合。

并且，他们采取了一切合理的预防措施，尽可能确保这些文档不在大模型的训练数据里。

这个测试集包含了不同风格的书写（从难以识别的潦草字迹到正式的秘书手写体），以及各种工具拍摄的图像。

在Humphries看来，这些文档代表了他以及研究18、19世纪英语文献的历史学家最常遇到的类型。

他们用字符错误率（CER）和词错误率（WER）来衡量转写错误的比例。

研究显示，非专业人士通常WER在4-10%。

即便是专业的转写服务也预期会有少量错误，他们通常保证1%的WER，但前提是文本清晰易读。

所以，这基本就是准确度的上限。

去年，在Humphries等人的测试集上，Gemini-2.5-Pro的表现为：

严格CER为4%，WER为11%。

当排除大小写和标点的错误时，它们通常不会改变文本的实际含义，也不影响搜索与可读性，这些错误率降到了CER 2%和WER 4%。

Humphries也发现，每一代模型的改进确实都在稳步发生。

Gemini-2.5-Pro的成绩，已经比他们几个月前测试的Gemini-1.5-Pro提升了约50-70%，后者又比最初测试的GPT-4提升了约50-70%。

这也印证了扩展规律的预期：

随着模型变大，只凭模型规模就能大致预测它在这类任务上的表现。

新模型的表现

在同样的数据集下，他们开始测试Google的新模型。

具体做法是上传图片到AI Studio，并输入如下内容固定的提示词：

「你的任务是准确转写手写历史文献，尽可能降低CER和WER。逐字逐词逐行工作，严格按照页面上呈现的样子转写文本。为保持历史文本的真实性，保留拼写错误、语法、句法和标点以及换行。转写页面上的所有文本，包括页眉、页脚、边注、插入内容、页码等。如果存在这些内容，请按作者标示的位置插入……」

Humphries在选择测试文档时，尽量挑选错误最多、最难辨认的那些文档。

它们不仅手写潦草，而且充满拼写与语法错误，缺乏恰当标点，大小写极不一致。

目的很简单，就是要探一下这个神秘模型的底。

最终，他挑了测试集中的5份文档。

结果十分惊人。

该模型转写的5份文档（总计刚过1000词，约占样本的十分之一），严格CER为1.7%，WER为6.5%。

也就是说包括标点和大小写在内，大约每50个字符错1个。

而且几乎所有错误都在大小写和标点，出错的地方都是高度模糊，真正「词」层面的错误非常少。

如果把这些类型的错误从计数中排除后，错误率降到了CER 0.56%和WER 1.22%。

也就是说，这个新的Gemini模型在HTR上的表现达到了人类专家级的水准。

秒破200多年前账本「谜团」

随后，Humphries决定继续给新模型上强度。

他拿出了200多年前一位奥尔巴尼商人的日记账。

这是一位荷兰籍店员用英语记录的流水账。

他可能不太会说英语，拼写和字母书写极不规则，其中还夹杂着荷兰语与英语。

账目也用旧式英镑/先令/便士写法，并采用当时常见的速记格式：「To 30 Gallons Rum @4/6 6/15/0」。

这表示有人购买了（记入其账户的借方）30加仑朗姆酒，每加仑4先令6便士，总计6英镑15先令0便士。

对于今天的大多数人来说，这种非十进制货币单位很陌生：1先令等于12便士，1英镑等于20先令。

单笔交易随时记到账上，用横线分隔，中间写当天日期数字。

每笔交易记成借记（Dr，购买）或贷记（Cr，付款）。

有些交易被划掉，可能表示已对账或转入总账里的客户账户（类似「待处理」变「已入账」）。

这些记录还无标准格式。

大模型在处理这种账本时一直容易出问题。

不仅因为相关训练数据很少，还因为其中没有太多规律可言：人可以买任意数量的任何东西，单价可以是任意的，而总价并不按常规方法凑整。

大模型往往能辨出一些名字和一些商品，但在数字上完全迷失。

比如，它们通常难以准确转写数字，而且倾向于把单价与总价混在一起。

尤其是一些复杂的页面会暂时「搞崩」模型：让它不断重复某些数字或短语，或者有时干脆失败不答。

然而，Humphries在谷歌的新模型中，却看到它在识别奥尔巴尼商人日记账页面时表现接近完美。

不仅数字部分惊人地全都正确，更有意思的它还纠正了原来店员记账时的一个格式上的小错误。

比如，Samuel Stitt买了2个潘趣酒碗，店员记为每个2/，意思是每个2先令；为省事，他省略了「0便士」。但为了保持一致，模型把它转写为@2/0，这其实更规范也更清楚。

通读文本，Humphries还看到一个让他汗毛直竖的「错误」。

他看到Gemini把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文转写为「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。

18世纪的糖以硬化的锥形糖锭出售，Slitt先生是个店主，大量购入糖用于转卖。

乍看之下，这像是一次幻觉式错误：模型被要求严格按原文转写，但它插入了原文没有的「14 lb 5 oz」。

仔细考证后，Humphries意识到大模型做了极其聪明的事。

Gemini正确推断出1、4、5是重量单位构成的数值，描述所购糖的总重量。

为了确定正确的重量、解码145，Gemini还利用最终总价0/19/1反推重量，这需要在两套十进制体系与两套非十进制体系之间来回换算。

Humphries推测了大模型的推理过程：

糖的单价是1先令4便士每单位，也就是16便士。交易总价是0英镑、19先令、1便士，可换算为229便士。

要算买了多少糖，就用229除以16，得到14.3125，或14磅5盎司。

于是，Gemini断定它不是「1 45」，也不是「145」，而是「14 5」，进而是14 lb 5 oz，并在转写中予以澄清。

在Humphries的测试中，没有其他模型在被要求转写同一文档时做出过类似表现。

这个例子之所以引起Humphries注意，是因为AI似乎跨过了一些专家长期声称现有模型无法越过的边界。

面对一个含糊的数字，它能够推断出缺失的上下文，在历史货币与重量系统之间执行了一系列多步换算，并得到一个正确结论，这个过程需要对文献所描述的世界进行抽象推理。

Humphries认为其中发生的可能是一种涌现的、隐式的推理，是在一个统计模型内部，自发地把感知、记忆与逻辑组合起来，而不是被专门设计成以符号方式推理，虽然他还不清楚背后的具体原理。

如果这一假设成立，Humphries认为「糖锭条目」不仅是一段了不起的转写，更发出了一个小而清晰的信号：模式识别开始跨越真正「理解」的界限。

这说明大模型不仅能以人类专家级的准确度转写历史文献，也开始展示出对这些历史文献背后经济与文化系统的理解。

Humphries认为这也许揭示了另一件事的开端：机器开始能就它们所见的世界，进行真正的抽象、符号化推理。

参考资料：

https://generativehistory.substack.com/p/has-google-quietly-solved-two-of

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌的机器人赌局不卖本体只卖大脑

钛媒体APP 2026-07-31 09:45:19
0 跟贴 0
100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

AI 3D七大前沿模型同场竞技，竟被一个4B模型拿下8项第一

机器之心Pro 2026-07-31 11:57:33
0 跟贴 0

翁荔刚回OpenAI，Thinking Machines反手甩出新模型

新智元 2026-07-31 11:30:56
0 跟贴 0
AI公司，批量抢购旧书

钛媒体APP 2026-07-31 09:13:24
0 跟贴 0

李飞飞SimFoundry很酷，但Real2Sim有更多办法

机器之心Pro 2026-07-31 13:22:38
0 跟贴 0

华大智造首席AI官杨梦：AI for Bio的下一场竞争，是把实验闭环验证真正做出来

经济观察报 2026-07-31 12:28:06
0 跟贴 0
OpenAI一夜大降价！GPT-5.6 Luna暴降80%

机器之心Pro 2026-07-31 12:10:08
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
学习强国做了个AI社区，两周铺进68座城市

量子位 2026-07-31 12:22:07
0 跟贴 0
亚马逊、谷歌、微软新季度财报B面：一切让位给AgenticAI，一边失血一边靠芯片赚钱

钛媒体APP 2026-07-31 12:14:24
0 跟贴 0
杨植麟暴怒了！彻底掀桌！你OpenAI的算法不都是抄的？

网易科技态度见闻 2026-07-29 14:41:53
2 跟贴 2
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
CPO概念集体反弹！亚马逊加码AI投入，光通信含量近55%的创业板人工智能ETF（159279）上涨超10%

每日经济新闻 2026-07-31 10:27:26
0 跟贴 0
理响中国｜文献里的党史密码：人民是党的坚实根基

国际在线 2026-07-30 18:19:34
0 跟贴 0
爸爸让儿子早点睡假装出去，下一秒与来开灯的儿子来了个对视

南阳日报 2026-07-30 15:26:39
99 跟贴 99
厂里分到最破平房，咬牙搬进厨房地板下是空的，撬开看到金条懵了

百晓史 2026-07-29 16:16:03
0 跟贴 0
你知道美国人是靠什么统治世界的吗，既不是苹果，也不是谷歌

小乇看事界 2026-07-30 10:43:35
1 跟贴 1
欧足联抵制所有国际足联赛事！

扬子晚报 2026-07-31 07:21:35
4750 跟贴 4750
离谱 | “唐朝不存在”？刚刚，陕西省文旅厅回应！

天津广播 2026-07-30 21:37:01
3 跟贴 3
伊朗外长遭遇政治生涯"最狼狈的时刻" 被骂卖国贼

中国新闻周刊 2026-07-31 07:36:06
4190 跟贴 4190
有的时候看得更明白一些，事情也会更顺#强者思维逻辑 #认知提升

叫我金主编 2026-07-29 07:26:07
0 跟贴 0
老山大医院对面，消失的那座最别致的小洋楼

青岛城市档案论坛 2026-07-31 07:34:11
0 跟贴 0
银发护文脉　巧手缮古籍——甘肃省图书馆开展西文古籍修复讲解演示活动

微游甘肃 2026-07-30 09:55:17
0 跟贴 0
理响中国｜文献里的党史密码：“把准前进方向”靠什么？

国际在线 2026-07-30 00:28:45
0 跟贴 0
【爆款】《转账记录之外，我们没有再联系》沈书昀郁悠樊乐彦沈锋

晴空崽 2026-07-29 14:52:38
0 跟贴 0
文献中的美味：省图携手爱群大酒店复原民国经典西点

南方都市报 2026-07-30 13:34:28
0 跟贴 0
南方两倍做多海力士涨超70%，南方两倍做多三星电子现涨超57%

每日经济新闻 2026-07-31 13:29:04
0 跟贴 0
好莱坞幕后制作团队，通过模型拍摄海啸侵袭城市场景

车马点兵V 2026-07-28 14:27:25
8 跟贴 8
比亚迪确认自研人形机器人将于8月首发亮相，机器人ETF天弘（159770）标的指数大涨超7%，已连续7日净流入

每日经济新闻 2026-07-31 13:40:23
0 跟贴 0
被遗忘的赝品黄金：铂金镀金假币史

苏知道 2026-07-31 08:17:33
0 跟贴 0
3-8岁娃早教新利器：一套可打印练习册，字母迷宫填色全都有，玩着就会了

宅家小欢喜 2026-07-31 01:12:05
0 跟贴 0
微软Xbox新负责人Asha：明年利润率追平对手，2030年代中期实现反超

灰度测试中 2026-07-31 13:38:07
0 跟贴 0
用一块木头切割字母

博闻视角 2026-07-30 12:54:32
0 跟贴 0
波兰确认境内坠入一枚俄制导弹

环球网资讯 2026-07-31 06:24:20
2830 跟贴 2830
谢欣向下汇报，字节十年SaaS梦让位大模型

钛媒体APP 2026-07-31 13:18:25
0 跟贴 0
中国无人战“底牌”：中兵集团全自主作战，颠覆战争逻辑

爱歌唱的叮当猫 2026-07-27 13:15:08
1 跟贴 1

快讯！郑丽文传来消息！

故事终将光明磊落

2026-07-31 08:17:32

马斯克回应特斯拉剥离中国业务

第一财经资讯

2026-07-31 13:13:38

三千万人围观董宇辉采访周星驰，全程答非所问念旧梗，星爷自嘲这是一次失败访问

三千万人围观董宇辉采访周星驰，全程答非所问念旧梗，星爷自嘲这是一次失败访问

陈意小可爱

2026-07-31 07:57:21

周星驰问董宇辉为啥不拍拖？董宇辉：我要有你的魅力早就有对象了

周星驰问董宇辉为啥不拍拖？董宇辉：我要有你的魅力早就有对象了

韩小娱

2026-07-31 09:01:44

前国脚孙继海闷头苦练了五年的青训队，终于拉出来打正式比赛了

前国脚孙继海闷头苦练了五年的青训队，终于拉出来打正式比赛了

星Xin辰大海

2026-07-31 02:42:58

《功夫女足》单日票房逆跌，燃爆票房奇迹！

《功夫女足》单日票房逆跌，燃爆票房奇迹！

手工制作阿歼

2026-07-31 08:03:12

中国女子泰国被群殴全面失控！泰网民持续辱华，旅游局也下场拱火

中国女子泰国被群殴全面失控！泰网民持续辱华，旅游局也下场拱火

天天热点见闻

2026-07-31 10:18:07

退休金每年1400万？耐克：不，这是工资，刘翔：根本花不完

退休金每年1400万？耐克：不，这是工资，刘翔：根本花不完

无情有思可

2026-07-31 05:29:48

英媒：因凡蒂诺告知各足协若在9月19日前表态支持，将先获得2000万美元

英媒：因凡蒂诺告知各足协若在9月19日前表态支持，将先获得2000万美元

懂球帝

2026-07-30 23:04:07

美国一男子枪杀妻子与六名子女后纵火自尽，一家八口罹难，其中有两名中国养女

美国一男子枪杀妻子与六名子女后纵火自尽，一家八口罹难，其中有两名中国养女

鲁中晨报

2026-07-31 10:42:11

14岁乒乓小将被打后续：打人者家底被扒，洗白者扎堆，父亲遭牵连

14岁乒乓小将被打后续：打人者家底被扒，洗白者扎堆，父亲遭牵连

临云史策

2026-07-30 21:53:31

“最贵装机季”来了，有显卡一周暴涨3000元

“最贵装机季”来了，有显卡一周暴涨3000元

第一财经资讯

2026-07-31 11:29:50

80比0！绝了，勇士绝了！库里点燃交易市场

80比0！绝了，勇士绝了！库里点燃交易市场

篮球实战宝典

2026-07-30 20:08:36

外媒发现不对劲：中国仅用11架歼20，就干掉了印度空军的40年优势

外媒发现不对劲：中国仅用11架歼20，就干掉了印度空军的40年优势

共工之锚

2026-07-30 11:04:24

8月7日立秋，今年立秋是“闭眼秋”，老辈说的“闭眼秋”是什么意思？是好还是坏？

8月7日立秋，今年立秋是“闭眼秋”，老辈说的“闭眼秋”是什么意思？是好还是坏？

小谈食刻美食

2026-07-29 07:59:35

同分692分！武汉双胞胎放弃清北，却选择一个守山河，一个铸国器

同分692分！武汉双胞胎放弃清北，却选择一个守山河，一个铸国器

侃故事的阿庆

2026-07-31 10:12:14

中国生产线被拆除之后，美国向印尼放话：我们和日本也没法投资，因为你们的产业不达标，根本不符合要求

中国生产线被拆除之后，美国向印尼放话：我们和日本也没法投资，因为你们的产业不达标，根本不符合要求

人生录

2026-07-31 00:05:13

告诉大家一个坏消息：昆明、丽江出现3大怪象，正在蔓延，需深思

告诉大家一个坏消息：昆明、丽江出现3大怪象，正在蔓延，需深思

一家说

2026-07-31 06:02:46

库存压仓资金被套，销量暴跌80%！曾能轻松年入百万的生意不香了

库存压仓资金被套，销量暴跌80%！曾能轻松年入百万的生意不香了

财经八卦

2026-07-30 17:59:37

绝不姑息！哈马斯暴徒施暴后隐匿市井，以色列绝密小队跨境追杀

绝不姑息！哈马斯暴徒施暴后隐匿市井，以色列绝密小队跨境追杀

老马拉车莫少装

2026-07-26 12:45:22

AI产业主平台领航智能+时代

15829文章数 66982关注度

往期回顾全部

科技要闻

最多80%！GPT5.6官宣降价，中国厂商逼的？

头条要闻

华春莹同印度外交秘书对话后外交部发声"支持印度"

头条要闻

华春莹同印度外交秘书对话后外交部发声"支持印度"

体育要闻

菲尼克斯，止损后的漫漫长路

娱乐要闻

李小璐澄清夜宿门，被网友质疑想洗白

财经要闻

打新日确认！宇树科技IPO冲刺“冰与火”

汽车要闻

MG 07将是上汽的逆转时刻

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

本地

数码

房产

公开课

手机要闻

Caviar推出定制版三星Galaxy Z Fold 8，售价超1.2万美元

本地新闻

神仙也“蓉”漂，哪吒与八仙，皆是成都出品！

数码要闻

无需溢价买ULL内存：微星推High-Efficiency模式

房产要闻

太疯狂！海口刚刚，又抢地了！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版