Gemini 3 这么猛吗,一个历史学家测试了 Gemini 3 Pro 破译历史文件。
他能实现以前模型基本无法完成的历史文件信息破译和推理操作,这些手稿的字说实话没经过学习和训练根本不认识。
在涉及他没见过的复杂手写字体表格的识别时候,Gemini 3 的表现已经优于受过训练的学生。
LLM 的“预测式”本质让它在非常规拼写、姓名、地名、日期、金额等低概率元素上易错,而且历史文件里面标点、大小写、长 s(ſ)、度量单位等也高度含混。
作者测试了50 份、约 1 万词的英文学术手写样本,涵盖多种书写体与成像条件,用于评估 CER/WER。
到 Gemini‑2.5‑Pro,在严格计分下约 CER 4%、WER 11%;若排除标点与大小写错误,降至 CER 2%、WER 4%,已逼近专业人工。
排除一些含混项后,新模型(Gemini 3)降至 CER 0.56%、WER 1.22%,接近或达到“专家人类水平”。与 Gemini‑2.5‑Pro 相比提升 50–70%。
作者说它似乎跨越了某些专家长期以来认为当前模型无法逾越的界限。
面对一个模糊的数字,它推断出缺失的语境,进行了在历史货币和重量体系之间的一系列多步换算,并得出了需要对文档所描述世界进行抽象推理的正确结论。换句话说,它的表现好像能够使用符号,尽管这些符号从未被明确定义。
看起来发生的是一种新出现的、隐含的推理形式——在一个统计模型内部感知、记忆和逻辑的自发结合。
详情:generativehistory.substack.com/p/has-google-quietly-solved-two-of
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.