网易首页 > 网易号 > 正文 申请入驻

甲骨文识别研究:实验室里的高准确率为何难落地

0
分享至


至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。

近年来,计算机领域兴起了一门甲骨文识别技术,让电脑通过深度学习,自动辨认甲骨上的文字。研究者们制作了多个数据集,也就是把成千上万张甲骨字形图像分门别类整理好,作为训练和测试电脑模型的教材与考卷。自Oracle-20k问世以来,国内外团队已陆续建成甲骨文数据集。在这些数据集上,电脑模型的分类准确率频频超过80%,个别常见字甚至达到97%以上。

然而,一个令人尴尬的现实是,至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。这一反差提示我们,既有研究可能在某些认识上存在偏差。

数据集“高歌猛进”背后的问题

目前公开的甲骨文数据集,按任务类型可分为检测数据集(如殷契文渊检测集)、分类与检索数据集(如Oracle-20k、HWOBC)以及考释数据集(如EVOBC、HUST-OBC)等。这些数据集规模不断扩大,分类准确率屡创新高。但在实际应用中,它们存在四类问题。

第一,多数数据集用的是人工摹写,而非原始拓片。在已有公开的甲骨文数据集中,超过半数明确标注其图像来自手工摹写。摹写图像干净、端正、边缘清晰,但恰恰丢失了原始甲骨拓片因年代久远而产生的裂纹、残损等痕迹。古文字学者每天面对的是原始甲骨拓片,而电脑只见过标准字。好比一个人只练过印刷体,突然让他辨认手写草书,自然认不出来。

第二,标注错误时有发生。数据集需要人工给每个字形图像贴上正确的字类标签,但这项工作中失误并不少见。如在OBC306数据集中,编号038000h01166_甲-1等四个字形实际是“豖”字,却被归入“犬”类。两个字含义不同,电脑学了错误对应关系,后续的准确率也就失去了意义。又如Oracle-MNIST数据集中展示的“马”字示例图片,除了第一张外,其余均非“马”字。

第三,只收录已释读的字,把最需要解决的难题排除在外。现有数据集几乎都只包含现代汉字已经能够对应的甲骨文字。而古文字学最大的挑战,恰恰是那些至今尚未释读的字,约占全部甲骨文的三分之二。电脑模型目前只学习已知的字,尚无法帮助学者破解未知的字。

第四,单字被切出来,丢掉了上下文。现有数据集大部分是一个个切割好的单字图像,没有前后文,也没有所在卜辞的整句信息。但真正的古文字认字,从来不是孤立地看一个字。学者要把这个字放回句子中,结合卜辞、同版其他刻辞等来综合判断。脱离语境的图像分类,哪怕准确率再高,也回答不了“这个甲骨文字在这句卜辞里到底是什么意思”这一重要问题。

两套知识体系的认知差异

上述问题的共同根源可能在于,研究者为了追求高准确率,倾向于使用干净、规整、已标好答案的实验室数据,而非古文字学者实际面对的残泐不清、异体繁多的原始拓片。这不是计算机学科本身的问题,图像分类任务的常规做法确是如此。但问题在于,如果目标是做出能够辅助学者的实用工具,那么训练和测试的环境就必须逼近真实的研究场景。

在古文字学中,“认出一个字”是一个结合考古、历史、语言、文字等多学科知识的复杂推理过程。学者需要运用字形比较法、辞例推勘法等,将字形与已知字形比对,再放回卜辞中通读验证,最终确定其读音和意义。例如,甲骨文“蠢”字的释读,蒋玉斌先生先将未释字形与“屯”字比对,确认其隶定为“屯”,再放入“屯盂方”“屯人方”等卜辞语境中,结合《诗经》“蠢尔蛮荆”等传世文献,推知其读为“蠢”,表示蠢动、作乱之义。整个考释过程需要一个完整的证据链。

而在计算机学科中,目前的甲骨文识别研究主要被处理为一个图像分类问题,给定一张甲骨字形图像,输出其对应的类别标签。这一做法隐含着三个假设。一是每个字形有唯一正确答案。二是正确答案可以通过与训练数据的相似度确定。三是字形本身的视觉信息足以决定其意义。这三个假设在甲骨文字形系统面前均不完全成立。一字多形、一形多字、异体通用等现象普遍存在。在甲骨文字形系统中,字形相似未必字义相同,而字形不相似未必字义不相同。

因此,那些令人振奋的97%、99%,本质上是在一个经过人工美化、脱离语境的实验室里测出来的。一旦将模型放到真实的拓片上,未经人工摹写、未经切割、含有未释字和大量噪声,准确率就会明显下降。更关键的是,模型输出的只是一个标签和一个概率值,它无法告诉学者“为什么是这个字”,也无法提供字形演变、辞例证据、构形理据等可解释的信息。学术论证需要的是证据链,这是目前算法尚无法给出的。

走出困境:从“各自为战”到“人机协同”

有人可能会问:古文字学有一百多年的积累,出版了大量的字形编、字表、辞例类纂,比如孙海波《甲骨文编》、李宗焜《甲骨文字编》、姚孝遂《殷墟甲骨刻辞类纂》等,这些能否直接用于计算机训练?答案是:很难。这些成果是前数字时代的纸本工具书,其知识组织方式(按部首、按笔画、按意义分类)与计算机需要的像素级标注、大规模均衡采样等完全不同。它们是非常宝贵的知识库,但不是可以直接喂给深度学习模型的“数据集”。

问题在于,两个学科的学者的有效沟通尚待进一步提高。古文字学者对数据集建设参与不足。计算机学者往往从零开始自己标注,既不熟悉已有的学术成果,也不了解原始拓片的真实面貌,于是在早已被指出的错误上重蹈覆辙。结果是,计算机花大力气做出的数据集,在古文字学者看来漏洞百出;而学者积累的深厚知识,计算机又用不上。

要改变现状,需要双方都往前走一步。对于计算机研究者,首先要调整目标:不再把在某个封闭数据集上“刷榜”作为识别成功的唯一标准,而是把能否在真实的、未经处理的原始拓片上取得可用的识别结果作为评判依据。其次,数据集建设建议放弃人工摹写,直接从高精度照片或拓片中提取字形,保留残泐、噪点和异体变化。同时纳入未释字。再次,要保留辞例上下文,输入的不应该是单字图像,而应该是包含该字的整行或整版拓片片段,让模型能够利用上下文信息。

对于古文字学者,可以主动提供小规模但高质量的标注数据,比如几百个典型字形及其语境,用于验证和校准模型;也可以参与设计评估指标,不要只看准确率,更要看模型能否为考释提供有用的线索,比如相近字形的检索、同辞例中其他字的分布等。

最理想的方向,不是让电脑代替学者去“认字”,而是开发一个交互式工具:学者在拓片上画一个不认识的字符,模型返回最相似的字形图像、在已有数据集中的位置、相关的辞例例句,以及基于上下文推测的可能候选。学者可以纠正模型的错误,模型也能从学者的反馈中持续学习。这种人机协同的路径,远比训练一个封闭数据集上的高精度分类器更有价值。

甲骨文识别“高准确率难落地”,本质是实验室标准化技术逻辑,与古文字非标准化、人文性、历史性的底层特质不匹配。纸面精度是可控数据集的最优结果,而落地应用需要适配残缺多元的实物样本、复杂深厚的历史语境、专业严谨的学术体系。

古文字学百年积累的知识体系,与计算机学科日益强大的模式识别能力,不是替代关系,而是互补关系。两者能否有效结合,不在于某一方单方面的努力,而在于双方能否真正理解对方的认知方式,并在此基础上设计出服务于学者工作的实用工具。

说到底,实验室里的高准确率只是一个中间指标,而不是最终目的。未来甲骨文智能识别的突破,不在于一味追求算法精度提升,而在于打破文理壁垒、构建标准化数据体系、融合视觉识别与文史考据逻辑,这或许是甲骨文识别研究走出困境的正解。

(作者为上海交通大学中华文化基因智能实验室教授)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有趣的医学案例:直肠射精!

有趣的医学案例:直肠射精!

黯泉
2026-04-07 21:58:25
普京下最后通牒:不撤军就屠城!锆石砸穿基辅,乌克兰直面生死夜

普京下最后通牒:不撤军就屠城!锆石砸穿基辅,乌克兰直面生死夜

丁丁鲤史纪
2026-07-03 23:59:40
性生活是不是人的刚需?

性生活是不是人的刚需?

宇宙时空
2026-05-31 12:30:18
已致3人失明!膳魔师在中国召回近400万件食物罐

已致3人失明!膳魔师在中国召回近400万件食物罐

看看新闻Knews
2026-07-04 21:49:15
存储芯片,又要涨价了!

存储芯片,又要涨价了!

中国基金报
2026-07-04 23:27:39
管不住下半身,唱再好也没用!演唱会刚结束,任素汐就被扒光体面

管不住下半身,唱再好也没用!演唱会刚结束,任素汐就被扒光体面

调侃国际观点
2026-07-04 21:22:25
温网战报:萨巴伦卡2-0四进16强,下轮战大阪直美

温网战报:萨巴伦卡2-0四进16强,下轮战大阪直美

陈秣爱钓鱼
2026-07-05 02:05:41
1977年,21岁姑娘捡到钻石献给国家,唯一要求:给大队买台拖拉机

1977年,21岁姑娘捡到钻石献给国家,唯一要求:给大队买台拖拉机

雍亲王府
2026-06-05 06:45:09
常年不祭祖不上坟的家庭,久而久之,大多会出现这几种结局

常年不祭祖不上坟的家庭,久而久之,大多会出现这几种结局

老特有话说
2026-06-23 14:08:53
我也不知道其中的意义和价值是什么!

我也不知道其中的意义和价值是什么!

胖胖说他不胖
2026-07-04 18:49:14
蒋方舟回应被清华教授举报论文造假:大量指控严重失实,请停止网暴、造黄谣以及污蔑式举报

蒋方舟回应被清华教授举报论文造假:大量指控严重失实,请停止网暴、造黄谣以及污蔑式举报

封面新闻
2026-07-04 15:34:10
纪委重点盯上的6种耗材使用行为,你触碰过吗?

纪委重点盯上的6种耗材使用行为,你触碰过吗?

职场资深秘书
2026-07-04 18:20:33
高度警惕!8-10级雷雨大风,浙江强对流天气来势凶猛,气温跌回“2”字头,多地出现冰雹

高度警惕!8-10级雷雨大风,浙江强对流天气来势凶猛,气温跌回“2”字头,多地出现冰雹

新浪财经
2026-07-05 00:32:52
3-2险胜佛得角后,梅西罕见“痛批”球队,直言多处短板急需整改

3-2险胜佛得角后,梅西罕见“痛批”球队,直言多处短板急需整改

夜白侃球
2026-07-04 22:24:02
求复合遭拒,一天内强奸前女友3次!

求复合遭拒,一天内强奸前女友3次!

阿振观点
2026-05-29 06:00:23
13岁女生,被15岁的恶魔“闺蜜”卖了20次

13岁女生,被15岁的恶魔“闺蜜”卖了20次

迷世书童
2026-05-18 08:53:31
大连天气即将反转,小到中雨局地大雨周日到货

大连天气即将反转,小到中雨局地大雨周日到货

半岛晨报
2026-07-04 22:01:06
郑恺追了整整一个大学,连陈赫都公开起哄的女人,到底什么来头

郑恺追了整整一个大学,连陈赫都公开起哄的女人,到底什么来头

西楼知趣杂谈
2026-06-08 16:52:27
心理学家发现:当一个男人真正认定了一个女人,他释放的从来不是温柔,而是一种让她本能想逃的压迫感

心理学家发现:当一个男人真正认定了一个女人,他释放的从来不是温柔,而是一种让她本能想逃的压迫感

心理观察局
2026-07-04 06:52:02
六个星系正在撞成一团,这事有多罕见?

六个星系正在撞成一团,这事有多罕见?

万物皆可科普啊
2026-07-03 23:03:26
2026-07-05 02:48:49
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
282577文章数 310128关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
艺术
本地
游戏
旅游

亲子要闻

爷爷给一个月宝宝的科普小课堂:怎么预防近视?

艺术要闻

为什么时尚圈集体“失语”?只因这个男人的镜头,太敢拍了!

本地新闻

国内足球之旅?这座小城给你高分答案

韩版“全境封锁”PC配置降低 内存改为32GB起步

旅游要闻

来思南慢摇一夏!解锁上海文旅新体验

无障碍浏览 进入关怀版