网易首页 > 网易号 > 正文 申请入驻

ECCV 2022 | 具有计数感知的手写数学公式识别算法(有源码)

0
分享至

本文简要介绍ECCV 2022录用的论文“When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。 该论文旨在缓解目前大部分基于注意力机制的手写数学公式识别算法在处理较长或者空间结构较复杂的数学公式时,容易出现的注意力不准确的情况。 本文通过将符号计数任务和手写数学公式识别任务联合优化来增强模型对于符号位置的感知,并验证了联合优化和符号计数结果都对公式识别准确率的提升有贡献。

论文地址: https://arxiv.org/pdf/2207.11463.pdf 代码地址: https://github.com/LBH1024/CAN
一、研究背景

OCR技术发展到今天,对于常规文本的识别已经达到了较高的准确率。但是对于在自动阅卷、数字图书馆建设、办公自动化等领域经常出现的手写数学公式,现有OCR算法的识准确率依然不太理想。不同于常规文本,手写数学公式有着复杂的空间结构以及多样化的书写风格,如图1所示。其中复杂的空间结构主要是由数学公式独特的分式、上下标、根号等结构造成的。虽然目前的OCR算法能较好地识别水平排布的常规文本,甚至对于一些多方向以及弯曲文本也能够有不错的识别效果,但是依然不能很好地识别具有复杂空间结构的数学公式。

图1 手写数学公式示例
二、研究动机

现有的大部分手写数学公式识别算法采用的是基于注意力机制的编码器-解码器结构,模型在识别每一个符号时,需要注意到图像中该符号对应的位置区域。在识别常规文本时,注意力的移动规律比较单一,往往是从左至右或从右至左。但是在识别数学公式时,注意力在图像中的移动具有更多的可能性。因此,模型在解码较复杂的数学公式时,容易出现注意力不准确的现象,导致重复识别某符号或者是漏识别某符号。

为了缓解上述现象,本文提出将符号计数引入手写数学公式识别。这种做法主要基于以下两方面的考虑:

  1. 符号计数(如图2(a)所示)可以隐式地提供符号位置信息,这种位置信息可以使得注意力更加准确(如图2(b)所示)。

  2. 符号计数结果可以作为额外的全局信息来提升公式识别的准确率。

图2 (a)符号计数任务;(b)符号计数任务让模型拥有更准确的注意力
三、方法简述

模型整体框架:如图3所示,CAN模型由主干特征提取网络、多尺度计数模块(MSCM)和结合计数的注意力解码器(CCAD)构成。主干特征提取网络采用的是DenseNet[1]。对于给定的输入图像,主干特征提取网络提取出2D特征图F。随后该特征图F被输入到多尺度计数模块MSCM,输出计数向量V。特征图F和计数向量V都会被输入到结合计数的注意力解码器CCAD来产生最终的预测结果。

图3 CAN模型整体框架

多尺度计数模块:在人群计数等任务中,部分方法采用弱监督的范式,在不需要使用人群位置标注的情况下预测人群密度图。本文借鉴了这一做法,在只使用公式识别原始标注(即LaTeX序列)而不使用符号位置标注的情况下进行多类符号计数。针对符号计数任务,该计数模块做了两方面独特的设计:

  1. 用计数图的通道数表征类别数,并在得到计数图前使用Sigmoid激活函数将每个元素的值限制在(0,1)的范围内,这样在对计数图进行H和W维度上的加和后,可以直接表征各类符号的计数值。

  2. 针对手写数学公式符号大小多变的特点,采用多尺度的方式提取特征以提高符号计数准确率。

图4 多尺度计数模块MSCM

结合计数的注意力解码器:为了加强模型对于空间位置的感知,使用位置编码表征特征图中不同空间位置。另外,不同于之前大部分公式识别方法只使用局部特征进行符号预测的做法,在进行符号类别预测时引入符号计数结果作为额外的全局信息来提升识别准确率。

图5 结合计数的注意力解码器CCAD
四、实验结果

在广泛使用的CROHME数据集以及新出现的HME100K[2]数据集上都进行了实验并与之前的最优方法做了比较。如表1和表2所示,可以看出CAN取得了目前最高的识别准确率。此外,使用经典模型DWAP[3]作为baseline得到的CAN-DWAP以及使用之前最优模型ABM[4]作为baseline得到的CAN-ABM,其结果都分别优于对应的baseline模型,这说明本文所提出的方法可以被应用在目前大部分编码器-解码器结构的公式识别模型上并提升它们的识别准确率。

表1 在CROHME数据集上的结果

表2 在HME100K数据集上的结果

图6 在CROHME数据集上DWAP和CAN-DWAP的识别结果展示

对于模型各部分带来的提升,本文做了消融实验。如表3所示,加入位置编码、将两种任务联合优化以及融合符号计数结果进行预测都能提升模型对于手写数学公式的识别准确率。此外,为了验证采用多尺度的方式提取特征的有效性以及研究符号计数结果对于公式识别准确率的影响,本文做了实验进行验证。如表4所示,使用大小不同的卷积核提取多尺度特征有助于获得更高的符号计数准确率。并且计数结果越准确,对公式识别的提升也越大。表5则展示了当使用符号计数的GT(Ground Truth)时对于模型识别准确率的提升。

表3 模型各部分带来的提升

表4 计数模块中卷积核大小的影响

表5 符号计数结果对公式识别准确率的影响

符号计数对于公式识别有促进作用,那么反过来公式识别能否提升符号计数的准确率呢?本文对这一问题也做了探讨,实验结果和符号计数可视化结果如表6和图7所示,可以看出公式识别任务也可以提升符号计数的准确率。本文认为这是因为公式识别的解码过程提供了符号计数任务缺少的上下文语义信息。

表6 公式识别对符号计数准确率的影响

图7 符号计数结果及计数图可视化
五、文本结论

本文设计了一种新颖的多尺度计数模块,该计数模块能够在只使用公式识别原始标注(即LaTeX序列)而不使用符号位置标注的情况下进行多类别符号计数。通过将该符号计数模块插入到现有的基于注意力机制的编码器-解码器结构的公式识别网络中,能够提升现有模型的公式识别准确率。此外,本文还验证了公式识别任务也能通过联合优化来提升符号计数的准确率。

参考文献

[1] Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks. In: Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition. pp. 4700–4708 (2017)

[2] Yuan, Y., Liu, X., Dikubab, W., Liu, H., Ji, Z., Wu, Z., Bai, X.: Syntax-aware network for handwritten mathematical expression recognition. In: Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition. pp. 4553–4562 (2022)

[3] Zhang, J., Du, J., Dai, L.: Multi-scale attention with dense encoder for handwritten mathematical expression recognition. In: Proc. of Intl. Conf. on Pattern Recognition. pp. 2245–2250 (2018)

[4] Bian, X., Qin, B., Xin, X., Li, J., Su, X., Wang, Y.: Handwritten mathematical expression recognition via attention aggregation based bi-directional mutual learning. In: Proc. of the AAAI Conf. on Artificial Intelligence. pp. 113–121 (2022)

公众号:【CSIG文档图像分析与识别专委会】 作者:李泊翰

Illustration b y Violetta Barsuk from icon s8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王海称胖东来套取国家补贴资金,情节严重负责人可承担刑事责任

王海称胖东来套取国家补贴资金,情节严重负责人可承担刑事责任

映射生活的身影
2026-05-06 23:38:17
追觅科技创始人兼CEO俞浩自曝不买任何股票:建议年轻人别炒股,45岁以后才应“钱生钱”

追觅科技创始人兼CEO俞浩自曝不买任何股票:建议年轻人别炒股,45岁以后才应“钱生钱”

大象新闻
2026-05-06 16:46:07
世乒赛八强对阵诞生,国乒对阵韩国,诞生4个意想不到

世乒赛八强对阵诞生,国乒对阵韩国,诞生4个意想不到

林子说事
2026-05-07 00:33:56
6日世乒赛八强诞生,林诗栋为团队立功,对手手段极其卑劣

6日世乒赛八强诞生,林诗栋为团队立功,对手手段极其卑劣

余憁搞笑段子
2026-05-06 22:20:52
山东曹县男子出轨嫂子多年,全家默许唯独瞒着原配,原配透更多

山东曹县男子出轨嫂子多年,全家默许唯独瞒着原配,原配透更多

天天热点见闻
2026-05-06 13:06:23
丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

闪电新闻
2026-05-06 12:58:59
老外称在中国电商购买4TB外置硬盘被骗:拆开竟是SD卡+读卡器 平台秒退款

老外称在中国电商购买4TB外置硬盘被骗:拆开竟是SD卡+读卡器 平台秒退款

快科技
2026-05-05 12:05:14
芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

曼谷陈大叔
2026-05-06 15:05:34
全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

职场资深秘书
2026-05-05 18:20:53
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

项鹏飞
2026-05-06 16:51:22
巴萨震怒!18岁亚马尔输球后飞米兰,和前任彻夜狂欢被实锤!

巴萨震怒!18岁亚马尔输球后飞米兰,和前任彻夜狂欢被实锤!

罗氏八卦
2026-05-06 18:15:03
特朗普以为访华稳了,派心腹摸底后漫天要价,点名向中方要一个人

特朗普以为访华稳了,派心腹摸底后漫天要价,点名向中方要一个人

兰妮搞笑分享
2026-05-06 15:12:32
当卖国贼,是有门槛的

当卖国贼,是有门槛的

柴差说
2026-05-06 17:30:32
20多名美议员施压特朗普,要求承认以色列拥核

20多名美议员施压特朗普,要求承认以色列拥核

参考消息
2026-05-06 19:11:33
王皓无奈马龙挠头!梁靖崑回应0-3完败:一直陷入自我怀疑 不能躲

王皓无奈马龙挠头!梁靖崑回应0-3完败:一直陷入自我怀疑 不能躲

风过乡
2026-05-06 19:48:00
0-1北京!广东输在哪?数据一目了然,2人在拖后腿,板凳对比辣眼

0-1北京!广东输在哪?数据一目了然,2人在拖后腿,板凳对比辣眼

后仰大风车
2026-05-06 21:37:47
海参崴军装闹剧再评:谁在借“红军符号”操弄历史?幕后黑手必须现形!

海参崴军装闹剧再评:谁在借“红军符号”操弄历史?幕后黑手必须现形!

土家铁拳
2026-05-06 12:19:38
五粮液闪崩,股价逼近90,68万投资者懵了,不至于这么跌吧!

五粮液闪崩,股价逼近90,68万投资者懵了,不至于这么跌吧!

丁丁鲤史纪
2026-05-06 15:48:50
「救救」海参崴的中国小学生

「救救」海参崴的中国小学生

非典型佛教徒
2026-05-06 23:10:16
2026-05-07 03:47:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2366文章数 596关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

艺术
旅游
游戏
本地
公开课

艺术要闻

震撼!三星中国总部大楼高260米,雄踞北京CBD!

旅游要闻

“旅游兴趣班”开启文旅经济新赛道

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版