网易首页 > 网易号 > 正文 申请入驻

科研写作神器,超越Mathpix的科学公式提取工具已开源

0
分享至



LaTeX公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:

其一,主流方法及公开数据集多聚焦于结构简单、符号单一的公式,难以覆盖多学科、高难度的复杂公式;其二,实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理;其三,大多数方法依赖专用模型,通常需要针对特定任务进行专门设计,难以实现通用性和扩展性。

针对上述挑战,DocTron 团队提出了系统性解决方案。

首先,针对现有数据集覆盖面有限、结构单一的问题,构建了涵盖多学科、多结构的大规模高难度数据集CSFormula,包含行级、段落级和页面级的复杂排版。

其次,团队提出的DocTron-Formula 模型突破了对特定结构建模的依赖,采用通用大模型驱动的复杂公式识别方法,仅需简单微调即可适配多样化应用场景。

最后,相比于最优的定制化公式识别模型,该方法不仅在主流的开源评测中取得了优秀的性能表现,在实际应用中常见的页面级、段落级复杂排版场景中也取得了显著优势,推动了公式识别的应用边界。



DocTron 是一个在通用视觉语言模型架构上实现结构化内容解析和理解的开源项目,而无需定制化的模块开发,覆盖通用文档、学科公式、图表代码等场景。

  • 论文标题:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
  • 论文链接:https://arxiv.org/abs/2508.00311
  • Github 链接:https://github.com/DocTron-hub/DocTron-Formula
  • 项目开源地址:https://huggingface.co/DocTron

创新点与技术突破



(1)高难度多结构数据集构建。研究团队自主设计高效的数据采集与处理流程,系统性地从高质量学术资源中收集、清洗并整理了大量多学科的复杂公式样本,构建了 CSFormula 数据集。

该数据集涵盖数学、物理、化学等领域,包含行级、段落级和页面级的复杂排版,更真实地反映了文献中公式的多样性与挑战性,为模型训练与评测提供了坚实基础。

(2)通用大模型驱动的复杂公式识别。研究团队突破了对结构定制和专用架构的依赖,直接利用 Qwen2.5-VL 等通用大规模多模态预训练模型,并通过在高难度数据集上的有监督微调实现领域适配。

实验结果表明,大模型凭借强大的知识迁移和结构泛化能力,仅需简单微调即可在复杂场景下取得 SOTA 性能,无需繁琐的工程设计或人工规则,显著提升了复杂公式识别的通用性和实用性。

实验结果与性能表现



实验结果显示,DocTron-Formula 在各类公开基准测试及自建 LaTeX 公式识别数据集上均表现出色。在编辑距离和 CDM 两个指标下,不仅超越了现有专业工具 Mathpix,在多个任务上也优于 GPT-4o 和 Gemini-2.5-flash 等主流闭源大模型。

研究意义与应用前景

本研究不仅推动了复杂公式识别技术的发展,也为相关领域开辟了新的研究思路:

  • 首次系统构建了覆盖多学科、多结构的大规模高难度数据集 CSFormula,为复杂公式识别的模型训练和评测提供了坚实的数据支撑;
  • 验证了通用大模型(如 Qwen2.5-VL)在复杂公式识别任务中的强大适应性和泛化能力,显著简化了模型开发流程,减少了对专用设计和人工规则的依赖;

在应用层面,DocTron-Formula 有望服务于科学文献解析、学术知识检索和教育资源智能化等多元场景,为科研、教育和信息服务等领域的自动化与智能化提供有力支撑。

结论

DocTron-Formula推动了学科公式理解在行级、段落级、页面级复杂排版场景的应用,强调无需定制化的算法模块,通过高质量数据的构建和通用模型训练,实现开源评测和现实应用评测的全面提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长江电力:2025年净利润约342亿元

长江电力:2025年净利润约342亿元

每日经济新闻
2026-01-13 16:51:02
链式崩塌:俄罗斯深陷乌克兰泥潭,从加沙到德黑兰

链式崩塌:俄罗斯深陷乌克兰泥潭,从加沙到德黑兰

高博新视野
2026-01-11 19:32:04
顶薪中锋出场时间最少,正负值却最低!球迷:拿600万表演大喘气

顶薪中锋出场时间最少,正负值却最低!球迷:拿600万表演大喘气

弄月公子
2026-01-13 22:59:15
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
合川呆呆三天到底赚了多少钱?

合川呆呆三天到底赚了多少钱?

辣条小剧场
2026-01-14 04:32:16
曾志伟卸任总经理首次露面,在包厢用餐美女倒酒,满脸通红太尽兴

曾志伟卸任总经理首次露面,在包厢用餐美女倒酒,满脸通红太尽兴

动物奇奇怪怪
2026-01-13 00:30:16
2026未播先火的6部古装剧,《庆余年3》强势回归,你期待哪几部?

2026未播先火的6部古装剧,《庆余年3》强势回归,你期待哪几部?

小Q侃电影
2026-01-13 15:38:39
樊振东独取2分惜败!官方赞统治级表现 为祖籍地捐款修路更显仁心

樊振东独取2分惜败!官方赞统治级表现 为祖籍地捐款修路更显仁心

颜小白的篮球梦
2026-01-13 09:13:14
有个比恒大还吓人的雷,可能已经快爆发了。

有个比恒大还吓人的雷,可能已经快爆发了。

流苏晚晴
2025-07-22 18:07:13
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
胡歌带田朴珺爬4200米财神山!田朴珺全程撒娇,两人互动更像情侣

胡歌带田朴珺爬4200米财神山!田朴珺全程撒娇,两人互动更像情侣

好贤观史记
2025-12-01 14:18:01
全球最大科技公司和最大药企,宣布合作

全球最大科技公司和最大药企,宣布合作

第一财经资讯
2026-01-13 10:41:42
廉价版特斯拉Model Y现身国内官网!

廉价版特斯拉Model Y现身国内官网!

快科技
2026-01-13 18:04:08
深度 | 打破9年 “空窗期”,加拿大总理卡尼周三起访华

深度 | 打破9年 “空窗期”,加拿大总理卡尼周三起访华

上观新闻
2026-01-12 20:44:05
以色列宣布与7个联合国机构和国际组织“切断联系”

以色列宣布与7个联合国机构和国际组织“切断联系”

澎湃新闻
2026-01-14 06:01:02
长腿格格怕得脏病去检查了

长腿格格怕得脏病去检查了

毒舌扒姨太
2026-01-12 22:37:18
又一次打出了灾难表现,湖人锋线新援的状态为什么如此起伏不定?

又一次打出了灾难表现,湖人锋线新援的状态为什么如此起伏不定?

稻谷与小麦
2026-01-13 23:23:38
我发现老公8岁的私生子后哽咽离婚,准备签字时23岁女儿按住我

我发现老公8岁的私生子后哽咽离婚,准备签字时23岁女儿按住我

朝暮书屋
2026-01-13 18:23:58
马英九肠子悔青了!他亲手打破国民党“维持现状”的幻想

马英九肠子悔青了!他亲手打破国民党“维持现状”的幻想

百态人间
2026-01-13 16:44:53
广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

晓艾故事汇
2024-11-04 10:55:36
2026-01-14 06:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12110文章数 142536关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

游戏
亲子
本地
家居
公开课

《生化危机 安魂曲》新发布会官宣 / Steam 推理游戏节开幕

亲子要闻

孩子长得胖不等于长得好!13岁孩子重146斤,胆固醇尿酸都偏高

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

家居要闻

现代简逸 寻找生活的光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版