网易首页 > 网易号 > 正文 申请入驻

科研写作神器,超越Mathpix的科学公式提取工具已开源

0
分享至

LaTeX公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:

其一,主流方法及公开数据集多聚焦于结构简单、符号单一的公式,难以覆盖多学科、高难度的复杂公式;其二,实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理;其三,大多数方法依赖专用模型,通常需要针对特定任务进行专门设计,难以实现通用性和扩展性。

针对上述挑战,DocTron 团队提出了系统性解决方案。

首先,针对现有数据集覆盖面有限、结构单一的问题,构建了涵盖多学科、多结构的大规模高难度数据集CSFormula,包含行级、段落级和页面级的复杂排版。

其次,团队提出的DocTron-Formula 模型突破了对特定结构建模的依赖,采用通用大模型驱动的复杂公式识别方法,仅需简单微调即可适配多样化应用场景。

最后,相比于最优的定制化公式识别模型,该方法不仅在主流的开源评测中取得了优秀的性能表现,在实际应用中常见的页面级、段落级复杂排版场景中也取得了显著优势,推动了公式识别的应用边界。

DocTron 是一个在通用视觉语言模型架构上实现结构化内容解析和理解的开源项目,而无需定制化的模块开发,覆盖通用文档、学科公式、图表代码等场景。

  • 论文标题:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
  • 论文链接:https://arxiv.org/abs/2508.00311
  • Github 链接:https://github.com/DocTron-hub/DocTron-Formula
  • 项目开源地址:https://huggingface.co/DocTron

创新点与技术突破

(1)高难度多结构数据集构建。研究团队自主设计高效的数据采集与处理流程,系统性地从高质量学术资源中收集、清洗并整理了大量多学科的复杂公式样本,构建了 CSFormula 数据集。

该数据集涵盖数学、物理、化学等领域,包含行级、段落级和页面级的复杂排版,更真实地反映了文献中公式的多样性与挑战性,为模型训练与评测提供了坚实基础。

(2)通用大模型驱动的复杂公式识别。研究团队突破了对结构定制和专用架构的依赖,直接利用 Qwen2.5-VL 等通用大规模多模态预训练模型,并通过在高难度数据集上的有监督微调实现领域适配。

实验结果表明,大模型凭借强大的知识迁移和结构泛化能力,仅需简单微调即可在复杂场景下取得 SOTA 性能,无需繁琐的工程设计或人工规则,显著提升了复杂公式识别的通用性和实用性。

实验结果与性能表现

实验结果显示,DocTron-Formula 在各类公开基准测试及自建 LaTeX 公式识别数据集上均表现出色。在编辑距离和 CDM 两个指标下,不仅超越了现有专业工具 Mathpix,在多个任务上也优于 GPT-4o 和 Gemini-2.5-flash 等主流闭源大模型。

研究意义与应用前景

本研究不仅推动了复杂公式识别技术的发展,也为相关领域开辟了新的研究思路:

  • 首次系统构建了覆盖多学科、多结构的大规模高难度数据集 CSFormula,为复杂公式识别的模型训练和评测提供了坚实的数据支撑;
  • 验证了通用大模型(如 Qwen2.5-VL)在复杂公式识别任务中的强大适应性和泛化能力,显著简化了模型开发流程,减少了对专用设计和人工规则的依赖;

在应用层面,DocTron-Formula 有望服务于科学文献解析、学术知识检索和教育资源智能化等多元场景,为科研、教育和信息服务等领域的自动化与智能化提供有力支撑。

结论

DocTron-Formula推动了学科公式理解在行级、段落级、页面级复杂排版场景的应用,强调无需定制化的算法模块,通过高质量数据的构建和通用模型训练,实现开源评测和现实应用评测的全面提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一旦中国同时发射24枚东风41,号称“世界第一”美国,能否拦住呢

一旦中国同时发射24枚东风41,号称“世界第一”美国,能否拦住呢

疯狂的小历史
2026-04-17 11:06:48
场均三双俱乐部,终于迎来第二位会员——约基奇

场均三双俱乐部,终于迎来第二位会员——约基奇

茅塞盾开本尊
2026-04-14 14:15:53
权恩妃,真不是盖的!!这谁忍得住不爱?

权恩妃,真不是盖的!!这谁忍得住不爱?

乡野小珥
2026-04-18 19:10:23
贾浅浅被查,拼爹失败!

贾浅浅被查,拼爹失败!

新浪财经
2026-04-14 15:56:51
奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

奥黛丽赫本人生最后30年:在瑞士小镇一座带花园的漂亮房子里度过

毒舌小红帽
2026-04-17 18:24:06
亲人去世,请假反被辞

亲人去世,请假反被辞

南风窗
2026-04-16 21:45:03
气温回暖,猝死的人越来越多?医生强调:宁睡到中午,也别做5事

气温回暖,猝死的人越来越多?医生强调:宁睡到中午,也别做5事

医学原创故事会
2026-04-14 23:52:04
睡了亲表妹8年,表嫂竟在旁“把关”,撕开了人性最丑陋的一面!

睡了亲表妹8年,表嫂竟在旁“把关”,撕开了人性最丑陋的一面!

樱桃小丸子1987
2026-04-18 14:19:29
四川省副省长徐芝文履新西藏自治区党委常委、宣传部部长

四川省副省长徐芝文履新西藏自治区党委常委、宣传部部长

澎湃新闻
2026-04-18 16:10:27
黄宏现状:住北京普通小区,闲时照顾外孙女,65岁走路需要人搀扶

黄宏现状:住北京普通小区,闲时照顾外孙女,65岁走路需要人搀扶

素衣读史
2026-04-14 18:53:02
完全失控!澳大利亚,突然开始抓黑民!全部驱逐!

完全失控!澳大利亚,突然开始抓黑民!全部驱逐!

澳洲财经见闻
2026-04-18 16:36:08
张雪机车全球订单狂飙,超过5000名客商抢着当代理

张雪机车全球订单狂飙,超过5000名客商抢着当代理

IT之家
2026-04-18 17:16:04
张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

深度报
2026-04-14 22:45:47
百亿豪车巨头破产启示:负债60亿被套牢,浙商大佬也栽了

百亿豪车巨头破产启示:负债60亿被套牢,浙商大佬也栽了

老特有话说
2026-04-18 18:51:53
降雨!降温!江苏气象最新发布

降雨!降温!江苏气象最新发布

现代快报
2026-04-18 17:37:11
美国姑娘远嫁中国,回美国一趟哭了5天,母亲:你以后不要回来了

美国姑娘远嫁中国,回美国一趟哭了5天,母亲:你以后不要回来了

阿裤趣闻君
2026-04-16 21:15:07
全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

橙星文娱
2026-04-18 16:42:58
伊朗军方:因美国“背信弃义”,伊方已恢复对霍尔木兹海峡管控

伊朗军方:因美国“背信弃义”,伊方已恢复对霍尔木兹海峡管控

新民周刊
2026-04-18 19:07:47
外国人扎堆来中国看病:住院3天账单4万美元,被欧美医疗逼疯了!

外国人扎堆来中国看病:住院3天账单4万美元,被欧美医疗逼疯了!

古事寻踪记
2026-04-15 07:21:44
人老了必须明白,晚年什么都可以没有,唯独不能没有这两样东西

人老了必须明白,晚年什么都可以没有,唯独不能没有这两样东西

叮当当科技
2026-04-18 14:17:15
2026-04-18 19:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

《穿普拉达的女王2》疑似辱华?

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

本地
家居
教育
艺术
健康

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

法式线条 时光静淌

教育要闻

解决孩子躺平,妈妈一定要先做出改变!

艺术要闻

17位欧洲画家的18幅风景油画

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版