网易首页 > 网易号 > 正文 申请入驻

科研写作神器,超越Mathpix的科学公式提取工具已开源

0
分享至

LaTeX公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:

其一,主流方法及公开数据集多聚焦于结构简单、符号单一的公式,难以覆盖多学科、高难度的复杂公式;其二,实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理;其三,大多数方法依赖专用模型,通常需要针对特定任务进行专门设计,难以实现通用性和扩展性。

针对上述挑战,DocTron 团队提出了系统性解决方案。

首先,针对现有数据集覆盖面有限、结构单一的问题,构建了涵盖多学科、多结构的大规模高难度数据集CSFormula,包含行级、段落级和页面级的复杂排版。

其次,团队提出的DocTron-Formula 模型突破了对特定结构建模的依赖,采用通用大模型驱动的复杂公式识别方法,仅需简单微调即可适配多样化应用场景。

最后,相比于最优的定制化公式识别模型,该方法不仅在主流的开源评测中取得了优秀的性能表现,在实际应用中常见的页面级、段落级复杂排版场景中也取得了显著优势,推动了公式识别的应用边界。

DocTron 是一个在通用视觉语言模型架构上实现结构化内容解析和理解的开源项目,而无需定制化的模块开发,覆盖通用文档、学科公式、图表代码等场景。

  • 论文标题:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
  • 论文链接:https://arxiv.org/abs/2508.00311
  • Github 链接:https://github.com/DocTron-hub/DocTron-Formula
  • 项目开源地址:https://huggingface.co/DocTron

创新点与技术突破

(1)高难度多结构数据集构建。研究团队自主设计高效的数据采集与处理流程,系统性地从高质量学术资源中收集、清洗并整理了大量多学科的复杂公式样本,构建了 CSFormula 数据集。

该数据集涵盖数学、物理、化学等领域,包含行级、段落级和页面级的复杂排版,更真实地反映了文献中公式的多样性与挑战性,为模型训练与评测提供了坚实基础。

(2)通用大模型驱动的复杂公式识别。研究团队突破了对结构定制和专用架构的依赖,直接利用 Qwen2.5-VL 等通用大规模多模态预训练模型,并通过在高难度数据集上的有监督微调实现领域适配。

实验结果表明,大模型凭借强大的知识迁移和结构泛化能力,仅需简单微调即可在复杂场景下取得 SOTA 性能,无需繁琐的工程设计或人工规则,显著提升了复杂公式识别的通用性和实用性。

实验结果与性能表现

实验结果显示,DocTron-Formula 在各类公开基准测试及自建 LaTeX 公式识别数据集上均表现出色。在编辑距离和 CDM 两个指标下,不仅超越了现有专业工具 Mathpix,在多个任务上也优于 GPT-4o 和 Gemini-2.5-flash 等主流闭源大模型。

研究意义与应用前景

本研究不仅推动了复杂公式识别技术的发展,也为相关领域开辟了新的研究思路:

  • 首次系统构建了覆盖多学科、多结构的大规模高难度数据集 CSFormula,为复杂公式识别的模型训练和评测提供了坚实的数据支撑;
  • 验证了通用大模型(如 Qwen2.5-VL)在复杂公式识别任务中的强大适应性和泛化能力,显著简化了模型开发流程,减少了对专用设计和人工规则的依赖;

在应用层面,DocTron-Formula 有望服务于科学文献解析、学术知识检索和教育资源智能化等多元场景,为科研、教育和信息服务等领域的自动化与智能化提供有力支撑。

结论

DocTron-Formula推动了学科公式理解在行级、段落级、页面级复杂排版场景的应用,强调无需定制化的算法模块,通过高质量数据的构建和通用模型训练,实现开源评测和现实应用评测的全面提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内卷彻底失控!广东超41万考生过本科线,大家扎堆不愿出省。

内卷彻底失控!广东超41万考生过本科线,大家扎堆不愿出省。

放开他让wo来
2026-06-27 23:00:29
余承东:全新一代问界M9上市1个月大定破42000台

余承东:全新一代问界M9上市1个月大定破42000台

快科技
2026-06-27 18:31:12
第一次和女友同居:女生人前的精致都是假象,私下的反差才最走心

第一次和女友同居:女生人前的精致都是假象,私下的反差才最走心

阿凯销售场
2026-06-28 20:17:58
阿根廷将帅谈佛得角队:难缠、强大……

阿根廷将帅谈佛得角队:难缠、强大……

澎湃新闻
2026-06-28 17:44:16
弗格一家近照,5年4座CBA冠军,最成功外援,娇妻颜值身材俱佳

弗格一家近照,5年4座CBA冠军,最成功外援,娇妻颜值身材俱佳

大西体育
2026-06-28 15:47:18
当着34国的面,中巴爆发正面交锋!美国的野心这下全藏不住了

当着34国的面,中巴爆发正面交锋!美国的野心这下全藏不住了

林子说事
2026-06-28 19:40:37
俄乌战争打了4年多,中国终于明白:统一台湾前,这3种人必铲除

俄乌战争打了4年多,中国终于明白:统一台湾前,这3种人必铲除

谭麤爱搞笑
2026-06-07 09:21:42
莫兹戈夫:我很想参加16年夺冠重聚 但压根没人邀请我

莫兹戈夫:我很想参加16年夺冠重聚 但压根没人邀请我

北青网-北京青年报
2026-06-28 20:06:06
记者:拉菲尼亚不随巴西队出战日本,他将留下来接受治疗

记者:拉菲尼亚不随巴西队出战日本,他将留下来接受治疗

懂球帝
2026-06-28 00:22:45
存款20万以上的家庭要注意了,明年开始,将不可避免面临3麻烦

存款20万以上的家庭要注意了,明年开始,将不可避免面临3麻烦

天启谈古说今
2026-06-28 05:52:38
32强全部落位,单场淘汰的炼狱开启——2026世界杯1/16决赛大扫描

32强全部落位,单场淘汰的炼狱开启——2026世界杯1/16决赛大扫描

海右那人
2026-06-28 13:40:00
奉劝大家:最近如果没什么事,千万别出门。

奉劝大家:最近如果没什么事,千万别出门。

老陆不老
2026-06-27 08:54:42
涉嫌严重违纪违法,贺志亮被查

涉嫌严重违纪违法,贺志亮被查

湖南法治报
2026-06-28 18:20:42
2026世界杯1-16决赛赛程时间表及对阵图高清完整版

2026世界杯1-16决赛赛程时间表及对阵图高清完整版

格斗联盟王大锤
2026-06-28 18:05:57
广东一大学禁止小米汽车入校!

广东一大学禁止小米汽车入校!

电动知家
2026-06-28 17:28:18
“一天一个价”!有网友晒单:去年不到7千,今年1.2万了

“一天一个价”!有网友晒单:去年不到7千,今年1.2万了

中国经济网
2026-06-26 15:53:04
林彪与部分军地领导谈话实录

林彪与部分军地领导谈话实录

新大观
2026-06-27 12:25:07
Nice!斯玛特!火箭,爽了!

Nice!斯玛特!火箭,爽了!

技巧君侃球
2026-06-27 23:42:22
未来五年贬值最快的5大资产!富人们都在抛,你还在买……

未来五年贬值最快的5大资产!富人们都在抛,你还在买……

毯叔盘钱
2026-06-28 09:13:59
白玉兰奖炸出“牛鬼蛇神”,孙俪吴越成众矢之的,荒唐的一幕发生

白玉兰奖炸出“牛鬼蛇神”,孙俪吴越成众矢之的,荒唐的一幕发生

晓岇就是我
2026-06-27 20:03:47
2026-06-28 20:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13379文章数 142681关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

男子控诉妻子要求令人崩溃吵架无果:每周末是我的噩梦

头条要闻

男子控诉妻子要求令人崩溃吵架无果:每周末是我的噩梦

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

时尚
游戏
本地
房产
军事航空

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

曝失眠组《漫威:毒液》明年发售!今年9月或将亮相

本地新闻

世界杯球迷节:比球赛更好玩的派对

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

军事要闻

特朗普又发文威胁:伊朗将不复存在

无障碍浏览 进入关怀版