网易首页 > 网易号 > 正文 申请入驻

GitHub 6万星标,MinerU如何从拼凑工具到数据引擎?

0
分享至

6月26日到27日,上海要办一场AICon全球人工智能开发与应用大会,50多位来自腾讯、阿里、华为、飞猪等一线企业的技术负责人和研究专家会一起死磕 Agent 落地的真问题:世界模型的下一次突破卡在哪里?原型玩得花,一进产线就崩,工程化到底差什么?研发体系不跟着重构,还能扛多久?就是在这种焦灼的背景里,上海人工智能实验室的青年科学家何聪辉确认会站在“人工智能前沿技术探索”专题的讲台上,公开 MinerU 从传统 OCR 一路冲到纯数据驱动范式的那条满是坑的演进路径。

你可能会觉得,文档解析不就是跑一遍 OCR,把图片变成文字?这想法天真得就像以为写完代码就不用调 bug。真正往大模型预训练或者 RAG 系统里塞过文档数据的人都清楚,公式、表格、阅读顺序、多栏布局,随便哪一个都能把数据工程师的耐心磨光。而 MinerU 的每一次重构,都是在跟这三个“硬骨头”死磕。整个演讲会直接把这套开源基础设施的里程碑拆成五层来看,那种从拼凑工具库到“数据为王”的转变,不是拍脑袋出来的,是打怪打出来的。


第一层,先看文档解析凭什么成了 AI 的“入场券”。LLM 预训练在吃掉海量高质量知识这件事上胃口越来越大,RAG 系统又催生出对精准检索的刚性需求,可现实是,大批 PDF、扫描件里的结构化信息根本喂不进去,不被清洗成干净可用的数据就等于不存在。何聪辉会把这个战场放到 OmniDocBench 时代的百家争鸣里去定位 MinerU,解释为什么在架构趋同之后,胜负手不在模型层,而在于谁能更快拿到经过高质量解析的文档数据。换句话说,不是模型赢了,是数据赢了。

第二层,硬核的技术进化史,三个版本踩过的坑一个没藏。最早的 MinerU v1 走 pipeline 路子,核心就靠 UniMERNet 搞定公式识别,靠 DocLayout-YOLO 吃下复杂布局检测,整条流水线被拆成预处理、解析、后处理、格式转换四步,听起来规矩,但工程落地时各种组件之间的衔接就是地狱。到了 MinerU 2.5 时,团队直接把架构拆成解耦式的多模态方案——低分辨率先摸清整体布局,高分辨率再细看具体内容,端到端模型那种 O(N²) 的 token 复杂度才被真正按下去。最新的 MinerU 2.5-Pro 更狠,在参数规模完全不变的情况下,整体评分从 92.98 拔高到 95.69,只靠数据质量的重新提纯就做到了同规模下的性能飞跃,这才是“数据驱动”最不讲武德的地方。

第三层,专门剥开那三座压在所有文档解析项目上的大山。公式识别里,UniMERNet 背后的百万级数据集和 CDM 视觉评测指标,直接让公式不再是“最难懂的乱码”。布局检测那边,一套统一了 21 类细粒度标签的体系配合 PageIoU 评估,把以前靠拍脑袋调的参数变成了可衡量的工程指标。表格这老大难,OTSL 压缩格式把 28 个 token 压到只剩 5 个,同时用旋转矫正的流水线对抗歪歪扭扭的扫描件。这些不是论文里的花活,是任何一个想搭 RAG 管线的人都会撞上的生产事故。

第四层,MinerU 2.5-Pro 里藏着的“数据炼金术”其实是一套闭环的大规模数据工程。多样性感知采样根据视觉特征聚类和难度自动挑出值得标注的样本,跨模型一致性验证让异构模型交叉打分,精准定位每一个模型的短板,标注环节再靠 Judge-and-Refine 自动校正加上定向专家标注,把训练数据的质量和分布控得死死的。这三步组成的协同数据引擎,是 Pro 版从拼凑工具箱变成数据工厂的真正内核。

第五层,文档解析的未来方向已经从“全量扫读”转向“智能点读”。何聪辉会透露 AgenticOCR 按需动态解析的思路,不再把整篇 PDF 暴力拆解,而是像人一样有目的性地只看需要的那一段。更让人坐不住的是 MinerU-Diffusion,基于扩散模型的非自回归解码路径,实测推理速度提升了 3.26 倍。这对那些一天要处理几十万份文档的生产系统来说,直接就是成本换算。

别以为这是纯粹的学术炫技。现场听众能直接拿到一套可落地的 RAG 数据清洗管线参考,包括怎么啃公式、表格、阅读顺序这些硬骨头;还能从 MinerU 的演变里看出一条所有垂直场景都在走的路——从东拼西凑的工具库走向垂直多模态大模型,最后归于数据质量和分布的数量级竞争。Google、华为、阿里等百家企业已经在产线里用了这套工具,GitHub 上标的 6 万颗星和超过 10 亿次的调用量,说明写代码的苦活和发 CVPR 的理论突破被拧在了同一根轴上,而何聪辉团队做的评测基准甚至成了 OpenAI GPT-5 和 Google Gemini 3 唯一采用的中国团队成果。

除此之外,这次 AICon 上海站还压了端侧 AI、世界模型与多模态智能突破、Agent 架构与工程化实践、企业级研发体系重构等 14 个专题论坛,超过 50 位资深专家不会只讲概念,而是把 Agent 从原型上到量产的整个链路剖开示人。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现了没?网吧数量反弹到12万,营收破1000亿,评论区全是真相!

发现了没?网吧数量反弹到12万,营收破1000亿,评论区全是真相!

谭谈社会
2026-05-30 14:10:29
不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

坠入二次元的海洋
2026-06-01 21:27:00
突发!美以船只遭伊朗巡航导弹命中,剧烈爆炸!全面战争一触即发

突发!美以船只遭伊朗巡航导弹命中,剧烈爆炸!全面战争一触即发

听心堂
2026-06-02 09:55:35
著名音乐家姚峰:女儿姚贝娜病逝11年,他至今还为自己的失误懊悔

著名音乐家姚峰:女儿姚贝娜病逝11年,他至今还为自己的失误懊悔

悄悄史话
2026-06-02 10:10:57
新加坡防长写打油诗总结"香会" 现场用中文朗读

新加坡防长写打油诗总结"香会" 现场用中文朗读

看看新闻Knews
2026-05-31 18:36:09
凌晨12点半,ICE突袭华人海鲜酒楼!16人被带走,背后竟牵出更大案件

凌晨12点半,ICE突袭华人海鲜酒楼!16人被带走,背后竟牵出更大案件

华人生活网
2026-06-02 02:51:37
杉杉内斗两败俱伤后,家被安徽国资用70亿“抄”了

杉杉内斗两败俱伤后,家被安徽国资用70亿“抄”了

毒sir财经
2026-06-01 23:15:56
为何蒙古国不治沙?美国专家认为:植树治沙弊大于利,是真是假?

为何蒙古国不治沙?美国专家认为:植树治沙弊大于利,是真是假?

抽象派大师
2026-05-31 00:29:43
情况大变!大陆“围岛”警告后,蒋万安支持率飙升,他反对统一?

情况大变!大陆“围岛”警告后,蒋万安支持率飙升,他反对统一?

带你领略快乐真谛
2026-06-01 20:18:27
毛主席深夜正办公时,王震猛地闯进来,毛主席:你这是要干什么?

毛主席深夜正办公时,王震猛地闯进来,毛主席:你这是要干什么?

翠羽
2026-06-02 13:00:12
李善长被处死时已年近80,每天耕地种田,朱元璋为何非要斩他满门

李善长被处死时已年近80,每天耕地种田,朱元璋为何非要斩他满门

千秋文化
2025-12-27 21:50:26
日媒:小泉当众批评中方“荒谬”,认为中方没资格指责日本

日媒:小泉当众批评中方“荒谬”,认为中方没资格指责日本

阿郎娱乐
2026-06-02 11:29:42
98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

小正说娱乐
2026-05-31 11:33:33
皇马大选还没结束,转会市场先炸了!多位顶级球星主动示好伯纳乌

皇马大选还没结束,转会市场先炸了!多位顶级球星主动示好伯纳乌

万花筒体育球球
2026-06-01 17:45:19
风向大变!大陆反“独”公布,郑丽文对美称呼变了,她反对统一?

风向大变!大陆反“独”公布,郑丽文对美称呼变了,她反对统一?

史鹷的生活科普
2026-06-02 11:14:43
全体致敬!37 岁窦骁高调官宣喜讯,“豪门赘婿” 已经彻底成过去

全体致敬!37 岁窦骁高调官宣喜讯,“豪门赘婿” 已经彻底成过去

阿裤趣闻君
2026-06-02 11:18:17
太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

火山詩话
2026-05-30 17:59:42
千亿龙头开盘涨停后跌超2%,刚公告再签百亿算力大单

千亿龙头开盘涨停后跌超2%,刚公告再签百亿算力大单

21世纪经济报道
2026-06-02 10:17:04
周六打虎!任上落马的正部级“老虎”,辞去职务

周六打虎!任上落马的正部级“老虎”,辞去职务

上观新闻
2026-06-01 12:44:24
25万亿!国家启动史无前例超级大基建,信号强烈

25万亿!国家启动史无前例超级大基建,信号强烈

前瞻网
2026-06-02 10:49:44
2026-06-02 13:35:00
码上闲叙
码上闲叙
有态度网友ytd
5709文章数 58关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

头条要闻

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
教育
数码
健康
公开课

本地新闻

用剪纸的方式,打开江苏扬州

教育要闻

51 名师专访 — 暴一凡【执绘笔筑热爱 以美育伴同行】

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

干细胞临床研究向患者收费?别踩坑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版