网易首页 > 网易科技 > 网易科技 > 正文

华中大刘禹良:数据质量治理必须置于企业AI战略核心

0
分享至

(原标题:华中大刘禹良:数据质量治理必须置于企业AI战略核心)

1月27日,在WPS 365上海AI协同办公峰会上,华中科技大学教授、博士生导师刘禹良介绍,Monkey OCR模型的文档解析性能超越国际大参数模型。据悉,华中科技大学与金山办公联合推出的MonkeyOCR模型,在3B参数规模下斩获中英文文档解析任务的最佳性能;其最新迭代的MonkeyOCR v1.5,更是在国际权威文档解析榜上拿下综合性能全球第一的成绩,超越GPT-4o、Gemini-2.5 Pro等大参数闭源模型。

刘禹良同时强调了非结构化数据治理对于企业级AI应用的必要性。“数据质量治理必须置于企业AI战略的核心。”刘禹良认为,如果有朝一日真正实现通用人工智能,它首先必须要解决的问题是像人一样理解真实世界中的文本。

图为华中科技大学教授、博士生导师刘禹良介绍Monkey大模型

刘禹良关注的文档解析与理解领域,是国家政策导向、全球大模型企业布局的核心赛道,也是人工智能技术的攻坚难点。真实场景中,企业文档常存在结构复杂、黑话、多语言混杂等问题,制约着AI的应用效果。金山办公38年深耕文档领域,在文档格式理解、复杂信息抽取等方面技术积累丰富,成为双方合作的基础。

“在非结构文档数据治理上,Scaling Law(规模化法则 )并不是一定成效的。我们通过实验发现,在一些简单任务上,如果只是把这个参数量不断地往前升,它的性能不但不会带来任何提升,甚至可能导致这个模型推理效率的大幅度下降。”刘禹良介绍。

国际通用多模态大模型依赖海量参数提升泛化能力,非专为文档智能任务设计,缺乏对文字感知的细粒度优化。根据多模态大模型全新评测基准与数据集OCRBench v2的测试结果,揭示现有多模态大模型在复杂化、多样化OCR任务上的准确率不足60%。

Monkey系列聚焦非结构化文档治理,通过自适应图像金字塔切分、循环漂移切分、多任务统一框架等手段,强化复杂文档的解析和理解能力,并在多个国际评测中超过主流模型。此外,华中科技大学团队凭借文档智能赋能甲骨文考释工作,斩获国际计算语言学年会(ACL 2024)最佳论文奖,这是国内高校首次摘得此殊荣。2025年该奖项颁给DeepSeek团队。

在研发过程中,由华中大和金山办公组建的项目团队采取结构优先的思路。刘禹良介绍,Monkey OCR模型开创了文档解析新范式,其核心思想是将文档解析从传统的多模块拼接转向更统一的框架,将非结构化文档解析抽象成三个核心业务:结构、识别、关系。结构就是识别任何文档的段落、图片、标题,关系就是解析需要像人一样有阅读顺序,最后在结构约束下完成内容识别,建立元素之间的对应关系。

在MonkeyOCR v1.5的研发上,金山办公作为主导单位,引入视觉一致性强化学习优化对复杂表格的理解。该模型支持表格内嵌图片还原、跨页表格合并等功能,是首个能够在这个复杂表格场景实现精度超越90%的模型。未来,双方将继续深化合作,计划推出史上最大的多语言文档解析数据集、OCR视觉基座模型,让模型甚至能够在CPU上运行,执行任务又快又准。

人工智能迈入千行百业,非结构化文档的数据治理是决定人类知识能否被持续转化为机器智能的关键。对于企业而言,内部散落的非结构化数据的收集和治理则是保障AI进入企业取得成效的关键。唯有将企业知识充分盘活,才能真正转化为驱动业务的生产力。

除了双方联合开发文档模型强化对复杂文档的解析能力,金山办公此次推出一站式AI协同办公平台WPS 365,还为企业提供从数据归集、智能解析、知识治理到场景应用的全链路解决方案,为企业构建全域知识基座。

针对文档解析和治理难的痛点,金山办公创新性提出知识增强生成(Knowledge-Augmented Generation)架构。与传统的检索增强生成(Retrieval-Augmented Generation)仅让大模型“看到”文档不同,KAG架构融合多模态、多结构的知识资产,让大模型“掌握”企业知识的内在逻辑与关联,真正强化企业知识的应用能力。

相关推荐
热点推荐
CBA最新排名出炉!广厦杀回第一,山东升至第4,辽宁新疆全部翻车

CBA最新排名出炉!广厦杀回第一,山东升至第4,辽宁新疆全部翻车

老叶评球
2026-01-29 22:33:28
中国为何要在老山打轮战?越南少将:太致命,直接把越南推入绝境

中国为何要在老山打轮战?越南少将:太致命,直接把越南推入绝境

浩渺青史
2026-01-29 19:34:23
天津小伙接29岁离婚表嫂同居后续:表嫂正脸照流出曝更多离婚内幕

天津小伙接29岁离婚表嫂同居后续:表嫂正脸照流出曝更多离婚内幕

削桐作琴
2026-01-28 18:17:22
小米17 Pro Max DXO影像成绩出炉 159分 全球第13名 拍照优秀

小米17 Pro Max DXO影像成绩出炉 159分 全球第13名 拍照优秀

快科技
2026-01-30 00:33:06
湖人惨败骑士,41岁詹姆斯却再铸NBA传奇!

湖人惨败骑士,41岁詹姆斯却再铸NBA传奇!

问书君
2026-01-30 00:35:06
深夜利好!86股业绩大超预期,商业航天龙头暴增498%

深夜利好!86股业绩大超预期,商业航天龙头暴增498%

风风顺
2026-01-29 02:00:03
1958年,23岁的伊拉克国王费萨尔二世被处决,他的双脚被砍掉

1958年,23岁的伊拉克国王费萨尔二世被处决,他的双脚被砍掉

忠于法纪
2026-01-27 08:55:32
董卿父亲董善祥:我这辈子最后悔的事,就是让宝贝女儿嫁给密春雷

董卿父亲董善祥:我这辈子最后悔的事,就是让宝贝女儿嫁给密春雷

时光在作祟
2026-01-29 19:58:49
碰见中国人就打?这个国家有多讨厌中国人,为何我们还要去旅游?

碰见中国人就打?这个国家有多讨厌中国人,为何我们还要去旅游?

阿器谈史
2026-01-28 07:09:55
突发,58个化工龙头利润暴增,34家增幅超100%,这个龙头增长1001%!

突发,58个化工龙头利润暴增,34家增幅超100%,这个龙头增长1001%!

股市皆大事
2026-01-29 08:34:14
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
哥伦比亚总统候选人等,坠机遇难

哥伦比亚总统候选人等,坠机遇难

南方都市报
2026-01-29 09:31:59
官方:恒大旧将张奥凯等5名球员与中冠榆林漠北矿工续约

官方:恒大旧将张奥凯等5名球员与中冠榆林漠北矿工续约

懂球帝
2026-01-29 18:52:58
每小时亏2.5万!桃李面包每天销毁60万个,28年帝国为何崩塌?

每小时亏2.5万!桃李面包每天销毁60万个,28年帝国为何崩塌?

现代小青青慕慕
2026-01-20 10:26:47
“杰我睿”提现难风波持续发酵,记者走访线下,大门紧闭

“杰我睿”提现难风波持续发酵,记者走访线下,大门紧闭

南方都市报
2026-01-29 17:54:26
武汉某规划院设计师因剪辑H片,获刑八年半!

武汉某规划院设计师因剪辑H片,获刑八年半!

黯泉
2026-01-29 22:41:30
为什么江苏省缴费41年多,退休养老金还不足4000元?一起了解下

为什么江苏省缴费41年多,退休养老金还不足4000元?一起了解下

暖心人社
2026-01-28 21:43:48
卢卡库离场时,切尔西球迷对其高唱“你这个死肥仔”

卢卡库离场时,切尔西球迷对其高唱“你这个死肥仔”

懂球帝
2026-01-29 06:32:19
iPhone16 Pro国补后跌破5000元,iPhone Air直降近3000元

iPhone16 Pro国补后跌破5000元,iPhone Air直降近3000元

鲁中晨报
2026-01-29 21:23:04
成飞释放明确信号:歼-20战斗机已停产,歼-20A已开始大规模量产

成飞释放明确信号:歼-20战斗机已停产,歼-20A已开始大规模量产

阿龙聊军事
2026-01-28 20:55:23
2026-01-30 01:48:49

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

亲子
家居
时尚
旅游
数码

亲子要闻

杭州30岁宝妈,吞下整瓶安眠药,不为别的,不想再教孩子写作业了

家居要闻

极简轻奢 家的无限可能

她穿一身大红参加葬礼,浪漫又感人?真是活久见哪

旅游要闻

外滩光影里的石库门:上海把百年文脉织进了新春夜色!

数码要闻

1999 REDMI Turbo5系列开箱测试,9000mAh大电池 一步MAX!

无障碍浏览 进入关怀版
×