网易首页 > 网易号 > 正文 申请入驻

华为开源7B多模态模型,视觉定位和OCR能力出色,昇腾端侧新甜点

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

7B量级模型,向来是端侧部署与个人开发者的心头好。

轻量化特性让它能灵活适配各类终端场景,而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。

刚刚,华为重磅推出开源新玩家openPangu-VL-7B,直接瞄准这一核心场景精准发力。

昇腾原生的模型结构,让openPangu-VL-7B的推理性能极具性价比:

720P图像在单张Ascend Atlas 800T A2卡上首字模型推理时延(ViT与LLM模型时延和)仅160毫秒,能够进行5FPS的实时推理;训练阶段的MFU更是达到42.5%

更值得关注的是,模型在预训练阶段完成了3T+tokens的无突刺集群长稳训练,为开发者使用昇腾集群提供了极具价值的实践参考。



openPangu-VL-7B在通用视觉问答、文档图表理解&OCR、视觉定位、短视频理解等核心任务上表现突出,在开源榜单中力压同量级模型,展现出强悍的综合实力。



官方提供的cookbook也展现了模型在这些领域的优异能力。

比如我们给模型一张菜品图,让模型找到一共有多少个樱桃番茄,模型能够点出所有的位置并正确计数。



给模型一张年报截图,模型也能将其转变为markdown格式,省去了人工摘录的痛苦。



除了亮眼的榜单成绩和针对昇腾的训推优化,技术报告中还披露了若干核心技术细节,揭秘模型高性能背后的设计巧思:

1)适配昇腾的高性能视觉编码器



业界传统视觉编码器多针对GPU架构设计,没有充分发挥昇腾硬件优势。

团队通过大量先导实验与性能分析,找到模型结构的最优平衡点——相同参数量下,该视觉编码器在昇腾芯片上的吞吐较使用窗注意力的ViT-H系列编码器提升15%。

同时,采用多标签对比学习框架,让模型具备更优的细粒度理解能力,为后续VLM训练中的视觉定位数据学习筑牢基础。

2)样本均衡的损失设计

为解决不同长度训练样本的学习均衡问题,openPangu-VL-7B创新采用 “加权逐样本损失+逐令牌损失” 的混合训练方案,加权系数由令牌位置和样本重要性动态决定。



这一设计让模型在训练中既能吃透长回复数据,也不忽视短回复信息,避免 “顾此失彼”,消融实验已充分验证其有效性。



3)带填充的定位数据格式

区别于业界主流的0-999定位方案,openPangu-VL-7B采用000-999千分位带填充相对坐标完成视觉定位

整齐的三个token进行位置回归,不仅降低了模型学习难度,更显著提升了格式遵从性,让定位任务的精度和效率同步提升。



此外,技术报告还深入探索了预训练数据配比、位置编码、模型融合等关键策略,为开发者提供了全面的技术细节参考

对于昇腾使用者而言,openPangu-VL-7B 的开源无疑是一大利好。

这款兼具轻量化、高性能与强通用性的多模态模型,既为端侧开发和个人使用提供了新选择,也将进一步丰富昇腾生态的应用场景,为创新注入新动力。

模型链接:
https://ai.gitcode.com/ascend-tribe/openPangu-VL-7B
技术报告:
https://ai.gitcode.com/ascend-tribe/openPangu-VL-7B/blob/main/doc/technical_report.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

法老不说教
2026-06-02 20:50:31
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

来科点谱
2026-02-26 07:22:10
烧掉2.5亿美元,逼着好莱坞巨星天天爬悬崖,诺兰新片到底有多疯

烧掉2.5亿美元,逼着好莱坞巨星天天爬悬崖,诺兰新片到底有多疯

桃桃淘电影
2026-06-04 10:00:24
第6次世界杯之旅!一晃20年:梅西13球1冠1亚 C罗淘汰赛0球

第6次世界杯之旅!一晃20年:梅西13球1冠1亚 C罗淘汰赛0球

叶青足球世界
2026-06-04 05:00:07
人民日报重磅发声:最好的家庭教育,就教孩子这6件事,受益终身

人民日报重磅发声:最好的家庭教育,就教孩子这6件事,受益终身

户外阿毽
2026-06-03 10:40:02
单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

互联网思维
2026-05-29 23:35:13
为什么连非洲一些小国家也出现绑架中国人的情况?

为什么连非洲一些小国家也出现绑架中国人的情况?

律法刑道
2026-06-01 12:23:54
闹大了!独居女拒男维修师傅上门引热议,网友:傅首尔面相有说法

闹大了!独居女拒男维修师傅上门引热议,网友:傅首尔面相有说法

火山詩话
2026-06-04 10:39:47
CBA曝:卢伟打假球,上海队恐追罚,广东后卫欲租借

CBA曝:卢伟打假球,上海队恐追罚,广东后卫欲租借

小皷拍客在北漂
2026-06-03 22:46:43
又焗又湿似蒸笼!广东将开启“下开水”模式

又焗又湿似蒸笼!广东将开启“下开水”模式

南粤女声
2026-06-04 10:40:19
布伦森表现令专家称赞,堪比纽约黑帮

布伦森表现令专家称赞,堪比纽约黑帮

余飩搞笑段子
2026-06-04 12:16:13
丈夫给初恋捐完肾,病床上等妻子喂饭,推开门的却是另一个女人

丈夫给初恋捐完肾,病床上等妻子喂饭,推开门的却是另一个女人

晓艾故事汇
2026-05-30 15:24:02
监狱恋情实锤:他每天打电话说爱她,却还要服刑15年

监狱恋情实锤:他每天打电话说爱她,却还要服刑15年

浅遇时光
2026-06-02 01:48:51
假释出狱一个月,国王特赦令就到了:他信身上到底发生了什么?

假释出狱一个月,国王特赦令就到了:他信身上到底发生了什么?

史行途
2026-06-03 18:08:29
央视《主角》收官:4人零差评,3人出圈翻红,2人被骂惨

央视《主角》收官:4人零差评,3人出圈翻红,2人被骂惨

琴琴有氧运动
2026-06-04 00:29:01
杨瀚森归来后,中国男篮12人基本确定,锋线王俊杰领衔,MVP在列

杨瀚森归来后,中国男篮12人基本确定,锋线王俊杰领衔,MVP在列

顺静自然
2026-06-03 18:22:59
曼联恐被迫降价卖拉什福德!若不能转会巴萨,其将火速归队享顶薪

曼联恐被迫降价卖拉什福德!若不能转会巴萨,其将火速归队享顶薪

罗米的曼联博客
2026-06-04 11:07:26
先植入晶体又取出,眼科医院评估失误致女子两次手术,术后出现多项后遗症;律师说法

先植入晶体又取出,眼科医院评估失误致女子两次手术,术后出现多项后遗症;律师说法

大风新闻
2026-06-04 12:07:04
再见!豆包!!!

再见!豆包!!!

AI深度科技
2026-06-03 10:59:26
2026-06-04 14:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12739文章数 176477关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

又打一“虎” 中央纪委“清理门户”

头条要闻

又打一“虎” 中央纪委“清理门户”

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

奚梦瑶头纱上的古董发卡也是四太的

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

游戏
时尚
旅游
教育
军事航空

《幸福工厂》更新1.2上线 好评开放世界工厂建设

粗腿宽肩,正在成为中女审美新风向

旅游要闻

辽宁43家景区向上海朋友免费开放

教育要闻

毛坦厂中学励志标语,催人奋进!祝考生金榜题名~

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版