网易首页 > 网易号 > 正文 申请入驻

3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o

0
分享至

智东西6月23日报道,月之暗面今日开源多模态模型Kimi-VL-A3B-Thinking-2506,这是其首个开源多模态推理模型Kimi-VL-A3B-Thinking发布两个月后的更新版本,可凭借2.8B激活参数(16B总参数)在多项测评中超越GPT-4o、Qwen2.5-VL-7B等模型。

▲Hugging Face截图

开源地址:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506

与之前的版本相比,2506版本提供了多项全新或改进的功能:

1、它在消耗更少tokens的同时思考得更聪明:2506版本在多模态推理基准上达到了更好的准确率:MathVision上得分为56.9(+20.1),MathVista上为80.1(+8.4),MMMU-Pro上为46.3(+3.2),MMMU上为64.0(+2.1),而平均需要减少20%的思考长度。

2、思考过程更清楚可见:与之前的思考版本不同,2506版本在一般的视觉感知和理解上也能达到相同甚至更好的能力,例如MMBench-EN-v1.1(84.4)、MMStar(70.4)、RealWorldQA(70.0)、MMVet(78.4),超越或匹配其非思考模型(Kimi-VL-A3B-Instruct)的能力。

3、扩展至视频场景:2506版本在视频推理和理解基准方面也有显著提升。它在VideoMMMU上为开源模型刷新记录(65.2),同时在通用视频理解方面也保持了良好的性能,在Video-MME上达到71.9,与Kimi-VL-A3B-Instruct相当。

4、分辨率进一步提升:2506版本支持单张图像320万像素(1792×1792),比上一版本提升了4倍。这在高分辨率感知和OS-agent基准测试中带来了显著提升:在V* Benchmark(未使用额外工具)上得分为83.2,在ScreenSpot-Pro上得分为52.8,在OSWorld-G上得分为52.5。

具体来看,与业界顶尖模型和Kimi-VL的两个先前版本的比较,2506版本测试性能明显提升:

在通用多模态方面,2506版本在MMBench-EN-v1.1(Acc)、OCRBench(Acc)、MMStar(Acc)、MMVet(Acc)多项测评的得分超过OpenAI的GPT-4o。

在推理能力方面,2506版本在MMMU(val,Pass@1)、MMMU-Pro(Pass@1)上的测试成绩超过Qwen2.5-VL-7B、Gemma3-12B-IT,不如GPT-4o,但差距有所缩小。

在数学能力方面,2506版本在MATH-Vision(Pass@1)、MathVista_MINI(Pass@1)中得分大超GPT-4o。

在视频能力方面,2506版本在VideoMMMU(Pass@1)、MMVU(Pass@1)、Video-MME(w/sub.)多项测评中超过Qwen2.5-VL-7B、Gemma3-12B-IT,与GPT-4o的差距缩小。

在Agent落地方面,2506版本在ScreenSpot-Pro(Acc)、ScreenSpot-V2(Acc)、OSWorld-G(Acc)测试中得分都超越Qwen2.5-VL-7B。

在长文本方面,2506版本在MMLongBench-DOC(Acc)测试中超越Qwen2.5-VL-7B,与GPT-4o接近。

如下图所示,与30-70B的开源模型对比,2506版本的大部分测试已经超越Qwen2.5-VL-32B、Gemma3-27B-IT,看齐Qwen2.5-VL-72B。

来源:Hugging Face

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朝鲜第十五届最高人民会议人事安排全名单

朝鲜第十五届最高人民会议人事安排全名单

阿离家居
2026-03-23 15:57:40
高市刚回日本,不到24小时,日外相宣布两件大事,一件是出兵中东

高市刚回日本,不到24小时,日外相宣布两件大事,一件是出兵中东

策略述
2026-03-23 13:22:26
库明加爆发!老鹰146-107大胜灰熊,沃克26+2+6,麦科勒姆15+4+9

库明加爆发!老鹰146-107大胜灰熊,沃克26+2+6,麦科勒姆15+4+9

谈史论天地
2026-03-24 10:22:22
8岁男孩确诊结肠癌:他吃的不是零食,是命

8岁男孩确诊结肠癌:他吃的不是零食,是命

消化石医生
2026-02-27 07:02:22
深圳市市长覃伟中会见中国石油化工集团董事长侯启军一行

深圳市市长覃伟中会见中国石油化工集团董事长侯启军一行

证券时报
2026-03-24 09:14:08
脑机接口板块短线拉升,塞力医疗涨停

脑机接口板块短线拉升,塞力医疗涨停

每日经济新闻
2026-03-24 10:15:35
一个长期缺爱的女人,会有的表现:两个字

一个长期缺爱的女人,会有的表现:两个字

张小楠说情感
2026-03-24 10:46:57
中印边境冲突,从一些小事上就可以看出我军将士的整体战备素质

中印边境冲突,从一些小事上就可以看出我军将士的整体战备素质

安安说
2026-03-24 11:33:24
涨价潮下的豪赌:OPPO与vivo的“作死”之路

涨价潮下的豪赌:OPPO与vivo的“作死”之路

辉哥说动漫
2026-03-24 08:52:39
中国不记隔夜仇!才23天巴拿马港口就瘫了,总统直呼请中方放过

中国不记隔夜仇!才23天巴拿马港口就瘫了,总统直呼请中方放过

丁丁鲤史纪
2026-03-23 11:07:18
韩国学者:韩国社会长期歧视中国朝鲜族,他们也越来越讨厌韩国

韩国学者:韩国社会长期歧视中国朝鲜族,他们也越来越讨厌韩国

丞丞故事汇
2026-03-23 16:47:33
《红色沙漠》承认使用AI!滑跪致歉:将全部替换

《红色沙漠》承认使用AI!滑跪致歉:将全部替换

3DM游戏
2026-03-23 09:32:03
台当局紧张坏了,大陆对台湾同胞做出一项公开承诺!赖清德慌了神

台当局紧张坏了,大陆对台湾同胞做出一项公开承诺!赖清德慌了神

朝子亥
2026-03-24 12:35:03
中方3路人马刚回国,越南官员就喊反对,外交部回敬2句话

中方3路人马刚回国,越南官员就喊反对,外交部回敬2句话

墨羽怪谈
2026-03-24 11:02:02
再输一场即成历史罪人?加图索携意大利背水一战,剑指2026世界杯

再输一场即成历史罪人?加图索携意大利背水一战,剑指2026世界杯

星耀国际足坛
2026-03-24 12:51:24
云南女孩爱上美国小伙,相识2个月就闪婚,婚后1年就拿到美国绿卡

云南女孩爱上美国小伙,相识2个月就闪婚,婚后1年就拿到美国绿卡

科普100克克
2026-03-24 01:16:57
伊朗怂了几十年,为何这次突然行了呢?你可能想不到

伊朗怂了几十年,为何这次突然行了呢?你可能想不到

农夫史记
2026-03-15 20:45:22
妈妈趁金价下跌花10万给女儿买金首饰:以前300多元克价没买后悔死了,现在跌了过来买一点

妈妈趁金价下跌花10万给女儿买金首饰:以前300多元克价没买后悔死了,现在跌了过来买一点

大象新闻
2026-03-23 23:45:17
吉莱斯皮将刷新太阳队史单赛季三分纪录 格林:我是他的铁杆球迷

吉莱斯皮将刷新太阳队史单赛季三分纪录 格林:我是他的铁杆球迷

北青网-北京青年报
2026-03-23 20:25:05
雷军回应60加60争议:口误多讲了一句,“相当于120km/h时速撞墙”,确实说错了,感谢网友们指正

雷军回应60加60争议:口误多讲了一句,“相当于120km/h时速撞墙”,确实说错了,感谢网友们指正

扬子晚报
2026-03-21 13:16:42
2026-03-24 13:07:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11415文章数 117012关注度
往期回顾 全部

科技要闻

苹果WWDC26全球开发者大会官宣6月9日开幕

头条要闻

美分析师:在伊朗打地面战相当于把美士兵送入人间地狱

头条要闻

美分析师:在伊朗打地面战相当于把美士兵送入人间地狱

体育要闻

客场大胜+火箭输球,马刺提前锁定本赛季西南赛区冠军

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

我行我素的豪华 全新一代雷克萨斯更犀利了

态度原创

数码
时尚
教育
家居
手机

数码要闻

《红色沙漠》拒认Intel显卡:遭玩家怒喷后火速滑跪!

今年春天的“顶流单品”竟然是它,全世界的时髦女人都在穿

教育要闻

北科大考研复试Tips——从容赴考,不负韶华

家居要闻

智慧生活 奢享家居

手机要闻

苹果WWDC26前瞻:iOS 27聚焦功能完善与性能提升,Siri聊天机器人将亮相

无障碍浏览 进入关怀版