网易首页 > 网易号 > 正文 申请入驻

商汤开源 SenseNova-MARS 8B/32B,自主解决复杂任务,超 Gemini-3-Pro

0
分享至

今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。

SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型,它能自己规划步骤、调用工具,轻松搞定各种复杂任务,让AI真正具备“执行能力”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的 SOTA 成绩,还超越Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大核心领域全面领跑。更多细节请参见技术报告(https://arxiv.org/abs/2512.24330),欢迎开发者、各行业用户测试与体验。

全能冠军,自主解决复杂问题

SenseNova-MARS在多项多模态搜索评测中展现出明显的领先优势,平均得分达到 69.74 分,成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。


在 MMSearch 榜单(图文搜索核心评测)中,模型以 74.27 分登顶,超GPT-5.2(66.08 分);HR-MMSearch(高清细节搜索评测)中以54.43 分领先,显著拉开与闭源模型的差距。


HR-MMSearch的测试题目堪称“AI界的奥林匹克”:采用305张2025年最新的4K超高清图片,确保AI无法依赖旧知识“作弊”;所有问题都针对图片中占比不到5%的细节,比如小标志、小字、微小物体,必须用图像裁剪工具才能看清;覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域,60%的问题都需要至少使用三种工具才能解答。

简单说,无论是需要“查遍全网”的知识密集型任务,还是需要“火眼金睛”的细粒度视觉分析,它都是当前的“全能冠军”。

用组合拳,解决真实场景问题

SenseNova-MARS还能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。

普通AI的工具调用,要么只能搜文字,要么只能看图片,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务就束手无策。


面对识别赛车服微小 Logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值’的复杂任务,SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具,无需人工干预完成闭环解答。


SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。


SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。


SenseNova-MARS甚至能够轻松处理,这类超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。

拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,帮助实现工作效率提升。

  • 图像裁剪:能精准聚焦图片上的微小细节,哪怕是占比不到5%的细节——比如赛车手衣服上的微小Logo、赛事照片里观众席的标语,都可通过裁剪放大清晰分析。
  • 图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。
  • 文本搜索:能快速抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据,都能秒级获取。

从练中学, 形成"直觉"和"经验"

SenseNova-MARS采用了“因材施教”的训练方法。

  • 第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,创新性的提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。用精心筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。
  • 第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。 这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。

经过这样的训练,AI不仅学会了用工具,更培养"工具使用直觉"——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。

模型、代码、数据全开源

商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持 Hugging Face 直接下载。

Github 仓库:

https://github.com/OpenSenseNova/SenseNova-MARS

模型仓库:

32B:

https://huggingface.co/sensenova/SenseNova-MARS-32B

8B

https://huggingface.co/sensenova/SenseNova-MARS-8B

技术报告:

https://arxiv.org/abs/2512.24330

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1951年,饿了3天的志愿军爬上美军阵地,却发现上面一个人都没有

1951年,饿了3天的志愿军爬上美军阵地,却发现上面一个人都没有

兴趣知识
2026-04-16 18:59:42
定了!6月1日起,私家车跑顺风车合法,无需双证还保险全赔

定了!6月1日起,私家车跑顺风车合法,无需双证还保险全赔

老特有话说
2026-04-28 14:15:08
东方甄选YOYO评论区沦陷,拒绝跟风石明裸辞,保住高薪工作才精明

东方甄选YOYO评论区沦陷,拒绝跟风石明裸辞,保住高薪工作才精明

小徐讲八卦
2026-04-29 06:03:38
蔡一杰脑癌已扩散,仍坚持草蜢40周年演唱会,众多大牌明星来捧场

蔡一杰脑癌已扩散,仍坚持草蜢40周年演唱会,众多大牌明星来捧场

揽星河的笔记
2026-04-27 15:12:26
俞敏洪主播集体辞职越扒越有,董宇辉意外遭殃,其实顿顿早有提醒

俞敏洪主播集体辞职越扒越有,董宇辉意外遭殃,其实顿顿早有提醒

揽星河的笔记
2026-04-28 14:23:37
奥沙利文不介意沙特撤资,透露商业机密:我打球必须额外有出场费

奥沙利文不介意沙特撤资,透露商业机密:我打球必须额外有出场费

杨华评论
2026-04-28 21:06:25
19岁男孩喝百草枯苦熬18天,逼在外打工母亲回家,母亲:你放心去

19岁男孩喝百草枯苦熬18天,逼在外打工母亲回家,母亲:你放心去

哄动一时啊
2026-03-15 11:29:43
南朝第一才子,被公开处决了

南朝第一才子,被公开处决了

最爱历史
2026-04-29 15:36:43
CBA传奇外援哈德森:辽宁队史功勋,晚年却惨遭老东家舍弃

CBA传奇外援哈德森:辽宁队史功勋,晚年却惨遭老东家舍弃

米果说识
2026-04-29 16:51:50
陈伟霆首认何穗是老婆! 曝妻「生产不太顺利」:放不下心中大石

陈伟霆首认何穗是老婆! 曝妻「生产不太顺利」:放不下心中大石

ETtoday星光云
2026-04-29 11:08:04
国籍风波不过7年,央视出手,邓亚萍迎噩耗,曝出两点重要信息

国籍风波不过7年,央视出手,邓亚萍迎噩耗,曝出两点重要信息

梨花黛娱
2026-04-08 14:51:22
司机用锡纸包裹ETC偷逃过路费:36次逃费5万余元 因诈骗罪获刑

司机用锡纸包裹ETC偷逃过路费:36次逃费5万余元 因诈骗罪获刑

快科技
2026-04-28 11:27:26
辟谣帖:日本对公职人员巨额财产来源不明,有哪些刑事处罚?

辟谣帖:日本对公职人员巨额财产来源不明,有哪些刑事处罚?

生活时尚导刊
2026-04-28 11:14:39
炸裂!家长因孩子考差怼班主任,纳税人请你教孩子,考不好要道歉

炸裂!家长因孩子考差怼班主任,纳税人请你教孩子,考不好要道歉

火山詩话
2026-04-27 11:14:53
跌回20年前!权威数据表明,中国房地产的实际购买力已跌至2006的水平

跌回20年前!权威数据表明,中国房地产的实际购买力已跌至2006的水平

风向观察
2026-04-28 16:20:39
她用47130条信息,完成对男友的完美杀戮,获刑2年半缓期10年

她用47130条信息,完成对男友的完美杀戮,获刑2年半缓期10年

三目观史
2026-04-28 23:25:17
就在美国发声后,日本也表态了,台海出现变数,郑丽文咬死一句话

就在美国发声后,日本也表态了,台海出现变数,郑丽文咬死一句话

享用人生
2026-04-28 13:50:25
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
万万没想到!5月起养车三项费用全面取消,所有车主都能享受

万万没想到!5月起养车三项费用全面取消,所有车主都能享受

西莫的艺术宫殿
2026-04-27 06:16:09
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
2026-04-29 19:15:00
硅星Breaknews incentive-icons
硅星Breaknews
Break news
7634文章数 73关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

女子被骗与"未婚"高管发生关系 得知对方年薪百万举报

头条要闻

女子被骗与"未婚"高管发生关系 得知对方年薪百万举报

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

教育
房产
手机
艺术
公开课

教育要闻

中国高等教育学会语文教育专业委员会举办2026年中小学阅读教育研讨会

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

手机要闻

同档唯一2nm旗舰!小米18标准版首发骁龙8E6芯片:2nm时代来了

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版