网易首页 > 网易号 > 正文 申请入驻

实测商汤实时音视频交互模型5o:“造假”齐白石《虾》一眼识破!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

AI交互这事儿,商汤最新发布的大模型,是有点“够快、够准、够好”在身上的。

例如我们给它看下面这张画:

我们人眼是能够看出来这张照片是拿真的虾摆在纸上,“造假”齐白石的名画;但很多AI却是识别不出来。

那么商汤最新的大模型是否可以一眼识破呢?

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

嗯,AI不仅识别出了照片里的都是真虾,而且还猜出了另一种可能,高仿真模型。

再来给这个AI看一张繁体的书法作品,看看它能不能hold得住。

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

AI成功地看懂了这张书法作品内容是“宁静致远”,而且当问及为什么会从右往左读时,它也精准地回答出了“因为这是一幅书法作品”

而这个商汤最新发布的大模型,名叫日日新融合大模型交互版(SenseNova-5o,下文简称“新5o”),主打的就是用全新的多模态能力把跟AI交互的质量给拔高上去

其实从刚才的两个例子中,我们就不难发现,“新5o”是有一些不一样的亮点在身上的。

例如AI交互被很多人诟病的延迟问题,“新5o”已经把它缩短至2秒以内,这种feel就跟真人交流没有太大的差别。

再如交流过程中的真实度,一些语气助词、拟人的停顿感,还有情绪的模仿,都是较为逼真。

并且以前AI可能识别困难的任务,“新5o”这次也能轻松驾驭。

而之所以能够如此,是因为商汤在底层技术上玩出了“新花样”——国内首个原生融合多模态模型

一言蔽之,不是简单的融合,也不同于以往的“看”和“想”,是可以真正帮人类解决更加复杂的问题。

值得一提的是,现阶段APP是已经可以免费测试使用不限次数的哦~

那么商汤日日新融合大模型交互版,还能解锁什么新玩法?

一波实测,Let’s Go!

一手实测在此

在跟AI交互的过程中,其实记忆力也是影响体验的关键因素。

因此,我们第一轮实测就来看看“新5o”的记忆力如何。

记忆力不少于5分钟

我们准备了几张菜、食材的照片,先挨个问下“新5o”:

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

可以看到,“新5o”精准地识别出了它们的名字;在最后报菜名的环节中,也准确按照顺序把此前看到的菜品和食材报了出来。

值得一提的是,整个过程我们是随时打断“新5o”的回答,它也是做到了秒停秒回答,所以实时对话这块还是很OK的。

至于“新5o”的记忆力能持续多久,根据官方给出的数据,它可以支持超长多模态交互记忆不少于5分钟

这个时长在业界来说绝对算是第一梯队的那种。

这一能力的展现,所考验的不只是对信息的存储功能,更是一种深入的理解与回忆能力。

用户所提出的任何细节问题,以及在交流过程中的那些不经意的信息点滴,“新5o”都能做到清晰存储,并且能够在任何时刻迅速回忆起相关内容。

尤为重要的是,“新5o”的记忆范围并不局限于短期的对话内容;它具备持续跟踪和积累用户交互信息的能力,通过这种方式,不断对用户需求的理解进行完善和优化。

能玩“大家来找茬”

在记忆力之后,我们再来考验一下“新5o”的眼力如何。

这次我们直接一张大家来找茬伺候:

再来看下“新5o”的表现吧:

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

“新5o”先是根据图片的环境,猜出这是1980年,然后在问及有哪些电器或者物件不符合这个年代时,它的答案有:

洗衣机、电饭煲、LED灯、空调、羽绒服、茅台酒、手机、海报。

嗯,可以说是有理有据的把大部分的“茬”给找了出来。

那么你觉得还有哪些是“新5o”没找出来的?可以在评论区留言哦~

做题也能用“问”的

如果一个AI能说、能看,那么拿物理这样图文并茂的题目做测试,就再适合不过了。

请看题目:

这是2024年北京高考物理的一道选择题,我们让“新5o”看一眼,然后提出问题:

这道题该怎么做?

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

“新5o”先是挨个把答案都过了一遍,把A、C和D选项排除,选出了正确答案B。

当我们进一步问“为什么是B”后,它就会对正确的答案做深入地解析。

像复杂的神经网络架构图,“新5o”也是可以一眼认出并做讲解:

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

让“新5o”和GPT-4o做对话

最后,我们再来一个有意思的测试——

让“女声-新5o”和“男声-GPT-4o”来一场双AI之间的对话

视频地址:https://mp.weixin.qq.com/s/bEwPlYhlVk-JysBc590Hhg?token=569184181&lang=zh_CN

从这场双AI的对话中,我们可以明显看出,两个AI的语气拟人程度都属于比较自然的那种。

而“新5o”略胜一筹的便是延迟,基本都能控制在2秒以内,但GPT-4o有几处的延迟时间差不多是4秒。

总而言之,从种种测试来看,“新5o”在看、说、想这种多模态交互能力上,是已经做到了非常丝滑。

那么接下来的一个问题便是:

商汤“新5o”是如何练成的?

正如商汤“新5o”的全名日日新融合大模型交互版,关键就是其背后的国内首个原生融合多模态模型

那么,到底什么是原生融合多模态?

这是一种能够将多种模态信息(如文本、图像、视频、音频等)在模型架构和训练过程中进行深度融合的AI模型架构。

与传统的将语言模型和多模态模型分立的方式不同,它致力于打破模态之间的壁垒,实现从输入到输出的一体化处理,从而更有效地应对复杂的现实场景任务。

在量子位与商汤联合创始人、人工智能基础设施及大模型首席科学家林达华交流过程中,对这种新模式有了进一步的了解。

在预训练阶段,商汤的原生融合多模态大模型不仅利用天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成大量融合模态数据。

例如,在处理网页数据时,对图文内容进行统一规范和高质量清洗,并利用现有模型对网页内容进行改写和再生成,获取更丰富的多模态数据。

同时,基于从大量天然语料中提炼的概念,通过文生图等方式合成新的图像并搭配文字,进一步扩充数据来源,在图文模态之间建立大量交互桥梁,使模型基座能更好地掌握模态间的丰富关系。

在后训练阶段,基于对广泛业务场景(如视频交互、多模态文档分析、城市场景理解、车载场景理解等)的认知,构建大量跨模态任务。

这些任务不是简单的数学题或问答,而是模拟真实场景中的复杂问题解决过程,形成交互解决问题的链条性数据。

如此一来,便可以促使模型在训练过程中激发对多模态信息的整合理解分析能力,并形成对业务场景的有效响应能力,实现应用落地反哺基础模型迭代的闭环。

值得一提的是,得益于原生融合多模态的这种方法,不仅是“新5o”在实际效果上取得了明显的提升,在权威评测榜单上的成绩也是非常亮眼——

一个模型击穿两种榜单!

这两个榜单分别是SuperCLUEOpenCompass

在SuperCLUE测评中,其文科任务以81.8分位列全球第一,理科任务夺得金牌,计算维度以78.2分位列国内第一。

而在OpenCompass的多模态评测中平均得分77.4,领先众多国内外模型。

这表明商汤的新模型在语言、推理、多模态信息处理等方面均达到较高水平,能够有效避免多模态模型在纯语言任务(如指令跟随和推理任务)中性能严重下降的问题。

由此在图文、纯语言、推理等场景中都达到业内优秀水平,这也体现了原生融合多模态大模型在综合性能上的优势。

最后,从技术发展趋势上来看,商汤所采取的原生融合多模态也应当是一条必由之路。

例如在自动驾驶中,原生融合多模态大模型可融合车内语音、车内外图像视频及车辆状态等信息,让车载智能体更好理解环境与需求,准确判断交通状况并及时决策,提升驾驶安全性与可靠性。

在具身智能方面,能增强智能体对环境的感知理解,使其通过多模态识别实现自然智能交互,还可利用多模态数据促进学习进化,提升任务执行能力,推动其发展应用。

一言蔽之,就像打通任督二脉一样,将大模型推理能力与这些新形态数据结合的通道给疏通了出来。

那么对于这样新的交互模式,你是否也想体验一番呢?地址放下面喽,感兴趣的小伙伴可以冲一波了~

正式接口及接入方案可参考:
https://sensenova5o_doc.sensetime.com/introduction/intro.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白宫坚称美伊仍在谈判,威胁伊朗“切勿误判”;伊朗外长:美国谈论“谈判”无异于承认“失败”,伊朗放声开新战线

白宫坚称美伊仍在谈判,威胁伊朗“切勿误判”;伊朗外长:美国谈论“谈判”无异于承认“失败”,伊朗放声开新战线

每日经济新闻
2026-03-26 17:08:49
恭喜!国乒20岁新星获重用,世界杯名单又变了,中国11人出发澳门

恭喜!国乒20岁新星获重用,世界杯名单又变了,中国11人出发澳门

帛河体育
2026-03-25 17:09:41
快讯!美国要打大仗了!

快讯!美国要打大仗了!

达文西看世界
2026-03-26 09:29:08
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
曾是张惠康的替补,退役后走上“黑道”,如今光荣退休在上海享福

曾是张惠康的替补,退役后走上“黑道”,如今光荣退休在上海享福

青梅侃史啊
2026-03-26 20:17:51
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

沙雕小琳琳
2026-03-26 10:31:28
闹出大事了,日本内阁连发公告,中国的态度,告诉了世界一个事实

闹出大事了,日本内阁连发公告,中国的态度,告诉了世界一个事实

触摸史迹
2026-03-26 21:27:43
卡塔尔向伊朗交60亿美元保护费?伊朗打击升级:瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费?伊朗打击升级:瞄准以色列往死里打

沧海旅行家
2026-03-26 16:37:46
美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

极目新闻
2026-03-26 20:16:01
开源作者把5个免费账号拼成1个无限额度,AI公司还没反应过来

开源作者把5个免费账号拼成1个无限额度,AI公司还没反应过来

报错免疫体
2026-03-26 12:07:59
伊朗再获重大胜利!美国,又被打惨了!

伊朗再获重大胜利!美国,又被打惨了!

大嘴说天下
2026-03-26 19:32:16
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
她才是霍家的“定海神针”,比郭晶晶还忙,却比80岁霍震霆还低调

她才是霍家的“定海神针”,比郭晶晶还忙,却比80岁霍震霆还低调

以茶带书
2026-03-26 18:11:56
真不识货 被邱彪弃用之人 如今场均22.8分6.8助攻 得分全联盟第3

真不识货 被邱彪弃用之人 如今场均22.8分6.8助攻 得分全联盟第3

男足的小球童
2026-03-26 16:08:26
湖北省襄阳市生态环境局党组成员、副局长王祖庆被查

湖北省襄阳市生态环境局党组成员、副局长王祖庆被查

潇湘晨报
2026-03-26 21:00:11
2026-03-26 22:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
健康
游戏
艺术
教育

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

开冲!PS会员4月离库名单公布:独立神作进入倒计时

艺术要闻

哪一座桥不是风景?

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

无障碍浏览 进入关怀版