网易首页 > 网易号 > 正文 申请入驻

豆包的新身份曝光:在国际艺术展当起了“AI讲解员”

0
分享至

梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

前两天听同事说豆包在浦东美术馆接活儿了,不光带人逛展,还包讲解的那种。(震惊.jpg)

我一听立马就不困了:AI讲解?还是豆包?有这新鲜事儿,咱高低得到现场围观一下啊!

于是我火速翘班找老板请假,打了趟飞的,直接闪现「AI与艺术」豆包讲解体验日活动现场。



but,进馆没多久我就意识到一个现实问题:我对这些展品的理解,基本为零…(纯·一点艺术细胞都没有)

既然如此,那就不为难自己了,索性直接摇豆包,一个「视频电话」打过去,藏品重点、展品背景全讲解得明明白白~



此外活动现场还有个大彩蛋,浦美当场给豆包颁发了个AI讲解员证书,真·官方权威认证了:



这一下午的展逛下来,脑子是真有点宕机了,我平时也没少用豆包,只是没成想,这AI啥时候都进化成这样了……

实测“AI讲解员”豆包的业务水平

不知道大家跟我一不一样,对看展逛展这件事本身很感兴趣,可奈何自身没啥《艺术细胞》。

去是去了,但逛一圈下来感觉啥也没看懂……但!这回有「豆包」带着我逛可就不一样了。

这一次,咱势必要把这展看个明!明!白!白!正好看看这位AI讲解员的业务能力到底能不能打~



这个AI讲解员,超会筛重点的

看展第一步,当然是要先「锁定」自己感兴趣的展品。

但随之而来的问题是:现场同时有卢浮宫和毕加索两个主题展区,展品密度极高,站在原地扫一圈,多少有点无从下手……

我索性直接打了通视频电话求助豆包,让这位AI讲解员帮我把真正值得重点关注的展品先挑出来:

  • 豆包,我现在在浦东美术馆毕加索展区门口,请你帮我推荐一些比较重要的一些展品吧~



接到需求后,讲解员豆包迅速结合视频通话中的「实时画面」「音频信息」,完成了对当前展区的即刻判断,并直接为我圈出了毕加索展区里的几件重点藏品。

像毕加索的经典作品《牛头》、《装扮成喜剧丑角的保罗》等展品都被豆包明确点了出来,告诉我这些值得重点看一看~

不仅如此,这位AI讲解员还给出了自己的打call理由——

在它看来,这其中的部分藏品属于「首次」来华展出,本身就具备稀缺性,所以在整个展区里自然更值得被优先关注。

有理有据啊有理有据,哪怕我的需求再猝不及防,豆包也能调用自己的知识库把藏品重点快速挑出来~

随逛随讲,状态全程在线

重点藏品确定了,接下来,咱就重点考验一下这位AI讲解员豆包最核心的一项业务能力——展品讲解

依托强大「实时视觉感知能力」,豆包在视频通话中能够持续理解当前呈现的画面信息。

因此整个逛展过程几乎无需额外操作,只需打开视频、移动镜头,对准自己关注的内容,豆包就能马上跟上画面节奏进行实时讲解:

  • 豆包,帮我介绍一下我面前的这个藏品。



温馨提示:和豆包一起逛展时,如果现场人比较多,可以试试佩戴耳机、轻声提问,豆包也能听得很清楚。

可以看到,这个AI讲解员在讲解具体的展品时,先点出了展品所承载的地位象征,再补充具体的工艺特征,最后延伸到其时代意义,讲解节奏清晰,也很有层次感。

不但告诉你眼前的东西是什么,还顺着藏品把背景故事和相关知识一起展开,让讲解从信息说明变成了一次完整的科普体验,咱就是说有点高知感内味儿了啊!

此外,相比传统的「拍照—发送—提问—再拍照—再提问」的多链路操作,这样的视频通话方式更像一次持续在线的理解过程,让信息交流本身保持连贯,也更贴近人与人之间的沟通方式。



当画面理解、讲解输出、主动交互三者同步进行时,整个讲解过程自然也就摆脱了单点问答的节奏,而是变成了一个丝滑连贯的持续体验。

说实话,这真的很接近我心目中最理想的逛展状态了。

不够用的知识,现场直接补全

除了懂藏品、会讲解之外,这个AI讲解员还有一个很厉害的业务本领——在逛展过程中能实时调用工具补充知识。

一旦聊到藏品更深层背景、已经超出常规讲解范围的问题时,豆包并不会卡壳,它会在视频通话持续进行的同时,自主去查资料,把相关信息顺着当前画面即时补充进来:

  • 豆包,这类图案在当时属于日常用品,还是只有贵族才能用?现在还有人在用这种图案吗?



豆包不仅自主调用公域网络和知识库进行了资料的实时搜索,还能将查到的内容直接融入到我和它的视频通话中,整个过程几乎感受不到「它在后台帮我查资料」的存在感。

持续主动的视觉感知,随时补位的知识储备,超有活人感的说话方式,这AI讲解员豆包的业务水平是真能打啊…

入职浦美,豆包靠的是什么?

我们在惊叹之余,也不禁会问:它这一身过人的本事到底哪儿来的?

答案,其实指向了背后模型的核心能力——VLM(视觉语言理解)

在豆包大模型家族里,目前视觉理解表现最顶尖的,是近期在火山冬季Force大会上发布的豆包大模型1.8(Doubao-Seed-1.8)

当然,豆包能够担任「AI讲解员」,优势并不来自某一个单点能力,而在于豆包大模型1.8整体具备了更成熟的多模态处理能力,在信息检索、代码编写,以及需要直接操作图形用户界面的交互场景中,它都能稳定应对较为复杂的任务流程。

具体来说,在多模态推理任务中,豆包大模型1.8的整体完成度距离上一代模型有显著提升,这也意味着模型在理解画面内容时,不再只停留在识别层面,而是更容易形成整体判断。



此外,在视频理解能力上,豆包大模型1.8在涉及视频推理、运动与感知、长视频理解的任务里,也都展现出了较强的适应性,面对画面持续变化的情况,也能更好地跟住节奏、抓住重点:



豆包大模型1.8能够在视频流场景下很好地完成实时交互。比如在用户操作过程中,模型既能结合实时视觉内容,对用户的提问与指令做出即时响应,又能主动监测画面中的物体与动作。

发起聊天或提醒同时,模型的回复过程完全不阻塞视觉信号输入,可实现边感知边反馈的持续监控。

这也是为什么豆包能够成为一个优秀的「逛展搭子」。

此外,这个模型在「GUI Agent」能力上的表现也是可圈可点,之前爆火的“豆包手机”的操作能力,就是基于这一模型的支持。



在搜索任务层面,这款模型的表现同样突出,在部分测试维度中,它的成绩超过了Gemini-3-Pro等一线模型,在多组公开的Agent搜索评测中,整体水平稳定处在行业第一梯队。

再往更复杂的场景走,在智能编程以及高经济价值工作流相关评测中,该模型也展现出了面向真实软件工程和现实业务流程的稳定执行能力:



(emm…这也就不难理解为什么豆包在信息检索和判断环节反应又快又准了??)

当然了,豆包大模型1.8的优势可不是仅仅体现在聪明的大脑,它在语言理解这条能力线上,同样具备扎实的基础。

在多项公开的「LLM」基准测试中,它长期维持在第一梯队水位,在数学、推理、复杂指令理解和知识掌握等核心能力上,已经接近当前顶尖通用模型的水平。

同时,在更偏向实际应用的场景里,它在信息处理、意图识别、关键信息提取,以及复杂工作流的理解和执行上,也展现出了稳定的竞争力。

目前,豆包大模型1.8(Doubao-Seed-1.8)不仅通过豆包App向用户提供图像理解、视频理解等能力,还通过火山方舟提供API服务。

话说回来,落到实际体验中,我们最直观的感受是:在和豆包打视频电话时,它的交流方式更接近人与人之间的交流节奏,回应衔接自然,几乎不会让人意识到自己是在和一个AI对话。



当复杂指令可以被稳定执行,推理过程足够可靠,多模态理解又能持续跟住画面变化,在一个视频通话窗口里,把「看、听、想、讲」完整串起来,也就成了一件顺理成章的事。

这一趟艺术展逛下来,我最大的感触其实不在于看展本身,而是突然意识到一件事:AI开始真正具备「感知力」了。

在实时视频通话这样的高动态场景中,AI需要同时处理视觉、语音、上下文语境,以及不断变化的交互焦点,还要在被频繁打断和追问的情况下保持逻辑完整性,这本身就是对多模态模型综合能力的极限考验。

而豆包,已经开始通过实时视频交互的方式,参与进具体生活场景中,逐步承担起一种新的角色——陪你一起看、一起想、一起理解。

当知识问答不再只是识别图片或理解语音,而是能在真实场景中持续工作,AI视频通话这件事,才真正从「能用」走向「好用」。

以后再遇到那些看不懂、想不通、想找人聊天的时刻,可能真的只差——掏出手机,给豆包打个视频电话了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日企最后的堡垒正在崩塌,几乎被中企逼上绝路,难怪日媒这么绝望

日企最后的堡垒正在崩塌,几乎被中企逼上绝路,难怪日媒这么绝望

小熊侃史
2026-04-08 07:40:09
1978年陈丽华丈夫迟重瑞罕见青春珍贵留影

1978年陈丽华丈夫迟重瑞罕见青春珍贵留影

荒野老五
2026-04-08 17:55:21
伊朗中计自断双臂!美以各个击破,三航母压境,德黑兰陷入绝境

伊朗中计自断双臂!美以各个击破,三航母压境,德黑兰陷入绝境

超喜欢我
2026-04-10 06:12:47
被做局了?李国庆曝董宇辉翻车真相:团队有内鬼!

被做局了?李国庆曝董宇辉翻车真相:团队有内鬼!

雷科技
2026-04-09 13:12:19
正式回归,姚明官宣,新岗位惊喜,投入重金,联手蔡崇信

正式回归,姚明官宣,新岗位惊喜,投入重金,联手蔡崇信

东球猫猫
2026-04-10 10:39:04
“枭龙”战机高光时刻!巴空军进入伊朗领空,为伊朗战斗护航

“枭龙”战机高光时刻!巴空军进入伊朗领空,为伊朗战斗护航

潮鹿逐梦
2026-04-10 12:17:21
三位市长升任市委书记!三地党委主要领导调整

三位市长升任市委书记!三地党委主要领导调整

上观新闻
2026-04-09 22:30:06
“溶栓高手”被发现,不是西红柿!常吃血管干净,头晕手麻或缓解

“溶栓高手”被发现,不是西红柿!常吃血管干净,头晕手麻或缓解

咖啡豆测评
2026-04-08 19:19:57
收复台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

收复台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

探源历史
2026-01-11 11:24:43
升东部第5!猛龙横扫热火 莺歌38+7+7效力首季总分升队史第一

升东部第5!猛龙横扫热火 莺歌38+7+7效力首季总分升队史第一

醉卧浮生
2026-04-10 09:32:02
恭喜俄罗斯和乌克兰!打了1500天,终于打成全世界都喜欢的样子!

恭喜俄罗斯和乌克兰!打了1500天,终于打成全世界都喜欢的样子!

温读史
2026-04-08 17:38:05
比亚迪9分钟闪充惹众怒,奇瑞、蔚来等老总为何集体力挺换电?

比亚迪9分钟闪充惹众怒,奇瑞、蔚来等老总为何集体力挺换电?

老特有话说
2026-04-08 13:18:01
35+14+13+5+2!三双怪兽还在进化,太狠了!

35+14+13+5+2!三双怪兽还在进化,太狠了!

茅塞盾开本尊
2026-04-10 12:52:08
八零后晒存款540w每天很焦虑!网友热议:中年危机原来只是我自己

八零后晒存款540w每天很焦虑!网友热议:中年危机原来只是我自己

另子维爱读史
2026-04-10 09:46:26
正式退出,樊振东发声,官宣决定,原因找到,王皓遗憾,替补敲定

正式退出,樊振东发声,官宣决定,原因找到,王皓遗憾,替补敲定

懂球社
2026-04-09 12:50:36
巴基斯坦怒了:巴基斯坦不是卡塔尔,动我们的人,打到你服!

巴基斯坦怒了:巴基斯坦不是卡塔尔,动我们的人,打到你服!

人生录
2026-04-08 00:37:17
贾浅浅终于接受组织调查

贾浅浅终于接受组织调查

英军眼
2026-04-09 09:50:51
《妻子的浪漫旅行 》开播!四对夫妻四种画风,马頔夫妇最搞笑

《妻子的浪漫旅行 》开播!四对夫妻四种画风,马頔夫妇最搞笑

晴晴的娱乐日记
2026-04-09 15:37:27
过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

夜深爱杂谈
2026-04-08 17:06:30
参观洋山港后,郑丽文一句话,将赖清德一军,蓝营又有一人支持

参观洋山港后,郑丽文一句话,将赖清德一军,蓝营又有一人支持

DS北风
2026-04-09 15:22:19
2026-04-10 13:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12449文章数 176450关注度
往期回顾 全部

科技要闻

程序员惊喜,每月100美元!OpenAI推新套餐

头条要闻

再次"一肩挑"的苏林 将中国作为出访的首个国家

头条要闻

再次"一肩挑"的苏林 将中国作为出访的首个国家

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

亲子
游戏
本地
数码
公开课

亲子要闻

阿金哥小时候的照片,锐锐像左边的阿金,霖霖像右边的阿金

《灵魂面甲》正式版上线 灵犀互娱持续深耕国产游戏出海

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

2026年第一季度全球PC出货量增长3% 联想份额破25%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版