网易首页 > 网易号 > 正文 申请入驻

豆包的新身份曝光:在国际艺术展当起了“AI讲解员”

0
分享至

梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

前两天听同事说豆包在浦东美术馆接活儿了,不光带人逛展,还包讲解的那种。(震惊.jpg)

我一听立马就不困了:AI讲解?还是豆包?有这新鲜事儿,咱高低得到现场围观一下啊!

于是我火速翘班找老板请假,打了趟飞的,直接闪现「AI与艺术」豆包讲解体验日活动现场。



but,进馆没多久我就意识到一个现实问题:我对这些展品的理解,基本为零…(纯·一点艺术细胞都没有)

既然如此,那就不为难自己了,索性直接摇豆包,一个「视频电话」打过去,藏品重点、展品背景全讲解得明明白白~



此外活动现场还有个大彩蛋,浦美当场给豆包颁发了个AI讲解员证书,真·官方权威认证了:



这一下午的展逛下来,脑子是真有点宕机了,我平时也没少用豆包,只是没成想,这AI啥时候都进化成这样了……

实测“AI讲解员”豆包的业务水平

不知道大家跟我一不一样,对看展逛展这件事本身很感兴趣,可奈何自身没啥《艺术细胞》。

去是去了,但逛一圈下来感觉啥也没看懂……但!这回有「豆包」带着我逛可就不一样了。

这一次,咱势必要把这展看个明!明!白!白!正好看看这位AI讲解员的业务能力到底能不能打~



这个AI讲解员,超会筛重点的

看展第一步,当然是要先「锁定」自己感兴趣的展品。

但随之而来的问题是:现场同时有卢浮宫和毕加索两个主题展区,展品密度极高,站在原地扫一圈,多少有点无从下手……

我索性直接打了通视频电话求助豆包,让这位AI讲解员帮我把真正值得重点关注的展品先挑出来:

  • 豆包,我现在在浦东美术馆毕加索展区门口,请你帮我推荐一些比较重要的一些展品吧~



接到需求后,讲解员豆包迅速结合视频通话中的「实时画面」「音频信息」,完成了对当前展区的即刻判断,并直接为我圈出了毕加索展区里的几件重点藏品。

像毕加索的经典作品《牛头》、《装扮成喜剧丑角的保罗》等展品都被豆包明确点了出来,告诉我这些值得重点看一看~

不仅如此,这位AI讲解员还给出了自己的打call理由——

在它看来,这其中的部分藏品属于「首次」来华展出,本身就具备稀缺性,所以在整个展区里自然更值得被优先关注。

有理有据啊有理有据,哪怕我的需求再猝不及防,豆包也能调用自己的知识库把藏品重点快速挑出来~

随逛随讲,状态全程在线

重点藏品确定了,接下来,咱就重点考验一下这位AI讲解员豆包最核心的一项业务能力——展品讲解

依托强大「实时视觉感知能力」,豆包在视频通话中能够持续理解当前呈现的画面信息。

因此整个逛展过程几乎无需额外操作,只需打开视频、移动镜头,对准自己关注的内容,豆包就能马上跟上画面节奏进行实时讲解:

  • 豆包,帮我介绍一下我面前的这个藏品。



温馨提示:和豆包一起逛展时,如果现场人比较多,可以试试佩戴耳机、轻声提问,豆包也能听得很清楚。

可以看到,这个AI讲解员在讲解具体的展品时,先点出了展品所承载的地位象征,再补充具体的工艺特征,最后延伸到其时代意义,讲解节奏清晰,也很有层次感。

不但告诉你眼前的东西是什么,还顺着藏品把背景故事和相关知识一起展开,让讲解从信息说明变成了一次完整的科普体验,咱就是说有点高知感内味儿了啊!

此外,相比传统的「拍照—发送—提问—再拍照—再提问」的多链路操作,这样的视频通话方式更像一次持续在线的理解过程,让信息交流本身保持连贯,也更贴近人与人之间的沟通方式。



当画面理解、讲解输出、主动交互三者同步进行时,整个讲解过程自然也就摆脱了单点问答的节奏,而是变成了一个丝滑连贯的持续体验。

说实话,这真的很接近我心目中最理想的逛展状态了。

不够用的知识,现场直接补全

除了懂藏品、会讲解之外,这个AI讲解员还有一个很厉害的业务本领——在逛展过程中能实时调用工具补充知识。

一旦聊到藏品更深层背景、已经超出常规讲解范围的问题时,豆包并不会卡壳,它会在视频通话持续进行的同时,自主去查资料,把相关信息顺着当前画面即时补充进来:

  • 豆包,这类图案在当时属于日常用品,还是只有贵族才能用?现在还有人在用这种图案吗?



豆包不仅自主调用公域网络和知识库进行了资料的实时搜索,还能将查到的内容直接融入到我和它的视频通话中,整个过程几乎感受不到「它在后台帮我查资料」的存在感。

持续主动的视觉感知,随时补位的知识储备,超有活人感的说话方式,这AI讲解员豆包的业务水平是真能打啊…

入职浦美,豆包靠的是什么?

我们在惊叹之余,也不禁会问:它这一身过人的本事到底哪儿来的?

答案,其实指向了背后模型的核心能力——VLM(视觉语言理解)

在豆包大模型家族里,目前视觉理解表现最顶尖的,是近期在火山冬季Force大会上发布的豆包大模型1.8(Doubao-Seed-1.8)

当然,豆包能够担任「AI讲解员」,优势并不来自某一个单点能力,而在于豆包大模型1.8整体具备了更成熟的多模态处理能力,在信息检索、代码编写,以及需要直接操作图形用户界面的交互场景中,它都能稳定应对较为复杂的任务流程。

具体来说,在多模态推理任务中,豆包大模型1.8的整体完成度距离上一代模型有显著提升,这也意味着模型在理解画面内容时,不再只停留在识别层面,而是更容易形成整体判断。



此外,在视频理解能力上,豆包大模型1.8在涉及视频推理、运动与感知、长视频理解的任务里,也都展现出了较强的适应性,面对画面持续变化的情况,也能更好地跟住节奏、抓住重点:



豆包大模型1.8能够在视频流场景下很好地完成实时交互。比如在用户操作过程中,模型既能结合实时视觉内容,对用户的提问与指令做出即时响应,又能主动监测画面中的物体与动作。

发起聊天或提醒同时,模型的回复过程完全不阻塞视觉信号输入,可实现边感知边反馈的持续监控。

这也是为什么豆包能够成为一个优秀的「逛展搭子」。

此外,这个模型在「GUI Agent」能力上的表现也是可圈可点,之前爆火的“豆包手机”的操作能力,就是基于这一模型的支持。



在搜索任务层面,这款模型的表现同样突出,在部分测试维度中,它的成绩超过了Gemini-3-Pro等一线模型,在多组公开的Agent搜索评测中,整体水平稳定处在行业第一梯队。

再往更复杂的场景走,在智能编程以及高经济价值工作流相关评测中,该模型也展现出了面向真实软件工程和现实业务流程的稳定执行能力:



(emm…这也就不难理解为什么豆包在信息检索和判断环节反应又快又准了??)

当然了,豆包大模型1.8的优势可不是仅仅体现在聪明的大脑,它在语言理解这条能力线上,同样具备扎实的基础。

在多项公开的「LLM」基准测试中,它长期维持在第一梯队水位,在数学、推理、复杂指令理解和知识掌握等核心能力上,已经接近当前顶尖通用模型的水平。

同时,在更偏向实际应用的场景里,它在信息处理、意图识别、关键信息提取,以及复杂工作流的理解和执行上,也展现出了稳定的竞争力。

目前,豆包大模型1.8(Doubao-Seed-1.8)不仅通过豆包App向用户提供图像理解、视频理解等能力,还通过火山方舟提供API服务。

话说回来,落到实际体验中,我们最直观的感受是:在和豆包打视频电话时,它的交流方式更接近人与人之间的交流节奏,回应衔接自然,几乎不会让人意识到自己是在和一个AI对话。



当复杂指令可以被稳定执行,推理过程足够可靠,多模态理解又能持续跟住画面变化,在一个视频通话窗口里,把「看、听、想、讲」完整串起来,也就成了一件顺理成章的事。

这一趟艺术展逛下来,我最大的感触其实不在于看展本身,而是突然意识到一件事:AI开始真正具备「感知力」了。

在实时视频通话这样的高动态场景中,AI需要同时处理视觉、语音、上下文语境,以及不断变化的交互焦点,还要在被频繁打断和追问的情况下保持逻辑完整性,这本身就是对多模态模型综合能力的极限考验。

而豆包,已经开始通过实时视频交互的方式,参与进具体生活场景中,逐步承担起一种新的角色——陪你一起看、一起想、一起理解。

当知识问答不再只是识别图片或理解语音,而是能在真实场景中持续工作,AI视频通话这件事,才真正从「能用」走向「好用」。

以后再遇到那些看不懂、想不通、想找人聊天的时刻,可能真的只差——掏出手机,给豆包打个视频电话了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
顺峰餐厅北京门店全部关闭:司法纠纷不断,消费者上万储值打水漂?

顺峰餐厅北京门店全部关闭:司法纠纷不断,消费者上万储值打水漂?

北京商报
2026-04-15 20:03:10
追踪24年,科学家发现一个人的“生物钟”走得越快,寿命就会越短

追踪24年,科学家发现一个人的“生物钟”走得越快,寿命就会越短

兴史兴谈
2026-04-13 06:17:55
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
山东6分惜败!辽宁赢8分,上海1分险胜,四川39连败,排名大变

山东6分惜败!辽宁赢8分,上海1分险胜,四川39连败,排名大变

老吴说体育
2026-04-15 21:38:59
许家印当庭认罪,夏海钧资产冻结600亿,任泽平天价薪酬要吐回

许家印当庭认罪,夏海钧资产冻结600亿,任泽平天价薪酬要吐回

网络易不易
2026-04-15 10:17:52
日本自导自演 "外交降级",背后原油,稀土,股债的苦日子才刚开

日本自导自演 "外交降级",背后原油,稀土,股债的苦日子才刚开

小兰聊历史
2026-04-16 05:25:18
北海舰队、南海舰队、东海舰队公告

北海舰队、南海舰队、东海舰队公告

澎湃新闻
2026-04-15 21:59:16
3个次轮签!本赛季的科比怀特,什么水平?

3个次轮签!本赛季的科比怀特,什么水平?

篮球实录
2026-04-16 02:23:42
安徽检察机关依法对张恩文涉嫌受贿案提起公诉

安徽检察机关依法对张恩文涉嫌受贿案提起公诉

环球网资讯
2026-04-15 16:19:06
不满上诉被驳!国安喉舌连晒2条视频硬刚足协 慢放韦世豪爆粗口型

不满上诉被驳!国安喉舌连晒2条视频硬刚足协 慢放韦世豪爆粗口型

我爱英超
2026-04-15 21:15:24
邵阳:女子离异后和男子未婚同居十余年,和其子女因遗产起纠纷

邵阳:女子离异后和男子未婚同居十余年,和其子女因遗产起纠纷

时刻
2026-04-15 10:47:17
西安一男子中奖1038余万元:很幸运,仍会坚持工作

西安一男子中奖1038余万元:很幸运,仍会坚持工作

大风新闻
2026-04-15 16:52:10
美股收盘:标普历史首次征服7000点 算力巨头携手冲高

美股收盘:标普历史首次征服7000点 算力巨头携手冲高

财联社
2026-04-16 05:54:05
尼日尔撕毁4亿美元合同,驱逐中国高管,我方暗藏后手,给它狠狠教训

尼日尔撕毁4亿美元合同,驱逐中国高管,我方暗藏后手,给它狠狠教训

诡谲怪谈
2025-04-30 23:32:55
体育总局宣布周继红免职退休,曾引发内斗争议,如今能否平稳落地

体育总局宣布周继红免职退休,曾引发内斗争议,如今能否平稳落地

元哥说历史
2026-01-10 11:50:03
风暴眼丨光伏下乡变 “毁房陷阱”:农户拉闸维权,反被公司“威胁起诉”

风暴眼丨光伏下乡变 “毁房陷阱”:农户拉闸维权,反被公司“威胁起诉”

凤凰网财经
2026-04-15 17:28:17
大航海时代4HD:七位主角各有专属隐藏优势,老玩家也未必全知道

大航海时代4HD:七位主角各有专属隐藏优势,老玩家也未必全知道

单机时代
2026-04-15 19:18:31
86年我家建新房,一过路老人讨冷饭吃,离开时开口:这房不能盖了

86年我家建新房,一过路老人讨冷饭吃,离开时开口:这房不能盖了

小月故事
2026-02-20 09:00:03
军改前,武汉共坐落着6所军校,军改后经过两轮的调整,缩减为5所

军改前,武汉共坐落着6所军校,军改后经过两轮的调整,缩减为5所

小圣杂谈原创
2026-04-15 11:25:25
年薪210万,岳父寿宴被拒上桌,我转身走,次日关机拒接99通电话

年薪210万,岳父寿宴被拒上桌,我转身走,次日关机拒接99通电话

艺鉴在线
2026-04-15 19:28:57
2026-04-16 07:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12476文章数 176450关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

美国发布新一轮涉伊朗制裁措施

头条要闻

美国发布新一轮涉伊朗制裁措施

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

亲子
手机
房产
旅游
公开课

亲子要闻

梅婷12岁女儿近照火了,完美复刻妈妈的颜值,这是生了个小梅婷

手机要闻

三星重回全球第一,苹果紧咬第二,小米跌幅最大排第三!

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

旅游要闻

“上海定制”圈粉海外游客:入境游下一程,比拼服务“软实力”|文旅观察

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版