网易首页 > 网易号 > 正文 申请入驻

豆包的新身份曝光:在国际艺术展当起了“AI讲解员”

0
分享至

梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

前两天听同事说豆包在浦东美术馆接活儿了,不光带人逛展,还包讲解的那种。(震惊.jpg)

我一听立马就不困了:AI讲解?还是豆包?有这新鲜事儿,咱高低得到现场围观一下啊!

于是我火速翘班找老板请假,打了趟飞的,直接闪现「AI与艺术」豆包讲解体验日活动现场。



but,进馆没多久我就意识到一个现实问题:我对这些展品的理解,基本为零…(纯·一点艺术细胞都没有)

既然如此,那就不为难自己了,索性直接摇豆包,一个「视频电话」打过去,藏品重点、展品背景全讲解得明明白白~



此外活动现场还有个大彩蛋,浦美当场给豆包颁发了个AI讲解员证书,真·官方权威认证了:



这一下午的展逛下来,脑子是真有点宕机了,我平时也没少用豆包,只是没成想,这AI啥时候都进化成这样了……

实测“AI讲解员”豆包的业务水平

不知道大家跟我一不一样,对看展逛展这件事本身很感兴趣,可奈何自身没啥《艺术细胞》。

去是去了,但逛一圈下来感觉啥也没看懂……但!这回有「豆包」带着我逛可就不一样了。

这一次,咱势必要把这展看个明!明!白!白!正好看看这位AI讲解员的业务能力到底能不能打~



这个AI讲解员,超会筛重点的

看展第一步,当然是要先「锁定」自己感兴趣的展品。

但随之而来的问题是:现场同时有卢浮宫和毕加索两个主题展区,展品密度极高,站在原地扫一圈,多少有点无从下手……

我索性直接打了通视频电话求助豆包,让这位AI讲解员帮我把真正值得重点关注的展品先挑出来:

  • 豆包,我现在在浦东美术馆毕加索展区门口,请你帮我推荐一些比较重要的一些展品吧~



接到需求后,讲解员豆包迅速结合视频通话中的「实时画面」「音频信息」,完成了对当前展区的即刻判断,并直接为我圈出了毕加索展区里的几件重点藏品。

像毕加索的经典作品《牛头》、《装扮成喜剧丑角的保罗》等展品都被豆包明确点了出来,告诉我这些值得重点看一看~

不仅如此,这位AI讲解员还给出了自己的打call理由——

在它看来,这其中的部分藏品属于「首次」来华展出,本身就具备稀缺性,所以在整个展区里自然更值得被优先关注。

有理有据啊有理有据,哪怕我的需求再猝不及防,豆包也能调用自己的知识库把藏品重点快速挑出来~

随逛随讲,状态全程在线

重点藏品确定了,接下来,咱就重点考验一下这位AI讲解员豆包最核心的一项业务能力——展品讲解

依托强大「实时视觉感知能力」,豆包在视频通话中能够持续理解当前呈现的画面信息。

因此整个逛展过程几乎无需额外操作,只需打开视频、移动镜头,对准自己关注的内容,豆包就能马上跟上画面节奏进行实时讲解:

  • 豆包,帮我介绍一下我面前的这个藏品。



温馨提示:和豆包一起逛展时,如果现场人比较多,可以试试佩戴耳机、轻声提问,豆包也能听得很清楚。

可以看到,这个AI讲解员在讲解具体的展品时,先点出了展品所承载的地位象征,再补充具体的工艺特征,最后延伸到其时代意义,讲解节奏清晰,也很有层次感。

不但告诉你眼前的东西是什么,还顺着藏品把背景故事和相关知识一起展开,让讲解从信息说明变成了一次完整的科普体验,咱就是说有点高知感内味儿了啊!

此外,相比传统的「拍照—发送—提问—再拍照—再提问」的多链路操作,这样的视频通话方式更像一次持续在线的理解过程,让信息交流本身保持连贯,也更贴近人与人之间的沟通方式。



当画面理解、讲解输出、主动交互三者同步进行时,整个讲解过程自然也就摆脱了单点问答的节奏,而是变成了一个丝滑连贯的持续体验。

说实话,这真的很接近我心目中最理想的逛展状态了。

不够用的知识,现场直接补全

除了懂藏品、会讲解之外,这个AI讲解员还有一个很厉害的业务本领——在逛展过程中能实时调用工具补充知识。

一旦聊到藏品更深层背景、已经超出常规讲解范围的问题时,豆包并不会卡壳,它会在视频通话持续进行的同时,自主去查资料,把相关信息顺着当前画面即时补充进来:

  • 豆包,这类图案在当时属于日常用品,还是只有贵族才能用?现在还有人在用这种图案吗?



豆包不仅自主调用公域网络和知识库进行了资料的实时搜索,还能将查到的内容直接融入到我和它的视频通话中,整个过程几乎感受不到「它在后台帮我查资料」的存在感。

持续主动的视觉感知,随时补位的知识储备,超有活人感的说话方式,这AI讲解员豆包的业务水平是真能打啊…

入职浦美,豆包靠的是什么?

我们在惊叹之余,也不禁会问:它这一身过人的本事到底哪儿来的?

答案,其实指向了背后模型的核心能力——VLM(视觉语言理解)

在豆包大模型家族里,目前视觉理解表现最顶尖的,是近期在火山冬季Force大会上发布的豆包大模型1.8(Doubao-Seed-1.8)

当然,豆包能够担任「AI讲解员」,优势并不来自某一个单点能力,而在于豆包大模型1.8整体具备了更成熟的多模态处理能力,在信息检索、代码编写,以及需要直接操作图形用户界面的交互场景中,它都能稳定应对较为复杂的任务流程。

具体来说,在多模态推理任务中,豆包大模型1.8的整体完成度距离上一代模型有显著提升,这也意味着模型在理解画面内容时,不再只停留在识别层面,而是更容易形成整体判断。



此外,在视频理解能力上,豆包大模型1.8在涉及视频推理、运动与感知、长视频理解的任务里,也都展现出了较强的适应性,面对画面持续变化的情况,也能更好地跟住节奏、抓住重点:



豆包大模型1.8能够在视频流场景下很好地完成实时交互。比如在用户操作过程中,模型既能结合实时视觉内容,对用户的提问与指令做出即时响应,又能主动监测画面中的物体与动作。

发起聊天或提醒同时,模型的回复过程完全不阻塞视觉信号输入,可实现边感知边反馈的持续监控。

这也是为什么豆包能够成为一个优秀的「逛展搭子」。

此外,这个模型在「GUI Agent」能力上的表现也是可圈可点,之前爆火的“豆包手机”的操作能力,就是基于这一模型的支持。



在搜索任务层面,这款模型的表现同样突出,在部分测试维度中,它的成绩超过了Gemini-3-Pro等一线模型,在多组公开的Agent搜索评测中,整体水平稳定处在行业第一梯队。

再往更复杂的场景走,在智能编程以及高经济价值工作流相关评测中,该模型也展现出了面向真实软件工程和现实业务流程的稳定执行能力:



(emm…这也就不难理解为什么豆包在信息检索和判断环节反应又快又准了??)

当然了,豆包大模型1.8的优势可不是仅仅体现在聪明的大脑,它在语言理解这条能力线上,同样具备扎实的基础。

在多项公开的「LLM」基准测试中,它长期维持在第一梯队水位,在数学、推理、复杂指令理解和知识掌握等核心能力上,已经接近当前顶尖通用模型的水平。

同时,在更偏向实际应用的场景里,它在信息处理、意图识别、关键信息提取,以及复杂工作流的理解和执行上,也展现出了稳定的竞争力。

目前,豆包大模型1.8(Doubao-Seed-1.8)不仅通过豆包App向用户提供图像理解、视频理解等能力,还通过火山方舟提供API服务。

话说回来,落到实际体验中,我们最直观的感受是:在和豆包打视频电话时,它的交流方式更接近人与人之间的交流节奏,回应衔接自然,几乎不会让人意识到自己是在和一个AI对话。



当复杂指令可以被稳定执行,推理过程足够可靠,多模态理解又能持续跟住画面变化,在一个视频通话窗口里,把「看、听、想、讲」完整串起来,也就成了一件顺理成章的事。

这一趟艺术展逛下来,我最大的感触其实不在于看展本身,而是突然意识到一件事:AI开始真正具备「感知力」了。

在实时视频通话这样的高动态场景中,AI需要同时处理视觉、语音、上下文语境,以及不断变化的交互焦点,还要在被频繁打断和追问的情况下保持逻辑完整性,这本身就是对多模态模型综合能力的极限考验。

而豆包,已经开始通过实时视频交互的方式,参与进具体生活场景中,逐步承担起一种新的角色——陪你一起看、一起想、一起理解。

当知识问答不再只是识别图片或理解语音,而是能在真实场景中持续工作,AI视频通话这件事,才真正从「能用」走向「好用」。

以后再遇到那些看不懂、想不通、想找人聊天的时刻,可能真的只差——掏出手机,给豆包打个视频电话了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗革命卫队:霍尔木兹海峡允许非军事船只通过

伊朗革命卫队:霍尔木兹海峡允许非军事船只通过

每日经济新闻
2026-04-13 07:38:50
31岁美女张筱雨去世,刚生完孩子仅1个月,妈妈悲痛透露原因

31岁美女张筱雨去世,刚生完孩子仅1个月,妈妈悲痛透露原因

180视角
2026-04-13 11:01:45
标120W的充电器实际功率仅22.5W,商家:120W是产品型号

标120W的充电器实际功率仅22.5W,商家:120W是产品型号

极目新闻
2026-04-11 00:53:31
全民考公考编,是这个时代的悲哀。

全民考公考编,是这个时代的悲哀。

老陆不老
2026-04-12 12:19:50
NBA首轮对阵全出炉:湖人vs火箭 掘金vs森林狼 东部无焦点对决

NBA首轮对阵全出炉:湖人vs火箭 掘金vs森林狼 东部无焦点对决

醉卧浮生
2026-04-13 11:04:31
突发!匈牙利政局剧变,反对派领袖马甲尔赢得大选!亲俄势力大败

突发!匈牙利政局剧变,反对派领袖马甲尔赢得大选!亲俄势力大败

新浪财经
2026-04-13 07:31:15
小米汽车市场危机,开始公开化

小米汽车市场危机,开始公开化

浙江车网
2026-04-13 09:15:19
“他搂着我腰,亲我脸颊”:若我接受潜规则,他就在判决时偏向我

“他搂着我腰,亲我脸颊”:若我接受潜规则,他就在判决时偏向我

汉史趣闻
2026-04-12 16:39:57
王石夫妇不必如此动怒

王石夫妇不必如此动怒

不主流讲话
2026-04-13 04:53:29
美国航天员胜利归来,航天“砖家”蒋鹏飞被“啪啪”打脸

美国航天员胜利归来,航天“砖家”蒋鹏飞被“啪啪”打脸

山间听雨
2026-04-13 09:02:55
入门即标配,顶配即满分 别克至境 E7 诚意来袭

入门即标配,顶配即满分 别克至境 E7 诚意来袭

新出行
2026-04-11 10:28:46
说封就封!美国4月13日锁死伊朗港口,伊朗傻眼

说封就封!美国4月13日锁死伊朗港口,伊朗傻眼

老马拉车莫少装
2026-04-13 10:02:14
5月1日起,医疗回扣入刑!

5月1日起,医疗回扣入刑!

中国医疗保险杂志社
2026-04-12 15:50:06
24小时内6个国际笑话!特朗普被伊朗戏耍,美军在波斯湾丢尽脸面

24小时内6个国际笑话!特朗普被伊朗戏耍,美军在波斯湾丢尽脸面

知鉴明史
2026-04-13 09:15:05
NASA把55年前登月代码甩上GitHub,程序员看完集体沉默

NASA把55年前登月代码甩上GitHub,程序员看完集体沉默

野生运营
2026-04-12 08:33:50
中产彻底清醒!钢琴销量暴跌72%:不是不爱音乐,是时代不装了…

中产彻底清醒!钢琴销量暴跌72%:不是不爱音乐,是时代不装了…

火山詩话
2026-04-09 13:45:45
NBA季后赛对阵出炉:湖人vs火箭 掘金vs森林狼 东部不如西部激烈

NBA季后赛对阵出炉:湖人vs火箭 掘金vs森林狼 东部不如西部激烈

醉卧浮生
2026-04-13 11:09:12
里弗斯卸任雄鹿主帅:32胜50负无缘季后赛 雄鹿将3年第3次选帅

里弗斯卸任雄鹿主帅:32胜50负无缘季后赛 雄鹿将3年第3次选帅

醉卧浮生
2026-04-13 08:58:25
王石被抓?回应:“造谣”“已去报案路上”

王石被抓?回应:“造谣”“已去报案路上”

新京报
2026-04-12 19:58:08
距开赛仅60天!阿根廷5000万铁闸或无缘世界杯 韧带撕裂+哭着离场

距开赛仅60天!阿根廷5000万铁闸或无缘世界杯 韧带撕裂+哭着离场

我爱英超
2026-04-13 07:35:52
2026-04-13 12:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12463文章数 176449关注度
往期回顾 全部

科技要闻

传荣耀与字节跳动接洽“豆包手机”合作

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

封锁,还是收费站?

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

教育
家居
健康
亲子
公开课

教育要闻

这8件幸福的小事,父母每周做两件,养出高能量的小孩

家居要闻

复古风格 自然简约

干细胞抗衰4大误区,90%的人都中招

亲子要闻

广东夫妻生下黑色宝宝,8次亲子鉴定未果,妻子崩溃后说出原因

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版