网易首页 > 网易号 > 正文 申请入驻

豆包的新身份曝光:在国际艺术展当起了“AI讲解员”

0
分享至

梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

前两天听同事说豆包在浦东美术馆接活儿了,不光带人逛展,还包讲解的那种。(震惊.jpg)

我一听立马就不困了:AI讲解?还是豆包?有这新鲜事儿,咱高低得到现场围观一下啊!

于是我火速翘班找老板请假,打了趟飞的,直接闪现「AI与艺术」豆包讲解体验日活动现场。



but,进馆没多久我就意识到一个现实问题:我对这些展品的理解,基本为零…(纯·一点艺术细胞都没有)

既然如此,那就不为难自己了,索性直接摇豆包,一个「视频电话」打过去,藏品重点、展品背景全讲解得明明白白~



此外活动现场还有个大彩蛋,浦美当场给豆包颁发了个AI讲解员证书,真·官方权威认证了:



这一下午的展逛下来,脑子是真有点宕机了,我平时也没少用豆包,只是没成想,这AI啥时候都进化成这样了……

实测“AI讲解员”豆包的业务水平

不知道大家跟我一不一样,对看展逛展这件事本身很感兴趣,可奈何自身没啥《艺术细胞》。

去是去了,但逛一圈下来感觉啥也没看懂……但!这回有「豆包」带着我逛可就不一样了。

这一次,咱势必要把这展看个明!明!白!白!正好看看这位AI讲解员的业务能力到底能不能打~



这个AI讲解员,超会筛重点的

看展第一步,当然是要先「锁定」自己感兴趣的展品。

但随之而来的问题是:现场同时有卢浮宫和毕加索两个主题展区,展品密度极高,站在原地扫一圈,多少有点无从下手……

我索性直接打了通视频电话求助豆包,让这位AI讲解员帮我把真正值得重点关注的展品先挑出来:

  • 豆包,我现在在浦东美术馆毕加索展区门口,请你帮我推荐一些比较重要的一些展品吧~



接到需求后,讲解员豆包迅速结合视频通话中的「实时画面」「音频信息」,完成了对当前展区的即刻判断,并直接为我圈出了毕加索展区里的几件重点藏品。

像毕加索的经典作品《牛头》、《装扮成喜剧丑角的保罗》等展品都被豆包明确点了出来,告诉我这些值得重点看一看~

不仅如此,这位AI讲解员还给出了自己的打call理由——

在它看来,这其中的部分藏品属于「首次」来华展出,本身就具备稀缺性,所以在整个展区里自然更值得被优先关注。

有理有据啊有理有据,哪怕我的需求再猝不及防,豆包也能调用自己的知识库把藏品重点快速挑出来~

随逛随讲,状态全程在线

重点藏品确定了,接下来,咱就重点考验一下这位AI讲解员豆包最核心的一项业务能力——展品讲解

依托强大「实时视觉感知能力」,豆包在视频通话中能够持续理解当前呈现的画面信息。

因此整个逛展过程几乎无需额外操作,只需打开视频、移动镜头,对准自己关注的内容,豆包就能马上跟上画面节奏进行实时讲解:

  • 豆包,帮我介绍一下我面前的这个藏品。



温馨提示:和豆包一起逛展时,如果现场人比较多,可以试试佩戴耳机、轻声提问,豆包也能听得很清楚。

可以看到,这个AI讲解员在讲解具体的展品时,先点出了展品所承载的地位象征,再补充具体的工艺特征,最后延伸到其时代意义,讲解节奏清晰,也很有层次感。

不但告诉你眼前的东西是什么,还顺着藏品把背景故事和相关知识一起展开,让讲解从信息说明变成了一次完整的科普体验,咱就是说有点高知感内味儿了啊!

此外,相比传统的「拍照—发送—提问—再拍照—再提问」的多链路操作,这样的视频通话方式更像一次持续在线的理解过程,让信息交流本身保持连贯,也更贴近人与人之间的沟通方式。



当画面理解、讲解输出、主动交互三者同步进行时,整个讲解过程自然也就摆脱了单点问答的节奏,而是变成了一个丝滑连贯的持续体验。

说实话,这真的很接近我心目中最理想的逛展状态了。

不够用的知识,现场直接补全

除了懂藏品、会讲解之外,这个AI讲解员还有一个很厉害的业务本领——在逛展过程中能实时调用工具补充知识。

一旦聊到藏品更深层背景、已经超出常规讲解范围的问题时,豆包并不会卡壳,它会在视频通话持续进行的同时,自主去查资料,把相关信息顺着当前画面即时补充进来:

  • 豆包,这类图案在当时属于日常用品,还是只有贵族才能用?现在还有人在用这种图案吗?



豆包不仅自主调用公域网络和知识库进行了资料的实时搜索,还能将查到的内容直接融入到我和它的视频通话中,整个过程几乎感受不到「它在后台帮我查资料」的存在感。

持续主动的视觉感知,随时补位的知识储备,超有活人感的说话方式,这AI讲解员豆包的业务水平是真能打啊…

入职浦美,豆包靠的是什么?

我们在惊叹之余,也不禁会问:它这一身过人的本事到底哪儿来的?

答案,其实指向了背后模型的核心能力——VLM(视觉语言理解)

在豆包大模型家族里,目前视觉理解表现最顶尖的,是近期在火山冬季Force大会上发布的豆包大模型1.8(Doubao-Seed-1.8)

当然,豆包能够担任「AI讲解员」,优势并不来自某一个单点能力,而在于豆包大模型1.8整体具备了更成熟的多模态处理能力,在信息检索、代码编写,以及需要直接操作图形用户界面的交互场景中,它都能稳定应对较为复杂的任务流程。

具体来说,在多模态推理任务中,豆包大模型1.8的整体完成度距离上一代模型有显著提升,这也意味着模型在理解画面内容时,不再只停留在识别层面,而是更容易形成整体判断。



此外,在视频理解能力上,豆包大模型1.8在涉及视频推理、运动与感知、长视频理解的任务里,也都展现出了较强的适应性,面对画面持续变化的情况,也能更好地跟住节奏、抓住重点:



豆包大模型1.8能够在视频流场景下很好地完成实时交互。比如在用户操作过程中,模型既能结合实时视觉内容,对用户的提问与指令做出即时响应,又能主动监测画面中的物体与动作。

发起聊天或提醒同时,模型的回复过程完全不阻塞视觉信号输入,可实现边感知边反馈的持续监控。

这也是为什么豆包能够成为一个优秀的「逛展搭子」。

此外,这个模型在「GUI Agent」能力上的表现也是可圈可点,之前爆火的“豆包手机”的操作能力,就是基于这一模型的支持。



在搜索任务层面,这款模型的表现同样突出,在部分测试维度中,它的成绩超过了Gemini-3-Pro等一线模型,在多组公开的Agent搜索评测中,整体水平稳定处在行业第一梯队。

再往更复杂的场景走,在智能编程以及高经济价值工作流相关评测中,该模型也展现出了面向真实软件工程和现实业务流程的稳定执行能力:



(emm…这也就不难理解为什么豆包在信息检索和判断环节反应又快又准了??)

当然了,豆包大模型1.8的优势可不是仅仅体现在聪明的大脑,它在语言理解这条能力线上,同样具备扎实的基础。

在多项公开的「LLM」基准测试中,它长期维持在第一梯队水位,在数学、推理、复杂指令理解和知识掌握等核心能力上,已经接近当前顶尖通用模型的水平。

同时,在更偏向实际应用的场景里,它在信息处理、意图识别、关键信息提取,以及复杂工作流的理解和执行上,也展现出了稳定的竞争力。

目前,豆包大模型1.8(Doubao-Seed-1.8)不仅通过豆包App向用户提供图像理解、视频理解等能力,还通过火山方舟提供API服务。

话说回来,落到实际体验中,我们最直观的感受是:在和豆包打视频电话时,它的交流方式更接近人与人之间的交流节奏,回应衔接自然,几乎不会让人意识到自己是在和一个AI对话。



当复杂指令可以被稳定执行,推理过程足够可靠,多模态理解又能持续跟住画面变化,在一个视频通话窗口里,把「看、听、想、讲」完整串起来,也就成了一件顺理成章的事。

这一趟艺术展逛下来,我最大的感触其实不在于看展本身,而是突然意识到一件事:AI开始真正具备「感知力」了。

在实时视频通话这样的高动态场景中,AI需要同时处理视觉、语音、上下文语境,以及不断变化的交互焦点,还要在被频繁打断和追问的情况下保持逻辑完整性,这本身就是对多模态模型综合能力的极限考验。

而豆包,已经开始通过实时视频交互的方式,参与进具体生活场景中,逐步承担起一种新的角色——陪你一起看、一起想、一起理解。

当知识问答不再只是识别图片或理解语音,而是能在真实场景中持续工作,AI视频通话这件事,才真正从「能用」走向「好用」。

以后再遇到那些看不懂、想不通、想找人聊天的时刻,可能真的只差——掏出手机,给豆包打个视频电话了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最大起飞重量500多吨,新一代运40,远超美俄,已成定局?

最大起飞重量500多吨,新一代运40,远超美俄,已成定局?

万里繁华
2026-01-20 11:46:50
殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

顾史
2026-01-20 13:54:43
难怪鬼子不开战!日本议员:中国只要用导弹打东京,日本就会完蛋

难怪鬼子不开战!日本议员:中国只要用导弹打东京,日本就会完蛋

霁寒飘雪
2025-12-06 14:23:03
48年,邓华得知廖耀湘战败被抓捕后,立即说:给你一支好烟抽抽吧

48年,邓华得知廖耀湘战败被抓捕后,立即说:给你一支好烟抽抽吧

大运河时空
2026-01-19 20:00:03
官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

牛牛叨史
2026-01-07 13:34:04
贺娇龙47岁生日照流出,手捧鲜花,头戴饰品,朋友圈首次曝光!

贺娇龙47岁生日照流出,手捧鲜花,头戴饰品,朋友圈首次曝光!

陈意小可爱
2026-01-21 01:34:29
吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

磊子讲史
2026-01-06 11:48:34
郭文海会见广东电网公司董事长杨松楠:深化政企合作 共创“十五五”美好未来

郭文海会见广东电网公司董事长杨松楠:深化政企合作 共创“十五五”美好未来

林子说事
2026-01-20 09:00:00
12月70城房价:一二三线城市环比总体下降、同比降幅扩大

12月70城房价:一二三线城市环比总体下降、同比降幅扩大

华尔街见闻官方
2026-01-19 10:00:39
国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

巧手晓厨娘
2025-12-26 21:34:40
聂卫平遗产2亿!若无遗嘱由现任妻子+3子女平分 两任前妻分文没有

聂卫平遗产2亿!若无遗嘱由现任妻子+3子女平分 两任前妻分文没有

念洲
2026-01-20 10:10:42
同事第4次让我替他做表,我直接下班,第二天领导要结果,他懵了

同事第4次让我替他做表,我直接下班,第二天领导要结果,他懵了

温情邮局
2026-01-07 16:16:09
科大智能冲刺港股:9个月营收19亿,期内利润7348万黄明松套现2亿

科大智能冲刺港股:9个月营收19亿,期内利润7348万黄明松套现2亿

雷递
2026-01-20 13:52:13
王石邀请众人到家打牌聚餐!三位美女暗送秋波,比田朴珺还要潇洒

王石邀请众人到家打牌聚餐!三位美女暗送秋波,比田朴珺还要潇洒

小椰的奶奶
2026-01-21 01:50:10
张本智和彻底翻脸!拒交四成奖金,自掏腰包组建六人“对抗军”

张本智和彻底翻脸!拒交四成奖金,自掏腰包组建六人“对抗军”

破镜难圆
2025-12-29 22:38:09
香港又一家老字号倒闭!发哥星爷都爱,曾接待撒切尔夫人...

香港又一家老字号倒闭!发哥星爷都爱,曾接待撒切尔夫人...

港港地
2026-01-19 10:02:00
海康威视2025年营收925.18亿元

海康威视2025年营收925.18亿元

北京商报
2026-01-20 20:35:05
中央批准跨省履新后,副部级张迎春有新职!同日一地副省长被免去职务

中央批准跨省履新后,副部级张迎春有新职!同日一地副省长被免去职务

上观新闻
2026-01-20 13:05:20
中国的小偷为什么直线下降?网友的评论太真实了

中国的小偷为什么直线下降?网友的评论太真实了

夜深爱杂谈
2026-01-20 18:46:49
越媒详细分析U23国足战术:防守极为稳固,进攻潜力不容小觑

越媒详细分析U23国足战术:防守极为稳固,进攻潜力不容小觑

懂球帝
2026-01-20 23:06:21
2026-01-21 04:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12038文章数 176360关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

丹麦首相:主权不谈判 准备贸易战

头条要闻

丹麦首相:主权不谈判 准备贸易战

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

艺术
游戏
旅游
公开课
军事航空

艺术要闻

陈丹青:困扰几代人的中国写实油画

《秘奥:秘宇奥忆》评测:因简洁而特别"/> 主站 商城 论坛 自运营 登录 注册 《秘奥:秘宇奥忆》评测:因简洁而特别 Marvin 2026-01-2...

旅游要闻

什刹海冰场全面开放

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版