网易首页 > 网易号 > 正文 申请入驻

魔都美术馆迎来首个官方AI讲解员

0
分享至

想象一下,当你逛各类博物馆或美术馆,手中握着的手机不再是冰冷冷的硬件,而是一名可以通过视频语音陪伴讲解的“专属向导”,逛展这件事会否从过去的“走马观花”,变为一场更为生动的沉浸式体验?

1月20日,字节跳动旗下豆包与上海浦东美术馆达成合作,成为该馆两项国际大展——“图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作”与“非常毕加索:保罗·史密斯的新视角”的官方AI讲解员。双方通过独家数据合作和定向搜索优化,进一步提升豆包识别和讲解的准确性。

从人工智能行业发展的角度来看,AI逐渐落地普通老百姓日常生活场景,是多模态大模型“感知-推理-动作”能力在真实世界的闭环验证与数据反哺,既是AI能力的场景化落地,也是技术迭代的关键驱动。


AI陪伴逛展

第一财经记者在实际观展过程中发现,用户可以让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读。

字节跳动副总裁朱骏表示,AI和用户的交互本质上是一种对话体验。在观展过程中,希望豆包通过共情式的提问和启发式的对话,把用户已有的感受和经验调动出来,形成更有参与感的理解过程。

例如,当观众在“非常毕加索”展厅面对毕加索的《阅读》作品时,可以向豆包提问“画面中宁静的氛围是如何营造的”。豆包会结合画作创作于1932年的特定背景,分析其中柔和曲线与鲜明色块如何共同塑造出私密而宁静的阅读场景,阐述这一时期毕加索以其缪斯玛丽–特蕾兹·瓦尔特为灵感的创作风格特征,如何在具象与变形之间取得平衡。

技术层面,据豆包逛展项目负责人介绍,在博物馆场景中运用AI讲解,最大的挑战是保证内容的准确性。模型不仅要能区分外观高度相似的文物、理解小众且缺乏公开资料的展品,还要能在观众移动观展、从不同角度和距离观察同一件展品时,始终保持稳定识别。据了解,豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力。

Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通 “感知-推理-动作”全链路,可直接执行复杂任务而非仅输出信息,聚焦真实世界多模态交互与任务执行。

火山引擎总裁谭待对第一财经记者表示,多模态代表着模型的应用逐渐进入更深的领域。过去用户让模型执行任务,通过文字聊天即可。但如今AI的很多输入内容带有视觉因素,如在车内、产品质检、餐饮各种场景。另外,模型处理任务需要调用各种工具,工具返回的结果很多也是视觉化的,因此需要具备视觉化理解能力。

“AI导览员”背后的技术趋势

如果说多模态AI的进化还是一场“打破感知壁垒”的早期尝试,那么此次豆包与浦东美术馆的合作,就是一场鲜活的“生活切片”展示,它证明多模态已不仅仅是实验室内的技术参数,而是普通观众身边的“AI导览员”,用看得见、听得到、聊得来的能力,实现科技与人文的碰撞。

虽然多模态技术发展仍处于早期阶段,但行业普遍认为,多模态是步入AGI(通用人工智能)的必经之路。智谱(02513.HK)创始人唐杰表示,2025年是多模态的“适应年”,而多模态感统(感觉统合)将成为2026年的热点和重点,它是完成人机GUI(图形用户界面)交互与AI进入物理世界的关键。因为有了这个能力,AI才可以完成更复杂的长时效任务,形成一个AI工种,并通过AI实现具身智能,进入物理世界。

与多模态时常伴随出现的,是世界模型的概念。技术关系上,多模态是世界模型的核心技术基座与信息输入输出载体,具体包括图片、语音、视频等形式,凡是能够处理两种及以上信息类型,即属于多模态范畴。而世界模型则是多模态能力的高阶进化形态。


今年以来,行业内关于多模态与世界模型的动态逐渐增多。1月5日,中科院自动化研究所与CreateAI(原图森未来)研究者提出NeoVerse;13日,爱诗科技发布最高支持1080P分辨率的通用实时世界模型PixVerse R1。

截至目前,字节跳动暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型(Seed系列)与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环。

字节跳动Seed官方页面显示,Seed多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发。其中,官方对“世界模型”的定义是利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力。

在此前的采访中,智源研究院院长王仲远表示,大语言模型技术路线已相对收敛,但多模态领域,包括世界模型,暂未统一。随着模型不断研发推进,相信多模态与世界模型将会组成多模态世界大模型这一统称。

AI转向理解物理世界规律

今年行业对世界模型讨论增多的原因,在创新奇智(02121.HK)CTO张发恩看来,是行业明确了物理AI(Physical AI)的大方向,后者的主战场具身智能快速发展,但多模态数据采集成本高、周期长,因此大家希望先做世界模型,借此自动产出多模态数据,用于训练VLA(视觉语言动作模型)模型。

张发恩对第一财经表示,包括视觉、声音等在内的多模态要素是必要的,因为AI与物理世界的结合需要输入和输出多模态信息,而世界模型的核心是要理解物理世界规律,如重力、摩擦力、易碎材料等。

Google DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)曾明确表示,打开AGI之门的钥匙是世界模型。他称,世界模型旨在让AI理解物理世界的底层规律、因果关系,并进行长期规划和模拟推演。

据智源研究院理事长黄铁军观察,当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI正褪去早期狂热,发展路径日益清晰,即真正融入实体世界,解决系统性挑战。

而世界模型对“预测世界下一状态”的核心诉求,正倒逼多模态技术从早期的跨模态识别、生成,向更复杂的时空一致性整合、因果逻辑对齐演进。在此背景下,多模态领域的发展呈现出明确的进阶趋势。

CreateAI首席科学家王峰对记者表示,今年一个明显趋势是多模态模型理解与生成逐渐实现一体化,其中谷歌的Gemini3是典型的原生多模态大模型,如其nano banana项目展示了强大的图片编辑能力。

但需注意的是,多模态与世界模型均面临技术成熟度不够、成本高昂、商业化应用率较低等问题。王仲远对记者表示,限制多模态发展的主要原因在于技术路线没有收敛,市面上很多模型仍旧分为多模态理解与多模态生成,多模态理解仍多以组合式模型为主,比如大语言模型先学语言、再学多模态,且模型记忆问题一直没有得到很好的解决。他认为目前行业正通过可实现的多模态智能路径,逐步厘清通向通用智能的技术路线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
迟迟等不到中方松口,菲油荒影响经济,马科斯总统位置岌岌可危

迟迟等不到中方松口,菲油荒影响经济,马科斯总统位置岌岌可危

时负相知
2026-05-12 12:35:06
英超欧战大丰收!九队狂揽6.67亿欧,阿森纳1.43亿领跑

英超欧战大丰收!九队狂揽6.67亿欧,阿森纳1.43亿领跑

星耀国际足坛
2026-05-12 13:30:05
伊朗驻华大使:中国可成为美伊协议的担保方

伊朗驻华大使:中国可成为美伊协议的担保方

俄罗斯卫星通讯社
2026-05-11 15:07:00
重庆医疗有多强,排名前十位的三甲医院,建议收藏备用

重庆医疗有多强,排名前十位的三甲医院,建议收藏备用

新时代的两性情感
2026-05-12 12:28:14
4只皮皮虾1035元,官方回应是否“带客吃回扣”

4只皮皮虾1035元,官方回应是否“带客吃回扣”

中国新闻周刊
2026-05-09 19:38:06
尼日利亚一女星用500个面包制成礼服 惊艳亮相电影奖 现场撕下一块大快朵颐

尼日利亚一女星用500个面包制成礼服 惊艳亮相电影奖 现场撕下一块大快朵颐

快科技
2026-05-12 15:00:24
1.3万史上最贵iPhone!苹果折叠屏疯狂减配,谁在买单?

1.3万史上最贵iPhone!苹果折叠屏疯狂减配,谁在买单?

小柱解说游戏
2026-05-12 14:53:42
歌手黄霄云演出后两次晕倒确诊耳石症!连夜赶路连唱9首,工作室强制停工

歌手黄霄云演出后两次晕倒确诊耳石症!连夜赶路连唱9首,工作室强制停工

TVB的四小花
2026-05-11 13:59:18
2.69万,宇树把双臂机器人卷成了家电价

2.69万,宇树把双臂机器人卷成了家电价

码上闲叙
2026-04-30 11:56:23
亚马尔夺冠庆典公开挑衅,皇马球迷怒火中烧

亚马尔夺冠庆典公开挑衅,皇马球迷怒火中烧

星耀国际足坛
2026-05-12 12:37:46
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
华尔街投行更新特斯拉估值模型:400美元股价相当于“白送”Optimus

华尔街投行更新特斯拉估值模型:400美元股价相当于“白送”Optimus

财联社
2026-05-12 10:07:05
情况有变,特朗普果断绕开东京,中美韩关门谈大盘,中方一锤定音

情况有变,特朗普果断绕开东京,中美韩关门谈大盘,中方一锤定音

狡黠之狐
2026-05-12 13:59:20
六台:维尼修斯支持穆帅执教皇马,他认为穆帅是球队团结关键

六台:维尼修斯支持穆帅执教皇马,他认为穆帅是球队团结关键

懂球帝
2026-05-12 09:34:46
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
天王山见!米切尔43分赢回尊重 哈登11助攻主导23-0得分狂潮

天王山见!米切尔43分赢回尊重 哈登11助攻主导23-0得分狂潮

枪炮篮球 PiU
2026-05-12 10:58:07
她是我党唯一女创始人,毛主席叫她“老祖母”,死时嘴里塞满砂石

她是我党唯一女创始人,毛主席叫她“老祖母”,死时嘴里塞满砂石

大运河时空
2026-05-11 10:15:03
浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

情感艺术家
2026-05-06 04:58:30
杭州市拱墅区半山街道原党工委副书记、办事处主任潘金财涉嫌严重违纪违法,目前正接受拱墅区纪委区监委纪律审查和监察调查

杭州市拱墅区半山街道原党工委副书记、办事处主任潘金财涉嫌严重违纪违法,目前正接受拱墅区纪委区监委纪律审查和监察调查

都市快报橙柿互动
2026-05-11 19:57:59
五一去了趟上海,不吹牛的说:上海地铁就是全国顶尖的存在

五一去了趟上海,不吹牛的说:上海地铁就是全国顶尖的存在

娱乐的硬糖吖
2026-05-12 01:35:11
2026-05-12 15:39:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
252863文章数 622301关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

亲子
游戏
艺术
健康
本地

亲子要闻

三岁分床,五岁分房,真的有必要吗?

任天堂官方贴心提醒!购买会员需注意 很快涨价

艺术要闻

这位画家的油画美人让人惊叹不已!

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版