网易首页 > 网易号 > 正文 申请入驻

魔都美术馆迎来首个官方AI讲解员

0
分享至

想象一下,当你逛各类博物馆或美术馆,手中握着的手机不再是冰冷冷的硬件,而是一名可以通过视频语音陪伴讲解的“专属向导”,逛展这件事会否从过去的“走马观花”,变为一场更为生动的沉浸式体验?

1月20日,字节跳动旗下豆包与上海浦东美术馆达成合作,成为该馆两项国际大展——“图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作”与“非常毕加索:保罗·史密斯的新视角”的官方AI讲解员。双方通过独家数据合作和定向搜索优化,进一步提升豆包识别和讲解的准确性。

从人工智能行业发展的角度来看,AI逐渐落地普通老百姓日常生活场景,是多模态大模型“感知-推理-动作”能力在真实世界的闭环验证与数据反哺,既是AI能力的场景化落地,也是技术迭代的关键驱动。


AI陪伴逛展

第一财经记者在实际观展过程中发现,用户可以让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读。

字节跳动副总裁朱骏表示,AI和用户的交互本质上是一种对话体验。在观展过程中,希望豆包通过共情式的提问和启发式的对话,把用户已有的感受和经验调动出来,形成更有参与感的理解过程。

例如,当观众在“非常毕加索”展厅面对毕加索的《阅读》作品时,可以向豆包提问“画面中宁静的氛围是如何营造的”。豆包会结合画作创作于1932年的特定背景,分析其中柔和曲线与鲜明色块如何共同塑造出私密而宁静的阅读场景,阐述这一时期毕加索以其缪斯玛丽–特蕾兹·瓦尔特为灵感的创作风格特征,如何在具象与变形之间取得平衡。

技术层面,据豆包逛展项目负责人介绍,在博物馆场景中运用AI讲解,最大的挑战是保证内容的准确性。模型不仅要能区分外观高度相似的文物、理解小众且缺乏公开资料的展品,还要能在观众移动观展、从不同角度和距离观察同一件展品时,始终保持稳定识别。据了解,豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力。

Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通 “感知-推理-动作”全链路,可直接执行复杂任务而非仅输出信息,聚焦真实世界多模态交互与任务执行。

火山引擎总裁谭待对第一财经记者表示,多模态代表着模型的应用逐渐进入更深的领域。过去用户让模型执行任务,通过文字聊天即可。但如今AI的很多输入内容带有视觉因素,如在车内、产品质检、餐饮各种场景。另外,模型处理任务需要调用各种工具,工具返回的结果很多也是视觉化的,因此需要具备视觉化理解能力。

“AI导览员”背后的技术趋势

如果说多模态AI的进化还是一场“打破感知壁垒”的早期尝试,那么此次豆包与浦东美术馆的合作,就是一场鲜活的“生活切片”展示,它证明多模态已不仅仅是实验室内的技术参数,而是普通观众身边的“AI导览员”,用看得见、听得到、聊得来的能力,实现科技与人文的碰撞。

虽然多模态技术发展仍处于早期阶段,但行业普遍认为,多模态是步入AGI(通用人工智能)的必经之路。智谱(02513.HK)创始人唐杰表示,2025年是多模态的“适应年”,而多模态感统(感觉统合)将成为2026年的热点和重点,它是完成人机GUI(图形用户界面)交互与AI进入物理世界的关键。因为有了这个能力,AI才可以完成更复杂的长时效任务,形成一个AI工种,并通过AI实现具身智能,进入物理世界。

与多模态时常伴随出现的,是世界模型的概念。技术关系上,多模态是世界模型的核心技术基座与信息输入输出载体,具体包括图片、语音、视频等形式,凡是能够处理两种及以上信息类型,即属于多模态范畴。而世界模型则是多模态能力的高阶进化形态。


今年以来,行业内关于多模态与世界模型的动态逐渐增多。1月5日,中科院自动化研究所与CreateAI(原图森未来)研究者提出NeoVerse;13日,爱诗科技发布最高支持1080P分辨率的通用实时世界模型PixVerse R1。

截至目前,字节跳动暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型(Seed系列)与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环。

字节跳动Seed官方页面显示,Seed多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发。其中,官方对“世界模型”的定义是利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力。

在此前的采访中,智源研究院院长王仲远表示,大语言模型技术路线已相对收敛,但多模态领域,包括世界模型,暂未统一。随着模型不断研发推进,相信多模态与世界模型将会组成多模态世界大模型这一统称。

AI转向理解物理世界规律

今年行业对世界模型讨论增多的原因,在创新奇智(02121.HK)CTO张发恩看来,是行业明确了物理AI(Physical AI)的大方向,后者的主战场具身智能快速发展,但多模态数据采集成本高、周期长,因此大家希望先做世界模型,借此自动产出多模态数据,用于训练VLA(视觉语言动作模型)模型。

张发恩对第一财经表示,包括视觉、声音等在内的多模态要素是必要的,因为AI与物理世界的结合需要输入和输出多模态信息,而世界模型的核心是要理解物理世界规律,如重力、摩擦力、易碎材料等。

Google DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)曾明确表示,打开AGI之门的钥匙是世界模型。他称,世界模型旨在让AI理解物理世界的底层规律、因果关系,并进行长期规划和模拟推演。

据智源研究院理事长黄铁军观察,当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI正褪去早期狂热,发展路径日益清晰,即真正融入实体世界,解决系统性挑战。

而世界模型对“预测世界下一状态”的核心诉求,正倒逼多模态技术从早期的跨模态识别、生成,向更复杂的时空一致性整合、因果逻辑对齐演进。在此背景下,多模态领域的发展呈现出明确的进阶趋势。

CreateAI首席科学家王峰对记者表示,今年一个明显趋势是多模态模型理解与生成逐渐实现一体化,其中谷歌的Gemini3是典型的原生多模态大模型,如其nano banana项目展示了强大的图片编辑能力。

但需注意的是,多模态与世界模型均面临技术成熟度不够、成本高昂、商业化应用率较低等问题。王仲远对记者表示,限制多模态发展的主要原因在于技术路线没有收敛,市面上很多模型仍旧分为多模态理解与多模态生成,多模态理解仍多以组合式模型为主,比如大语言模型先学语言、再学多模态,且模型记忆问题一直没有得到很好的解决。他认为目前行业正通过可实现的多模态智能路径,逐步厘清通向通用智能的技术路线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
郑晓龙执导白宇章若楠主演《冬去春来》首播8集,观众评价竟一致

郑晓龙执导白宇章若楠主演《冬去春来》首播8集,观众评价竟一致

亦暖追剧随笔
2026-03-25 18:01:42
第81波打击!以军司令部遭袭,美航母撤离,特朗普求助35国

第81波打击!以军司令部遭袭,美航母撤离,特朗普求助35国

命运自认幽默
2026-03-26 18:16:09
收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

晓徙娱乐
2026-03-23 16:35:39
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

中国网
2026-03-26 17:29:03
你敢信吗?如今农村正在悄然发生四大变化,几乎村村都有,看你村占了几个!

你敢信吗?如今农村正在悄然发生四大变化,几乎村村都有,看你村占了几个!

农夫也疯狂
2026-03-26 19:50:43
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

巢客HOME
2026-03-24 06:30:03
2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

混沌录
2026-03-20 21:00:04
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
女子空置房2个月被用水1961吨 水管封死水表仍走字 水务公司拒回应

女子空置房2个月被用水1961吨 水管封死水表仍走字 水务公司拒回应

闪电新闻
2026-03-26 14:06:10
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
养出情绪稳定的孩子,就靠6句话!频繁说,孩子越来越懂事

养出情绪稳定的孩子,就靠6句话!频繁说,孩子越来越懂事

户外阿毽
2026-03-23 07:52:09
2026-03-26 20:24:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248301文章数 621904关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
旅游
游戏
公开课

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

《迷你金属2》4月开启开发版测试 军事题材战略模拟

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版