网易首页 > 网易号 > 正文 申请入驻

当科技巨头押注“多模态”,谁能为AI落地找到终极答案?

0
分享至

21世纪经济报道记者董静怡 上海报道在AI2.0时代,模型与应用已密不可分。应用场景推动模型发展,而大模型通过差异化创新来突破各种垂直领域的需求。

多模态被看作是一个必然的趋势,也是商汤大模型的“关键词”。近日,商汤技术交流日上发布的“日日新SenseNova V6”,就是一个涵盖通用模型、推理模型、视频理解模型及全模态交互模型的体系。

“从我们的角度来讲,商汤从视觉能力延伸到原生多模态模型是一个非常自然的延伸。”日前,商汤科技董事长兼CEO徐立在商汤技术交流日的演讲中表示,“从行业的发展趋势来看,我们也看到一些潜在的提示点。”

目前,业界对推理能力的关注主要在数理求解等纯文本推理任务上,但要实现推理能力在更广泛场景的落地,就需要多模态和推理的紧密结合。

国际科技巨头正加速布局多模态大模型领域,这一趋势在近期密集发布的新品中体现得尤为明显——无论是谷歌推出的Gemini 2.0、OpenAI发布的GPT-4.5,还是Meta最新开源的Llama 4,都在显著提升原生多模态能力。这些突破性进展表明,通过实现更广泛、更深度的信息交互与整合,多模态大模型正在为用户创造更完整、更丰富的场景价值。

未来,AI大模型的竞争焦点将从技术参数转向应用深度,其核心竞争力将体现在它能否理解人类情感、记忆交互上下文,并在教育、医疗、工业等场景中提供“好用”而非“能用”的解决方案。

多模态成AI共识

据Epoch AI预测,到2028年,互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这意味着,如果以当前趋势继续下去,数据将成为大型语言模型(LLM)的重大瓶颈。

不过,在徐立看来,这并不意味着整个知识体系都被消耗完。他认为,有很多的知识都蕴藏在大量的图像、视频,甚至3D等其他模态中。但到目前为止,还没有完全地把这些知识真正用来提升原来的文本,甚至是智力的能力,“因为模态的融合没有做到那么好。”

“关于多模态模型的训练,其计算架构比纯文本模型更为复杂。”商汤科技联合创始人兼大模型首席科学家林达华向21世纪经济报道记者表示。

具体来说,文本处理通常包含编码和解码两个阶段,而多模态训练还需要额外处理视频和图像数据的编码阶段。此外,多模态模型还涉及不同模态之间编码方式的协调与选择问题,这进一步增加了模型设计和训练的复杂度。

沙利文大中华区执行总监崔楠也向记者表示,多模态大模型的训练不仅需要大量计算资源,而且训练时间长、效率低。

因此,多模态大模型的持续进化和迭代,也成为了人工智能领域最引人注目的发展趋势之一,国际科技巨头都在不约而同地加强大模型的多模态能力建设。

例如,谷歌的Gemini 2.0凭借原生支持文本、图像、音频和视频的多模态输入输出,结合强大的推理能力和智能体(Agent)架构,显著提升了复杂任务的交互体验。

OpenAI的GPT-4.5则进一步优化了多模态融合,在长上下文理解、跨模态推理等方面取得突破,增强了模型在科研、创作等领域的实用性。

而Meta最新发布的Llama 4采用专家混合架构(MoE)和早期融合技术,在视觉-语言联合训练上取得进展,使其在多模态开源模型中占据领先地位。这些清晰的技术演进路径标志着AI发展正在进入一个全新的阶段。

“大家都在越来越多的强调多模态的能力,这个是一个自然的市场趋势。”商汤科技联合创始人、大装置事业群总裁杨帆表示。

多模态大模型突破了传统单模态模型的局限性,通过整合文本、图像、音频、视频等多种信息模态,实现了更接近人类认知方式的复杂信息处理能力。这种跨模态的深度融合不仅大幅提升了模型的理解深度,更创造了前所未有的应用可能性。

“语言是一种编码过程,这一过程存在信息损失。人类在进行思考和判断时,往往借助多模态方式。因此,多模态正逐渐成为行业模型发展的趋势,它为诸多全新的应用、场景乃至硬件形态的出现提供了可能。”杨帆表示。

打开落地应用的新可能

2023年起,商汤启动业务重组,将重心转向生成式AI。商汤2024年全年业绩财报显示,生成式AI收入突破24.0亿元人民币,同比增长103.1%,占集团收入的比例由2023年的34.8%进一步提升至63.7%,已成为集团最大业务。

此次“日日新SenseNova V6”的发布,可视为其技术转型的阶段性成果——通过多模态融合,将视觉能力与模型结合,延续其在图像、视频理解上的积累。

而多模态也是多样行业落地的必备因素。因为AI最终会走回线下,走回物理现实,在这个过程中多模态的处理和思考能力就成为一种必然的趋势性需求。

“未来的交互,就是一个多模态全模态的交互,”林达华向记者表示,“我们就是要打通未来交互入口的核心技术。”

徐立强调:“AI之道,在于百姓之日用。”这句话既点明了商汤的技术愿景,也揭示了当前大模型发展的核心挑战——如何让AI真正融入产业与生活,而非停留在实验室或技术演示阶段。

此前,商汤科技确立了“大装置-大模型-应用”三位一体核心战略,以日日新(SenseNova)多模态大模型为基石,以生产力工具和交互工具为两大落地方向。

商汤科技认为,大模型在商业应用上有两个方面的关键价值:一是融入真实的业务应用,具备处理复杂信息和解决复杂问题的能力;二是以更有亲和力的方式与人交互,让人感受到和模型交流的良好体验,愿意和模型持续交流。

要实现上述目标,模型需要具备强大的推理能力,以支撑对人类意图的深度理解、对复杂信息的分析判断以及解决真实环境中的复杂问题;能理解情感,与人共情,并且可以和人实时互动;能记住过去一段时间发生的事情,并且捕捉其中的关键信息并融入推理。

反映在落地应用上,则在具身智能、教学等场景上有所突破。林达华向记者表示,会从这些特定行业出发进行初步迭代,之后众多下游企业、合作伙伴以及爱好者会衍生出更多应用创意。

“靠单纯的技术很难形成长久的壁垒,现在一个新的模型发布后很快就会有一系列模型追赶上来,开源也会进一步缩小大家在技术上的差距。技术和行业的深度结合才能形成持久壁垒。”林达华表示。

放眼行业,阿里巴巴宣布推动大模型技术对公司业务的深度改造,百川智能宣布减少多余动作,专注医学方向,这都说明大模型企业开始专注于技术落地和应用的爆发。

不过,大模型最终要解决的是“好用”而非“能用”的问题,数据隐私、模型偏见、算力成本等问题仍需行业共同应对。零一万物创始人李开复预测,2025年是“AI应用大规模落地元年”,但厂商需回归商业本质,真正为客户创造价值,而非仅追求技术指标。

行业的下半场,胜负将取决于谁能更深入产业,构建“数据飞轮”和场景黏性。商汤的战略提供了某种参考答案,但最终能否在激烈的竞争中脱颖而出,仍需时间检验。无论如何,多模态AI的深入发展,正让智能技术前所未有地贴近普通人的生活,而这或许才是此次技术浪潮最值得期待的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

坠入二次元的海洋
2026-03-26 16:00:05
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

揽星河的笔记
2026-03-26 19:04:02
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

深度报
2026-03-25 22:47:08
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

冷紫葉
2026-03-26 16:33:29
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

通文知史
2026-03-24 08:35:03
开分8.5,国内不火,全球却杀疯了

开分8.5,国内不火,全球却杀疯了

独立鱼
2026-03-25 21:24:07
2026-03-26 22:36:50
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
239820文章数 743882关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
教育
健康
旅游
军事航空

亲子要闻

你好,我是馒头,快开门!

教育要闻

骂人没有杀伤力?那不是白忙活吗?

转头就晕的耳石症,能开车上班吗?

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版