网易首页 > 网易号 > 正文 申请入驻

商汤林达华万字长文回答AGI:4层破壁,3大挑战

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

如果从技术角度出发,选择一个最能代表如今大模型发展趋势的关键词,那么在刚刚结束的WAIC 2025(世界人工智能大会)上,“多模态智能”无疑脱颖而出。

当行业还在激辩“Scaling Law”是否走到尽头时,一些前瞻者已经将目光投向了更远的地方。

大会上,商汤科技发布了国内首个实现“图文交错思维”的商业级大模型——日日新6.5,并系统性地提出了从多模态感知、多模态推理,再到与物理世界交互的完整演进路线图,直指通用人工智能(AGI)的终极目标。



这一系列发布引发了业界广泛关注和思考:

为什么多模态是AI的未来?真正的原生多模态模型是如何构建的?在通往AGI的漫漫长路上,我们究竟面临哪些核心挑战?

就在今天,商汤科技联合创始人、首席科学家林达华教授发布了一篇万字长文,深入剖析了商汤在多模态通用智能道路上的思考与实践。



这篇文章不仅是对商汤自身技术路径的复盘,更解答了当前AI领域关于路径、数据、模型架构、商业化等一系列关键问题。

现在,就让我们一同深入解读这篇长文,探寻通往AGI的答案。

怎样才算真正的“原生多模态”?

在探讨如何实现之前,我们首先要明确一个根本问题:为什么是多模态?

林达华在文章中给出了一个核心判断:智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的。

语言只是描述世界的工具,但不是世界本身。人类通过眼睛、耳朵等多种感官接收信息,并将这些信息融合,形成对世界的完整认知。

因此,仅仅依赖文本数据的语言模型,无法构建真正意义上的AGI。AI若要具备通用性,就必须能够处理和理解图像、声音、视频等多种模态的信息。这正是商汤将多模态锚定为技术主轴的根本原因。

明确了方向,路径的选择便至关重要。当前,实现多模态模型主要有两种技术路径:

  1. 适应训练 (Adapter-based Training):这是一种“嫁接”模式。将一个预训练好的视觉编码器(Visual Encoder)通过一个轻量的投影器(Projector)连接到一个已经训练好的大语言模型上。在后训练阶段,固定语言模型,只微调视觉模块和投影器,让视觉特征“适应”语言模型的输入空间。这是目前业界,尤其是国内厂商,为了快速上线多模态能力而普遍采用的方式,成本较低。
  2. 原生训练 (Native Training):这是一种“融合”模式。在预训练阶段就将文本、图像等多种模态的数据混合在一起进行训练。模型从“出生”开始,就在一个统一的架构中学习如何理解和关联不同模态的信息。Google、OpenAI等顶尖机构均采用此路径。

商汤在早期也曾尝试过适应训练,但很快便发现了其局限性。这种“后补”的多模态能力,更像是僵硬地遵循范例,模型并未真正深入理解语言和视觉的内在关联。

例如,当看到一张有六根手指的手掌图片时,这类模型很可能因为强大的语言先验而回答“五个手指”。

因此,在2024年5月,商汤下定决心,投入数千P的算力进行了一系列大规模对比实验,最终确立了“原生多模态”的技术路线,并形成了以“融合模型”为核心的战略。

实验得出的结论颠覆了当时的普遍认知:

  • 一个模型就够了:在合适的数据配比下,一个原生的多模态融合模型,无论是在纯文本任务还是图文任务上,其表现都优于各自独立的专门模型。
  • 融合时机是关键:视觉和语言的融合,不应过早,也不应过晚。在预训练的中段开始融合训练,效果最佳。过早,模型基础能力尚未建立;过晚(如仅在SFT阶段),则融合不充分,泛化性弱。

基于这一判断,商汤果断放弃了语言模型和图文模型分立的“双轨制”,将所有研发力量都汇聚到一个统一的融合模型上。

从“日日新6.0”开始,商汤只发布多模态模型,这在国内大模型厂商中独树一帜。这一战略选择的背后,是对AGI本质的深刻洞察和对技术第一性原理的坚持。

多模态智能的演进路径:如何让模型像人一样思考?

确立了“原生多模态”的路线,下一个问题是,如何一步步让模型从简单的感知走向复杂的、像人一样的思考?

商汤提出了一个清晰的“四次破壁”演进框架,描绘了人工智能能力边界不断被数据驱动打破的历程。

第一次破壁:Transformer实现长序列建模,这是大语言模型诞生的基础。

Transformer架构使得模型能够处理长达数千甚至上万个词元的文本序列,从而不再局限于短语和语法,而是能够理解段落、文章乃至书籍中的高阶知识和逻辑。

第二次破壁:语言与视觉的会合,形成多模态理解,大语言模型的高阶语言能力,为高阶图像理解提供了“锚点”。

一幅图像的意义不再是几个孤立的标签(如“猫”、“桌子”),而可以是一个完整的故事描述。通过将海量图文数据关联训练,模型学会了跨模态的理解,这是构建多模态智能的基础。

第三次破壁:突破逻辑思维与形象思维的边界,实现多模态推理,这是当前的前沿焦点,也是“日日新6.5”实现的关键突破。

人类的思考并非纯粹的线性逻辑推演,而是逻辑思维与形象思维(或称直觉思维)的结合。所谓“一图胜千言”,图形化的思考能帮助我们更快抓住问题本质。

然而,此前的主流多模态模型,其“思考”过程仍然是纯文本的“思维链”(Chain-of-Thought)。图像仅仅作为初始输入,被转换成文本描述后,后续的推理就与图像无关了。这并非真正的多模态思考。

商汤的创新在于引入了“图文交错思维链”。在模型的思考过程中,它不仅能生成文字,还能在需要时调用工具,在原图上进行编辑(如放大、标注、画辅助线),或生成新的示意图,并将这些中间生成的图片插入思维链中,形成“图文并茂”的思考路径。

在具体实现上,商汤选择了务实的“两步走”路径。

第一步,通过调用工具进行图像编辑的方式来构建图文交错思维链。他们认为,当前的目标是“以视觉要素引导思维”,而非追求电影级的高清画质,因此效率和精准性是首要考量。

而目前的图像生成技术,无论在可靠性还是效率上都难以满足要求。基于此,通过工具编辑的方式可以高效且精准地实现构图目标。

这个过程的本质是构建了一个“对内”(Introspective)的智能体。它调用工具不是为了与外部世界交互,而是为了与自身的思维过程交互,修改和优化自己的“思考草稿”。

第二步的探索,则是基于多模态理解生成统一的机制,实现内生的图文混合思考。

为了实现第一步,商汤通过“人工构造少量种子数据 + 强化学习(RL)放大”的范式,让模型学会了这种新的思考模式。

实验数据显示,经过多轮强化学习后,模型的多模态综合推理能力获得了惊人的提升(从54.2分跃升至76.3分)。

第四次破壁:突破与物理空间的边界,实现与真实世界的交互,这是通向AGI的终极一步,即具身智能(Embodied AI)。

让AI拥有“身体”,在物理世界中行动。其核心挑战在于交互数据的稀缺性。通过世界模型(World Model),在虚拟世界中进行大规模、高效的模拟训练,被认为是解决这一问题的关键途径。

商汤的多模态模型为世界模型提供了关于物理世界的海量先验知识,而其在智能驾驶等业务中积累的真实数据,则为世界模型的构建和对齐提供了坚实的基础。

数据体系:如何破解多样性、质量、效率的“不可能三角”?

如果说模型架构决定了学习的效率,那么数据则直接定义了模型能力的边界。尤其对于原生多模态模型,其成功与否,关键就在于数据。

林达华在文章中详细阐述了商汤应对数据挑战的策略,核心是围绕多样性、质量和生产效率这三个目标,构建了一套先进的数据生产体系。

挑战一:图文对数据的稀缺

多模态训练最关键的数据是强关联的“图文对”(Image-Text Pairs);然而,互联网上天然存在的图文对数量稀少,且质量参差不齐。大部分网页中的图片和文字关联很弱(如新闻配图)。

商汤的解决方案是大规模自动化构造。他们投入了巨大力量,研发从文本出发合成图像、以及从图像出发生成多样化问答对的自动化数据管线。

目前,在商汤的跨模态训练数据中,高质量的构造图文对占比已超过70%,这成为其多模态能力提升的关键引擎。

挑战二:数据质量的把控

数据质量是模型的生命线。商汤建立了一套严格的“续训验证”机制。每一批新生产的数据,在正式投入大规模训练前,都必须先在最新版的模型上进行小规模的继续训练。只有当实验证明这批数据能带来性能增益时,才会被“准入”。

这种以模型效果为唯一标准的检验方法,确保了数据质量的持续提升。

挑战三:高阶专业数据的获取

随着模型能力的提升,对高阶专业数据的需求日益迫切,例如数学题的解题步骤、医疗影像的诊断逻辑、代码设计的架构思考等。这些数据能引导模型从“知其然”走向“知其所以然”。

这类数据稀缺且昂贵。商汤采用了“人写种子 + 自动扩展 + 强化学习”的三段式方法。

首先,由领域专家或高水平研究员人工编写少量高质量的“种子”数据(如一条复杂的图文交错思维链)。

然后,利用这些种子,通过多智能体协作的自动化管线进行大规模的增广和合成。

最后,将这些合成数据作为起点,通过强化学习让模型在解决问题的过程中自发探索出更复杂、更多样的思维路径。

模型架构:追求尺寸还是追求效率?

在大模型时代早期,“越大越好”的尺度定律深入人心。然而,随着技术发展和商业化应用的深入,业界的风向正在悄然改变。

商汤明确提出,模型架构设计的核心是效率。一个好的架构,应该能以更低的成本实现从数据到能力的转化。

在“日日新6.5”中,商汤进行了一项重要的架构优化。

他们重新思考了“眼睛”(视觉编码器)和“大脑”(MLLM主干)的功能定位,认为两者有本质区别:“眼睛”捕捉的是受分辨率影响的连续视觉信号,而“大脑”处理的是离散的语言token。

这决定了,视觉感知和语言模型,应该有不一样的模型结构和学习方式。基于此,他们认为视觉编码器应聚焦于感知功能,对视觉信号更敏感;而涉及到与语言相关的处理,应及早和LLM主干进行融合。

因此,在“日日新6.5”中,他们推动了视觉编码器的轻量化(参数量从60亿减至10亿),以实现更敏捷的感知;同时将MLLM主干网络变得更深更窄,以适应深度推理的需要。

这次架构调整,结合数据优化,使得模型在性能相当的情况下,效率提升了超过3倍,实现了比肩甚至超越顶级模型的效费比。

对于模型尺寸的未来,商汤判断,业界将趋于务实,更优的性能-成本曲线远比单纯追求更大的参数规模更重要。未来,模型架构的演进将围绕“提效”与“融合”两大主题:

  • 提效:通过更深度的稀疏化(如MoE)、功能分化(如知识与推理解耦)等方式,进一步降低计算能耗。
  • 融合:推动多模态理解与生成的统一(实现更可控的生成)、快思考(常规模型)与慢思考(推理模型)的统一(让模型根据问题难度自主选择思考深度),从而突破现有能力边界。
创新力的源泉:商汤做对了什么?

从率先探索视觉大模型,到国内最早发布多模态模型,再到如今引领图文交错思维,商汤在技术浪潮中总能踏准节奏,甚至领先一步。这种持续的创新力从何而来?林达华的文章也揭示了背后的深层原因。

1、技术基因的传承与远见

商汤以计算机视觉起家,这不仅意味着技术上的深厚积累,更重要的是,这让商汤从一开始就必须处理海量的、作为“世界硬拷贝”的图像和视频数据。这种与真实世界数据打交道的经验,使其对多模态的价值和必然性有着比纯语言模型公司更早、更深刻的理解。

2、高效且富有活力的研究组织

面对大模型时代对资源和效率的极高要求,商汤对研究组织进行了重构。通过资源统一调度,将算力和数据集中到核心的融合模型上;设立专项创新小组,对“图文交错思维”等高风险、高回报的方向进行探索;建立独立评测体系,以客观、公正的评测结果指导研发方向,避免“自说自话”。这种战略上高度聚焦且长期坚持,技术路径上鼓励创新、敏捷迭代,且能保留活力的组织模式,是其战斗力的核心保障。

3、技术理想与商业价值的正向循环

文章最后强调,通向AGI的道路是一场长跑。技术理想需要商业价值的护航才能行稳致远。商汤没有将技术和商业视为对立面,而是将它们视为互为因果的两个环节,致力于构建“基础设施-模型-应用”三位一体的正向循环。

应用场景中遇到的真实问题,会牵引出关键的科研课题,融入研发规划;而技术上的突破,则会为产品构筑长期的竞争力。

林达华的万字长文,不仅是对商汤多模态战略的一次全面解读,更是对当前AI发展核心问题的一次系统性回答。

从路径选择的哲学思辨,到数据工程的精耕细作;从模型架构的务实取舍,到组织能力的持续进化,我们能看到一家技术公司在面对星辰大海时的清醒、专注与长期主义。

在通往AGI的征途上,没有永远正确的地图,只有不断探索的脚步。商汤所选择的这条原生多模态之路,无疑为整个行业提供了一个极具价值的参考范本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北约11国启动大规模军演,动用1500余辆军用车辆、20多架飞机、17艘海军舰艇,美国没参加;海陆空分别由西班牙、意大利、土耳其指挥主导

北约11国启动大规模军演,动用1500余辆军用车辆、20多架飞机、17艘海军舰艇,美国没参加;海陆空分别由西班牙、意大利、土耳其指挥主导

极目新闻
2026-02-03 09:01:19
江西5孩宝妈“倾家荡产”事件冲上热搜:一夜暴富,是普通人最大的坑……

江西5孩宝妈“倾家荡产”事件冲上热搜:一夜暴富,是普通人最大的坑……

桌子的生活观
2026-02-02 12:33:58
地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

磊子讲史
2026-01-06 10:38:15
人怎么能这么聪明!辽宁一女子产后出院遇寒风,丈夫灵机一动用大号塑料袋挡风

人怎么能这么聪明!辽宁一女子产后出院遇寒风,丈夫灵机一动用大号塑料袋挡风

小虎新车推荐员
2026-02-03 06:26:42
岛内最新民调公布,郑丽文和赖清德支持率惊人,黄国昌对访陆交底

岛内最新民调公布,郑丽文和赖清德支持率惊人,黄国昌对访陆交底

伴君终老
2026-02-03 03:44:53
葡媒:C罗可能今夏离开胜利,美职联、重返欧洲均为其潜在去向

葡媒:C罗可能今夏离开胜利,美职联、重返欧洲均为其潜在去向

懂球帝
2026-02-03 09:12:05
特朗普:立即逮捕奥巴马,他已经涉嫌在美国发动政变!

特朗普:立即逮捕奥巴马,他已经涉嫌在美国发动政变!

达文西看世界
2026-02-02 09:55:53
正常的乳房到底长什么样?(内附图解)

正常的乳房到底长什么样?(内附图解)

第十一诊室
2026-01-31 11:36:21
12306回应“每天都用前任的身份证订票不付款取消3次让他买不了过年回家的票”:锁的是订票账户

12306回应“每天都用前任的身份证订票不付款取消3次让他买不了过年回家的票”:锁的是订票账户

新浪财经
2026-02-02 23:00:39
黄金一夜暴跌近30%,第一批输不起的人魔怔了

黄金一夜暴跌近30%,第一批输不起的人魔怔了

鸣金网
2026-02-02 17:24:54
炸裂!闫学晶儿子疑顶替新疆李展旭,李展旭本人发声,曝考场内幕

炸裂!闫学晶儿子疑顶替新疆李展旭,李展旭本人发声,曝考场内幕

李健政观察
2026-02-02 17:34:52
88万粉丝网红评论区“祝贺”豪豪离世,最新消息:网红账号已被封

88万粉丝网红评论区“祝贺”豪豪离世,最新消息:网红账号已被封

极目新闻
2026-02-02 22:17:34
特朗普强调自己清白,马斯克暗示克林顿等人“有罪”,全球多名权势人物被曝与爱泼斯坦关系密切

特朗普强调自己清白,马斯克暗示克林顿等人“有罪”,全球多名权势人物被曝与爱泼斯坦关系密切

新民周刊
2026-02-02 16:14:18
“几乎前所未有”!美媒:克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

“几乎前所未有”!美媒:克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

环球网资讯
2026-02-03 08:50:30
落后榜首17分!0-3被荷甲霸主暴揍 47岁范佩西麻了:失望但不辞职

落后榜首17分!0-3被荷甲霸主暴揍 47岁范佩西麻了:失望但不辞职

风过乡
2026-02-03 07:05:16
绍伊古急飞北京谈撤侨?这次事情真的很严重

绍伊古急飞北京谈撤侨?这次事情真的很严重

李荣茂
2026-02-03 06:19:47
台贵客抵达北京!岛内变天信号出现,关键时刻,美日态度惊人一致

台贵客抵达北京!岛内变天信号出现,关键时刻,美日态度惊人一致

书纪文谭
2026-02-02 23:17:16
匈牙利最新民调显示,欧尔班所在政党的支持率落后于反对派

匈牙利最新民调显示,欧尔班所在政党的支持率落后于反对派

山河路口
2026-02-02 22:35:01
塔利班宣布女性不得互相说话:女性连与女性说话都成违法

塔利班宣布女性不得互相说话:女性连与女性说话都成违法

桂系007
2026-02-02 23:39:18
退货误寄奔驰钥匙后续,平台介入调查,奔驰车主:该女子绝对说谎

退货误寄奔驰钥匙后续,平台介入调查,奔驰车主:该女子绝对说谎

削桐作琴
2026-02-02 17:10:29
2026-02-03 10:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12101文章数 176370关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

“精准查人”黑产链条遭查

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

艺术
时尚
亲子
本地
军事航空

艺术要闻

12字草书挑战,高手才能一眼认出!

冬天还是“羽绒服”最保暖!看看这些穿搭,简单舒适又不老气

亲子要闻

孩子变得黏人,可能是在向你求救

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版