网易首页 > 网易号 > 正文 申请入驻

梁文锋和杨植麟,第四次撞车

0
分享至



二人为何都瞄准了视觉理解?

文|《中国企业家》见习记者 孙欣

记者 王怡洁

见习编辑|李原编辑|何伊凡

头图来源|视觉中国

这已经是2025年以来的第4次,DeepSeek创始人梁文锋和月之暗面创始人杨植麟在技术路线上精准“撞车”。

1月27日,月之暗面发布并开源新模型Kimi K2.5,该模型由K2和K2-Thinking并存演进而来。在官方视频里,杨植麟将其形容为“全能模型”,视觉理解、代码、多模态、思考与非思考模式、Agent及Agent集群能力,都被封装进了同一个模型中。

除了代码能力极大提升之外,K2.5的一大亮点在于“视觉理解能力”的极大增强,可分析用户上传的图片、视频,并据此编程或解答问题。

无独有偶,K2.5发布的同日,DeepSeek也上线了新一代模型OCR-2。该模型同样在视觉理解上取得重大突破,解决方法更另辟蹊径。DeepSeek创新了“视觉因果流”机制,不再需要按照固定顺序扫描图片,而是能像人一样,根据图像内容的语义和逻辑,动态调整阅读顺序。

屡屡在同一条技术路线上探索,又数次同日发布成果,梁文锋与杨植麟的心有灵犀已经很难用偶然来解释,他们二人又为何不约而同地瞄准了视觉理解这座山峰?

四次“撞车”

实际上,梁文锋和杨植麟模型产品、论文总是选择同期发布,并非因为“内卷”。拆解二人的成果会发现,他们在关键技术路线上“和而不同”的创新,背后是对大模型和产业痛点的相似判断。

2025年1月20日,DeepSeek-R1上线后火速破圈。Kimi 1.5也紧随其后发布,且同样采用了“基于结果奖励的强化学习”路线。

2025年2月18日,梁文锋和杨植麟前后脚发表了关于注意力架构的最新论文,聚焦于解决Transformer注意力机制下,长上下文处理效率低下、算力消耗过高的行业痛点。

其中,梁文锋作为共同作者,提出了DeepSeek-NSA(原生稀疏注意力)架构,通过分层压缩、关键令牌选择与滑动窗口结合的策略,大幅降低了长上下文处理的算力消耗。

同日,杨植麟也作为论文共同作者,提出了MoBA(混合块注意力)架构,并与NSA选择了不同的优化路径——基于专家混合(MoE)原理,通过分块处理与动态门控机制,让模型自主实现全注意力与稀疏注意力的切换。

只不过,NSA更侧重硬件层面的优化,MoBA则倾向于在Transformer框架内做灵活创新。虽路径不同,但二人的核心目标一致:解决效率瓶颈,让模型在复杂任务中更具实用性。

2025年4月,DeepSeek发布数学推理模型DeepSeek-Prover-V2。通过子目标分解的强化学习推进定理证明,让模型能够“自验证”推理过程的合理性,几乎同期,月之暗面也上线了数学推理专项模型,同样采用了“自验证”核心方式,大幅提升了定理证明的稳定性与准确性。


来源:AI生成

这一次“撞车”源于,彼时AI深度推理还是行业的技术难点。而数学推理作为核心场景,直接关系到大模型在科研、金融、工程等领域的落地能力,二人同时聚焦这一方向,背后是对验证AI落地价值的一致探索。

而最近的一次同台竞技,DeepSeek的OCR-2和月之暗面的K2.5又不约而同地瞄准了视觉理解。这一次同样绝非巧合。

数月前,《中国企业家》从相关人士处了解到,DeepSeek和月暗一直在围绕谁能先做出具备前沿能力的视觉语言模型,让大模型不再成为“聪明的瞎子”而暗自较劲。

结合2025年7月SuperCLUE发布的多模态测评报告,或可找到二人攻坚视觉语言模型的答案。

报告指出,视觉语言模型正普遍面临三大痛点:1.专业领域知识欠缺,特别是在医疗影像分析、工业应用等专业领域得分较低。2.复杂场景适应不足,在自动驾驶、空间推理等任务中表现较差。3.多模态融合深度不够,图文不一致情况下,判断准确率不足65%。

由此可见,视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,也已成为制约模型商业化落地的瓶颈。梁文锋与杨植麟同时聚焦这一领域,源于对行业痛点的相似洞察——谁能率先突破,就能在多模态商业化竞争中占据主动。

如何翻越视觉理解高山?

实际上,在大语言模型层面,国内模型正在与海外模型日益拉近距离。但业内人士对《中国企业家》表示,在视觉理解层面,海外被称为“御三家”的Google Gemini、OpenAI GPT 5.2和Claude已“卷”到下一阶段,国内大模型则还处于追赶和“补课”阶段。

例如,数月前网络上曾让大模型做识别车型的测试。特斯拉被车主自贴了一个小米标志,不少大模型将其认错。“这说明综合视觉信息,当前对多模态模型依旧有困难。”前述人士说。

此次发布中,杨植麟在视频中演示了一段视频,K2.5通过识别图片或者视频,复刻出一个网址的功能。此前国内大模型更多需要借助语言、指令来实现。“需要精确地告诉模型,左上角是个按钮,需求都要用指令来描述。”

“一图胜千言。”科技博主海拉鲁对《中国企业家》说。大部分情况下,用户很难用文字一次性描述出自己想要编出的前端界面,视觉理解核心意义在于让大模型从“读文字”升级为“懂信息、用信息。”

K2.5是月暗在视觉理解上交出的第一份答卷。团队让原生的多模态架构设计与大规模视觉文本进行联合预训练,采用了约15万亿个Token持续训练。在这个基础底座之上,构建Visual Agentic Intelligence(视觉智能体智能)系统。简而言之,K2.5从视觉理解编码入手,分解Agent任务,增强Coding能力。

接近月之暗面的人士告诉《中国企业家》,训练中最现实的困难在于多模态数据的匮乏,以及对数据的处理。“普通人每天拍的照片对模型来说没什么用。需要高质量的数据,才能让模型学到东西。像维基百科,也只是中等质量的数据。”

此外,月之暗面在K2.5中也再次坚持了对“技术品味”的追求,“如果你希望模型更加浪漫,精通软件的UI界面、美学设计,你该给它匹配什么样的数据,这都需要对世界有更多审美认知。”前述人士说。


来源:官网截图

1月29日凌晨,月之暗面团队在Reddit上回答了网友问题,杨植麟表示:“模型的核心在于品味,因为智能本身是非同质化的(non-fungible)。”

海拉鲁评价道,Kimi是国内编程不错的模型里面第一家真正“开眼”的。AI从业者徐再世也表示:K2.5与其他多模态模型最大的区别在于,把视觉和编程、Agent能力结合得更紧密,这降低了开发门槛,让非程序员靠截图录屏也能做出原型。

除了前端设计,伴随K2.5,Kimi还推出了Kimi Code,可以在终端里直接运行,也能集成到 VSCode、Cursor等主流编辑器中。简单来说,K2.5可以自动发现用户的编程过程,并将用户现有的Skills(给AI Agent使用的技能包)迁移到新的工作流中。

相对于K2.5侧重在工程化层面解决问题,DeepSeek在视觉技术源头做出了更多创新。

传统的视觉语言模型(VLM)在扫描图片时,通常是固定地从左到右、从上到下。但人类在理解图片时,会代入自身的语义顺序和取舍,如先看标题,再看正文。

OCR-2也模仿了人类的逻辑,其替换了原本的CLIP编码器,引入了全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左上到右下)扫描图像的限制,而是模仿人类视觉的“因果流(Causal Flow)”逻辑。

从这个维度上看,DeepSeek和月之暗面虽然都在补齐视觉理解的短板,但二者的创新点发生在不同环节。K2.5是基于多模态模型提升工程化性能,更靠近商业落地侧;而DeepSeek更侧重追溯到技术源头,进行创新。

集群重新定义Agent

除了视觉理解,此次K2.5的Agent集群功能也获得了不少业内人士的称道。

徐再世在做大语言模型预训练的工作,他看到,Anthropic的Claude Opus在编程场景上表现突出,一个原因就是它很擅长通过工具调用来执行任务。但很多语言模型在工具调用中,出错概率很高。而K2.5引入的Agent Swarm(智能体集群)架构,从单一Agent进化到Agent集群,意味着模型能力的关键提升。

在杨植麟对Agent集群的介绍中,K2.5不再是一个单打独斗包揽一切的智能体,而是一支即时组建的“智能体团队”。即当任务下达时,主Agent能够生出上百个“子Agent”,由主Agent支配。相较于单智能体模式,其任务执行效率提升最高达4.5倍。

月暗团队演示了一段视频,他们给Kimi Agent集群投喂了40篇关于心理学和AI的论文。K2.5先是通过多次调用工具,按顺序把论文通读一遍;随后,其衍生出数个子Agent负责不同章节撰写。最后,成果由主Agent负责把关验收,将所有内容汇总成一份长达几十页的PDF综述。


来源:AI生成

要实现上百个Agent并发运行并非易事,平衡调度器便是一大难点:在训练初期,子Agent可能会因协同失败而放弃并行策略。而月暗团队采用了PARL (并行智能体强化学习) 的训练方法,团队通过分阶段奖励,引导模型建立稳定偏好。

此外,当100个Agent同时工作,通信、算力都将产生巨大负载,Agent之间可能会信息复读、相互干扰,效率可能会低于单体模型。团队需要让模型学习如何自主通信,并动态调整智能体数量和资源分配。

据《中国企业家》了解,K2.5整个Agent集群由K2.5模型全自动创建与协调,用户无需对子智能体或工作流进行预先定义。即便某个子智能体失败,主Agent也能迅速感知并重新调度。

徐再世解释道,无需预定义意味着K2.5的Agent集群是动态分工,模型自己会决定这个任务需要什么角色,自动创建子Agent并行工作。

1月29日,在解答网友询问K2.5的“智能体蜂群”在运行100个并行推理流时,如何解决延迟和上下文信息丢失问题时,月之暗面联创吴育昕表示:K2.5的各个子智囊团可以在不“腐蚀”或污染主调度器上下文的情况下独立执行子任务,即子Agent本质上拥有各自的工作记忆,只在必要时将结果返回给调度器。

“从K2开始,月暗团队每一步都走得很扎实稳重。”虽然徐再世认为,月暗的产品形态还需要时间打磨。但从长远来看,Agent集群技术的突破有着重大价值。“这意味着未来的智能体将无需人工设计工作流,真正实现人力的解放。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
珍宝岛冲突后,军委决定更换兰州军区当家人,选出了一位顶级战将

珍宝岛冲突后,军委决定更换兰州军区当家人,选出了一位顶级战将

史之铭
2026-01-21 03:12:14
悬念正在消失:西部季后赛基本就这8支球队,豪门依旧掌控主动权

悬念正在消失:西部季后赛基本就这8支球队,豪门依旧掌控主动权

老郎体育汇
2026-01-30 12:03:56
羡慕了!刘强东给老家送出上万件年货,有村民收到无人机“空投”的年货礼包

羡慕了!刘强东给老家送出上万件年货,有村民收到无人机“空投”的年货礼包

潇湘晨报
2026-01-30 07:30:22
我大使摊牌,租借99年的达尔文港,若澳强制收回,中方将予以反制

我大使摊牌,租借99年的达尔文港,若澳强制收回,中方将予以反制

福建平子
2026-01-30 09:54:54
以招聘为名收取培训费,成都警方:对8人采取刑事拘留强制措施

以招聘为名收取培训费,成都警方:对8人采取刑事拘留强制措施

界面新闻
2026-01-29 21:59:42
中央军委全力反腐败,说明中国人民解放军将要担大任,干大事!

中央军委全力反腐败,说明中国人民解放军将要担大任,干大事!

安安说
2026-01-29 09:33:17
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
法国总统马克龙没想到,自己刚怼完特朗普,就收到一个好消息

法国总统马克龙没想到,自己刚怼完特朗普,就收到一个好消息

爱看剧的阿峰
2026-01-30 11:32:04
“都腺样体了,还给他吃烤肠呢?”一份糊弄早餐暴露家长的低认知

“都腺样体了,还给他吃烤肠呢?”一份糊弄早餐暴露家长的低认知

妍妍教育日记
2026-01-13 16:27:54
闹大了!日媒:电车渗透率已超50%,中国汽车是不是应该反思?​

闹大了!日媒:电车渗透率已超50%,中国汽车是不是应该反思?​

阿纂看事
2026-01-05 16:05:20
被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

华史谈
2026-01-30 10:31:57
家庭存款6个等级,80%被卡在第3级,你属于第几级

家庭存款6个等级,80%被卡在第3级,你属于第几级

坠入二次元的海洋
2026-01-30 06:39:08
国际金银价格急转直下 白银、黄金分别重挫8%、5%

国际金银价格急转直下 白银、黄金分别重挫8%、5%

财联社
2026-01-30 00:05:11
金晨太抠门!顶包还想理赔,和狗仔没谈拢被曝光,沈腾真说对了

金晨太抠门!顶包还想理赔,和狗仔没谈拢被曝光,沈腾真说对了

萌神木木
2026-01-29 16:31:23
iPhone16 Pro国补后跌破5000元,iPhone Air直降近3000元

iPhone16 Pro国补后跌破5000元,iPhone Air直降近3000元

鲁中晨报
2026-01-29 21:23:04
国铁集团:误购车票限时免费退票政策将常态化实施

国铁集团:误购车票限时免费退票政策将常态化实施

澎湃新闻
2026-01-29 10:53:03
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
中方开始清场?日本下令,所有渔船撤离钓鱼岛,高市当众哭泣!

中方开始清场?日本下令,所有渔船撤离钓鱼岛,高市当众哭泣!

悠悠写故事
2026-01-28 17:37:46
真相大白?辽宁男篮输球原因曝光,杨铭离开高升,亮相新岗位!

真相大白?辽宁男篮输球原因曝光,杨铭离开高升,亮相新岗位!

曹说体育
2026-01-30 11:27:35
打的一拳开,免得百拳来!伊朗最高领袖明确宣布!

打的一拳开,免得百拳来!伊朗最高领袖明确宣布!

达文西看世界
2026-01-30 11:12:20
2026-01-30 12:48:49
中国企业家杂志 incentive-icons
中国企业家杂志
本账号由《中国企业家》杂志社有限责任公司运营
2987文章数 19876关注度
往期回顾 全部

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

头条要闻

英国、法国、加拿大、日本等11国联合发声:强烈谴责

头条要闻

英国、法国、加拿大、日本等11国联合发声:强烈谴责

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

房产
艺术
教育
本地
公开课

房产要闻

跨海高铁,四大新机场,G98扩容…封关元年,海南配套大爆发!

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

教育要闻

湖南科技大学就业好不好?成功创业者频出,以创业有效带动就业!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版