网易首页 > 网易号 > 正文 申请入驻

梁文锋和杨植麟,第四次撞车

0
分享至



二人为何都瞄准了视觉理解?

文|《中国企业家》见习记者 孙欣

记者 王怡洁

见习编辑|李原编辑|何伊凡

头图来源|视觉中国

这已经是2025年以来的第4次,DeepSeek创始人梁文锋和月之暗面创始人杨植麟在技术路线上精准“撞车”。

1月27日,月之暗面发布并开源新模型Kimi K2.5,该模型由K2和K2-Thinking并存演进而来。在官方视频里,杨植麟将其形容为“全能模型”,视觉理解、代码、多模态、思考与非思考模式、Agent及Agent集群能力,都被封装进了同一个模型中。

除了代码能力极大提升之外,K2.5的一大亮点在于“视觉理解能力”的极大增强,可分析用户上传的图片、视频,并据此编程或解答问题。

无独有偶,K2.5发布的同日,DeepSeek也上线了新一代模型OCR-2。该模型同样在视觉理解上取得重大突破,解决方法更另辟蹊径。DeepSeek创新了“视觉因果流”机制,不再需要按照固定顺序扫描图片,而是能像人一样,根据图像内容的语义和逻辑,动态调整阅读顺序。

屡屡在同一条技术路线上探索,又数次同日发布成果,梁文锋与杨植麟的心有灵犀已经很难用偶然来解释,他们二人又为何不约而同地瞄准了视觉理解这座山峰?

四次“撞车”

实际上,梁文锋和杨植麟模型产品、论文总是选择同期发布,并非因为“内卷”。拆解二人的成果会发现,他们在关键技术路线上“和而不同”的创新,背后是对大模型和产业痛点的相似判断。

2025年1月20日,DeepSeek-R1上线后火速破圈。Kimi 1.5也紧随其后发布,且同样采用了“基于结果奖励的强化学习”路线。

2025年2月18日,梁文锋和杨植麟前后脚发表了关于注意力架构的最新论文,聚焦于解决Transformer注意力机制下,长上下文处理效率低下、算力消耗过高的行业痛点。

其中,梁文锋作为共同作者,提出了DeepSeek-NSA(原生稀疏注意力)架构,通过分层压缩、关键令牌选择与滑动窗口结合的策略,大幅降低了长上下文处理的算力消耗。

同日,杨植麟也作为论文共同作者,提出了MoBA(混合块注意力)架构,并与NSA选择了不同的优化路径——基于专家混合(MoE)原理,通过分块处理与动态门控机制,让模型自主实现全注意力与稀疏注意力的切换。

只不过,NSA更侧重硬件层面的优化,MoBA则倾向于在Transformer框架内做灵活创新。虽路径不同,但二人的核心目标一致:解决效率瓶颈,让模型在复杂任务中更具实用性。

2025年4月,DeepSeek发布数学推理模型DeepSeek-Prover-V2。通过子目标分解的强化学习推进定理证明,让模型能够“自验证”推理过程的合理性,几乎同期,月之暗面也上线了数学推理专项模型,同样采用了“自验证”核心方式,大幅提升了定理证明的稳定性与准确性。


来源:AI生成

这一次“撞车”源于,彼时AI深度推理还是行业的技术难点。而数学推理作为核心场景,直接关系到大模型在科研、金融、工程等领域的落地能力,二人同时聚焦这一方向,背后是对验证AI落地价值的一致探索。

而最近的一次同台竞技,DeepSeek的OCR-2和月之暗面的K2.5又不约而同地瞄准了视觉理解。这一次同样绝非巧合。

数月前,《中国企业家》从相关人士处了解到,DeepSeek和月暗一直在围绕谁能先做出具备前沿能力的视觉语言模型,让大模型不再成为“聪明的瞎子”而暗自较劲。

结合2025年7月SuperCLUE发布的多模态测评报告,或可找到二人攻坚视觉语言模型的答案。

报告指出,视觉语言模型正普遍面临三大痛点:1.专业领域知识欠缺,特别是在医疗影像分析、工业应用等专业领域得分较低。2.复杂场景适应不足,在自动驾驶、空间推理等任务中表现较差。3.多模态融合深度不够,图文不一致情况下,判断准确率不足65%。

由此可见,视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,也已成为制约模型商业化落地的瓶颈。梁文锋与杨植麟同时聚焦这一领域,源于对行业痛点的相似洞察——谁能率先突破,就能在多模态商业化竞争中占据主动。

如何翻越视觉理解高山?

实际上,在大语言模型层面,国内模型正在与海外模型日益拉近距离。但业内人士对《中国企业家》表示,在视觉理解层面,海外被称为“御三家”的Google Gemini、OpenAI GPT 5.2和Claude已“卷”到下一阶段,国内大模型则还处于追赶和“补课”阶段。

例如,数月前网络上曾让大模型做识别车型的测试。特斯拉被车主自贴了一个小米标志,不少大模型将其认错。“这说明综合视觉信息,当前对多模态模型依旧有困难。”前述人士说。

此次发布中,杨植麟在视频中演示了一段视频,K2.5通过识别图片或者视频,复刻出一个网址的功能。此前国内大模型更多需要借助语言、指令来实现。“需要精确地告诉模型,左上角是个按钮,需求都要用指令来描述。”

“一图胜千言。”科技博主海拉鲁对《中国企业家》说。大部分情况下,用户很难用文字一次性描述出自己想要编出的前端界面,视觉理解核心意义在于让大模型从“读文字”升级为“懂信息、用信息。”

K2.5是月暗在视觉理解上交出的第一份答卷。团队让原生的多模态架构设计与大规模视觉文本进行联合预训练,采用了约15万亿个Token持续训练。在这个基础底座之上,构建Visual Agentic Intelligence(视觉智能体智能)系统。简而言之,K2.5从视觉理解编码入手,分解Agent任务,增强Coding能力。

接近月之暗面的人士告诉《中国企业家》,训练中最现实的困难在于多模态数据的匮乏,以及对数据的处理。“普通人每天拍的照片对模型来说没什么用。需要高质量的数据,才能让模型学到东西。像维基百科,也只是中等质量的数据。”

此外,月之暗面在K2.5中也再次坚持了对“技术品味”的追求,“如果你希望模型更加浪漫,精通软件的UI界面、美学设计,你该给它匹配什么样的数据,这都需要对世界有更多审美认知。”前述人士说。


来源:官网截图

1月29日凌晨,月之暗面团队在Reddit上回答了网友问题,杨植麟表示:“模型的核心在于品味,因为智能本身是非同质化的(non-fungible)。”

海拉鲁评价道,Kimi是国内编程不错的模型里面第一家真正“开眼”的。AI从业者徐再世也表示:K2.5与其他多模态模型最大的区别在于,把视觉和编程、Agent能力结合得更紧密,这降低了开发门槛,让非程序员靠截图录屏也能做出原型。

除了前端设计,伴随K2.5,Kimi还推出了Kimi Code,可以在终端里直接运行,也能集成到 VSCode、Cursor等主流编辑器中。简单来说,K2.5可以自动发现用户的编程过程,并将用户现有的Skills(给AI Agent使用的技能包)迁移到新的工作流中。

相对于K2.5侧重在工程化层面解决问题,DeepSeek在视觉技术源头做出了更多创新。

传统的视觉语言模型(VLM)在扫描图片时,通常是固定地从左到右、从上到下。但人类在理解图片时,会代入自身的语义顺序和取舍,如先看标题,再看正文。

OCR-2也模仿了人类的逻辑,其替换了原本的CLIP编码器,引入了全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左上到右下)扫描图像的限制,而是模仿人类视觉的“因果流(Causal Flow)”逻辑。

从这个维度上看,DeepSeek和月之暗面虽然都在补齐视觉理解的短板,但二者的创新点发生在不同环节。K2.5是基于多模态模型提升工程化性能,更靠近商业落地侧;而DeepSeek更侧重追溯到技术源头,进行创新。

集群重新定义Agent

除了视觉理解,此次K2.5的Agent集群功能也获得了不少业内人士的称道。

徐再世在做大语言模型预训练的工作,他看到,Anthropic的Claude Opus在编程场景上表现突出,一个原因就是它很擅长通过工具调用来执行任务。但很多语言模型在工具调用中,出错概率很高。而K2.5引入的Agent Swarm(智能体集群)架构,从单一Agent进化到Agent集群,意味着模型能力的关键提升。

在杨植麟对Agent集群的介绍中,K2.5不再是一个单打独斗包揽一切的智能体,而是一支即时组建的“智能体团队”。即当任务下达时,主Agent能够生出上百个“子Agent”,由主Agent支配。相较于单智能体模式,其任务执行效率提升最高达4.5倍。

月暗团队演示了一段视频,他们给Kimi Agent集群投喂了40篇关于心理学和AI的论文。K2.5先是通过多次调用工具,按顺序把论文通读一遍;随后,其衍生出数个子Agent负责不同章节撰写。最后,成果由主Agent负责把关验收,将所有内容汇总成一份长达几十页的PDF综述。


来源:AI生成

要实现上百个Agent并发运行并非易事,平衡调度器便是一大难点:在训练初期,子Agent可能会因协同失败而放弃并行策略。而月暗团队采用了PARL (并行智能体强化学习) 的训练方法,团队通过分阶段奖励,引导模型建立稳定偏好。

此外,当100个Agent同时工作,通信、算力都将产生巨大负载,Agent之间可能会信息复读、相互干扰,效率可能会低于单体模型。团队需要让模型学习如何自主通信,并动态调整智能体数量和资源分配。

据《中国企业家》了解,K2.5整个Agent集群由K2.5模型全自动创建与协调,用户无需对子智能体或工作流进行预先定义。即便某个子智能体失败,主Agent也能迅速感知并重新调度。

徐再世解释道,无需预定义意味着K2.5的Agent集群是动态分工,模型自己会决定这个任务需要什么角色,自动创建子Agent并行工作。

1月29日,在解答网友询问K2.5的“智能体蜂群”在运行100个并行推理流时,如何解决延迟和上下文信息丢失问题时,月之暗面联创吴育昕表示:K2.5的各个子智囊团可以在不“腐蚀”或污染主调度器上下文的情况下独立执行子任务,即子Agent本质上拥有各自的工作记忆,只在必要时将结果返回给调度器。

“从K2开始,月暗团队每一步都走得很扎实稳重。”虽然徐再世认为,月暗的产品形态还需要时间打磨。但从长远来看,Agent集群技术的突破有着重大价值。“这意味着未来的智能体将无需人工设计工作流,真正实现人力的解放。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
53岁宁静近况曝光!29年前嫁美国演员生一子,离婚后尽享单身生活

53岁宁静近况曝光!29年前嫁美国演员生一子,离婚后尽享单身生活

代军哥哥谈娱乐
2026-03-25 11:31:55
中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

环球网资讯
2026-03-26 07:09:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

湖人崛起
2026-03-26 10:00:59
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
“史上最惨”的成都糖酒会,彻底撕开了白酒行业的遮羞布

“史上最惨”的成都糖酒会,彻底撕开了白酒行业的遮羞布

财经早餐
2026-03-25 22:42:59
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
2026-03-26 13:56:49
中国企业家杂志 incentive-icons
中国企业家杂志
本账号由《中国企业家》杂志社有限责任公司运营
3085文章数 19881关注度
往期回顾 全部

财经要闻

黄仁勋:芯片公司的时代已经结束了

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
手机
艺术
房产
军事航空

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

艺术要闻

哪一座桥不是风景?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版