网易首页 > 网易号 > 正文 申请入驻

代码+视觉不再“偏科”,国产模型真正平替Claude还有多远?

0
分享至



出品 | 创业最前线

作者 | 白华

编辑 | 闪电

美编 | 邢静

审核 | 颂文

过去一年,AI编程工具迈入“军备竞赛”阶段。以Anthropic的Claude系列为代表的闭源模型,凭借领先的代码生成和Agent能力,成为全球主流开发平台的首选。然而,其对中国市场的服务限制、高昂的API成本,以及缺乏本地化支持,正倒逼国内开发者寻找高性能、高性价比的替代方案。

与此同时,国产大模型在纯文本任务上已取得显著进展,但在视觉理解、复杂Agent工具调用等真实工程场景中仍存在明显短板——多数编程模型要么不支持图像输入,要么支持图像的模型编程能力不足。因为图文能力割裂,难以支撑现代软件开发中日益增长的代码+多模态基础需求。

近期,Kimi新发布的K2.5模型在开发者群体中引发广泛关注,因为编程性能的提升与视觉能力的补齐,让开发者终于等到了完整Claude平替的希望。

在全球最大的大模型API聚合平台OpenRouter上,Kimi K2.5模型发布次日就冲上了全球前三。



这份亮眼表现也迅速获得了头部编程工具平台的认可与青睐。Cursor的核心竞品,由GitLab创始人打造的知名编程工具Kilo Code宣布推出Kimi K2.5的首周免费活动后,K2.5也成为该平台上最受欢迎的模型,单日消耗超过380亿Token。



最近很火的Claude Code开源版OpenCode,也宣布限时免费来吸引开发者用户。



国内大厂旗下的编程工具同样第一时间接入了K2.5模型。腾讯CodeBuddy将其设定为首选模型;字节Trae宣布提供免费额度,阿里Qoder、美团CatPaw等据传也在接入中。



1、K2.5代码能力究竟如何?

从知名匿名评测机构大模型竞技场LMarena公布的数据来看,K2.5在Thinking模式下,代码能力以1509分与Claude Sonnet 4.5持平。排在它前面的,只有Claude和Gemini最新的旗舰模型。这应该是开源模型代码能力的新高。



不止代码能力表现亮眼,K2.5在视觉能力上的评测成绩同样令人惊喜。从大模型竞技场的视觉能力匿名评测来看,K2.5模型的视觉能力比Claude更能打。



我们也从开发者社区看到一些真实反馈,K2.5的实际表现和体感,与榜单呈现的结果比较接近,代码能力确实有了提升。





一位Sezxy的网友表示Kimi K2.5+OpenCode感觉很不错,几个需求都用它俩解决。



不过,似乎编程能力的提升,也有一定的“副作用”,部分网友表示,之前K2模型的创意写作能力好像在K2.5模型上减弱了。



2、代码模型为什么需要视觉?

在知乎问题《Kimi发布并开源K2.5模型,哪些信息值得关注?》下,有Kimi的工程师分享了Kimi做多模态的背后思路,其中一段提到了视觉能力对代码模型的价值,其中一个关键场景是模型可以自己发现前端页面的视觉bug,然后有机会在后续的流程中自己进行修正:

其实对于很多任务而言,Agent模型也能去自己debug,去根据Console Log的文本内容去解决问题,但是我们还是会遇到一些没有任何Error或者Warnning,但又不得不再次提出Feedback的时刻,比如:“网站两个组件产生了堆叠遮挡,你修改下”“放在首页的图裂开了,应该是Link失效了,麻烦你check下”“这是一个介绍中学生的网页,配图不应该是工作人员”。

这些问题总是在不断提出,我们总是希望模型能不犯这些错误。是的,模型是有可能one-shot出来没有任何问题的代码,但是,只要我们给模型一双眼睛,这些吐槽的问题或者就有可能会让模型自己形成一个Action-Critic的Refine闭环,而没有Human的工作流水线是有更高效率的理想上限。



这可能是K2.5模型上线后,立即受到开发者群体欢迎的关键原因之一。此前的中国编程模型,普遍没有视觉能力,遇到图片和视频都无法处理,只能报错。或者需要非常复杂的流程,自行接入另一个模型来处理,对编程的效率影响很大。另一个关键原因则是Claude模型太贵了,烧钱太快。Kimi新模型的API价格只有Claude中号模型Sonnet 4.5的1/5,用起来钱包不会太疼。

3、更多K2.5的幕后

除了市场端的亮眼表现,K2.5的技术研发背后还有不少值得深挖的细节。

因此在1月29日凌晨,Kimi核心团队在Reddit平台举行了一场长达3小时的AMA(有问必答)活动,CEO杨植麟、算法团队负责人周昕宇、吴育昕三位联合创始人,与全球网友交流了K2.5的技术细节、产品规划与行业看法。这场对话中,许多关键问题的回应,让外界了解了更多K2.5的幕后。



有网友抛出尖锐问题:Kimi K2.5非常棒,但我看到有人说模型会自称为Claude,并把这当作你们大量蒸馏(distill)自Claude模型的证据。这是怎么回事?

杨植麟回应称:“我们的观察是,在正确的系统提示词下,它有很高的概率回答‘Kimi’,尤其是在思考模式下。但当系统提示为空时,它就进入了一个未定义区域,这更多地反映了预训练数据的分布情况。其中一项改进是,我们在预训练阶段对来自互联网的最新编程数据进行了上采样,而这些数据似乎与词元‘Claude’的关联性更强。事实上,K2.5在许多基准测试中似乎都优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。”



对于“Kimi Code和Claude Code有什么区别?为什么Kimi要开发自己的编程工具?”的问题,杨植麟表示:“我们认为我们需要一个与模型最匹配的框架。但使用Claude Code时,框架会不断变化,兼容性有时会成为问题。此外,Kimi Code还拥有一些独有的功能。我们认为video2code(视频生代码)非常重要,代表着前端开发的未来。”



而被问及“训练VLM的主要挑战是什么?为什么Kimi如此坚定地投入视觉模型的训练?”时,杨植麟给出了深入的技术解读:“主要挑战在于同步提升文本与视觉能力。我们发现,只要配方得当,两者可以相互增强:在视觉任务上做RL训练,反而提高了文本知识基准;反过来,像K2这样扎实的文本基础,也是视觉性能的关键。”

从技术突破到市场认可,再到研发底层的逻辑拆解,K2.5的出现为国产大模型的发展提供了全新的思路和样本。

4、结束语

中国企业和开发者都亟需一个真正的Clauce平替,“代码和视觉功能完备+性能全面对标+性价比优势”。现在看起来,kimi2.5暂时弥补了这一空缺。但我们还是希望看到更多中国模型可以站起来,让企业和开发者有更多选择。

*注:文中题图来自界面图库。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
剑桥20+男生,被大8岁已婚女蓄意接近,卷入三角关系后离奇死亡

剑桥20+男生,被大8岁已婚女蓄意接近,卷入三角关系后离奇死亡

一莎观察
2026-01-29 23:16:05
黄金跌破5000美元!有柜姐称因金价下跌退单扣500元,多品牌设置1-5%退货手续费

黄金跌破5000美元!有柜姐称因金价下跌退单扣500元,多品牌设置1-5%退货手续费

蓝鲸新闻
2026-01-30 18:33:09
从3胜19负到16胜3负!NBA历史首队!都说要解散,你们却创造神迹

从3胜19负到16胜3负!NBA历史首队!都说要解散,你们却创造神迹

老侃侃球
2026-01-31 03:30:03
我的左腿疼了20年,医院检查没任何问题,回老家一趟才弄明白

我的左腿疼了20年,医院检查没任何问题,回老家一趟才弄明白

黑猫故事所
2026-01-26 12:16:33
婚变真相大白仅1月,王石没想到,田朴珺用一奖杯给他狠狠长脸了

婚变真相大白仅1月,王石没想到,田朴珺用一奖杯给他狠狠长脸了

查尔菲的笔记
2026-01-30 12:08:46
金晨事件后续,内部聊天曝光,太抠门没谈拢,多段绯闻记者放实锤

金晨事件后续,内部聊天曝光,太抠门没谈拢,多段绯闻记者放实锤

李健政观察
2026-01-29 20:20:56
江苏境内最可怜的地级火车站,停靠列车有限,眼看着要下岗

江苏境内最可怜的地级火车站,停靠列车有限,眼看着要下岗

普陀动物世界
2026-01-30 11:22:42
若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

星星会坠落
2026-01-30 13:12:25
沪金夜盘收跌9.83% 沪银收跌17%

沪金夜盘收跌9.83% 沪银收跌17%

每日经济新闻
2026-01-31 06:22:50
周口男子进浴池打老婆后续:在场有8名女客,男子已被行拘

周口男子进浴池打老婆后续:在场有8名女客,男子已被行拘

奇思妙想草叶君
2026-01-31 00:50:00
你相信吗?女人的幸福与尺寸有关,医生的真相令人震惊!

你相信吗?女人的幸福与尺寸有关,医生的真相令人震惊!

特约前排观众
2026-01-31 00:20:05
热身赛:山东泰山2-2首尔,刘彬彬、尹嘉熙破门

热身赛:山东泰山2-2首尔,刘彬彬、尹嘉熙破门

懂球帝
2026-01-30 22:07:15
铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

趣文说娱
2026-01-30 15:01:14
前那不勒斯助教:我怀疑我们是否还能在联赛中看到德布劳内

前那不勒斯助教:我怀疑我们是否还能在联赛中看到德布劳内

懂球帝
2026-01-30 11:00:14
90%的广东人都不知道这样随礼是犯了大忌

90%的广东人都不知道这样随礼是犯了大忌

户外阿崭
2026-01-30 19:30:50
克宫证实:特朗普请求普京2月1日之前不要对基辅实施打击

克宫证实:特朗普请求普京2月1日之前不要对基辅实施打击

环球网资讯
2026-01-30 18:28:20
曼联炸锅!世界级巨星遭巴萨疯抢,本人竟不抗拒离队?

曼联炸锅!世界级巨星遭巴萨疯抢,本人竟不抗拒离队?

澜归序
2026-01-31 05:27:03
从溢价抢到无人问津!小米 SU7 Ultra 月销 45 台,败给特斯拉还是自己

从溢价抢到无人问津!小米 SU7 Ultra 月销 45 台,败给特斯拉还是自己

蓝色海边
2026-01-31 02:44:39
连亏三年后突然盈利300亿,金科怎么做到的?

连亏三年后突然盈利300亿,金科怎么做到的?

第一财经资讯
2026-01-30 23:17:58
特朗普收到喜讯,“新联合国”迎来第二批成员,中方这次直接拆台

特朗普收到喜讯,“新联合国”迎来第二批成员,中方这次直接拆台

補懂事的孩紙
2026-01-31 06:03:54
2026-01-31 07:04:49
创业最前线 incentive-icons
创业最前线
创业有道·创新中国|长期关注中国科技创新经济市场,提供更有价值的创投科技报道。
3537文章数 53557关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

房产
本地
健康
时尚
公开课

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

今日热点:《闪灵》今日上映;保险公司确认金晨方曾放弃索赔……

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版