网易首页 > 网易号 > 正文 申请入驻

编程表现超越Claude和GPT?DeepSeek准备第二次震惊全世界

0
分享至



去年7月,由于DeepSeek下载量从高峰期的8000多万暴跌至2000多万,下滑72.2%,“DeepSeek跌落神坛”就成为了当时互联网最热门的话题。

但据多位知情人士透露,DeepSeek即将重登王座。他们计划在二月中旬发布新一代模型DeepSeek-V4。

也就是农历2026年新年期间,距离上一代模型DeepSeek-R1的发布正好一年。

这次发布的重点是代码生成和处理能力。

根据DeepSeek内部的基准测试,V4在编程任务上的表现超过了目前市场上的主流竞品,包括Anthropic的Claude和OpenAI的GPT系列。

根据报道,在即将发布的新模型中,DeepSeek团队解决了许多长期困扰AI发展的技术难题。很可能会彻底改变Vibe Coding产业。

01

报道中提到一件事,“DeepSeek-V4模型在整个训练过程中理解数据模式的能力也有所改进,且性能未出现衰减。”

这句话有些难以理解,我们不妨拆开来解读。

首先是前半句,它指的是模型不再只是死记硬背数据,而是能看透数据背后的规律和逻辑。

DeepSeek-R1有个具代表性的例子,就是让模型数strawberry里有几个r。

由于当时的DeepSeek模型并不能理解“数”(count)这个概念,只能根据训练时的数据来输出答案。可这个数据恰好又是错的,所以无论DeepSeek怎么思考,它给出的答案大多数情况都是2,而不是正确的3。



而DeepSeek-V4则会彻底杜绝这个情况,前提是在训练过程中,让模型彻底理解某一件事情。

后半句的性能退化,指的是在AI训练中,随着模型不断学习新东西或训练时间加长,往往会出现“学了新的忘了旧的”或者模型变得不稳定的情况。

这种现象在业内被称为“灾难性遗忘”(Catastrophic Forgetting)或“模型坍塌”(Model Collapse)。

因此,V4在不断变聪明、变复杂的过程中,依然保持了极高的稳定性和原有能力的完整性,没有出现任何“副作用”或能力倒退。

这恰恰是构建编程Agent的前置条件。

在现代软件工程中,一个微小的修改可能波及数个文件、数千行代码的依赖关系。

但是以往的模型往往受限于上下文窗口或注意力机制的衰减,从而没办法对于庞大的项目进行修改。

V4极有可能是一个为“Agent时代”量身定制的模型。

一年前,DeepSeek-R1 的发布确实在行业内引起了不小的波动。那款主打推理能力的模型证明了低成本研发路径的可行性。

然而一年后的今天,人工智能行业的关注焦点已经发生了显著转移。单纯的文本生成或逻辑推理已不再是唯一的竞争高地,代码生成正在演变为大模型能力的“试金石”。

在当前的开发环境中,“Vibe Coding”成为新趋势,要求AI不仅能补全代码,更能理解开发者的意图流(Flow),实现从自然语言到复杂工程逻辑的无缝转化。

DeepSeek似乎已经准备好在新赛道上狂飙了。

02

如果深入梳理DeepSeek团队以及核心人物梁文锋在R1发布之后这一年里的学术轨迹,我们会发现一条清晰且扎实的技术演进路线。

这些公开发表的论文与技术报告,不仅是对过去成果的总结,更是V4强大能力的注脚与预演。

2025年9月,DeepSeek-R1的相关论文成功登上了顶级学术期刊《Nature》的封面,梁文锋署名通讯作者。

面对审稿人关于是否使用了OpenAI模型输出进行蒸馏训练的尖锐质疑,DeepSeek团队在回应中给出了明确的否认,并首次公开了令人咋舌的低成本数据:从V3-Base训练到R1,仅花费了29.4万美元。

当然,这个成本仅指R1的后训练阶段成本,不包含V3-Base基础模型本身约600万美元的训练投入。

数据公开后,以及《Nature》为此专门撰写的社论,标志着DeepSeek在学术严谨性和技术原创性上获得了国际最高认可,彻底洗刷了外界对于中国大模型“套壳”或“跟随”的刻板印象。

不过,真正能佐证DeepSeek-V4在代码方面有大幅突破的证据,是2025年最后一天,DeepSeek团队发表的论文《mHC:流形约束超连接》。

代码生成任务对模型的逻辑深度和上下文跨度有着极高的要求,这通常需要更大规模的模型参数和更深的网络结构。

然而,传统的超连接(Hyper-Connections)架构在模型规模扩大时,会面临严重的信号增益问题,最终导致训练过程极不稳定甚至崩溃。

为了解决这一阻碍模型扩容的根本性物理难题,DeepSeek团队在这篇论文中提出了一种全新的架构mHC。

简单来说,它给狂奔的信号加了一道精密的阀门,将信号增益严格控制在1.6倍左右。

论文数据显示,在3B、9B乃至18B参数规模的模型测试中,应用了mHC架构的模型在BIG-BenchHard推理基准上提升了2.1%。

这项由梁文锋联合署名的研究成果,实际上解决了大模型在“做大”和“做复杂”过程中的稳定性难题。

这意味着V4模型极有可能采用了这种全新的架构,从而在拥有更庞大参数量和更深层推理能力的同时,依然保持了高效的训练效率和极高的稳定性。



不仅如此,在2026年1月初,DeepSeek悄无声息地将arXiV上的R1论文从原本的22页大幅扩充至86页。

这多出来的60多页内容,详尽地披露了R1的完整训练管线,包括冷启动、推理导向的强化学习(RL)、拒绝采样与再微调、以及对齐导向的强化学习这四个关键步骤。

业界普遍推测,这种在春节前夕“清库存”式的技术披露,往往预示着下一代更强大的技术已经成熟。

既然R1的技术细节已经不再是核心壁垒,那么即将到来的V4必然拥有了更高维度的护城河。

03

就在2026年的元旦,另一股来自量化界的力量也加入了战局。

由九坤投资创始团队发起成立的至知创新研究院(IQuestResearch),发布了名为IQuest-Coder-V1的开源代码大模型。我们曾在文章《又是量化基金,第二个DeepSeek时刻到来了?》中对其进行了报道。

这支同样出身于量化背景的团队,他们仅有40B参数的模型,在SWE-benchVerified测试中斩获了81.4%的高分,一举达到了Claude和ChatGPT的水平。

而在Vibe Coding的战场上,国内互联网大厂的动作同样不容小觑。

字节跳动的豆包在2025年初就推出了Trae编程工具,并在AI编程功能上实现了HTML预览、Python运行和完整项目生成等能力,让开发者可以在一个界面内完成从构思到部署的全流程。

阿里的通义千问则在12月26日更新到了Qwen Code v0.5.0版本。

此次更新的最大亮点就是支持在终端窗口中同时运行四个Qwen Code实例,可并行处理智能问答、实时翻译、原型设计、创意绘图等不同任务,实现了AI编程“跳出命令行”的突破。

不过,真正引发行业震动的,是豆包在硬件终端上的突破性尝试。

2025年12月1日,字节跳动与中兴通讯合作推出了搭载豆包手机助手的努比亚M153工程样机,售价3499元,首批约3万台在当天迅速售罄,甚至在二手市场炒出了高价。

这款手机助手的核心能力在于跨应用操作。用户只需用自然语言下达指令,AI就能自动跳转多个应用完成点外卖、订机票、比价购物等复杂任务。

这一系列动作背后,折射出的是AI大模型从云端走向终端、从工具走向入口的战略转型。

说不定DeepSeek手机也不远了。



与此同时,资本市场也迎来了大模型行业的收获季。

曾经历过“百模大战”喧嚣的中国AI行业,正在加速向头部收敛。智谱AI和MiniMax这两家公司均已成功上市。

智谱是1月8日在港交所敲的钟,发行价定在116.2港元/股,上市第一天就给了市场一个惊喜 —— 开盘120港元,收盘131.5港元,第一天就涨了13.17%,市值一下子冲到578.9亿港元,成了 “全球大模型第一股”。

第二天开盘直接137.2港元起,收盘158.6港元,较首日收盘价又涨了20.6%,市值也跟着涨到698.21亿港元,两天下来从发行价算已经涨了快37%,完全没给空头机会。

MiniMax比智谱晚一天,但风头更劲。发行价165港元/股,而且是顶格定价,上市前一天的暗盘就已经涨了25%-29%,报205.60-212.60港元。

上市当天开盘235.4港元,涨了42.7%,之后一路飙升,盘中最高到351.8港元,最终收盘345港元,较发行价暴涨 109.09%,市值来到1054亿港元,成了千亿市值俱乐部新成员。

虽然高额的研发投入使得两家公司目前仍处于亏损状态,但强劲的增长曲线证明了市场对于高质量AI模型的付费意愿正在形成。

中国AI方兴未艾,但当全球目光已经再次聚焦到DeepSeek身上。一年前那个用低成本路径颠覆行业认知的团队,即将在春节期间交出新的答卷。

DeepSeek能否第二次“震惊全世界”,只要再等几天就会知晓。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俾斯麦海发生6.3级地震

俾斯麦海发生6.3级地震

财联社
2024-09-12 01:09:10
印度:世界不能是中美主导,也不能是中国主导,应该中印一起领导

印度:世界不能是中美主导,也不能是中国主导,应该中印一起领导

通文知史
2026-01-22 19:20:03
这都不算强奸?!

这都不算强奸?!

字圆球方
2026-01-23 16:11:45
某国产品牌豪车暴跌98%,豪车不是有外形就行,需要核心技术

某国产品牌豪车暴跌98%,豪车不是有外形就行,需要核心技术

柏铭锐谈
2026-01-22 23:18:24
基辛格离世前预测:若三战爆发,只有3个国家敢打美国,没有中国

基辛格离世前预测:若三战爆发,只有3个国家敢打美国,没有中国

芊芊子吟
2025-12-24 16:40:03
46岁蓝正龙悉尼被偶遇!造型邋遢似流浪汉,手提台湾LV太抢眼

46岁蓝正龙悉尼被偶遇!造型邋遢似流浪汉,手提台湾LV太抢眼

史行途
2026-01-23 15:57:57
市场监管总局通报48批次食品抽检不合格情况

市场监管总局通报48批次食品抽检不合格情况

界面新闻
2026-01-23 19:04:08
关键时刻,人民日报评论靠谱过吗?

关键时刻,人民日报评论靠谱过吗?

黔有虎
2026-01-23 00:34:42
活久见!阿根廷总统米莱穿运动鞋,参加川普的和平委员会成立大会

活久见!阿根廷总统米莱穿运动鞋,参加川普的和平委员会成立大会

火山诗话
2026-01-23 14:21:22
安东尼奥:中国足球和日本差距巨大!会努力让特别的事情发生

安东尼奥:中国足球和日本差距巨大!会努力让特别的事情发生

奥拜尔
2026-01-23 16:41:29
女子网购50天后退款后续:家境曝光两个孩子,商家索要2千只赔500

女子网购50天后退款后续:家境曝光两个孩子,商家索要2千只赔500

离离言几许
2026-01-23 00:01:41
刚刚,杨兰兰本人澳洲出庭!正式低头承认!

刚刚,杨兰兰本人澳洲出庭!正式低头承认!

澳洲红领巾
2026-01-23 11:40:24
李亚鹏澄清做生意亏4000万!并非如此,是被20年老兄弟害了

李亚鹏澄清做生意亏4000万!并非如此,是被20年老兄弟害了

以茶带书
2026-01-23 14:58:15
明知对方未离婚仍同居四十年,晚年求分居被索要补偿:我做了错事

明知对方未离婚仍同居四十年,晚年求分居被索要补偿:我做了错事

福建第一帮帮团
2026-01-21 18:42:34
广东大哥吐槽河南媳妇做饭菜像闹饥荒,网友笑喷了:有得吃就行

广东大哥吐槽河南媳妇做饭菜像闹饥荒,网友笑喷了:有得吃就行

金汐
2026-01-23 01:07:48
陈育煌任吉林省副省长

陈育煌任吉林省副省长

新京报
2026-01-23 19:13:08
梁小龙死因被推翻!挚友陈光标公布去世真相,根本不是因病去世

梁小龙死因被推翻!挚友陈光标公布去世真相,根本不是因病去世

阿晪美食
2026-01-23 16:16:35
泰安市岱岳区人大常委会副主任李成勇被查

泰安市岱岳区人大常委会副主任李成勇被查

鲁中晨报
2026-01-23 17:11:02
演员孙涛澄清闫学晶言论,落泪维护妻子

演员孙涛澄清闫学晶言论,落泪维护妻子

素素娱乐
2026-01-23 18:08:52
U23亚洲杯决赛赔率:中国不被看好,日本赢球赔率均1.5左右

U23亚洲杯决赛赔率:中国不被看好,日本赢球赔率均1.5左右

懂球帝
2026-01-23 14:02:18
2026-01-23 20:08:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2183文章数 8042关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

阿姨和未离婚男子同居四十年 晚年只求分居被索要25万

头条要闻

阿姨和未离婚男子同居四十年 晚年只求分居被索要25万

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

健康
房产
本地
艺术
公开课

耳石脱落为何让人天旋地转+恶心?

房产要闻

正式官宣!三亚又一所名校要来了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版