网易首页 > 网易号 > 正文 申请入驻

像梁文峰一样诚实

0
分享至

「不诱于誉,不恐于诽,率道而行,端然正己。」

原话出自《荀子·非十二子》,这次被 DeepSeek 放到发布稿的结尾。

《非十二子》本身就不是一篇温吞的文章。荀子在里面逐一批评当时有影响力的学说和人物,甚至连儒家内部的子思、孟子也没有放过。

所谓“非十二子”,不是简单地否定别人,而是在一个思想市场极度热闹、各种声音都试图争夺解释权的时候,重新辨认什么是真正可靠的道路。

梁文锋当然不是想批评别人,他甚至连对外讲两句都没兴趣。这只是一种自我说明,和自我道路的确认。

外界 care 我们,但我们不 TM care。

过去一段时间,DeepSeek 处在一种很特殊的位置上。

V4 迟迟没有发布,又不断被各种融资、延期、人才流动的猜测包围。

AGI 梦想在前,赞誉、质疑、情绪和舆论,全是噪声。

外界可以有很多评价,但最后能回应一切的,还是模型和产品。

这也是梁文锋和 DeepSeek 特别的地方。他们身上有一种少见的理想主义,但这种理想主义不是轻飘飘的口号,而是非常工程化、非常具体的东西:模型做强,成本打低,上下文扩张,Agent 能力补上,把真实使用体验摆到用户面前。

而且还很诚实。

理想主义的人不一定诚实。

比如马斯克显然有理想主义,星际移民和通用 AGI 都在射程之内。但马斯克显然不够诚实。对于今天模型圈的人来说,诚实是个更加稀缺的品质。

今天新模型发布后,你已经很难直接获得关于模型能力的相对客观的评价了。你看到一堆跑分和基准测试,跟实际体验是两个东西。

DeepSeek 文章里给出了他们内部的真实体验判断:目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。

相当清楚,一目了然,基本锁死外部野生评测员的补位空间。

所以我建议所有模型厂商,模型发布的时候,除了那批已经没啥人看的跑分,都加上自己内部盖戳认证的真实印象。

这个东西很关键。

因为 Agentic Coding 不是考试题。模型在一个榜单里多拿几分,和你真的把它放进一个代码仓库里,让它读需求、看文件、改代码、跑测试、修 bug、继续迭代,是两回事。

真实体验里有很多 benchmark 很难覆盖的东西。任务一长就丢失目标,用着用着就忘掉前面的约束,改我不让它改的文件,真的让人抓狂。

所以 DeepSeek 这段话不是觉得自己很强,不是benchmark说我很强,而是它给了一个非常接近真实用户语言的坐标。

强在哪里,接近谁,和谁还有差距,说得很明白。这种表达其实比“全面超越某某模型”高级得多,也有用得多。

具体聊下模型。

1M上下文

现在很多模型的默认上下文还是256K这个级别。对普通聊天来说,这已经很长了。但对 Agent 任务来说,其实经常不够。vibe coding的时候,或者跑个龙虾跑匹马的时候,模型需要在一个很长的任务过程中持续保留信息。

很多时候模型任务失败,不是它单点智力不够,而是因为工作记忆不够。

它前面读过的东西,后面就忘了;用户一开始强调的要求,做着做着丢了;项目结构刚理解完,改到第三轮又开始漂移。上下文不够的时候,Agent 很容易变成一个短视的执行器,很难跑完整个任务。

1M 上下文的意义就在这里。它让模型更像一个能长时间工作的协作者。

严格来说,这还不是参数意义上的“持续学习”,因为模型权重没有更新。

但从产品体验上讲,它已经接近一种上下文内的持续学习:模型可以在同一个任务窗口里不断吸收资料、用户反馈、历史决策和中间产物,然后把这些东西带到后面的推理和执行里。

未来很多 AI 应用不会是“我问一句,你答一句”,而是“我给你一个目标,你陪我把一件复杂的事做完”。这时候上下文就是模型的工作台,也是它的短期记忆。上下文越长,模型越有机会从单轮工具变成持续协作系统。

为了更好地支持长上下文,DeepSeek 重新处理了 Transformer 最昂贵的那一层东西:注意力。



传统注意力的问题大家都知道,它越往长上下文走,成本越不讲道理。因为模型不是把前文当成一篇文章粗略扫一眼,而是每生成一个位置,都要和前面大量位置建立关系。上下文长度扩大以后,计算和显存压力会以非常陡的方式上升。

V4 的思路是把“看上下文”这件事拆得更细。它不再要求模型在所有层里都用同一种方式平铺直叙地看完整历史,而是让不同注意力模块承担不同尺度的记忆任务。

一部分模块负责做比较细的压缩和筛选:先把连续的小段 token 整理成更紧凑的记忆单元,再让当前位置只去关注其中最相关的一部分。

另一部分模块则负责更粗尺度的全局感知,把更长的一段历史压成更少的记忆节点,然后在这些节点之间做相对完整的关联。它牺牲了一些局部细节,但换来的是对超长历史的整体把握。

这个方向我觉得非常 DeepSeek。

因为 DeepSeek 过去两年最关键的技术气质,一直不是“堆大”,而是“稀疏化”,是降成本。

V2、V3 的 MoE 是参数层面的稀疏化:模型总容量很大,但每个 token 只调用一部分专家,所以能力上去,成本没有按同等比例爆炸。

V4 这次更进一步,把稀疏化推进到了上下文本身:不是所有历史 token 都以同等分辨率进入注意力,而是经过压缩、筛选、分层之后,再被模型使用。

所以这次 1M 上下文,我觉得不能只当成一个产品卖点。

它更像是 DeepSeek 技术路线的一次延伸:先用 MoE 解决“模型容量和推理成本”的矛盾,再用新的注意力结构解决“上下文长度和计算成本”的矛盾。前者让大模型变得更便宜,后者让长任务变得更可行。

API价格



DeepSeek 去年之所以能掀起那么大的轰动,不只是因为它强,也不只是因为它便宜,而是它让所有人第一次非常强烈地意识到:强和便宜原来可以同时成立。

这件事对行业心理的冲击很大。因为过去大家默认顶级模型就是贵的,低价模型往往就要在能力上做妥协。但 DeepSeek 把这个默认前提打穿了。便宜但不好用,不会改变行业;强但太贵,也只能服务少数场景。但又强价格又低,就会改变成本结构,成本一动上面的生态就会跟着动。

拿公开 API 价格粗略看一下。deepseek-v4-pro的价格基本跟最新发布的kimi-k2.6一致,前者在缓存未命中情况下更贵,输出则更便宜一点。

不过k2.6价格是256K的上下文长度,而deepseek-v4-pro则是1M的上下文。按照之前小米MiMo token plan的计费规则,从256k到1m上下文增长,API价格要翻倍。

而且这里需要看到下面灰色的补充信息。目前受限于高端算力,Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。

说明当前Pro版本的价格是被刻意调高,因为推力算力还没有跟上。未来Pro版本价格大幅下调,不排除在现有价格的基础上对折甚至再对折。

国产算力齐活

之前一直有传闻,说 DeepSeek-V4 这次没有按照行业惯例,把早期适配优先权交给英伟达,而是先给了华为等国产芯片厂商。

当时这个说法听起来还有点像江湖传闻,因为大模型行业过去的默认流程就是围着 CUDA 转。模型厂商发新模型之前,先让英伟达这些硬件和软件生态的核心玩家提前适配,确保模型一上线就能在主流 GPU 上跑得又快又稳。

现在看来,国产全栈AI基本齐活了。

上面我们提到,DeepSeek 自己在发布稿里写了,受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。

华为计算公众号也说,昇腾一直同步支持 DeepSeek 系列模型,这次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持 DeepSeek V4 系列模型。昇腾 CANN 还安排了 DeepSeek V4 昇腾首发直播。

CUDA 的优势不是英伟达某一张卡很强,而是模型、框架、算子库、开发工具、部署经验、工程人才,全都围着它长了很多年。你要从 CUDA 迁到 CANN,大量底层算子、精度对齐、通信、调度、推理服务都要能跑通,而且要跑得足够好。

DeepSeek-V4 能在昇腾超节点上作为重要服务底座跑起来,这对国产算力是一次非常关键的验收。DeepSeek 的性价比不是凭空来的,它背后一定要有算力供给。

如果永远依赖昂贵、受限、供给不稳定的外部 GPU,再强的模型也很难长期维持低价。国产算力如果能接上,DeepSeek 才有可能继续把“强模型 + 低价格”这件事往下打。

所以这件事我觉得可以说是 DeepSeek-V4 里最硬的产业信号之一:模型有了,长上下文有了,Agent 能力有了,API 有了,现在连国产算力底座也开始接上了。

闭环开始形成。

DeepSeek 负责把模型能力和成本曲线打出来,华为昇腾负责把高端推理算力和超节点供给接上,CANN 负责补国产软件栈,开发者和 Agent 产品负责把需求跑起来。

为什么 DeepSeek-V4 这次发布很振奋。

它不是一个孤零零的模型更新,而是把很多原本分散的线索接到了一起:梁文锋的理想主义,DeepSeek 的诚实表达,1M 上下文,Agent 能力,低价 API,昇腾超节点,国产算力放量。

每一个单独看都重要,但合在一起,才是真正让人兴奋的地方。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈登19+8+7失误,米神打铁探花被完爆,骑士惜败猛龙迎天王山之战

哈登19+8+7失误,米神打铁探花被完爆,骑士惜败猛龙迎天王山之战

钉钉陌上花开
2026-04-27 04:32:15
轰3杆破百赢德比战!赵心童13-9淘汰丁俊晖,跻身世锦赛八强

轰3杆破百赢德比战!赵心童13-9淘汰丁俊晖,跻身世锦赛八强

全景体育V
2026-04-26 19:37:19
特朗普内阁又一个女部长落马,各种丑闻之丑令人作呕……

特朗普内阁又一个女部长落马,各种丑闻之丑令人作呕……

新民周刊
2026-04-26 15:07:25
中超积分榜:川渝继续领跑,申花第5,津门虎据脱离降级区4分

中超积分榜:川渝继续领跑,申花第5,津门虎据脱离降级区4分

懂球帝
2026-04-26 21:58:38
没时间了,小哈梅开始放权,伊朗最多坚持60天,中方给出强烈预警

没时间了,小哈梅开始放权,伊朗最多坚持60天,中方给出强烈预警

军机Talk
2026-04-26 17:10:59
申花豪取五连胜!2年第一次,5战河南全胜,延续6大纪录

申花豪取五连胜!2年第一次,5战河南全胜,延续6大纪录

奥拜尔
2026-04-26 21:56:37
Shams:联盟已开始调查掘金和森林狼冲突,预计G5前公布结果

Shams:联盟已开始调查掘金和森林狼冲突,预计G5前公布结果

懂球帝
2026-04-27 02:37:02
12人落马 5轮反腐清查 蔡振华全程零牵连守住底线

12人落马 5轮反腐清查 蔡振华全程零牵连守住底线

乒乓乐园
2026-04-27 00:04:09
南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

封面新闻
2026-04-26 17:18:07
伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

念洲
2026-04-26 20:15:54
为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

新京报
2026-04-26 15:41:36
深圳抽烟民警和女博主均被网友开盒,照片等信息在网上到处散播

深圳抽烟民警和女博主均被网友开盒,照片等信息在网上到处散播

映射生活的身影
2026-04-26 21:20:08
伊朗外长向巴基斯坦递交停战条件

伊朗外长向巴基斯坦递交停战条件

新华社
2026-04-26 23:15:28
外媒炸锅了!当着日本航母的面,055竟然发射鹰击-20?

外媒炸锅了!当着日本航母的面,055竟然发射鹰击-20?

凡知
2026-04-26 21:00:16
中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

诗酒趁的年华
2026-04-22 05:07:02
CBA官方:贺希宁首次当选常规赛MVP+入选一阵 成深圳队史首人

CBA官方:贺希宁首次当选常规赛MVP+入选一阵 成深圳队史首人

醉卧浮生
2026-04-26 20:25:45
全变味了?苏超开幕不到半月,不对劲的一幕上演,舆论风向又变了

全变味了?苏超开幕不到半月,不对劲的一幕上演,舆论风向又变了

墨印斋
2026-04-25 18:07:43
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

番外行
2026-04-24 08:59:12
骑士惜败猛龙被追到2-2:哈登19+8迎里程碑 巴恩斯23+9+6制胜两罚

骑士惜败猛龙被追到2-2:哈登19+8迎里程碑 巴恩斯23+9+6制胜两罚

醉卧浮生
2026-04-27 03:58:06
2026-04-27 05:11:00
象先志 incentive-icons
象先志
专注互联网、电商,聚焦产业、核心,洞察前沿、趋势
149文章数 9关注度
往期回顾 全部

艺术要闻

72米舞台被拆!华晨宇这次玩文旅,翻车了!

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

时尚
本地
旅游
手机
公开课

比阔腿裤还时髦?今年夏天一定要有“这条裤子”,减龄又松弛

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

旅游要闻

2000余场特色活动邀市民欢度五一

手机要闻

vivo Y600 Pro配备 6.83 英寸 1.5K 护眼屏,新机明天见!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版