最近有不少人在说DeepSeek可能会在二月发布新版本。
这个其实都不用猜,甚至是大概率事件,因为DeepSeek发布新东西有一个特点,就是喜欢在节假日前。
最近的案例就是这篇mHC的论文,在2025年12月31日的国内时间晚上10:16。
都能想到按下发布键的那个研究人员的喜悦。
![]()
我觉得这可能是DeepSeek的一个习惯,就是喜欢在节假日前发东西,因为自己本身是开源公司且基本上不靠模型什么的赚钱,所以节前发了节后再看,管它那么多。
这是我做的一个简要的图,列举了DeepSeek过去一年比较重要的发布,你看R1在春节前8天,V3更新在清明节前,R1跟心在端午节前,V3.1倒是离得远,不过V3.2这个大更新,距离国庆节只有2天。
![]()
所以按照规律来推算,今年的春节deepseek也大概率会有一个新的发布,但是至于说是V4还是什么型号很难说,因为没人知道,DeepSeek算是最神秘的公司了。
其原因倒也简单,就是公司的主营业务是量化金融,赚钱比AI快还稳,这种纯粹拿AI当兴趣的公司行事举动和别的all in AI的差别很大。
再加上还有一条猜测的凭证,就是前两天DeepSeek发的那篇论文mHC倒是隐约的提到了类似的点,
此外,我们希望 mHC 能重新激发社区对宏观架构设计的兴趣。 通过加深对拓扑结构如何影响优化和表征学习的理解,mHC 将有助于解决当前的局限性,并有可能为下一代基础架构的演进开辟新的路径。
能从这个结论看得出来DS对于这个工作是很看重的,他们的taste感觉这个方向可能会成为下一代基础架构的引子。
但是他们也说了doubly stochastic matrices,就是mHC这篇文章用到的算法,效果很不错,但实际上类似的算法还有,这是一个open area,mHC起到的就是抛砖引玉的作用。
除非,DS真的是天选之子,上来就选中了最合适的流形约束算法。
否则,试错工作是需要全世界的科研工作者来做的。
而这种探索性质的工作,理论上不太会直接应用到自己对外的大模型中,特别是这种大版本更新,用一个正在探索中的算法或者框架,风险太高,且从论文的效果来看,并没有比原先的传统框架提高很多。
但是不是V4这就很tricky了,因为V3到R1,接下来的模型大家都觉得是R2或者V4,但结果是V3.1,V3.2,并没有想象中的大版本更新。
技术进步哪有那么快?
当然了,v3.2当成v4来发也没有人会说什么。
但是按照DS的性格,大概率只有大活才会换大版本号。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.