![]()
消息来源:《金融时报》 | 编译整理
距上次重大发布逾一年之后,总部位于杭州的人工智能实验室DeepSeek计划于下周推出其最新大型语言模型,再度检验中国挑战美国AI霸主地位的雄心。
![]()
据两位知情人士透露,DeepSeek此次计划发布的新模型名为V4,具备图像、视频与文本生成功能,是一款”多模态”模型。 
适配国产芯片,规避美国出口管制
知情人士称,DeepSeek已与中国AI芯片厂商华为和寒武纪合作,针对其最新产品对V4进行优化。 此举被视为中国科技界更广泛努力的一部分——有意降低对英伟达市场主导地位芯片的依赖,后者目前受到美国出口管制的限制。
DeepSeek为V4优化国产芯片的举措,预计将提振国内半导体需求,并加速在AI”推理”环节——即由训练模型生成响应——从英伟达、AMD向国产替代芯片的转型。 
值得注意的是,据另一位知情人士透露,DeepSeek并未与英伟达就其产品优化展开合作。目前英伟达仍主导训练芯片市场,尤其在计算密集度极高的模型预训练阶段优势显著。 
DeepSeek此次新模型发布时间特意选在全国人大”两会”召开前夕——两会将于3月4日开幕。这场高规格政治盛会或将进一步巩固DeepSeek作为”国家AI旗手”的地位。 
这也将是DeepSeek自2025年1月推出R1推理模型以来首次重大版本发布。 此前,DeepSeek仅发布了小幅迭代更新,这使国内竞争对手阿里巴巴和Moonshot得以趁势抢占低成本、开源中文模型的市场需求。 
在信息披露方面,据一位直接知情人士透露,DeepSeek计划随V4发布一份简短技术说明,并于约一个月后发布更为详尽的完整报告。 
这与去年R1发布时的做法有所不同。去年发布的R1随附了详细技术报告,披露了DeepSeek更高效利用英伟达芯片进行训练和推理的工程方法,获得业界广泛赞誉。 
Anthropic指控DeepSeek”蒸馏攻击”
就在V4发布消息传出的同一周,Anthropic公开指控DeepSeek及另外两家中国AI实验室对其模型实施了”蒸馏攻击”——即利用更先进模型的输出结果训练较小模型,从而在无需相同算力的情况下复制其性能表现。 
背景:DeepSeek R1曾引发”斯普特尼克时刻”
当时,DeepSeek宣称仅凭所用算力的极少一部分,便构建出了可与硅谷顶尖模型媲美的系统,此举令美国科技股遭受重创,部分专家将其描述为象征中国AI快速崛起的”斯普特尼克时刻”。 
此次V4发布,将是DeepSeek能否在技术与政治的双重舞台上再度制造震动的又一次检验。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.