在最近一次访谈中,欧洲版OpenAI的联合创始人兼CEO Arthur Mensch表示DeepSeek-V3是在Mistral提出的架构上构建的,此言论在网络上引发了广泛争议。网友们对这一说法表示质疑,认为其中存在诸多不合理之处。
Arthur Mensch提到,Mistral是最早发布开源模型的公司之一,而中国开源AI的强势发展让他们看到了开源策略的优势。他强调,开源不是真正的竞争,大家在彼此的基础上不断进步。他举例说,Mistral在2024年初发布了首个稀疏混合专家模型(MoE),DeepSeek-V3及之后版本都基于此架构构建,且Mistral公开了重建这种架构所需的一切。
然而,网友们指出,DeepSeek MoE论文的发布时间与Mistral论文相差仅3天,且两者架构思路并不相同。此前,Mistral 3 Large还曾被指出基本照搬了DeepSeek-V3的架构。从数学公式来看,两者虽都采用GShard风格的Top-K router,但DeepSeek改变了传统MoE架构中的门控机制和专家结构。在专家粒度和数量方面,Mixtral沿用标准MoE设计,DeepSeek则提出细粒度专家分割,使专家组合更灵活。在路由机制上,Mixtral中专家地位平等,DeepSeek引入共享专家,实现知识分布的解耦。
此外,有网友提到,Mixtral的论文并未提及训练细节,仅提到采用Google GShard架构和简单的路由机制。而2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构。网友们认为,Mistral试图通过岁月史书来挽回面子,但DeepSeek在稀疏MoE、MLA等技术上获得了更大影响力。有网友调侃,现在的Mistral已非曾经惊艳大模型开源圈的那个Mistral。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.