网易首页 > 网易号 > 正文 申请入驻

美AI公司万字檄文施压白宫加强管制,质疑DeepSeek或使用禁运芯片

0
分享至

当地时间 1 月 30 日,美国 AI 公司 Anthropic 的 CEO 达里奥·阿莫迪(Dario Amodei)在个人博客发表“万字檄文”,指出对于 DeepSeek 的崛起,美国白宫应该加强管制。

达里奥·阿莫迪博文核心观点:不应将技术优势拱手让给中国

达里奥·阿莫迪(Dario Amodei)写道:“我暂且不讨论 DeepSeek 是否对 Anthropic 等美国 AI 企业构成威胁,尽管我认为许多关于 DeepSeek 威胁美国 AI 领导地位的说法被严重夸大了。我更关注的是,DeepSeek 的成果发布是否削弱了美国芯片出口管制政策的合理性。我的看法是否定的。事实上,我认为 DeepSeek 的进展反而令出口管制政策显得比一周前更加重要。出口管制服务于一个至关重要的目标:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制并不是逃避美中竞争的手段。如果美国和其他民主国家的 AI 公司想要最终胜出,就必须开发出比中国更卓越的模型。但是,在力所能及的情况下,我们不应将技术优势拱手让给中国。”

此外,达里奥·阿莫迪(Dario Amodei)还怀疑 DeepSeek 使用了禁运芯片。他写道:“DeepSeek AI 芯片舰队的很大一部分似乎是由以下芯片组成:尚未被禁止的芯片(但应该被禁止)、在被禁止之前发货的芯片以及一些非常可能走私来的芯片。这表明出口管制实际上正在发挥作用并正在进行自适应:(因为)漏洞正在被堵塞。否则,他们很可能拥有全部由顶级的 H100 组成的芯片舰队。如果我们能够足够快地堵塞漏洞,我们或许能够阻止中国获得数百万块芯片,从而增加美国领先的单极世界出现的可能性。”

但他同时指出:“DeepSeek-V3 实际上是一项真正的创新,一个月前就应该引起人们的注意(我们当然注意到了)。作为一款预训练模型,它在某些重要任务上的表现似乎已接近美国最先进的模型水平,但训练成本却大大降低(尽管我们发现 Claude 3.5 Sonnet 在编程等关键任务上依旧明显更胜一筹)。DeepSeek 团队通过一些十分令人印象深刻的创新实现了这一点,同时这些创新主要集中在工程效率上。特别是在‘键值缓存(Key-Value cache)’的管理上以及推动‘混合专家(MOE,mixture of experts)’方法的使用上,DeepSeek 团队取得了创新性的改进。”

尽管肯定了 DeepSeek 的进步,但是达里奥·阿莫迪(Dario Amodei)似乎不以为然,他在上述博文中还表示:“总而言之,DeepSeek-V3 并非一项独特的突破,也并非从根本上改变了大模型的经济性;它只是持续成本降低曲线上一个预期的点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。这在以前从未发生过,并且具有地缘政治意义。然而,美国公司很快也会效仿——而且他们不会通过复制 DeepSeek 来做到这一点,而是因为降低成本也是这些公司的发展趋势。”

苹果联合 MIT 揭示 DeepSeek 背后秘密

无独有偶,近期苹果公司的一项研究提出了类似的观点。五位苹果公司的 AI 研究人员联合美国麻省理工学院(MIT)的一名研究人员发表了一篇论文,该论文也提及了混合专家(MOE,mixture of experts)这一方法,并揭示了 DeepSeek 背后的秘密,即其利用稀疏性在给定的计算能力下获得更好的结果,也就是说利用稀疏性来从芯片中榨取更多价值。

稀疏性有多种表现形式。有时,稀疏性会消除 AI 使用的部分数据,因为这些数据不会对模型的输出产生实质性影响。如果这样做不会影响到最终结果,那么它就会涉及到切断神经网络的整个部分。而 DeepSeek 正是采用了神经网络的“简约使用”方式。

在这篇论文中,苹果的研究人员表示他们使用一款名为 MegaBlocks 的代码库进行研究。同时,他们明确表示,本次研究结论也能用于解释 DeepSeek 的模型原理。

其在论文中表示,在增加稀疏性的同时,当按比例地扩大参数总数时,那么即使在固定训练计算预算的限制下,也能持续降低预训练损失(预训练损失指的是神经网络的准确度。一般来说,训练损失越低,结果越准确)。

在这篇论文中,苹果的研究人员研究了参数和每个示例的计算之间的最佳权衡,以便实现模型容量的最大化。

通过此,他们发现:

首先,在预训练期间,通过添加更多参数来增加模型容量,要比增加每个示例的 FLOP 带来的好处更大。研究人员观察到,随着训练预算的增加(以总 FLOP 来衡量),计算优化模型的大小会增加,而计算优化模型的有效参数数量(与每个示例的 FLOP 有关)会减少。

其次,在推理过程中,每个示例的 FLOP 似乎发挥着更重要的作用。在多个任务之中,上游任务性能都可以很好地预测下游任务性能,并且上游性能和下游性能之间的关系不受稀疏性的影响。然而,苹果的研究人员观察到:同等条件之下,稀疏模型即参数量较少的模型,在特定类型的下游任务上表现较差。这说明要想完成这些任务,模型可能需要更多的“推理”训练。

同时,这一研究结果也与之前关于混合专家扩展法则(MoE Scaling Laws)的相关研究结果保持一致。这表明在预训练过程中,增加稀疏性水平的确可以提高性能和效率。考虑到根据任务或示例复杂性,可以自适应地增加推理过程中每个示例的计算量,因此苹果的研究人员认为通过增加稀疏性来降低单位计算成本的 MoE 方法具有很大的前景,因为它们或许能够提高预训练效率和推理效率。

这也表明:在训练计算预算受限时,作为控制 MoE 中每个示例 FLOP 的“旋钮”,稀疏性是一个能够优化模型性能的强大机制。通过平衡参数总数、计算和稀疏性,可以更有效地扩展 MoE。苹果的研究人员在论文中表示,他们在实验中引入 MoE 是为了在不显著增加推理成本的情况下增加模型容量。而论文中的实验结果也表明,在总训练计算预算固定的情况之下,增加 MoE 中的稀疏性不仅可以减少每个示例的 FLOP,还能增加参数数量以及降低预训练损失。

换句话说,在使用 MoE 的前提之下,如果对于参数总数没有限制,并且希望能够降低预训练损失,那么通过参数计数增加模型的容量可能是一个最优策略。另一方面,稠密模型在一些任务上会表现出更好的性能转移,因为这些任务可能依赖对于输入的更深层次的处理,而不是依赖存储在模型参数中的知识。

事实上,稀疏性在 AI 研究中并不新鲜,也的确并非一种工程新方法。使用大模型的其中一些总参数并关闭其余参数的能力,是稀疏性应用的案例之一,这种稀疏性会对模型的计算预算产生重大影响。多年来,AI 研究人员一直在证明,当消除神经网络的某些部分时,将能以更少的努力实现同等甚至更好的准确性。

英伟达的竞争对手英特尔多年来一直将稀疏性视为实现该领域技术突破的关键途径。近年来,一些初创公司的模型基于稀疏性的方法也在行业基准上获得了高分。稀疏性的神奇作用意义深远,因为它不仅可以为小预算模型带来更大的经济效益(如 DeepSeek),还可以反过来发挥作用:即在花更多的钱的同时,巧妙利用稀疏性来得到更好的收益。正因此,预计将有更多人加入进来复制 DeepSeek 的成功。

参考资料:

https://www.zdnet.com/article/apple-researchers-reveal-the-secret-sauce-behind-deepseek-ai/

https://arxiv.org/pdf/2501.12370

https://darioamodei.com/on-deepseek-and-export-controls

排版:Euodia

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
汪峰前妻葛荟婕自曝:父母会找自己每任前任要20多万,还说应该的

汪峰前妻葛荟婕自曝:父母会找自己每任前任要20多万,还说应该的

观鱼听雨
2026-03-07 23:00:05
任泽平:2026年五大财富密码!抓住这波,人生翻盘

任泽平:2026年五大财富密码!抓住这波,人生翻盘

徐sir财经
2026-02-22 16:52:17
可以基本确定,伊朗已经赢了

可以基本确定,伊朗已经赢了

大树乡谈
2026-03-06 23:32:06
2人死亡!系母子!潮州公布古巷镇“8·4”坍塌事故调查报告!

2人死亡!系母子!潮州公布古巷镇“8·4”坍塌事故调查报告!

ilove汕头
2026-03-06 15:21:31
“不漂亮,还很吓人!”艺考生大眼睛赛过小燕子,却引起网友不适

“不漂亮,还很吓人!”艺考生大眼睛赛过小燕子,却引起网友不适

妍妍教育日记
2026-02-03 13:49:25
不露面不知道,一露面吓一跳!这些明星怎么突然就老成这个样子了

不露面不知道,一露面吓一跳!这些明星怎么突然就老成这个样子了

萧狡科普解说
2026-03-07 16:37:02
真敢提建议!全国人大代表卓长立呼吁:鼓励大学生加入家政行业

真敢提建议!全国人大代表卓长立呼吁:鼓励大学生加入家政行业

我心纵横天地间
2026-03-05 16:39:56
北欧大陆第一美女,五官精致,颜值绝美,确实好看

北欧大陆第一美女,五官精致,颜值绝美,确实好看

小椰的奶奶
2026-02-28 00:02:19
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
误拿凳子被螺蛳粉泼汤后续:被同事认出,正面照全网传,闺蜜遭殃

误拿凳子被螺蛳粉泼汤后续:被同事认出,正面照全网传,闺蜜遭殃

小陆搞笑日常
2026-03-08 05:37:47
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

小舟谈历史
2026-03-07 01:06:10
印度回应美国30天豁免令:印方购买俄石油从不需要得到任何国家许可

印度回应美国30天豁免令:印方购买俄石油从不需要得到任何国家许可

财联社
2026-03-07 17:43:12
中国95%的房子,其实已经没有任何投资价值

中国95%的房子,其实已经没有任何投资价值

流苏晚晴
2026-03-01 16:56:00
利物浦捡到宝!24 岁新 “阿诺德” 封神,渣叔后继有人

利物浦捡到宝!24 岁新 “阿诺德” 封神,渣叔后继有人

奶盖熊本熊
2026-03-08 06:10:49
老人把自己的金手镯做成5枚金戒指,在自己的80岁寿宴上送给4个儿媳和1个女儿!

老人把自己的金手镯做成5枚金戒指,在自己的80岁寿宴上送给4个儿媳和1个女儿!

张晓磊
2026-02-26 11:21:08
腾讯总部门口大排长龙装“龙虾”,有68岁老人坐车一小时来安装

腾讯总部门口大排长龙装“龙虾”,有68岁老人坐车一小时来安装

第一财经资讯
2026-03-07 23:44:53
被兆瓦闪充和二代刀片电池背刺最厉害的,其实只有唐LEV的车主

被兆瓦闪充和二代刀片电池背刺最厉害的,其实只有唐LEV的车主

大志聊车
2026-03-08 06:19:27
记者:狄龙被逮捕并不是涉嫌酒驾,而是因为吸食大麻

记者:狄龙被逮捕并不是涉嫌酒驾,而是因为吸食大麻

懂球帝
2026-03-07 10:41:15
2026-03-08 06:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16376文章数 514723关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗启动“真实承诺4”第27轮军事行动

头条要闻

伊朗启动“真实承诺4”第27轮军事行动

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

亲子
手机
游戏
数码
公开课

亲子要闻

抓住长个儿好时机,让孩子蹿一蹿!

手机要闻

vivo X300 Max真机曝光,圆形后摄方案

外媒:Xbox新主机恐成微软绝唱!失败即退出硬件市场

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版