网易首页 > 网易号 > 正文 申请入驻

DeepSeek定义AI发展路径:低成本高效率挑战传统范式

0
分享至


当DeepSeek在今年1月发布其R1模型时,这不仅仅是又一个AI产品发布。这是一个分水岭时刻,在整个科技行业引发震动,迫使行业领导者重新思考AI开发的基本方法。

DeepSeek成就的非凡之处并非在于开发了全新能力,而是以极低成本实现了与科技巨头相当的结果。实际上,DeepSeek并未做任何前所未有的事情;其创新源于追求不同的优先级。因此,我们现在正经历着沿着两个平行轨道的快速发展:效率和算力。

随着DeepSeek准备发布R2模型,同时面临美国可能实施更严格芯片限制的威胁,回顾其如何获得如此关注变得重要。

在约束中创新

DeepSeek的崛起如此突然且戏剧化,令我们着迷,因为它展示了创新在重大约束下仍能蓬勃发展的能力。面对美国出口管制限制获取尖端AI芯片,DeepSeek被迫寻找AI发展的替代路径。

当美国公司通过更强大的硬件、更大的模型和更好的数据追求性能提升时,DeepSeek专注于优化现有资源。它以卓越的执行力实施已知理念——而在执行已知概念并做好这一点上确实存在新颖性。

这种效率优先的思维产生了令人印象深刻的结果。据报道,DeepSeek的R1模型以仅5-10%的运营成本就能匹敌OpenAI的能力。根据报告,DeepSeek V3前身的最终训练仅花费600万美元——前特斯拉AI科学家Andrej Karpathy称之为相比美国竞争对手数千万或数亿美元投入的"玩笑预算"。更令人震惊的是,据报OpenAI在训练最新"Orion"模型上花费5亿美元,而DeepSeek仅用560万美元就实现了更优的基准测试结果——不到OpenAI投资的1.2%。

如果你因为相信这些令人难以置信的结果是在DeepSeek无法获得先进AI芯片的严重劣势下实现的而兴奋不已,我很遗憾地告诉你,这种叙述并不完全准确(尽管这是个好故事)。最初的美国出口管制主要针对计算能力,而非内存和网络——这是AI开发的两个关键组件。

这意味着DeepSeek获得的芯片质量并不差;其网络和内存能力使DeepSeek能够在多个单元间并行化操作,这是高效运行大型模型的关键策略。

这一点,结合中国对控制整个AI基础设施垂直堆栈的国家推动,产生了许多西方观察者未曾预料的加速创新。DeepSeek的进步是AI发展的必然部分,但它们将已知进步提前了几年,这相当了不起。

实用主义胜过流程

除了硬件优化,DeepSeek的训练数据方法代表了对传统西方实践的另一次偏离。据报道,DeepSeek没有仅依赖网络抓取内容,而是大量利用合成数据和其他专有模型的输出。这是模型蒸馏的经典例子,即从真正强大的模型中学习的能力。然而,这种方法引发了可能令西方企业客户担忧的数据隐私和治理问题。尽管如此,它强调了DeepSeek对结果而非流程的整体实用主义关注。

合成数据的有效使用是关键差异化因素。合成数据在训练大型模型方面可能非常有效,但必须谨慎;某些模型架构处理合成数据比其他架构更好。例如,像DeepSeek使用的基于变换器的专家混合(MoE)架构在整合合成数据时往往更稳健,而像早期Llama模型中使用的更传统密集架构在合成内容训练过多时可能会经历性能下降甚至"模型崩溃"。

这种架构敏感性很重要,因为合成数据相比真实世界数据引入了不同的模式和分布。当模型架构不能很好地处理合成数据时,它可能学习合成数据生成过程中存在的捷径或偏见,而非可泛化的知识。这可能导致在真实世界任务上的性能降低、幻觉增加或面对新情况时的脆弱性。

尽管如此,据报DeepSeek的工程团队从最早的规划阶段就专门设计了考虑合成数据集成的模型架构。这使公司能够利用合成数据的成本优势而不牺牲性能。

市场反响

为什么这一切都很重要?除了股市反应,DeepSeek的出现已在行业领导者中引发实质性战略转变。

以OpenAI为例:Sam Altman最近宣布计划发布公司自2019年以来首个"开放权重"语言模型。对于一家建立在专有系统基础上的公司来说,这是相当显著的转向。看起来DeepSeek的崛起,加上Llama的成功,给OpenAI领导者带来了沉重打击。在DeepSeek出现仅一个月后,Altman承认OpenAI在开源AI方面"站在了历史的错误一边"。

据报OpenAI年运营支出70-80亿美元,来自DeepSeek等高效替代方案的经济压力已变得无法忽视。正如AI学者李开复直言不讳地说:"你每年花费70或80亿美元,造成巨大亏损,而这里有一个竞争对手推出免费的开源模型。"这必然要求改变。

这一经济现实促使OpenAI寻求400亿美元的大规模融资轮次,公司估值达到前所未有的3000亿美元。但即使拥有充足资金,根本挑战依然存在:OpenAI的方法比DeepSeek的资源密集度要高得多。

超越模型训练

DeepSeek加速的另一个重要趋势是向"测试时计算"(TTC)的转变。由于主要AI实验室现在已在互联网上大部分可用公共数据上训练了它们的模型,数据稀缺正在减缓预训练的进一步改进。

为了解决这个问题,DeepSeek宣布与清华大学合作,实现"自主原则批评调优"(SPCT)。这种方法训练AI开发自己判断内容的规则,然后使用这些规则提供详细批评。系统包含一个内置"判断器",实时评估AI的答案,将响应与核心规则和质量标准进行比较。

这一发展是AI系统自主自我评估和改进运动的一部分,其中模型使用推理时间来改进结果,而不是简单地在训练期间使模型更大。DeepSeek称其系统为"DeepSeek-GRM"(通用奖励建模)。但是,与其模型蒸馏方法一样,这可能被认为是希望与风险的混合。

例如,如果AI开发自己的判断标准,存在这些原则偏离人类价值观、伦理或背景的风险。规则可能最终过于严格或有偏见,优化风格而非实质,和/或强化错误假设或幻觉。此外,没有人在环路中,如果"判断器"有缺陷或不对齐,可能会出现问题。这是一种AI自说自话,没有强有力的外部基础。除此之外,用户和开发者可能不理解AI为什么得出某个结论——这涉及更大的担忧:是否应该允许AI仅基于自己的逻辑来决定什么是"好"或"正确"?这些风险不应被忽视。

同时,这种方法正在获得关注,因为DeepSeek再次建立在他人工作基础上(想想OpenAI的"批评和修订"方法、Anthropic的宪法AI或自奖励代理研究),创造了可能是商业努力中SPCT的首个全栈应用。

这可能标志着AI自主性的强大转变,但仍需要严格的审计、透明度和保障措施。这不仅仅是模型变得更聪明,而是它们在开始没有人类护栏的自我批评时保持对齐、可解释和可信。

展望未来

考虑到所有这些,DeepSeek的崛起标志着AI行业向并行创新轨道的更广泛转变。虽然公司继续为下一代能力构建更强大的计算集群,但也将通过软件工程和模型架构改进来寻找效率提升,以抵消AI能耗挑战,这远超发电能力。

公司正在关注。例如,微软已暂停全球多个地区的数据中心开发,重新校准向更分布式、高效的基础设施方法。虽然仍计划在本财年在AI基础设施上投资约800亿美元,但公司正在重新分配资源以响应DeepSeek向市场引入的效率提升。

Meta也做出了回应,发布了最新的Llama 4模型系列,标志着其首次使用MoE架构。Meta在推出Llama 4时特别将DeepSeek模型纳入其基准比较,尽管比较两者的详细性能结果未公开详细披露。这种直接竞争定位标志着格局的转变,中国AI模型(阿里巴巴也在参与)现在被硅谷公司认为值得作为基准。

在如此短时间内有如此多变化,具有讽刺意味的是,旨在维持美国AI主导地位的美国制裁可能反而加速了它们试图遏制的创新。通过限制材料获取,DeepSeek被迫开辟新路径。

展望未来,随着行业在全球范围内持续发展,所有参与者的适应性将是关键。政策、人员和市场反应将继续改变游戏规则——无论是取消AI扩散规则、新的技术采购禁令还是其他完全不同的措施。我们彼此学到什么以及如何回应将值得关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国通告全球:黄海中部将连续三天进行实弹射击,不予准入,引发日、美等国高度关注

中国通告全球:黄海中部将连续三天进行实弹射击,不予准入,引发日、美等国高度关注

青风点评
2025-11-16 11:05:11
谁懂啊?铁西万象汇突然关了这么多店?

谁懂啊?铁西万象汇突然关了这么多店?

沈阳公交网小林
2025-11-16 00:10:19
感谢央视!樊振东VS林诗栋,孙颖莎VS王曼昱,时间确定,谁能夺冠

感谢央视!樊振东VS林诗栋,孙颖莎VS王曼昱,时间确定,谁能夺冠

体育大学僧
2025-11-16 08:06:12
彻底爆发了!荷兰光刻机巨头怒斥美国:凭啥禁止我们与中国合作?

彻底爆发了!荷兰光刻机巨头怒斥美国:凭啥禁止我们与中国合作?

元爸体育
2025-11-16 11:07:35
亲戚为暴打母亲男叫屈!他良心不坏,动手事出有因,老人拿钱捞人

亲戚为暴打母亲男叫屈!他良心不坏,动手事出有因,老人拿钱捞人

观察鉴娱
2025-11-15 15:47:51
最新民调“不满意沈伯洋”数据太惊人,牛煦庭批绿营不敢面对现实

最新民调“不满意沈伯洋”数据太惊人,牛煦庭批绿营不敢面对现实

海峡导报社
2025-11-16 10:03:07
香港保安局更新日本外游警示资讯,呼吁游日港人注意安全

香港保安局更新日本外游警示资讯,呼吁游日港人注意安全

界面新闻
2025-11-15 17:33:59
树挪死人挪活!本赛季焕发第二春6位NBA球员,狄龙上榜艾顿超预期

树挪死人挪活!本赛季焕发第二春6位NBA球员,狄龙上榜艾顿超预期

篮球圈里的那些事
2025-11-15 16:45:48
昨晚的新闻联播,怎么看得我热泪盈眶?

昨晚的新闻联播,怎么看得我热泪盈眶?

小椰的奶奶
2025-11-16 10:09:37
全运会乒坛爆冷!16 岁新星横空出世,莎昱巅峰对决上演

全运会乒坛爆冷!16 岁新星横空出世,莎昱巅峰对决上演

生活新鲜市
2025-11-16 11:04:52
上海一轿车冲破防护栏后坠江!最新消息:搜救已结束,1名车内人员不幸身亡

上海一轿车冲破防护栏后坠江!最新消息:搜救已结束,1名车内人员不幸身亡

都市快报橙柿互动
2025-11-15 12:41:27
NEJM:非必要,不CT!近400万儿童长达10年随访数据显示,10%的儿童血癌与医学影像辐射有关丨临床大发现

NEJM:非必要,不CT!近400万儿童长达10年随访数据显示,10%的儿童血癌与医学影像辐射有关丨临床大发现

奇点网
2025-09-22 18:49:06
“玉兰油女神”的彪悍情史

“玉兰油女神”的彪悍情史

素衣读史
2025-11-07 15:43:03
2.7万亿电诈大佬的佘智江:给老乡发红包时,妙瓦底有人正被关水牢

2.7万亿电诈大佬的佘智江:给老乡发红包时,妙瓦底有人正被关水牢

热风追逐者
2025-11-14 09:54:50
2个2-0!世界前2会师年终决赛:辛纳无解18-0 阿卡15战10胜底气足

2个2-0!世界前2会师年终决赛:辛纳无解18-0 阿卡15战10胜底气足

风过乡
2025-11-16 07:30:35
德国恢复18岁兵役制!准备部署80万大军同俄罗斯开战

德国恢复18岁兵役制!准备部署80万大军同俄罗斯开战

项鹏飞
2025-11-13 21:50:49
拿500万!全场6中1,只得2分,坑惨四川,球迷:她是混高薪的混子

拿500万!全场6中1,只得2分,坑惨四川,球迷:她是混高薪的混子

南海浪花
2025-11-15 21:51:19
11+5锋线伤停6周,火箭2将补位 没给合同明智 谢泼德承担替补火力

11+5锋线伤停6周,火箭2将补位 没给合同明智 谢泼德承担替补火力

替补席看球
2025-11-16 10:31:31
合砍66+15,湖人双子星大爆发,东契奇冲得分王,艾顿20+10打活了

合砍66+15,湖人双子星大爆发,东契奇冲得分王,艾顿20+10打活了

大卫的篮球故事
2025-11-16 11:46:19
美国:不许用美国技术的光刻机!中国:不许使用中国资源的光刻机

美国:不许用美国技术的光刻机!中国:不许使用中国资源的光刻机

诗意世界
2025-11-15 13:19:32
2025-11-16 12:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
14687文章数 49674关注度
往期回顾 全部

科技要闻

谁在炒作全固态电池?

头条要闻

牛弹琴:中国看透了高市早苗 采取前所未有的反制措施

头条要闻

牛弹琴:中国看透了高市早苗 采取前所未有的反制措施

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

中国县城的打工人,快被AI培训班包围了

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

游戏
家居
旅游
亲子
艺术

育碧与XGP携手举办《彩虹六号:围攻X》1V1大赛

家居要闻

现代简逸 寻找生活的光

旅游要闻

孝义市胜溪湖

亲子要闻

父亲不让孩子手术后续:离开后折返,孩子已得到救治,知情人发声

艺术要闻

广州白云机场T3亮相,为什么大家都觉得像“甲虫”?

无障碍浏览 进入关怀版