网易首页 > 网易号 > 正文 申请入驻

用十分之一计算量挑战AI巨头?这家中国AI公司正在“搅动”硅谷

0
分享至

封面新闻记者 边雪

蛇年新春钟声还未敲响,人工智能领域就迎来了新春大礼包——中国AI初创公司深度求索(DeepSeek)发布了其最新推理大模型DeepSeek-R1。

这是DeepSeek在短短一月之内,即DeepSeek-V3 后发布的第二款大模型,凭借极高的计算效率、卓越的性能表现和极低的开发成本,成功在国际AI领域掀起了波澜。

DeepSeek-R1的输入token定价为0.55美元/百万(OpenAI为15美元/百万),输出token为2.19美元/百万(OpenAI为60美元/百万),成本降低超90%,而此前DeepSeek-V3仅用550万元研发成本、2000张显卡打造,却达到与Llama 3 405B相媲美的性能,而OpenAI为了实现这一目标,花费了数亿美元。

DeepSeek的最新发布,不仅展示了中国AI技术的实力,更重新定义了行业的竞争规则:DeepSeek-R1发布后,国外媒体纷纷聚焦DeepSeek,并一致认为中国大模型的新进展为硅谷敲响了警钟:图灵奖得主Yann LeCun评价称,DeepSeek验证了“开源模型正超越闭源系统”。

性能比肩OpenAI o1

开源与低成本颠覆行业

封面新闻记者注意到,DeepSeek-R1首次通过纯强化学习(无需监督微调SFT)实现推理能力的突破。实验版本DeepSeek-R1-Zero直接在基座模型上应用RL训练,成功在数学、编程等任务中达到接近人类专家的水平。例如,其在美国数学邀请赛(AIME 2024)中的准确率从初始的15.6%跃升至71%,最终通过多阶段优化提升至86.7%,与OpenAI o1-0912相当。

模型在训练中展现出类似人类的“反思”行为,例如主动暂停推理、重新评估解题步骤并探索替代方案。这种自发的“顿悟时刻”被视为强化学习能力的自然涌现,而非人工编程设计。

DeepSeek-V3模型使用界面。

值得注意的是,团队开发的GRPO(Group Relative Policy Optimization)算法摒弃传统Critic网络,通过群组相对优势估计优化策略,显著降低计算成本。奖励机制结合准确性、格式和语言一致性,确保推理过程结构化且符合人类习惯。

DeepSeek-R1模型权重及训练细节全公开,采用MIT协议,允许商用和二次开发 由此看来,这不仅是中国AI技术自主创新的里程碑,更以开源和低成本策略推动全球AI生态向开放、高效方向演进。

正如周鸿祎所言,“中国大模型技术复仇者联盟”已悄然成型,DeepSeek正成为对抗技术霸权的关键力量。

技术新标杆:DeepSeek-V3的三大创新

DeepSeek-V3是DeepSeek系列中的最新迭代版本,是一款基于Mixture-of-Experts(MoE)架构的先进语言模型(中国大模型崛起:MiniMax-Text-01引领AI创新潮流)。该模型拥有671亿个总参数,其中每个token会激活37亿个参数,使其在处理自然语言处理(NLP)到计算机视觉等多种任务时,都展现出卓越的能力。

DeepSeek-V3的显著优势在于其能够处理更大规模的数据集、在各项任务中表现出更强的泛化能力、提供更快的推理时间,并且在与竞争对手相比时,保持了较小的计算足迹。其成功背后,离不开其三大核心架构创新,这些技术突破在降低成本的同时,显著提升了性能,为行业树立了新的标杆。

首先,多头隐注意力(Multi-Layered Attention, MLA)技术解决了长文本推理的高成本问题。传统大模型在处理长文本时往往消耗巨大算力,而DeepSeek团队通过潜注意力机制,优化了模型对上下文信息的捕捉效率,大幅降低了长文本推理的计算成本。这项技术不仅提升了模型对复杂语境的理解能力,还让其在实际应用中表现更加稳定高效。

DeepSeek-V3多项测试成绩处于第一。

其次,混合专家模型(Mixture of Experts, MoE)技术的改良,攻克了困扰业界已久的路由崩溃问题。传统MoE架构在高并发任务中,容易出现部分路由节点超负荷的问题,从而影响模型性能。而DeepSeek团队通过创新的路由算法,优化了任务分配机制,显著提升了训练效率与系统稳定性。

有海外网友拿“DeepSeek-V3”和OpenAI发布的“GPT-4o”进行比较,并得出“两款产品不相上下”的结论。美国硅谷的技术大牛也把“DeepSeek-V3”拿来使用,企图挑点毛病,但挑来挑去,只能用“不可思议”来总结心情。

“DeepSeek-V3 在性能上超越了其他开源模型,并能够与主流闭源模型相媲美,它创新性地采用了 MTP 目标,将预测范围扩展到每个位置的多个后续 token。”1月26日,业内人士告诉封面新闻记者,DeepSeek-V3可适用于科研、企业、开发者及AI爱好者,特别在逻辑推理、代码生成、文本生成、数学计算和多语言处理方面表现出色。

从无到有:DeepSeek的崛起之路

DeepSeek的迅速崛起,离不开其团队的技术积累和精准的战略布局。这家成立于2023年的中国企业,以挑战全球AI巨头为目标,仅用了不到2年时间,便成为行业先锋,背后既有技术创新的支撑,也有商业策略的成功。

外界都觉得DeepSeek很神秘,其创始人梁文锋鲜少对外发声,但总是频上热搜。

DeepSeek的成名之作是其发布的DeepSeek V2开源模型,该模型以其史无前例的性价比震惊了业界。推理成本被降至每百万token仅1块钱,这一成本仅为Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。这一创新不仅让DeepSeek获得了“AI界拼多多”的称号,也促使字节、腾讯、百度、阿里等大厂纷纷降价,从而引发了中国大模型市场的价格战。

2025年初,梁文锋现身《新闻联播》,以AI初创公司深度求索(DeepSeek)创始人的身份罕见参加了一场国家超高规格座谈会,并现场发言。

近期“雷军千万年薪挖95后天才AI少女”的热门话题也间接地与梁文锋有关:这位AI天才少女罗福莉,此前正是DeepSeek团队的研发成员。

值得一提的是,DeepSeek始终坚持“资源最优”策略,与OpenAI等巨头动辄数亿美元的投入相比,DeepSeek在研发成本上仅用了百万级别,却依然打造出具有国际竞争力的大模型。团队通过对算力的精细化管理和资源的高效配置,证明了中国AI企业在技术研发上的独特优势。

商业层面,DeepSeek的成功也离不开其敏锐的市场洞察力。公司精准切入对算力成本敏感的中小型企业市场,为客户提供高性价比的AI解决方案。1月25日,AMD宣布,已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型旨在与SGLang一起实现最佳性能。DeepSeek-V3针对Al推理进行了优化。

DeepSeek如何重塑AI竞争格局

近年来,LLM经历了快速迭代和演进,逐步缩小了与通用人工智能(AGI) 的差距。2024年,斯坦福大学和Epoch AI的研究人员曾发表了一项研究,称到2027年,最大型的模型的训练成本将超过10亿美元。然而,DeepSeek以极低的价格建立了一个突破性的AI模型,在性能突破的同时,还展现了极高的资源利用效率,在全球AI技术领域掀起了一场“高效革命”。

近日,投资者Geiger Capital在社交平台上发文表示:“Deepseek和OpenAI一样好,甚至更好,而且价格只有后者的3%……纳斯达克会怎样呢?”

封面新闻记者注意到,在DeepSeek-R1发布之后,市场情绪已然做出反应。1月24日,英伟达股价报142.62美元,跌3.12%,市值一夜蒸发1127亿美元(约合人民币8165亿元)。

在中国的大模型创业公司中,DeepSeek以其低调而高效的姿态,逐渐在AI领域崭露头角。这家公司不仅在技术上实现了突破,更在商业模式上引发了行业的价格战,成为了中国AI界的一股不可忽视的力量。

多位业内人士告诉封面新闻记者,DeepSeek的低成本、高性能策略将对行业竞争模式产生深远影响。一位国内AI创业公司创始人直言:“DeepSeek用最小的资源实现了最高的效能,向全球企业展示了高效研发的可能性。这种模式的成功,可能迫使行业重新思考‘大模型=大投入’的传统观念。”

“DeepSeek的目标是实现AGI(人工通用智能),而不仅仅是短期的商业化。”梁文锋曾在采访中强调,DeepSeek的降价并非为了抢用户,而是基于成本下降和对普惠AI的追求。他相信,随着经济的发展,中国也应该成为技术创新的贡献者,而不仅仅是应用创新的跟随者。

在全球AI竞争加剧的背景下,DeepSeek不仅挑战了行业的常规,也为中国AI的未来发展提供了新的思路和方向,其低成本、高效率的研发路径,为技术创新提供了新的参考方向,也向世界展示了中国AI企业的潜力与决心。

或许“搅动”硅谷,只是个开始。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
谷歌新算法引发美股存储板块集体下挫

谷歌新算法引发美股存储板块集体下挫

金融界
2026-03-26 09:37:28
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
马英九基金会决定中止今年两岸青年交流,马应该出面声明!

马英九基金会决定中止今年两岸青年交流,马应该出面声明!

达文西看世界
2026-03-26 10:58:22
明天起,高速缴费“大变脸”!车主:早该这样了!

明天起,高速缴费“大变脸”!车主:早该这样了!

小李子体育
2026-03-26 02:23:44
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

小光侃娱乐
2026-03-26 17:05:03
贾国龙焖面生意其实很好,粉丝:40一碗面嫌贵趁早滚出北京

贾国龙焖面生意其实很好,粉丝:40一碗面嫌贵趁早滚出北京

映射生活的身影
2026-03-26 17:11:14
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

鹤羽说个事
2026-03-25 22:25:17
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

背包旅行
2026-03-26 15:03:43
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
2026-03-26 18:43:00
封面新闻 incentive-icons
封面新闻
第一眼,看封面。了解权威信息,看真实新闻故事(互联网新闻信息服务许可证:51120170004)。
345493文章数 888723关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
家居
教育
房产
公开课

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

家居要闻

傍海而居 静观蝴蝶海

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版