网易首页 > 网易号 > 正文 申请入驻

DeepSeek小心,帝国反击战打响了

0
分享至

本文来自微信公众号:直面AI,作者:赵晋杰,编辑:王靖,题图来自:AI生成

DeepSeek R1引发的一场推理模型大作战还在继续,且参战名单正随着时间推移逐步拉长。

仅仅昨天一天时间之内,这场战局就又吸引来了4家明星大模型公司:先是阿里发布推理模型QwQ-Max-Preview预览版,接着Anthropic宣布推出全球首个“混合推理”模型Claude 3.7 Sonnet,之后字节也被曝出豆包正在小范围测试自研的深度思考型推理模型。

作为被各路对标的DeepSeek,也有了新动作。昨晚,路透社爆料称,DeepSeek正在加速推出R2模型,该模型原计划在5月初发布,但现在官方希望能尽早发布。

香港科技大学校董会主席、美国国家工程院外籍院士沈向洋在近期分享中指出,“对于大模型,之前的研究焦点是GPT模式,现在的焦点是Reasoner模式,这是一种新的学习范式。”

DeepSeek R1,无疑成了这场范式变革的重点参考对象。在此之前,腾讯也上线了自研的深度思考模型“混元T1”,百度文小言上线深度搜索功能,马斯克的xAI也发布了带有深度思考能力的Grok 3新模型。

就连OpenAI,都在DeepSeek压力下,进一步开放了自家推理模型o1和o3-mini的思维链。

DeepSeek R1这块投向推理侧的大模型技术迭代新石子,其涟漪效应正逐渐扩散至全行业。这一幕颇像2023年行业对ChatGPT的追赶。彼时,科技大厂如百度、阿里,争先发布自家大模型;王慧文携5000万美元振臂一呼,正式开启了一场席卷全行业的大模型创业热潮,杨植麟、王小川、李开复等先后创办起月之暗面、百川智能、零一万物等明星大模型公司,争分夺秒抢夺市场融资并对外发布产品。

不过,在ChatGPT时刻到来后就落后一步的字节,如今在追赶DeepSeek时刻上又有了慢人一步的迹象。在国内其他科技大厂已经相继完成深度思考能力的亮相后,字节的自研推理大模型才刚刚进入灰度测试阶段。

DeepSeek R2新模型可能提早发布的消息,无疑又给字节上了上竞争强度。但好消息是,那些抢在字节前面发布推理模型的同行们,还没来得及松一口气就同样又遭遇心头一紧。

如同马斯克着急推出半成品Grok 3一样,阿里新推理模型QwQ-Max-Preview,也只是一个预览版,而非正式版模型。

在LiveCodeBench编程测试中,QwQ-Max-Preview也只是小幅超越OpenAI o1中档推理模型,以及DeepSeek R1 Preview预览版(注意,不是DeepSeek R1正式版)。阿里官方介绍,QwQ-Max正式版将在后续推出。

如同DeepSeek R1是在V3基础模型上训练出来的一样,QwQ-Max同样基于阿里的旗舰版模型Qwen2.5-Max而来,后者是于1月29日发布的一款MoE稠密模型,在公开的基准测试中,官方称其性能超越DeepSeek V3。

不同于阿里QwQ-Max-Preview,同一天发布的Anthropic新模型Claude 3.7 Sonnet,则是个彻彻底底的完整体,官方直接放出了多项评测指标对比。

在传统基准测试项目中,Claude 3.7 Sonnet在指令遵循、通用推理、多模态能力以及智能体编码方面的表现,都赶超了OpenAI o1和DeepSeek R1。

无论是马斯克,还是阿里,在模型尚未完备之际就如此着急推出,秀技术肌肉之外,抢在DeepSeek前面,趁着对方多模态尚不完善之际,打出产品的差异化竞争优势,或许才是更重要的因素

1月20日发布的DeepSeek R1,尽管支持深度思考的推理模式,但其并非一款多模态推理大模型,不支持图片生成,也不支持语音模式。如在图片识别上,DeepSeek R1所做到的识图,更多是通过OCR扫描技术,简单将图片上的文字一一复制下来,无法理解文字之间的逻辑对应关系。

接入DeepSeek R1的腾讯,就利用DeepSeek R1的这一短板,在近期的元宝内上线了图生文功能,借助其自研模型的多模态能力加持,让DeepSeek也可以理解图片内容。

马斯克同样预告了Grok 3的语音模式,提前测试过这一功能的希冯·齐利斯(Shivon Zilis)——Neuralink高管,同时也是和马斯克育有一对双胞胎的孩子妈,大赞和Grok 3进行的语音对话,称“是我一生中最出乎意料、最值得的时光之一。”

坚持推出自家推理模型的背后,更是各家大模型厂商对用户的一场全新争夺战。

DeepSeek的异军突起,再次激发大厂对AI to C的重视。

在阿里发布推理模型QwQ-Max-Preview的公告中,一并透露的还有将发布Qwen Chat APP的消息,并称其可能独立于通义APP。阿里解释称,该专用APP将优先考虑实时响应能力与流行生产力工具的集成,使全球受众能够使用先进的人工智能。

一旦成真,阿里也将成为全球大模型玩家中,首个内部同时上线两款AI助手应用的科技大厂。通义APP未能在用户规模上打开局面的客观现实,或许是促成阿里这一决策的重要背景。

在阿里打算重起炉灶之外,如腾讯、百度则选择了接入DeepSeek来争夺C端用户。但这一举措的潜在风险,依然不小。

目前,各家还都能依赖DeepSeek外溢的流量,吸引到用户。一旦DeepSeek解决服务卡顿问题,这些用户难免不会再次流失。

且这样的危险信号已经发出。据凤凰网科技,目前DeepSeek官方通过技术优化,已经让用户在体验侧少了触发服务繁忙的频次。

归根到底,通过自研大模型,在技术上带来体验突破,才是彻底留住用户的最有效手段。这一策略,不仅适用于C端,同时更适用于对B端开发者群体的争夺。

尽管如腾讯般,开始选择彻底拥抱DeepSeek,并将开源的DeepSeek接入自家一系列产品,但面对这场涉及AIGC安卓梦想的争夺,没有大厂想要放弃。

过去两年中,大模型给传统应用带来的体验升级,让越来越多人开始认同一种观点,即所有应用都值得用大模型重做一遍。

基于上述共识,在自研大模型之余,科技大厂都相继发布了自家的大模型服务平台,既做淘金者,又争当卖铲子的人,都向着成为AIGC时代的安卓梦想发起冲锋。

截至目前,包括腾讯、阿里、百度、字节在内,一众科技大厂都表达了仍会坚持大模型自研到底的决心。

为了继续向AIGC时代的安卓梦想迈进,各家大厂为了聚拢开发者生态,都加快了在开源上的进度:阿里在QwQ-Max-Preview亮相后,同步宣布未来将以Apache2.0许可协议开源自家推理模型;国内一直坚持闭源的百度,也开始重新拥抱开源路线。腾讯、字节也都在推动旗下垂类模型陆续开源。

另一边的DeepSeek,同样也没闲着。在新一代模型尚未发布的间隙,面对竞争对手纷纷开源抢夺注意力的策略,DeepSeek选择了加码,相继开源了FlashMLA代码库、DeepEP通信库,以及FP8计算库DeepGEMM把自己低成本高性能的训练秘密公之于众,让有实力的开发者可以在H800等英伟达低效芯片基础上,也能提高模型的运行效率。

同时,关闭20天的官方API充值服务也于2月25日恢复正常。字母榜获悉,当天DeepSeek官方还发布了一则特别提示,称“当前白天时段服务器资源依旧紧张,凌晨 0:30 到上午 8:30 相对空闲,若业务允许,建议开发者调整至该时段以获得更为流畅的API调用体验。”

被路透社同天曝光的R2新模型提速发布消息,则成了DeepSeek应对这轮推理模型竞赛而抛出的新武器。

眼下,唯一没有对外大范围提供推理模型服务的科技大厂,只剩下了字节。

对大模型技术演进路线的判断失误,或许是字节没能及时跟进推出新模型的原因之一。

据晚点LatePost报道, 在近期的All Hands会上,字节CEO梁汝波反思道,DeepSeek R1创新点之一的长链思考模式不是业界首创,去年9月OpenAI o1发布长链思考模型、成为行业热点后,字节就意识到了技术的重大变化,但 “没有觉得要马上复现出来......现在回头看,如果一开始重大问题就争先,我们有机会更早实现。”

这不是字节在大模型领域第一次错判形势。

ChatGPT爆火后,在去年初的All Hands会上,梁汝波就曾反思,“公司层面的半年度技术回顾,直到2023年才开始考虑GPT,而业内做得比较好的大模型创业公司,都是在2018年至2021年创立的。”

当时,字节在大模型研发方面除了进度缓慢之外,内部还一度将AI重心移向了细分垂直赛道的AI for Science。这直接导致字节在大模型推出时间上落后了百度、阿里一大截。

2022年11月ChatGPT发布之后,百度、阿里等国内大厂相继在2023年三四月份推出自研大模型文心和通义,但直到去年8月份,字节才对外亮相了云雀大模型(豆包大模型前身)。

在服务B端开发者群体上,字节也因此慢了一步。从2023年4月起,百度、阿里、腾讯相继通过旗下云服务对外提供大模型接入服务。直到一年后的2024年5月,字节自主研发的豆包大模型才开始通过火山引擎正式对外提供服务。

好在,借助2024年大模型技术迭代趋缓的利好因素,字节在过去一年大力补课,不仅使得豆包一度成为国内月活用户最多的AI应用,而且从大模型性能到多模态布局,也都相继追赶上了国内头部厂商。

进入2025年,DeepSeek R1引发的推理模型热潮,则又一次将追赶压力推到了字节面前。

稍显不同的是,这次迎来压力拷问的不只是字节一家。尤其随着DeepSeek R2模型提早到来的动作,一众科技大厂,都难逃再被DeepSeek对比的紧张气氛。

本文来自微信公众号:直面AI,作者:赵晋杰,编辑:王靖

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣:商鹏飞将访华

官宣:商鹏飞将访华

上观新闻
2026-04-01 17:34:10
“疣猪”倾巢而出:A-10攻击机群正成为美终结伊朗的“终极钝器”

“疣猪”倾巢而出:A-10攻击机群正成为美终结伊朗的“终极钝器”

民间胡扯老哥
2026-03-31 21:52:21
真是没想到,中东打仗的蝴蝶效应,竟扇到了中国猪圈

真是没想到,中东打仗的蝴蝶效应,竟扇到了中国猪圈

悦君兮君不知
2026-04-02 03:31:58
不到一个停车位大?清朝花15英镑买下的英国土地,今天仍属中国!

不到一个停车位大?清朝花15英镑买下的英国土地,今天仍属中国!

丁丁鲤史纪
2026-04-01 15:47:56
外交部:菲律宾对中国南沙群岛相关岛礁进行所谓命名侵犯中国领土主权

外交部:菲律宾对中国南沙群岛相关岛礁进行所谓命名侵犯中国领土主权

新京报
2026-04-01 16:12:08
前女友称会去看望张雪峰母亲,曾陪张雪峰租房吃苦,更多合影被扒

前女友称会去看望张雪峰母亲,曾陪张雪峰租房吃苦,更多合影被扒

古希腊掌管松饼的神
2026-04-02 11:02:48
环球影城一过山车叕发故障!32人被倒挂高空!近10年至少5起故障

环球影城一过山车叕发故障!32人被倒挂高空!近10年至少5起故障

特种设备安全科普
2026-04-02 11:03:02
童瑶其实挺真实的,明明一直在健身,小腹还是没法完全平坦

童瑶其实挺真实的,明明一直在健身,小腹还是没法完全平坦

小光侃娱乐
2026-04-01 13:15:08
李荣浩承认抄袭日本歌手,单依纯扳回一局!

李荣浩承认抄袭日本歌手,单依纯扳回一局!

八卦疯叔
2026-04-02 11:27:42
不打伊朗了?特朗普通告全世界,战争费由22国承担,朝鲜发出警告

不打伊朗了?特朗普通告全世界,战争费由22国承担,朝鲜发出警告

丁丁鲤史纪
2026-04-01 14:00:22
中美已经谈崩,沉默6天,中国取消电池片出口退税,特朗普赌输了

中美已经谈崩,沉默6天,中国取消电池片出口退税,特朗普赌输了

涵豆说娱
2026-04-02 11:25:48
多名院士研究发现:吃一块桃酥,就等于吃两勺糖,真的假的?

多名院士研究发现:吃一块桃酥,就等于吃两勺糖,真的假的?

蜉蝣说
2026-04-02 09:16:24
国足两战稳中求变,邵佳一的改革从让每个人踢舒服开始

国足两战稳中求变,邵佳一的改革从让每个人踢舒服开始

懂球帝
2026-04-02 15:02:14
听懂广东人这20句黑话,在广州深圳混,少走10年弯路

听懂广东人这20句黑话,在广州深圳混,少走10年弯路

椰青美食分享
2026-04-02 14:00:05
4月2日,小米股腰斩了,雷总樱花开了的博文评论区抱怨声连天

4月2日,小米股腰斩了,雷总樱花开了的博文评论区抱怨声连天

卷史
2026-04-02 13:41:40
出大事了,伊朗发起斩首行动,大批美军官被抬走?英法德俄失声

出大事了,伊朗发起斩首行动,大批美军官被抬走?英法德俄失声

霁寒飘雪
2026-04-02 07:19:42
A股,大级别的调整要来了?明天,周五行情分析

A股,大级别的调整要来了?明天,周五行情分析

明心
2026-04-02 15:16:44
韩媒:全红婵小学二年级就去练跳水!基础教育缺失 未来有3种可能

韩媒:全红婵小学二年级就去练跳水!基础教育缺失 未来有3种可能

念洲
2026-04-02 09:45:59
连烧30小时!百亿航母成废铁?5700人被扣押,福建舰成全球焦点

连烧30小时!百亿航母成废铁?5700人被扣押,福建舰成全球焦点

小曙说娱
2026-04-02 12:33:45
直20F反潜直升机,央视公开起降,大批量装备,已成定局?

直20F反潜直升机,央视公开起降,大批量装备,已成定局?

万里繁华
2026-04-02 15:27:56
2026-04-02 17:48:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
26031文章数 687647关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

00后女孩未婚先孕 坐月子期间男方提出"奶粉AA"并拉黑

头条要闻

00后女孩未婚先孕 坐月子期间男方提出"奶粉AA"并拉黑

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

宋宁峰带女儿出轨,张婉婷找董璇哭诉

财经要闻

高油价、AI泡沫...谁将压垮美国经济

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

本地
数码
手机
游戏
公开课

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

数码要闻

梅雨季除湿机选购指南:大户型家用除湿机怎么选择?

手机要闻

内存成本压垮中端机!骁龙8E全面退出2000元档:性价比时代终结

孩子死了你来奶了!停服的TGA大作获英伟达驱动支持

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版