网易首页 > 网易号 > 正文 申请入驻

DeepSeek冲击之下,大模型六小强如何「回应」?

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

马上整整1个月了!

这一个月以来,全球大模型市场受DeepSeek搅动,无不方寸大乱

中外大厂、初创公司都头好秃,全被追着问:你们对DeepSeek怎么看?DeepSeek出来你们怎么办?

有避而不谈的,也有主动回应的。

国内,比如腾讯,昨天刚刚在微信开启灰度测试“AI搜索”功能,接入的就是DeepSeek-R1;比如百度,当即宣布4月起文心一言免费用,下一代文心模型决定开源……

国外,比如OpenAI,紧急发布o3-mini、上新深度搜索、公开o3思维链条;比如谷歌DeepMind,新发布的Gemini 2.0系列,新增模型型号Gemini 2.0 Flash-Lite,其API砍价能力比DeepSeek还狠;

然而正当全球AI大模型格局重塑之际,放眼国内,不少人还很关心一件事:

六家已成为独角兽的大模型创业公司,零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax江湖人称大模型六小强。

在DeepSeek猛烈的冲击波下,他们正在如何应对?

冲击之下,六小强都有啥“回应”

六小强中,没有任何一家站出来,正面表达对DeepSeek的看法。

但这不代表它们没有行动——毕竟比起高谈阔论,落地的实际行动更值得用来证明。

注:以下均为六小强1月20日(含)后的动态

零一万物

DeepSeek-R1问世之前,创始人李开复博士已公开表示,零一万物将不再追求训练超级大模型。

经过为期半年多的探索验证,他们明确表示,参数适中同时性能优异、推理速度更快、推理成本更低的轻量化模型更适合商用场景,“会成为AI-First应用爆发的催化剂”。

而DeepSeek问世之后,零一万物对外曝光的首个动作,选择了携手苏州——

2月14日,零一万物与苏州高新区联合成立的产业大模型基地正式授牌。

该大模型基地聚焦垂直产业,重点打造制造、金融、医疗、政务、生物、具身等多个领域的行业大模型解决方案,联合产业链上下7家企业,“探索大模型技术从实验室走向生产线的产业化路径”。

在现场,李开复谈道,在人工智能技术重构产业的关键节点,大模型绝非“空中楼阁”,而是驱动实体经济的核心引擎。

而零一万物官方表示:

继1月2日与阿里云联合成立“产业大模型联合实验室”之后,零一万物再度于产业大模型方向落子。
此次于苏州高新区落地的“产业大模型基地”进一步加速了零一万物模型能力商业落地的进程。
百川智能

DeepSeek-R1发布5天后,1月25日,百川智能发布新模型Baichuan-M1-preview。

这是百川第一个全场景推理大模型。所谓全场景,指的是该模型同时具备语言、视觉和搜索三个领域的推理能力。

与此同时,百川依然奔赴转向医疗的道路上:

Baichuan-M1-preview解锁了医疗循证模式,官方解释它“实现了从医疗证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题”。

2月13日,以Baichuan-M1为底座打造的「AI儿科医生」经过近一个月的内测后,在京“上岗”。

针对临床推理,它首先会基于一诉五史生成诊疗假设,继而通过检验检查数据进行假设证伪与排除,最终经由自反思机制对剩余假设进行概率排序,输出符合临床思维路径的诊疗建议。

官方消息显示,当天,北京儿童医院开展了国内首次“AI儿科医生+多学科专家”的双医并行多学科会诊。与会人员除了多科室13位专家,还有该医院与百川智能、小儿方健康科技(这家是百川投资的医疗数据公司)联合研发的「AI儿科医生」。

与会者对一位颅底肿物伴随抽动症状的患儿进行了多学科会诊,另一边,工程师将患者的主诉和病历资料输入模型。

AI儿科医生也给出了与专家组会诊结果高度吻合的建议。

阶跃星辰

DeepSeek-R1发布当天,阶跃星辰正处于模型上新进程中。

1月20日当天发布的两款模型均为语言模型,一款是轻量级、响应快、性价比高的Step-2-mini,与自家模型玩意参数的Step-2相比,Step-2-mini以3%左右的参数量保有80%以上的性能。

另一款是主打文学创作的Step-2 文学大师版,“专为创作而生”。

而后两天内,阶跃继续保持节奏对外发布。

21日,升级语音模型Step-1o Audio,又上新多模态理解大模型Step-1o Vision。后者发布首测就冲上来了大模型竞技场前10,位列视觉领域国产第1。

22日,发布视频生成模型Step-Video V2版本,该版本在前代V1基础上,从VAE模型、DiT架构与RL融合、多模态大模型应用三方面基础上升级而来。

模型侧更新外,阶跃星辰旗下应用「跃问」也在1月24日推出了全新功能,跃问AI创意板。

它的功能是“不用代码就能在3步内实现想法,开发应用”,并且将成果全平台分享。

BTW,量子位发现,跃问不知何时已经偷偷接入了DeepSeek-R1……

以及农历新年前频繁动作之时,阶跃星辰系统负责人朱亦博就在朋友圈小小剧透,年后阶跃有大动作。

而“大动作”本身,或许会在2月21日阶跃星辰举办的首届“Step Up 生态开放日”上揭晓。至于有无针对DeepSeek-R1的回应性动作或战略,也要等到下周会上才见分晓了。

智谱华章

2月11日,清华大学计算机系教授、智谱创立发起人唐杰在巴黎大王宫举行的第三届人工智能行动峰会边会“人工智能技术进步与应用”上发言。

也是唯一参加该峰会的大模型代表。

在阐述对AGI的5个阶段划分后,唐杰表示现在正处于L2和L3交汇处,即“对齐机器与人类的意图”和“机器自我学习”的交汇处。

而2025年的关键词,部分摘录如下:

  • 自主的、具有Agent能力的大型语言模型(Agentic LLMs)将成为日常生活和工作的核心。
  • 通过给定高层次目标,自主的LLMs将制定计划、利用数字设备并执行复杂项目,而所需的人类干预极少。
  • 这些自主系统将不再仅仅是孤立的实体,而是将协同工作,互补优势,以更高效地完成任务。

此外,面对DeepSeek搅动风云,智谱的“回应”更多落实在开年频频落地上。

首先是2月11日,继续开展和三星的合作。

具体表现为让Agentic GLM(智谱专为手机研发的系统级大模型)登陆三星最新款Galaxy S25系列手机,提供基于AI的实时语音和视频通话,以及实现视觉理解和系统功能调用、AI搜索、文案写作等功能。

(此处确与同日唐杰发言部分内容相呼应)

其次是量子位注意到,虽未对外官宣,但智谱近日悄悄开始和二次元很火热的AI画图捏角色的应用软件「捏ta」展开合作。

一方面,智谱在自家视频模型上线了捏ta;另一方面,二家基于智谱的CogVideoX-2模型等,在涅ta发起联名活动。

月之暗面

你说巧不巧?DeepSeek-R1发布一个半小时后,月之暗面官方公众号宣布了旗下Kimi k1.5多模态思考模型。

相关论文《Kimi k1.5:Scaling Reinforcement Learning With LLMs》中显示,k1.5模型设计和训练有几个关键要素:

长上下文展开

k1.5团队将RL的上下文窗口扩展到128k,背后的一个关键思想是使用部分展开(partial rollouts)来提高训练效率。

策略优化改进

k1.5团队推导出long-CoT的RL公式,并采用在线镜像下降的变体进行稳健的策略优化。

简洁框架

上述二者的结合为通过LLMs学习简历了一个简洁的RL框架,最终实现在不依赖蒙特卡洛树搜索、价值函数和过程奖励模型等情况下实现更强性能。

多模态能力

即具备联合推理文本和视觉两种模态的能力。

2月12日,OpenAI展示o3轻松拿下IOI 2024金牌的那篇最新报告论文中,介绍部分就提及了DeepSeek-R1和Kimi k1.5分别通过CoT提升大模型在数学和编程上的性能。

MiniMax

现在回头看1月20日,真的是神仙打架热闹非凡——

当天,MiniMax也有模型上新。

升级发布T2A-01系列语音模型,并上线了海螺语音产品(同样兼顾模型与产品的推动)。

T2A-01系列包含T2A-01-HD、T2A-01-Turbo两款模型,API服务同步上线MiniMax开放平台。该系列模型支持17种语言及上百种预置音色。

依托该系列模型,在海螺AI,用户仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达10000字符。且可根据需要自由配置输出语音的情绪、语速、音高,甚至调整音色效果。

这里特别提及一个1月20日前发生的事情,那就是1月15日,MiniMax创始人兼CEO闫俊杰对谈《晚点》稿件发出,其中展示和透露出MiniMax在当时对2025年的调整和计划。

最重要的一点就是“开源”。

如果重新选,第一天就应该开源。因为开源能加速技术进化。

这一点呼应了当日MiniMax官宣MiniMax-01系列模型,且发布即开源。

其中,MiniMax-01首次大规模扩展了新型Lightning Attention架构,替代了传统Transformer架构,使模型能够高效处理4M token上下文。

综上,截至推送,六小强近期动态如下:

被冲击的不只是六小强

当然了,DeepSeek这头深海巨鲸此次扔出R1,搅动的不仅仅是国内六家大模型独角兽的圈子。

也就是说,放眼国内,被冲击的不只是六小强,没有一家科技巨头或AI大模型公司置身事外。

冲击之下有新的视角,新的转变。

譬如DeepSeek「大胆启用业界经验不够丰富的年轻技术人才,以此作为追求突破性技术创新一环」的故事,就在街头巷尾广为流传,重新叩问了每一个企业对用人标准的定义。

譬如百度,在放出宣布文心一言即将免费的消息后,紧跟着宣布了决定背叛闭源大模型的决定——将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。

在被问到DeepSeek是否是意料之中时,李彦宏也在日前的迪拜AI峰会上坦言:

我认为,创新是不能被计划的。
你不知道创新何时何地到来,你所能做的是,营造一个有利于创新的环境。

冲击之下有新的发展,新的机遇。

云计算厂商和AI Infra平台/公司,第一时间上线DeepSeek API,不仅陆续搭载上671B满血版,还争相优化截断率、回复速度、准确率等等,有的还推出利好本地部署的框架,再破大模型推理门槛。

为涌入巨量用户的DeepSeek分流,让更多用户从不同渠道把AI用起来。

另一边,以腾讯为例,从云平台腾讯云、腾讯云旗下大模型知识应用开发平台知识引擎、国民应用微信、AI智能工作台ima、主力AI应用元宝全方位拥抱DeepSeek,纷纷宣布接入R1模型,还用自身能力为其使用体验添砖加瓦。

而华为、阿里、字节等大厂们及旗下应用、团队们,也都在这样做。

它们开放兼容,拥抱的不光是DeepSeek,更是用户体验最佳的模型——不管是否是“纯自研”。

还是那句话,神仙竞技,凡人捡漏,AI普惠,多多益善。

当然,被搅动的池水里,不止航行着国内的船只。

放眼国际,DeepSeek的名字已经成为华尔街分析师会议上最高频提到的AI公司。

随着Alphabet(谷歌母公司)、AMD、Palantir和亚马逊等科技巨头公布收益,DeepSeek被提及的次数还在增长。

外媒用很简短的一句话形容这一“盛况”:

“DeepSeek, DeepSeek, DeepSeek。”

具体到国外大模型玩家身上,面对“DeepSeek冲击波”,有急得跳脚的,也有反思与撷取精粹的。

单举一个例子,就能看到顶尖巨头对此作出“回应”的态度之综合:

OpenAI,紧急地首次向用户免费推出推理模型o3-mini,CEO奥特曼还在Reddit“有问必答”活动中罕见公开反思:

在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

去年12月底稳坐高台,拉长战线连续直播12天的挤牙膏式打法不见了。

OpenAI现在已经能在一日之内连续官宣GPT-4.5几周内上线,GPT-5几月内面世,以及关于模型路线规划调整、既有模型迭代更新的多个新消息。

而在大模型赛道之外,DeepSeek冲击带来的影响力如何,大家肉眼可见——

DeepSeek逢山开路,无数第三方争先恐后接入合作R1、V3等模型。

据不完全统计,目前接入DeepSeek模型的第三方,包括infra平台、手机厂商、Web/App应用、智驾终端等在内,已超百家。

GitHub上,V3/R1不断攀升的星标数量,代表着更多人可以把DeepSeek用起来。

然后生态繁荣,生生不息。

由是深海巨鲸向AGI更深处求索,丢下R1这枚深水炮弹后,坊间开始流传一个新梗。

DeepSeek冲击带来的是什么?

是「一鲸起,万物生」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

非常先生看娱乐
2026-03-26 16:57:03
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
曾是张惠康的替补,退役后走上“黑道”,如今光荣退休在上海享福

曾是张惠康的替补,退役后走上“黑道”,如今光荣退休在上海享福

青梅侃史啊
2026-03-26 20:17:51
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
41岁张雪峰离世,抢救细节曝光,曾有3次活命机会,全被耽误了!

41岁张雪峰离世,抢救细节曝光,曾有3次活命机会,全被耽误了!

可爱小菜
2026-03-25 22:25:55
告别高油耗!丰田陆巡2.4T插混量产,12.3英寸大屏更科技

告别高油耗!丰田陆巡2.4T插混量产,12.3英寸大屏更科技

阿芒娱乐说
2026-03-27 00:58:05
张雪峰的独生女真的很有主意,父母问孩子要不要生二胎,她说不用

张雪峰的独生女真的很有主意,父母问孩子要不要生二胎,她说不用

海阔山遥YAO
2026-03-25 15:30:12
连续三天,重庆市委书记袁家军围绕这件事调研

连续三天,重庆市委书记袁家军围绕这件事调研

中国乡村振兴
2026-03-26 10:02:48
怪不得地主恶霸非要霸占白毛女,这是四川原型罗昌秀救出时四张照

怪不得地主恶霸非要霸占白毛女,这是四川原型罗昌秀救出时四张照

宋诉搞笑配音
2026-02-20 06:31:01
笑着告别观众,转身去蹲3年半!2.3亿被没收,蔡正元藏着太多故事

笑着告别观众,转身去蹲3年半!2.3亿被没收,蔡正元藏着太多故事

行者聊官
2026-03-20 17:40:44
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

极目新闻
2026-03-26 16:43:13
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
美国“芭比”部长被解雇后首亮相,高调带情人在侧,丈夫始终沉默

美国“芭比”部长被解雇后首亮相,高调带情人在侧,丈夫始终沉默

译言
2026-03-26 09:37:09
张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

育学笔谈
2026-03-26 08:53:29
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
2026-03-27 02:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
家居
艺术
教育
手机

转头就晕的耳石症,能开车上班吗?

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

无障碍浏览 进入关怀版