网易首页 > 网易号 > 正文 申请入驻

腾讯推出快思考模型:API 成本只有 deepseek 不到一半

0
分享至

再探超大规模 MoE 性能和成本极限?


作者|连冉
编辑|郑玄

最近,腾讯元宝可以说是「杀疯了」,先是多款产品接入 deepseek,推出自研混元 T1 模型,又是猛推流,一度超越字节「豆包」登上中国区 App Store 免费榜第二,又是入驻微信生活服务「九宫格」。

在各家大模型纷纷推出深度思考模型的同时,腾讯混元又「反常」地推了一个快思考模型 Turbo S。

2 月 27 日,腾讯混元自研的快思考模型 Turbo S 正式发布,目前已在腾讯云和元宝上线。

区别于 Deepseek R1、混元 T1 等需要「想一下再回复」的慢思考模型,混元 Turbo S 能够实现「秒回」,吐字速度提升一倍,首字时延降低 44%,同时在知识、数理、创作等方面也有突出表现。通过模型架构创新,Turbo S 部署成本也大幅下降,持续推动大模型应用门槛降低。

有研究表明,人类约 90%—95% 的日常决策依赖直觉,快思考正如人的「直觉」,为大模型提供了通用场景下的快速响应能力,而慢思考更像理性思维,通过分析逻辑提供解决问题思路。快思考和慢思考的结合和补充,可以让大模型更智能、更高效地解决问题。

据介绍,通过长短思维链融合,腾讯混元 Turbo S 在保持文科类问题快思考体验的同时,基于自研混元 T1 慢思考模型合成的长思维链数据,显著改进了理科推理能力,实现模型整体效果提升。

作为旗舰模型,Turbo S 未来将成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。

基于 Turbo S,通过引入长思维链、检索增强和强化学习等技术,腾讯自研了推理模型 T1,该模型已在腾讯元宝上线,用户可以选择 Deepseek R1 或腾讯混元 T1 模型进行回答,具体操作上,在元宝中选择 Hunyuan 模型,点亮 T1 即为深度思考,不点亮则为 Turbo S。

开发者和企业用户已经可以在腾讯云上通过 API 调用腾讯混元 Turbo S,即日起一周内免费试用。

定价上,Turbo S 输入价格为 0.8 元/百万 tokens,输出价格为 2 元/百万 tokens,相比前代混元 Turbo 模型价格下降数倍,是 deepseek API 成本的 1/2-1/4,团队称「比大模型界的拼多多还便宜」。另外,混元满血 T1 将在 3 月初发布。

在 3 月 2 日腾讯混元的直播里,腾讯混元专家团队对这次推出的快思考模型做出了详解,极客公园整理重点如下:

01

为什么要做「快思考」?

团队通过分析和观察发现,用户约 90% 的请求都可以依靠大模型的「直觉」(即快思考模型),无需深度思考就能精准简洁地给出答案,所以针对这些请求需要模型能更快、更准地回应。

对于剩下的约 10% 的请求,需要模型能进行深度思考甚至反思,从而给出更精准的答案。

同时,快思考模型不仅成本更低,还具备强大的数据融合能力,能够融入 MySQL 模型或 Max 模型中的优质数据。

Turbo S 借鉴了腾讯的慢思考模型 Hunyuan T1 的数据,该模型使用一种称为长思维链合成的技术进行训练。这有助于 Turbo S 在保持其速度优势的同时,通过多步骤问题进行推理,使得对于其余 10% 需要反复反思思考的问题也能得到较精准答案。

02

技术解析:模型架构/工程优化

在业界通用的多个公开 Benchmark 上,腾讯混元 Turbo S 在知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果表现。

架构方面,通过创新性地采用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 缓存占用,实现训练和推理成本的下降。

传统 Transformer 架构存在以下缺陷

计算复杂度高,序列维度呈平方级关系,在训练和推理时复杂度高;

推理时需要 KV-Cache,且随着序列长度增加线性增加,部署成本高;预测时时间成本高,每步预测因叠加 KV-Cache 与序列长度呈线性关系,越往后生成越慢,尤其对于 Mamba 线性 Attention 机制,每步预测都是 O1 复杂度,所以需要做更高效的 attention 或甚至 linear 的 attention,目前行业内已有一些相关探索方案如 window attention、mobile、NSA 等,都是通过不同方式压缩计算复杂度。

Hybrid-Mamba-Transformer 融合架构是混元 Turbo S 中的一项突破性架构创新,通过融合两种强大的架构,平衡效率和上下文推理能力:

Mamba 是一种状态空间模型(SSM),专为高效处理长序列而设计,在内存使用上比 Transformer 更为节省。与 Transformer 不同,后者在处理长文本时会遇到 KV-cache 内存的平方级扩展问题,而 Mamba 可以在不产生过多计算开销的情况下处理更长的文本,更适合阅读、总结和生成长文档的回答(例如法律文本、研究论文等)。

尽管 Mamba 高效,但它在捕捉复杂的上下文关系方面不如 Transformer。Transformer 擅长理解复杂的模式和依赖关系,特别适合推理密集型任务,如数学运算、逻辑推理和问题解决,适用于多步骤推理、代码生成和深度上下文理解。

混元 Turbo S 首次将 Mamba 应用于超大规模 MoE 模型 MoE(专家混合模型)通过每次查询激活一部分参数,从而提高计算效率,在保持精度的同时充分利用了 Mamba 的高效性,同时也保留了 Transformer 在推理任务中的优势。这一突破不仅降低了训练和推理成本,还提升了速度和智能水平。

03

算法做到了哪些不一样的工作?

长短思维链的融合。

通过长短思维链融合,对于需反复推理反思的问题也能得到更精准答案,T1 模型可得到相对长链数据,将长链数据和短链数据融合训练后采样,采样依据正确性和长度正确性,采用规则方法和滤波 model case,从而提升模型整体能力,尤其在数学、代码、逻辑等强推理任务上表现更好,且短链模型能很好地融合长链能力,体验更佳。

即短链模型其实体验更佳,通过融合长链也能有很好的推理能力。

04

scaling law 还没结束

GPT-4.5 是短链模型天花板的一个存在,但 API 的成本非常高,以百万 tokens 计算约为 150 美元,约是 Turbo S 成本 500 倍,且据推测,GPT-4.5 的激活参数量达万亿级别。因此,Turbo S 等快思考模型的出现,正是为了 在保证响应速度的同时,降低成本并保持较好的性能。

不管是模型 size 的 scaling 还是训练数据的 scaling,目前 scaling law 远未结束,现在中文互联网上可获取数据量各家差不多,谁能通过获取或合成方式获得更多数据量对模型 performance 来说是关键。

标注数据 方面,更专业标注团队对模型表现影响大,如小说创作、医疗方向等,拥有更专业标注团队和数据的模型表现会更好,整体来看,在数据、算法、算力工程优化等方面对 scaling 的探索都远未结束。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

Turbo S 的推出

会对大模型市场产生什么影响?

扎克伯格:AR 眼镜终将取代手机,它将成为主要交互媒介。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超越寒武纪、直逼茅台,10倍CPO牛股赴港上市

超越寒武纪、直逼茅台,10倍CPO牛股赴港上市

和讯网
2026-03-26 17:22:13
油价降了!3月26日全国油价下调85元吨,4月7日油价将迎下跌!

油价降了!3月26日全国油价下调85元吨,4月7日油价将迎下跌!

沙雕小琳琳
2026-03-26 15:31:42
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

垚垚分享健康
2026-03-25 13:25:46
王毅同加拿大外长阿南德通电话

王毅同加拿大外长阿南德通电话

齐鲁壹点
2026-03-26 21:33:12
伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

讲者普拉斯
2026-03-26 21:19:51
彻底撕破脸,马英九亲自下场,萧旭岑深夜反击,郑丽文送致命一击

彻底撕破脸,马英九亲自下场,萧旭岑深夜反击,郑丽文送致命一击

叹知
2026-03-25 14:27:24
雷军彻底疯狂,小米拿下4000亿

雷军彻底疯狂,小米拿下4000亿

新浪财经
2026-03-25 23:42:55
财政部:对于参保长期护理保险的城乡居民 政府会按规定给予补助

财政部:对于参保长期护理保险的城乡居民 政府会按规定给予补助

北青网-北京青年报
2026-03-26 11:11:12
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

爱范儿
2026-03-26 15:27:20
旅游+演艺,激活消费新空间(大数据观察)

旅游+演艺,激活消费新空间(大数据观察)

人民网
2026-03-26 06:17:20
美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

瞩望云霄
2026-03-25 18:20:59
香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

深度解析热点
2026-02-13 11:55:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

爱史纪
2026-03-26 19:30:35
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
黄巢虽然残忍,却做了件好事:为我国破除了危害近600年的祸根

黄巢虽然残忍,却做了件好事:为我国破除了危害近600年的祸根

铭记历史呀
2026-03-26 11:26:09
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
国民党败退台湾,留下许多官太太,她们向我军提的要求简单但很痛

国民党败退台湾,留下许多官太太,她们向我军提的要求简单但很痛

新一说史
2026-03-25 13:26:51
2026-03-26 22:12:49
极客公园
极客公园
让最棒的创新成为头条
11912文章数 78856关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
旅游
艺术
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版