网易首页 > 网易号 > 正文 申请入驻

德国实验室推出DeepSeek R1-0528变体

0
分享至

距离中国AI初创公司DeepSeek(香港高瓴资本管理公司旗下)发布其热门开源模型DeepSeek R1-0528的最新版本仅一个多月时间。

与其前身DeepSeek-R1一样——这款模型以其低廉的训练成本和在推理任务上的出色表现震撼了AI界和全球商业社区,并且免费向开发者和企业开放——R1-0528已经被其他AI实验室和开发者进行改进和重构,这在很大程度上得益于其宽松的Apache 2.0许可证。

本周,成立24年的德国公司TNG Technology Consulting GmbH发布了这样一个改进版本:DeepSeek-TNG R1T2 Chimera,这是其Chimera大语言模型系列中的最新模型。R1T2在效率和速度方面实现了显著提升,在智能基准测试中得分达到R1-0528的90%以上,同时生成答案时使用的输出Token数量不到R1-0528的40%。

这意味着它产生更简洁的回应,直接转化为更快的推理速度和更低的计算成本。在TNG在AI代码共享社区Hugging Face上发布的新R1T2模型卡中,公司表示它"比常规R1快约20%"(1月发布的版本),"比R1-0528快两倍以上"(DeepSeek 5月的官方更新)。

AI开发者社区的反响非常积极。Hugging Face高级主管Vaibhav (VB) Srivastav在X上写道:"太棒了!DeepSeek R1T2——比R1-0528快200%,比R1快20%。在GPQA和AIME 24上显著优于R1,通过专家集成方法与DS V3、R1和R1-0528结合制成——并且采用MIT许可证,可在Hugging Face上获得。"

这一性能提升得益于TNG的专家集成(Assembly-of-Experts,AoE)方法——这是一种通过选择性合并多个预训练模型的权重张量(内部参数)来构建大语言模型的技术,TNG在5月发表在arXiv(非同行评议的开放获取在线期刊)上的论文中描述了这种方法。

作为原始R1T Chimera的继任者,R1T2引入了新的"三重思维"配置,整合了三个父模型:DeepSeek-R1-0528、DeepSeek-R1和DeepSeek-V3-0324。结果是一个设计用于保持高推理能力同时显著降低推理成本的模型。

R1T2的构建无需进一步微调或重新训练。它继承了R1-0528的推理强度、R1的结构化思维模式,以及V3-0324简洁、面向指令的行为——为企业和研究用途提供了一个更高效但仍然能力强大的模型。

专家集成(AoE)与专家混合(MoE)的区别

专家混合(MoE)是一种架构设计,其中不同的组件或"专家"根据输入有条件地激活。在像DeepSeek-V3或Mixtral这样的MoE大语言模型中,在任何给定Token的前向传递过程中,只有模型专家层的一个子集(例如,256个中的8个)处于活跃状态。这使得非常大的模型能够实现更高的参数计数和专业化,同时保持可控的推理成本——因为每个Token只评估网络的一小部分。

专家集成(AoE)是一种模型合并技术,而不是一种架构。它用于通过选择性插值多个预训练MoE模型的权重张量来创建新模型。

AoE中的"专家"指的是被合并的模型组件——通常是MoE层内的路由专家张量——而不是在运行时动态激活的专家。

TNG的AoE实现主要专注于合并路由专家张量——模型中最负责专门推理的部分——同时通常保留来自像V3-0324这样更快模型的更高效共享层和注意力层。这种方法使得生成的Chimera模型能够继承推理强度,而不复制最强父模型的冗长性或延迟。

性能和速度:基准测试的实际表现

根据TNG提供的基准比较,R1T2在AIME-24、AIME-25和GPQA-Diamond测试集中测得的推理性能达到其最智能父模型DeepSeek-R1-0528的90%至92%。

然而,与DeepSeek-R1-0528不同——后者由于其扩展的思维链推理而倾向于产生冗长、详细的答案——R1T2被设计得更加简洁。它提供同样智能的回应,同时使用显著更少的词汇。

TNG不专注于原始处理时间或每秒Token数,而是以每个答案的输出Token计数来衡量"速度"——这是成本和延迟的实用代理指标。根据TNG分享的基准测试,R1T2生成回应时使用的Token约为R1-0528所需Token的40%。

这转化为输出长度减少60%,直接减少推理时间和计算负载,将响应速度提升2倍,即200%。

与原始DeepSeek-R1相比,R1T2平均也更简洁约20%,为高吞吐量或成本敏感的部署提供了有意义的效率提升。

这种效率并非以牺牲智能为代价。如TNG技术论文中展示的基准图表所示,R1T2在智能与输出成本曲线上处于理想区域。它保持推理质量同时最小化冗长性——这对推理速度、吞吐量和成本都很重要的企业应用来说是关键结果。

部署考虑和可用性

R1T2在宽松的MIT许可证下发布,现在可在Hugging Face上获得,这意味着它是开源的,可用于构建商业应用程序。

TNG指出,虽然该模型非常适合一般推理任务,但由于从其DeepSeek-R1血统继承的限制,目前不建议用于需要函数调用或工具使用的用例。这些问题可能在未来更新中得到解决。

公司还建议欧洲用户评估与2025年8月2日生效的《欧盟人工智能法案》的合规性。在欧盟运营的企业应审查相关条款,或在该日期后如果无法满足要求则考虑停止使用模型。

然而,在美国国内运营并为美国用户或其他国家用户提供服务的美国公司不受《欧盟人工智能法案》条款约束,这应该给他们在使用和部署这个免费、快速的开源推理模型时相当大的灵活性。如果他们为欧盟用户提供服务,《欧盟法案》的一些条款仍将适用。

TNG已经通过OpenRouter和Chutes等平台提供了先前的Chimera变体,据报告每天处理数十亿Token。R1T2的发布代表了这一公开可用性努力的进一步发展。

关于TNG Technology Consulting GmbH

TNG Technology Consulting GmbH成立于2001年1月,总部位于德国巴伐利亚州,雇佣超过900人,其中博士和技术专家比例很高。

公司专注于软件开发、人工智能和DevOps/云服务,为电信、保险、汽车、电子商务和物流等行业的主要企业客户提供服务。

TNG作为基于价值观的咨询合作伙伴运营。其独特的结构建立在运营研究和自我管理原则基础上,支持技术创新文化。它积极为开源社区和研究做出贡献,如R1T2的公开发布和其专家集成方法的发表所证明的那样。

对企业技术决策者的意义

对于CTO、AI平台所有者、工程主管和IT采购团队,R1T2带来了切实的好处和战略选择:

降低推理成本:每个任务使用更少的输出Token,R1T2减少了GPU时间和能耗,直接转化为基础设施节省——在高吞吐量或实时环境中尤其重要。

高推理质量无开销:它保持了像R1-0528这样顶级模型的大部分推理能力,但没有其冗长性。这对于需要简洁答案的结构化任务(数学、编程、逻辑)是理想的。

开放和可修改:MIT许可证允许完全的部署控制和定制,支持在受监管或隔离环境中进行私有托管、模型对齐或进一步训练。

新兴模块化:AoE方法暗示了一个未来,其中模型以模块化方式构建,允许企业通过重新组合现有模型的优势来组装专门变体,而不是从头重新训练。

注意事项:依赖函数调用、工具使用或高级智能体编排的企业应注意当前限制,尽管未来的Chimera更新可能会解决这些差距。

TNG鼓励研究人员、开发者和企业用户探索该模型,测试其行为并提供反馈。R1T2 Chimera可在huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera获得,技术咨询可发送至research@tngtech.com。

有关技术背景和基准方法,TNG的研究论文可在arXiv:2506.14794获得。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
余华英拐卖17名儿童,“梅姨”只卖9名?她很可能比余华英更多

余华英拐卖17名儿童,“梅姨”只卖9名?她很可能比余华英更多

潮鹿逐梦
2026-03-23 10:25:01
春假启动迎“小黄金周”,多地发文落实带薪休假

春假启动迎“小黄金周”,多地发文落实带薪休假

上观新闻
2026-03-24 07:16:05
赵震谈马镇、李扬入选国家队:多人受伤后有签证的就剩他俩

赵震谈马镇、李扬入选国家队:多人受伤后有签证的就剩他俩

懂球帝
2026-03-23 19:03:49
扑进特朗普怀里,高市还跳舞,大搞谄媚外交,日本人直言有失国格

扑进特朗普怀里,高市还跳舞,大搞谄媚外交,日本人直言有失国格

甜柠聊史
2026-03-24 07:30:29
私生子传闻真相大白后,央视发文重锤,被逮捕的释永信这次没救了

私生子传闻真相大白后,央视发文重锤,被逮捕的释永信这次没救了

论事的老枢
2026-03-24 02:01:18
如果战斗持续下去,伊朗可能会比以色列和美国处于更有利的位置

如果战斗持续下去,伊朗可能会比以色列和美国处于更有利的位置

止戈军是我
2026-03-22 22:28:16
布伦特原油跌幅收窄至4% 此前跌超13%

布伦特原油跌幅收窄至4% 此前跌超13%

每日经济新闻
2026-03-23 20:07:04
深夜把女领导误当老婆,发了句想你了,她秒回:来我办公室

深夜把女领导误当老婆,发了句想你了,她秒回:来我办公室

温情故事匣
2026-03-20 17:02:38
日媒:中东乱局致避险资产齐下跌

日媒:中东乱局致避险资产齐下跌

参考消息
2026-03-23 16:14:28
眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

健康之光
2026-03-23 22:15:04
特朗普在与内塔尼亚胡通话后批准对伊朗行动

特朗普在与内塔尼亚胡通话后批准对伊朗行动

财联社
2026-03-24 04:12:14
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
达科一针见血!彻底撕开国乒男队如今的窘态,他还提到了王楚钦

达科一针见血!彻底撕开国乒男队如今的窘态,他还提到了王楚钦

十点街球体育
2026-03-24 06:05:03
2-0!中国队赢球,全场压着打+“国产C罗”破门进球,球迷欢呼

2-0!中国队赢球,全场压着打+“国产C罗”破门进球,球迷欢呼

二疯说球
2026-03-23 08:12:29
武汉新宇集团张文俊带近30人暴力抢夺商场,声称已到政府部门备案

武汉新宇集团张文俊带近30人暴力抢夺商场,声称已到政府部门备案

灵溪枕石
2026-03-23 14:21:40
英美学费涨疯了,中产家庭开始盯上这4个目的地

英美学费涨疯了,中产家庭开始盯上这4个目的地

阅读第一
2026-03-21 08:35:56
一位32岁健身女教练,自述感染艾滋病经历:太痛心,真的悔不当初

一位32岁健身女教练,自述感染艾滋病经历:太痛心,真的悔不当初

千秋文化
2026-03-23 20:23:11
张雨绮大瓜爆出!

张雨绮大瓜爆出!

微微热评
2026-01-27 00:09:43
为什么电车车主都不提换电池的事?网友:说跑几公里就跑几公里

为什么电车车主都不提换电池的事?网友:说跑几公里就跑几公里

另子维爱读史
2026-03-23 23:14:45
谢婷婷一家3口亮相谢霆锋演唱会,外籍男友好帅,7岁女儿太像妈妈

谢婷婷一家3口亮相谢霆锋演唱会,外籍男友好帅,7岁女儿太像妈妈

古希腊掌管松饼的神
2026-03-23 10:05:55
2026-03-24 08:15:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17069文章数 49695关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

特朗普"最后通牒"延期 美伊双方不同反应引发外界猜测

头条要闻

特朗普"最后通牒"延期 美伊双方不同反应引发外界猜测

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

钟丽缇就女儿考拉争议道歉:女儿还小

财经要闻

市场见底了吗?谁在抛售?机构火线解读

汽车要闻

东风雪铁龙新凡尔赛C5X上市 官方一口价11.37万起

态度原创

时尚
亲子
本地
家居
军事航空

春天穿衣别太老气横秋,试试这些多巴胺穿搭,减龄养眼又舒适

亲子要闻

孩子第一次去幼儿园,爸爸却又哭又闹!网友:出嫁的时候不得大哭

本地新闻

这里是宝鸡 嫽滴很!

家居要闻

智慧生活 奢享家居

军事要闻

伊朗回应美方威胁:将在战场上坚决对抗

无障碍浏览 进入关怀版