网易首页 > 网易号 > 正文 申请入驻

阿联酋开源“最快推理模型”,撞名Kimi,基于阿里Qwen,用上全球最大芯片

0
分享至

阿联酋的高性能推理模型,刚刚开源!

智东西9月10日消息,今日上午,阿布扎比穆罕默德·本·扎耶德人工智能大学(MBZUAI)联合AI创企G42推出的新低成本推理模型K2 Think,相关论文已arXiv预印本平台发表,昨天下午模型在Hugging Face、GitHub上开源。

K2 Think有320亿个参数,基于阿里巴巴的开源模型Qwen 2.5构建性能超过参数规模是其20倍的OpenAI和DeepSeek旗舰推理模型

复杂数学任务基准测试中,研究人员计算了K2 Think在AIME24、AIME25、HMMT25和OMNI-Math-HARD中的平均得分,超过GPT-OSS、DeepSeek V3.1、Qwen3 235B-A22B等一众开源模型

技术报告中,研究人员提到K2 Think背后有六大技术创新协同,研究人员通过监督微调扩展基础模型的思维链能力,然后通过可验证奖励强化学习(RLVR)增强推理性能、利用推理时间技术增强模型,最后在部署K2-Think时进行两项速度优化,包括推测解码Cerebras的晶圆级芯片,同时使用公开可用的开源数据集训练。

值得一提的是,研究人员将K2-Think部署在Cerebras晶圆级芯片WSE系统,WSE每秒可交付约2000个token,相比在NVIDIA H100/H200 GPU等常规部署环境中观测到的标称每秒200个token,性能提升了10倍

K2-Think背后有两大强力推手:一方是穆罕默德・本・扎耶德人工智能大学(MBZUAI),这是阿拉伯联合酋长国专门设立、聚焦AI研究的机构;另一方是阿布扎比支持的科技集团G42,不仅在2024年拿到微软15亿美元投资,还在阿联酋建造OpenAI、软银等企业联合投资的AI基建 “星际之门”。

该模型的权重、训练数据、部署代码和测试时优化代码已经在Hugging Face、GitHub上开源。

Hugging Face地址:

https://huggingface.co/LLM360/K2-Think

GitHub地址:

https://github.com/MBZUAI-IFM/K2-Think-SFT

https://github.com/MBZUAI-IFM/K2-Think-Inference

K2 Think主页:

https://www.k2think.ai/

技术报告:

https://arxiv.org/abs/2509.07604

一、数学性能领先OpenAI、DeepSeek旗下开源模型,要为数学、科学提供特定用途服务

MBZUAI校长兼首席AI研究员Eric Xing在接受外媒WIRED采访时透露,K2 Think是使用数千个GPU开发的,最终的训练过程涉及200到300块芯片

K2 Think并非一个完整的大语言模型,是专门用于推理的模型,能够通过模拟推理方式来回答复杂问题,而不是快速综合信息来提供信息输出,Xing提到,他们在未来几个月将K2 Think整合到一个完整的大模型中。

复杂数学领域,K2 Think在AIME 2024、AIME 2025、HMMT 2025 和 Omni-MATH-HARD四个基准测试中的平均得分为67.99分,超过规模更大的DeepSeek V3.1 671B、GPT-OSS 120B模型。

编程能力上,K2-Think在开源代码能力基准LiveCodeBench上获得63.97分,超越了规模相近的同类模型GPT-OSS 20B、Qwen3-30B-A3B。

在用于评估大模型将复杂科学问题转化为可执行代码能力的SciCode基准测试中,K2-Think获得39.2分排名第二,与第一名的Qwen3 235BA22B仅有0.1分之差。

科学推理方面,模型在GPQA-Diamond基准测试中的表现为71.08,表现优于除OpenReasoning-Nemotron-32B、GPT-OSS 120B之外的大多数开源模型。

MBZUAI基础模型研究所所长Hector Liu提到,K2-Think的特别之处在于,他们将其视为一个系统,他们的目标不是构建类似ChatGPT的聊天机器人,而是为数学和科学等领域的特定用途提供服务。

二、六项系统级创新,全训练过程均采用开源数据集

K2-Think的技术报告显示,其背后有六大技术创新,包括思维链监督微调、可验证奖励强化学习(RLVR)、推理前的Agent规划、测试时扩展、推测解码和推理优化硬件、仅使用公开可用的开源数据集训练

基于这种系统化的技术创新,K2-Think通过长链式思维监督微调增强了逻辑深度、可验证奖励的强化学习提高了解决难题的准确率、Agent式规划使模型能够在推理前分解复杂挑战、测试时扩展技术进一步提升了模型的适应性,最终实现性能对标更大参数规模模型。这使得模型能够提供强大的思维链推理能力和近乎即时的响应时间

监督微调阶段,K2-Think使用思维链对基础模型进行监督微调。研究人员采用了现有的AM-Thinking-v1-Distilled数据集,该数据集由CoT推理痕迹和指令/响应对组成,提示来自数学推理、代码生成、科学推理、指令遵循和一般聊天等任务。他们评估发现,SFT模型在各个采样预算下均优于基础模型。

可验证奖励强化学习阶段,可验证奖励强化学习通过直接优化模型生成的正确性,降低了基于人类反馈强化学习(RLHF)基于偏好对齐的复杂性和成本。因此研究人员使用了Guru数据集,该数据集包含数学、编程、科学、逻辑、模拟和表格六个领域任务、近92000个可验证问题。

测试时间改进阶段,为了进一步提升模型性能,研究人员开发了测试时框架,为训练后的推理模型提供结构化输入,包括推理前的Agent规划,即“先计划后思考”,以及使用Best-of-N采样的测试时扩展。

▲模型从输入到最终响应的信息流

从输入到最终响应时,模型会重构提示以概述总体规划、突出相关概念。然后这一增强的提示将通过K2-Think模型生成多个响应,最后对候选响应进行两两比较,最终选出最佳生成结果作为推理系统的最终输出。

第四阶段是部署,在具有挑战性的数学证明或多步骤编码问题中,一个典型复杂推理任务一般会生成32000个token的响应。在NVIDIA H100上,这可以在不到3分钟的时间内完成,在WSE上,同样32000个token的生成任务只需16秒

这是因为GPU必须在每个token生成时不断将权重从高带宽内存传输到GPU核心,而WSE将所有模型权重存储在海量片上内存中,充分利用每秒25PB的片上内存带宽,比最新NVIDIA B200 GPU提供的0.008PB/s高出3000多倍

结语:小参数模型经后期训练,可媲美更大参数模型

K2-Think模型的性能证明,320亿参数规模的模型经过后期训练,能够生成较长的推理思路链,并结合相对较少的测试时间计算,可以实现小模型与参数数量级更大的模型相媲美的能力。

MBZUAI基础模型研究所的总经理Richard Morton认为,人脑的基本推理是所有思维过程的基础,K2-Think的应用,可以缩短研究人员思考特定任务、进行临床试验的时间,从而将先进的AI技术扩大到AI基础设施稀缺的地区。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“根本不敢上路”!深圳男子买全新百万豪车,修了15次还是坏的!很多车主受害

“根本不敢上路”!深圳男子买全新百万豪车,修了15次还是坏的!很多车主受害

南方都市报
2026-03-26 09:26:45
看哭了!张雪峰女儿流泪发文,透露爸爸最穷的时候是怎么熬过来的

看哭了!张雪峰女儿流泪发文,透露爸爸最穷的时候是怎么熬过来的

翰飞观事
2026-03-27 19:35:51
日本敢开第一枪?47吨底牌曝光!美航母后撤,解放军导弹覆盖全岛

日本敢开第一枪?47吨底牌曝光!美航母后撤,解放军导弹覆盖全岛

林子说事
2026-03-26 14:22:49
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

安珈使者啊
2026-03-27 11:53:48
美国也拦不住!内塔尼亚胡暴走,下达末日死令,中东真要吃核弹?

美国也拦不住!内塔尼亚胡暴走,下达末日死令,中东真要吃核弹?

万国明信片
2026-03-28 16:55:31
曾经中国第一车模兽兽翟凌宣布回归,容貌和风格大变

曾经中国第一车模兽兽翟凌宣布回归,容貌和风格大变

微微热评
2026-03-23 12:30:06
美日联手,要将中国踢出局,不到24小时,中国挖出世界级稀土矿

美日联手,要将中国踢出局,不到24小时,中国挖出世界级稀土矿

兵说
2026-03-27 16:45:10
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
荷媒:世界杯正赛队库拉索面对中国表现平平,没展示出任何竞争力

荷媒:世界杯正赛队库拉索面对中国表现平平,没展示出任何竞争力

懂球帝
2026-03-27 20:30:12
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
11中8轰29+8!斯特鲁斯该首发,阿特金森二选一,但他更适合哈登

11中8轰29+8!斯特鲁斯该首发,阿特金森二选一,但他更适合哈登

巴叔GO聊体育
2026-03-28 15:22:16
王炸!最强新 iPhone 全曝光

王炸!最强新 iPhone 全曝光

果粉俱乐部
2026-03-28 13:00:03
杨瀚森G联赛常规赛完美谢幕:强硬2+1杀死比赛,表现无懈可击

杨瀚森G联赛常规赛完美谢幕:强硬2+1杀死比赛,表现无懈可击

爱体育
2026-03-28 19:07:22
反转了?刘晓庆紧急删文,亲外甥猛烈回击,才知她下半生如此凄苦

反转了?刘晓庆紧急删文,亲外甥猛烈回击,才知她下半生如此凄苦

可乐谈情感
2026-03-28 09:56:57
施瓦辛格28岁私生子参赛健美赛,亲妈是保姆,网友:长一样!

施瓦辛格28岁私生子参赛健美赛,亲妈是保姆,网友:长一样!

徐醇老表哥
2026-03-28 17:53:39
特斯拉车主:提 Model 3 第二天就被剐蹭,修复花了 2300 元多!

特斯拉车主:提 Model 3 第二天就被剐蹭,修复花了 2300 元多!

新浪财经
2026-03-28 18:53:51
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

薛定谔的BUG
2026-03-28 12:04:50
疯了?内娱天后张靓颖,万人演唱会当众承认 do 脸翻车

疯了?内娱天后张靓颖,万人演唱会当众承认 do 脸翻车

橙星文娱
2026-03-27 13:34:54
台媒:蓝营前民代蔡正元入狱服刑

台媒:蓝营前民代蔡正元入狱服刑

参考消息
2026-03-27 18:54:04
2026-03-28 19:56:50
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11461文章数 117018关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

45岁男子驾车时突发心梗离世 2天前还在外地跑马拉松

头条要闻

45岁男子驾车时突发心梗离世 2天前还在外地跑马拉松

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

健康
本地
亲子
家居
艺术

干细胞抗衰4大误区,90%的人都中招

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

爱玩沙子是孩子的天性,这套#太空沙玩具 在家就能实现玩沙子的快乐,关键比去游乐场玩干净卫生。#儿童玩...

家居要闻

曲线华尔兹 现代简约

艺术要闻

中国油画学会三十年艺术展 | 油画选刊(一)

无障碍浏览 进入关怀版