网易首页 > 网易号 > 正文 申请入驻

蚂蚁万亿参数思考模型来了!实测AIME真题难不倒,会写爽文、规划出行

0
分享至


智东西
作者 杨京丽
编辑 李水青

智东西5月9日报道,今天,蚂蚁百灵大模型发布Ring-2.6-1T。这是一款面向真实复杂任务场景万亿级思考模型,目前已上线OpenRouter,并开放限时一周免费体验,后续将正式开源

Ring-2.6-1T加入了可调节的Reasoning Effort机制。开发者可以在high和xhigh两种推理强度之间选择:high面向Agent、Coding、多步工具调用等高频任务,强调执行效率和Token开销;xhigh则面向数学、科研、复杂逻辑分析等更难的推理任务。

从官方公布的数据看,Ring-2.6-1T high在PinchBench、ClawEval、Tau2-Bench Telecom等真实任务执行类评测中表现靠前,其中PinchBench得分高于Claude-Opus-4.7 xhigh、GPT-5.4 xHigh、Gemini-3.1-Pro high等模型。

Ring-2.6-1T xhigh则在ARC-AGI-V2、AIME 26、GPQA Diamond等高难推理任务中取得较高分数。ARC-AGI-V2得分77.78,与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh处于同一水平

智东西也在第一时间围绕真实任务执行和高难推理两个方向进行了实测。


体验地址:

https://openrouter.ai/inclusionai/ring-2.6-1t:free

一、PinchBench得分高于Opus 4.7,3D鹈鹕却翻车了

真实任务执行类评测中,Ring-2.6-1T high在PinchBench上得分87.60,高于Claude-Opus-4.7 xhigh、GPT-5.4 xHigh与Gemini-3.1-Pro high等海外大模型。

ClawEval得分63.82,领先Kimi-K2.6 Thinking、GPT-5.4 xHigh等模型,在可比模型中位居前列;Tau2-Bench Telecom达到95.32,与最高分模型差距不足1分。


▲模型能力对比图(图源:百灵大模型)

为了观察Ring-2.6-1T在真实任务中的交付情况,我们首先测试了Ring-2.6-1T在长文本创作任务中的表现。我们让它生成一部长篇都市异能爽文的大纲和开篇正文,要求输出全书设定、100章大纲、开篇正文等内容。


▲Ring-2.6-1T创作的小说大纲及开篇

可以看到模型对于任务理解没有偏差,全书设定中包含世界观、主角、能力规则、主要人物等细节,大纲也比较详细,包含核心事件、爽点、反转和伏笔,正文的第一章很抓人,主角被解雇,还收到了分手短信,迅速进入主题,符合网络小说的要求。

之后我们提升难度,让Ring-2.6-1T完成一个偏创意前端的任务:制作一个“骑自行车的鹈鹕”的3D像素艺术作品。

第一次生成时,报错失败了。后面我们重新尝试,Ring-2.6-1T基本完成了3D像素艺术作品的主体搭建。它生成了完整HTML结构,并构建了天空、道路、树木、太阳、鹈鹕、自行车等元素。不过,原始代码中Three.js插件路径存在错误,手动修正后可以运行。


▲Ring-2.6-1T制作的3D像素艺术作品

从最终效果来看,模型基本实现任务目标,完成了3D像素艺术作品,可以跟随鼠标旋转,从不同角度观察作品。

不过,问题也很明显,我们可以看到画面中并非鹈鹕在骑自行车,而是自行车的两个轮子围绕中点旋转,模型没有正确理解“骑行”这一动作。另外,画面比例也存在问题,鹈鹕这一主体过大,树木和公路偏小,空间关系不够自然。

二、AIME真题1分钟答对,路线规划与地图推荐一致

在高难推理任务上,Ring-2.6-1T xhigh的表现更偏向能力上限,ARC-AGI-V2得分77.78,与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh处于同一水平;AIME 26得分95.83,GPQA Diamond达到88.27,覆盖抽象推理、数学竞赛和科学知识理解等任务。

为了验证其高难推理能力,我们首先选择了一道AIME 2026真题。题目如下:


▲AIME 2026真题(图源:AIME)

这道题的正确答案为441,考察的是对数换元、指数方程、根与系数关系以及质因数分解,适合考察模型的推理能力。


▲Ring-2.6-1T的解题过程

Ring-2.6-1T很快抓住了题目的关键,分五个步骤解答这一问题,整个过程仅用时1分钟左右,就迅速得到了正确结果。模型在这一案例中表现很稳,说明其在标准数学竞赛题上的推理链路和计算执行较为可靠

此外,我们还选择了一个更贴近日常使用场景的推理任务:从北京大兴机场乘坐公共交通前往首都机场。相比AIME数学问题,路线规划没有唯一的公式化解法,需要模型在交通方式、换乘路径、时间成本、票价等方面做出综合判断。


▲Ring-2.6-1T的路线规划

测试中,Ring-2.6-1T给出了两套方案,并用表格对比了主要工具、换乘次数、预计总时间和票价。其中,方案A为“大兴机场快线→地铁10号线→首都机场线”,与高德地图推荐方案一致。

方案B为“机场巴士→地铁换乘→机场快线”,稍显复杂。另外,模型没有进行网络搜索,不清楚两座机场之间还有个直达的机场专线,没有加上这一方案。仅根据地铁线路网来看,模型展现出不错的推理能力,最后还给出购票方式、应急方案等提示,考虑周全。

三、结语:会推理、能拆任务,交付细节仍需打磨

从实测结果看,Ring-2.6-1T高难推理任务上表现较稳,快速完成AIME真题推导,在路线规划这类日常推理任务中给出多种方案;在长文本创作任务中,它对设定、大纲、伏笔和开篇节奏的把握也较完整。

但在Coding任务和复杂前端任务中,模型仍暴露出细节问题,测试过程中还出现了几次失败的情况,希望后续可以进一步优化,提升模型在复杂工作场景中的任务执行能力。近期,模型将正式开源,届时开发者也能更深入地测试、部署和改造这一万亿级思考模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“寻天”商标注册!小米欲成立汽车独立子品牌?官方未作回应

“寻天”商标注册!小米欲成立汽车独立子品牌?官方未作回应

每日经济新闻
2026-05-09 19:47:07
白打一轮!英超升级迎来大变革,四队零进球,全部都在“演戏”?

白打一轮!英超升级迎来大变革,四队零进球,全部都在“演戏”?

嗨皮看球
2026-05-10 00:35:15
套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

魔都姐姐杂谈
2026-05-09 20:58:28
状态正佳,多库首次连场英超破门,曼城生涯首次连续3场进球

状态正佳,多库首次连场英超破门,曼城生涯首次连续3场进球

懂球帝
2026-05-10 02:05:27
4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

风过乡
2026-05-09 17:29:03
产品为基,技术为擎,用户为本:红旗高质量发展三重奏

产品为基,技术为擎,用户为本:红旗高质量发展三重奏

大众侃车
2026-05-09 17:54:52
15.98万,真的疯了

15.98万,真的疯了

放毒
2026-05-09 18:53:10
热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

小椰子专栏
2026-05-09 13:25:28
外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

闪电新闻
2026-05-09 09:31:06
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
人民日报发声:机关事业单位的隐性收入,正在消失

人民日报发声:机关事业单位的隐性收入,正在消失

细说职场
2026-05-09 12:16:27
申花球迷意难平!不止因为2-2憾平铜梁龙,更多在于以下这五点!

申花球迷意难平!不止因为2-2憾平铜梁龙,更多在于以下这五点!

田先生篮球
2026-05-09 22:11:34
台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

风向观察
2026-05-09 13:29:53
果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

精彩启程
2026-05-09 23:51:47
阿斯:阿韦洛亚开了上任以来最艰难的发布会,他一度眼含泪水

阿斯:阿韦洛亚开了上任以来最艰难的发布会,他一度眼含泪水

懂球帝
2026-05-09 21:38:55
病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

混沌录
2026-05-09 14:54:10
特斯拉车主苦等多年,这个HUD终于把导航放回眼前

特斯拉车主苦等多年,这个HUD终于把导航放回眼前

闪存猎手
2026-05-09 01:01:43
抓了那么多贪官,钱呢?跟我们有关系吗?

抓了那么多贪官,钱呢?跟我们有关系吗?

细说职场
2026-05-08 22:15:45
昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

天天热点见闻
2026-05-09 18:41:26
击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

澎湃新闻
2026-05-09 20:58:27
2026-05-10 02:39:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117068关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
数码
房产
手机
公开课

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

有鸿蒙·更美的——全球首台鸿蒙智选美的智能空调上市

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

手机要闻

华为Mate 90首发!鸿蒙7定档6月:和iOS安卓三分天下

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版