网易首页 > 网易号 > 正文 申请入驻

榜单更新!Kimi K2.5表现突出|xbench月报

0
分享至



截至2026年1月底,xbench的3个leaderboard已完成分数更新。Kimi K2.5悉数上榜,表现突出。

xbench近期发布了2个新的benchmark,分别是用来评估模型多模态理解能力的BabyVision,和Agent复杂任务指令遵循能力的AgentIF-OneDay。

• BabyVision:评估大模型的多模态视觉理解能力的基准评测集,https://xbench.org/agi/babyVision

• AgentIF-OneDay:评估通用智能体在日常场景、多附件、复杂任务中的指令遵循基准评测集,https://xbench.org/agi/agentif

xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名。如果公司已上线发布的产品想参与xbench评测和Leaderboard榜单,欢迎通过team@xbench.org与我们取得联系,反馈意见。

xbench-ScienceQA Leaderboard更新



• 汇率取 1 USD = 7.1491 CNY

• 本次评估基本涵盖了截至排行榜发布之日主流大语言模型(LLMs)的公开可用应用程序编程接口(APIs),未公开发布的内测模型未列入榜单。

• 如果一家公司有多个模型,优先测试最新版本和官方网站推荐的模型。所有模型均关闭搜索功能。

• 一家公司有多个模型时,排名中保留每家公司的最新模型版本。当同一推理模型存在不同的推理成本时,仅保留得分最高的版本。

截至2026年1月底,Kimi K2.5平均分达到63.2分,与此前的K2相比提升明显,BoN(N=5)达到77分,位于leaderboard第4,在国内大模型中排名第1。在性能提升的同时,运行速度也有提升,同时Token价格下降,更具性价比。



xbench-DeepSearch Leaderboard更新

截至2026年1月底,模型分数更新如下:



• Kimi K2.5:Kimi K2.5达到40+分,跻身榜单第二,仅次于ChatGPT,成为国内模型SOTA。每道题推理仅耗时2-3min,速度提升明显。


BabyVision Leaderboard更新

截至2026年1月底,模型分数更新如下:



• Kimi K2.5:Kimi K2.5得分为36.5,仅次于Gemini 3 Pro排名第二,国内大模型中排名第一。


近期新发布模型和产品总结

Kimi K2.5

Kimi K2.5是月之暗面于2026年1月27日发布的最新一代大语言模型。Kimi K2.5是一款原生多模态模型,将视觉理解、逻辑推理、编程及Agent能力深度集成。

• K2.5 基于约15万亿(15T)混合视觉和文本token进行持续预训练。它能原生理解和处理视觉信息,支持跨模态推理。

• 采用混合专家架构(MoE),模型总参数量约为1万亿(1 Trillion),在推理时激活参数约为320亿(32B),在保证高性能的同时维持了推理效率。

• 支持超长上下文,有版本的均支持256k token的上下文窗口,能够处理长文档和复杂的上下文记忆。

• 集成多模态视觉编码器,用于将图像/视频等非文本信号转换为模型可理解的向量表示。

Kimi K2.5正在从长文本向着多模态+智能体的全面进化,它不仅能“读”和“写”,还能通过视觉“看”懂需求,并组织多个AI智能体协作完成复杂工作。

Google Genie 3开放测试

Genie 3是Google DeepMind 2025年推出的通用世界模型(general-purpose world model):你给它一段文本描述(也可结合图片提示),它就能生成可实时(24 fps)探索、可交互的环境,可用于快速生成“类游戏”的可探索世界、交互式内容创作,以及作为智能体/机器人在仿真环境中训练与测试的基础设施。


Google 4D Model

Google DeepMind 的 D4RT(Dynamic 4D Reconstruction and Tracking) 提出一种把“静态3D重建+动态物体追踪”统一起来的4D建模框架:模型先用大型 Transformer对整段视频编码成全局场景表征(可理解为长期记忆),再用“时空查询(spatiotemporal querying)”的方式对任意时间、任意像素/视角发起并行查询,直接输出对应的几何信息(如深度、3D位置、跨帧3D轨迹等),从而把传统多模块串联的流程变成一个统一的可并行推理接口。可成为为Genie系列的4D数据引擎。

Runway GWM

Runway 的GWM(通用世界模型)乃是基于Runway Gen 4.5模型架构,通过将双向扩散模型进行蒸馏处理,进而将其转换为自回归扩散模型。具体应用如下:

• 机器人:GWM Robotics是一个学习性模拟器,用于生成合成数据,以实现可扩展的机器人训练和政策评估,从而消除物理硬件的瓶颈。具体来说,它是一个在机器人数据上训练的世界模型,能够根据机器人动作预测视频序列。并且,这个模型支持反事实生成,能够探索替代的机器人的轨迹和结果。

• 实时世界模拟与探索:开放式交互式世界模拟,能够在实时中构建无限可探索现实的方法。

• 实时虚拟形象:GWM虚拟形象是一种音频驱动的交互式视频生成模型。它能够模拟自然的人类动作和表情,适用于任意逼真或风格化的角色。该模型在说话和倾听时,都能够渲染逼真的面部表情、眼球运动、口型同步和手势,并且支持长时间对话而不出现质量下降。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成龙砸4000万认回女儿,房祖名帮忙林凤娇沉默,吴卓林的话最清醒

成龙砸4000万认回女儿,房祖名帮忙林凤娇沉默,吴卓林的话最清醒

林雁飞
2026-01-14 15:40:26
新规来了,不能摆摊私自卖菜了?

新规来了,不能摆摊私自卖菜了?

荆楚寰宇文枢
2026-02-05 22:52:09
日本R级电影《切肤之爱》是大胆出演,还是艺术献身?

日本R级电影《切肤之爱》是大胆出演,还是艺术献身?

阿废冷眼观察所
2026-02-06 15:06:01
亚洲杯大爆冷!国乒女单首败,蒯曼又剃光头,孙颖莎坐渔翁之利

亚洲杯大爆冷!国乒女单首败,蒯曼又剃光头,孙颖莎坐渔翁之利

篮球看比赛
2026-02-05 18:05:02
在广东,过年红包发50元或100元,都是在破坏传统习俗!

在广东,过年红包发50元或100元,都是在破坏传统习俗!

小书虫妈妈
2026-02-06 07:06:43
眼光差!湖人白菜价出手!结果快船转手一卖,拿下2首轮+顶级潜力

眼光差!湖人白菜价出手!结果快船转手一卖,拿下2首轮+顶级潜力

你的篮球频道
2026-02-06 12:02:25
1935年红军拿下腊子口后,战士们打开鲁大昌的仓库,里面有什么?

1935年红军拿下腊子口后,战士们打开鲁大昌的仓库,里面有什么?

古书记史
2026-01-03 01:06:30
每年大年夜,我故意不叫儿媳回家,4年不见再去儿子家我傻了眼

每年大年夜,我故意不叫儿媳回家,4年不见再去儿子家我傻了眼

今天说故事
2025-09-08 10:37:32
今夜雨势加大 明天傍晚转雪

今夜雨势加大 明天傍晚转雪

上观新闻
2026-02-05 15:29:06
乌克兰方面称,由于星链网络中断,俄罗斯占领者正面临一场灾难

乌克兰方面称,由于星链网络中断,俄罗斯占领者正面临一场灾难

山河路口
2026-02-05 19:08:09
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
郭焱点破陈熠不敌桥本,陈熠哽咽着许下对阵削球手陈昭澐的诺言

郭焱点破陈熠不敌桥本,陈熠哽咽着许下对阵削球手陈昭澐的诺言

郭夷包工头
2026-02-06 10:30:54
吃他汀不能碰鸡肉?医生提醒:不只是鸡肉,这7物也要忌嘴

吃他汀不能碰鸡肉?医生提醒:不只是鸡肉,这7物也要忌嘴

蜉蝣说
2026-02-01 20:30:25
张本1-3爆冷!引发连锁反应,1/8决赛或对阵王楚钦,抽签时间曝光

张本1-3爆冷!引发连锁反应,1/8决赛或对阵王楚钦,抽签时间曝光

体育就你秀
2026-02-06 07:51:49
27岁站长的第三个上海年:在600平方米前置仓,准备迎战小高峰

27岁站长的第三个上海年:在600平方米前置仓,准备迎战小高峰

上观新闻
2026-02-05 09:49:07
河南一景区发巨额年终奖 金额从20万到40余万不等

河南一景区发巨额年终奖 金额从20万到40余万不等

闪电新闻
2026-02-06 11:47:35
苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

云霄纪史观
2026-01-30 01:47:42
婚礼上,小叔子逼我签协议放弃婆家3套房产,我签完字宣布2件事

婚礼上,小叔子逼我签协议放弃婆家3套房产,我签完字宣布2件事

小秋情感说
2026-01-26 14:48:22
两性关系:人到中年才明白,最伤感情的不是出轨,而是这3件事!

两性关系:人到中年才明白,最伤感情的不是出轨,而是这3件事!

游戏收藏指南
2026-02-06 15:03:53
千年古墓,挖出200多粒“长生不老仙丹”,化验结果令专家震惊

千年古墓,挖出200多粒“长生不老仙丹”,化验结果令专家震惊

趣文说娱
2026-01-26 17:22:31
2026-02-06 15:48:49
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
228文章数 20587关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科卷入骗保疑云 公司回应

汽车要闻

这颜值真的可以!方程豹首款轿车叫"镁7"还是"方程"?

态度原创

数码
教育
健康
本地
公开课

数码要闻

消息称中国市场服务器CPU供应紧张,部分英特尔型号需等半年

教育要闻

取消中高考?讲讲为孩子、为国家,教育该往哪走#高考 #教育

转头就晕的耳石症,能开车上班吗?

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版