网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

MiniMax宣布开源面向Coding Agent的新评测集

2026-01-14 12:03:31　来源: 界面新闻

上海举报

0

分享至

1月14日，MiniMax宣布开源面向Coding Agent的新评测集OctoCodingBench。MiniMax表示，基于该评测集，其针对现有的开源闭源模型进行了广泛的评估，并发现一些很有启发性的实验结果：所有模型的Check-level 准确率（CSR）可以达到80%+，但Instance-level成功率（ISR）只有10%-30%；绝大模型模型的指令遵循能力会随着轮次的变多逐渐下降；现阶段模型表现普遍未能达到生产级要求，过程合规仍是盲区；开源模型正在快速追赶闭源模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

推理新范式：动态效能算法让算力资源实现最大化

智东西 2025-11-12 19:58:10
0 跟贴 0
成本0.3美元，耗时26分钟！CudaForge：颠覆性低成本CUDA优化框架

机器之心Pro 2025-11-17 18:45:03
0 跟贴 0

微信聊天反复出现“对方正在输入”，说明对方在干什么？

学申论的谈妹 2026-03-26 16:15:26
63 跟贴 63

谷歌冲破内存墙！新算法内存占用暴砍83%，速度提升8倍！

智东西 2026-03-26 22:11:09
0 跟贴 0
CVPR 2026 | BiMotion：用 B 样条曲线重新定义 3D 角色运动生成

机器之心Pro 2026-03-26 11:42:56
0 跟贴 0

内存通胀“终结者”？谷歌公开最新极限压缩算法

钛媒体APP 2026-03-26 14:33:20
0 跟贴 0

DeepSeek急招Agent方向！一口气放17个岗位，重度Vibe Coding优先

量子位 2026-03-25 14:39:45
5 跟贴 5
让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

机器之心Pro 2026-01-09 14:22:47
0 跟贴 0

大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0
纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1981 跟贴 1981
重塑软件工程：从Vibe Coding走向Spec Coding

钛媒体APP 2026-02-11 09:37:53
71 跟贴 71
国外开始反对马斯克闭源脑机接口！

白话频道 2026-03-26 22:45:52
14 跟贴 14
加时被逆转！申京：一切发生太快！杜兰特：在胡打，我该果断出手

篮球资讯达人 2026-03-26 15:28:40
55 跟贴 55
两男孩格斗切磋被叫停一人仍不停手教练一招将其放倒

观象视频 2026-03-23 08:53:15
14 跟贴 14
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
1229 跟贴 1229
AI Agent狂潮中的金融新范式：AI涨乐养了一只“金融小龙虾”，正破解投资最难一公里

钛媒体APP 2026-03-25 17:03:07
3 跟贴 3
吉利星瑞深度评测：优缺点全面剖析

城市植物图鉴 2026-03-22 12:47:27
0 跟贴 0
一天蒸发6200亿！谷歌算法黑科技击溃存储股，华尔街痛批市场“不懂技术”

每日经济新闻 2026-03-26 19:00:13
17 跟贴 17
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
118 跟贴 118
Agent运行提速10倍！斯坦福教授押注异构推理，破解AI推理瓶颈

DeepTech深科技 2026-03-25 19:52:15
0 跟贴 0
上海一三甲医院候诊屏出现"照顾号"引热议院方回应

上游新闻 2026-03-26 15:33:08
124 跟贴 124
美国养老护工荒的AI处方：三个AI Agent与一场养老效率革命

钛媒体APP 2026-03-25 09:50:14
0 跟贴 0
拒绝智能手机，炮轰ChatGPT，没有他就没有今天的互联网

DeepTech深科技 2025-12-26 18:07:26
29 跟贴 29
收评：沪指跌1.09% 全市场成交额不足2万亿元

证券时报 2026-03-26 15:22:10
819 跟贴 819
生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

闪电新闻 2026-03-26 11:46:05
99 跟贴 99
轿车与大货车长时间并排行驶，结果在大货车的盲区不慎被撞

锐眼新闻 2026-03-23 11:44:46
26 跟贴 26
小猫精准听懂指令，反应快到就差开口说话，网友：头次见这么聪明的小猫咪

重庆科教融媒体 2026-03-26 14:24:54
0 跟贴 0
泰国征兵广告用张凌赫做海报：想像“武安侯”一样帅气骑马吗？今年四月报名参军选择骑兵部队

闪电新闻 2026-03-26 17:45:38
226 跟贴 226
美媒称美考虑将援助乌克兰的武器转至中东

新华社 2026-03-26 20:05:17
1447 跟贴 1447
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
354 跟贴 354
五年级数学中点模型求阴影部分面积

天天数理学习分享 2026-03-22 13:47:40
4 跟贴 4
Ultra影像下放？vivo X300s评测：更适合普通人的超能小V单

泡泡网 2026-03-26 10:02:00
0 跟贴 0
国信证券发布金山办公研报，业绩稳健增长，办公Agent可期

每日经济新闻 2026-03-26 18:41:27
0 跟贴 0
谷歌推出压缩算法TurboQuant 宣称实现约6倍内存节省

财联社 2026-03-26 10:42:12
68 跟贴 68
火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
147 跟贴 147
昌平百年老镇，开始腾退签约！

家住昌平 2026-03-26 21:11:12
0 跟贴 0
视觉和感知谁更安全？激光雷达越多越好？岚图、魏牌高管分享不同看法

凤凰网科技 2026-03-26 16:09:07
0 跟贴 0
广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
科氪 | 性能之上，圆满之作：一加 15T 深度评测

36氪 2026-03-24 22:59:13
1 跟贴 1

Manus两名高管禁止离境？外交部回应

Manus两名高管禁止离境？外交部回应

每日经济新闻

2026-03-26 16:36:02

张雪峰6年前已离婚，独女张姩菡只能分16.5%遗产，现任妻子占大头

张雪峰6年前已离婚，独女张姩菡只能分16.5%遗产，现任妻子占大头

枫红染山径

2026-03-25 16:56:22

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻

2026-03-26 16:51:04

末代港督彭定康夫妇，带3个漂亮女儿回英国，29年过去今过得咋样

末代港督彭定康夫妇，带3个漂亮女儿回英国，29年过去今过得咋样

揽星河的笔记

2026-03-26 00:26:09

315曝光10个最毒食黑名单！第8个你几乎天天在吃，看完脊背发凉

315曝光10个最毒食黑名单！第8个你几乎天天在吃，看完脊背发凉

现代小青青慕慕

2026-03-24 08:13:54

世预赛欧洲区开打！明晨将有8队出局 8队进决赛意大利生死战

世预赛欧洲区开打！明晨将有8队出局 8队进决赛意大利生死战

叶青足球世界

2026-03-26 08:47:10

2020年女子当众扇儿子耳光，儿子直接跳楼，如今女子已自杀身亡

2020年女子当众扇儿子耳光，儿子直接跳楼，如今女子已自杀身亡

观察鉴娱

2026-03-18 09:09:10

华为、商汤等873家机构遭AI顶会“封杀”，中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”，中国学界怒了

智东西

2026-03-26 20:49:23

NeurIPS拒收中国论文，计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文，计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技

2026-03-25 22:49:10

东契奇创4大纪录仍无缘日最佳，抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳，抱歉约基奇打出前无古人的数据

毒舌NBA

2026-03-26 13:11:59

中国移动官宣！4月30日起全国统一执行，事关所有手机号

中国移动官宣！4月30日起全国统一执行，事关所有手机号

Thurman在昆明

2026-03-26 13:35:46

偶遇沈月拍戏，个子不高的情况下胸大真的太吃亏了！

偶遇沈月拍戏，个子不高的情况下胸大真的太吃亏了！

TVB的四小花

2026-03-24 12:22:03

最快护士张水华辞职后，靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后，靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈

2026-03-24 20:50:19

二百多名军官被枪毙、撤职、处分，长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分，长津湖战役中失职的志愿军88师

云霄纪史观

2026-03-25 12:16:14

惊呆了！网传某妇产医院一少妇哭求医生，改她儿子的血型鉴定书…

惊呆了！网传某妇产医院一少妇哭求医生，改她儿子的血型鉴定书…

火山詩话

2026-03-26 11:40:00

中国电信：全面转向token经营！

中国电信：全面转向token经营！

最通信

2026-03-25 20:45:14

俄罗斯宣传三天攻占爱沙尼亚！炮制公投，又是特别军事行动？

俄罗斯宣传三天攻占爱沙尼亚！炮制公投，又是特别军事行动？

项鹏飞

2026-03-24 20:28:43

伊朗战争还将持续多久？据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久？据传特朗普希望4-6周内终结战事

财联社

2026-03-26 18:29:05

中方坚决扣留船只，美方及时干预取消中企投标资格，巴拿马难挽

中方坚决扣留船只，美方及时干预取消中企投标资格，巴拿马难挽

南宗历史

2026-03-25 16:04:15

恭喜！“CBA第一恶人”许钟豪，正式上任主教练，曾帮广厦夺冠

恭喜！“CBA第一恶人”许钟豪，正式上任主教练，曾帮广厦夺冠

吴朑爱游泳

2026-03-26 23:22:01

只服务于独立思考的人群

1044443文章数 1332043关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

本地

数码

时尚

公开课

亲子要闻

看看把孩子吓得哈哈哈

本地新闻

救命，这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动，支持B70 / B65显卡

400万人爱过的女孩，被黄谣网暴180天后

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版