网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

硅谷这帮人整活：给AI模型搞了个"赛马评分表"

2026-04-10 10:41:16　来源: 灰度测试中

北京举报

0

分享至

AI圈最近流行一种新玩法——给大模型打分，但不是那种干巴巴的基准测试。一个叫MoJo Score的东西冒了出来，把模型当成赛马来评。

创始人思路很直白：现有评测要么太学术，要么容易被刷分。他们想要一个"你用了就知道"的体感指标。换句话说，这像是给AI模型办了一场用户体验盲测。

评分维度分三块：速度、价格、输出质量。团队跑了几百个真实任务，让模型在完全相同的条件下竞技。最后算出一个综合分，高的就是"好马"，低的直接淘汰。

「我们不是在测模型能解多少道数学题，是在测它能不能当你的靠谱同事。」这是项目文档里唯一被标粗的话。

目前榜单上，Claude和GPT-4交替领先，但差距正在缩小。有开发者反馈，这个评分帮他砍掉了一半的API供应商——以前要试两周，现在看眼分数就行。

不过也有人吐槽：评分权重是黑箱，商业模型永远占便宜。团队回应说下个月开源评测代码，但权重公式仍保密——毕竟，赌马的人不会告诉你哪匹马吃了什么饲料。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

帮普通人「驯服」Agent，这支硅谷初创团队冲上了X全球热搜

机器之心Pro 2026-04-09 14:13:36
0 跟贴 0
以人为本的AI对用户而言才是最有用的AI

每日经济新闻 2026-03-14 13:16:04
0 跟贴 0

他们全员6点下班，却让硅谷脊背发凉

兽楼处 2026-04-06 17:12:07
0 跟贴 0

硅谷为啥叫“硅谷”？为啥不叫铁谷，铝谷，或者金谷？

占理儿 2026-04-10 12:01:49
0 跟贴 0
这个“小呆子”火爆硅谷，五行代码压榨大模型替你007

量子位 2026-01-19 07:16:14
0 跟贴 0

当硅谷还在谈论物理AI，西门子已重写工业规则

机器之心Pro 2026-03-24 17:26:45
0 跟贴 0

孙楚泊笛子独奏《赛马》，再现万马奔腾的场面

金盾摄影 2026-04-08 11:01:00
0 跟贴 0
豆瓣评分高达9.2，厉百程算尽天机，却难渡人情冷暖

肆无忌惮的哭 2026-04-08 02:06:04
4640 跟贴 4640

BetMGM花10镑钓40镑，英国赌马用户集体上头

热血体育社 2026-04-10 14:13:19
0 跟贴 0
英国1亿英镑赛事免费看，国内用户被挡在门外

爬虫饲养员 2026-04-10 08:28:29
0 跟贴 0
2077等了5年，索尼终于把光追补上了

硬核玩家2哈 2026-04-09 16:49:26
13 跟贴 13
34匹马挤进英国最凶残赛马，卫冕冠军赛前咳退赛

赛场速报局 2026-04-10 15:27:34
0 跟贴 0
美国女孩练习跳马，马是假的技术是真的，估计是隐藏的赛马高手

不简单生活 2026-04-09 09:27:06
0 跟贴 0
10位咖啡冠军盲测7种器具：手冲夺冠，胶囊咖啡垫底

碳基打工人 2026-04-09 18:05:40
0 跟贴 0
5战全胜的2岁马王转战泥地，首秀就撞上了硬茬

体育硬核说 2026-04-10 14:27:11
0 跟贴 0
《达尔文悖论！》评测7.7分：怪味小海鲜拼盘

3DM游戏 2026-04-08 09:39:55
0 跟贴 0
10位咖啡冠军盲测7种器具，第6名让星巴克沉默

爬虫饲养员 2026-04-10 09:30:18
0 跟贴 0
全网最详细！别克至境E7评测

老司机出品 2026-04-10 14:21:59
0 跟贴 0
荣登郑州多维测评 PK 榜首！郑州中建元熙府为何能领跑全城？

乐居财经官方 2026-04-09 19:49:35
0 跟贴 0
涉霍尔木兹海峡马来西亚和新加坡吵了起来

澎湃新闻 2026-04-10 08:05:06
14863 跟贴 14863
硅谷：科技圣地的社会实验

华东师范大学出版社 2026-04-10 13:11:57
0 跟贴 0
高血压患者不建议吃这5种早餐，医生总结控制血压的黄金早餐公式

小宋聊军工 2026-04-06 02:44:54
0 跟贴 0
多部门提醒苹果手机用户注意了

主持人浩然 2026-04-08 05:34:33
0 跟贴 0
够炸裂！难怪豆瓣评分9.2，听到导演最后娶了她，我瞬间泪目了

小雨和雄大 2026-04-08 08:51:56
0 跟贴 0
用户的钱就是这样没的

阿萌讲电影 2026-04-09 09:11:39
1 跟贴 1
日本“降级”中日关系中方表态

参考消息 2026-04-10 14:22:31
62 跟贴 62
5个衰老的“指标”！如果一个没有，说明你还很年轻！

阿尔米修斯 2026-04-09 05:07:05
0 跟贴 0
多模态幻觉的病因「高熵节点」找到了！全基准幻觉率下降

新智元 2026-04-10 09:46:18
0 跟贴 0
一夜刷屏的SBTI，给营销人上了什么课？

钛媒体APP 2026-04-10 15:52:15
0 跟贴 0
马斯克说漏嘴了！Claude Opus参数5T，Sonnet 1T

量子位 2026-04-10 14:09:28
0 跟贴 0
杭州回应西湖连续一周撒7吨漂白粉

第一财经资讯 2026-04-09 21:37:11
3450 跟贴 3450
组装川崎忍者模型套件

制造科技 2026-04-09 19:07:20
3 跟贴 3
媒体：中方一直担忧美印在中东使坏 20年前就开始布局

澎湃新闻 2026-04-10 07:12:09
13 跟贴 13
历史仅两人做到！杜兰特复刻库里神迹，高效得分统治联盟

体育闲话说 2026-04-07 14:53:31
22 跟贴 22
075初中数学指数方程，没有公式只能讨论求解

我服子佩 2026-04-08 15:16:37
1 跟贴 1
正常人的身体指标，看看你知道吗，正常体温正常血压！

哈尼阿斯生活 2026-04-10 08:53:32
0 跟贴 0
男子好奇地把头伸进恐龙模型嘴里，结果被一口咬住！

财经时间官方 2026-04-07 22:24:58
0 跟贴 0
Acosta放话：给Marquez当队友倒贴都行

体坛观察猿 2026-04-09 15:24:22
1 跟贴 1
皇马花5年拆掉转会机器，现在慌着招产品经理

体坛观察猿 2026-04-10 14:41:21
0 跟贴 0
何小鹏说“汽车不是好生意”，然后呢？

财经汽车 2026-04-09 16:05:36
1 跟贴 1

别不承认，男人到了这岁数大多力不从心，但要恢复并不难！

别不承认，男人到了这岁数大多力不从心，但要恢复并不难！

奇妙的本草

2026-04-10 11:58:12

贪污上亿、假慈善？被实名举报的韩红，终于明白她终身不嫁的原因

贪污上亿、假慈善？被实名举报的韩红，终于明白她终身不嫁的原因

翰飞观事

2026-03-19 11:43:42

新一轮县级机构改革后，这几类机关事业单位或成“超大局”！

新一轮县级机构改革后，这几类机关事业单位或成“超大局”！

细说职场

2026-04-09 09:31:01

豪取8连胜，火箭队获4大利好！杜兰特29+7+5破纪录+通杀29支球队

豪取8连胜，火箭队获4大利好！杜兰特29+7+5破纪录+通杀29支球队

锅子篮球

2026-04-10 12:53:03

走进人民大会堂前，郑丽文团中现“特殊人物”，台当局撒弥天大谎

走进人民大会堂前，郑丽文团中现“特殊人物”，台当局撒弥天大谎

阅识

2026-04-10 13:21:56

浙江东阳，33 岁的男子，在母亲长眠的公墓旁，在车里结束了生命

浙江东阳，33 岁的男子，在母亲长眠的公墓旁，在车里结束了生命

魔都姐姐杂谈

2026-03-30 19:25:57

《宝可梦GO》选手胜出后摔了一下耳机，把自己的冠军摔没了

《宝可梦GO》选手胜出后摔了一下耳机，把自己的冠军摔没了

游研社

2026-04-08 12:47:47

从一吨560元到无人问津！为何废旧玻璃不能熔成新玻璃？

从一吨560元到无人问津！为何废旧玻璃不能熔成新玻璃？

心中的麦田

2026-04-04 20:50:26

停火首日，伊朗炼油厂被炸，伊朗再向中国求助，中方回应斩钉截铁

停火首日，伊朗炼油厂被炸，伊朗再向中国求助，中方回应斩钉截铁

猫女的小树屋

2026-04-10 10:38:55

伊朗发现一个重大惊喜，打向以色列的导弹，竟然一颗都没有被拦截

伊朗发现一个重大惊喜，打向以色列的导弹，竟然一颗都没有被拦截

书纪文谭

2026-04-08 18:04:34

双脚是肾病的提示器？提醒：若双脚出现这5种表现，尽快就医

双脚是肾病的提示器？提醒：若双脚出现这5种表现，尽快就医

荆医生科普

2026-03-23 16:29:47

不止打伊朗！美以发动斩首行动同时，对中国电网下手，动作曝光

不止打伊朗！美以发动斩首行动同时，对中国电网下手，动作曝光

心灵得以滋养

2026-04-09 18:36:32

美军称已经摸清中国导弹库存！俄专家：中国解放军可半小时定胜负

美军称已经摸清中国导弹库存！俄专家：中国解放军可半小时定胜负

Ck的蜜糖

2026-04-10 12:01:03

高市支持率又降了，日本民调数据披露，自家首相犯了一个致命错误

高市支持率又降了，日本民调数据披露，自家首相犯了一个致命错误

闻识

2026-04-10 14:51:53

保密期限终到期，中央首长透露：毛岸英真相，可以向外界公开了

保密期限终到期，中央首长透露：毛岸英真相，可以向外界公开了

历史点行

2026-03-29 13:38:28

俄媒这句话直接封神，“只有把中国惹急了，世界才会安静。”

俄媒这句话直接封神，“只有把中国惹急了，世界才会安静。”

流史岁月

2026-04-09 13:55:03

有一种眩晕叫做“耳石症”，只要发作，符合这5个特点基本可断定

有一种眩晕叫做“耳石症”，只要发作，符合这5个特点基本可断定

健康之光

2026-04-09 16:25:03

孙杨一家5口同住杭州大平层，首次公开孩子，父母出镜婆媳关系好

孙杨一家5口同住杭州大平层，首次公开孩子，父母出镜婆媳关系好

离离言几许

2026-04-09 15:47:15

"我不要活了！"上海一阿婆崩溃，买了近30年的保险全被退！警方：若继续持有价值百万

"我不要活了！"上海一阿婆崩溃，买了近30年的保险全被退！警方：若继续持有价值百万

台州交通广播

2026-04-09 22:32:54

安切洛蒂父子把宝押在18岁小孩身上，3400万买的新锋霸还没踢过

安切洛蒂父子把宝押在18岁小孩身上，3400万买的新锋霸还没踢过

竞技风云录

2026-04-10 14:43:01

灰度测试中

生活正在重构，目前还在灰度测试阶段，暂不全量发布。

1081文章数 14关注度

往期回顾全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

"小镇唯一骑手"月入过万：没人跟他抢单全镇靠他吃饭

头条要闻

"小镇唯一骑手"月入过万：没人跟他抢单全镇靠他吃饭

体育要闻

17岁赚了一百万美元，25岁被CBA裁员

娱乐要闻

夏克立婚内出轨曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵总部：已被停职

汽车要闻

搭载第二代刀片电池及闪充技术腾势N8L闪充版预售35万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

游戏

手机

公开课

军事航空

本地新闻

12吨巧克力有难，全网化身超级侦探添乱

全新Demo上线！国产类银《神陨之地》5月发售！

手机要闻

华为畅享90 Pro Max首周激活量突破40万：超越iPhone 17全系列位居第一

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普：对美国与伊朗达成和平协议“非常乐观”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版