AI圈最近流行一种新玩法——给大模型打分,但不是那种干巴巴的基准测试。一个叫MoJo Score的东西冒了出来,把模型当成赛马来评。
创始人思路很直白:现有评测要么太学术,要么容易被刷分。他们想要一个"你用了就知道"的体感指标。换句话说,这像是给AI模型办了一场用户体验盲测。
评分维度分三块:速度、价格、输出质量。团队跑了几百个真实任务,让模型在完全相同的条件下竞技。最后算出一个综合分,高的就是"好马",低的直接淘汰。
「我们不是在测模型能解多少道数学题,是在测它能不能当你的靠谱同事。」这是项目文档里唯一被标粗的话。
目前榜单上,Claude和GPT-4交替领先,但差距正在缩小。有开发者反馈,这个评分帮他砍掉了一半的API供应商——以前要试两周,现在看眼分数就行。
不过也有人吐槽:评分权重是黑箱,商业模型永远占便宜。团队回应说下个月开源评测代码,但权重公式仍保密——毕竟,赌马的人不会告诉你哪匹马吃了什么饲料。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.