网易首页 > 网易科技 > 网易科技 > 正文

AI大模型排行榜成新热点:如何排名?名次科学吗?

0
分享至
“这些标准并不完美,但就目前而言,这是我们评估人工智能系统的唯一方法。”

2月21日消息,最近几个月,网上公开发布的人工智能模型排名人气飙升。这些排名显示,机器人在某些任务上的表现已经超过了人类。但专家们表示,实际意义并不大。

人工智能模型实质上就是一组用代码包装的数学方程,能实现特定目标。每个排行榜都会根据人工智能模型完成特定任务的能力去追踪那些最先进的模型。人们也得以从排名中实时了解各大科技公司之间正在进行的人工智能竞赛。

诸如谷歌Gemini以及巴黎初创公司Mistral AI开发的Mistral-Medium等模型已经在人工智能社区激起了巨大兴趣,竞相争夺排名靠前的位置。

然而,OpenAI的GPT-4模型继续在各大排行榜中占据主导地位。

“人们关心的是技术水平,”斯坦福大学计算机科学博士生、聊天机器人竞技场(Chatbot Arena)排行榜的联合创始人Ying Sheng说。“我认为人们其实更希望看到排行榜发生变化。这意味着竞争仍然存在,还有更多需要改进的地方。”


图:聊天机器人竞技场(Chatbot Arena)排行榜

人工智能模型的排名通常都基于各种测试,确定模型的通用能力以及哪个模型可能最适合语音识别等特定用途。这些测试有时也被称为基准测试,主要根据人工智能生成音频的效果或聊天机器人的反应等指标来衡量模型表现。

随着人工智能的不断进步,测试的演变也很重要。

斯坦福大学以人为中心人工智能研究所(Institute of Human-Centered Artificial Intelligence)的研究主任瓦妮莎·帕利(Vanessa Parli)说,“这些标准并不完美,但就目前而言,这是我们评估人工智能系统的唯一方法。”

帕利所在的研究所编制了斯坦福大学的人工智能指数(AI Index)。这份年度报告追踪人工智能模型在各种指标下的技术表现。帕利说,2023年的报告考察了50个指标,但只采纳了其中的20个。今年报告会再次剔除一些较老的指标,突出更新更全面的指标。

排行榜还能让人了解目前正在开发的有多少人工智能模型。截至今年2月初,开源机器学习平台Hugging Face建立的开放大语言模型排行榜已经对4200多个模型进行了评估和排名,这些模型都是由人工智能社区成员提交的。

这些模型根据七个关键指标对模型进行跟踪测试,评估阅读理解和解决数学问题等各种能力。其中有测试这些模型在解答小学数学和科学问题方面的表现,测试它们的常识性推理能力,还有衡量它们重复错误信息的倾向。一些测试会提供多项选择答案,而另一些则要求模型根据提示自行生成答案。

访问排行榜就可以看到每个人工智能模型的特定基准表现分以及总体平均得分。目前还没有哪种模型能在任何基准测试中获得100分的满分。最近,旧金山初创公司Abacus开发的人工智能模型Smaug-72B成为第一个平均得分超过80分的机器人。

许多大语言模型在这些测试中的表现已经超过了人类基准水平,这就是研究人员所说的“饱和”。Hugging Face联合创始人兼首席科学官托马斯·沃尔夫(Thomas Wolf)说,当模型能力提高到超出特定基准测试的程度时,通常就会发生这种情况,就像一个学生从初中升入高中一样;或者当模型记住如何回答某些测试问题时,这种概念也被称为“过度拟合”。

当这种情况发生时,虽然模型在以前执行的任务中表现良好,但在面对新情况或旧任务发生变化时却表现不佳。

“饱和并不意味着我们的模型总体上变得’比人类更好’,”沃尔夫在一封电子邮件中写道。“这只是意味着,模型在特定的基准测试中已经达到了当前测试无法正确评估其能力的程度,因此我们需要设计新的标准。”

一些基准测试已经存在有多年时间。对于大语言模型的开发人员来说,利用这些测试集训练他们开发的模型,保证在发布时获得高分是件很容易的事。作为由校际开放研究组织大模型系统组织(Large Model Systems Organization)创建的排行榜,Chatbot Arena就是通过人工输入来评估人工智能模型,从而解决这一问题。

帕利说,研究人员也希望在测试大语言模型的方式上更具有创造性。也就是更全面地进行评判,而不是单次只看一个特定指标。

她表示:“主要是因为我们发现更多传统的基准测试已经饱和,引入人工评估能让我们了解计算机等基于代码的评估测试所无法获得的某些方面。”

Chatbot Arena允许访客向两个匿名的人工智能模型提出任何问题,然后投票决定哪个聊天机器人能给出更好的答案。

到目前为止,Chatbot Arena排行榜根据30多万张人工投票结果对大约60个模型进行了排名。据创建者称,自从Chatbot Arena排名发布不到一年以来,网站访问量大幅增加,如今Chatbot Arena每天都能获得上万张投票,而且平台收到添加新模型的请求太多,以至于无法容纳所有这些模型。

Chatbot Arena联合创始人Wei-Lin Chiang是加州大学伯克利分校计算机科学专业的博士生。他说,团队进行的研究表明,众包投票产生的结果几乎和聘请人类专家测试聊天机器人的质量一样高。他承认难免有异常值,但团队正在开发算法去检测匿名访客的恶意行为。

尽管基准测试很有用,但研究人员也承认它们并非包罗万象。Hugging Face联合创始人沃尔夫认为,即使一个模型在推理基准测试上得分很高,但在分析法律文件等特定用例时仍可能表现不佳。

他补充说,这就是为什么一些业余爱好者喜欢通过观察人工智能模型在不同环境中的表现来进行“情绪检查”(vibe checks),从而评估这些模型如何成功与用户互动、保持良好记忆和个性一致。

尽管基准测试存在缺陷,但研究人员表示,相关测试和排行榜仍然能够鼓励人工智能开发人员持续创新。他们必须不断提高标准,才能跟得上最新的评估。(辰辰)

延伸阅读
相关推荐
热点推荐
《沉默的荣耀》导演杨亚洲说:吴石将军就义前,提了两个要求

《沉默的荣耀》导演杨亚洲说:吴石将军就义前,提了两个要求

阿废冷眼观察所
2025-12-20 16:31:11
赵今麦终于开启御姐路线了,黑色丝袜搭配嫩粉色西服美出新高度!

赵今麦终于开启御姐路线了,黑色丝袜搭配嫩粉色西服美出新高度!

说不尽的人心
2025-12-19 12:07:00
万亿顺差背后,为什么“扩大内需”成了最紧迫的事?

万亿顺差背后,为什么“扩大内需”成了最紧迫的事?

知本设
2025-12-13 10:32:01
一味中药“催动”全身阳气,横扫体内一切寒湿

一味中药“催动”全身阳气,横扫体内一切寒湿

神奇故事
2025-12-10 22:20:00
原来这些行为都是上了年纪的症状,网友:这个年纪屁都夹不住了

原来这些行为都是上了年纪的症状,网友:这个年纪屁都夹不住了

另子维爱读史
2025-12-19 16:20:21
1985年许世友病逝,遗体肿胀装不进棺材,尤太忠急调两棵百年楠木,南京城为此惊动了派出所

1985年许世友病逝,遗体肿胀装不进棺材,尤太忠急调两棵百年楠木,南京城为此惊动了派出所

寄史言志
2025-12-12 21:42:05
泰国大使馆账号大量涨粉,满屏泰国加油,有人呼吁为泰国捐款

泰国大使馆账号大量涨粉,满屏泰国加油,有人呼吁为泰国捐款

环球热点快评
2025-12-21 10:36:07
抬腿+掌掴!张才仁暴锤贺希宁,上前挑衅,周琦拽开,许利民谈和

抬腿+掌掴!张才仁暴锤贺希宁,上前挑衅,周琦拽开,许利民谈和

陌识
2025-12-21 05:29:00
91年,南京小伙被女友逼着在深圳买了5套房,21年后他不敢相信

91年,南京小伙被女友逼着在深圳买了5套房,21年后他不敢相信

卡西莫多的故事
2025-11-22 15:18:18
伊能静带全家旅游,膀大腰圆胸下垂,被嘲像大妈,米粒手机不离手

伊能静带全家旅游,膀大腰圆胸下垂,被嘲像大妈,米粒手机不离手

白面书誏
2025-12-20 18:20:47
谢逸枫:颤抖吧!前十一月全国卖地收入史无前例下跌,怎么办?

谢逸枫:颤抖吧!前十一月全国卖地收入史无前例下跌,怎么办?

谢逸枫看楼市
2025-12-19 10:25:32
独行侠憾负!浓眉24+14+2,赛后弗拉格一把抱住马克西,拥抱致意

独行侠憾负!浓眉24+14+2,赛后弗拉格一把抱住马克西,拥抱致意

担酒
2025-12-21 10:27:26
阿森纳1-0,4年3夺“圣诞冠军”:想要问鼎英超阿尔特塔不能求稳

阿森纳1-0,4年3夺“圣诞冠军”:想要问鼎英超阿尔特塔不能求稳

里芃芃体育
2025-12-21 10:50:08
曾国藩李鸿章、左宗棠张之洞,放在当今相当什么官?他们谁最大?

曾国藩李鸿章、左宗棠张之洞,放在当今相当什么官?他们谁最大?

掠影后有感
2025-12-20 08:56:31
你见过哪些因玩笑造成的惨剧?网友:就是给自己的恶找个借口罢了

你见过哪些因玩笑造成的惨剧?网友:就是给自己的恶找个借口罢了

带你感受人间冷暖
2025-12-17 00:05:19
1米78的外援级“威慑”!徐杰彻底征服广州主帅,对其赞不绝口!

1米78的外援级“威慑”!徐杰彻底征服广州主帅,对其赞不绝口!

田先生篮球
2025-12-20 09:25:48
喜欢被捆绑不是变态,而是在追寻活着的意义,业界十大抖M女神

喜欢被捆绑不是变态,而是在追寻活着的意义,业界十大抖M女神

吃瓜党二号头目
2025-12-20 12:14:54
悟了!申京出手27次&9次效果大不同 火箭改打法KD谢泼德喜笑颜开

悟了!申京出手27次&9次效果大不同 火箭改打法KD谢泼德喜笑颜开

天光破云来
2025-12-21 10:47:03
4种水果自带“二甲双胍”?每天换着吃,或有助于稳血糖

4种水果自带“二甲双胍”?每天换着吃,或有助于稳血糖

健康之光
2025-12-20 18:25:05
用力过猛!51岁林志玲打扮“日系”现身上海,网友:又老又年轻

用力过猛!51岁林志玲打扮“日系”现身上海,网友:又老又年轻

心静物娱
2025-12-19 14:12:23
2025-12-21 12:04:49

科技要闻

生态适配已超95% 鸿蒙下一关:十万个应用

头条要闻

山西宣布废除烟花爆竹"禁放令" 网友:年味回来了

头条要闻

山西宣布废除烟花爆竹"禁放令" 网友:年味回来了

体育要闻

送快船西部垫底!鹈鹕大胜步行者获4连胜

娱乐要闻

鹿晗关晓彤恋爱期间毫不避讳?

财经要闻

百年老店陷贴牌争议 同仁堂必须作出取舍

汽车要闻

-30℃,标致508L&凡尔赛C5 X冰雪"大考"

态度原创

教育
房产
旅游
家居
军事航空

教育要闻

教师要培养3种基础能力

房产要闻

中交·蓝色港湾一周年暨蓝调生活沙龙圆满举行

旅游要闻

2025年贵阳市温泉季启动

家居要闻

高端私宅 理想隐居圣地

军事要闻

泽连斯基:前线局势愈发艰难

无障碍浏览 进入关怀版
×