网易首页 > 网易号 > 正文 申请入驻

谷歌再次称霸!出自伯克利等华人学生项目,竟成世界170+模型竞技场

0
分享至

新智元报道

编辑:好困

【新智元导读】当初,由UC伯克利、斯坦福、UCSD等高校华人学生发起的AI擂台,如今已经成为了超过170款模型的大比竞技场!全世界的初创公司和科技巨头都在拼命争夺第一的位置。

就在谷歌庆祝自家大模型Gemini发布一周年之际,最新版本的gemini-exp-1206也成功强势回归!

不仅重新登顶Chatbot Arena总榜第一,而且还在代码能力榜上与o1并驾齐驱。

最新亮点(括号内为与gemini-exp-1121相比的进步):

  • 总排名登顶第一(从第2升至第1)

  • 在风格控制评测中与GPT-4o-1120并列第一(从第4升至第1)

  • 在代码能力榜单与o1并列第一(从第3升至第1)

  • 在复杂提示词测试中独占鳌头(从第2升至第1)

左右滑动查看

来自UC伯克利、斯坦福、UCSD等高校的学生联合项目,引发了AI界的狂热

有趣的是,当Chatbot Arena在去年年初刚刚发布时,没人会想到这个由学生主导的项目,竟会迅速成为全球最受瞩目的AI系统评测平台。

传统上,AI技术都是通过高等数学、科学和法律测试来评估的。相比之下,Chatbot Arena采用的则是一套完全不同的方式——用户提出问题,两个匿名AI模型给出答案,然后评判哪个回答更好。

最终,这些评分被汇总到一个排行榜上。在这里,OpenAI、谷歌和Meta等硅谷科技巨头会与来自中国和欧洲的初创或者大厂争夺霸主地位。

Meta AI产品管理总监Joseph Spisak表示:「每家公司都在努力争取登上这个排行榜的榜首。看到几个学生能够产生如此重大的影响力,真是令人赞叹。」

随着科技公司投入数百亿美元押注AI将成为未来几十年的决定性技术,Chatbot Arena迅速走红。

在吸引客户和人才方面,任何领先竞争对手的优势都可能带来重大影响,这就是为什么众多科技高管和工程师像华尔街交易员盯盘一样密切关注Chatbot Arena。

他们使用类似职业象棋排名的评分系统,将自己开发的AI技术与其他开源聊天机器人进行对比。并在仅仅一周的时间里,就收到了4,700个评分。

很快,Chatbot Arena就引起了各大AI公司的关注,它们纷纷请求将自家技术纳入排名。

如今,项目中的模型已经从最初的9个,发展到了超过170个,并累计获得了200万张选票。

不仅如此,现在的排名还扩展到了创意写作、编程和指令执行等专门类别。

目前,这个项目由仍在攻读计算机科学博士学位的Anastasios Angelopoulos继续推动。不过,因为他把大部分精力都投入到了这个非营利的项目当中,学业进展比较缓慢。

对此,Angelopoulos调侃道:「我女朋友从早到晚听到的都是关于Chatbot Arena的事。」

靠「感觉」来评分

研究人员表示,随着时间推移,学术基准测试变得越来越不实用,因为LLM已经接触过这些测试题。也就是说,它们已经提前掌握了答案。

Abacus AI的研究主管Colin White表示:「基准测试在刚发布时可能对LLM来说非常具有挑战性,但当新一代LLM出现后,它们很快就能达到近乎完美的表现。」

为此,他们也提出了一种号称「无法作弊」的基准——LiveBench,每个月都会更新新的测试题。

无独有偶,MMLU的创始人之一Dan Hendrycks,也开始通过众包方式收集最具挑战性的问题,用来创建一个全新的基准测试——「人类的最后考试」。

尽管Chatbot Arena采用的一对一对抗形式不会像标准测试那样被轻易攻克,但这种方式并不总能衡量客观标准,也无法判断聊天机器人是否严格遵循已验证的事实。这就是为什么一些研究人员将这种方法称为「基于主观感受的评估」。

Chatbot Arena的负责人表示,他们始终对平台的局限性保持开放态度,并允许用户在查看排名时过滤掉一些风格因素,比如回复的长度和格式等。

Angelopoulos说:「用户的偏好是一个重要参考指标。毕竟这些测试查询本身就包含主观因素。」

神秘的模型

随着Chatbot Arena的影响力不断扩大,AI爱好者们开始密切关注新加入的模型,希望发现一些尚未公开的技术。

今年5月,一个名为「im-also-a-good-gpt2-chatbot」的神秘模型出现在Chatbot Arena上,并随即引发了激烈的讨论。

结果证明,这个模型正是OpenAI后来发布的GPT-4o。

当然,不只有OpenAI,马斯克的xAI、Meta和谷歌等,也都会在正式发布之前在Chatbot Arena上测试他们的模型。

11月,谷歌在Chatbot Arena上发布了Gemini技术的实验版本,随后与OpenAI并列第一。没过几天,OpenAI通过更新版的GPT-4o暂时领先,但谷歌很快又推出新模型追平了比分。

当时,负责监督Gemini开发的Oriol Vinyals分享了排行榜结果,还俏皮地配上了三个看戏吃瓜的爆米花表情。

如今,Chatbot Arena收集的用户反馈已经成为开发者的重要数据来源。

具体来说,平台定期公开20%的收集数据——这个比例既能确保数据的实用性,又能防止企业利用数据操纵评分系统。

比如,谷歌AI产品经理Kate Olszewska就表示,他们会利用这些数据来分析懂技术的用户是如何与聊天机器人互动的。

目前,Chatbot Arena已经招募了十多名贡献者,他们希望,能将这个项目打造成「AI领域的维基百科」。

即便前路漫漫,但团队并没有打算将其转变为营利性项目。

参考资料:

https://www.wsj.com/tech/ai/the-uc-berkeley-project-that-is-the-ai-industrys-obsession-bc68b3e3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
No!右腹股沟拉伤啊!这可是湖人的核心巨头

No!右腹股沟拉伤啊!这可是湖人的核心巨头

篮球实战宝典
2025-11-08 19:26:25
《阿凡达3》中国首映官宣,领先全球11天见面

《阿凡达3》中国首映官宣,领先全球11天见面

草莓解说体育
2025-11-08 09:18:51
58岁TVB演员成单亲爸爸,名声坏了无戏可拍,靠卖豪宅卖饭为生

58岁TVB演员成单亲爸爸,名声坏了无戏可拍,靠卖豪宅卖饭为生

白面书誏
2025-11-07 11:29:07
汽水音乐用户量狂飙超1.2亿 QQ音乐、网易云音乐有压力了

汽水音乐用户量狂飙超1.2亿 QQ音乐、网易云音乐有压力了

快科技
2025-11-07 11:22:06
正式退役?全红婵5字表态,谁注意陈若琳表态,卸任教练悬念揭晓

正式退役?全红婵5字表态,谁注意陈若琳表态,卸任教练悬念揭晓

乐聊球
2025-11-08 14:43:41
茅台跌麻了呀!

茅台跌麻了呀!

流苏晚晴
2025-11-08 16:58:44
清朝时期,一名刽子手的老婆,正在门口晒几枚人头骨。

清朝时期,一名刽子手的老婆,正在门口晒几枚人头骨。

忠于法纪
2025-11-07 09:20:27
食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

罪案洞察者
2025-11-03 13:59:03
女子上山采摘被黑熊扑咬!黑熊见她不再动弹后才离开,家属回应

女子上山采摘被黑熊扑咬!黑熊见她不再动弹后才离开,家属回应

潇湘晨报
2025-11-08 14:56:15
一夜清零!北京知名相声社人去楼空,演员靠直播赚生活费,

一夜清零!北京知名相声社人去楼空,演员靠直播赚生活费,

可乐谈情感
2025-11-08 15:15:24
同班同学,2022赛季从中冠冲乙的四支球队已有三支冲超

同班同学,2022赛季从中冠冲乙的四支球队已有三支冲超

懂球帝
2025-11-08 17:20:51
全运会乒乓球:首个8强席位出炉!头号种子拒绝爆冷,3:1逆转晋级

全运会乒乓球:首个8强席位出炉!头号种子拒绝爆冷,3:1逆转晋级

国乒二三事
2025-11-08 13:10:40
李连杰脱光上衣自证清白后,有网红提出质疑,吃的什么神丹妙药?

李连杰脱光上衣自证清白后,有网红提出质疑,吃的什么神丹妙药?

心静物娱
2025-11-08 11:24:51
戏混子收手吧!蒋欣《四喜》差评不断,歪嘴干瞪眼的她责任很大

戏混子收手吧!蒋欣《四喜》差评不断,歪嘴干瞪眼的她责任很大

白面书誏
2025-11-08 14:15:49
京东徐雷接替李明岗位?魏翊东:此时此刻两位都不知道安排

京东徐雷接替李明岗位?魏翊东:此时此刻两位都不知道安排

懂球帝
2025-11-08 16:37:02
突发 | 1死1伤!山东警方通报

突发 | 1死1伤!山东警方通报

天津广播
2025-11-08 17:34:38
打虎!西安市委书记方红卫任上落马,清华毕业、由企转政,7月刚表态韩松被查

打虎!西安市委书记方红卫任上落马,清华毕业、由企转政,7月刚表态韩松被查

鲁中晨报
2025-11-07 22:39:03
形势逆转!3名大法官倒戈,贝森特向美高院摊牌:整个国家将陪葬

形势逆转!3名大法官倒戈,贝森特向美高院摊牌:整个国家将陪葬

墨兰史书
2025-11-08 04:35:03
铜梁龙成功升超!媒体人热议:中超预定火爆场面,重现川渝德比

铜梁龙成功升超!媒体人热议:中超预定火爆场面,重现川渝德比

奥拜尔
2025-11-08 16:44:15
关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

品牌观察官
2025-11-07 23:28:57
2025-11-08 22:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13819文章数 66238关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

豁免到手 欧尔班:谢谢您 总统先生

头条要闻

豁免到手 欧尔班:谢谢您 总统先生

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

教育
时尚
亲子
数码
本地

教育要闻

春秋假怎么过?香山中学的“Gap Week”提供一种答案

她不靠穿搭谋生,却因穿搭走红,在穿衣上找到主体性是什么体验?

亲子要闻

韩网热帖:在身体最美丽、最健康的20多岁中期生养孩子是最好的!

数码要闻

无视反作弊,玩家成功在12年前的AMD FX-9590设备上跑起《战地6》

本地新闻

这届干饭人,已经把博物馆吃成了食堂

无障碍浏览 进入关怀版