网易首页 > 网易号 > 正文 申请入驻

新王登基,Gemini 1.5 Pro 再度更新,超越 GPT 4o 和 Claude-3.5

0
分享至

这次不卷模型大小,只卷性能。

作者丨刘洁

编辑丨岑峰

lmsys官方在推特发布一则消息,恭喜DeepMind研发的Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第一。

这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来,OpenAI第二次让出Chatbot Arena的Overall ranking宝座。()

Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena测试一周后。获得了超过12,000个社区投票,在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成绩。之前说GPT-4o有刷分技巧,现在看起来Gemini 1.5 Pro可能也学到了这个技巧呢。

Gemini 1.5 Pro 实验版(0801)不仅在综合表现上极为突出,在各个细分领域上也有着出色的表现。它在数学方面排名前三,指令遵循排名前二,编码排名前五,硬提示(英语)排名前五。

Gemini 1.5 Pro 实验版(0801)具有强大的多语言能力,在中文、日语、德语、俄语方面均表现第一。

从总体胜率图上,也能看出Gemini 1.5 Pro 实验版 (0801)实力强劲,对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。

前OpenAI的开发者,现Google AI Studio的产品负责人Logan Kilpatrick火速转发,向大家宣布Gemini 1.5 Pro 实验版(0801)目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。

DeepMind的CEO Demis Hassabis也转发了这条消息,祝贺Gemini 1.5 Pro 实验版(0801)能够在极具竞争力的榜单中拿下第一,并且宣布这一版本的已经可以在 AI Studio上进行试用。

带领研发Gemini的Jeff Dean也随后转发,对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪,也很期待未来能看到其他更好的模型。

听闻这则消息,其他从业人员也纷纷发来祝贺。

也有不少人分享自己的试用体验。大神elvis对在聊天机器人领域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感兴趣。elvis分享了自己的测试全过程视频,并总结道,Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象,Gemini 1.5 Pro有着和GPT-4o不相上下的视觉能力,也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。

有人认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错。

也有人说Gemini 1.5 Pro在图像识别植物和动物方面做得确实要比GPT 4o更好。

也有更多的人在期待Gemini 1.5 Pro这一版本的正式上线,希望能够API实现Gemini 1.5 Pro的实际运用。

大家对Gemini 1.5 Pro这次发布的实验版本有什么看法,欢迎评论区留言分享~(欢迎添加微信zkkkue,交流最新AI行业动态。)

参考材料:

https://x.com/lmsysorg/status/1819048821294547441

https://x.com/OfficialLoganK/status/1819049322295533684

https://x.com/demishassabis/status/1819085274917622198

https://x.com/JeffDean/status/1819121162578022849

https://x.com/omarsar0/status/1819162249593840110

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京市六合区中医院副院长刘德明接受纪律审查和监察调查

南京市六合区中医院副院长刘德明接受纪律审查和监察调查

极目新闻
2025-09-18 18:52:47
中国提醒后,波兰仍未开放波白边境,九成中欧班列货运通道被切断

中国提醒后,波兰仍未开放波白边境,九成中欧班列货运通道被切断

南宗历史
2025-09-18 15:46:43
飙升130%!“为什么是上海?而非东京、香港”

飙升130%!“为什么是上海?而非东京、香港”

观察者网
2025-09-17 14:50:02
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
波兰找借口不让中欧班列过境通行?中国劝也不听

波兰找借口不让中欧班列过境通行?中国劝也不听

古装影视解说阿凶
2025-09-18 10:47:58
这才是铁哥们!欠中国81亿全还清,还赠百亿大礼,西方国家都眼红

这才是铁哥们!欠中国81亿全还清,还赠百亿大礼,西方国家都眼红

大鱼简科
2025-09-18 19:30:50
斯诺克赛程:决出8强,丁俊晖VS11冠王,中国3将出战,4虎会师?

斯诺克赛程:决出8强,丁俊晖VS11冠王,中国3将出战,4虎会师?

刘姚尧的文字城堡
2025-09-18 07:11:01
万万没想到!武大杨景媛的硕士论文,直接被中国农大当反面教材!

万万没想到!武大杨景媛的硕士论文,直接被中国农大当反面教材!

青青子衿
2025-09-18 14:29:20
密集调整!安徽多名厅级干部履新

密集调整!安徽多名厅级干部履新

凤凰网安徽
2025-09-18 17:26:29
收到访华邀请,特朗普提了两个条件,只要中方做到专机立马起飞

收到访华邀请,特朗普提了两个条件,只要中方做到专机立马起飞

董董历史烩
2025-09-18 17:35:31
处罚快船反成帮忙?作废莱昂纳德合同恐让快船获得顶薪空间引援

处罚快船反成帮忙?作废莱昂纳德合同恐让快船获得顶薪空间引援

直播吧
2025-09-18 18:57:15
塔尼亚胡:任何承认巴勒斯坦的国家都将付出沉重代价

塔尼亚胡:任何承认巴勒斯坦的国家都将付出沉重代价

桂系007
2025-09-18 02:46:23
44岁薛凯琪演唱会造型太奔放,被嘲笑像尿不湿,争议越大门票越涨

44岁薛凯琪演唱会造型太奔放,被嘲笑像尿不湿,争议越大门票越涨

郑丁嘉话
2025-09-05 09:40:09
亚冠国安VS河内公安:轮换9将 张稀哲领衔前场 两大失意悍将冲锋

亚冠国安VS河内公安:轮换9将 张稀哲领衔前场 两大失意悍将冲锋

零度眼看球
2025-09-18 06:42:46
女生宿舍分娩后续:系与男友寒假温存结缘,事发后男友无踪影

女生宿舍分娩后续:系与男友寒假温存结缘,事发后男友无踪影

观察鉴娱
2025-09-18 09:34:43
西贝之前多次被批评都没事,为啥这次要关门?因为惹了买单的家长

西贝之前多次被批评都没事,为啥这次要关门?因为惹了买单的家长

中原医生
2025-09-16 12:07:09
一起来看看37所985大学2025届本科生保研去清北的人数和占比!

一起来看看37所985大学2025届本科生保研去清北的人数和占比!

谁为锦年织彩衣
2025-09-18 07:05:03
辩证法不可证伪,不是科学;逻辑学是一门形式科学

辩证法不可证伪,不是科学;逻辑学是一门形式科学

高博新视野
2025-09-17 15:42:09
iPhone 17 Pro Max充电实测:没必要买329元的新充电头

iPhone 17 Pro Max充电实测:没必要买329元的新充电头

快科技
2025-09-18 10:58:06
央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

大鱼简科
2025-09-02 19:34:00
2025-09-18 21:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6928文章数 20685关注度
往期回顾 全部

数码要闻

信仰还是性价比?聊聊当前A卡的选购思路

头条要闻

"张云龙"被指认:已诱骗至少4人到柬埔寨同一电诈园区

头条要闻

"张云龙"被指认:已诱骗至少4人到柬埔寨同一电诈园区

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

教育
手机
健康
游戏
公开课

教育要闻

忻州市第十三中学:以特色办学推动高质量发展

手机要闻

红米K90系列突然入网:100W快充+2K直屏,影像也有大升级

内分泌科专家破解身高八大谣言

身临其境!外国网友发出战地6无UI演示视频

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版