网易首页 > 网易号 > 正文 申请入驻

新王登基,Gemini 1.5 Pro 再度更新,超越 GPT 4o 和 Claude-3.5

0
分享至

这次不卷模型大小,只卷性能。

作者丨刘洁

编辑丨岑峰

lmsys官方在推特发布一则消息,恭喜DeepMind研发的Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第一。

这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来,OpenAI第二次让出Chatbot Arena的Overall ranking宝座。()

Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena测试一周后。获得了超过12,000个社区投票,在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成绩。之前说GPT-4o有刷分技巧,现在看起来Gemini 1.5 Pro可能也学到了这个技巧呢。

Gemini 1.5 Pro 实验版(0801)不仅在综合表现上极为突出,在各个细分领域上也有着出色的表现。它在数学方面排名前三,指令遵循排名前二,编码排名前五,硬提示(英语)排名前五。

Gemini 1.5 Pro 实验版(0801)具有强大的多语言能力,在中文、日语、德语、俄语方面均表现第一。

从总体胜率图上,也能看出Gemini 1.5 Pro 实验版 (0801)实力强劲,对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。

前OpenAI的开发者,现Google AI Studio的产品负责人Logan Kilpatrick火速转发,向大家宣布Gemini 1.5 Pro 实验版(0801)目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。

DeepMind的CEO Demis Hassabis也转发了这条消息,祝贺Gemini 1.5 Pro 实验版(0801)能够在极具竞争力的榜单中拿下第一,并且宣布这一版本的已经可以在 AI Studio上进行试用。

带领研发Gemini的Jeff Dean也随后转发,对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪,也很期待未来能看到其他更好的模型。

听闻这则消息,其他从业人员也纷纷发来祝贺。

也有不少人分享自己的试用体验。大神elvis对在聊天机器人领域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感兴趣。elvis分享了自己的测试全过程视频,并总结道,Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象,Gemini 1.5 Pro有着和GPT-4o不相上下的视觉能力,也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。

有人认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错。

也有人说Gemini 1.5 Pro在图像识别植物和动物方面做得确实要比GPT 4o更好。

也有更多的人在期待Gemini 1.5 Pro这一版本的正式上线,希望能够API实现Gemini 1.5 Pro的实际运用。

大家对Gemini 1.5 Pro这次发布的实验版本有什么看法,欢迎评论区留言分享~(欢迎添加微信zkkkue,交流最新AI行业动态。)

参考材料:

https://x.com/lmsysorg/status/1819048821294547441

https://x.com/OfficialLoganK/status/1819049322295533684

https://x.com/demishassabis/status/1819085274917622198

https://x.com/JeffDean/status/1819121162578022849

https://x.com/omarsar0/status/1819162249593840110

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone 18标准版外观出炉:横向大矩阵模组 神似双摄版17 Pro

iPhone 18标准版外观出炉:横向大矩阵模组 神似双摄版17 Pro

快科技
2026-06-22 16:43:08
和讯许鑫:老登发力科技跌,接下来谁是主线

和讯许鑫:老登发力科技跌,接下来谁是主线

和讯网
2026-06-22 15:09:51
森林狼为麦克丹尼尔斯标天价:非字母哥约基奇不换

森林狼为麦克丹尼尔斯标天价:非字母哥约基奇不换

甜度百分百21
2026-06-22 00:24:15
《给阿嬷的情书》在英国首映,现场400包纸巾全送完

《给阿嬷的情书》在英国首映,现场400包纸巾全送完

中国日报
2026-06-22 12:36:26
德国队冲冠遭重创!5500万欧中卫告别世界杯:韧带撕裂 吕迪格顶替

德国队冲冠遭重创!5500万欧中卫告别世界杯:韧带撕裂 吕迪格顶替

风过乡
2026-06-22 19:34:52
为何毛泽东说谁投降都能谈,唯独何应钦,绝对不行?

为何毛泽东说谁投降都能谈,唯独何应钦,绝对不行?

史之韵
2026-06-22 13:55:39
谁也想不到,价值4亿的光刻机技术顶尖,竟被几美分的零件锁了喉

谁也想不到,价值4亿的光刻机技术顶尖,竟被几美分的零件锁了喉

蜉蝣说
2026-06-22 11:48:04
前美联储主席格林斯潘去世,享年100岁

前美联储主席格林斯潘去世,享年100岁

潇湘晨报
2026-06-22 19:46:11
人性铁律早已写死:穷人越忙越穷,中产越投越亏,能把雪球滚大的,从来不是勤奋,而是这两个认知

人性铁律早已写死:穷人越忙越穷,中产越投越亏,能把雪球滚大的,从来不是勤奋,而是这两个认知

心理观察局
2026-06-22 06:25:31
小米那些年失败的项目。

小米那些年失败的项目。

荆楚寰宇文枢
2026-06-12 22:56:31
声援C罗!费迪南德:C罗骨子里是团队型球员,挨骂因他是性情中人

声援C罗!费迪南德:C罗骨子里是团队型球员,挨骂因他是性情中人

画夕
2026-06-22 19:09:43
孔子姓什么?公务员考试一道简单送分题,难倒了大部分人

孔子姓什么?公务员考试一道简单送分题,难倒了大部分人

长风文史
2026-05-27 17:20:34
演员李现为世界杯开球!开场30分钟不到,西班牙3-0沙特

演员李现为世界杯开球!开场30分钟不到,西班牙3-0沙特

大象新闻
2026-06-22 07:05:03
6月买菜,菠菜芹菜靠边站,多吃3种“黄金菜”,好吃应季,还实惠

6月买菜,菠菜芹菜靠边站,多吃3种“黄金菜”,好吃应季,还实惠

花小厨
2026-06-22 17:55:13
要做最坏的准备!台海冲突随时可能爆发,中国需要比美国更快一步

要做最坏的准备!台海冲突随时可能爆发,中国需要比美国更快一步

趣味八卦
2026-06-22 07:08:48
世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

观星赏月
2026-06-18 15:29:58
美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

商业财经风向
2026-06-18 10:39:45
韩红不经意说了一种强势语言

韩红不经意说了一种强势语言

关尔东
2026-06-22 19:42:41
办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

叹为观止易
2026-06-08 14:22:53
收获首球!亚马尔半场数据:5射2正进1球,2过人、3对抗全成功

收获首球!亚马尔半场数据:5射2正进1球,2过人、3对抗全成功

云隐南山
2026-06-22 01:05:06
2026-06-22 20:28:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7383文章数 20758关注度
往期回顾 全部

数码要闻

电脑用内存、固态硬盘供货紧张:部分机型涨幅已超20%

头条要闻

29岁女主持人患癌去世:确诊仅几个月 申请做大体老师

头条要闻

29岁女主持人患癌去世:确诊仅几个月 申请做大体老师

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

多部门核查"婴幼儿纸尿裤甲酰胺问题"

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

游戏
亲子
教育
手机
公开课

《幻想水浒传》新作Steam页面公开!多平台 截图曝光

亲子要闻

倾尽小小心意,为辛苦的爸爸准备惊喜……

教育要闻

中考,是孩子真正的成人礼

手机要闻

消息称某厂小屏性能机评估骁龙8 Elite Gen6,预计为一加16T

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版