网易首页 > 网易号 > 正文 申请入驻

刚刚,谷歌最强Gemini 2.5 Pro免费了!数学碾压人类研究生,拿下全球TOP 1

0
分享至

新智元报道

编辑:Aeneas KingHZ

【新智元导读】如今,有越来越多的网友发现,Gemini 2.5 Pro已经成为全球大模型中名副其实的冠军,刷爆各类基准测试和智商测试!它的智商达到130,其中数学方面已经强于大多数研究生,甚至几句提示,就能模拟宇宙规律。

虽然又被GPT-4o吉卜力生图的光芒掩盖了,但毫无疑问,上周的另一技术核弹Gemini 2.5 Pro,也是无可争议的强!

在试用过程中,网友们逐渐发现,这个模型真的强到发指。

在门萨Norway的IQ测试中,它已经突破了130。

随后,更硬核的证据来了——在MathArena测试中,它直接获得了第一名!

注意,这里用的基本都是LLM从未见过的题。

在哈佛-麻省理工大学数学竞赛(HMMT)中,领先第二名15%

AIME 2025 I和AIME 2025 II是今年美国全国数学奥林匹克竞赛的选拔赛

它在数学方面已经比大多数研究生要强,这已经是一个可以公开验证的事实。

在这位网友统计的AI模型能力表上,Gemini的领先趋势已经非常明显。

Gemini 2.5 Pro (exp),免费用户也能用

好消息是,现在所有用户都能用上Gemini 2.5 Pro了。

就在今天,谷歌官宣:向所有Gemini用户,推出Gemini 2.5 Pro实验版!

而且,还是全免费。

唯一美中不足的是,Gemini 2.5 Pro目前还会有速率限制。

但Gemini Advanced用户,就可以享有更高级的访问权限,和更大的上下文窗口。

在上周三刚刚发布时,Gemini 2.5 Pro,还仅仅面向Gemini Advanced订阅者开放,订阅价格为每月19.99美元。

而随后,模型还会被推广到安卓和iOS应用上。

目前尚不清楚,谷歌是否会将2.5 Pro的稳定版本免费提供给所有Gemini用户,还是说今天的举措仅针对测试阶段。

在此之前,似乎2.0 Flash Thinking和2.0 Flash都将是免费提供的版本。

社区网友公认:大模型赛,谷歌已经领先了

AI社区Reddit上的网友们公认:在客观上,谷歌的模型已经领先了。

或许是有史以来第一次,OpenAI明确处于落后地位,Anthropic也是如此。

虽然凭吉卜力表情包抢了风头,但这种廉价的伎俩只会在短期内有用。在大模型赛中,局面已经从根本上改变了。

细数LiveBench、LMSYS、人类最后的考试、智商测试,几乎一切投票都表明,Gemini是无可争议的领军者。

有媒体表示谷歌Gemini 2.5 Pro是最聪明的模型

根据Artificial Analysis的评估,Gemini 2.5在大部分测试中都遥遥领先,成绩排名第一。

同时,输出速度仅次于 Gemini 2.0 Flash,位列第二。

当然,如果从原理上看,LLM的确没有在做数学,因为它们的本质仍然是概率性的,是做从训练数据中预测最可能的答案。

最强编程模型:模拟宇宙都可以

谷歌的技术主管Addy Osmani,表示Gemini 2.5 Pro是谷歌最好的编程模型,而且免费!

他给出了一段Gemini制作的3D飞行小游戏。

只需提示一次,Gemini 2.5 Pro可以在Three.js中的物理模拟!

多次提示,还可以改进编程效果。

开源链接:https://github.com/gemsjohn/physics-sims

网友Gadgetify直接复刻了自己「宇宙模拟器」,只需几次提示。

建立AI智能体DAIR.AI的elvis,则认为Gemini 2.5 Pro是Claude 3.7 Sonnet的最强对手。

Gemini 2.5 Pro是一款优质代码模型:

· 代码质量真的很好

· 1M个token的上下文

· 原生多模态

· 长代码生成

· 理解大型代码库

利用Gemini和Windsurf,他生成了AI搜索代理应用。

不少网友体验Gemini 2.5 Pro编程之后,表示Claude的确危险了!

左右滑动查看

初步的编码测试中的结果显示,Gemini 2.5 Pro把行业水平提升了一个档次。

对此,「AI智能体先驱」的创始人Silas Alberti,表示编程助手Devin正在引入Gemini 2.5 Pro。

而从事SEO行业的Julian Goldies放出Gemini 2.5 Pro MCP Servers教程,让智能体自动化一切。

甚至,有人用Gemini 2.5 Pro测试了一个项目,使用A*算法为高速列车寻找最优解,这个过程中涉及了优化坡度、转弯半径、多目标优化等难题。

令人惊喜的是,虽然它经常搞乱语法,比如试图把所有代码压缩到一行,但它完成了不少高质量的工作。

参考资料:

https://artificialanalysis.ai/models/gemini-2-5-pro

https://x.com/petergyang/status/1906007718961492391

https://x.com/QiaochuYuan/status/1905967688310268168

https://x.com/omarsar0/status/1906404825509560408

https://x.com/renderfiction/status/1905998185962643767

https://x.com/GeminiApp/status/1906131622736679332

https://x.com/silasalberti/status/1905826070370144450

https://www.reddit.com/r/singularity/comments/1jnbtu2/testing_gemini_25_pro_with_a_project_a_algorithm/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海一盗贼入狱后不吃米饭,引起狱警怀疑,调查后立马改判死刑

上海一盗贼入狱后不吃米饭,引起狱警怀疑,调查后立马改判死刑

蜉蝣说
2025-11-11 11:08:45
他活埋近5000名红军,却逃到国外安享晚年,如今竟然还有人歌颂他

他活埋近5000名红军,却逃到国外安享晚年,如今竟然还有人歌颂他

芳芳历史烩
2025-11-24 15:41:53
这10个指标正常,证明你的血糖基本没毛病,别担心,勿盲目检查

这10个指标正常,证明你的血糖基本没毛病,别担心,勿盲目检查

健康之光
2025-12-26 09:23:21
出大事了,特朗普不宣而战,多艘船只被击沉,俄伊巴纷纷火速表态

出大事了,特朗普不宣而战,多艘船只被击沉,俄伊巴纷纷火速表态

青烟小先生
2026-01-01 19:33:02
卡西尼号的最后一眼,让全人类愣住了:我们是不是宇宙唯一的傻子

卡西尼号的最后一眼,让全人类愣住了:我们是不是宇宙唯一的傻子

琉璃聊科学
2025-12-29 12:17:20
笑死,原来大家都记不住药名!网友:开个瑞幸他爹!

笑死,原来大家都记不住药名!网友:开个瑞幸他爹!

另子维爱读史
2025-12-11 21:07:17
浙江市场惊现怪鱼 竟是国家保护动物

浙江市场惊现怪鱼 竟是国家保护动物

七彩云南简南俊
2025-12-30 18:33:44
美国专家:汉字是全球唯一超越时空的文字,这一优势碾压英法俄语

美国专家:汉字是全球唯一超越时空的文字,这一优势碾压英法俄语

比利
2025-12-27 19:26:54
炸锅了!中年妇女真的很容易被杀猪盘啊,评论看的一阵后怕

炸锅了!中年妇女真的很容易被杀猪盘啊,评论看的一阵后怕

有趣的火烈鸟
2025-12-30 14:14:31
安徽多地纪委监委通报:8人被查!

安徽多地纪委监委通报:8人被查!

凤凰网安徽
2026-01-01 16:44:16
血管堵塞的真凶是肉?是糖?都不是,而是它,比肥肉伤 10 倍!

血管堵塞的真凶是肉?是糖?都不是,而是它,比肥肉伤 10 倍!

神奇故事
2025-12-18 22:10:05
部队最好吃的东西是啥?网友:九十年代的伙食是真的太差了

部队最好吃的东西是啥?网友:九十年代的伙食是真的太差了

带你感受人间冷暖
2025-11-29 00:10:05
又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

牛牛叨史
2025-12-23 23:07:38
河北农村消除烧煤后,农民过冬用不起暖气苦不堪言,只能硬扛

河北农村消除烧煤后,农民过冬用不起暖气苦不堪言,只能硬扛

追月数星
2025-12-31 17:10:25
马筱梅直播爆大瓜:大S竟然为了学习韩国,让保姆和孩子睡地上!

马筱梅直播爆大瓜:大S竟然为了学习韩国,让保姆和孩子睡地上!

乐悠悠娱乐
2025-12-30 10:13:15
蔚来汽车2025年全年交付量超32.6万辆

蔚来汽车2025年全年交付量超32.6万辆

界面新闻
2026-01-01 16:07:28
网红“北京肖哥”去世,年仅45岁!生前开大奔,大臂纹身经常健身

网红“北京肖哥”去世,年仅45岁!生前开大奔,大臂纹身经常健身

有范又有料
2025-12-29 22:31:57
编外人员大清理!机关事业单位这6类人将优先清退

编外人员大清理!机关事业单位这6类人将优先清退

李博世财经
2026-01-01 14:23:37
黄仁勋急疯,全球为缺电抓狂,中国却“电力自由”,底气藏不住了

黄仁勋急疯,全球为缺电抓狂,中国却“电力自由”,底气藏不住了

小莜读史
2025-12-31 21:06:21
炒股从巨亏到巨赚,我只坚持:"并列阳线满仓买,并列阳线清仓卖"

炒股从巨亏到巨赚,我只坚持:"并列阳线满仓买,并列阳线清仓卖"

股经纵横谈
2026-01-01 18:08:25
2026-01-01 20:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14233文章数 66410关注度
往期回顾 全部

数码要闻

2025年度数码好物大赏【年度评选】

头条要闻

美国男子在武当山习武15年金发变黑发:没有染发

头条要闻

美国男子在武当山习武15年金发变黑发:没有染发

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跨年零点时刻好精彩!何炅飞奔拥抱

财经要闻

巴菲特「身退,权还在」

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

时尚
亲子
本地
艺术
房产

今冬的时髦,来自费尔岛毛衣

亲子要闻

孕期出现胎停可能是你老公的问题

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

艺术要闻

投资40亿!湖南郴州最大的烂尾商场,谁在买单?

房产要闻

实景暴击!海口这个顶流红盘,抛出准现房+顶级书包双王炸!

无障碍浏览 进入关怀版