网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌数学版Gemini破解奥赛难题，堪比人类数学家！

2024-05-20 15:20:24　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部

【新智元导读】I/O大会上，谷歌Gemini 1.5 Pro一系列更新让开发者们再次沸腾。最新技术报告中，最引人注目的一点是，数学专业版1.5 Pro性能碾压GPT-4 Turbo、Claude 3 Opus，成为全球最强的数学模型。

四个月的迭代，让Gemini 1.5 Pro成为了全球最强的LLM（几乎）。

谷歌I/O发布会上，劈柴宣布了Gemini 1.5 Pro一系列升级，包括支持更长上下文200k，超过35种语言。

与此同时，新成员Gemini 1.5 Flash推出，设计体积更小，运行更快，还支持100k上下文。

最近，Gemini 1.5 Pro最新版的技术报告新鲜出炉了。

论文地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

报告显示，升级后的模型Gemini 1.5 Pro，在所有关键基准测试中，都取得了显著进展。

简单来说，1.5 Pro的性能超越了「超大杯」1.0 Ultra，而1.5 Flash（最快的模型）性能则接近1.0 Ultra。

甚至，新的Gemini 1.5 Pro和Gemini 1.5 Flash在大多数文本和视觉测试中，其性能还优于GPT-4 Turbo。

Jeff Dean发文称，Gemini 1.5 Pro「数学定制版」在基准测试中，取得了破记录91.1%成绩。

而三年前的今天，SOTA仅为6.9%。

而且，数学专业版的 Gemini 1.5 Pro在数学基准上的成绩，与人类专家的表现不相上下。

数学评测3年暴涨84.2%

对于这个「数学定制版」模型，团队使用了多个由数学竞赛衍生的基准测试评估Gemini的能力，包括MATH、AIME、Math Odyssey和团队内部开发的测试HidemMath、IMO-Bench等。

结果发现，在所有测试中，Gemini 1.5 Pro「数学定制版」都明显优于Claude 3 Opus和GPT-4 Turbo，并且相比通用版本的1.5 Pro有显著改进。

特别是MATH测试中取得了91.1%的突破性成绩，而且不需要使用任何定理证明库或者谷歌搜索等任何外部工具，这与人类专家的水平相当。

此外，在AIME测试集中，Gemini 1.5 Pro「数学定制版」能解决的问题数量是其他模型的4倍。

以下是两道曾让之前的模型束手无策的亚太数学奥林匹克竞赛（APMO）题。

其中，上面的这个例子很有代表性，因为它是一道证明题，而不是计算题。

对此，Gemini给出的解法不仅直切要害，而且非常「漂亮」。

Gemini 1.5 Pro核心性能全面提升

文本评估

除了数学之外，升级后的1.5 Pro在推理、编码、多模态多项基准测试中，取得了显著的优势。

甚至就连主打输出速度的1.5 Flash，在性能上也不输1.0 Ultra。

尤其是，在MMLU通用语言理解基准测试中，Gemini 1.5 Pro在正常的5个样本设置中得分为85.9%，在多数投票设置中得分为91.7%，超过了GPT-4 Turbo。

与2月出版技术报告对比来看，新升级1.5 Pro在代码两项基准中，有了非常明显的提升，从71.9%上涨到84.1%（HumanEval），从77.7%上涨到82.6%（Natural2Code）。

在多语种基准测试中，新升级1.5 Pro的能力略微下降。

此外，5月报告中，将数学和推理能力分开评测，在数学基准上，新升级1.5 Pro有所下降，从91.7%下降到90.8%。

在推理测试中，MMLU上的性能从81.9%提升到85.9%。

2月版

针对函数调用，1.5 Pro在多项任务中，除了多项函数，都拿下了最高分。1.5 Flash在多项函数任务中，取得了领先优势。

在指令调优上，1.5 Pro面对更长指令1326提示时，回应准确率最高。而406更短指令，1.0 Ultra的表现更优秀。

涉及到更专业的知识问答时，1.5 Pro准确率几乎与1.5 Flah持平，仅差0.6%，但都显著优于1.0 Pro和1.0 Ultra。

针对STEM上下文问答任务中，在Qasper数据集上，Gemini 1.0和1.5准确率提升，与此同时不准确率显著下降。

再来看偏好结果，针对不同提示，与1.0 Pro比起来，1.5 Pro和1.5 Flash相对得分更高。

多模态评估

针对多模态性能，技术报告中涉及了众多基准测试，包括多模态推理、图表与文档、自然图像以及视频理解四个方面，共15个图像理解任务以及6个视频理解任务。

总体来看，除了一项测试之外，1.5 Pro的表现均能超过或者与1.0 Ultra相当，且轻量的1.5 Flash在几乎所有测试中都超过了1.0 Pro。

可以看到1.5 Pro在多模态推理的4个基准测试上都有所提高。

在公认较为困难的MMMU测试中，1.5 Pro实现了从47.9%到62.2%的提升，在研究生水平的Ai2D测试上甚至达到了94.4%，1.5 Flash也有91.7%的高分。

对于多模态大模型，图表和文档的理解比较有挑战性，因为需要对图像信息进行准确的解析和推理。

Gemini 1.5 Pro在ChartQA取得了87.2%的SOTA结果。

在TAT-DQA测试上，分数从1.0 Pro的9.9%升至37.8%，1.5 Flash相比1.0 Ultra也有将近10%的提高。

此外，团队创建了BetterQA等9个互不相交的能力测试。结果显示，相比上一代的1.0 Pro，1.5 Pro总体达到了20%以上的提升。

自然图像理解方面的测试，重点关注模型的对物理世界的理解以及空间推理能力。

在专门的V*测试中，1.5 Pro和测试提出者所发表的模型SEAL几乎表现相当。

在人类擅长而模型不擅长的Blink测试中，1.5 Pro实现了从45.1%（1.0 Pro）到61.4%的提升，Flash分数相近（56.5%），依旧高于1.0 Ultra（51.7%）。

除了「大海捞针」，团队也为Gemini 1.5 Pro进行了其他视频理解方面的基准测试，但提升不如前三个方面那样显著。

在VATEX英文和中文的两个测试中，对比2月份发布的Gemini 1.5 Pro的技术报告，三个月训练后的提升不超过2分。

在YouCook2测试中，1.5 Pro似乎始终不能达到1.0 Ultra的135.4分，而且相比2月技术报告中的134.2下降到了最新的106.5。

有趣的是，在OpenEQA的零样本测试上，1.5 Flash得分63.1，甚至超过了1.5 Pro的57.9。技术报告中解释，这是由于1.5 Pro拒绝回答某些问题造成的。

2月版

对比GPT-4、Claude 3优势明显

接下来，再看看横向对比，新升级的1.5 Pro与GPT-4、Claude模型相较下的性能如何。

模型诊断能力改进

如下展示的是，在2000个MRCR任务实例中，字符串相似度累积平均得分与上下文长度的函数关系。

在与GPT-4 Turbo和Claude 2.1进行比较时，研究人员发现分别在8K和20K个词组之后，1.5 Pro和1.5 Flash的性能大大优于这两个模型。

随着上下文长度的增加，1.5 Pro和1.5 Flash的性能下降幅度大大缩小，最高可达100万个token。

在将小语种Kalamang翻译成英语的量化结果如下所示。

新升级的1.5 Pro在喂了半本书，甚至全本书的数据之后，性能得到大幅提升，并优于GPT-4 Turbo和Claude 3的表现。

而在将英语翻译成Kalamang语言的量化结果中，1.5 Pro的胜率也是最高的。

低资源机器翻译的长上下文扩展

再来看，在「低资源」机器翻译中，模型的上下文学习扩展（Scaling）表现。

随着样本数量不断增加，1.5 Pro的翻译性能越来越好，大幅超越了GPT-4 Turbo。

长上下文文本QA

针对长文本的问答，1.5 Pro在710k上下文文中，表现显著优于GPT-4 Turbo。并且，超越了没有上下文，以及在RAG加持下，支持4k上下文的1.5 Pro。

长上下文音频

在音频长上下文的测试中，每个模型的单词错误率表现又如何？

可以看到，1.5 Pro仅有5.5%，而OpenAI的Whisper模型的错误率高达12.5%。

但与2月版的报告相比，1.5 Pro的音频长下文单词错误率还是有所下降。

2月版

长上下文视频QA

针对1个小时的视频问答任务，1.5 Pro在不同基准上准确率实现与3分钟视频任务准确率，基本持平一致。

再来看去年2月版的对比，1.5 Pro在1小时任务中的准确率有了很大提升，从最高0.643上涨到0.722。还有在3分钟视频QA任务中，从0.636上涨到0.727。

2月版

在1H-VideoQA测试中，团队在时长1小时的视频中每秒取1帧画面，最终线性下采样至16帧或150帧，分别输入给GPT-4V与Gemini 1.5进行问答。

无论帧数多少，Gemini 1.5 Pro的表现均强于GPT-4V，其中在16帧测试的优势最为明显（36.5% vs. 45.2%）。

在观看整个视频后进行回答时，Gemini 1.5 Pro从2月的64.3%提升至72.2%。

2月版

长上下文规划

「推理」和「规划」技能对解决问题都很重要，虽然LLM在推理上进展显著，但规划依旧很难。

这篇报告专门呈现了Gemini 1.5的规划能力测试，涉及到移动积木、安排物流路线、室内导航、规划日程和旅行路线等任务场景。

测试中，模型必须根据给定任务，一次性地快速生成解决方案，类似于人类的「头脑风暴」过程。

总体上，Gemini 1.5 Pro在绝大多数情况下的表现优于GPT 4 Turbo，不仅能在少样本时较好进行规划，还能更有效地利用额外的上下文信息。

更轻量的Gemini 1.5 Flash表现始终不敌Gemini 1.5 Pro，但在几乎一半的情况下可以与GPT-4 Turbo的表现相当。

GPT-4 Turbo的在BlocksWorld中的零样本表现接近于零，而Gemini 1.5 Pro和Flash分别达到了35%和26%。

Calendar Scheduling也是如此，GPT的1-shot准确率低于10%，而1.5 Pro达到33%。

随着样本数量逐渐增多，1.5 Pro的表现基本持续提升，但GPT-4 Turbo在样本增加到一定程度时会出现下降趋势，在Logistics中甚至持续下降。

比如Calendar Scheduling中，当样本数量逐渐增加至80-shot时，GPT-4 Turbo和1.5 Flash只有38%的准确率，比Gemini 1.5 Pro低了32%。

之后增加至400-shot时，1.5 Pro达到了77%的准确率，GPT却依旧徘徊在50%左右。

非结构化多模态数据分析任务

现实世界中的大多数数据，比如图像和对话，仍然是非结构化的。

研究人员向LLM展示了一组1024张图像，目的是将图像中包含的信息提取到结构化数据表中。

图17展示了从图像中提取不同类型信息的准确性结果。

Gemini 1.5 Pro在所有属性提取上的准确性提高了9%（绝对值）。同时，相较于GPT-4 Turbo，1.5 Pro提升了27%。

然而，在评估时，Claude 3 API无法分析超过20张图像，因此Claude 3 Opus的结果被限制了。

此外，结果显示，1.5 Pro在处理更多的图像时会带来持续更好的结果。这表明该模型可以有效利用额外和更长的上下文。

而对于GPT-4 Turbo来说，随着提供的图像增多，其准确性反而下降

更多细节参见最新技术报告。

参考资料：

https://the-decoder.com/gemini-1-5-pro-is-now-the-most-capable-llm-on-the-market-according-to-googles-benchmarks/

https://x.com/JeffDean/status/1791522915021627438

https://x.com/sundarpichai/status/1791582982870089752

责任编辑：郜雪丹_NT5097

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI被曝重组计划！与苹果达成关键协议，微软谷歌哭晕

智东西 2024-05-31 21:01:06
0 跟贴 0
让用户吃石头，给披萨涂胶水，Google AI 搜索疯了吗

爱范儿 2024-05-27 23:58:14
0 跟贴 0

谷歌继续“瘦身”：云业务被曝大范围裁员

华尔街见闻官方 2024-06-01 03:00:50
0 跟贴 0

巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

钛媒体APP 2024-01-13 11:35:24
0 跟贴 0
神仙来了虎扑，也得先排个名

虎嗅APP 2023-12-11 18:38:01
0 跟贴 0

谁给了一个保安检查民众思想的权力？

麦杰逊 2024-05-31 11:30:02
29517 跟贴 29517

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

量子位 2024-02-02 15:56:14
0 跟贴 0
谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

新智元 2024-06-01 13:26:09
8 跟贴 8

泽连斯基走上讲台发言记者们纷纷起立举起相机拍照

征垣之路 2024-06-02 16:41:45
29889 跟贴 29889
六位一线AI工程师总结爆火！大模型应用摸爬滚打一年心得公开

量子位 2024-06-01 14:01:56
3 跟贴 3
ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

新智元 2024-06-01 13:25:22
3 跟贴 3
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
AI 搜索，已经在污染互联网了

爱范儿 2024-06-01 20:08:22
34 跟贴 34
网红铁头日本涂鸦事件：知情人曝其已回国，但影响深远，本人发声

金叨叨 2024-06-01 23:09:37
15595 跟贴 15595
剑桥团队开源：首个预训练通用多模态后期交互知识检索器

机器之心Pro 2024-03-25 16:09:30
0 跟贴 0
「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

机器之心Pro 2024-03-07 15:09:59
0 跟贴 0
永远的小平（62）| 邓小平提到的百年大计是什么？老同志要让，要认真地选接班人，否则搞“四化”只能

看度新闻 2024-06-02 09:00:37
581 跟贴 581
这台新机一发布，全世界垃圾佬都得疯

雷科技 2024-01-25 21:32:36
240 跟贴 240
将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

机器之心Pro 2024-01-31 15:01:05
2 跟贴 2
欧冠-克罗斯告别维尼修斯破门皇马2-0多特夺第15冠

网易体育 2024-06-02 04:59:22
18223 跟贴 18223
翻译：小烈娃：俄罗斯美少女仅丢3局进巴黎16强+终结对手7连胜

龚大烈 2024-06-02 06:29:56
57 跟贴 57
Mamba架构第一次做大！混合Transformer，打败Transformer

量子位 2024-03-29 15:47:47
0 跟贴 0
嫦娥六号着陆月背南极-艾特肯盆地

央视新闻客户端 2024-06-02 06:46:29
24849 跟贴 24849
若孤立我们的趋势不变，我们可能会面临很大的麻烦

罗sir职话 2024-06-02 11:51:25
10331 跟贴 10331
已正式开放！西北首家，落户西安！

阳光报阳光网 2024-06-02 13:27:53
0 跟贴 0
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
1 跟贴 1
一位互联网创业者的深度解析：我为什么不用飞书？

虎嗅APP 2024-04-01 16:57:15
36 跟贴 36
引发观众现场痛哭，淘宝宠物行为艺术展单日参观人数破万

金羊网 2024-06-02 14:14:07
24050 跟贴 24050
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
773 跟贴 773
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
68 跟贴 68
首次解密Claude 3大脑！25岁Anthropic参谋长预言3年内自己将被AI淘汰

新智元 2024-06-02 12:34:39
0 跟贴 0
多地市委书记晋升副省长候补中央委员跨省履新

鲁中晨报 2024-06-02 08:03:07
226 跟贴 226
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
112 跟贴 112
家长带女孩在田地里学插秧孩子情绪崩溃跳起来坐在田里哭

直击新鲜事 2024-06-02 09:30:32
8454 跟贴 8454
机构回应教官多次将男孩头按进水里

点时新闻 2024-06-02 18:29:26
140 跟贴 140
神秘的量子世界有无限可能，但你为何成为了“现在的你”？

宇宙时空 2024-05-30 15:40:16
8 跟贴 8
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
212 跟贴 212
家长：恢复八十年代的教材刻不容缓，现在的教材简直乱来！

李老师讲最真教育 2024-06-02 16:18:10
713 跟贴 713
拜登同意乌克兰有限使用美制武器打击俄领土

新华社 2024-06-01 09:36:44
13629 跟贴 13629
伊朗前总统内贾德登记参选总统

界面新闻 2024-06-02 15:35:08
5777 跟贴 5777

今年经济为何如此困难?

庞明说财经

2024-06-02 07:15:09

安徽画家关玉梅被执行死刑前，拒绝吃断头饭，行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前，拒绝吃断头饭，行刑时已四肢瘫软

一个人讲故事

2024-05-05 21:46:11

“功”是什么意思？又被翻译带歪了，直到看到 Work 我才恍然大悟

“功”是什么意思？又被翻译带歪了，直到看到 Work 我才恍然大悟

CAD画家

2024-06-02 07:00:02

皇马刚刚获得欧冠，老弗爷就为安切洛蒂设定目标：拿下第16冠！

皇马刚刚获得欧冠，老弗爷就为安切洛蒂设定目标：拿下第16冠！

星耀国际足坛

2024-06-02 12:15:50

梧桐妹为继母庆生，戴鼻环似生父翻版，继母穿百元裙不输贾静雯

梧桐妹为继母庆生，戴鼻环似生父翻版，继母穿百元裙不输贾静雯

云泽点评汇

2024-06-01 16:30:32

不教胡马度阴山，度过了会怎样？

不教胡马度阴山，度过了会怎样？

地图帝

2024-06-01 12:22:28

印度一天至少85人疑因高温天气死亡，首都居民：水龙头流出的水跟开水没啥区别

印度一天至少85人疑因高温天气死亡，首都居民：水龙头流出的水跟开水没啥区别

极目新闻

2024-06-02 13:23:02

第一代女网红程琳40岁了，晒最新视频佛回到了18岁：我们的青春

第一代女网红程琳40岁了，晒最新视频佛回到了18岁：我们的青春

三月柳

2024-06-02 15:28:08

浙江男子扇小孩耳光后续：13000和解，双方关系曝光，商家被关门

浙江男子扇小孩耳光后续：13000和解，双方关系曝光，商家被关门

猫小狸同学

2024-06-02 20:05:02

双榜暴跌！中国女排0-3溃败，惨遭日本反超，世联赛跌至第六

双榜暴跌！中国女排0-3溃败，惨遭日本反超，世联赛跌至第六

天涯沦落人

2024-06-02 21:01:00

沉默一天后奥斯汀承认，与中国防长谈崩了，但仍会接中方紧急电话

沉默一天后奥斯汀承认，与中国防长谈崩了，但仍会接中方紧急电话

王晋博士

2024-06-01 18:50:32

变味了！南京网红咖啡韩老太，店铺已经没人排队，大家理智了！

变味了！南京网红咖啡韩老太，店铺已经没人排队，大家理智了！

今日美食分享

2024-06-02 18:40:04

女子趁理发师工作时，伸手摸向敏感部位，网友调侃：这钱真难赚

女子趁理发师工作时，伸手摸向敏感部位，网友调侃：这钱真难赚

看晓天下事

2024-05-26 18:38:25

黄山胶囊被举报涉嫌骗取财政补贴，工信部认定项目验收无效公司公告称已退还1400万

黄山胶囊被举报涉嫌骗取财政补贴，工信部认定项目验收无效公司公告称已退还1400万

红星新闻

2024-06-02 19:00:15

沙特突发！

中国基金报

2024-06-03 00:14:51

提前做好准备！下半年不出意外，国内可能会呈现以下这4大趋势！

提前做好准备！下半年不出意外，国内可能会呈现以下这4大趋势！

匹夫来搞笑

2024-06-02 13:12:59

恒大风波-大结局

暖心的小屋

2024-06-02 17:06:40

为什么我感受不到1500元的手机比四五千的差？看网友评论终于懂了

为什么我感受不到1500元的手机比四五千的差？看网友评论终于懂了

白浅娱乐聊

2024-06-02 20:07:54

祸害三年的新冠病毒一夜消失，却留下7大奇怪现象，你注意了吗

祸害三年的新冠病毒一夜消失，却留下7大奇怪现象，你注意了吗

猫叔东山再起

2024-05-29 23:13:36

人生下半场最大的差距，就在于《中年觉醒》

人生下半场最大的差距，就在于《中年觉醒》

洞见

2024-05-31 21:45:45

AI产业主平台领航智能+时代

11110文章数 65532关注度

往期回顾全部

科技要闻

黄仁勋：2026年将推下代GPU架构平台Rubin

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒左腿粉碎性骨折

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒左腿粉碎性骨折

体育要闻

从0-1到2-1！石宇奇绝地反击逆转队友李诗沣，豪夺赛季第3冠

娱乐要闻

白玉兰提名：胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

家居

教育

手机

数码

房产

家居要闻

风雅自来中式的和谐平衡

教育要闻

TTS新传论文带读：中国互联网30年!一篇文章就给整明白!!!

手机要闻

性价比手机也分三六九等，4个价位的佼佼者已出炉，你选对了吗？

数码要闻

华硕 ROG 宣布 6 月 3 日直播发布新幻 16 Air 笔记本与外设新品

房产要闻

重磅！琼海出台楼市新政：住房出租、挂牌计划出售，都可减套数！

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版