网易首页 > 网易号 > 正文 申请入驻

CMU评测:Gemini Pro相比GPT3.5,全线溃败!代码公开可复现

0
分享至

夕小瑶科技说 原创
作者 | 谢年年、python前段时间谷歌DeepMind推出了号称是谷歌史上功能最强大、最通用的多模态模型Gemini 1.0!

Gemini 1.0共有Gemini Ultra, Gemini Pro, Gemini Nano三个不同版本:

Gemini Ultra——最大、最强的模型,适用于高度复杂的任务。

Gemini Pro——可扩展到各种任务的最佳模型。

Gemini Nano——最高效的设备端任务模型。

谷歌发布的测评报告称,Gemini Ultra在各种任务上超越GPT-4,而Gemini Pro据说与GPT-3.5相当

然而,很快被网友扒出Gemini Ultra在测评时用了很多小动作,疑似“胜之不武”!存在刻意刷榜、夸大性能的嫌疑,演示视频也被扒出是“合成造假”...我们也对这一新闻进行了详细报道

不止Gemini Ultra超越GPT-4有作假嫌疑,Gemini Pro的性能赶超GPT-3.5也要打一个问号。

来自第三方的卡耐基梅隆大学的学者对OpenAI GPT和Google Gemini模型的语言能力进行深入探讨,测试了包括推理、回答基于知识的问题、解决数学问题、语言翻译、代码生成和指令跟随Agent在内的能力,并公开了可复现的代码和完全透明的结果。

结果发现,Gemini Pro在所有的评估任务中不如GPT 3.5 Turbo,离GPT 4 Turbo更是差了一大截。

论文标题:
An In-depth Look at Gemini's Language Abilities

论文链接:
https://arxiv.org/abs/2312.11444

github代码:
https://github.com/neulab/gemini-benchmark

对此,谷歌甩出了Gemini评测报告并回应说[1],Gemini Pro的性能优于GPT 3.5,而即将于2024年初推出的更强大的版本Gemini Ultra,在谷歌的内部研究中得分高于GPT 4。回应节选如下:

“在我们的技术论文中,我们通过一系列基于文本的学术基准测试,比较了Gemini Pro和Ultra与一套外部LLM和我们之前的最佳模型PaLM 2,这些基准测试涵盖推理、阅读理解、STEM和编程。表2中第7页上的这些结果表明,Gemini Pro的性能优于推理优化模型,如GPT-3.5,与目前可用的最强大的几个模型相当,而Gemini Ultra的性能超过了所有现有模型。特别是Gemini Ultra,在MMLU上,它可以超过所有现有模型,达到90.04%的准确率。它也是第一个超过这个阈值的模型,之前最先进的准确率为86.4%。”

谷歌也承认可能由于数据污染等问题评估的可靠性受到挑战,但已经尽可能保证结果真实可靠了。

‘在这些基准测试上的评估具有挑战性,并可能受到数据污染的影响。我们在训练后进行了广泛的泄露数据分析,以确保我们在这里报告的结果尽可能科学可靠,但我们仍然发现了一些小问题,并决定不报告例如LAMBADA(Paperno等人,2016)的结果。

Gemini评测报告:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

让我们先来看看卡耐基梅隆大学这篇报告具体是怎么说的吧~

实验设置

接下来,我们来看看在每个任务上的详细PK情况吧!

基于知识的问答

数据集选用MMLU,涵盖了科学、技术、工程和数学、人文科学、社会科学等各个主题的多项选择问答题,总共有14,042个测试样本,分别在5-shot下使用标准提示和思维链提示生成答案。

从图1的整体结果来看,Gemini Pro的准确率低于GPT 3.5Turbo,且远低于GPT 4 Turbo。另外,使用思维链引导时性能几乎没有差异。这可能是因为MMLU主要是一个以知识为基础的问答任务,可能无法从更强的推理导向的提示中获得显著的好处。

而在图2中展示了每个模型选择每个多选题答案的次数比例。Gemini偏向于选择最后一个答案“D”,而GPT模型选项分布更加均衡。这可能表明Gemini在解决多选题方面没有经过严格的指导调整,导致模型在答案排序上存在偏见。

另外,作者进一步深入探讨了Gemini Pro在表现最差/表现最好的任务中的情况。如下图所示,Gemini Pro在多项任务上落后GPT3.5,而胜出的两项任务也仅保持着轻微的优势。

Gemini Pro在特定任务上的表现不佳可能是因为其过强的内容过滤机制造成的。在某些情况下, Gemini无法返回答案,特别是在涉及到潜在非法或敏感材料的情况下。在大多数MMLU子任务中,API响应率大于95%, 但Gemini在moral_scenarios响应率为85%,而在human_sexuality任务中响应率低至28%。其次,Gemini Pro在解决formal_logic和elementary_mathematics任务所需的基本数学推理方面表现较差。

通用推理

评测数据集选用BIG-Bench Hard,有27个不同的推理任务,包括算术推理、符号推理、多语言推理和事实知识理解任务。大多数任务由250个问题-答案对组成。

首先来看看整体准确率,Gemini Pro的准确率略低于GPT 3.5 Turbo,远低于GPT 4 Turbo,而Mixtral模型的准确率要低得多。

然后作者从多个方面分析了Gemini表现不佳的原因。


  1. Gemini Pro在更长、更复杂的问题上表现不佳,而GPT模型则更具鲁棒性。特别是GPT 4 Turbo,在更长的问题上几乎没有退化,而Mixtral不受问题长度影响,但总体准确率较低。



  2. Gemini Pro不擅长做物品状态跟踪,比如下图中“交换物品”任务中,在步骤2中物品状态更新错误。


数学推理

在数学推理能力上,从下图中可以发现在四项数学推理数据集中,Gemini Pro的准确率略低于GPT 3.5 Turbo。

另外作者比较了模型在生成不同位数答案时的准确性,包括一位、两位、三位数。结果表明,GPT 3.5 Turbo在多位数数学问题上似乎更具鲁棒性,而Gemini Pro的性能有所下降。

作者使用两个代码生成数据集 HumanEval 和 ODEX 来测试模型的编码能力。

其次,作者分析了黄金解长度与模型性能之间的关系。解长度在一定程度上可以代表任务的难度,越长的任务越难。在解长度小于100(较简单的案例)时,Gemini Pro能够与 GPT 3.5 达到相当的水平,但当解变得更长时,它却大幅落后。

另外,作者还发现在使用诸如mock、pandas、numpy、datetime的库时,Gemini Pro的表现不如GPT 3.5,而在matplotlib案例中,它的表现超过了GPT 3.5和GPT 4,表明在通过代码进行绘图可视化时具有更强的能力。

作者使用FLORES-200机器翻译基准测试,将任务范围限定为仅从英语翻译为其他语言。还增加了开源机器翻译模型NLLB-MoE和谷歌翻译作对比。

下图分别是在zero-shot和5-shot的比较结果:

结果显示,专有的机器翻译系统强于常规的语言模型,在语言模型中,GPT 4 Turbo仍然最能打,即使在低资源语言中也可与专有的机器翻译系统一较高下的能力。而Gemini Pro在8种语言上优于GPT 3.5 Turbo和GPT 4 Turbo,并在4种语言上表现出最佳性能。

然而,Gemini Pro在约10种语言对中呈现出强烈的阻塞回应倾向,即在置信度较低的情况下生成了“Blocked Response”错误,造成最终得分不理想。

网络导航代理任务是一个需要长期规划和复杂数据理解的任务。作者使用了基于执行的模拟环境WebArena,给予代理的任务包括信息搜索,站点导航以及内容和配置操作。作者使用带有UA提示的CoT提示和不带UA提示的CoT提示进行测试。所谓带有UA提示就是告诉模型在任务无法完成时终止执行。

总体来看,Gemini-Pro的表现与GPT-3.5-Turbo相比稍微逊色一些。与GPT-3.5-Turbo类似,在UA提示的情况下,Gemini Pro的表现更好,达到了7.09%的成功率。

网络导航代理任务包含了各种网站,可以看到在gitlab和map上,Gemini-Pro的表现不如GPT-3.5-Turbo,而在在shopping admin、reddit和shopping网站上与GPT-3.5-Turbo接近。另外,在多网站任务上,Gemini-Pro表现优于GPT-3.5-Turbo,这说明Gemini在各种基准测试中在更复杂的子任务表现更好。

Gemini-Pro更倾向于将更多任务预测为不可实现,尤其是在给出UA提示的情况下。给出UA提示时,Gemini-Pro将80.6%的任务预测为不可实现,而GPT-3.5-Turbo则为47.7%。但实际上数据集中只有4.4%的任务是不可实现的,因此两者都过高地预测了实际不可实现的任务数量。

另外,Gemini Pro更倾向于使用较短的短语回应,并在采取较少的步骤得到结论。如下图所示, Gemini Pro的超过一半轨迹在十个步骤以下, 而GPT 3.5 Turbo和GPT 4 Turbo的轨迹大多在10到30个步骤之间。同样,Gemini的大部分回应长度不超过100个字符,而GPT 3.5 Turbo、GPT 4 Turbo和Mixtral的回应长度大多超过300个字符。

结论

通过以上多个任务的比拼,总结如下:

  1. Gemini Pro在模型大小和类型上与 GPT 3.5 Turbo 相当,但在某些任务表现略逊于GPT 3.5 Turbo。

  2. Gemini Pro相比其他模型存在一些短板,比如在多项选择题中存在回答顺序的偏见、推理步骤较短、由于内容过滤机制严格导致的响应失败等问题。

  3. 当然也有优势:在特别长而复杂的推理任务上,Gemini表现更佳,且在未经筛选的多语种任务上也表现出出色的能力,而GPT 3.5 Turbo则稍逊一筹。

值得一提的是,以上的结论截至到2023年12月19日,且依赖于作者选择的具体提示和生成参数。随着模型和系统的升级,结果随时会发生变化。另外Gemini是一个多模态模型,但是在这个论文中,只关注Gemini在语言理解、生成和翻译 能力上的表现,多模态能力还有待深入探索。

Gemini目前只发布了pro版本,让我们一起期待能与GPT 4一较高下的Gemini Ultra版本发布吧。

参考资料 [1]https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/

‍‍

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
景甜被曝光代孕协议,去国外收了半个亿跑路回国,工作室正面回应

景甜被曝光代孕协议,去国外收了半个亿跑路回国,工作室正面回应

仙味少女心
2026-05-23 22:26:22
安妮·海瑟薇自曝差点退出新片:看到表演后想逃跑

安妮·海瑟薇自曝差点退出新片:看到表演后想逃跑

自愈小日子
2026-05-23 01:07:13
突发!暂无法明确是否建设!长沙河西这所医院悬了?

突发!暂无法明确是否建设!长沙河西这所医院悬了?

星耀长沙
2026-05-24 21:55:10
及时止损!林志玲官宣拒绝“文策院”任职,两岸艺人难逃身份困境

及时止损!林志玲官宣拒绝“文策院”任职,两岸艺人难逃身份困境

小胖娱乐CJ
2026-05-24 22:22:41
比发腮更可怕的是嘬腮!显老显凶还一脸苦相,太影响颜值了

比发腮更可怕的是嘬腮!显老显凶还一脸苦相,太影响颜值了

白宸侃片
2026-05-24 20:40:45
上海申花1-2深圳新鹏城,赛后评分出炉:深圳新鹏城11号排第一

上海申花1-2深圳新鹏城,赛后评分出炉:深圳新鹏城11号排第一

俯身冲顶
2026-05-24 21:58:19
荷兰人掀了桌子,想将国内芯片产业倒退十年,中国反手甩出三张牌

荷兰人掀了桌子,想将国内芯片产业倒退十年,中国反手甩出三张牌

李子橱
2026-05-23 11:45:07
女子称眼部按摩仪充电时自燃,所租房子被贴封条,因吸入有毒浓烟被迫终止备孕;品牌方:产品符合国标,正等待权威结论

女子称眼部按摩仪充电时自燃,所租房子被贴封条,因吸入有毒浓烟被迫终止备孕;品牌方:产品符合国标,正等待权威结论

都市快报橙柿互动
2026-05-24 16:32:28
1971年,中国大使参加摩洛哥宴会,士兵开枪扫射,众人倒在血泊中

1971年,中国大使参加摩洛哥宴会,士兵开枪扫射,众人倒在血泊中

文史达观
2026-05-24 21:49:30
母亲把积蓄全给舅舅,父亲平静说无妨,带全家迁往南方再没回故乡

母亲把积蓄全给舅舅,父亲平静说无妨,带全家迁往南方再没回故乡

麦子情感故事
2026-05-24 19:11:23
直到这三场战争,全世界才知道我国国力强大到了什么程度

直到这三场战争,全世界才知道我国国力强大到了什么程度

农夫史记
2026-05-24 21:11:10
德云社真的该反思了!苗阜演出众星捧月,岳云鹏场子无人问津!

德云社真的该反思了!苗阜演出众星捧月,岳云鹏场子无人问津!

南万说娱26
2026-05-24 12:15:16
“私募魔女”两度喊话,大批投资人跑路,李蓓在管规模缩水至50亿元以下

“私募魔女”两度喊话,大批投资人跑路,李蓓在管规模缩水至50亿元以下

红星新闻
2026-05-24 19:41:49
妮可拉与布鲁克林同框亮相,造型氛围感拉满

妮可拉与布鲁克林同框亮相,造型氛围感拉满

述家娱记
2026-05-24 20:10:21
一找一个准!男子无意间救下的野猪变身“行走的挖笋雷达”,每年为他创收12万元

一找一个准!男子无意间救下的野猪变身“行走的挖笋雷达”,每年为他创收12万元

封面新闻
2026-05-23 22:34:20
NVIDIA杀入CPU市场!性能1.5倍碾压Intel、AMD:台北电脑展见分晓

NVIDIA杀入CPU市场!性能1.5倍碾压Intel、AMD:台北电脑展见分晓

快科技
2026-05-24 19:25:05
天降横财!男子入狱前,花120万买股票,6年后出狱,变成4.9亿!

天降横财!男子入狱前,花120万买股票,6年后出狱,变成4.9亿!

川渝视觉
2026-05-13 22:09:30
乌克兰基辅遭大规模袭击 受伤人数升至44人

乌克兰基辅遭大规模袭击 受伤人数升至44人

财联社
2026-05-24 14:15:21
玥儿姐弟为啥还不回北京上学?筱梅终于说实话,原因太现实了

玥儿姐弟为啥还不回北京上学?筱梅终于说实话,原因太现实了

一盅情怀
2026-05-24 15:47:31
嫪毐赴死之际,未作一声乞求,只给嬴政看了眼他身上的半块玉佩

嫪毐赴死之际,未作一声乞求,只给嬴政看了眼他身上的半块玉佩

卡西莫多的故事
2025-12-24 10:00:50
2026-05-24 23:07:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4762文章数 37465关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

艺术
手机
数码
教育
公开课

艺术要闻

砸十几亿,烂十几年!福建福清富创世纪城,还有救吗?

手机要闻

三星机身框架新技术曝光,Galaxy S26 FE现身

数码要闻

SSD价格实在太荒谬!SATA竟比NVMe贵了3倍:8TB标价2.8万元

教育要闻

教育部:跨境远程文凭证书不在认证范围内

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版