CMU评测：Gemini Pro相比GPT3.5，全线溃败！代码公开可复现|翻译|gpt|turbo|ultra|软件安装包|gemini

CMU评测：Gemini Pro相比GPT3.5，全线溃败！代码公开可复现

分享至

夕小瑶科技说原创
作者 | 谢年年、python前段时间谷歌DeepMind推出了号称是谷歌史上功能最强大、最通用的多模态模型Gemini 1.0！

Gemini 1.0共有Gemini Ultra, Gemini Pro, Gemini Nano三个不同版本：

Gemini Ultra——最大、最强的模型，适用于高度复杂的任务。

Gemini Pro——可扩展到各种任务的最佳模型。

Gemini Nano——最高效的设备端任务模型。

谷歌发布的测评报告称，Gemini Ultra在各种任务上超越GPT-4，而Gemini Pro据说与GPT-3.5相当。

然而，很快被网友扒出Gemini Ultra在测评时用了很多小动作，疑似“胜之不武”！存在刻意刷榜、夸大性能的嫌疑，演示视频也被扒出是“合成造假”...我们也对这一新闻进行了详细报道

不止Gemini Ultra超越GPT-4有作假嫌疑，Gemini Pro的性能赶超GPT-3.5也要打一个问号。

来自第三方的卡耐基梅隆大学的学者对OpenAI GPT和Google Gemini模型的语言能力进行深入探讨，测试了包括推理、回答基于知识的问题、解决数学问题、语言翻译、代码生成和指令跟随Agent在内的能力，并公开了可复现的代码和完全透明的结果。

结果发现，Gemini Pro在所有的评估任务中不如GPT 3.5 Turbo，离GPT 4 Turbo更是差了一大截。

论文标题:
An In-depth Look at Gemini's Language Abilities

论文链接:
https://arxiv.org/abs/2312.11444

github代码:
https://github.com/neulab/gemini-benchmark

对此，谷歌甩出了Gemini评测报告并回应说[1]，Gemini Pro的性能优于GPT 3.5，而即将于2024年初推出的更强大的版本Gemini Ultra，在谷歌的内部研究中得分高于GPT 4。回应节选如下：

“在我们的技术论文中，我们通过一系列基于文本的学术基准测试，比较了Gemini Pro和Ultra与一套外部LLM和我们之前的最佳模型PaLM 2，这些基准测试涵盖推理、阅读理解、STEM和编程。表2中第7页上的这些结果表明，Gemini Pro的性能优于推理优化模型，如GPT-3.5，与目前可用的最强大的几个模型相当，而Gemini Ultra的性能超过了所有现有模型。特别是Gemini Ultra，在MMLU上，它可以超过所有现有模型，达到90.04%的准确率。它也是第一个超过这个阈值的模型，之前最先进的准确率为86.4%。”

谷歌也承认可能由于数据污染等问题评估的可靠性受到挑战，但已经尽可能保证结果真实可靠了。

‘在这些基准测试上的评估具有挑战性，并可能受到数据污染的影响。我们在训练后进行了广泛的泄露数据分析，以确保我们在这里报告的结果尽可能科学可靠，但我们仍然发现了一些小问题，并决定不报告例如LAMBADA（Paperno等人，2016）的结果。

Gemini评测报告:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

让我们先来看看卡耐基梅隆大学这篇报告具体是怎么说的吧~

实验设置

接下来，我们来看看在每个任务上的详细PK情况吧！

基于知识的问答

数据集选用MMLU，涵盖了科学、技术、工程和数学、人文科学、社会科学等各个主题的多项选择问答题，总共有14,042个测试样本，分别在5-shot下使用标准提示和思维链提示生成答案。

从图1的整体结果来看，Gemini Pro的准确率低于GPT 3.5Turbo，且远低于GPT 4 Turbo。另外，使用思维链引导时性能几乎没有差异。这可能是因为MMLU主要是一个以知识为基础的问答任务，可能无法从更强的推理导向的提示中获得显著的好处。

而在图2中展示了每个模型选择每个多选题答案的次数比例。Gemini偏向于选择最后一个答案“D”，而GPT模型选项分布更加均衡。这可能表明Gemini在解决多选题方面没有经过严格的指导调整，导致模型在答案排序上存在偏见。

另外，作者进一步深入探讨了Gemini Pro在表现最差/表现最好的任务中的情况。如下图所示，Gemini Pro在多项任务上落后GPT3.5,而胜出的两项任务也仅保持着轻微的优势。

Gemini Pro在特定任务上的表现不佳可能是因为其过强的内容过滤机制造成的。在某些情况下， Gemini无法返回答案，特别是在涉及到潜在非法或敏感材料的情况下。在大多数MMLU子任务中，API响应率大于95%，但Gemini在moral_scenarios响应率为85%，而在human_sexuality任务中响应率低至28%。其次，Gemini Pro在解决formal_logic和elementary_mathematics任务所需的基本数学推理方面表现较差。

通用推理

评测数据集选用BIG-Bench Hard，有27个不同的推理任务，包括算术推理、符号推理、多语言推理和事实知识理解任务。大多数任务由250个问题-答案对组成。

首先来看看整体准确率，Gemini Pro的准确率略低于GPT 3.5 Turbo，远低于GPT 4 Turbo，而Mixtral模型的准确率要低得多。

然后作者从多个方面分析了Gemini表现不佳的原因。

Gemini Pro在更长、更复杂的问题上表现不佳，而GPT模型则更具鲁棒性。特别是GPT 4 Turbo，在更长的问题上几乎没有退化，而Mixtral不受问题长度影响，但总体准确率较低。
Gemini Pro不擅长做物品状态跟踪，比如下图中“交换物品”任务中，在步骤2中物品状态更新错误。

数学推理

在数学推理能力上，从下图中可以发现在四项数学推理数据集中，Gemini Pro的准确率略低于GPT 3.5 Turbo。

另外作者比较了模型在生成不同位数答案时的准确性，包括一位、两位、三位数。结果表明，GPT 3.5 Turbo在多位数数学问题上似乎更具鲁棒性，而Gemini Pro的性能有所下降。

作者使用两个代码生成数据集 HumanEval 和 ODEX 来测试模型的编码能力。

其次，作者分析了黄金解长度与模型性能之间的关系。解长度在一定程度上可以代表任务的难度，越长的任务越难。在解长度小于100（较简单的案例）时，Gemini Pro能够与 GPT 3.5 达到相当的水平，但当解变得更长时，它却大幅落后。

另外，作者还发现在使用诸如mock、pandas、numpy、datetime的库时，Gemini Pro的表现不如GPT 3.5，而在matplotlib案例中，它的表现超过了GPT 3.5和GPT 4，表明在通过代码进行绘图可视化时具有更强的能力。

作者使用FLORES-200机器翻译基准测试，将任务范围限定为仅从英语翻译为其他语言。还增加了开源机器翻译模型NLLB-MoE和谷歌翻译作对比。

下图分别是在zero-shot和5-shot的比较结果：

结果显示，专有的机器翻译系统强于常规的语言模型，在语言模型中，GPT 4 Turbo仍然最能打，即使在低资源语言中也可与专有的机器翻译系统一较高下的能力。而Gemini Pro在8种语言上优于GPT 3.5 Turbo和GPT 4 Turbo，并在4种语言上表现出最佳性能。

然而，Gemini Pro在约10种语言对中呈现出强烈的阻塞回应倾向，即在置信度较低的情况下生成了“Blocked Response”错误，造成最终得分不理想。

网络导航代理任务是一个需要长期规划和复杂数据理解的任务。作者使用了基于执行的模拟环境WebArena，给予代理的任务包括信息搜索，站点导航以及内容和配置操作。作者使用带有UA提示的CoT提示和不带UA提示的CoT提示进行测试。所谓带有UA提示就是告诉模型在任务无法完成时终止执行。

总体来看，Gemini-Pro的表现与GPT-3.5-Turbo相比稍微逊色一些。与GPT-3.5-Turbo类似，在UA提示的情况下，Gemini Pro的表现更好，达到了7.09%的成功率。

网络导航代理任务包含了各种网站，可以看到在gitlab和map上，Gemini-Pro的表现不如GPT-3.5-Turbo，而在在shopping admin、reddit和shopping网站上与GPT-3.5-Turbo接近。另外，在多网站任务上，Gemini-Pro表现优于GPT-3.5-Turbo，这说明Gemini在各种基准测试中在更复杂的子任务表现更好。

Gemini-Pro更倾向于将更多任务预测为不可实现，尤其是在给出UA提示的情况下。给出UA提示时，Gemini-Pro将80.6%的任务预测为不可实现，而GPT-3.5-Turbo则为47.7%。但实际上数据集中只有4.4%的任务是不可实现的，因此两者都过高地预测了实际不可实现的任务数量。

另外，Gemini Pro更倾向于使用较短的短语回应，并在采取较少的步骤得到结论。如下图所示， Gemini Pro的超过一半轨迹在十个步骤以下，而GPT 3.5 Turbo和GPT 4 Turbo的轨迹大多在10到30个步骤之间。同样，Gemini的大部分回应长度不超过100个字符，而GPT 3.5 Turbo、GPT 4 Turbo和Mixtral的回应长度大多超过300个字符。

结论

通过以上多个任务的比拼，总结如下：

Gemini Pro在模型大小和类型上与 GPT 3.5 Turbo 相当，但在某些任务表现略逊于GPT 3.5 Turbo。
Gemini Pro相比其他模型存在一些短板，比如在多项选择题中存在回答顺序的偏见、推理步骤较短、由于内容过滤机制严格导致的响应失败等问题。
当然也有优势：在特别长而复杂的推理任务上，Gemini表现更佳，且在未经筛选的多语种任务上也表现出出色的能力，而GPT 3.5 Turbo则稍逊一筹。

值得一提的是，以上的结论截至到2023年12月19日，且依赖于作者选择的具体提示和生成参数。随着模型和系统的升级，结果随时会发生变化。另外Gemini是一个多模态模型,但是在这个论文中,只关注Gemini在语言理解、生成和翻译能力上的表现，多模态能力还有待深入探索。

Gemini目前只发布了pro版本，让我们一起期待能与GPT 4一较高下的Gemini Ultra版本发布吧。

参考资料 [1]https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/

‍‍

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.