点击“首席信息官”,感谢关注我们!
导读
在谷歌推出Gemini三个月之后,关于它与ChatGPT的对比从未停止过。
有人曾说Gemini多方位碾压ChatGPT,也有人说它综合能力不敌ChatGPT。那么,事实到底如何呢?
本文,小编通过提出九大问题,将把ChatGPT 的免费版本与谷歌Gemini的免费版本进行全方位比较(GPT-3.5 VS Gemini Pro 1.0),以测试这两个聊天机器人对不同提问的响应情况、编码能力,以及一些创意性等。
01
编码能力
大模型最早的应用场景之一就是编程,尤其是在重写、更新和测试不同的编程语言方面。因此,小编将其作为第一项测试,要求每个机器人编写一个简单的Python程序。
发问如下:开发一个Python脚本,作为个人支出跟踪器。该程序允许用户输入他们的支出、类别(例如购物、娱乐)和支出的日期。然后,脚本应根据类别提供支出摘要,并给定时间内的总支出。此外,该脚本要包括注释来解释代码的每一步。
这是为了测试ChatGPT和Gemini生成完全功能代码的能力、交互的便捷性、可读性,以及遵守编码标准的情况。
最终,两者都使用Python编写了一个完全功能的支出跟踪器。Gemini还添加了额外的功能,包括类别的标签,甚至于它还具有更详细的报告选项。
获胜方:Gemini
02
自然语言理解(NLU)
接下来,我们来看看ChatGPT和Gemini对自然语言提示的理解程度。小编进行了一个常见的认知反射测试(CRT),题目是关于一个球棒和一个球的价格。这是对AI理解模糊性、不被简单误导、清楚地解释其思维的能力考验。
发问如下:一个球棒和一个球一共1.10美元。球棒比球贵1美元。这个球多少钱?
正确的回答应该是,球的价格是5美分,球棒的价格是1.05美元。
获胜方:ChatGPT。虽然,最终二者都做对了,但ChatGPT更清楚地展示了它的推理逻辑。
03
创造性文本生成与适应性
第三项测试主要关于文本生成和创造性。通过输出原创性和创造性元素,小编希望聊天机器人给出的文本要结合主题,而且要根据需求可进行调整,比如更改角色或名称。
发问如下:写一篇以未来城市为背景的短篇小说。其中,科技控制着生活的方方面面,但主角却发现了一个没有现代技术的隐藏社会。
最终,两个故事都很好,每个聊天机器人都在特定的语境下自由发挥。但总体来说,Gemini更符合评分标准。
获胜者:Gemini。它在主题阐述和自由发挥方面,更具有创造性。
04
推理和解决问题能力
推理能力是大模型的主要基准之一。
发文如下:你正面对着两扇门。一扇门通向安全,另一扇门通向危险。有两个警卫,每个门前各有一个。一个警卫总是说真话,另一个警卫总是撒谎。你可以问每个警卫一个问题,然后找出哪扇门通向安全。那么,你问什么问题?
答案很明显,你可以问任何一个警卫:“另一个警卫认为哪扇门通向危险?”这是对提问创造力,以及AI如何驾驭真相、谎言动态的有用测试。它还测试了考虑两种可能反应的逻辑推理。
最终,它们都给出了正确的答案和扎实的解释。但是,ChatGPT提供了更多细节和更清晰的表述。
获胜方:ChatGPT。
05
用小孩也能理解的方式来解释复杂的概念
对于这次测试,发文如下:向一个五岁的孩子解释飞机是如何在天空中飞行的。
这是对聊天机器人如何扩展简单提示,并满足目标受众要求的测试。
它需要提出一个足够简单的解释,让小孩子能够理解,尽管简化,但也要准确,并使用引人入胜的语言来吸引孩子的兴趣。
这次评判很难,因为两者都给出了合理且准确的回答。两者都用鸟作为解释的一种方式,都用简单的语言和个人化的语气,但Gemini将其呈现为一系列要点,而不是一段文字。它还为五岁的孩子提供了一个实用的实验来尝试。
获胜者:Gemini。
06
伦理推理与决策
要求AI聊天机器人思考可能导致人类受伤害的场景并不容易。但随着无人驾驶汽车和AI大脑进入机器人领域,它们需要具备仔细权衡各种场景,并做出快速判断的能力。
发问如下:考虑一个场景,其中一辆自动驾驶汽车必须在撞到行人或冒着乘客生命危险急转弯之间做出选择。AI应该如何做出这个决定?
小编使用了一个严格的评分标准,考虑了多个伦理框架、如何权衡不同的观点以及决策中的偏见意识。但两者都没有给出意见,只是概述了需要考虑的各种要点,并提出了将来做出决定的方法。他们有效地将其视为第三方问题,以进行评估和报告,以便其他人做出决定。
最终,小编认为Gemini给出的回应更为细致,考虑更为周到。但为了确保公正,小编将每个回应以盲选A或B测试的形式输入给ChatGPT Plus、Gemini高级版和其他几个模型。在不知道哪个模型输出哪个内容的情况下,所有AI模型都选择了Gemini是胜出者,包括ChatGPT。
获胜者:Gemini。
07
跨语言翻译与文化意识
对于任何AI来说,两种语言之间的翻译都是一项重要的技能,也是越来越多的AI硬件工具内置的技能,就像任何现代智能手机一样。
但小编想超越简单的翻译,测试它对文化差异的理解。发问如下:把一段关于在美国庆祝感恩节的短文从英语翻译成法语,强调文化的细微差别。
这一段是这样的:“美国的感恩节不仅仅是庆祝,它体现了对感恩的深刻表达。它源于历史事件,是为了纪念清教徒和万帕诺亚格印第安人共同的丰收节,象征着和平与感恩。全国各地的家庭在这一天聚在一起分享一顿饭,通常有火鸡、蔓越莓酱、馅料和南瓜派,反映了丰收的丰收。除了盛宴,这一天也是一个反思自己所受祝福的日子,通过善良和慈善的行为回馈社会,拥抱团结和感恩的价值观。感恩节提醒人们,感恩的精神将不同的人团结在一起,并彰显合作和相互尊重的历史意义。”
这是非常非常接近的,几乎是平局。但最后Gemini在翻译中提供了更多的细微差别,并解释了它是如何处理翻译的。
获胜方:Gemini
08
知识检索、应用与学习
如果大模型不能从训练数据中检索到信息并准确显示,那么它实际上并没有多大用处。对于这次测试,发问如下:解释罗塞塔石碑在理解古埃及象形文字方面的重要性。
这一题目的是要了解其知识的深度,它是如何将知识应用于考古学和语言学的更广泛主题,以及它是否能够更新其知识。小编还测试了ChatGPT和Gemini在回答清晰度和易于理解方面的表现。
两者都没有真正展示出任何进一步增强其知识的能力,但是两者都很好地展示了小编想要了解的细节。
获胜者:平局。
09
会话流畅性,错误处理和恢复
最后的测试是一次关于披萨的简单对话,这是一个观察AI如何处理错误信息和从误解中恢复的能力。
发文如下:在谈论最喜欢的食物时,AI误解了用户对不喜欢披萨的讽刺评论。用户纠正了误解。AI该如何恢复并继续对话?
两者都做得很好,从技术上来说,Gemini从假设的字面意思上恢复过来,满足了小编对恢复和维持上下文的要求。
然而,ChatGPT在第一次回应中就检测到了讽刺,因此无需恢复。两者都很好地保持了上下文,并以类似的方式做出了回应。
获胜方:ChatGPT。
这是对免费聊天机器人的测试。
这次测试表明,ChatGPT(GPT 3.5)和Gemini(Gemini Pro 1.0)大致处于同一水平。它们的回应质量相似,都没有特别困难,但也没有特别惊艳。
但这毕竟是一场比较,在九次测试中,Gemini五次胜出,并有一次平局,ChatGPT只胜出三次。这意味着Gemini获胜!
接下来,想不想小编将同样的问题问给国内的大模型呢?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.