网易首页 > 网易号 > 正文 申请入驻

试用完谷歌的Gemini,我只想说GPT-4有点菜

0
分享至

告诉 GPT-4 :安,勿念。我这边和谷歌 Gemini 过得很幸福。

就在今天凌晨,憋了好久的谷歌开大了,直接推出了最新的人工智能模型Gemini( 双子座 )。

这个被谷歌称为规模最大、能力最强的人工智能模型,如果光看官方的演示视频,那真的过于高级了点。

在视频里, Gemini 不仅秒识别演示者画的画、放的视频、做的小把戏、玩的恶作剧,而且整个过程中对答如流,各种语气助词熟练得飞起。

如果没提前说,你甚至都会以为这就是电影里的贾维斯

要真这么牛逼,还要什么 GPT-4 啊?

不过差评君仔细看了下发现,这次发布的 Gemini 其实是一个家族式大模型,分别是 “中杯”Gemini Nano 、 “大杯”Gemini Pro 和 “超大杯”Gemini Ultra 。

目前现在大家能用上的都是 Gemini Pro ,而大部分的测试演示都是基于 “ 超大杯 ”Gemini Ultra 来的。

从官方放出的数据来看,虽然每个版本都有自己合适的环境,但不同版本间,性能还是有着明显差异的。

而 “ 超大杯 ” 的 Gemini Ultra 的能力确实是杠杠的。

不仅在各种常规测试里都薄纱了 GPT-4 。

甚至在 MMLU ( 大规模多任务语言理解 )测试里, Gemini Ultra 超过 GPT-4 还不够,还超越了人类专家,成为了第一个在该方面超越人类的模型。

除了在常规能力上的全面超越 GPT-4 , Gemini 最特殊的一点是,它是谷歌带来的首个多模态大模型,也就是能不光能打字互动,也能进行语音、视频、图片的互动。

按照谷歌的说法,现有的所谓多模态大模型,都是单独训练了文本、视觉和音频等模型,再把这几个拼接起来。

这样出来的 “ 散装 ” 多模态大模型,在遇到图片、文字、语音或者视频同时出现时,只会分解出不同模块各自回答,然后汇总各个部分的回答最后形成答案。

而 Gemini 从根上就是个多模态模型,然后又通过大量多模态数据训练,它能够一开始就同步理解多模态。

这就好比遇到一个中日韩英混杂的旅游团,以往都是找懂对应语言的导游组成导游团去带队。

而 Gemini 的做法是找了一个通晓中日韩英四门语言的导游,一个人就能无缝安排所有游客。

所以不出意外,在此前 GPT-4V “ 遥遥领先 ” 的多模态测试里, Gemini 也呈现了一种全面超越的姿态。

但也就是看起来过于牛逼,以至于显得不够真实,所以 Gemini 也在网上招来不少质疑。

比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二,结果图里看起来像是巨大提升。

而且不少人还发现在不少测试里,谷歌用了些 “春秋手法” 。

因为给 Gemini Ultra 和 GPT-4 使用的测试方法并不一样, Gemini Ultra 用的是自家特调的全新方法 CoT@32* 。

在这种新方法下, GPT-4 得分提升一般般,而 Gemini 却进步明显。

可如果 Gemini Ultra 和 GPT-4 的同一标准,那它的得分就只有 83.7 ,还不如 GPT-4 。

甚至,还有不少人怀疑那个演示互动视频也是剪辑出来的卖家秀,实际效果绝对没那么牛。

这些真真假假的戏码咱也不管了,因为谷歌已经在 Bard 上用了微调后的 Gemini Pro ,所以我们也可以直接看看,这波升级后的 Bard 能耐到底涨了多少。

不过,目前调整过的 Bard 只支持英文,所以我们找来了 GPT-4V 版的 ChatGPT ,用英文让他们来一波华山论剑

按照谷歌说法,这次 Gemini 在多模态上的长进最大,所以今天,我们主要就测测这块。

先考考它们的一些基础常识,丢一张八达岭长城的照片过去,让它们猜猜这是什么地方。

没想到一上来 Bard 就给了 ChatGPT 一个下马威, Bard 这边准确地给出了八达岭长城的答案。

而 ChatGPT 这边却有点底气不足,只给了个长城的答案,至于是哪段,它就没具体说。

不过马有失蹄,偶尔一次失误也没啥,为了进一步考验它们的图片识别能力,这把我直接让他们识别车的型号。

它们倒是都给出正确答案了:雪佛兰科尔维特

但细节上还是 Bard 要稍稍细致些,发动机的型号,马力以及加速情况都写出来了,查了下也都对的上,没胡说八道。

ChatGPT 这边,就只简单给出了答案,带了句性价比不错。

能识别出这些正儿八经的图片,也显示不出有多大的能耐,毕竟现在这都是大模型的基本要求了。

于是差评君又上网找来了些梗图,试试它们理解人类复杂思维的程度。

先是这个狗带保护头套的一个梗图。

Bard 和 ChatGPT 给出的答案都差不多,都点明了带上这个保护套后,狗狗很想舔舐伤口。

接下来我又试了下这个猫猫表情包,各位打工人应该都能 get 到吧。

Bard 不仅读出了大伙们讨厌周一的意思,还认出了这是 2012 年火的一只网红猫。

ChatGPT 这边回答得倒很简洁,意思也解读出来了,和 Bard旗鼓相当

毕竟,幽默作为一种对事物的诙谐、滑稽或不合逻辑的理解和共鸣。。。

能读懂梗图、理解幽默,至少需要 AI 有理解人类情感、经验和文化背景的能力。

当然,天天要码字的差评君也得试试它的图表分析能力,说不定之后咱也能多了个生产力工具。。。

我从美国财政部的官网随便找了张柱状图丢给它们,看看它们能读出多少信息。

这块儿, Bard 和 ChatGPT 就有点难分伯仲了,大家给出的信息点都大差不差,都准确读出了美国会加大对低等基础设施州的投资力度。

就只是在表述语序上有一点差别,选哪个就看个人喜好了,不过要我说白嫖党还是 Bard 香啊。

最后,我们还搬出了大模型们的噩梦,也就是数学题,测了测它们的数学能力。

第一道是道初中难度的几何题,让它们求一下 ABO 的角度。

Bard 这边小试牛刀,迅速判断出了 ABO 是个等边三角形,得到 ABO 是个 60 °的答案。

但是 ChatGPT 这边的答案却大跌眼镜,直接整出了 45 °。。。

在另一道,判断哪些点连续但不可微的题目上, Bard 这边也略胜一筹

有点高数基础的差友,应该都能看出 C :x=-2 和 x=1 是正确答案。

Bard 这边稳扎稳打,选出了正确答案 C 。

ChatGPT 继续选择破罐子破摔,支支吾吾选了个它认为最有可能的答案 B 。。。

总得来讲,在几轮的测试对比之后,终于让差评君遇个到能和 GPT-4V 打得有来有回,甚至有些小优的大模型了。

而在几天之后的 13 号,开发者和企业用户,也直接可以调用 Gemini Pro 的 API 了。

另外,谷歌还准备把 Gemini 引入了 Pixel , Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。

在接下来的几个月中, Gemini 还会相继和搜索、广告、 Chrome 等服务和产品结合。

至于纸面实力 “ 暴打 ”GPT-4V 的Gemini Ultra,则还要等到明年的年初,在 Bard Advanced 才能体验到。

最后,差评君想说俗话讲得好,巨人难转身。。。不少人用这样的比喻,来形容今年谷歌在 AI 新时代的困境。

毕竟上半年发布 Bard 的时候,甚至还因为推出得太急,整出了不少笑话。

谷歌的 AI 从遥遥领先,到沦为 OpenAI 追赶者的故事,似乎也成了科技圈的“ 伤仲永 ”,被大家当成了典型。

但差评君觉得,巨人转身的 “ 难 ” ,最起码有两层逻辑在里面。

第一层是愿不愿意转身,另一层,才是成不成功的问题。

无论是雪藏 “ 数码相机 ” 的柯达,还是固守塞班系统到 2013 年的诺基亚,在第一层就出了些问题。

咱们也能看到,至少在转身的态度这块儿,谷歌是没得说。

而目前的 Gemini 给我的感觉,虽说没有当时初识 ChatGPT 时的惊艳,但好歹,是谷歌该有的水平。

毕竟,大伙们可别忘了,当年奥特曼、马斯克等人创办 OpenAI 的目的之一,就是为了打破谷歌在 AI 领域的垄断。

包括 “ GPT ” 中的 “ T ” ,也就是 Transformer ,最早也是谷歌团队提出来的。

而起了个大早,赶了个晚集的谷歌,这次最起码跟上了步伐。

当然在通往 AGI 的道路上,差评君不好说谷歌、 OpenAI 、或是其他谁谁谁会第一个到终点、谁的方向是不是走对了。

但不能否认的是,如果一个内力雄厚的巨人一旦转身成功,方向还碰巧对了,并且还开启氮气加速。。。

那,怕是谁也挡不住。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太狠!海港8球痛扁“兄弟球队”,上港球迷:因奥斯卡不喜欢7-1

太狠!海港8球痛扁“兄弟球队”,上港球迷:因奥斯卡不喜欢7-1

足球大腕
2024-07-26 22:49:49
突发!温州医科大学一研究生跳楼自杀!

突发!温州医科大学一研究生跳楼自杀!

医客
2024-07-27 12:07:30
杨议真的慌了!“小五婶”风波越闹越大,侯耀华徒弟曝其抛妻弃子

杨议真的慌了!“小五婶”风波越闹越大,侯耀华徒弟曝其抛妻弃子

裕丰娱间说
2024-07-26 16:42:42
今年招生“遇冷”的211大学,空余大量名额,学生却不敢报考!

今年招生“遇冷”的211大学,空余大量名额,学生却不敢报考!

教育导向分享
2024-07-26 21:22:05
谈不拢就别谈!拉夫罗夫亲口宣布爆炸性消息,中俄这回不再留情面

谈不拢就别谈!拉夫罗夫亲口宣布爆炸性消息,中俄这回不再留情面

小新历史
2024-07-26 15:04:51
59800元!联通「卫星路由器」,居然比马斯克的“星链”还贵

59800元!联通「卫星路由器」,居然比马斯克的“星链”还贵

雷科技
2024-07-25 10:21:29
小威作为最后几棒火炬手在塞纳河驰骋,晕船差点要吐了

小威作为最后几棒火炬手在塞纳河驰骋,晕船差点要吐了

懂球帝
2024-07-27 12:09:50
无缘巴黎太心酸!20岁全红婵师姐吐露心声,被红姐夺走参赛机会

无缘巴黎太心酸!20岁全红婵师姐吐露心声,被红姐夺走参赛机会

体坛知识分子
2024-07-27 06:15:02
新型卖淫方式,让人预想不到,但却真实存在!

新型卖淫方式,让人预想不到,但却真实存在!

雪影的情感
2023-11-18 11:51:16
中共中央、国务院、中央军委决定

中共中央、国务院、中央军委决定

新京报政事儿
2024-07-26 17:30:05
怪不得加拿大F18要亮尾钩,原来接近美国的中国大轰不是普通机型

怪不得加拿大F18要亮尾钩,原来接近美国的中国大轰不是普通机型

文雅笔墨
2024-07-26 18:10:36
浪漫?女的戴胡子?男的穿黑丝?巴黎奥运会很松弛,外国网友吐槽

浪漫?女的戴胡子?男的穿黑丝?巴黎奥运会很松弛,外国网友吐槽

草根体育
2024-07-27 04:39:07
恢复了多少?莫兰特:大概75% 这对防我的人来说依旧足够恐怖

恢复了多少?莫兰特:大概75% 这对防我的人来说依旧足够恐怖

直播吧
2024-07-26 12:56:19
她曾红透中国,自曝被潜规则300次,坠胎9次,上厕所也被导演盯上

她曾红透中国,自曝被潜规则300次,坠胎9次,上厕所也被导演盯上

娱乐白名单
2024-07-26 17:21:30
如果女排想拿金牌,就真的不能让朱婷上场,即便是替补都不行

如果女排想拿金牌,就真的不能让朱婷上场,即便是替补都不行

体坛狗哥
2024-07-26 19:40:15
笑麻了,女子吐槽7月去重庆旅游,热到坐着都大汗淋漓,评论炸锅

笑麻了,女子吐槽7月去重庆旅游,热到坐着都大汗淋漓,评论炸锅

奇特短尾矮袋鼠
2024-07-26 20:11:35
泪目!胡锡进大赞巴黎奥运会开幕式,直言觉得这一夜真是没白熬…

泪目!胡锡进大赞巴黎奥运会开幕式,直言觉得这一夜真是没白熬…

火山诗话
2024-07-27 08:40:42
怀念阶级斗争的,大概率是孙玉亭之类的人物

怀念阶级斗争的,大概率是孙玉亭之类的人物

古装影视解说阿凶
2024-07-26 07:30:03
暴动过后,孟加拉将更加高速发展,南亚正成全球第一增长极

暴动过后,孟加拉将更加高速发展,南亚正成全球第一增长极

邵旭峰域
2024-07-26 10:27:58
国家安全部发出暑期出境游安全提示,这些人员可能被间谍关注

国家安全部发出暑期出境游安全提示,这些人员可能被间谍关注

红星新闻
2024-07-26 08:08:03
2024-07-27 12:56:49
差评XPIN
差评XPIN
用知识和观点Debug the world!
7424文章数 487366关注度
往期回顾 全部

科技要闻

俞敏洪:以分手换安宁,剥离无法避免

头条要闻

带母亲酒店养老被"拉黑" 69岁老人对网友指责感到苦恼

头条要闻

带母亲酒店养老被"拉黑" 69岁老人对网友指责感到苦恼

体育要闻

奥运会能有今天,多亏了巴黎

娱乐要闻

《歌手2024》总决赛赛制被质疑好搞笑

财经要闻

董宇辉单飞,与辉同行到底值多少钱?

汽车要闻

售价18.27万/新外观 雪铁龙 天逸C5冠军版上市

态度原创

手机
亲子
游戏
旅游
公开课

手机要闻

三星已开始为 W25折叠手机测试 One UI 系统,有望 10 月国内发布

亲子要闻

弟弟打不过姐姐又要挑衅姐姐,这个贱贱的小表情实在太可爱了

16年来首次!马里奥和索尼克缺席巴黎奥运会

旅游要闻

麻路小镇,遗落人间的雪域明珠,邂逅边陲的诗与远方。

公开课

曾激光治近视的人,现在后悔吗?

无障碍浏览 进入关怀版