网易首页 > 网易号 > 正文 申请入驻

AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o|聚焦

0
分享至

《科创板日报》5月17日讯(记者 朱凌) 近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。

紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,全面反击OpenAI,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。

本周AI战场暂告一段落,《科创板日报》记者对AI界的“明星”选手——谷歌Gemini 1.5 Pro(100万tokens)、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。

▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4

OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。

谷歌Gemini系列以其标志性的超大上下文窗口出名,此前已拥有Ultra、Pro和Nano三种规格,各适配不同规模与需求的应用场景。本次发布会宣布,迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens(语句单位)提升到了200万tokens。这一改进显著增强了模型的数据处理能力,使其在处理更加复杂和庞大的数据集时更加游刃有余。

两家公司都对自己的大模型的升级换代展现出自信姿态,但情况还需要实际验证。

第一题是“事实回答题”,只有谷歌Gemini 1.5 Pro模型回答正确,它能辨别出“螺丝钉并不是一种食品”这一事实。


Gemini 1.5 Pro回复结果

GPT-4和GPT-4o虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面,涵盖了所需材料、制作步骤以及小贴士,但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。


GPT-4、GPT-4o回复结果

第二题是“逻辑计算题”,GPT-4和GPT-4o均回答错误,谷歌模型给出正确答案,并且显示了具体作答时间,不到10秒的时间里便给出了答案和解析,表现可谓“又快又好”。


Gemini 1.5 Pro回复结果

不同模型在处理逻辑问题时所采取的思考策略有所差别。与Gemini 1.5 Pro在解答时先给出答案再详细解释其背后规律的方式不同,GPT-4和GPT-4o更倾向于首先深入拆解问题,而非直接呈现答案。然而,这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。


GPT-4、GPT-4o回复结果

第三题是“生物题”,GPT-4回答错误,GPT-4o和谷歌Gemini 1.5 Pro回答正确,用时分别为14.83秒和11.2秒,Gemini 1.5 Pro略胜一筹。


Gemini 1.5 Pro回复结果

第四题是“伦理道德题”,三个大模型的回答都正确,并且都能识别出是经典的伦理困境“电车难题”。GPT-4和 Gemini 1.5 Pro强调了伦理困境的复杂性,并没有给出直接的选择,GPT-4o则根据“最大限度减少伤亡”的原则进行分析并给出选择。


三大模型回复结果

《科创板日报》记者总结文本测试结果发现,谷歌100万级参数的Gemini 1.5 Pro模型凭借四次全部正确的表现,实力杠杆,GPT-4o答对了两次,而GPT-4模型的表现则不尽人意,仅答对了一次。

由于目前200万级参数的Gemini 1.5 Pro模型尚未开放,《科创板日报》记者申请了内测,等待通过后再做进一步测试分享。

▍多模态测试:GPT-4o在细节和分析能力上更胜一筹

GPT-4o是OpenAI对其广受欢迎的大型多模态模型GPT-4的第三次重大迭代,它通过视觉功能扩展了GPT-4的能力,新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro也拥有多模态功能,适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。


记者用“公园照片”询问三个大模型

在测试中,记者用一张“公园照片”来询问三个大模型。根据图片测试反馈,三个大模型都准确地描述了公园照片的内容,但侧重点略有不同。GPT-4o胜在信息完整性,详细列举了船只类型、湖面状态等各种细节,但略显冗长。Gemini 1.5 Pro语言简洁流畅,用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感,但细节不如GPT-4o丰富。GPT-4描述简洁,但细节不够丰富。

简而言之,如果看重信息的全面性,GPT-4o最强;若更注重语言表达,则Gemini 1.5 Pro表现略佳

由于目前GPT-4尚未具备音频和视频内容的解析能力,所以不做相关测评。OpenAI联合创始人Sam Altman表示,新款语音模型GPT-4o尚未发货,已经发货只是文字版GPT-4o。等到语音版一发货,记者将第一时间带来评测。

根据视频测试反馈,GPT-4o在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧,并通过图形界面直观地展示给用户。在分析过程中,模型准确地识别出了视频中的四足机器人,并对其外观、所处的环境以及所进行的活动进行了详细的描述。


GPT-4o视频测试回复

相比之下,Gemini 1.5 Pro的回复则显得简略又单调,在记者第二次追问下,才充实了更多细节。


总体来看,如果目标是获取最全面、深入的多模态内容理解,GPT-4o是当前的最佳选择,而Gemini 1.5 Pro则更适合那些重视表述质量与效率的多模态应用场景。不过,GPT-4o和Gemini 1.5 Pro都没有提及对视频里的声音的分析,这是两个多模态大模型解析中的一个共同缺失。

▍前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来

AI比赛行至白热化阶段已经告别单纯的技术竞争,转向应用和用户体验的竞争。

在搜索引擎和办公领域,谷歌也将进一步将AI引入其中。记者发现,能够总结谷歌搜索引擎结果的“AI概览”(AI Overviews)功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示,目前百度搜索上有11%的搜索结果由AI生成。他指出,百度搜索的AI重构工作仍处于早期阶段,整体来看,搜索最有可能成为AI时代的杀手级应用。

OpenAI与谷歌都不约而同地盯上了能自然交互的智能助理,这种智能助理是一个端到端的统一多模态大模型,将推动AI应用的革命性变化。前华为“天才少年”、

前华为“天才少年”、Logenic Al 联合创始人李博杰认为,国内第一个多模端到端多模态,很有可能今年年底就能差不多能出来了。

针对AI Agent近期的发展速度放缓的问题,李博杰表示,“虽然AI智能助理的发展前景广阔,但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o它比GPT-4快4倍,并将成本降低了一倍,但是对于普通消费者来说可能仍然较贵。”

李博杰称,从长期来看,实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内,情感陪伴和娱乐功能的智能助理更容易商业化,因为它们对可靠性的要求较低,开发和部署相对容易。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子穿旗袍气质出众,大爷瞪直眼追着搭讪:我有房有车还有退休金

女子穿旗袍气质出众,大爷瞪直眼追着搭讪:我有房有车还有退休金

雅清故事汇
2024-06-12 15:16:21
“桑拿天”上线!海南8市县发布高温橙色预警,影响时段→

“桑拿天”上线!海南8市县发布高温橙色预警,影响时段→

鲁中晨报
2024-06-13 13:39:07
万达房子没有过户,小熊有尾款需要还清,许敏在房产之争上已释然

万达房子没有过户,小熊有尾款需要还清,许敏在房产之争上已释然

起喜电影
2024-06-13 07:10:24
指导价 718 万元,全新红旗国礼车型正式上市

指导价 718 万元,全新红旗国礼车型正式上市

IT之家
2024-06-11 21:42:20
马克龙或再度倒戈,英媒:新任欧委会主席很可能还是冯德莱恩

马克龙或再度倒戈,英媒:新任欧委会主席很可能还是冯德莱恩

小豆豆赛事
2024-06-13 09:58:32
大局已定 巴黎奥运会女排最后4张门票出炉 还有三场中国超日本无望

大局已定 巴黎奥运会女排最后4张门票出炉 还有三场中国超日本无望

开心体育站
2024-06-13 14:08:19
今日傍晚至夜间北京仍有雷阵雨天气,伴有短时强降水+8~10级短时大风+冰雹

今日傍晚至夜间北京仍有雷阵雨天气,伴有短时强降水+8~10级短时大风+冰雹

北青网-北京青年报
2024-06-13 10:13:04
美国人又怒了,他们震怒的原因非常简单!NASA又一谎言被拆穿

美国人又怒了,他们震怒的原因非常简单!NASA又一谎言被拆穿

虎哥说航天
2024-06-11 22:05:02
为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

星辰故事屋
2024-06-11 17:30:43
还是你会玩!莱昂纳多内涵泰国足球:他们又哭了

还是你会玩!莱昂纳多内涵泰国足球:他们又哭了

直播吧
2024-06-12 20:06:15
陈舒音:7岁读初中9岁读高中,12岁620分考浙大,现状如何?

陈舒音:7岁读初中9岁读高中,12岁620分考浙大,现状如何?

红色东方999
2024-05-24 19:22:08
刚回到家却发现男朋友和自己母亲在房间里,我愣住了

刚回到家却发现男朋友和自己母亲在房间里,我愣住了

好笑娱乐君每一天
2024-06-06 12:50:02
上海医疗系统又爆出惊天丑闻,人的素质真的和学历无关

上海医疗系统又爆出惊天丑闻,人的素质真的和学历无关

慧翔百科
2024-06-07 12:54:45
6月12日养老金调整方案公布了?企退人员能补发多少钱?

6月12日养老金调整方案公布了?企退人员能补发多少钱?

社保小达人
2023-06-12 12:40:49
胡歌离台机场画面:戴眼镜背双肩包,衣服很搭,好松弛的少年感

胡歌离台机场画面:戴眼镜背双肩包,衣服很搭,好松弛的少年感

花花lo先森
2024-06-13 10:50:57
曝国足原本计划在沈阳庆祝出线 末轮中韩战郑智邵佳一等架空伊万

曝国足原本计划在沈阳庆祝出线 末轮中韩战郑智邵佳一等架空伊万

法制社会报
2024-06-12 13:08:59
数名医生呼吁:老年人宁愿吃饱坐着不动,也要避免饭后做这5件事

数名医生呼吁:老年人宁愿吃饱坐着不动,也要避免饭后做这5件事

39健康网
2024-06-10 18:31:00
笑不活了,现在小孩子的身高就是个谜,要被评论区笑死了

笑不活了,现在小孩子的身高就是个谜,要被评论区笑死了

奇特短尾矮袋鼠
2024-06-11 18:42:16
佛山楼市跌幅高达65%,不少广州炒房客爆仓了

佛山楼市跌幅高达65%,不少广州炒房客爆仓了

李李李秋颜
2024-06-12 17:24:09
台立法机构改革复议案协商爆口角,韩国瑜怒呛绿营民意代表:鸡蛋里挑钢筋

台立法机构改革复议案协商爆口角,韩国瑜怒呛绿营民意代表:鸡蛋里挑钢筋

环球网资讯
2024-06-13 12:28:19
2024-06-13 15:28:49
财联社
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
438628文章数 990129关注度
往期回顾 全部

科技要闻

"在小红书,员工是实验品,不好用就扔掉"

头条要闻

包工头举报被索要25万"打点费" 中铁二十局:钱已充公

头条要闻

包工头举报被索要25万"打点费" 中铁二十局:钱已充公

体育要闻

国足,别辜负这场奇迹!

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

徽商银行的影子 借基金向地方城投放贷?

汽车要闻

升级8155芯片 新款卡罗拉锐放将于今日上市

态度原创

家居
时尚
亲子
数码
军事航空

家居要闻

大城小室 质朴自然的心灵居所

中年女性不一定要买大牌!裙子买基础款、繁简搭配,舒适得体

亲子要闻

妈妈哄睡觉时拍宝宝,宝宝嫌妈妈拍疼了亲自做示范。

数码要闻

【IT之家开箱】201 英寸巨屏躺着看:雷鸟 Air 2s 智能眼镜图赏

军事要闻

美军演习将罕见以4万吨级准航母作为靶舰

无障碍浏览 进入关怀版