网易首页 > 网易号 > 正文 申请入驻

OpenAI一夜之间革了Siri和同传的命,GPT-4o五大核心能力炸场!

0
分享至

  

  作者 | 月山橘 石濑‍‍‍‍

  编辑 | 张洁‍‍

  OpenAI真憋了个大的。

  

  美国当地时间5月13日上午10点(北京时间5月14日凌晨1点),OpenAI春季发布会如约而至,没有GPT-5,没有搜索引擎,但推出了一个新的旗舰模型:GPT-4o。

  “o”是Omni的缩写,意为“全能”,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。

  从直播演示来看,GPT-4o的多模态、实时交互能力,已经足够惊艳到让人直呼科幻电影《her》真的变成了现实。

  

  值得划重点的是,GPT-4o和ChatGPT Plus会员版所有的能力,将免费向所有用户开放!

  不过,GPT-4o的新语音模式在未来几周内会优先对ChatGPT Plus会员开放。

  此外,GPT-4o也向开发者开放了API。与GPT-4 Turbo相比,GPT-4o价格减半,但速度却快了2倍,速率限制高出5倍。OpenAI称,接下来会向部分API合作伙伴提供新的音频和视频功能支持。

  GPT-4o到底有多强?昨晚“头号AI玩家”全程围观直播,现在让我们来一起回顾下其中细节。

  

  GPT-4o惊艳面世,

  核心能力全盘点

  01.零延迟实时语音交互,自然真实富有情感

  首先是零延迟实时语音交互,在这个环节,GPT表现得像是富有情感的真人。

  在直播演示过程中,演示者Mark对GPT-4o说:“我正在做demo,我有点紧张。”然后他开始故意喘息得非常急促,GPT-4o很快识别出了他的呼吸声,告诉他:“哦,哦,哦,别紧张,慢下来,你不是个吸尘器。”并指导他调整呼吸。

  整个过程中,GPT-4o的语气都非常自然、真实、富有情感,你可以随时打断它,要求它调整语气和音调。

  另一位演示者让GPT-4o讲一个关于“机器人与爱”的睡前故事。刚讲一句,Mark Chen就打断了它,说它讲故事的语气不够有情感。GPT-4o调整过后,Mark Chen又很快打断它,要求它情绪再饱满再drama一点,然后GPT-4o的情绪又上了一个台阶,甚至可以说是浮夸的程度。

  然后,演示者要求它切换成机器人声音,GPT-4o的声音和语气立马变得冷漠和机械。

  这还没完,演示者又让GPT-4o用唱歌的方式把故事讲完,GPT-4o当场把故事改编成了一首歌,并直接唱了出来,节目效果拉满。

  相比之下,ChatGPT的语音模式平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4),这无疑会破坏对话的沉浸感。

  此外,由于模型需要先将语音转录为文本,GPT-3.5或GPT-4接收处理并输出文本,再将文本转换为语音,所以GPT-3.5或GPT-4无法直接获知语气、音调、背景噪音等信息,也无法输出笑声、歌声或表达情感。

  02.通过摄像头视觉传达内容,在线解方程式

  除了语音交互外,还可以通过视觉+语音的形式,如实时视频、上传图片等方式,与GPT-4o进行多模态交互。

  发布会上,OpenAI展示了GPT-4o通过多模态能力帮助用户解决数学题的完整过程。

  

  视觉解析图形报表也手到擒来。OpenAI官方博客中,用户一边和GPT-4o语音,一边在平板上画图,根据语音信息,解几何数学题。

  

  03.更智能的保姆级编程助手

  用GPT-4o来实时编程,也比以前的纯文本形式或上传图片进行文字对话的方式,更有交互感。

  官方演示中, OpenAI使用电脑桌面端GPT-4o来检查代码,它不仅可以解释代码的作用,还可以告诉用户如果调整特定代码会发生什么。

  通过一步又一步的实时问答沟通,GPT-4o可以帮助用户提高编程效率,整个过程相当丝滑。

  

  超强的实时语音+视觉交互能力,运用在编程辅助上,以后还要啥程序员鼓励师。

  04. 视频通话,实时分析面部情绪

  演示者还在X上实时收集了网友的反馈,其中有人提出挑战:打开摄像头,看GPT-4o能不能实时分析面部情绪。

  演示者先是打开了后置摄像头,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起来是个桌子。”

  在切换为前置摄影头后,演示者的脸出现在与GPT-4o进行交互的界面,一整个打视频电话的即视感。

  GPT-4o立刻说:“你看起来非常开心,有大大的笑容,你想分享一下让你这么开心的原因吗?”语气中甚至能听出一丝好奇和试探。

  演示者回答道:“因为我在做实时演示,让大家看看你有多出色。”

  GPT-4o带着笑声说:“拜托,别害我脸红了。”

  看到这,“头号AI玩家”脑海里不禁回响起Samantha与Theodore之间的恋人絮语。

  《Her》真的变成现实了。

  0 5. 同声传译,支 持多国语言

  目前,ChatGPT支持超过50种语言。据介绍,GPT-4o的语言能力在质量和速度上都得到了改进。

  官方演示中,一个人说英语,另一个人说西班牙语,通过语音指示GPT-4o实时翻译,两人实现了流畅的沟通。GPT-4o基本上只在开头停顿了1~2秒,在句子中没有出现停顿、卡壳等现象。

  

  不过,有点bug的是,由于GPT-4o是中间的沟通媒介,导致两位对话者并没有直接看对方,而是都看向了手机。未来或许会有新型设备出现,利用AI技术让使用不同语言的人们能够更自然地进行交流。

  

  变革人机交互,

  但还不是GPT-5

  OpenAI首席技术官Mira Murati在直播中介绍,GPT-4o是标志性产品GPT-4模型的一个迭代版本:提供了GPT-4级别的智能,但速度更快,并改进了其在文本、语音和视觉方面的能力。

  OpenAI首席执行官Sam Altman发帖称该模型是“原生多模态”的,在文本、视觉和音频上端到端地训练了一个新模型,GPT-4o所有输入和输出都由同一个神经网络处理。

  根据官方博客介绍,在基准测试中,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力上设定了新的标准。

  

  图源:OpenAI官网

  OpenAI计划在未来几周内逐步推出GPT-4o的各项能力。其中,文本和图像能力将从发布会后当天开始在ChatGPT中推出,Plus用户可以抢先体验,并拥有相比免费用户多高达5倍的消息限制。带有GPT-4o新版本语音模式也将在未来几周内在ChatGPT Plus中推出。

  针对免费用户,OpenAI也主打一个“雨露均沾”,在接下来的几周内会面向所有用户,推出GPT-4o及其相关功能:

1.体验GPT-4级智能 2.从模型和网页获取响应(联网了) 3.分析数据并创建图表 4.支持上传照片进行交互 5.上传文件以帮助总结、撰写或分析 6.发现和使用GPT和GPT商店 7.可自定义控制的ChatGPT“内存”(拥有更强的“记忆力”)

  目前已经体验到GPT-4o的玩家告诉我们:体验太丝滑了!后续“头号AI玩家”也将跟进更详细的玩法评测。

  当然,炸场的不只是OpenAI,在这个被称为全球“AI月”的5月,肉眼可见地,我们还将迎来谷歌的I/O开发者大会、微软Build年度开发者大会、英伟达一季报发布等AI领域重要事件。

  此外,预计6月10日举办的苹果WWDC大会或将推出全新AI应用商店,并可能升级Siri语音助手,引入新的生成式AI系统。

  试猜想,如果苹果真的顺利与OpenAI达成合作,GPT-4o被引入到iPhone设备端,取代(或升级)Siri,似乎也是顺理成章的事。

  总的来说,相比图形用户界面,GPT-4o近乎实时的语音和视频交互体验,标志着人机交互迎来了新的变革,更自然、更直观的交互体验,已经非常接近我们在科幻片里看到的人工智能,斯派克·琼斯导演的科幻电影《Her》也因此被频频提及。

  猎豹移动董事长兼CEO傅盛甚至连夜录制视频夸OpenAI在“大家都在拼大模型的参数和性能时,OpenAI杀了个回马枪,认真地做起了整合和应用”。

  

  看完今天OpenAI的发布,很难想象谷歌明天得拿出多大的杀手锏,才能摆脱“AI届汪峰”的命运。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对等反制,中国业界请求提高油车进口税至25%,德意当即宣布访华

对等反制,中国业界请求提高油车进口税至25%,德意当即宣布访华

前沿天地
2024-06-17 17:15:40
南京杀妻案吉星鹏被判处死刑,临刑前他全身抽搐流泪不止

南京杀妻案吉星鹏被判处死刑,临刑前他全身抽搐流泪不止

一度历史观
2024-06-14 12:56:49
国足痛失天才球员,国足名宿之子选择为日本效力,成日本豪门核心

国足痛失天才球员,国足名宿之子选择为日本效力,成日本豪门核心

小豆豆赛事
2024-04-24 07:30:46
丁进勇辞去越共中央政治局委员和河内市委书记职务

丁进勇辞去越共中央政治局委员和河内市委书记职务

新华社
2024-06-19 22:21:04
丰田造了一辆全球SUV!2.0L/2.5L双擎,30天卖出2.6万辆,仅12万

丰田造了一辆全球SUV!2.0L/2.5L双擎,30天卖出2.6万辆,仅12万

米粒说车唯一呀
2024-06-19 09:02:29
斯坦福博士考公后续:报考原因及家世曝光,知情人透露其勉强毕业

斯坦福博士考公后续:报考原因及家世曝光,知情人透露其勉强毕业

洛洛女巫
2024-06-18 12:07:20
新华社快讯:以色列军方18日批准对黎巴嫩真主党发动进攻的“作战计划”。

新华社快讯:以色列军方18日批准对黎巴嫩真主党发动进攻的“作战计划”。

新华社
2024-06-19 03:09:04
1968年,张大千的四姨太徐雯波,正恭敬地跪在地上拜师

1968年,张大千的四姨太徐雯波,正恭敬地跪在地上拜师

视点历史
2024-06-15 17:59:58
将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

娱乐圈十三太保
2024-05-28 13:56:53
甘肃一女博士刚生完孩子,丈夫就冲进房间将其割喉:大快人心

甘肃一女博士刚生完孩子,丈夫就冲进房间将其割喉:大快人心

青丝人生
2024-05-24 20:04:21
工地上的临时夫妻生活,是农民工在城市边缘的温情还是生存的无奈

工地上的临时夫妻生活,是农民工在城市边缘的温情还是生存的无奈

小鱼滑
2024-04-26 00:25:56
【硬件资讯】固态硬盘有望降价?铠侠全面恢复生产,火力全开!主控厂商带来更廉价PCIe 5.0主控!

【硬件资讯】固态硬盘有望降价?铠侠全面恢复生产,火力全开!主控厂商带来更廉价PCIe 5.0主控!

电脑吧评测室
2024-06-18 22:06:51
张维为被殴打?是夜郎自大还是不懂“国情”?

张维为被殴打?是夜郎自大还是不懂“国情”?

兵叔评说
2024-06-13 13:02:56
浅聊近期的查税

浅聊近期的查税

爱看剧的阿峰
2024-06-19 20:06:10
菲律宾特种兵被缴械细节公开,菲将军:中方海警挥舞大刀登船而来

菲律宾特种兵被缴械细节公开,菲将军:中方海警挥舞大刀登船而来

文雅笔墨
2024-06-19 19:06:56
38岁博尔特现状:与1米55女友生了3孩子,每年领400万美元至终身

38岁博尔特现状:与1米55女友生了3孩子,每年领400万美元至终身

十点街球体育
2024-06-17 17:25:31
上行带宽骤降到5Mbps,网友发现宽带被添加PCDN业务

上行带宽骤降到5Mbps,网友发现宽带被添加PCDN业务

壹零社
2024-06-19 16:41:56
大雨、暴雨!河南大范围降水要来了!

大雨、暴雨!河南大范围降水要来了!

环球网资讯
2024-06-19 14:42:16
出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应?

出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应?

老白调研室
2024-01-23 12:11:51
万万没想到!一个底薪落选秀,总决赛命中11个三分,和东契奇一样

万万没想到!一个底薪落选秀,总决赛命中11个三分,和东契奇一样

球毛鬼胎
2024-06-19 19:43:42
2024-06-20 00:18:44
头号AI玩家
头号AI玩家
做内容从业者关心的AI研究
34文章数 6关注度
往期回顾 全部

科技要闻

618观察:谁为高强度的低价竞争买单?

头条要闻

胖东来"爆改"的永辉超市营业挤满顾客:员工月薪涨千元

头条要闻

胖东来"爆改"的永辉超市营业挤满顾客:员工月薪涨千元

体育要闻

欧洲杯最大的混子,非他莫属

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

深化科创板改革 证监会发布八条措施

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

家居
艺术
房产
健康
军事航空

家居要闻

自然开放 实现灵动可变空间

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

房产要闻

17.9亿!终于,有民企在三亚大手笔拿地了!周边房价10万+!

晚餐不吃or吃七分饱,哪种更减肥?

军事要闻

以色列涉嫌在加沙使用重型炸弹 或多次违反战争法

无障碍浏览 进入关怀版