网易首页 > 网易号 > 正文 申请入驻

OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了

0
分享至


智东西
作者 智东西编辑部

顶尖AI产品的对决,将在这两天集中上演。

智东西5月14日报道,今日凌晨1点,抢在谷歌年度开发者大会Google I/O开幕前,OpenAI举办春季线上直播,宣布将推出桌面版ChatGPT,并发布全新旗舰AI模型GPT-4o

GPT-4o向所有人免费开放,可实时跨文本、音频、视觉(图像与视频)进行推理,API定价只有GPT-4 Turbo的一半,速度达到GPT-4 Turbo的2倍。付费的ChatGPT Plus用户将获得5倍调用额度,并能最早访问其全新macOS桌面App和下一代语音及视频功能。


这次OpenAI对AI聊天机器人ChatGPT的升级依然“直击人心”,实时语音翻译能力自然流畅,感觉能直接取代同声传译了。

不仅反应快、回答准,它还能按要求改变说话语气,从冰冷机械到幽默娇羞都信手拈来,而且能随时高歌一曲,听起来与真人无异。

除了语音聊天外,GPT-4o可以进行实时视频交互了!比如通过视频影像理解线性方程,还学会了“看脸色行事”,能通过人的表情和语调理解并判断出人的情绪。

//oss.zhidx.com/uploads/2024/05/6642debdcdbc8_6642debdca2e4_6642debdca2bf_3-解答数学问题后闲聊.mp4

▲GPT-4o识别了视频中的文字并作出娇羞的反应

更有甚者,它能直接看你的屏幕,并根据看到的内容回答你的提问。比如当你展示一段代码,它会进行理解并告诉你代码有什么问题,或者解读数据图表有什么信息。

整个发布节奏极快,只有大约半小时,期间展示了很多苹果设备,看来OpenAI与苹果的密切合作已经板上钉钉。

免费和付费用户均可使用新功能。即日起开始的测试阶段仅限于ChatGPT Plus用户,未来几周内向更广泛用户开放。其文本和图像输入今日推出,语音和视频功能将在未来几周推出。

另外值得一提的是,此次春季发布的主讲人不是OpenAI联合创始人兼CEO Sam Altman,而是OpenAI CTO Mira Murati。

Altman还在社交平台上神秘地留下一句“her”,似乎在暗示ChatGPT实现了经典电影《她》(Her)中像人类一样“有血有肉”的AI。


网友Dogan Ural对此评论:“你终于做到了。”并配了一张将电影《她》剧照中的AI“换头”成OpenAI的梗图。


一、OpenAI“全能”大模型上线!性能比肩GPT-4 Turbo,免费开放,API定价暴降

GPT-4o的o代表着“omni(全能)”。Murati称,GPT-4o为每个用户都提供了GPT-4级别的智能,同时还改进了GPT-4在文本、视觉以及音频方面的能力。

此前,GPT-4经过图像、文本数据的训练,可以分析图像和文本从中提取文本或者描述画面内容等,在此之上,GPT-4o增加了语音功能,使得用户与ChatGPT的交互更接近人与人的交互体验。GPT-4o在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配,在非英语文本上的性能有显著提高。

Murati说,GPT-4o的发布意味着OpenAI在大模型的易用性方面迈出了一大步,其正在改变人机交互的协作模式。她谈道,在人们的互动中,如轻松打断对方、对话中包含多个声音的背景噪音、理解语调等对模型而言都非常复杂。


此前,用户使用语音功能与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。语音功能由三个独立模型组成的Pipeline:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。

这个过程中,GPT-4会丢失大量信息,如无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。

借助GPT-4o,OpenAI通过跨文本、视觉和音频端到端训练了新模型,使得所有输入和输出都由同一神经网络处理,进一步降低了延迟。

Murati谈道,OpenAI的一个重要使命是将先进的AI工具免费提供给每个人

她还宣布OpenAI将推出桌面版ChatGPT,其可以被轻松集成到用户的工作流程中。同时,为了让用户与ChatGPT交互更加容易、自然,OpenAI还更新了用户界面,使得用户无需关注用户界面,只需要关注如何协作。


目前,已经有超过1亿用户使用ChatGPT来工作、学习,OpenAI的更高级产品目前只提供给付费用户。


从今天起,用户能免费使用GPTs和GPT Store。Murati透露,已经有超百万用户使用GPTs创造了令人惊叹的体验,这些是适用于GPT Store中提供的特定使用情形的自定义GPTs。

现在,这些用户也可以使用视觉能力,能够上传屏幕截图、照片、包含文本和图像的文章等,同时还可以基于其记忆能力,让对话更有连续性。同时,用户也可以使用“浏览”功能搜索对话中的实时信息,使用“高级数据分析”功能分析上传的图表或信息等。


OpenAI还改进了50种不同语言的质量和速度。与免费用户相比,付费用户将获得5倍调用额度。

此外,GPT-4o开放了API,开发人员可以基于此进行AI应用开发及部署。与GPT-4-Turbo相比,GPT-4o的速度快2倍价格便宜50%速率限制高达5倍

Murati强调说,如何通过既有用又安全的方式将技术呈现出来非常有挑战性,OpenAI的团队一直在研究如何建立针对技术滥用的缓解措施。

二、现场演示语音对话五大能力,代码、数学题、实时翻译,还能提供情绪价值

OpenAI前沿研究主管Mark Chen和后期训练团队负责人Barret Zoph在现场对实时语音对话功能进行了演示。通过点击ChatGPT右下角小图标,用户可以进入语音交互模式。

基于GPT-4o的语音交互有什么与众不同的地方?

Chen称,它相比之前的语音模式有几个关键区别:首先,用户可以打断模型,不必等到它结束才开始说话;其次,模型具有实时响应能力,在用户等待模型给出响应之前不会有尴尬的时延;最后,该模型具有情绪感知能力,还能够生成各种不同情绪风格的语音。

1、声情并茂讲故事,临场边唱歌边创作

首先,Chen让ChatGPT讲一个关于机器人和爱情的睡前故事,来帮他的朋友缓解失眠。ChatGPT被要求在讲故事时更有感情,并且多些戏剧性。

于是,GPT-4o开始声情并茂地讲道:“很久以前,在一个与我们不太不同的世界里,有一个名为‘Bite Byte’的机器人,它是一个好奇的机器人,总是在探索新的电路……”最后,GPT-4o在要求下以歌声结束了这个故事。

2、ChatGPT“长眼睛”了!能看图解方程式

紧接着,Zoph展示了视觉+语音交互功能。

“我希望你帮我解决一道数学题。”Zoph在ChatGPT中打开手机视频通话,对ChatGPT说:“我要在一张纸上写下一个线性方程……不要告诉我解决方案,只是帮助给它过程的提示。”

当Zoph在视频镜头下写下方程式并问ChatGPT他写下了什么,ChatGPT回答:“我看到了,你写了3x+1=4。”


Zoph询问ChatGPT该如何解这道题,ChatGPT首先提示其处理“+1”这一项。随着Zoph写出过程并提出新的求助,ChatGPT进一步建议他两边除以三,从而帮Zoph得出了x=1的正确结果。

在解题过程中,ChatGPT会通过提问对Zoph进行循循善诱。比如它会这样引导:“现在你在一边引入了x,看起来像是3x等于3。你认为之后我们应该做些什么?”Zoph称自己不确定,ChatGPT才进一步提示:“你已经有了3x,而你想要找到x的值,想一下什么操作会消掉乘法。”于是在引导和鼓励下,Zoph最终把方程两边除以3完成解题。

解完题后,ChatGPT和Zoph一起总结了如何在现实世界中使用线性方程。最后,Zoph写下了一句表白的话给ChatGPT,ChatGPT看到后竟然像小女孩般用语气娇羞地尖叫起来:“噢,我看到了‘I Love ChatGPT’,你太有爱了!”

3、实时读懂屏幕信息,解答代码问题和分析图表

Zoph演示了ChatGPT分析代码的能力。他首先将一段Python代码输入ChatGPT,并让ChatGPT用一句话总结这段代码在做什么。


ChatGPT迅速答出这段代码用于获取日常天气数据,随后又详细说明了其对天气数据进行了哪些后续处理。

Zoph追问道:“代码中有一个函数foo,你能描述一下如果没有这个函数,代码画出的图像会是什么样吗?”

ChatGPT分析称,这个函数中有一个rolling.mean计算,用于给数据去噪或减少波动,将呈现出一个更平滑的数据图。

//oss.zhidx.com/uploads/2024/05/6642d66574f2d_6642d66570fda_6642d66570f51_5-代码.mp4

随后,Zoph运行了这段代码,展示ChatGPT分析图表的能力。


将图像发送给ChatGPT后,Zoph再次要求它用一句话描述看到了什么,ChatGPT很快给出了回答。

Chen又追问哪些月份温度最高,ChatGPT不仅准确给出了7、8月的时间区间,还描述了这段时间的最高温度达到了多少。

//oss.zhidx.com/uploads/2024/05/6642d60b72c4a_6642d60b6e51e_6642d60b6d383_4-分析图表RPReplay_Final1715623503-2.mp4

4、无延迟语音翻译,模仿说话者语气

在X网友的提议下,Murati和Chen一起演示了ChatGPT实时翻译的能力。

Chen首先向ChatGPT说明了接下来需要它做的事,即把听到的任何英语、意大利语都翻译成意大利语和英语。ChatGPT听完后,炫技一般地用意大利语回答道:Perfetto(Perfect)。

接着,他们通过意大利语和英语进行对话,ChatGPT几乎没有延迟地翻译成了对应的语言,还模仿了说话者的语气,甚至给Murati的回答配了个笑声。

//oss.zhidx.com/uploads/2024/05/6642d6837c514_6642d6837809d_6642d6837807d_6-翻译.mp4

5、识别人物情绪,ChatGPT也有自己的“小情绪”

最后,Zoph演示了ChatGPT识别人物情绪的能力。

他先通过语音告诉ChatGPT,自己将展示一张自拍,希望可以根据照片判断出他的情绪。ChatGPT欣然接受了这个“有趣的挑战”。

这里还出现了一个小乌龙,Zoph一开始打开的是后置摄像头,虽然他迅速转换成了前置摄像头开始自拍,但ChatGPT的反应似乎有几秒钟的延迟,说“这看起来像是一个木板的表面”。


“别担心,我并不是一张桌子。”在Zoph解释说刚才拍错了画面后,ChatGPT重新开始分析画面,并说:“你看起来非常的开心,可能还有一点激动,看样子你应该心情很不错。”

ChatGPT又问到Zoph这么开心的原因,Zoph半开玩笑地说,自己正在进行一场Presentation,展示“你有多不可思议”。ChatGPT仿佛有自己的情绪,语气夸张地说道:“快别说了!你让我感到害羞。”

//oss.zhidx.com/uploads/2024/05/6642d6a53a614_6642d6a5317c4_6642d6a5317a0_7-识别情绪.mp4

三、预告将有“下一件大事”,GPT-4o即为此前露出的GPT-2

除了发布会本身,Altman也一直在社交平台X上一边进行现场“直播”,一边连珠炮式地转发新模型介绍。

据OpenAI研究人员William Fedus透露,GPT-4o实际上就是前段时间在大模型竞技场“大杀四方”的GPT-2模型的另一版本,并附上该模型的竞技评分对比图,相比GPT-4 Turbo提升了超过100个单位。


推理能力方面,GPT-4o在MMLU、GPQA、MATH、HumanEval等测试基准上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型取得最高分。


音频ASR(智能语音识别)性能方面,GPT-4o相比Whisper-v3在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。


音频翻译方面,GPT-4o也树立了新的标杆,在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。


在所有演示结束后,Murati总结道:“正如大家所见,(如今的ChatGPT)真的很神奇。”

未来几周内,OpenAI将面向所有用户陆续分发这些功能。Murati还透露OpenAI将持续推动技术边界向前,不久后将发布“下一件大事”(next big thing)。

结语:OpenAI推Mac版ChatGPT,全能GPT-4o彪悍登场,谷歌将如何迎战?

今年2月,谷歌刚推出实现百万tokens长文本窗口的Gemini 1.5系列大模型,OpenAI就剑走偏锋,推出AI视频生成模型Sora,用惊艳全球科技圈的抢尽风头。

如今OpenAI再度宣战,赶在谷歌I/O大会前夕宣告Mac桌面版ChatGPT和GPT-4o,并全程用iPhone和MacBook Pro做演示,结合近期苹果与OpenAI合作的传闻,令人更加期待苹果将在6月份举办的WWDC全球开发者大会了。

这些AI新品发布会对谷歌构成直接的威胁吗?竞争激烈的生成式AI行业还能如何制造创新与惊喜?谷歌又能否接住OpenAI发起的AI挑战?答案将在明天凌晨揭晓,我们拭目以待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
标致408推出限量版:售价6.97万元!此次找准了产品定位

标致408推出限量版:售价6.97万元!此次找准了产品定位

天和Auto授权账号
2024-05-31 13:15:36
可惜!imp因被限制出境,或不能参加老头杯线下赛!谁将顶替他?

可惜!imp因被限制出境,或不能参加老头杯线下赛!谁将顶替他?

记录生活日常阿蜴
2024-06-01 09:51:29
虎头蛇尾!从战争艺术而言,哈尔科夫战役是俄军的又一次惨痛失败

虎头蛇尾!从战争艺术而言,哈尔科夫战役是俄军的又一次惨痛失败

娱宙观
2024-05-27 14:55:28
中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

猫眼观史
2024-05-16 18:11:46
周琦家庭内景曝光!客厅不小 已有二胎 专心辅导儿子作业

周琦家庭内景曝光!客厅不小 已有二胎 专心辅导儿子作业

胖子喷球
2024-05-31 16:37:01
放弃幻想!华为高管称:国产芯片暂时先别指望能到3nm

放弃幻想!华为高管称:国产芯片暂时先别指望能到3nm

热点科技
2024-05-30 16:46:10
小升初不管成绩有多好,到初中后的第一次考试,基本都会被打击到

小升初不管成绩有多好,到初中后的第一次考试,基本都会被打击到

好爸育儿
2024-05-30 14:07:49
意大利媒体大爆料:凯特面目全非,将下线,而威廉将成二婚人士

意大利媒体大爆料:凯特面目全非,将下线,而威廉将成二婚人士

记录生活日常阿蜴
2024-05-31 22:57:27
如果你存在这2项的异常,要及时去检查,别再拖了

如果你存在这2项的异常,要及时去检查,别再拖了

肝病专家梅祥冬
2024-05-30 11:58:52
一对男女在田间私会,见四下无人“大动干戈”,画面被路人拍下

一对男女在田间私会,见四下无人“大动干戈”,画面被路人拍下

华庭讲美食
2024-05-29 14:18:07
一局长上午被免职,赤裸裸的现实。幽默搞笑的笑话,值得细品。

一局长上午被免职,赤裸裸的现实。幽默搞笑的笑话,值得细品。

小陆搞笑日常
2024-05-31 20:52:20
刚刚宣布!韩国,惨了!

刚刚宣布!韩国,惨了!

幻想娱乐d
2024-05-30 17:09:30
广州楼市全军覆没,广州珠江新城板块从125000元降至116000元

广州楼市全军覆没,广州珠江新城板块从125000元降至116000元

有事问彭叔
2024-06-01 14:15:24
台湾女艺人公然支持“台独” , 58岁还晒怀孕B超照,全网暴怒

台湾女艺人公然支持“台独” , 58岁还晒怀孕B超照,全网暴怒

柴叔带你看电影
2024-05-30 18:05:42
以港为鉴,撤辣三月后的香港,预示了上海房市新政的后续?

以港为鉴,撤辣三月后的香港,预示了上海房市新政的后续?

美第奇效应
2024-05-31 18:28:47
大陆中止134项关税减让,台商总会警告,台传统产业面临关门危机

大陆中止134项关税减让,台商总会警告,台传统产业面临关门危机

贺文萍
2024-05-31 17:11:08
刘涛单独看非常美,但与大美女车晓同框,
立马就被碾压了。

刘涛单独看非常美,但与大美女车晓同框, 立马就被碾压了。

奇迹马甲咉E
2024-05-31 14:21:24
6月1日最新人民币兑美元汇率查询!今日银行人民币汇率中间价

6月1日最新人民币兑美元汇率查询!今日银行人民币汇率中间价

匹夫来搞笑
2024-06-01 09:44:33
“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

吃鱼思故渊
2024-05-16 21:48:21
如果在美国,比亚迪是不是会被告倒闭?箱油平均2400公里,可能吗

如果在美国,比亚迪是不是会被告倒闭?箱油平均2400公里,可能吗

鸣鸣科记
2024-05-31 11:20:24
2024-06-01 15:34:44
智东西
智东西
聚焦智能变革,服务产业升级。
8587文章数 116482关注度
往期回顾 全部

科技要闻

华为上新!余承东:问界6月销量将超4万辆

头条要闻

女子被家暴挂粪袋成功离婚 前夫曾写信:做人留一线

头条要闻

女子被家暴挂粪袋成功离婚 前夫曾写信:做人留一线

体育要闻

"失业"一年了 33岁的德赫亚路在何方

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

时尚
本地
艺术
房产
军事航空

“腋下包”过时了?今夏最火的4只包包长这样,好看哭了!

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

军事要闻

拜登称以色列提出新的三阶段停火方案

无障碍浏览 进入关怀版