网易首页 > 网易号 > 正文 申请入驻

OpenAI用26分钟再次震撼世界!新模型GPT-4o语音水平接近人类,科幻正在成真

0
分享至


出品 | 搜狐科技

作者 | 梁昌均

运营编辑 | 王一晴

北京时间5月14日凌晨,OpenAI再迎重磅更新,虽然不是AI搜索,也不是GPT-5,而是发布了新旗舰模型GPT-4o,但也足以让业内震撼。

在此次OpenAI 仅有26分钟的春季发布会中,OpenAI首席技术官穆里·穆拉提(Muri Murati)宣布推出名为GPT-4o的新旗舰生成式AI模型,其集文本音频视觉于一身,能力全新升级。

此前不少爆料提到,OpenAI将推出AI搜索,与谷歌搜索竞争,从而增强ChatGPT的功能并开拓新市场,并称这款产品将在谷歌本周的开发者大会前推出。

不过,OpenAI CEO山姆·奥特曼对此否认,其表示,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。”

GPT-4o显然就是奥特曼所说的“像魔法一样”的新东西。GPT-4o中的o就是Omni,其是拉丁语词根,意思是全面、全能,奥特曼称其“最好的模型”,并免费开放。


发布新旗舰模型 GPT-4o

语音能力接近人类

穆里・穆拉蒂在发布会上提到,GPT-4o 提供与GPT-4同等水平的智能,但进一步改进了GPT-4在文本、视觉以及音频方面的能力。

“GPT-4o是迈向更自然的人机交互的一步——它支持文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。”OpenA在官网上介绍称。

根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上达到新的水平。如在文本方面,GPT-4o在多项测试上超过 GPT-4 Turbo或与其持平,并超过谷歌、Anthropic和Meta目前最强模型。


在音频语音识别和翻译方面,GPT-4o相比OpenAI自己开发的语音模式Whisper-v3均显著提高,尤其是在语音翻译方面树立了新的最先进水平。同时,在视觉理解评估中,GPT-4o也全面超过GPT-4,以及谷歌和Anthropic的最先进模式。


OpenAI 此前的旗舰模型GPT-4,可以处理由图像和文本混合的信息,并能完成从图像中提取文字或描述图像内容等任务,GPT-4o则在此基础上进一步增强了语音处理能力。

据穆里・穆拉蒂介绍,GPT-4o的运行速度将大大提升,最大亮点在于其语音交互模式采用了新技术,从而使得人们可以用麦克风与 ChatGPT 交谈。

OpenAI 介绍到,在GPT-4o之前,使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。其中的语音模式由三个独立模型组成:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。

但这个过程会导致GPT-4丢失大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法生成笑声、音乐或表达情感。为此GPT-4o在跨文本、视觉和音频方面端到端地训练了一个新模型,意味着所有输入和输出都由同一神经网络处理,从而提高了相应速度和推理能力。

“GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。”OpenAI 称,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,不仅可以将语音转换为文本,还具备先进的音频理解能力,理解和标记音频,如能感受到呼吸和情感,并可以控制其声音,比如发出兴奋、舒缓或者机器人的声音。

“OpenAI 一直致力于让用户通过语音与 ChatGPT 进行交流,仿佛与真人对话一般,但之前的版本由于延迟问题,严重影响了对话的沉浸感。GPT-4o 则采用了全新的技术,让聊天机器人对话的响应速度大幅提升。”穆里・穆拉蒂表示。

此外,在文字、图片和语音之外,GPT-4o 还支持打AI视频电话,其可以看到你所有的表情和情绪变化,还可让它来解答各种问题,比如在线解数学题,甚至还可以一起逗狗。

根据发布会上OpenAI使用 GPT-4o进行语音对话的演示,在提问结束后,GPT-4o几乎可以即时回应,并通过文本转语音功能进行朗读,且对话比较自然逼真。


它还可以根据要求调整说话语气或声音,夸张戏剧、冰冷机械都不在话下,比如在它看到写着“我爱ChatGPT”的纸条时,会跟小女生一样害羞地尖叫起来。发布会还展示了GPT-4o唱歌和数学方面的能力,可以指导求解简单的方程。

此外,OpenAI 还发布了桌面版ChatGPT和新的用户界面。“我们认识到这些模型正变得越来越复杂,但我们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上,而无需在意界面本身。”穆里・穆拉蒂表示。


奥特曼称GPT-4o是最好模型

免费开放使用

此次发布会中,奥特曼并未现身。不过,他在推特发文称“GPT-4o是我们有史以来最好的模型”,并提到了科幻电影《Her》。

这部十年前的电影,讲述了作家西奥多爱上电脑操作系统里女声的故事,这个名为“萨曼莎”的姑娘有着性感嗓音,并且风趣幽默、善解人意。GPT-4o在语音视频上的交互能力,让科幻正在加速走向现实,还有网友称《流浪地球中》的MOSS诞生了。

同时,奥特曼还专门发了一篇博客,称GPT-4o提供新的语音和视频模式,是其用过的最好的计算机界面。“感觉就像电影里的人工智能一样,我仍然有点惊讶它是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。”

他认为,最初的ChatGPT显示了语言界面的可能性,而这个新事物给人的感觉有本质上的不同,它快速、智能、有趣、自然且有帮助。

“对我来说,与计算机交谈从来都不是很自然的事情,现在确实如此。但当我们有添加个性化、访问你的信息、代表你采取行动的能力等时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。”奥特曼表示。

值得一提的是,不同于此前OpenAI在推出模型新版本都会对特定付费用户开放,这次则决定GPT-4o向用户免费开放。

从今天开始,GPT-4o的文本和图像功能会在ChatGPT中推出,免费提供GPT-4o,并向Plus 用户提供高达5倍的速率限制,还将在未来几周内在ChatGPT Plus 中推出新版本的语音模式GPT-4o alpha。

此外,开发人员也已经可以在API 中访问GPT-4o。与GPT-4 Turbo 相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍,并计划未来几周内在API中向部分合作伙伴推出对GPT-4o新音频和视频功能的支持。

OpenAI研究员William Fedus表示,“GPT-4o是我们最先进的新前沿模型,也是世界上最好的模型,而且可以在 ChatGPT中免费使用,这对于前沿模型来说是前所未有的。”

奥特曼则在博客中强调称,在创立OpenAI 时,最初构想是要创造人工智能并利用它造福世界,而OpenAI使命的一个关键是将非常强大的AI工具免费(或以优惠的价格)提供给人们。

“我们是一家企业,会有很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务。”但奥特曼表示,“我非常自豪我们在ChatGPT中免费提供了世界上最好的模型,没有广告或类似的东西。”

不过,OpenAI表示,GPT-4o是其第一个结合多模式的模型,是突破深度学习界限的最新成果,在朝着实用性的方向发展,但仍然只是浅尝辄止地探索该模型的功能。

同时,GPT-4o虽然通过过滤数据、模型细化、创建新的安全系统、与外部专家沟通等,为语音输出提供技术和交互上的安全防护,但还是会带来新的安全风险,且仍存在一些局限性,如有时会答非所问或给出错误信息等。

OpenAI表示,在接下来的几周和几个月里,将致力于推进技术基础设施、培训可用性以及发布其它模式所需的安全性,并希望得到反馈继续改进模型。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯军方指挥所遭摧毁,1200名士兵丧生,12辆坦克被摧毁

俄罗斯军方指挥所遭摧毁,1200名士兵丧生,12辆坦克被摧毁

亡海中的彼岸花
2024-06-06 00:45:02
618空调大卖!排名出炉!董明珠竟被"门外汉"挤下去了,究竟是谁

618空调大卖!排名出炉!董明珠竟被"门外汉"挤下去了,究竟是谁

咖啡店的老板娘
2024-06-06 22:36:03
中方祝贺胜选话音未落,莫迪对赖清德喊话,声称期待加强与台关系

中方祝贺胜选话音未落,莫迪对赖清德喊话,声称期待加强与台关系

墨写东瀛话春秋
2024-06-06 14:13:21
一架都不要!波音遭中国拒收损失超百亿,中方放话:惩罚才刚开始

一架都不要!波音遭中国拒收损失超百亿,中方放话:惩罚才刚开始

虹摄库尔斯克
2024-06-05 17:56:50
借势3:福哥迟迟不办事,冷三急了

借势3:福哥迟迟不办事,冷三急了

金昔说故事
2024-06-06 20:09:36
太可怕!重庆男子杀妻后跳楼自杀,知情人曝内幕,警方介已入!

太可怕!重庆男子杀妻后跳楼自杀,知情人曝内幕,警方介已入!

皖声微言
2024-06-06 16:18:10
中超最新积分榜:海港3-0升第2,国安1-2爆冷,申花4-1

中超最新积分榜:海港3-0升第2,国安1-2爆冷,申花4-1

看懂帝国
2024-06-07 00:29:28
周深演唱会送票都没人看,开场整片空座,座位上放荧光棒太尴尬!

周深演唱会送票都没人看,开场整片空座,座位上放荧光棒太尴尬!

柠檬有娱乐
2024-06-04 11:42:12
允许乌使用美武器攻击俄本土,美国不信会有“致命后果”?

允许乌使用美武器攻击俄本土,美国不信会有“致命后果”?

新民晚报
2024-06-05 18:23:41
女人离婚后,有生理需求怎么办?这位离婚女人讲了真心话

女人离婚后,有生理需求怎么办?这位离婚女人讲了真心话

私家树洞
2024-06-07 00:27:52
华为Mate70系列外观细节曝光:有新设计 大气商务风

华为Mate70系列外观细节曝光:有新设计 大气商务风

手机中国
2024-06-06 17:05:06
闹大了,夜查后续:老百姓电动车被扣,共享单车迅速上岗,引众怒

闹大了,夜查后续:老百姓电动车被扣,共享单车迅速上岗,引众怒

看懂帝国
2024-06-06 15:00:24
健身女生真敢穿,丝袜与瑜伽裤的结合,你见过吗?如何选瑜伽裤?

健身女生真敢穿,丝袜与瑜伽裤的结合,你见过吗?如何选瑜伽裤?

白宸侃片
2024-05-10 10:10:35
打脸放水论!孙颖莎故意保送陈梦挤掉王曼昱?2大真相戳破谣言

打脸放水论!孙颖莎故意保送陈梦挤掉王曼昱?2大真相戳破谣言

最爱乒乓球
2024-06-07 00:07:32
港媒:内地网民猛批香港服务业“独树一帜”

港媒:内地网民猛批香港服务业“独树一帜”

呜呜爱读书
2024-06-06 21:40:46
回到熟悉的位置!英超官方更新24-25赛季积分榜,阿森纳重登榜首

回到熟悉的位置!英超官方更新24-25赛季积分榜,阿森纳重登榜首

ALL体育
2024-06-06 19:28:26
卢卡库:愿意为穆里尼奥赴汤蹈火,但并不认为他是最佳教练

卢卡库:愿意为穆里尼奥赴汤蹈火,但并不认为他是最佳教练

星耀国际足坛
2024-06-06 23:30:27
“泰国租妻”特色服务,5天才3000元,我去体验后,却差点丢了命

“泰国租妻”特色服务,5天才3000元,我去体验后,却差点丢了命

程哥历史观
2023-09-07 20:53:23
国家卫健委党组原书记马晓伟、证监会原主席易会满有新职

国家卫健委党组原书记马晓伟、证监会原主席易会满有新职

澎湃新闻
2024-06-06 14:26:26
闹剧结束了!王阳发声回应,获《追风者》剧组维护,王一博惨败

闹剧结束了!王阳发声回应,获《追风者》剧组维护,王一博惨败

猪猪侃娱乐
2024-06-05 18:27:42
2024-06-07 01:34:44
搜狐科技
搜狐科技
搜狐科技官方账号
3926文章数 9080关注度
往期回顾 全部

科技要闻

马斯克创造人类历史,SpaceX星舰试飞成功

头条要闻

星舰第4次试射成功 马斯克祝贺:取得史诗般成就

头条要闻

星舰第4次试射成功 马斯克祝贺:取得史诗般成就

体育要闻

国足进球功臣捂脸沮丧 伊万表情凝重

娱乐要闻

看这场笑话,经过王一博同意了吗!

财经要闻

理想汽车"撤回"部分裁员 再下调销量目标

汽车要闻

2025年将推10款新车 长安启源7个月累销破10万

态度原创

房产
时尚
亲子
公开课
军事航空

房产要闻

震撼!8800亩存量宅地清单曝光!未来的三亚楼市,太炸裂!

今年最流行的风格竟然是它?

亲子要闻

我国儿童青少年近视率下降 专家:远视储备管控从学龄前开始

公开课

近视只是视力差?小心并发症

军事要闻

白宫发表多国联合声明 要求哈马斯立即接受停火协议

无障碍浏览 进入关怀版