网易首页 > 网易号 > 正文 申请入驻

OpenAI放了一个大招,这才是真正的语音助手

0
分享至



在过去的几年里,我们一直非常专注于提高这些模型的智能......但这是我们第一次在易用性方面真正迈出一大步。

文|周路平

编|游勇

继文生视频模型Sora之后,OpenAI再一次给外界带来惊喜。这一次,OpenAI向世人展现了强大且丝滑的语音对话等多模态能力。

北京时间5月14日凌晨1点,在谷歌开发者大会前一天,预热已久的OpenAI正式向公众发布了语音大模型GPT-4o(omnimodle,全能模型),可以综合利用语音、文本和视觉信息进行推理,扮演一个个人语音交互助手。而且,OpenAI将会对这一模型免费向公众开放。

除了全新的大模型,OpenAI也正式宣布推出ChatGPT桌面版,“从今天开始,我们将首先向Plus用户推出macOS应用,并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出Windows版本。”

01

情感化、对话丝滑,效果令人震撼

发布会全程只持续了26分钟,OpenAI CEO奥特曼没有现身,由公司CTO和两位工程师来发布。它的界面是一个巨大的黑点,但现场演示的几个GPT4o对话场景却令人感到惊艳。

整个对话的过程非常丝滑,不仅能说能听能看,还会有情绪的变化,就像是和一个真实的人在打视频电话。

而通过OpenAI现场演示的几个场景,我们也仿佛看到了《Her》的场面,科幻正在成为现实。

场景一:缓解情绪

演示嘉宾说自己现在有点紧张要如何缓解,大模型立马安抚他别紧张,慢下来,可以深呼吸。然后演示嘉宾故意做出非常夸张且急促的呼吸声。大模型很快纠正了这种不正确的呼吸方式,在它的指导下如何缓慢地呼气和吸气。

场景二:讲睡前故事

要求大模型讲一个关于机器人与爱的睡前故事。正当大模型讲得正起劲时,主持人赶紧打断,提出声音要更有感情,大模型很快切换到了非常有戏剧性的声音。结果话还没说完,一位嘉宾接过话题,提出声音需要更有冲击力,大模型便以一种非常夸张的口吻继续讲述着刚才的睡前故事。但是,对大模型的考验还没有结束,另一位嘉宾又提出要切换到机器人的声音。很快,大模型就开始模仿机器人的腔调继续讲述。最终,大模型被要求以演唱一首歌结束了对话。

场景三:解代数方程

演示嘉宾在纸上写了一个简单的方程式,要求语音助手通过摄像头获得视觉能力后,实时视频指导数学解题。

大模型刚开始还出现了“幻觉”,在没打开摄像头时就自信满满地说理解了。当演示嘉宾提示后,她才说“oops,我太兴奋了。”然后大模型一步一步提醒和讲解他的解题思路。整个过程,大模型就像一个很有经验且富有耐心的数学老师。

妈妈再也不用担心我的学习了。



场景四:根据外表判断情绪

演示嘉宾拿着手机摄像头对着自己的脸和大模型对话,大模型很快通过识别视频中的人物表情给出了自己的判断。大模型说,你看起来很开心,带着灿烂的笑容,甚至有一丝兴奋,你能分享你快乐的来源吗?当演示嘉宾说,开心是因为要展示你多么有用和强大时,大模型甚至表现出了一丝丝的娇羞。

在这个场景的演示中还出现了一个插曲,演示嘉宾一开始打开的是后置摄像头,拍到的是一张桌子,大模型说“这看起来像是一个木板的表面”。演示嘉宾很快说自己拍错了画面,然后转换成前置摄像头开始自拍,大模型也快速反应过来。



总结一下OpenAI语音大模型在演示中的几个特点:

一是快,快速反应,几乎没有时延,而且语速跟正常人没有差别,仿佛在跟一个真实的人类在打电话。而此前,用户使用语音功能与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。

二是可以随时打断,不用等它回答完,直接打断,也能快速接着最新的话题往下聊,非常丝滑;

三是可以捕捉情绪变化,比如能判断对方急促的呼吸方式不对。而且也可以扮演不同的角色,比如戏剧性的语气,或者冰冷的机器人的声音,切换自如。

四是多模态的能力很强,比如你可以用意大利语提问,然后要求对方用英语回答,比如可以写一个方程式,语音助手可以通过手机摄像头识别后,一步步教你解题步骤。甚至还可以用摄像头对着自己,语音助手可以识别图像来判断你现在的情绪。从“软件代码中发生了什么?”到“这个人穿什么牌子的衬衫?”,大模型都能通过多模态的能力,很好地回答。

OpenAI 首席技术官穆里·穆拉蒂 (Muri Murati) 表示,GPT-4o将提供与GPT-4同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升,“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”

对于这一模型,OpenAI并没有像Sora一样,迟迟未对公众开放使用。OpenAI宣布GPT-4o将在未来几周内分阶段集成至OpenAI的各个产品之中。更关键的是,GPT-4o将免费提供给所有用户使用,付费用户则可以享受五倍的调用额度。

同时,OpenAI同步开放了最新大模型的API接口的调用,价格方也便宜不少。GPT-4o的价格是GPT-4-turbo的一半,速度是GPT-4-turbo的两倍

不过,GPT-4o的API接口并非向所有客户开放。OpenAI以滥用风险为由,表示计划在未来几周内首先向“一小群值得信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

02

AI搜索没来,但桌面版ChatGPT来了

这次的发布基本坐实了一个事实,那就是苹果的语音助手Siri将引入ChatGPT,GPT-4o强大的语音对话能力对Siri是个巨大的提升。而且,OpenAI的发布会演示过程中也出现了大量苹果的设备。

不过,令人遗憾的是,此前外界盛传已久的ChatGPT搜索产品没有出现。

在此之前,外界一度盛传OpenAI将发布AI搜索的功能,包括有媒体拿到了ChatGPT Search的提前体验版本——界面仍然是对话交互,但ChatGPT在回答时会使用网络信息进行回答。

所以,一度有消息称,ChatGPT的搜索功能会在5月10日上线,但最终还是被放了鸽子,ChatGPT CEO奥特曼回应称,不会有GPT5,也不会有搜索产品。

但不少用户发现,ChatGPT已经可以回答最新的信息,比如当天的股票或者天气,而且都是准确的信息。ChatGPT可以回答网址,可以跳转链接,时不时也可以提供最新的数据。但这与真正的AI搜索相差甚远。

昆仑万维CEO方汉认为,用户涨不上去是OpenAI现在最头疼的事情。“目前看到的产品形态上来讲,OpenAI的搜索产品,并没有对海内外所有的搜索引擎产品,形成碾压,形成 SOTA(state-of-the-art,最佳表现),发布这个产品,可能会让用户有一点增长,但不会让用户翻倍增长。所以我认为,这是在 Google I/O 前对谷歌的一次战略狙击,它的根本战术上,还是在等待和筹备 GPT-4.5。”

“Open AI无论发布什么新产品,都是在给ChatGPT的强大能力重新定义场景,在找新的产品出路。”360董事长周鸿祎也认为,OpenAI在做场景的收缩和聚焦,如果大模型有一万种能力,而不要去承诺有一万种场景,而是在大模型中精选几十种或者几百种能力,聚焦到一两个比较明确的场景上。

在此之前,OpenAI发布了GPT的应用商店,通过GPTs让用户来定义场景,目前GPTs的数量超过了百万,但却遭到了不少用户的吐槽,一方面OpenAI不上心,另一方面也缺少客户。正如周鸿祎说,GPTs定义的场景太多太碎,也不算成功。Open AI也需要探索,做出几个典型的大模型驱动的产品,这个产品要明确定义用户使用的场景。

不过相比于寻找场景,OpenAI这次发布了桌面版的ChatGPT和新的用户界面,完善ChatGPT的协作能力。“我们认识到这些模型正变得越来越复杂,” 穆拉蒂说道,“但我们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上,而无需在意界面本身。”

比如,用户可以通过Option + 空格键向ChatGPT提问,并且可以在应用内截取和讨论屏幕截图。

“我们知道,随着这些模型变得越来越复杂,我们希望交互体验变得更加自然,”穆拉蒂说。“这是我们第一次在易用性方面真正迈出一大步。”

上一次,OpenAI用Sora狙击了谷歌的Gemini,这一次OpenAI再一次选择谷歌开发者大会的前一天释放大招,面对有实力又擅长PR的奥特曼,谷歌又将如何应对,明日的谷歌开发者大会见分晓。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一名记者看了哈马斯在去年10月7日的所作所为后,差点崩溃了

一名记者看了哈马斯在去年10月7日的所作所为后,差点崩溃了

狗剩说电影
2024-06-04 19:04:18
上海楼市首付降到20%,广州楼市首付降低到15%越来越多购房者慌了

上海楼市首付降到20%,广州楼市首付降低到15%越来越多购房者慌了

有事问彭叔
2024-06-04 15:24:02
1950年解放军剿匪来到尼姑庵前,战士发现异常:尼姑的胸部不对劲

1950年解放军剿匪来到尼姑庵前,战士发现异常:尼姑的胸部不对劲

百年历史老号
2024-06-01 16:29:06
周四解析两场世预赛 印尼VS伊拉克 中国VS泰国

周四解析两场世预赛 印尼VS伊拉克 中国VS泰国

网易红彩
2024-06-06 15:04:59
中国空军才是最可怕的?美国通过俄乌战争看清:中国远比想象强大

中国空军才是最可怕的?美国通过俄乌战争看清:中国远比想象强大

慎独赢
2024-06-05 18:20:03
中国拒绝,俄罗斯拒绝,印度拒绝,不到24小时,泽连斯基对华摊牌

中国拒绝,俄罗斯拒绝,印度拒绝,不到24小时,泽连斯基对华摊牌

DS北风
2024-06-05 17:14:09
美国终于坐不住了!出手阻击“一带一路”!竟无意中为中国帮了忙

美国终于坐不住了!出手阻击“一带一路”!竟无意中为中国帮了忙

星辰故事屋
2024-06-05 20:11:37
艾克森白高兴了!原以为他能在中泰之战首发,结果如今无缘大名单

艾克森白高兴了!原以为他能在中泰之战首发,结果如今无缘大名单

罗掌柜体育
2024-06-06 16:36:44
我防长:若插手台海必粉身碎骨!话音刚落,27家美军火商代表窜台

我防长:若插手台海必粉身碎骨!话音刚落,27家美军火商代表窜台

影孖看世界
2024-06-04 21:12:01
62岁大爷天天用盐水洗头,5个月后医院体检,医生直言:你干了啥

62岁大爷天天用盐水洗头,5个月后医院体检,医生直言:你干了啥

养生时间
2024-06-06 12:39:40
漂亮老板娘卖莲藕,路过大叔眼睛看直了又大又白!

漂亮老板娘卖莲藕,路过大叔眼睛看直了又大又白!

笑劈叉了
2024-06-05 22:18:08
“一妈妈晒出180的儿子电话手表里只剩11块钱了”评论笑麻了

“一妈妈晒出180的儿子电话手表里只剩11块钱了”评论笑麻了

滑稽斑马呀
2024-06-06 14:58:05
女护士在医院为患者,提供特殊服务,导致两人死亡

女护士在医院为患者,提供特殊服务,导致两人死亡

刑事黎律
2024-06-06 07:00:08
特朗普:“普京会在俄乌冲突中取胜”

特朗普:“普京会在俄乌冲突中取胜”

参考消息
2024-06-05 11:08:13
刚刚!特朗普发起绝地反击,美国惊天内幕即将揭开!

刚刚!特朗普发起绝地反击,美国惊天内幕即将揭开!

大嘴说天下
2024-06-05 20:39:50
导弹凌空爆炸,北约痛失1700将士,总体伤亡竟达11000!

导弹凌空爆炸,北约痛失1700将士,总体伤亡竟达11000!

忆丹说文史
2024-06-05 10:55:03
穆里尼奥最大的愿望:想要这位英超球星加盟费内巴切

穆里尼奥最大的愿望:想要这位英超球星加盟费内巴切

星耀国际足坛
2024-06-06 01:55:02
上海海事局:徐浦大桥有1人落水失踪,请过往船舶注意搜救

上海海事局:徐浦大桥有1人落水失踪,请过往船舶注意搜救

鲁中晨报
2024-06-06 15:11:18
河南不少地方只拖欠教师工资和津补贴而从不拖欠行政公职人员的?

河南不少地方只拖欠教师工资和津补贴而从不拖欠行政公职人员的?

郭爱华追问教育
2024-06-05 08:57:59
衡水中学学霸,考上浙大计算机系,那个意气风发的少年不见了

衡水中学学霸,考上浙大计算机系,那个意气风发的少年不见了

苏南流
2024-06-06 15:15:10
2024-06-06 18:00:49
数智前线
数智前线
关注数字化和智能化
596文章数 605关注度
往期回顾 全部

科技要闻

嫦娥六号完成月球轨道交会对接与样品转移

头条要闻

警方通报学生与醉汉冲突被刑拘:不存在"制止调戏女生"

头条要闻

警方通报学生与醉汉冲突被刑拘:不存在"制止调戏女生"

体育要闻

2024年总决赛前瞻:绿凯VS独行侠

娱乐要闻

看这场笑话,经过王一博同意了吗!

财经要闻

理想汽车"撤回"部分裁员 再下调销量目标

汽车要闻

2025年将推10款新车 长安启源7个月累销破10万

态度原创

艺术
房产
游戏
手机
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

房产要闻

震撼!8800亩存量宅地清单曝光!未来的三亚楼市,太炸裂!

PS美服官网推出中国之星计划页面 超多新作蓄势待发!

手机要闻

小长假更要长续航,这2款手机轻薄又安心

军事要闻

美国批准8000万美元对台军售计划

无障碍浏览 进入关怀版