网易首页 > 网易号 > 正文 申请入驻

免费GPT-4o来袭,音频视觉文本实现「大一统」

0
分享至

  

  OpenAI「魔法」降临。

  作者 | 赖文昕

  今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。

  此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与谷歌明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。

  不过 Sam Altman 随后在 X(原推特)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。

  那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的「新魔法」呢?

  1

  多模态实时语音助手‍

  更快更全更有情感

  登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角——GPT-4o 。

  在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。

  若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。

  与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。

  在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。

  

  模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。

  基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。

  更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。

  

  ChatGPT的「同传能力」也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。

  更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在「看到」他们写下「我爱 ChatGPT」的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。

  

  ChatGPT 甚至还能和用户「视频聊天」。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复「你看起来很开心,笑容灿烂,还有点激动。」

  

  英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。

  用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。

  

  如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外「出戏」,就更别提沉浸式的使用体验了。

  以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。

  而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。

  作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。

  2

  GPT-4o‍

  一款免费的全能 GPT-4

  Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。

  GPT-4o 中的字母 o 指 omni,在拉丁语词根中是「全」的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。

  据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。

  

  文本能力测试

  

  与GPT-4对比多语言考试能力

  更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。

  

  在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。

  

  与 Meta、谷歌的语音转写模型相比,GPT-4o 同样领先(越高越好)。

  

  若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?

  OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。

  比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。

  

  

  

  

  或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。

  

  

  在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。

  

  甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。

  

  「今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。」Mira Murati 如是说道。

  3

  写在后面

  发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型「im-also-a-good-gpt2-chatbot」,就是本次登场的 GPT-4o 。

  

  截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。

  伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。

  API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。

  在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。

  再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹「现实,不存在了。」

  毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过「OpenAI 不做,没人投;OpenAI 一做,人人投」的融资奇观。

  但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭「滑铁卢」,不少 AI 行业从业者开始对 OpenAI 祛魅,认为「大模型护城河很浅,一年就赶上了。」

  现在看来,OpenAI 果然还是 OpenAI。

  本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。

责任编辑:郜雪丹_NT5097

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果三战爆发,我国必须死守的7座城!竟然还包括一个三线城市?

如果三战爆发,我国必须死守的7座城!竟然还包括一个三线城市?

山茶谈
2024-06-16 22:48:39
从马里乌波尔到哈尔科夫,俄军越打越差,钢铁洪流早已一去不复返

从马里乌波尔到哈尔科夫,俄军越打越差,钢铁洪流早已一去不复返

易同学爱谈娱乐
2024-05-24 08:06:39
上海这夜,耍大牌周也和勒肉张碧晨,都败给了“全裹”出镜的高叶

上海这夜,耍大牌周也和勒肉张碧晨,都败给了“全裹”出镜的高叶

一娱三分地
2024-06-16 08:55:03
终于明白为啥现在的女生都害怕生孩子了,评论让我破大防

终于明白为啥现在的女生都害怕生孩子了,评论让我破大防

阿康四岁啦
2024-06-16 17:26:26
美国一声令下,23国枪口对向中国,不到24小时,中方宣布双反调查

美国一声令下,23国枪口对向中国,不到24小时,中方宣布双反调查

叮当当科技
2024-06-16 16:40:56
湘西龙山被殴打商户发声“有四五人动手”,城管局:我们有队员眼睛受伤

湘西龙山被殴打商户发声“有四五人动手”,城管局:我们有队员眼睛受伤

极目新闻
2024-06-15 21:00:21
对不起❗误解了尚雯婕很多年,终于圈粉啦

对不起❗误解了尚雯婕很多年,终于圈粉啦

综艺拼盘汇
2024-06-15 23:17:29
惊人消息!韦世豪或告别国家队,伊万、郑智的反应引发热议

惊人消息!韦世豪或告别国家队,伊万、郑智的反应引发热议

人生趣事悟语
2024-06-16 03:56:19
朋友圈千万不要设置三天可见!你永远不知道,会有怎样的惊喜

朋友圈千万不要设置三天可见!你永远不知道,会有怎样的惊喜

涛涛生活搞笑
2024-06-13 07:25:05
欧倩怡离婚后首出镜!大谈生病时郭晋安对她自私冷漠,评论一片倒

欧倩怡离婚后首出镜!大谈生病时郭晋安对她自私冷漠,评论一片倒

小徐讲八卦
2024-06-15 08:26:49
下周一6月17日,这 4大具有爆发力板块或有望开启反攻

下周一6月17日,这 4大具有爆发力板块或有望开启反攻

惜别的海岸
2024-06-16 17:48:39
回顾:湖北女子带娃回家,被前夫和现任打,一脚干翻俩:真解气

回顾:湖北女子带娃回家,被前夫和现任打,一脚干翻俩:真解气

佑宛故事汇
2024-06-15 17:12:07
英国第一夫人带俩女儿也去了庆典!穿粉裙好嫩,女儿输给小夏公主

英国第一夫人带俩女儿也去了庆典!穿粉裙好嫩,女儿输给小夏公主

西莫的艺术宫殿
2024-06-16 23:22:53
别让登哥看见!锡安的成人女星炮友室外跑步 臀部大得畸形!

别让登哥看见!锡安的成人女星炮友室外跑步 臀部大得畸形!

直播吧
2024-06-15 15:29:34
皮相相似,骨相差了一大截,吴谨言和艾米互换了造型,却天差地别

皮相相似,骨相差了一大截,吴谨言和艾米互换了造型,却天差地别

喵喵娱乐团
2024-06-14 13:43:59
红色预警!大暴雨!浙江入梅后最强降水来袭

红色预警!大暴雨!浙江入梅后最强降水来袭

鲁中晨报
2024-06-16 10:19:06
华为Pura70Ultra突然降价,这价格真让人发疯!

华为Pura70Ultra突然降价,这价格真让人发疯!

最潮家居评
2024-06-14 06:39:04
亲戚提出最炸裂的要求是什么?网友:表姐找我借钱,说可以陪睡

亲戚提出最炸裂的要求是什么?网友:表姐找我借钱,说可以陪睡

户外阿崭
2024-06-15 19:30:53
肢体语言专家揭示凯特与威廉真实关系,王妃被赞像女王一样坚忍

肢体语言专家揭示凯特与威廉真实关系,王妃被赞像女王一样坚忍

译言
2024-06-16 15:35:29
浙江一地紧急通知:停课!全省几乎都被覆盖,明天出门要警惕……

浙江一地紧急通知:停课!全省几乎都被覆盖,明天出门要警惕……

都市快报橙柿互动
2024-06-16 21:55:41
2024-06-17 01:42:44
AI科技评论
AI科技评论
点评学术,服务AI
6518文章数 20578关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

南方医院回应教师因救人迟到:教学差错是最轻档处理

头条要闻

南方医院回应教师因救人迟到:教学差错是最轻档处理

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

游戏
数码
教育
亲子
军事航空

梦幻西游玩家炸出160愤怒水清腰带,西栅为服战连夜换“网吧”?

数码要闻

PCIe 5.0 SSD终于要便宜了!群联E31T主控无缓存能跑12GB/s

教育要闻

大家都知道,这题目不会特别容易,看来还得是稳打稳的刷题才行啊

亲子要闻

玩这个游戏的都是勇士

军事要闻

以军宣布在加沙南部实行"战术暂停"

无障碍浏览 进入关怀版