网易首页 > 网易号 > 正文 申请入驻

未来已来:OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人

0
分享至

千呼万唤的OpenAI发布会终于在谷歌I/O大会的前一天来了!

OpenAI放了那么多烟雾弹,总算揭晓谜底了。


图片:来自网络

果然就像Sam Altman提前辟谣的一样,不是OpenAI搜索引擎,不是GPT-5。

但Altman没说的是,这场发布会,让 人类与计算机的交互进入到了一个新的时代!

发布会的主角是OpenAI的CTO Mira Murati。 ‍


图片:来自网络

她亲自发布GPT-4的一个大升级版本——GPT-4o!


图片:来自网络

这个新模型的功能简单一句话概括,它能像人一样,可以原生利用语音,文字,图像进行推理和交互。

就像这个后缀“o”代表的“omni”意味“全知”一样,这个模型 综合了几乎所有模态的智力,还能充分感知人类的情感。

几乎就是把电影《Her》中的那个和主人公谈恋爱的AI助手Samantha,从大荧幕里搬到了现实。


图片:来自网络

除新模型之外,发布会的几大亮点:

1. GPT-4地位往下顺移一位,向所有用户免费开放。


网页截屏

2. GPT-4o API,比GPT 4-Turbo快2倍,价格还只有一半。


网页截屏

3. 外界猜测的语音助手的演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表等能力。

4. ChatGPT新UI,以及一个新的ChatGPT桌面应用程序,率先登录macOS,Windows 版本晚些时候上线。

先通过几个演示来看看这个新模型带来的全新体验:

平均320毫秒的语音交互延迟,让这个模型能达到人类级别的交互体验。

视频中演示的实时翻译,英语和西语的交互相当流畅, 中间的延迟甚至比专业同声传译还要低。

具备强大多模态能力与流畅交互,GPT-4o能化身一位亲切的双语老师——用户指着苹果、香蕉和毛绒玩具,用英文问GPT-4o对应的西班牙语表达,它都能在晃动的镜头中准确识别,实时译成西语。

全新的原生多模态能力,又让GPT-4o 能成为视障人士的”眼” ——不仅能看到白金汉宫上的旗帜,还能将背后的君主历史娓娓道来; 一只嬉戏的鸭子突然潜入水中,GPT-4o能生动描述; 有车从面前经过,GPT-4o也能及时提醒。

而OpenAI的灵魂人物Sam Altman虽然没有亲自出镜发布会,但是他在发布会之后在X上发表了一篇博客,和外界交流了他自己认为的发布会背后自己最看重的地方。


地址:https://blog.samaltman.com/gpt-4o

主要内容总结起来就是以下两点:

通过这次发布,OpenAI做到了,并将继续坚持:

首先,让全世界人都能在没有广告以及其他负担的前提下使用这个世界上最好的AI服务,然后为愿意付钱的人提供其他的价值,让OpenAI能作为一家企业继续向全世界的用户免费提供这样的服务。

然后,通过团队的不断努力,他们将人机交互的体验推进到了前所未有的高度——GPT-4o的能力让人类真正地能和计算机自然的交流,这一点将开拓一个新的时代。

最先推出原生多模态大模型的是谷歌,但是OpenAI却用这个能力做出了第一个“像人类一样的模型”。

现在OpenAI的肌肉秀出来了,谷歌I/O大会的工作人员准备好熬夜改PPT了吗?


图片:来自网络

模型性能依旧保持SOTA,多模态能力创新高

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现突破。


图片:来自网络

改进推理

GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b还没有正式发布)


图片:来自网络

音频 ASR 性能

GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。


图片:来自网络

音频翻译性能

GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。


图片:来自网络

M3Exam

M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。(我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。


图片:来自网络

视觉理解评估

GPT-4o 在视觉感知基准上实现了最先进的性能。

人类与计算机的交互,从未像今天一样自然丝滑

GPT-4o此经推出,《Her》也成了纪录片了。GPT-4o的女声,听上去和电影中类似,奥特曼首先啥也不说,就发了个“her”的推文,也算蹭了一波奥斯卡流量。


(温馨提醒——得知AI能同时谈成百上千个,男主表示很崩溃)


网页截屏

光说不练假把式——OpenAI给出了GPT-4o的丰富实用的演示。

文章开始展示的视障人士用例,就是技术普惠的真实写照。但GPT-4o不只“实用”,情绪价值也拉满。 从前用文本展现的多样人格,GPT-4o能用声音扮演。

唱生日歌之前,还会郑重其事地清清嗓子:我要开始唱咯。

面试培训,GPT-4o在提供实用建议的同时,做到毕恭毕敬。 这位工作人员准备戴上渔夫帽去面试,GPT-4o先职业夸赞一番,然后才劝他换下。

GPT老师教子有方,循循善诱。 孩子做错题也不发火,补充背景知识和概念; 回答正确也不忘夸夸—— “你做得太棒了”“伟大的推论”

网友表示:给大学生家教搞钱留条活路吧,求求了!


网页截屏

有意思的是,在多人会议的demo中,GPT-4o可以分出不同说话人 “易如反掌”,适时“插嘴”,融入聊天如德芙般丝滑,毫无压力。

听到有人说到自己和孩子养了只德牧,GPT-4o 还 声情并茂 地描述了孩子与狗玩耍的场景,评论道,“非常可爱”。

多人小会后还能作总结。不如以后毕业生就拿它来练群面吧,秋招无压力。


(有网友指出,会议居然是在Google Meets而非Microsoft Teams里开的,是因为Teams难用吗?

GPT-4o厉害着呢,最会阴阳怪气。比如轻松切换“嘲讽模式”后,真就mean girl本girl——听过的人表示,已经在美国高中被啦啦队长霸凌了。

网友的“嘲讽之嘲讽: fine,这个功能真的很实用呢(白眼)~谢谢你哦,OpenAI(微笑)


网页截屏

在最新访谈中,奥特曼提到自己对智能体助理的要求:不只是执行,也要会“插嘴”,作能提供情绪价值打工人。

英伟达首席科学家Jim Fan评论,GPT-4o如此活泼,甚至有点调情的意味在里头,演得过于用力了。

他指出,这是在向更具情感及个性AI进行转变, 但OpenAI 过去似乎努力抑制这种倾向。OpenAI 正在蚕食 Character AI 的市场份额,因为在产品形态及分销渠道方面几乎 100% 重叠。

又多又全的多模态能力,美工的饭碗还好吗?

GPT-4o不但支持音视频的上传,在文生图领域,GPT-4o轻松地绕过了Midjourney和Stable Diffusion的缺点,让设计和美工的饭碗再次颤抖。

在官网给出的示例中,GPT-4o可以直接用文字生成类似手帐的手写体排版,并支持改变颜色和纸张样式。


图片:来自网络


图片:来自网络

在文生图领域,令人诟病的另一点在于其“不可控”——开局一句话,出图全靠摇。

然而GPT-4o在对话界面就能做到对上文中的图像进行微调。

这是第一轮生成的海报图片,可以看到画面中人物的脸有较为明显的变形,且画面质量不高。


图片:来自网络

使用者再次输入指令:“这是同一张海报,但经过清理。文字更加清晰,颜色更加大胆、更具戏剧性。整个形象现在得到了改善。”


图片:来自网络

之后你就会得到一张经过明显改善的海报,同时文字也是合理且清晰—— 没有文字恐怖谷。


图片:来自网络

除了平面设计,GPT-4o也可以生成3D动态模型。


图片:来自网络


图片:来自网络

还可以生成产品图示例,并且支持提供参考图改变构图和材质(海外电商的生产力工具)。


图片:来自网络

附上要求和参考图,GPT-4o就可以根据2023年的纪念币生成2024年新版本:


图片:来自网络

在艺术创作领域,GPT-4o的连贯性很高,在同一组对话和上下文中生成的漫画风格和人物的脸都是统一的。


图注:GPT-4o生成的人物设计任务- 邮递员Sally部分图片。

先别管AGI的事,可以肯定的是,GPT-4o实打实地让AIGC生产力工具再上一个台阶。

OpenAI也继续保持着AI行业技术能力和产品化能力标杆的地位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苟仲文被查!8天前还露面,曾因国足成绩不好“作检讨”

苟仲文被查!8天前还露面,曾因国足成绩不好“作检讨”

政知新媒体
2024-05-30 15:59:15
中国电力建设工程咨询有限公司党委书记、董事长姚小平被查

中国电力建设工程咨询有限公司党委书记、董事长姚小平被查

新京报
2024-05-30 13:02:09
曝某地妇幼医院推“骨密度检查”项目,曾有知名医院科普过,小孩不需要做检查!

曝某地妇幼医院推“骨密度检查”项目,曾有知名医院科普过,小孩不需要做检查!

可达鸭面面观
2024-05-30 14:29:51
世界最大邮轮发生命案:一男性乘客从20层甲板跳下身亡

世界最大邮轮发生命案:一男性乘客从20层甲板跳下身亡

红星新闻
2024-05-30 11:09:09
裁员了,很严重,大家做好准备吧!!!

裁员了,很严重,大家做好准备吧!!!

悠闲葡萄
2024-05-30 09:05:14
伊朗代理总统穆赫贝尔刚上任,便以惊人胆识向美国表达了友好意愿

伊朗代理总统穆赫贝尔刚上任,便以惊人胆识向美国表达了友好意愿

橘色数码
2024-05-29 13:48:54
曝美国斯坦福桥大学毕业生,报考中国乡镇公务员,已进入政审阶段

曝美国斯坦福桥大学毕业生,报考中国乡镇公务员,已进入政审阶段

可达鸭面面观
2024-05-29 18:32:53
上海保安禁止读外国诗,蠢货吃了权力的春药

上海保安禁止读外国诗,蠢货吃了权力的春药

陶舜财经
2024-05-30 01:16:09
中央政治局会议最新定调!

中央政治局会议最新定调!

21世纪经济报道
2024-05-29 08:45:53
一干部被查,涉嫌严重违纪违法

一干部被查,涉嫌严重违纪违法

锡望
2024-05-30 13:16:30
雅迪、爱玛多个品牌禁止在北京销售,70%配置锂电池,车主怎么办

雅迪、爱玛多个品牌禁止在北京销售,70%配置锂电池,车主怎么办

电动车的那些事儿
2024-05-30 06:25:32
现在,所有人都能免费用GPT-4o了!

现在,所有人都能免费用GPT-4o了!

新智元
2024-05-30 13:12:45
新中国培养的第一位博士马中骐逝世,学位证书由钱三强签发

新中国培养的第一位博士马中骐逝世,学位证书由钱三强签发

澎湃新闻
2024-05-30 12:26:31
股市王炸一个接一个,比降印花税还要劲爆,A股周五或迎远古巨阳

股市王炸一个接一个,比降印花税还要劲爆,A股周五或迎远古巨阳

静守时光落日
2024-05-30 14:33:32
女子趁理发师工作时,伸手摸向敏感部位,网友调侃:这钱真难赚

女子趁理发师工作时,伸手摸向敏感部位,网友调侃:这钱真难赚

看晓天下事
2024-05-26 18:38:25
突发!上市公司公告:实控人被逮捕

突发!上市公司公告:实控人被逮捕

每日经济新闻
2024-05-28 18:45:11
19点30分,CCTV5直播!中国女排迎最强对手,蔡斌这次势必要复仇

19点30分,CCTV5直播!中国女排迎最强对手,蔡斌这次势必要复仇

社会故事回忆录
2024-05-29 17:28:47
新娘全裸海报迎宾!网红千惠惊呆全网!网友:这老公可真大方!

新娘全裸海报迎宾!网红千惠惊呆全网!网友:这老公可真大方!

郑丁嘉话
2024-05-30 14:49:07
全球最大公司易主!黄仁勋式管理火了:无计划、无汇报、无层级

全球最大公司易主!黄仁勋式管理火了:无计划、无汇报、无层级

知道宏观
2024-05-29 20:15:27
苟仲文,被查!

苟仲文,被查!

新京报
2024-05-30 15:42:27
2024-05-30 18:08:49
36氪
36氪
让一部分人先看到未来
144499文章数 2839341关注度
往期回顾 全部

科技要闻

马斯克也给英伟达打工了

头条要闻

埃尔多安指责美欧是以色列的帮凶:你们手上沾满鲜血

头条要闻

埃尔多安指责美欧是以色列的帮凶:你们手上沾满鲜血

体育要闻

湖人队记再总结交易欧文失败三原因

娱乐要闻

法国这一夜,45岁章子怡惊艳世界!

财经要闻

卷成麻花的新茶饮:以价换量能突围吗?

汽车要闻

年内上市/纯电和增程可选 阿维塔07实车谍照曝光

态度原创

本地
手机
房产
艺术
健康

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

手机要闻

年度最强8Gen3中端手机!一加Ace 3 Pro要来了

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

无障碍浏览 进入关怀版