直播演示中,OpenAI技术官Mira Murati宣布了一系列激动人心的更新。虽然大家期待的AI搜索引擎没有出现,但OpenAI确实在其主要产品——AI模型方面做出了重大扩展,特别是推出了新的旗舰AI模型GPT-4o,并且这一次,他们让这项服务向所有用户开放,包括免费用户。
这是OpenAI首次将这种级别的AI智能免费提供给用户,真是一大突破!GPT-4o不仅提高了在文本处理的能力,还在视频和音频处理上取得了进展。Murati特别提到,GPT-4o在速度上比之前的GPT-4 Turbo快了两倍,成本降低了50%,同时,API的速率限制也提高了五倍,即用户可以发送更多的请求。
这一切改进意味着用户现在可以更流畅、更经济地使用OpenAI的技术来处理文字、图片和语音输入。此外,OpenAI还推出了台式机版本的ChatGPT以及全新的用户界面(UI),旨在提升用户体验和便利性。
从社交媒体X上网友的反馈来看,API的改进让很多开发者和用户都感到非常满意。这些更新无疑将加速AI技术的普及和应用,帮助更多的人和企业实现高效的信息处理和创新。
实时求解方程、做口译、分析图表、读取用户情绪
GPT-4o引入了扩展的语音功能,这一更新将AI交互提升到了全新的水平。Mira Murati突出了GPT-4o在实时语音和音频处理上的安全性,并承诺OpenAI将持续进行技术迭代,以确保提供全方位的功能。
在现场演示中,OpenAI的研究主管Mark Chen使用ChatGPT的语音模式展示了这种新技术的实际应用。他的手机中的ChatGPT似乎能感知到他的情绪变化,当Chen过度呼气时,GPT以幽默的方式提醒他放松,说道:“Mark,你不是吸尘器”,显示出了人机交互的自然流畅性和智能感知能力。
此外,OpenAI的后训练团队负责人Barret Zoph在一项数学解题演示中,展示了GPT-4o的实用性。他在白板上写下方程式“3x+1=4”,ChatGPT不仅识别出了方程式,还一步步引导他解题,充当了一个实时的数学老师。这种能力显示了GPT-4o不仅能理解数学符号,还能识别包括心形在内的各种形状。
应社交媒体X用户的请求,Murati用意大利语向ChatGPT提问,GPT则迅速将意大利语翻译成英语,展示了其在多语种处理和即时翻译上的强大能力。GPT翻译的内容是:“Mark,她(Murati)想知道鲸鱼会不会说话,它们会告诉我们什么?” 这不仅展示了语言的转换能力,也突显了GPT-4o在理解和处理复杂查询方面的先进技术。
OpenAI最新的演示展示了GPT-4o模型在理解和交互人类情绪方面的进步。在一次引人注目的展示中,Barret Zoph将手机摄像头对准自己的脸,询问ChatGPT能否描述他的外观。虽然最初的回答有些误会,将他识别为“木质表面”,但在第二次尝试后,GPT成功捕捉到了Zoph的微笑,并评论说:“看起来你感觉非常快乐,喜笑颜开。” 这次演示虽显示出初步的识别能力,但也暴露了情绪读取的一些挑战。
此外,OpenAI的演示还包括了GPT-4o与代码库的交互能力。GPT-4o能够分析数据图表并根据图表内容,如一张全球气温图,作出相应的结论,展示了其在数据解读和逻辑推理方面的能力。
OpenAI宣布,基于GPT-4o的ChatGPT文本和图像输入功能将于本周一正式上线,而语音和视频输入选项则计划在未来几周内推出。这意味着用户将能够以更多的方式与GPT-4o互动,无论是通过文字、图片还是语音和视频。
社交媒体X上的反馈表明,网友们对GPT-4o的语音到文本功能以及它能理解音频的其他特征(如呼吸和情感)表示出极大的兴趣。这些功能的整合不仅提高了模型的实用性,也增强了用户体验,使得ChatGPT能够更加自然地模拟人类交谈,包括识别语调和情感变化。
最快232毫秒响应音频输入 平均响应时间和人类相似
GPT-4o模型,名字中的“o”代表全能(omni),标志着该模型在多模态人机交互上迈出了重要一步。GPT-4o能接收文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。这种全方位的输入输出能力,使得GPT-4o在自然人机交互方面更接近真实的人类交流。
在技术性能方面,GPT-4o显示出显著的进步。它能在最快232毫秒内响应音频输入,平均响应时间为320毫秒,与人类对话中的响应时间相似。它在处理英语文本和代码的能力与GPT-4 Turbo持平,而在处理非英语文本方面性能更佳。
GPT-4o的视觉和音频理解能力尤其突出。相较于以前的模型,如GPT-3.5和GPT-4,在语音模式下使用三个独立模型来进行对话(将音频转成文本,处理文本,并再次转成音频),GPT-4o实现了端到端的训练。这意味着同一个神经网络处理所有输入和输出,能直接观察到音调、多个说话者的交谈和背景噪音,并能在输出中包含笑声、歌唱或表达情感,大幅提高了信息的完整性和交互的自然性。
尽管有消息称OpenAI计划发布基于AI的搜索产品,但OpenAI CEO Sam Altman最近澄清说,本周的演示既不是GPT-5也不是搜索引擎。尽管此次发布没有达到市场一些预测的爆炸性创新,但GPT-4o的推出仍被看作是在多模态AI领域的一个重要进展。
社交媒体上,有网友感受到OpenAI与其他科技巨头,特别是苹果的差距正在扩大。其中,有网友幽默地发了一张人满头大汗的动图,暗示苹果的语音助手Siri可能面临的压力和挑战。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.