Greg Brockman 发了条推特,3小时20万转发。内容是 GPT-4o 的演示视频——能同时听、看、想,延迟低到像真人对话。
这事的蹊跷之处在于:多模态实时交互不是新技术,但之前没人做得像打电话一样自然。之前的语音助手像在对讲机里传纸条,你说完一句,它愣两秒,再回一句。GPT-4o 把"愣两秒"砍到了几百毫秒,中间还插入了视觉理解——你举着手机乱晃,它能跟上你的镜头。
Brockman 的推文本身也很产品化。没讲参数,没堆术语,就一个30秒视频:人边说话边展示手写公式,AI 同步读题、讲解、纠正。用户看完的反应是"原来可以这样",而不是"原来参数这么大"。
20万转发里,一半是惊讶,一半是焦虑。惊讶的是交互终于不像在用软件;焦虑的是,这个"终于"背后,OpenAI 显然早就做出来了,只是选了个周四下午放出来。
评论区有人贴了一张图:Siri 的发布会Keynote,2011年。底下回复:"它当时也这么说。"
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.