OpenAI 正在给 ChatGPT 的免费用户提供抢先体验其令人印象深刻的 高级语音模式 的机会。这一有限的预览在该公司于旧金山举办的开发日活动中得到了确认,并能让非订阅用户简要了解它与基本语音的不同之处。
高级语音与免费版本,甚至 谷歌的新 Gemini Live 的不同在于,它是原生的语音到语音。这意味着它不是把您所说的内容转换为文本、分析该文本,然后再以语音形式发回,而是直接倾听您所说的内容,甚至能够理解您语气或情感特征中的细微差别。
我觉得在未来的某个时候,OpenAI 会在设法完善基础模型并降低成本之后,向所有用户更全面地推出高级语音。
即使作为每月支付 20 美元的ChatGPT Plus 订阅用户,在使用高级语音这一方面也存在速率限制。然而,我已经广泛使用了一个多月,还没有发现自己达到这些限制。
为什么高级语音这么重要?
在您实际使用它之前,很难解释为什么高级语音比 Gemini Live 或Meta 的新 AI 语音好太多。Gemini Live 令人印象深刻;谷歌的工程师设法捕捉到自然的声音,并允许您实时打断,但它确实缺了点特别的东西。
要是你有免费版的 ChatGPT 并且得以抢先窥探一下高级语音功能,那就试试吧,因为就跟苹果手表似的,在你真正用上之前,你都不清楚它到底有多好、多有用。
比如说,我给我三岁的儿子展示高级语音功能,并且跟它讲:“嘿,ChatGPT,这是我儿子,他三岁啦,他叫西奥多。”它的语音语调立即变成了你和小孩子说话时会用的那种类型。它甚至直接和他交流,并且能分辨出是我还是他在说话。
另一个令人瞩目的特点在于让它改变口音,然后将这种口音存储在记忆中,从而每次都能以这种方式说话。这可能包括让它像尤达、海盗或者尤达海盗那样讲话!
出于安全方面的担忧以及对底层模型所设置的限制,我们几乎还未见识到原生语音到语音的潜在能力。当它开始表演口技或者唱歌时,您偶尔才能瞥见其真正潜力的片段。在未来,随着 OpenAI 找到降低安全问题影响的方法,我们将会开始看到更多此类能力得以展现。
这基本上就是在兜圈子说,即如果你有免费版的 ChatGPT 并且你提前领略了高级语音,那就试试呗,因为就像苹果手表一样,在你实际使用之前,你不知道它有多好或多有用。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.