网易首页 > 网易号 > 正文 申请入驻

GPT-Realtime-2上线!全球AI巨头加码,语音一夜成了AI圈香饽饽

0
分享至

2024 年 2 月,OpenAI 发布了 Sora。这个能生成视频的 AI 模型用极短的时间改写了移动互联网时代的内容创作方式,甚至连迪士尼都曾计划为此注资十亿美元,并计划在 Sora 2 中引入自己的核心影视 IP。但就在 26 年 3 月,OpenAI 宣布关闭 Sora,相关 API 也会在 9 月停止提供。

对此,OpenAI 的解释是「将计算资源重新分配至核心企业产品」。

那到底是怎样的产品值得 OpenAI 不惜「壮士断腕」呢?刚刚过去的四月里,OpenAI 先后发布了 GPT-Image 2.0、GPT-5.5 等新服务。5 月 7 日,OpenAI 也乘胜追击,接连上线了 GPT-5.5 Instant 和今天我们要谈的重点——GPT-Realtime-2 系列模型。

GPT RT2让 AI 像真人一样说话

简单来说,GPT-Realtime-2(简称GPT RT2)是一个全面优化 AI 语音能力的模型系列,包含原版(GPT-Realtime-2)、翻译(GPT-Realtime-Translate)和转录(GPT-Realtime-Whisper)三个分支。其中 GPT-Realtime-2 具备 GPT-5 级别推理能力,开发者甚至可以自定义模型的推理深度,在准确性、时效性和算力成本之间找到自己的平衡。



图片来源:OpenAI

而这些新技术的目的有且只有一个——让 AI 能像真人一样说话。

我知道,其实现在不少 AI 模型在 TTS 音色上已经和真人非常接近了,大家平时接到的运营商、银行的骚扰电话,十有八九就是 AI 打出的,在通话的「全损音质」下,想分清对方是真人还是 AI 确实有点难度。

但只要我们一张嘴,这些 AI 客服就会马上露馅,在雷科技看来,这种 AI 语音模型和真人的能力差距,主要体现在复杂任务处理能力上。以一个经典笑话举例:

下班路上买一个西瓜,如果看到苹果,就买两个。

没有推理能力的 AI 会按照自己的想法把「就买两个」的对象当成西瓜或苹果;而有推理能力的 AI 会发现这是个有歧义的病句,反过来要求用户给出更清晰的要求。再举一个例子:你要求车机「折叠副驾驶位,打开零重力模式」时,车机是否能主动推理出你要打开零重力模式的,其实是副驾驶后排的座位呢?

而 GPT-Realtime-2 的出现,就给 AI 带来了真正理解用户需求的能力。

除此之外,GPT-Realtime-2 的平行工具调用(Parallel tool calls)可以一次拉起多个组件,以响应用户的复杂语音指令;GPT-Realtime-Whisper 可以以近乎实时的速度把语音转写成文档,让「实时字幕」成为可能;GPT-Realtime-Translate 的同步翻译功能可以在对方还在说话时直接生成语音译文,效率堪比同声传译。



图片来源:OpenAI

毫不夸张地说,GPT-Realtime-2 的出现,很有可能会改变未来 AI 的交互方式,让语音交互取代文字,成为未来日常 AI (非工作等生产力 AI)的主要交互模式。

「老登」习惯打字,年轻人爱动口?

但话又说回来,在语音交互赛道上发力,其实是近几年 AI 赛道的共识了:

5 月 7 日千问 PC 端上线 AI 语音输入,用极强语义解析能力打造了可以用于工作场景的 AI 用例,在此之前,豆包、Claude、ChatGPT、Gemini等AI均已支持桌面语音模式,允许用户用嘴与AI交互,包括编程;4 月 27 日影石 Insta360 联手字节跳动 AI 编程平台 TRAE 推出了适用于 Vibe-Coding 的领夹麦克风;4 月 23 日涂鸦在全球开发者大会上发布了 PVAD 自训练模型和 TTS增强引擎,提出了 LUI(语言交互界面,与图形交互界面 GUI 对应)的概念。

甚至在就在今天,马斯克也在 X 上为 xAI 的打造的Grok Voice Think Fast 1.0 语音助手宣传造势。



图片来源:X

那为什么 2026 年的 AI 战场会落在语音交互界面上呢?OpenAI CEO Sam Altman 就提到了一个观点:

顺便提一句,年轻人似乎更喜欢通过语音与 AI 互动,而老年人以及中间年龄段的人更喜欢打字。我想知道这会不会改变。

在雷科技看来,这一现象背后不仅是习惯问题,也是年轻人与中年人思维模式的差异。对于在全时在线、触屏环境中长大的 00 后、10 后(以及诞生于语音交互时代的 20 后)来说,键盘带有浓厚的「班味」,除了打游戏外几乎不会碰。



图片来源:X

顺着这个角度想,在过去 20 年里,键鼠组合高效、精准的输入方式为 PC 的生产力工具的身份打下了基础,但也限制了我们「必须在电脑前才能工作」。而 LUI 的出现改变了这个刻板印象:起身接杯水也好、下楼透气也好,甚至只是瘫在椅子上思考时,AI 都能通过我们的「只言片语」跟上我们的思维,让灵感随时在线。

事实上,语音输入「有效信息含量低」的特点,也确实只有 AI 可以解决。以千问今天上线的 PC 端上线 AI 语音输入为例,雷科技简单体验了一下。除了基础的语音输入外,千问 PC 语音输入还可以自动过滤掉说话过程中那些没有意义的语气词、填充词。

比如在输入图中这个需求时,我几乎在每一个停顿处都加入了大量的「呃」「就是」,千问也能直接过滤掉。



图片来源:雷科技

不可否认的是,在办公室等公共场所使用语音输入,多少会对其他同事产生影响。但 AI 语音能力的提升,确实让语音输入在工作场景也具备了「实用性」,如果你像年轻人一样说话跳脱、思如泉涌、「脑子比嘴快」,又或者喜欢用语音输入,那千问的语音输入功能对你确实很有帮助。

从这个角度看,拥抱语音交互,本质上是 AI 巨头们在抢占这些年轻用户的市场。谁能把语音交互做稳,谁就能垄断这些年轻人碎片化时间的「交互主权」。

其实这种迎合下一代使用习惯,超前建立用户粘性的做法也并非新鲜事,MacBook Neo、Chromebook、iPad 等电子产品在海外烧钱发力教育市场,背后也是同样的逻辑。

只不过在雷科技看来,除了面向下一代的超前布局外,AI 巨头不约而同发力 LUI,背后还有别的推动力:LUI 和 AI 的的终极目标一致,都带有「永远待命、随时可用」的属性。

文字界面(TUI、命令行)也好、图形界面(GUI)也罢,经过多年的发展,这类视觉交互能覆盖的场景早已到头。但在开车、锻炼、下厨、洗澡这些「手脚被占用」的场景里,语音交互的价值仍未被完全挖掘。

以最常见的驾驶场景为例:为了填补实体按键缺失带来了交互空白,国内新能源品牌早已在 LUI 语音交互界面上发力;对着车机下超长复杂指令,也成为了大家体验智能座舱时的保留节目。

作为回应,不少车企也开始与头部 AI 企业合作,利用外部的语音大模型完善智能座舱的体验。比如在去年的广州车展上,不少车企就向雷科技透露自己的车机「融入了豆包」的能力。



图片来源:雷科技

可以说,在 AI 市场风起云涌的 2026 年,哪家 AI 企业能抢先完善 AI 语音,带领行业从 GUI 交互走向 LUI,谁就能抢先一步吃上「新的蛋糕」。

语音成了AI硬件交互的入口

即使我们抛开 LUI 这种长远命题不谈,从用户、智能硬件的角度来看,语音交互其实也是加速 IoT 设备转型为 AIoT 设备的捷径。

以往的智能硬件要变「聪明」,需要堆屏幕、堆算力芯片。而 AI 语音对设备端的硬件要求极低,一个用来收音的麦克风、一个处理音频数据的计算模块、一个用于跑端侧模型的算力平台(这个对部分 AI 硬件来说甚至是可选项)再加上最基本的网络连接能力,任何一个曾经不起眼的 IoT 产品,都能摇身一变成为 AIoT 硬件。



图片来源:雷科技

为雷科技报道海外展会和高管群访立下汗马功劳的钉钉 A1 录音卡就是最好的例子。过去雷科技也试过不少智能录音设备,甚至买过运行端侧本地模型的智能录音笔。但受模型能力限制,这类「智能录音笔」效果通常都不尽如人意。

不过钉钉 A1 就没有这个问题了:手机里装着完整的大模型,能以近乎同步的速度输出翻译结果。而把转写、翻译的任务交给手机后,A1 里的端侧小模型也能将更多的资源用在语音拾取、降噪等方面,从源头优化录音效果。

在录音、转写、翻译这三大功能外,钉钉 A1 录音卡也充分发挥了 AI 智能体的能力,可以将录音内容直接转化为符合标准格式的会议记录、待办事项,甚至可以在基础上对内容进行二次深度理解。

而从产品多样性的角度看,除了给传统 IoT 设备「赋能」外,AI 语音交互的出现甚至催生了不少 AI 新概念产品。像科大讯飞就基于其在语音识别领域多年的技术积累,打造了包括 AI 翻译机、AI 墨水屏办公本、会议耳机、AI 眼镜甚至是 AI 键盘、AI 鼠标等产品。

尽管产品品类繁多,但按照其对 AI 技术的应用,雷科技认为这些 AI 产品依旧有一条横跨品类的「主线」——用语音 AI 丰富硬件的交互方式,从而优化产品的体验。



图片来源:讯飞

以讯飞的 AI 办公本为例,受限于像素响应时间,电子墨水屏设备天然就不适合键盘输入。用过 Kindle 的朋友应该对 Kindle 连 Wi-Fi、打密码的流程深有体会。这种输入手段的缺失让电子墨水屏设备长期以来只能当作单纯的「显示设备」,不具备真正的办公能力。

但 LUI 的出现改变了电子墨水屏「只有输出没有输入」的局面:讯飞星火大模型的外语和方言识别能力,解锁了电子墨水屏的输入能力,让墨水屏从「显示器」真正升级成了「办公本」。搭配图片理解等多模态输入能力,讯飞早已将电子墨水屏设备打造成了「全能办公设备」。

可以说,无论从产品、用户还是 AI 供应商的角度看,语音交互对 AI 的重要性都毋庸置疑。

中国AI的优势:更会听/说中文

另外,发力 AI 语音交互对国内 AI 巨头来说,其实还有另一个意义——中国的 AI 公司,天生更懂中文。

按第一语言(母语)来算,中文是世界使用人数最大的语言;按照总使用人数(母语+第二语言)来计算,中文是世界使用人数第二大的语言。

可能有人认为「懂中文」只对国内用户有意义,上升不到国际角度,但事实并非如此。雷科技前段时间去美国旧金山参加了追觅的发布会,更早之前也在巴塞罗那、柏林等非英语城市参与了海外展会的报道。

就雷科技的所见所闻而言,大量一代移民即使身处海外,也只会说中国话(主要为粤语)。很多上年纪的华人即使在温哥华、旧金山、巴塞罗那、墨尔本等移民城市生活多年,依旧过不了最基本的入籍语言关。

很显然,他们也有使用 AI 的需求,甚至对于不会打字的老人群体来说,语音交互是他们使用电子产品的唯一手段。但无论 Google 的 Gemini、OpenAI 的 ChatGPT 或 xAI 的 Grok,其对中文语音的支持都相当有限。以 ChatGPT 为例,过年策划主流 AI 助手中文和方言支持时,雷科技就发现 ChatGPT 并不能稳定、持续输出广东话,说着说着就会自动切换回英语。

对 ChatGPT、Gemini、Grok 来说,「说中文」是个不小的挑战;但对豆包、千问、Kimi、讯飞等国内 AI 服务来说,这恰恰是「与生俱来」的优势。



图片来源:豆包

相比英语,中文存在大量的倒装、省略以及「只可意会」的潜台词。再加上中国庞大的方言体系,广东话、四川话、东北话……每一个方言背后都是一套独立的文化逻辑。海外巨头的大模型虽然能翻译中文,但在处理带口音的口语、特定语境下的俚语时,往往无从下手。

而这恰恰为豆包、千问、讯飞等国内头部品牌建立了天然的护城河。像刚刚提到的千问 PC 端语音输入能力,甚至可以对语音素材进行规整,精准找到用户语音中的重点,不需要用户「意思意思」。前几年,商汤甚至还推出了首个面向粤语用户的 AI 服务「日日新」。

不可否认,无感 AI 交互是一切 AI 服务的终极目标。但在这种主动感知 AI 交互普及之前,语音依然是最高效、最直接的桥梁。国内 AI 行业通过死磕中文和方言,实际上也换来了「海外华人」这一被海外 AI 巨头长期忽略的用户群体,找到了一条跻身世界头部品牌的快车道。

2026 年,AI 竞争逻辑已经倒转:以前的 AI「需要人学」,现在的 AI「拼命学人」。随着语音交互、LUI 等概念的普及,那个对着输入框抠字的日子,真的该翻篇了。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国客人已抵达北京,开口就要中国采购波音,王毅把丑话说前头

美国客人已抵达北京,开口就要中国采购波音,王毅把丑话说前头

丁丁鲤史纪
2026-05-08 18:17:50
韩乒教练:对比中日球速依旧不足,需要提升衔接速度与细腻球路

韩乒教练:对比中日球速依旧不足,需要提升衔接速度与细腻球路

懂球帝
2026-05-09 00:11:04
曹德旺关闭8.84亿美厂:美国不讲理,不再陪玩

曹德旺关闭8.84亿美厂:美国不讲理,不再陪玩

最新声音
2026-05-07 07:04:47
亏损3900万的服装厂靠吴宜泽一夜逆袭,金利来借此实现盈利转机?

亏损3900万的服装厂靠吴宜泽一夜逆袭,金利来借此实现盈利转机?

户外钓鱼哥阿旱
2026-05-08 13:35:15
两任国防部长判死缓,今天不得不提这个人了。

两任国防部长判死缓,今天不得不提这个人了。

华人星光
2026-05-08 11:04:21
下赛季中国将举办7站斯诺克比赛,数量创历史新高

下赛季中国将举办7站斯诺克比赛,数量创历史新高

懂球帝
2026-05-08 13:43:15
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
4.9万辆配额先到先得,中国车企抢滩加拿大

4.9万辆配额先到先得,中国车企抢滩加拿大

薛定谔的BUG
2026-05-07 22:28:06
访华仅剩8天,美国抛出1890亿美元,中方底牌亮了

访华仅剩8天,美国抛出1890亿美元,中方底牌亮了

爱看剧的阿峰
2026-05-08 17:01:38
何庆魁女儿去世,年仅54岁,哥哥亲口证实噩耗,父亲外出捕鱼散心

何庆魁女儿去世,年仅54岁,哥哥亲口证实噩耗,父亲外出捕鱼散心

东方不败然多多
2026-05-08 16:49:12
离婚1年后,女子再次思念前夫,发了句“在干嘛”,他立马回复:你要是再多说一句话,明天我就找你复婚!

离婚1年后,女子再次思念前夫,发了句“在干嘛”,他立马回复:你要是再多说一句话,明天我就找你复婚!

品读时刻
2026-05-08 09:09:58
7800亿!蓝白联手三读通过军购案,绿营弃权抗议!

7800亿!蓝白联手三读通过军购案,绿营弃权抗议!

聚焦真实瞬间
2026-05-09 00:12:25
登机前,特朗普向31国抛出一个问题:若和大国谈崩了,北约帮不帮

登机前,特朗普向31国抛出一个问题:若和大国谈崩了,北约帮不帮

共工之锚
2026-05-09 00:03:19
乾隆皇帝包裹遗体的被子,拍出了1.3亿天价,为何会如此值钱?

乾隆皇帝包裹遗体的被子,拍出了1.3亿天价,为何会如此值钱?

兴趣知识
2026-05-08 00:40:30
刘楚恬:2岁出道年入百万,因长相甜美被禁止整容,如今长什么样

刘楚恬:2岁出道年入百万,因长相甜美被禁止整容,如今长什么样

蹲坑看世界
2026-05-07 15:09:16
特朗普即将访华,启程前提了个要求,向中方点名要这个人

特朗普即将访华,启程前提了个要求,向中方点名要这个人

带你领略世界风采
2026-05-08 18:05:23
外交部:奉劝巴拉圭当局早日站到历史正确一边

外交部:奉劝巴拉圭当局早日站到历史正确一边

环球网资讯
2026-05-08 16:11:17
中方关键时刻伸出援手,给生死存亡的老杜家族,送出了一丝希望

中方关键时刻伸出援手,给生死存亡的老杜家族,送出了一丝希望

娱乐圈的笔娱君
2026-05-08 13:54:28
大瓜!许家印昔日恒大奢靡细节流出,丁玉梅海外包养30岁白人小伙

大瓜!许家印昔日恒大奢靡细节流出,丁玉梅海外包养30岁白人小伙

壹月情感
2026-05-09 00:00:07
锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

知法而形
2026-05-08 16:39:04
2026-05-09 00:59:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36842文章数 812083关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

本地
游戏
家居
手机
军事航空

本地新闻

用苏绣的方式,打开江西婺源

PS未发售重磅独占要完!同类项目崩盘 新作悬了

家居要闻

流动的尺度 打破家的形式主义

手机要闻

小米超大屏旗舰杀回来了!小米17 Max入网配置全曝光,价格很香

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版