前几天,在AI产品经理大会上,声网对话式AI产品的负责人姚光华,被很多人围住了。
原因是他在大会上分享了声网去年与OpenAI合作推出全球首个Realtime API背后的故事,大家都很好奇OpenAI为啥会选声网。
我研究了一下,原来OpenAI很早就公布了3家语音API合作者:Agora、LiveKit、Twilio。
其中,Agora是声网在美国的兄弟公司,也是OpenAI长期深度的合作伙伴。
![]()
据说当时OpenAI找过不少候选方。有技术更强的实验室,也有规模大的云厂商。但它们都有明显短板。
实验室技术行,可没什么商业化落地经验,扛不住真实场景的高并发。
云厂商的RTE服务大多是“附带业务”,没把这当核心方向发力。
声网的优势刚好在这里。
成立于2014年的声网,已经在RTE领域深耕11年,早就在真实场景里受过考验。
比如之前帮新东方扛过百万师生同时上网课的流量峰值,还帮重庆120做过急救视频会诊的稳定支撑。
这种“能扛高并发、经得住实战”的稳定性,正是OpenAI最需要的。只是交互的对象从人与人之间变成了人与 AI。
01. OpenAI Realtime API 与声网的结合
OpenAI 自从推出 GPT-4o 之后,一直在推动模型语音交互能力。
GPT-4o 不仅支持文本,新增了音频和视觉的推理能力,能更快响应音频输入,这让实时语音交互进入到真实可用阶段。
在 2024 年 10 月发布的 Realtime API 中,OpenAI 选择了 Agora 作为其中一个集成伙伴,这标志着 OpenAI 正试图把其语言模型的实时语音交互能力推向更广泛的开发者生态。
通过 Agora 的 Conversational AI SDK,开发者可以在自己的应用里快速构建基于 OpenAI Realtime API 的实时语音交互产品。
![]()
解释一下到底声网和OpenAI合作了个啥~有几个重要设计方向值得关注:
首先一个,是真实实时需求。
开发实时语音对话应用,不能把网络延迟和语音处理叠加成可预期的抖动。
Agora 提供的底层实时网络,没有用普通 HTTP 或 WebSocket 去做请求,是有一套专门针对实时音视频设计过的协议和网络路由,能把延迟和丢包控制在更低水平。
再一个,是全链路优化。
为了提高真实环境下的语音交互质量,Agora 的 SDK 里加入了对环境噪声抑制和 AI 回声消除的支持。
这是典型的工程优化需求:用户在街上、办公室、家庭不同噪音环境下交互,需要快速把干扰降到可用水平,这样模型才能接收到清晰输入,反应才不会出现误识别。
最后还得有高可扩展性。
这套 SDK 并不锁定某个模型或一个服务商,开发者可以根据具体业务需求,将 OpenAI Realtime API 作为其中一个模块接入使用。
通过标准化的调用方式,不同业务可以复用一套实时通信和语音处理能力。
这一整套解决方案的目标是减少开发者在实时语音对话这件事上的“自定义环节”,让产品团队能把更多精力投入在业务逻辑和产品体验上,不需要再因为处理底层协议、丢包重传、环境噪音等细节问题焦头烂额。
![]()
02. 不止OpenAI:国内AI公司也在用声网
在当下国内的AI产业中,既有摩尔线程、DeepSeek、MiniMax这样的明星企业,也有很多像声网这样在背后默默提供AI底层技术支撑的企业,搭建起AI产业的基建,他们也同样值得敬佩。
想搞懂声网在AI领域的核心竞争力,看国内合作案例就很直观。
最近MiniMax在冲刺国内大模型第一股,其实声网去年就和它合作了。
俩家一起发布了国内首个Realtime API,2024年10月在RTE 2024实时互联网大会上首次亮相。
这个API就是为了提升端到端实时多模态处理能力,让延时更低,语音对话更自然。
还有像智谱、商汤等大模型公司,以及国内知名的AI应用/硬件,例如星野、豆神AI、芙崽Fuzozo等,也都在用声网的对话式AI技术,构建极致的人机交互体验。
![]()
现在AI陪伴、AI伴侣式应用越来越火了,而声网的底层技术支撑,成了很多AI伴侣机器人规模化应用的关键基础设施。
像声网为Fuzozo芙崽提供对话式 AI 引擎,通过低延迟、高稳定的实时互动技术实现自然流畅的情感交互。
更早之前,MiniMax、星野、智谱清言,在打造多媒体互动平台、语音交互体验的时候,背后的技术支持也是声网。
可以说,声网为很先锋的这批AI公司的核心体验,提供了很深入、很细致的技术支持。
好比声网对话式 AI 引擎提供的智能打断处理技术赋予了智能体、机器人灵活的对话能力,能够根据用户的表达实时调整,极大地提升了交互的适应性与流畅度,告别机械式应答。
硬件、机器人公司的需求,也在声网的技术服务射程范围内。
机器人技术初创公司Carbon Origins,就已在通过 Agora的技术以及 OpenAI RealtimeAPI,实现重型设备的无接触操作,提升操作人员的工作效率。
再比如在儿童智能手表场景里,屏幕本身很小,语音交互成为核心的输入与反馈方式。
实时语音对话不仅要求听得清,还需要语义理解准确,这对于设备端的处理能力和网络调度提出了要求。
声网在 IoT 端配合大模型能力,构建了一套低延迟语音识别、降噪处理、云端实时推理和混合多模态输入的方案,帮助设备厂商在终端产品上实现更自然的语音体验。
客服、娱乐等场景,也是声网积累多年的优势领域。
而近年和AI深度结合后,实时互动、场景拓展,带来了更真正的效果提升。
![]()
人和人之间的实时互动和人和 AI 之间的实时对话从本质上有区别,但考验底层通信稳定性的需求是一致的。
不同的是,前者是数据传输可靠性要求高,后者在此基础上还需要对接模型推理和语音识别、合成等模块。
![]()
现在很多人在谈 AI 语音时只盯着模型和算法,但对实时性的要求是层层叠加的工程挑战。声网的价值正在于它把这些工程难题,做成了对开发者可复用的能力。
任何产业的崛起从不是单点的胜利,而是生态的共荣。当越来越多的中国企业通过创新在世界的舞台上闪耀,我们才能在全球AI的浪潮中勇立潮头。
03. 从实时音视频到对话式交互:声网的技术积累
声网从最早做实时音视频切入市场。过去十年,它积累了全球实时互动的基础设施能力,规模和影响力已经非常明显。
在教育、远程办公、娱乐直播、社交互动等领域,实时互动技术是基础设施级别的能力。
这种技术看上去很靠底层,但实际上涉及非常多复杂工程问题。
不同国家、不同运营商的网络环境差异很大,移动网络的丢包、抖动、本地终端性能的不同,都对实时通信提出了极高要求。声网在这部分积累的经验,成为它进入 AI 实时互动的最大基础。
到 2025 年10月,声网的年度服务时长已经突破1 万亿分钟级别,这说明有大量应用在背后持续使用它的实时能力。
![]()
一个技术在实验室能跑,跟在全球真实网络条件下跑是完全不同的两个世界。
一个跑一两百次请求成功,很容易;要在数千个物理节点和数百万用户并发访问下保持稳定,需要的设计和工程迭代完全不是一丁点功夫。
这也是为什么 OpenAI 在全球范围内寻找能够支持 Realtime API 的合作伙伴时,会最终把 Agora 纳入清单的一部分原因。
![]()
Agora 的实时网络覆盖范围广,存在多年的运营经验、本地网络调度优化能力,已被全球众多开发者在实际商业场景中验证过。
在网络层、音频处理和实时路由上,声网有一套完整的解决方案,能缩短端到端的延迟,提升语音识别准确率和稳定性。
对企业和开发者的吸引力在于,不仅能让开发者更快交付产品,还在实际复杂使用场景下表现更可靠。
![]()
有几个我非常喜欢的功能,也是声网的技术亮点,在实现人和AI 智能体的自然交互表现很突出:
自动问候:确保实时感知会话状态,并提供自然、友好的初始交互体验。
混合模态交互:支持在单个交互会话内,实现语音与文本输入的无缝切换。
灵活的话轮检测选项:为开发者提供对对话流程和话轮转换行为的精细化控制。
无中断输入:通过选择性注意力锁定技术,可过滤环境噪音与干扰语音,确保交互过程不中断。
这套方案不仅能简化Realtime API的应用流程,还能为多模态 AI 智能体解锁全新功能与应用场景。
将 OpenAI的实时语言模型与声网的全球实时网络基础设施(SD-RTN)及定制化开发者工具包相结合后,开发者既能缩短产品上市时间、简化应用开发流程,又能交付更优质的实时对话式 AI 体验。
04. 技术提供者与生态构建者的角色
今天的 AI 技术发展已经进入一个新的阶段,从单一模型能力向产品生态扩展推进。
开发者关注的不只是模型本身,还关注用户是什么时间、在什么场景、以什么形式和模型互动。
声网所处的位置,恰恰是核心基础设施。
它长期积累的实时网络能力、弱网适配、跨平台支持、SDK 开发套件等,让大规模实时互动成为可能。
不只是与 OpenAI 合作,现在,声网支撑的实时互动覆盖超过 200 多个国家和地区,月服务分钟数已经达到了700亿。
IDC 的市场数据还表明,在中国实时音视频市场,声网的份额持续保持着领先。
这种基础设施级别的能力,不会因为模型更新而消失,它会随着 AI 越来越多落地行业而变得更重要。
也许在2026年,随着AI应用/硬件的规模化落地,AI行业的聚光灯,将真正打在声网这样的「幕后英雄」身上。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.