网易首页 > 网易号 > 正文 申请入驻

你给豆包打的这通视频背后,藏着AI实时交互的体验密码

0
分享至

智东西

作者 | 陈骏达

编辑 | 漠影

今年,字节跳动旗下AI应用豆包的交互方式迎来多次升级,从春节期间的实时语音通话,再到5月份新增的视频通话功能,如今,豆包已经能像真人一样通过多模态交互实现无缝沟通。

我们先来看几个例子:

打开视频通话功能,随手对准一个欧洲小国的国旗,豆包便能结合音视频信息,瞬间给出正确答案。

通话过程中,用户可以随意地停顿、思考、改变话题,豆包能准确地把握回复的时机;而在豆包说话时,可以随时打断,向它提出新的要求。

在地铁站、电梯、地下车库等较为复杂的网络环境下,豆包的实时交互能力也不会大打折扣。下方案例中,豆包的响应速度没有出现明显的问题,给出的回答也正确、清晰。

要实现这种近乎直觉性的体验,并在一款国民级AI应用中稳定提供实时音视频交互,豆包需要攻克不少挑战。

除了提升模型能力之外,实时音视频交互要如何将摄像头捕捉的画面高清呈现,如何将AI的视觉推理和搜索反馈同步,又如何在疯狂丢包的弱网环境中依旧维持高质量通信?

豆包最终选择的方案,是火山引擎的RTC(Real Time Communication,实时音视频)技术。目前,真人用户间的音视频通话几乎都依赖RTC技术,火山引擎智能交互产品负责人杨若扬向智东西透露,他认为,未来的人机音视频通话也必将全面进入RTC时代。

一、实时交互技术路径分野,RTC凭借什么胜出?

RTC是一项专门为低延迟互动设计的技术,能降低通信延迟、确保实时性和质量,让用户与用户、用户与系统间实现近乎“面对面”般的无缝音视频交互体验。

这项技术涉及多个模块,比如音视频的采集与编解码、网络传输、网络自适应等,这些模块协同工作,保证了用户从摄像头、麦克风采集的数据能清晰流畅的传送至接收方,而用户也能及时收到对方的音视频反馈。

虽然RTC并不是目前业内唯一的实时交互方案,但与基于TCP协议实现的另一大主流方案WebSocket相比,RTC拥有显著的优势。

协议方面,RTC底层采用UDP传输,避免了传统TCP必须完整接收再传给应用层的机制。RTC允许一定程度丢包但保证速度,因此延迟非常低,特别适合实时音视频通话和互动

理想情况下,RTC和WebSocket的语音延迟差异不大。但现实世界的网络情况复杂多变,WebSocket对丢包比较敏感,网络波动时延迟明显升高,不如RTC流畅。

RTC技术具有较强的抗弱网能力。线上实测数据清晰印证,在20%丢包环境下,WebSocket方案已出现严重卡顿、断连,并且线上已有高达15%的用户不可用;而RTC即使在80%极端丢包下,不可用率也仅为1%,体验稍有滞后(延时4.6s)。

在视频场景,RTC技术还可以利用其带宽估计、前向纠错(FEC)和丢包重传等抗拥塞能力与端到端传输优化,有效降低移动网络或拥挤WiFi下画面花屏与卡顿的风险。

火山引擎的RTC技术于2021年随品牌发布上线,但其研发始于2017年,用于满足抖音直播连麦等需求。此后,这一技术陆续在字节内部的音视频通话、社交娱乐、游戏、在线会议等场景落地。

2021年火山引擎成立后,其RTC技术逐渐产品化,承载能力也不断提升。而生成式AI的爆发,给RTC技术带来了新的发展机遇,2024年初,火山引擎推出了基于RTC的对话式AI技术方案,这便是豆包交互体验升级背后的重要支撑。

二、豆包交互体验再升级,揭秘背后核心技术栈

我们已在文章开头的案例中,看到了RTC支持下豆包语音交互、视频电话的流畅、即时性体验。在智东西与火山引擎智能交互产品负责人杨若扬的沟通中,我们了解到了这一效果背后的具体实现。

豆包首先充分利用了火山引擎RTC方案的既有优势,实现了低延迟、高质量和抗弱网的音视频交互体验。

在网络层面,火山引擎拥有覆盖全球的边缘节点和骨干网络,这能有效缩短数据传输物理路径,减少中间节点,降低延迟和丢包风险。同时,智能路由技术可实时感知链路状态和拥塞情况,动态选择最优路径,确保数据传输高效流畅。

在算法层面,火山引擎RTC技术拥有网络、音频和视频多类算法。网络侧通过动态带宽、自适应传输、前向纠错、智能重传等机制提升弱网适应能力;音视频侧结合神经网络编解码、分层和感知内容编码等技术,动态优化编码参数,有效缓解“最后一公里”网络不确定性,保障用户端音视频传输的清晰度与稳定性。

杨若扬认为,在豆包这样的“对话式AI”场景,RTC技术所服务的对象已从人和人之间的交流,转变为人与机器的交流。火山引擎RTC技术针对新场景的特点,在音视频处理层面做了针对性的升级和优化

视频流与大模型在输入输出形式上存在明显差异:视频由一帧帧图片组成,而当前的多模态大模型以理解单张图片为主,这要求模型能分析帧间联系与时序,保证语义连续,因此必须不断优化视频理解与关键帧提取算法,以提升模型对动态场景的感知与处理能力。

在人与AI的对话中,AI如何准确断句,选择接话、插话的时机也是一大挑战。人类能凭语境判断对方话语结束时间,并凭音色识别说话者、滤除无关噪声,而大部分AI系统仅依赖停顿时长判断,往往不够准确,这就需要引入智能语义判停与声纹降噪算法。

智能语义判停技术可以根据语义判断用户话语是否完整,让模型不会过早回复。下方案例中,用户可以停顿,思考,而不会被豆包插话。

声纹降噪算法能在嘈杂环境中聚焦目标说话者,屏蔽环境人声及噪声干扰,将误打断率降低15%-20%。

这些改进让AI在音视频通话中展现出更接近人类的特征,也让用户在与豆包对话时能获得更加流畅、自然、贴近真实互动的使用感受。

三、智能音视频交互需求井喷,RTC有望提供坚实底座

随着大模型与AI应用的日渐成熟,音视频已成为新一代AI交互中不可或缺的一部分,这些模态所提供的沉浸式体验对用户天然有吸引力和亲近性。

在虚拟陪伴、智能玩具、智能家居、智能教育等广阔场景中,用户对于低延时、高质量、自然流畅的人机对话需求与日俱增,而火山引擎RTC这样能够支撑复杂场景实时音视频交互的底层传输技术正是保障用户体验的关键。

在多Agent、多人场景中,RTC技术还展现出较好的可扩展性,相较传统WebSocket实现语音方案,RTC在网络层和算法层都更为成熟,原生支持房间管理、多流控制、音视频混音与优先级策略,可应用于多人娱乐、企业办公等场景。

火山引擎基于RTC的对话式AI技术,不仅仅是“豆包专属”,而是能为所有AI时代的产品提供重要价值。作为火山引擎的核心音视频技术之一,RTC 已广泛应用于字节各大业务场景,在真实用户环境中反复打磨与优化。

同时,火山引擎提供的RTC服务与其内部业务完全同源,换句话说,企业通过火山引擎接入RTC,使用的就是与抖音、飞书、豆包同款的算法、架构与策略。

当然,RTC技术也存在行业共性难题:一方面,自建集成方案门槛较高,需要专门的网络传输与音视频处理能力,另一方面,云服务资源消耗也不可小觑,此外深度音频算法调优也需大量投入。

杨若扬观察到,上述难题导致许多企业不得不选择实现成本相对低廉、门槛较低的WebSocket,一定程度上牺牲用户体验,等待用户规模扩展后再考虑换用更成熟方案,这无形中限制了产品的成长与竞争力。

针对这些痛点,火山引擎对话式AI一站式方案提供了低门槛、高质量的接入途径。开发者无需从零开始搭建复杂架构,即可实现用户与AI的实时音视频互动,构建契合业务场景的AI实时对话能力。

火山引擎对话式AI官网:

https://www.volcengine.com/product/veRTC/ConversationalAI

火山引擎还为开发者提供了每月10000分钟的免费额度,进一步降低了开发者的前期验证与迭代成本。

结语:从难点到标配,RTC成对话式AI首选项

在对话式AI场景中,RTC正在成为企业的优选方案,这种整合方案让企业能更加专注业务创新,以更低成本、更快速度落地语音与音视频能力,从一开始就为用户带来高品质的交互体验,为下一代智能应用赢得先机与口碑。

火山引擎的对话式AI一站式方案,让实时音视频从“难点”变成“标配”,为各类AI应用与智能体生态拓展广阔空间,让未来的人机互动更加顺畅、高效、有温度。

杨若扬称,在多模态音视频技术上,火山引擎希望让人和AI之间的对话越来越接近人与人之间的真实沟通,这也是他们未来持续努力的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
道歉,火箭队伊森因恶犯导致文斯·威廉姆斯膝盖前交叉韧带撕裂

道歉,火箭队伊森因恶犯导致文斯·威廉姆斯膝盖前交叉韧带撕裂

好火子
2026-02-25 01:25:29
通威股份拟收购“独角兽”,市场估值曾高达138亿元,创始人为通威前董事

通威股份拟收购“独角兽”,市场估值曾高达138亿元,创始人为通威前董事

红星资本局
2026-02-25 12:30:11
东契奇:最后没出手是觉得离筐有点远 看到老詹有空位所以传给他

东契奇:最后没出手是觉得离筐有点远 看到老詹有空位所以传给他

罗说NBA
2026-02-25 15:17:47
腾讯关闭天美蒙特利尔工作室!成立5年没有自己作品

腾讯关闭天美蒙特利尔工作室!成立5年没有自己作品

游民星空
2026-02-23 09:21:23
李一桐,让人不敢相信的身材!

李一桐,让人不敢相信的身材!

东方不败然多多
2026-02-24 16:50:20
28分钟狂砍0+0+0+0+0!还有谁能做到?

28分钟狂砍0+0+0+0+0!还有谁能做到?

小染说台球
2026-02-25 08:44:04
故事:请8同事吃饭结账竟有3桌,我只结自桌,15分钟老板来电说他们被扣

故事:请8同事吃饭结账竟有3桌,我只结自桌,15分钟老板来电说他们被扣

奶茶麦子
2026-02-25 12:08:50
冲上热搜!“太困了不想上班”,专家建议:节后上班第一天少干活,“用轻度任务帮助神经系统平稳过渡”!网友:这次听专家的

冲上热搜!“太困了不想上班”,专家建议:节后上班第一天少干活,“用轻度任务帮助神经系统平稳过渡”!网友:这次听专家的

每日经济新闻
2026-02-24 14:53:04
他一夜爆火,看哭无数人:人生越无常越值得珍惜

他一夜爆火,看哭无数人:人生越无常越值得珍惜

蓝钻故事
2026-02-24 00:07:48
你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

夜深爱杂谈
2026-02-24 20:10:07
哈登:米切尔非常非常无私 而且随时都能接管比赛

哈登:米切尔非常非常无私 而且随时都能接管比赛

北青网-北京青年报
2026-02-25 15:24:06
明星卸妆后,曾黎脸蜡黄,王子文像老阿姨,看到王一博后我惊呆了

明星卸妆后,曾黎脸蜡黄,王子文像老阿姨,看到王一博后我惊呆了

最美的开始
2026-02-24 19:00:14
德媒:要不是中国把所有脏活累活全给干了,欧洲今天也不会这么惨

德媒:要不是中国把所有脏活累活全给干了,欧洲今天也不会这么惨

梁讯
2026-02-24 20:04:43
百亿私募再论大方向!春节吹机器人、影视的沉默了,吹恒科的退群了

百亿私募再论大方向!春节吹机器人、影视的沉默了,吹恒科的退群了

金石随笔
2026-02-25 00:08:55
北京凌晨收到消息!特朗普彻底慌了,用三个感叹号警告中国别乱来

北京凌晨收到消息!特朗普彻底慌了,用三个感叹号警告中国别乱来

头条爆料007
2026-02-24 11:51:23
刘涛17岁女儿演戏,引上万网友热议:这脸,整顿内娱来的...

刘涛17岁女儿演戏,引上万网友热议:这脸,整顿内娱来的...

LULU生活家
2026-02-24 18:42:22
传魅族将放弃手机业务:团队全裁,补偿“N+1”

传魅族将放弃手机业务:团队全裁,补偿“N+1”

芯智讯
2026-02-24 21:36:43
南通又一网红景点翻车!网友:忘了企鹅展?

南通又一网红景点翻车!网友:忘了企鹅展?

好通网
2026-02-25 08:48:12
香港警务处答南都:23岁女警员用佩枪自杀事件由重案组跟进

香港警务处答南都:23岁女警员用佩枪自杀事件由重案组跟进

南方都市报
2026-02-25 13:50:07
马场地块拍卖突破200亿元,广州楼面单价的新天花板或将诞生

马场地块拍卖突破200亿元,广州楼面单价的新天花板或将诞生

新快报新闻
2026-02-25 13:43:04
2026-02-25 15:55:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11251文章数 116979关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

中方就涉乌克兰问题的决议草案投弃权票 中国代表发声

头条要闻

中方就涉乌克兰问题的决议草案投弃权票 中国代表发声

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

GEO乱象:谁为AI营销的泡沫买单?

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

亲子
本地
数码
时尚
公开课

亲子要闻

拇指发育不良是怀孕吃了鸡爪?无理取闹,无中生有,无稽之谈

本地新闻

津南好·四时总相宜

数码要闻

当耳机带了AMOLED屏 当贝Air1深度评测:是时尚耳饰 更是地表最强 AI 耳机

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版