网易首页 > 网易号 > 正文 申请入驻

实时语音AI的Android工程:从Demo到可用

0
分享至

大多数语音AI实现停在了流水线层面。真正的对话,从那里才开始。

Android上的语音AI有两个版本:演示版,和真实版。演示版很简单:录音,发给语音API,拿到文字,传给大模型,再用TTS读回来。一个下午就能搭完,视频里看着也还行。直到有人真的试着跟它对话——打断、停顿、追问——整个系统就崩了。


真实版完全不同。用户说话时,转录已经在进行;用户一停,大模型立刻开始响应;TTS在大模型还没说完时就已经播放;如果用户插话,一切干净利落地中断,200毫秒内恢复监听。没有点击,没有加载态,没有回合制礼仪。

这篇文章讲如何构建真实版——从让它可管理的概念模型,到只在真实对话里才会出现的具体Bug。

核心是一个循环:监听→思考→说话→再监听。三个服务驱动它:STT(边说边出部分转录,静默时出最终结果)、LLM(拿转录+对话历史,逐token流式响应)、TTS(大模型生成一句,它就合成播放一句,而非等全部完成)。难点不在任一环节,而在它们的交互:用户打断TTS怎么办?LLM慢了怎么办?取消的会话里过期的转录,在新会话开始后抵达怎么办?这些在真正来回对话之前,都是看不见的。

技术栈:Deepgram nova-3(STT)、Groq llama-3.3-70b-versatile(LLM)、Cartesia sonic-3(TTS),均有免费额度。完整实现见GitHub上的FluxVoice。

最关键的决策是状态机。最大错误是把三个服务当成独立的——它们共享麦克风、共享对话上下文,需要干净地交接。五状态机解决这个:系统任何时刻只处于一个状态,组件不互相调用,而是观察状态并反应。这消灭了一整类竞态条件——两个阶段同时运行的那种。

状态流转:空闲(IDLE)→开始→监听中出最终结果→思考(THINKING)→首token到达→说话(SPEAKING)→TTS空闲且流结束(或被插话打断)→回到空闲。插话检测靠音量阈值,触发时立即切回监听,同时取消进行中的TTS和LLM请求。上下文管理器负责维护对话历史,但只保留未被取消的会话内容。

200毫秒的目标来自感知研究:超过这个延迟,人类会注意到"卡顿"。Android音频路径本身就要吃掉80-100毫秒,留给应用层的余地很小。预缓冲、预测性TTS启动、本地回声消除,都是压榨延迟的手段。

真实对话里才会暴露的Bug:蓝牙耳机的麦克风切换延迟、网络抖动导致的STT片段乱序、用户用气声说话时VAD(语音活动检测)失效、大模型生成列表时TTS把"第三"读成"第3"然后卡住。每一个都需要针对性的缓解策略,而非框架层面的通用解决。

从Demo到产品,差的不是更多代码,是对"对话"本身的理解。语音AI的工程,最终是人机交互的工程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国万万没想到,别国军备是为了打仗,中国军工却为以防万一?

美国万万没想到,别国军备是为了打仗,中国军工却为以防万一?

栗子熟了呀
2026-05-14 08:37:30
小米SU7 Ultra挖孔机盖案 一审宣判

小米SU7 Ultra挖孔机盖案 一审宣判

每日经济新闻
2026-05-13 23:52:11
45万“买”烟草局编制?诈骗人员伙同物业员工,带人进成都市烟草局会议室“面试”,两年多时间里诈骗36人获利874万,主犯获刑13年6个月

45万“买”烟草局编制?诈骗人员伙同物业员工,带人进成都市烟草局会议室“面试”,两年多时间里诈骗36人获利874万,主犯获刑13年6个月

扬子晚报
2026-05-14 07:28:52
俄宣发布虚假消息,称苏-57战机在乌克兰上空击落萨博-340预警机

俄宣发布虚假消息,称苏-57战机在乌克兰上空击落萨博-340预警机

走进乌克兰2022
2026-05-14 19:48:01
庄则栋临终前放心不下日本妻子,眼噙泪水:你没有医保,没有工资

庄则栋临终前放心不下日本妻子,眼噙泪水:你没有医保,没有工资

抽象派大师
2026-05-12 20:36:26
悉尼妹的R级片,竟然引进了

悉尼妹的R级片,竟然引进了

来看美剧
2026-05-13 23:07:16
热刺已追平上赛季积分,还剩两轮比赛

热刺已追平上赛季积分,还剩两轮比赛

懂球帝
2026-05-14 15:58:14
174亿元!国内最大Token大单,首次开标

174亿元!国内最大Token大单,首次开标

智东西
2026-05-14 11:01:16
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
麻省理工发现:唤醒孩子自律最快的方法,竟是飞轮效应!

麻省理工发现:唤醒孩子自律最快的方法,竟是飞轮效应!

户外阿毽
2026-05-10 19:24:43
岳云鹏探望蔡磊,称渐冻症攻克后会去演出!有意收蔡磊儿子为徒

岳云鹏探望蔡磊,称渐冻症攻克后会去演出!有意收蔡磊儿子为徒

娱乐团长
2026-05-14 14:13:13
记者:申花外援仅拉唐一人随队出征玉溪,刘诚宇出战待定

记者:申花外援仅拉唐一人随队出征玉溪,刘诚宇出战待定

懂球帝
2026-05-14 15:37:17
日本乒协没想到,世乒赛刚被国乒打懵,张本智和就率先传出坏消息

日本乒协没想到,世乒赛刚被国乒打懵,张本智和就率先传出坏消息

刘剮说体坛
2026-05-14 10:15:11
国际足联代表团到访北京工人体育场

国际足联代表团到访北京工人体育场

新京报
2026-05-14 17:55:19
迄今为止,天安门城楼上只挂过12个人画像,其中一人仅挂了1天

迄今为止,天安门城楼上只挂过12个人画像,其中一人仅挂了1天

文史达观
2025-05-08 12:39:14
从每年2.1万飙升至超1200万,能不贬值才怪!

从每年2.1万飙升至超1200万,能不贬值才怪!

灯锦年
2026-05-14 20:42:46
忍了大半年,闻泰科技终于亮剑:荷兰政府抢走的,连本带利赔80亿

忍了大半年,闻泰科技终于亮剑:荷兰政府抢走的,连本带利赔80亿

知法而形
2026-05-14 12:02:59
父母的无效人脉能让人多恼火?网友:亲戚水电,两代人都踩雷了!

父母的无效人脉能让人多恼火?网友:亲戚水电,两代人都踩雷了!

另子维爱读史
2026-05-14 20:24:27
特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应对付台独

特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应对付台独

陈意小可爱
2026-05-14 20:41:24
岳父是高管,岳母开公司,娶了乒乓冠军的许昕,在上海儿女双全

岳父是高管,岳母开公司,娶了乒乓冠军的许昕,在上海儿女双全

素衣读史
2026-05-13 20:17:12
2026-05-14 21:47:01
字节漫游指南
字节漫游指南
有态度网友ytd
3879文章数 41关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

家居
本地
房产
手机
公开课

家居要闻

精神奢享 对话塔尖需求

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

手机要闻

vivo S60预热开启,超大面积一体冷雕玻璃

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版