网易首页 > 网易号 > 正文 申请入驻

OpenAI把实时转写延迟压到300毫秒,3行代码就能抄作业

0
分享至


去年开会还要手动记笔记的人,今年已经被同事当成数字难民了。

2024年,实时字幕还是Zoom的付费彩蛋;2026年,它成了所有会议工具的入场券。用户要的不是录音回放,是话音刚落文字已现的零摩擦体验。Whisper、Deepgram、AssemblyAI三家把流式音频延迟卷进了300毫秒以内,浏览器API也终于松口——不用装插件,直接抓标签页音轨。

技术债务清零的时刻到了。

但别急着写代码。先看清数据怎么流:浏览器标签音频 → MediaStream → AudioWorklet → WebSocket → 语音识别API → 转写文本。 raw PCM音频从浏览器出来,切成100-250毫秒的小块,WebSocket送到流式识别端点,部分结果和最终结果交替返回。难点不在单点,在整条管道的延迟控制,以及网络抖动、说话人切换、音频重采样这些边缘场景的兜底。

第一个坑在这里:既要抓会议音(系统/标签页音频),又要抓自己的麦克风,得把两条MediaStream轨道混到一起。

混流代码:比想象中脏,比文档中少

大部分开发者第一次调用getDisplayMedia时都会愣住——这API设计的时候显然没考虑过"只要音频不要画面"的场景。视频参数设false,音频参数却要展开一堆布尔值:回声消除关、降噪关、采样率锁死16kHz。麦克风那边相反,回声消除和降噪全开。两个流进AudioContext,createMediaStreamDestination打混,出来就是16kHz单声道PCM——所有主流语音识别API的母语格式。

浏览器里做重采样,比服务端做便宜一个数量级。这个细节能省下的服务器账单,够你多招一个后端。

别碰ScriptProcessorNode。它 deprecated 了,还跑在主线程上。AudioWorklet才是正解:

processor.js里注册一个PCMProcessor,process方法把inputs[0][0]的buffer丢给port.postMessage,带转移所有权。主线程await audioContext.audioWorklet.addModule加载这个模块,后面就能稳定收音频帧。主线程不卡,音频不丢,这是能上线和不能上线的分界线。

WebSocket的隐形天花板:不是带宽,是队头阻塞

音频帧100毫秒一发,WebSocket看起来绰绰有余。直到某个用户的Wi-Fi从5GHz跳到2.4GHz,延迟从30毫秒涨到300毫秒,你的缓冲策略如果没做,整句转写会突然快进式吐出,用户体验直接崩盘。

Deepgram的流式API有个细节:它返回的partial transcript是"正在说的",final transcript是"说完的"。你的UI要同时处理两种状态——partial用来实时滚动,final用来落库和生成待办。很多开发者只接final,结果用户看着字幕比说话慢两拍,骂声比延迟还高。

AssemblyAI的做法更细:它区分utterance(说话人一段完整发言)和word-level timing。做会议纪要时,utterance用来切分说话人;做实时字幕时,word-level timing能让高亮词和音频精准对齐。选型时先问自己:产品核心场景是"看懂"还是"搜到"?

Whisper的陷阱:本地跑还是云端调?

OpenAI把Whisper API的价格打到每分钟0.006美元,但延迟在500毫秒左右徘徊。本地跑Whisper.cpp,M1 Mac上能压到200毫秒以内,代价是模型体积和首次加载的卡顿。浏览器里跑ONNX Runtime + Whisper Web,适合隐私敏感场景,但wasm的性能天花板明摆着。

有个中间路线:用Transformers.js在浏览器里跑distil-whisper,模型压缩到原来1/6,精度损失不到2%。适合企业内部部署,数据不出域。代码量从"调API三行"变成"搭流水线三百行",产品经理听到这里通常会沉默。

说话人分离(diarization)是另一个深坑。Whisper本身不做这个,Deepgram和AssemblyAI内置了,但准确率依赖训练数据分布。中文会议里中英夹杂、同音字人名、突然插话的"对对对",都是现成模型的盲区。自研的话,ecapa-tdnn + spectral clustering的链路,标注成本能让你重新评估这个功能优先级。

一个被低估的API:getDisplayMedia的音频陷阱

Chrome 104之后,getDisplayMedia的音频捕获才稳定可用。但macOS上有个诡异bug:如果用户选了"整个屏幕"而不是"Chrome标签页",系统音频可能混不进MediaStream。解决方案是强制约束audio: { suppressLocalAudioPlayback: false },或者在UI层引导用户只分享标签页。

Windows更麻烦。某些声卡驱动会把系统音频和麦克风混成单一流,你拿到的数据已经是"脏"的,后端做说话人分离基本无解。这时候只能降级方案:提示用户戴耳机,或者干脆放弃系统音频,只转写麦克风——也就是只记录用户自己说了什么。

Edge case的密度,决定了这个功能从demo到生产环境的距离。

成本账:别只算API调用费

Deepgram Nova-2,每分钟0.0043美元;AssemblyAI Universal,每分钟0.0037美元;Whisper API,每分钟0.006美元。看起来差距不大?月活10万用户、平均每周3小时会议,一年下来Deepgram比Whisper省4万美元。

但这只是明账。隐形成本在:WebSocket连接保活、音频缓冲区的内存占用、转写结果的存储和索引、合规审计的日志留存。一个没做流控的客户端,能把服务器连接池打穿,账单比API调用费高十倍。

有个取巧方案:用VAD(语音活动检测)前置过滤。没声音的时候不发包,能省30-50%的流量。WebRTC的VAD太保守,Silero VAD在wasm里跑,精度高一个档次,延迟增加不到20毫秒。

2026年的新变量:浏览器原生AI

Chrome 128开始内测Web Speech API的流式识别,完全本地跑,零网络延迟。但语言支持有限,中文准确率比Whisper差一截,且没有说话人分离。适合对延迟极度敏感、对准确率容忍度高的场景——比如实时字幕,而非会议纪要。

更激进的方案是WebGPU跑Llama 3.1 8B,端到端语音转写+摘要+待办提取。但显存占用和首次加载时间,目前只适合桌面端重度用户。移动端?等2027年吧。

技术选型没有银弹,只有场景适配。内部工具可以容忍300毫秒延迟换准确率,客服场景要的是200毫秒以内的即时反馈,合规场景宁愿本地跑慢模型也不让数据出域。

最后说一个细节。某团队上线实时转写三个月后,用户反馈里最高频的词不是"准"或"快",是"能不能关掉"——有些人就是不想被机器记录。他们在设置里加了一个显眼的"暂停转写"按钮,点击率比预期高17%。

技术解决了能不能录的问题,产品还要回答应不应该录的问题。你的会议工具,准备好面对这个17%了吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗公布停战条件:47年了,必须做个了断!伊朗新一轮导弹袭击:突破以色列多个防御系统;以财长:将吞并黎巴嫩南部

伊朗公布停战条件:47年了,必须做个了断!伊朗新一轮导弹袭击:突破以色列多个防御系统;以财长:将吞并黎巴嫩南部

每日经济新闻
2026-03-24 18:56:44
台独大金主身中29枪暴毙

台独大金主身中29枪暴毙

雪中风车
2026-03-24 20:19:46
东契奇成湖人队史近20年最快单季2000分先生,比肩05-06科比

东契奇成湖人队史近20年最快单季2000分先生,比肩05-06科比

林子说事
2026-03-25 08:37:17
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
前两把赌输,日本押上第三次

前两把赌输,日本押上第三次

极目新闻
2026-03-25 08:08:59
我退休金2580元,退休后发现大多企退女人拿2000多退休金挺知足的

我退休金2580元,退休后发现大多企退女人拿2000多退休金挺知足的

牛锅巴小钒
2026-03-25 16:03:01
“90后”清华博士出任副市长,干部越来越“年轻化”

“90后”清华博士出任副市长,干部越来越“年轻化”

新民周刊
2026-03-24 18:33:24
美空军杂志:美军战损2架F-35、9架F-15、6架F-16、7架加油机!

美空军杂志:美军战损2架F-35、9架F-15、6架F-16、7架加油机!

胜研集
2026-03-25 00:02:51
300架运-20,不是上限是底线!2030年中国军工,将交出硬核答案

300架运-20,不是上限是底线!2030年中国军工,将交出硬核答案

混沌录
2026-03-25 19:50:07
宝马终于“出手”了!X5马年版专为国人打造,3.0T六缸仅68万

宝马终于“出手”了!X5马年版专为国人打造,3.0T六缸仅68万

车界八卦
2026-03-24 17:07:12
伊驻巴大使:友好国家在与各方沟通 但伊朗未与美国展开谈判

伊驻巴大使:友好国家在与各方沟通 但伊朗未与美国展开谈判

财联社
2026-03-25 15:35:10
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
风向真变了!各国专家媒体纷纷表示,中国已无需再向世界证明什么

风向真变了!各国专家媒体纷纷表示,中国已无需再向世界证明什么

乐趣纪史
2026-03-25 20:06:17
狼来了!四川雪宝顶保护区首次清晰记录到狼:填补物种分布空白 “滚滚”们有了新邻居

狼来了!四川雪宝顶保护区首次清晰记录到狼:填补物种分布空白 “滚滚”们有了新邻居

红星新闻
2026-03-25 16:38:16
美国政府有关部门决定禁止进口所有外国制造路由器 外交部回应

美国政府有关部门决定禁止进口所有外国制造路由器 外交部回应

新京报
2026-03-25 20:27:41
中国选美冠军白欣禾,胸前的美人痣真好看,仙气飘飘像刘奕菲

中国选美冠军白欣禾,胸前的美人痣真好看,仙气飘飘像刘奕菲

可乐谈情感
2026-03-24 18:06:38
张雪峰去世后,死因曝光,他错过2次活命机会,给年轻人敲响警钟

张雪峰去世后,死因曝光,他错过2次活命机会,给年轻人敲响警钟

李昕言温度空间
2026-03-25 20:03:51
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

瑛派儿老黄
2026-03-23 16:53:21
徐必久任生态环境部副部长,刘海波任国家机关事务管理局副局长

徐必久任生态环境部副部长,刘海波任国家机关事务管理局副局长

新京报
2026-03-25 16:10:22
2026-03-25 20:51:00
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
33文章数 0关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗放话愿意与"主和派"万斯谈 特朗普表态

头条要闻

伊朗放话愿意与"主和派"万斯谈 特朗普表态

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

亲子
健康
时尚
艺术
军事航空

亲子要闻

幼儿园3年,家长培养宝宝4个好习惯,孩子成绩比同龄人优秀

转头就晕的耳石症,能开车上班吗?

今年春天最时髦的穿法:长外套+长裙、长针织+长裤,太高级了!

艺术要闻

《百花谱》,这个春天画花不用愁!

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版