网易首页 > 网易号 > 正文 申请入驻

我用AI同传干掉了英语发布会,爽。

0
分享至

我之前看各种什么OpenAI、Google等等的发布会,还有各种线下的英语演讲的时候,一直有一个痛点。

就是,我听不懂。

大多数的发布会是直播,所以Youtube上也没有原生字幕可以看,线下演讲更是这样,好一点的会务会给你准备同传翻译机或者搞个副屏,放AI字幕。

前几天我去参加WAIC的论坛就有这个同传翻译机。


但是很多的时候,可能并没有这么好的条件,就是啥也没有,需要你自己听。

虽然我不太应该这么理直气壮,因为从小没好好学英语,导致我英语很烂,这确实是我自己不努力造成的= =

但是吧,到现在,因为自己一直在玩AI的原因,最高质量的AI信息和资讯,还是来自于英文世界。

这些AI知识我必须要去学才行。

坦诚的讲,虽然华裔面孔占据AI世界主流,但是主流语言还是英文。

这就导致我每次看发布会或者线下演讲,都只能软件开着字幕进行翻译。

线上看发布会就像这样。


线下我现在就是直接开个飞书妙记,去实时转录+翻译。


其实已经很好用了,对吧,但是字幕类的我自己用的还是不爽,因为这代表着,你感受不到对方的情绪和状态。

同时,你也没办法一心二用。

看发布会,你只能不断的盯着字幕,干不了任何别的事情。

在会场上听演讲也是,最der的就是。

你低头看翻译,你就看不了嘉宾和PPT,你抬头看嘉宾和PPT,你就听不懂他在说什么。。。

线上看直播一样也是这个道理。

这次WAIC现场里听的英文演讲,实在是让我太痛苦了。

当时在现场,我就在想,有没有什么方法,能手搓一个不需要我盯着看的AI同传小产品,来解决我的这些痛点。

回北京以后,说干就干。

大概思路特别简单,我做一个浏览器插件和一个小网页,然后接一个AI同传的API,就搞定了。

首先是同传API。

我基本上把全网都找遍了。

发现做AI同传大模型的也没几个。

讯飞、百度、豆包、腾讯、阿里、Gemini,好像就没了。。。

最后我选了豆包,因为我自己的一些服务都在火山引擎上,字节家的更顺,而且他们豆包同声传译2.0是刚发的,效果也确实是目前最棒的。


端到端模型,延迟大概2~3秒,基本一句话说完,对应的翻译就出来了。

整体翻译质量也是OK的。

还有一个非常屌的能力,是可以在不采集声音样本的情况下复刻说话人的音色,而且就算是多个人一起对话, 每一个人都可以保持自己的原色来进行同传,音色极其自然。

这个是传统的所有的机器翻译的模型所不具备的。

因为比如像现在OpenAI、Grok啥的发布会,每次都是好几个人在现场,我其实是需要知道到底是谁说了啥的。

而借助豆包同 传 2.0,这个问题被完美解决。

你也可以直接在这个地方体验一下,可以免费用5分钟,每天可以20次,也就是每天免费100分钟的额度。

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI


而API这块,价格也还OK。

实测下来,1分钟大概消耗了1800左右的Token。

按照官方价格换算,大概就是一分钟3毛钱,很便宜了。

模型有了,接下来,就是搓一个小浏览器插件和网页,然后把模型的API接进去。

这个过程,我本来以为非常轻松,毕竟一个浏览器插件和网页,这玩意vibe coding搞过N个了,没啥难的的,几个按钮,一个设置,能有一个填模型Key的地方,不就完事了吗。

在浏览器里直接抓取正在播放的视频音频,然后调用豆包同传2.0的API,实时翻译成中文,再播放出来。

听起来完美,对不对?

但是,噩梦开始了。。。

我真的感觉到了,当时什么叫无知者无畏。

我一开始就卡在了第一步,怎么在浏览器插件里调用豆包同传2.0模型的API?

要知道,这是同传模型,不是普通的那种对话的大模型。

这个API用的是WebSocket协议,还需要在请求头里加认证信息。。。

就是,你平时刷网页,大多是“问一句答一句”,就像发个短信一样,你发了个请求,“给我一个网页”,服务器回了你,“好的,这是你要的页面”。

之后呢?之后就各忙各的了。

如果你想要更新信息,那就得再发一次请求,再等一次回复。这就是普通的HTTP协议,简单但效率一般。

但有时候,我们不想每次都问一下才有回应,我们想要的是实时互动,比如你跟朋友打电话,不需要每次想说话的时候再拨一次号码。

WebSocket协议就是为这个场景而生的。它更像一通电话,一旦你接通了,双方可以一直不停地实时说话,不用再挂掉重拨。

豆包这个API用的就是WebSocket协议,因为同声传译这个场景,恰好需要你不断地把音频数据发送过去,服务器一边接收一边实时返回翻译后的文字或音频,你一边说,它一边翻译,非常顺畅。

而最大的问题,在于你的插件在浏览器环境里调用WebSocket时,要往请求头里塞认证信息(比如API Key、Token什么的),但浏览器为了安全考虑,不允许插件随便修改WebSocket的请求头。

真的是磕了半天以后,才明白这个坑

浏览器插件的环境里,想要往WebSocket的请求头里加认证信息,简直是地狱级别的难度。

更要命的是,我去看了下官方的接口文档,有Python、Java和Go的示例代码,没有JavaScript的版本。

我这种半吊子选手,就更是两眼一抹黑。。。


折腾了两天,各种StackOverflow、GitHub翻了个遍,发现这条路基本上是死路,实现起来非常麻烦。

行吧,只能换思路。。。

既然浏览器环境搞不定API,那搞个曲线救国的方案,浏览器插件负责抓音频,然后把音频数据发给一个本地的Python程序,让这个程序去调用豆包API。

听起来非常合理。

我这就下载了豆包官方的Python示例代码,填了密钥信息,在电脑上跑了一遍,确实能运行。但是看了代码才发现,这玩意确实只是个示例,只能把一个本地的音频文件翻译成另一个语言,然后保存成文件。

不是我想要的实时处理。

更让我头疼的是,怎么从浏览器里把正在播放的Tab的音频流,稳定地传输给本地Python程序?

这个技术难度,比我想象的要高太多了。延迟、音质损失、断连...各种问题一堆堆的。

就在我快要放弃的时候,突然灵光一闪。

我为什么要这么复杂呢?

我直接搞个本地Python程序,然后用"音频重定向"的方法,不就行了吗?

这是一个我之前搞游戏直播的时候学到的方法。。。

音频重定向,说人话,就是给你的电脑戴上一个虚拟的耳机。

平时你电脑上的声音(比如看直播时的演讲声音、视频里的声音)都会通过系统默认的扬声器或耳机直接放出来,你的耳朵听到了,但你的程序却抓不到。

现在呢,我们给电脑装一个虚拟设备,就相当于再给它接一根虚拟的耳机线。

这根虚拟的耳机线它表面上看是个耳机,但实际上的作用是把你电脑里播放的所有声音拷贝一份出来,送给另一个程序去处理。

于是,我在电脑上装了一个叫VB-CABLE的虚拟音频设备。


然后,当我在浏览器里看视频的时候,我把浏览器的音频输出切换到这个虚拟扬声器。


这样,视频的声音就会进入这个虚拟设备,而我的真正的扬声器是听不到任何声音的。

接下来,我用AI修改了一下刚刚下载的程序,实现把这个虚拟扬声器当成麦克风来监听。


这样,Python程序就能精确地捕获到浏览器播放的英文音频了。

然后程序调用豆包的同传模型2.0,把英文音频实时翻译成中文,再通过我的真正扬声器播放出来。

整个流程就是:浏览器视频 → 虚拟扬声器 → Python程序 → 豆包API → 真扬声器

流程清晰,逻辑简单,没有复杂的数据传输,也没有浏览器环境的限制。

最关键的是,效果特别棒。

我听不到任何英文原声的干扰,只能听到清晰的中文翻译。就像真的有个同传在我耳边翻译一样。

为了方便使用,我还搞了个简单的Web界面,可以启停翻译功能,还能实时看到API返回的原文和译文。



第一次成功测试的时候,我激动得差点跳起来。

我打开了一个英文的AI发布会录播,然后启动我的程序。当那个陌生的英语声音消失,取而代之的是流畅的中文翻译时,我真的有种终于把这个破事给搞定了的成就感。

当你排除千难万险,解决一个难题,把一个程序跑通的时候,那种爽感,就像你在打只狼,推一个卡了好几天的BOSS,血条只剩一丝的时候手都在抖,打出最后那一下平A,BOSS倒地但你还站着的那一瞬间,大脑一片空白,随即巨大的多巴胺如潮水般涌来。

这种爽感,带着一点劫后余生的庆幸,一点自我突破的自豪,还有一点征服世界的豪迈,让你忍不住想站起来仰天长啸。

终于搞定了!

虽然只是一个同传的小东西而已。

我终于可以一边刷着播客,一边听着优雅的中文翻译,不用再低头看字幕了。

那种感觉,就像是给自己找了一个随叫随到的高级翻译。

而且不止是一个人的音色,如果是5个人,那真的就可以0样本复刻5个人的音色来给你翻译,每一个人,都有自己的声线,你只需要听,就可以区分出所有的信息。

折腾了这么久,总算是把自己的这个痛点给解决了。

一个小白,能借助AI,徒手做出自己想要的东西,这感觉,还是很酷。

至于线下的场景,反而简单很多了,因为就调用一下麦克风做传输就行。

我本来想自己开发一个H5网页的,一想,豆包已经做了一个体验版本的,有没有手机版的?

就搜了一下。。。

发现,还真有。。。


点进去以后,免费体验。

而且10分钟上限。


线下完全就可以直接用了。

最后,我想表达一下我对于同传这个行业,还有对译员的观点。

我是一个纯粹的外行,我做这个小东西,完全不是为了要去挑战或者取代那些真正专业的口译同传们。

会议现场,真正的译员们在大会现场,在同传和长交传领域反复磨炼,才有那种举重若轻、炉火纯青的能力,这种水准,目前任何AI都难以企及。

但技术的意义从来不止于取代。

更重要的是,它让那些像我一样普通而平凡的人,因为AI的发展,让我可以用低廉的价格,打破语言障碍,这是一个非常棒的事。

不再局限于语言的高墙,让每个人都能在更平等、更自由的条件下,找到自己想要的答案。

AI本就是为我们每一个人服务的。

它也本身就是个性的。

任何我们觉得不满意不爽的事情。

你都可以尝试着,用AI再做一遍。

然后,你就会发现。

一个更广阔的世界。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、dongyi

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辛柏青的状态很可能不容乐观,不仅是心态,身体有可能也出了问题

辛柏青的状态很可能不容乐观,不仅是心态,身体有可能也出了问题

银河史记
2025-10-31 17:23:53
中国5胜3负!两场6-0:丁俊晖+张安达晋级!2位种子选手爆冷出局

中国5胜3负!两场6-0:丁俊晖+张安达晋级!2位种子选手爆冷出局

小火箭爱体育
2025-11-02 22:50:36
森林狼队安东尼·爱德华兹伤情更新,预计“可能”复出时间公布

森林狼队安东尼·爱德华兹伤情更新,预计“可能”复出时间公布

好火子
2025-11-03 05:26:49
翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

金牌娱乐
2025-11-02 09:53:48
刚刚!特朗普下令“战争部”做好准备

刚刚!特朗普下令“战争部”做好准备

健身狂人
2025-11-03 03:07:37
乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

影孖看世界
2025-11-02 23:36:09
厨媛“上门服务”,一次800元2小时!网友:穿成这样,不打自招!

厨媛“上门服务”,一次800元2小时!网友:穿成这样,不打自招!

深度报
2025-11-01 21:15:25
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
男人,最好不要有这几种“面相”,晚年的结果都不太好

男人,最好不要有这几种“面相”,晚年的结果都不太好

小鬼头体育
2025-11-02 06:01:32
从《康熙王朝》到《澎湖海战》:为什么影视剧要把施琅塑造成英雄

从《康熙王朝》到《澎湖海战》:为什么影视剧要把施琅塑造成英雄

七彩论世
2025-11-02 18:30:56
曼联的痛:拉什福德重回巅峰,神级停球后小角度爆杆破门,太牛了

曼联的痛:拉什福德重回巅峰,神级停球后小角度爆杆破门,太牛了

侧身凌空斩
2025-11-03 03:29:09
重磅非农来袭,黄金继续大扫荡!

重磅非农来袭,黄金继续大扫荡!

杨子黄金
2025-11-02 21:29:29
哈里愤怒发声:不公平!安德鲁用查尔斯私房钱花天酒地,梅根却因是黑人还二婚被虐待

哈里愤怒发声:不公平!安德鲁用查尔斯私房钱花天酒地,梅根却因是黑人还二婚被虐待

东方不败然多多
2025-11-02 16:36:34
没错!日本外援:中国球员最大问题是基本功,短距离传球都传不准

没错!日本外援:中国球员最大问题是基本功,短距离传球都传不准

茜子足球
2025-11-02 12:34:05
何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

怀疑探索者
2025-11-02 21:29:01
皮肤干燥多吃它,胶原蛋白是猪蹄的两倍,更容被吸收,解馋两不误

皮肤干燥多吃它,胶原蛋白是猪蹄的两倍,更容被吸收,解馋两不误

阿龙美食记
2025-10-29 14:12:19
中美最近在太空进行了一次较量,绝对是高手过招,招招致命

中美最近在太空进行了一次较量,绝对是高手过招,招招致命

荐史
2025-11-01 23:15:22
萨哈林岛热电厂爆炸:十万居民重返煤油灯时代。

萨哈林岛热电厂爆炸:十万居民重返煤油灯时代。

世界探索者探索
2025-11-01 21:08:09
突发特讯!美方:美军机连续坠入南海并非巧合,引发国际舆论

突发特讯!美方:美军机连续坠入南海并非巧合,引发国际舆论

起喜电影
2025-11-03 04:26:35
欧佩克从俄罗斯、伊拉克等五个国家收到了最新的减产补偿计划

欧佩克从俄罗斯、伊拉克等五个国家收到了最新的减产补偿计划

财联社
2025-11-03 04:22:13
2025-11-03 05:40:49
数字生命卡兹克 incentive-icons
数字生命卡兹克
反复横跳于不同的AI领域,努力分享一些很酷的AI干货
395文章数 456关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

亲子
本地
教育
手机
数码

亲子要闻

我发现一个带娃永远不生气的理论

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

教育要闻

TTS新传论文带读:新词新词!!!来看看什么叫做“报格”!!!

手机要闻

华为Mate80风扇版确认:五款机型同台竞技,18号见!

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

无障碍浏览 进入关怀版