网易首页 > 网易号 > 正文 申请入驻

OpenAI把语音识别开源3年后,有人把它压到了79MB

0
分享至

Whisper.cpp的安装包只有79MB。对比之下,原版Whisper的PyTorch版本动辄几个G,还要配CUDA、配Python环境、配一堆依赖。这相当于把一辆SUV塞进了背包——不是折叠,是完整功能。

这个项目来自Georgi Gerganov,一个保加利亚程序员。他没有OpenAI的算力,没有全职团队,用C/C++重写了整个推理引擎。结果:同样的模型,速度提升3-4倍,内存占用降到1/10,还能在树莓派上跑。

为什么原版这么重

OpenAI在2022年9月开源Whisper时,放出的官方实现基于PyTorch。这是当时最合理的选择——研究友好,生态成熟,GPU加速方便。

但PyTorch的"合理"是有代价的。它假设你在服务器上跑,有NVIDIA显卡,有几十G内存,有专门的运维人员配环境。一个conda环境能折腾一下午,版本冲突的报错长到可以当论文读。

Gerganov的观察很直接:语音识别本质是矩阵乘法,不需要那么多抽象层。他砍掉PyTorch,砍掉Python解释器,砍掉CUDA驱动,直接用C++调用计算核心。剩下的,就是模型权重和纯数学运算。

这个思路不算新。但Whisper.cpp的完成度让人意外——它支持全部5种模型尺寸(tiny/base/small/medium/large),支持GPU加速(CUDA/Metal/OpenCL),支持流式识别,甚至支持浏览器里的WebAssembly版本。

安装只需要三步

官网文档写得像故意气人:"You need three things." 然后列了Git、C++编译器、Whisper模型权重。

实测macOS:brew install cmake,git clone,make,完事。Linux类似。Windows稍微麻烦,但也就多装个MinGW。整个过程不超过10分钟,不需要配Python,不需要看conda的冲突日志。

模型下载是自动的。运行./download-ggml-model.sh tiny.en,脚本会从Hugging Face拉取量化后的权重。tiny版39MB,base版74MB,small版466MB——都是GGML格式,Gerganov自己设计的二进制结构,比PyTorch的pkl文件紧凑得多。

跑起来更离谱。M1 Mac上识别一段30秒音频,tiny模型耗时0.3秒。不是"接近实时",是"等你反应过来已经完了"。

谁在用,用在哪

Whisper.cpp的GitHub星标已经超过3万。贡献者列表里有OpenAI的员工,有苹果的工程师,有做助听器创业公司的,有给老电影加字幕的档案馆。

最意外的用户群是嵌入式开发者。树莓派4B能跑tiny模型,实时率(RTF)0.5左右——说一句话,等半句话的时间出结果。Jetson Nano、iPhone、甚至ESP32(外接PSRAM)都有人移植成功。

浏览器版本更激进。llama.cpp的同作者把Whisper编译成WebAssembly,配合WebGL加速,直接在Chrome里离线跑。Demo页面打开就能用,不需要上传音频到任何服务器。

这对隐私敏感场景是刚需。医疗转录、法律取证、企业内部会议——数据不出本地,比任何"我们承诺保护隐私"的条款都可靠。

量化带来的取舍

轻量化的代价是精度。GGML格式默认用4-bit或5-bit量化,把32位浮点数压成4-5位整数。信息损失客观存在,但Whisper的冗余度比想象中高。

Gerganov的测试:large-v3模型从FP32量化到Q5_0,词错误率(WER)从4.2%升到4.7%。对于多数应用,0.5%的代价换10倍速度提升,这笔账不难算。

更激进的方案是distil-whisper,Hugging Face做的知识蒸馏版。small模型的尺寸,medium模型的精度,但依赖PyTorch生态。Whisper.cpp选了另一条路:保持模型结构不变,从推理引擎下手。

两条路没有高下。distil-whisper适合云部署,Whisper.cpp适合端侧。有意思的是,后者正在反哺前者——llama.cpp的GGUF格式已经成为Hugging Face的推荐格式,量化工具链被整个社区复用。

OpenAI的沉默与社区的噪音

Whisper.cpp发布于2022年10月,距离OpenAI开源Whisper只隔了3周。Gerganov在issue里轻描淡写:"I was bored during the weekend."

OpenAI官方从未正式回应这个项目。但他们的工程师在私下场合承认,内部有人用Whisper.cpp做原型验证——启动快,调试方便,比等GPU集群排队高效得多。

这种"官方不背书,身体很诚实"的态度,在开源社区很常见。TensorFlow和PyTorch竞争时,Google内部也有人用PyTorch写论文。技术选型是技术选型,品牌站队是品牌站队,两码事。

更深层的变化是生态重心转移。Whisper.cpp证明了一件事:大模型的"大"可以分层。训练需要集群,推理未必。一个精心优化的C++程序,能在消费级硬件上跑出生产级延迟。

这个结论正在扩散。Llama.cpp、Stable Diffusion cpp、各种"xx.cpp"项目接连出现。它们共享同一套方法论:模型权重是数据,推理引擎是代码,两者之间不需要重型框架。

79MB的安装包,3万星标,无数衍生项目。如果你现在需要一个离线语音识别方案,会选PyTorch原版还是这个"周末无聊产物"?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二倍速跨国友谊!朴宝剑48小时后探班王安宇

二倍速跨国友谊!朴宝剑48小时后探班王安宇

流云随风去远方
2026-04-12 22:59:09
“崩老头”月入两三万?中国精神小妹批量收割,8090后抢着被崩?

“崩老头”月入两三万?中国精神小妹批量收割,8090后抢着被崩?

素衣读史
2026-04-10 19:59:20
中国移动旗下公司:净利润预增2279%-3281%

中国移动旗下公司:净利润预增2279%-3281%

最通信
2026-04-12 21:10:38
理想称遭某品牌恶意拉踩,东风日产:尊重同行

理想称遭某品牌恶意拉踩,东风日产:尊重同行

澎湃新闻
2026-04-12 01:01:15
谢霆锋武汉演唱会快哭了,脸颊斑点明显眼袋重,一身中年男油腻感

谢霆锋武汉演唱会快哭了,脸颊斑点明显眼袋重,一身中年男油腻感

小娱乐悠悠
2026-04-12 10:28:21
李斌:不是所有的隐藏式门把手都不安全 蔚来的是个例外

李斌:不是所有的隐藏式门把手都不安全 蔚来的是个例外

快科技
2026-04-10 12:20:06
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

二胡的岁月如歌
2026-04-09 15:09:50
优酷肠子都悔青了!3亿砸的“S+顶流剧”,播到第9集广告商全跑光

优酷肠子都悔青了!3亿砸的“S+顶流剧”,播到第9集广告商全跑光

许三岁
2026-04-10 09:30:06
八路军最悲壮的主力团,团长营长全战死,副团长成了二野头号虎将

八路军最悲壮的主力团,团长营长全战死,副团长成了二野头号虎将

史之铭
2026-04-12 16:48:19
新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

眼光很亮
2026-04-11 20:22:50
上海外滩某银行地下金库,存了80年从不清点,央行:冻结所有账户

上海外滩某银行地下金库,存了80年从不清点,央行:冻结所有账户

小哥很OK
2026-01-28 19:15:53
持续三个世纪的仇恨难解,85%民众痛斥中国,瑞典为何如此反华?

持续三个世纪的仇恨难解,85%民众痛斥中国,瑞典为何如此反华?

壹知眠羊
2026-04-12 07:37:37
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

观察者海风
2026-04-09 17:42:58
继火烈鸟后乌克兰再推出“和平鸽”导弹!摧毁俄海上基地

继火烈鸟后乌克兰再推出“和平鸽”导弹!摧毁俄海上基地

项鹏飞
2026-04-11 22:57:39
终究还是离了!姐姐卖烧饼挣了几百万,全给弟弟买车房,后悔吗?

终究还是离了!姐姐卖烧饼挣了几百万,全给弟弟买车房,后悔吗?

许三岁
2026-04-11 16:36:44
50个隐秘的漏财习惯,原来这就是中产“斩杀线”

50个隐秘的漏财习惯,原来这就是中产“斩杀线”

洞见
2026-04-11 14:53:46
iPhone18ProMax最新曝光,手里的iPhone17ProMax更香了!

iPhone18ProMax最新曝光,手里的iPhone17ProMax更香了!

搞机小帝
2026-04-12 00:17:00
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
男子在银行门口尾随并盗走取款人车内40万元,撞警车拒捕潜入深山5日后落网

男子在银行门口尾随并盗走取款人车内40万元,撞警车拒捕潜入深山5日后落网

澎湃新闻
2026-04-12 12:54:31
太突然!中国音乐家被撞身亡,年仅35岁

太突然!中国音乐家被撞身亡,年仅35岁

吃青菜长高
2026-03-06 14:52:43
2026-04-13 00:35:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
1249文章数 15关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
游戏
教育
时尚
军事航空

家居要闻

复古风格 自然简约

《识质存在》发售/《朋友收集 梦想生活》登陆NS| 下周玩什么

教育要闻

高中地理必会知识点115条全梳理

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版