网易首页 > 网易号 > 正文 申请入驻

开源版《Her》来了,技术报告已公开!大神Karpathy:它很有个性

0
分享至

大神Karpathy鼎力推荐,开源版「Her」Moshi再引关注!

(Moshi)的性格非常有趣,它会突然断断续续,有时会无缘无故沉默……

据了解,Moshi是一款端到端实时音频模型,于今年7月初由一家法国创业团队Kyutai发布。

不仅发布后人人免费可玩,而且就在刚刚,Kyutai将Moshi的代码、技术报告来了个大公开。

这波属实惊喜了,当初抢先试玩的谷歌DeepMind研究员、ViT作者Lucas Beyer闻声赶来:

(刚好)我最近就想知道这个问题

开源工程师Sebastian Rojo原地启动好学模式。

是时候学起来了!

当然,一直慢腾腾的OpenAI再次被“当众处刑”。(其高级语言模式7月底上线后,仍只面向小部分人开放)

惊人的!当我们仍在等待OpenAI的高级语音模式时,人们可以开始使用Moshi并进行构建。

Moshi技术细节大公开

话不多说,先来开个箱,看看Kyutai这次放出了哪些东西。

  • 一份长篇技术报告。揭露Moshi模型背后细节、权重、代码;
  • GitHub官方仓库
  • HuggingFace模型库

首先来看模型。Kyutai这次发布了3个模型,分别是Moshiko、Moshika,以及Mimi流语音编解码器。

Moshi的参数大约为7.69B,Moshiko/ka是Moshi对合成数据进行微调后的变体,分为男女两个声音。

还可以让它们自行对话, be like:

可以看出,它们都能在一台MacBook上运行,且据介绍,这些模型在L4 GPU上实现了约200毫秒的延迟

至于变体的内存需求,bf16、8位和4位精度,对应的内存分别为16GB、8GB和4GB VRAM。

另外,Moshi使用了一个名为Mimi的流式神经音频编解码器,能够处理24 kHz音频(以1.1kbps的速度将24 kHz音频压缩至12.5Hz),并且支持多种预训练模型。

Mimi受SpeechTokenizer启发,通过蒸馏技术联合建模语义和声学信息,并且通过对抗性训练提升了性能,专门用来和大语言模型协同工作。

其次,从官方公布的技术细节来看,Moshi项目主要由三个组件构成:

  • Helium语言模型(拥有70亿参数并在2.1万亿tokens上进行训练)
  • Mimi神经音频编解码器(能够建模语义和声学信息)
  • 一种新的多流架构(能够在单独的频道上分别对用户和Moshi的音频进行建模)

展开来说,Moshi团队对Helium进行了增强,采用了RQ-Transformer变体架构,这使得Helium能够在不增加序列长度的情况下建模语义和声学标记的层次结构。

官方自称,他们对生成音频的主要贡献是多流建模技术(multi-stream modeling)。

能够在每个时间步中堆叠Moshi和用户的tokens,以模拟全双工对话的动态,包括重叠、反向通道和中断等。

还包括内心独白技术(Inner Monologue),它进一步提高了生成语音的质量,通过预测时间对齐的文本来增强Moshi的智能性,同时保持与流媒体的兼容性。

此外,“内心独白”的一个延伸是:通过调整音频和文本标记的延迟,Moshi能够实现流式TTS和ASR功能。

在大规模音频预训练后,官方利用自己的模型创建了20k小时的合成对话数据,用于评估Moshi在质量、音频语言建模和口语问答方面的表现,以及进行了安全和量化分析。

评估结果显示,Moshi在性能上优于之前发布的模型。

OpenAI版「Her」仍未开放

眼见Moshi这次来了个大公开,一众网友又纷纷想起了OpenAI。

今年7月底,OpenAI高级语音模式面向部分plus用户上线,一些试玩例子也随之流出……

比如让ChatGPT开口讲中文,这浓浓的「歪果仁」口音是怎么回事。

再比如让它来段绕口令,围观网友笑cry了。

一番试玩下来,网友们期待值拉满。

然而,OpenAI的动作实在有亿点慢了,当时曾计划秋季时让所有plus用户都能用上高级语音模式。

然而至今没有更多消息,相关话题的实时页面下,随处可见一片抱怨。

以至于Moshi发布后,再次有网友调侃:

开源总是胜利!

不过也有爆料称,OpenAI可能会在9月24日发布高级语音模式。

一周之后咱们见分晓!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一周13人伤亡!建议中国游客春节避免前往俄罗斯旅游

一周13人伤亡!建议中国游客春节避免前往俄罗斯旅游

基本常识
2026-01-28 22:17:24
补贴一停,销量归零,不是危言耸听,恰是中国电车的真相!

补贴一停,销量归零,不是危言耸听,恰是中国电车的真相!

柏铭锐谈
2026-01-28 09:27:02
“中方警告将报复”?外交部回应

“中方警告将报复”?外交部回应

环球时报国际
2026-01-28 16:38:25
深度 | 众院选战打响,高市早苗选前再发涉台狂言,政治豪赌能否保住相位?

深度 | 众院选战打响,高市早苗选前再发涉台狂言,政治豪赌能否保住相位?

上观新闻
2026-01-28 21:39:16
金融、电力、烟草、石油,多地对“近亲繁殖”出手了

金融、电力、烟草、石油,多地对“近亲繁殖”出手了

中国新闻周刊
2026-01-27 14:23:19
“冲锋队长”被解雇,美国步枪协会发声,特朗普遣返伊朗非法移民

“冲锋队长”被解雇,美国步枪协会发声,特朗普遣返伊朗非法移民

鹰眼Defence
2026-01-28 18:23:48
爆大冷!西蒙尼不敢相信,欧冠大黑马神了:接连击败曼城马竞

爆大冷!西蒙尼不敢相信,欧冠大黑马神了:接连击败曼城马竞

足球狗说
2026-01-29 05:57:32
武汉理工毕业生当保安被母校约谈后,被开除了

武汉理工毕业生当保安被母校约谈后,被开除了

半岛晨报
2026-01-28 19:47:13
欧冠1-0大冷门,第31掀翻第13,意甲劲旅遭遇2连败

欧冠1-0大冷门,第31掀翻第13,意甲劲旅遭遇2连败

侧身凌空斩
2026-01-29 06:06:44
“全班没几个善茬”,技校女生面相走红,隔着屏幕感到被欺负了

“全班没几个善茬”,技校女生面相走红,隔着屏幕感到被欺负了

泽泽先生
2026-01-28 21:04:27
舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

舒马赫妻子科琳娜,照顾丈夫12年,花费超20亿,如今终于等到奇迹

寒士之言本尊
2026-01-28 16:12:08
“把这种视频发网上,真是好妈”,女儿的尊严被扒的一丝不剩

“把这种视频发网上,真是好妈”,女儿的尊严被扒的一丝不剩

蝴蝶花雨话教育
2026-01-26 12:05:11
东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

上游新闻
2026-01-28 15:55:21
北京天通苑,一共有700栋楼,房价从2650涨到40000,如今价格分化

北京天通苑,一共有700栋楼,房价从2650涨到40000,如今价格分化

科学发掘
2026-01-28 13:40:30
阿富汗塔利班恢复奴隶制?

阿富汗塔利班恢复奴隶制?

孙晓宇
2026-01-28 14:18:17
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

乐悠悠娱乐
2026-01-28 11:29:21
退休老干部频繁“联系”女幼师,聊天记录被公开,网友看上瘾了

退休老干部频繁“联系”女幼师,聊天记录被公开,网友看上瘾了

乌娱子酱
2026-01-28 16:52:21
金刻羽高调高相,正夫人隐身退网,风雨不同天……

金刻羽高调高相,正夫人隐身退网,风雨不同天……

家传编辑部
2026-01-28 16:38:08
解放军上将在京不幸去世:立战功、扳倒谷俊山,其亲弟弟身份曝光

解放军上将在京不幸去世:立战功、扳倒谷俊山,其亲弟弟身份曝光

博士观察
2026-01-27 14:10:13
河南男子姓“苟”怕女儿尴尬一起改姓“敬”:总被起外号,自尊心受挫,担心女儿受影响,改了名字自信了

河南男子姓“苟”怕女儿尴尬一起改姓“敬”:总被起外号,自尊心受挫,担心女儿受影响,改了名字自信了

大风新闻
2026-01-28 16:36:36
2026-01-29 07:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12078文章数 176367关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

时尚
健康
本地
游戏
公开课

想年前用3周“刷新”好状态?做第一点就够

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

《怪猎荒野》PC性能大提升!Steam掌机也终于能玩了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版