放个演示
公式能读对,非常牛逼
这是字节新出的「豆包语音 2.0」
今天发布,这里访问:
https://console.volcengine.com/speech/new/
![]()
我参与了这模型的内测,今天模型发布,来讲讲这玩意儿的不同之处:
- 对话式合成
- 复杂公式朗读
- 声音复刻升级
对话式合成
先比较下这两段
这个是 豆包语音2.0,可以设置情景:
[用哽咽但努力忍住、带着笑意的语气]谢谢你们……真的……我以为……我以为没人记得我生日了……我今天一整天都在想,可能大家都忙吧,忘了也正常……我自己都快忘了……结果你们……你们居然……还准备了这么多……蛋糕也买了,礼物也有……你们这群坏蛋……我刚才还在那儿自怨自艾呢……觉得自己特别可怜……现在搞得我像个傻子一样……眼泪都止不住了……真的……谢谢你们……有你们真好……
作为对比,这是 GPT-4o 的 tts,默认音色:
是不是感情丰富了?这就是「对话式合成」
给到上下文、指令和背景设定,AI 便会以更合适的口吻播出来
这里有三种方式:括号指令、语音指令和增加上文
方式1:括号指令
类似 prompt,你可以在句子前加指令,比如[生气的说],AI 并不会读括号里的内容,而是会使用对应的口吻

出来的效果是这样:
(我用了小姑娘的音色,奶凶奶凶)
再来一个
[兴奋溢于言表]卧槽!过了过了!我他妈真的过了!刚看到offer邮件,我还以为系统出bug了,刷了好几遍确认不是做梦!你知道吗,这公司我面了三轮,每轮都觉得自己要挂,尤其最后那轮技术面,我有好几个问题都没答上来……结果他们还是要我了!而且薪资比我预期的还高五千!我现在坐在星巴克,手机都快被我刷坏了,就一直盯着那封邮件看……兄弟,我终于他妈要翻身了!
这中间的笑声穿插,有些吞掉一半的字,绝了!要是不说,恐怕真没人能察觉
通过这种方式,你可以控制每句话的场景
方式2:语音指令
类似 system prompt,你也可以通过对整段内容进行控制,比如情绪、方言、语速、语调等

举几个例子
吵架
指令: <你得跟我互怼!就是跟我用吵架的语气对话>
合成文本: 那你另请高明啊,你找我干嘛!我告诉你,你也不是什么好东西!
暧昧/悄悄话
指令: <用asmr的语气来试试撩撩我>
合成文本: 你知道吗,我真的很喜欢你的声音。你说话的时候,声音特别温柔,特别好听,每次听到你的声音,我都觉得心里暖暖的,特别舒服。
方式3:增加上文
当然了,你也可以直接添加上文,让音色更连贯

然后,你就有了这个(没克隆音色)
做个比较:有上下文 vs 无上下文
无引用是这样:
北京…因为我来,这是第二次,上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去,真正的去游历,所以北京对我来说…只是…还存在一种想象之中啊,嗯没有太多的,直观的体验。
有引用是这样,引用上文: <你怎么评价北京这个城市?>
合成文本: 北京…因为我来,这是第二次,上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去,真正的去游历,所以北京对我来说…只是…还存在一种想象之中啊,嗯没有太多的,直观的体验。
在这个 case 中,AI 理解了问询的语境,呈现出思考和停顿的感觉
这里再多点例子
引用上文:
<是… 是你吗?怎么看着… 好像没怎么变啊?>
合成文本: 你头发长了… 以前总说留不长,十年了… 你还好吗?
这三种方式,可以单独用,也可以组合用
甚至再组合点别点工具
来完成个青头潜鸭的绘本
说到这,突然想起一个事,算作冷知识
ChatGPT 之所以会火,很大程度上是【AI 理解了上下文】
其实吧,早在 2020 年,GPT-3 就有了
当时叫「达芬奇-003」,只有少量开发者在用
到了 2022 年 ChatGPT 发布,大火出圈
这两者技术上差别不大,核心区别是什么?
3.5 给了 AI 以人格,给了他上下文,并进行了特别的后训练
于是, AI 不再以「句子填空」为任务,转而开始回答问题了
从接口的角度,GPT-3 的的时候,逻辑是这样
人给到半句话,AI 接着向后补全:
输入: 天空为什么是蓝色的?因为 输出(其实是补全): 瑞利散射导致短波长的蓝光更容易被散射...而 ChatGPT 呢?是这样:
System(预设): 你是一个 helpful assistant User(用户的输入): 天空为什么是蓝色的 Assistant(AI 的输出): 这是个好问题!天空看起来是蓝色的...多了什么?
多了 role(角色)的概念
System、User、Assistant 这些 role 告诉 AI:
- 你是谁(助手、老师、朋友)
- 你该怎么说话(友好、专业、幽默)
- 你在什么场景下(课堂、聊天、工作)
正是这些东西 让 AI 从"补全工具"变成了"对话伙伴"
豆包语音 2.0 做的事情,本质上是一样的 给 TTS 加上了"人格"
复杂公式朗读
回到最开始的那个 Case,令人咋舌的公式朗读
再教学内容里,会涉及大量复杂符号
比如这样的:∑、∂、∫
讲道理...这个 ∫ 咋读啊
(好像都是直接说:从xx到xx的积分)
还有数学语义理解
比如 x² 要读「x 的平方」,不能读「x2」
这些东西,市面上的模型,普遍都得寄
豆包语音 2.0 则做了专项优化
小学到高中全学科的复杂公式
准确率能到 90%
这俩都是豆包读的,说实话,挺狠的
不过这个功能目前只能通过 api 来调用,网页上还得再等等
5 秒复刻音色
豆包语音 2.0 也支持你来自定义音色
https://console.volcengine.com/speech/new/experience/clone
比如让豆包学我说话,有两种做法:
1. 上传一段我的语音
2. 直接录制,对着「贝加尔湖」的文案读一遍
![]()
支持中、英、日、西、葡等多语种
回望
这个 2.0 的模型,今天就能体验了
入口:https://console.volcengine.com/speech/new/
![]()
回望一年前,那时候还叫 Seed-TTS 刚发论文
我也在第一时间做了报道
那个时候,豆包语音 1.0 搞定了「说得像」
- 超自然(堪比真人)
- 多情绪(喜怒哀乐)
- 多场景(26 个精品音色)
而今天上线的 豆包语音 2.0,则搞定了「说得对」,变得可以理解场景
1.0到2.0,从说得像,到说得对。一晃一年半了,颇多感慨
最后说两句
这个语音模型,是字节在武汉的发布会放出来的
除了这个语音模型外,字节这次还更新了别的,比如:豆包 1.6 系列、图像生成 Seedream 4.0、视频生成 Seedance 1.0、编程模型等
大致如下,我画了个一图流
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.