豆包语音 2.0：数学公式也能读|字节|天空|括号|上下文

豆包语音 2.0：数学公式也能读

2025-10-16 13:11:13　来源: 赛博禅心

北京举报

分享至

放个演示

公式能读对，非常牛逼

这是字节新出的「豆包语音 2.0」

今天发布，这里访问：

https://console.volcengine.com/speech/new/

我参与了这模型的内测，今天模型发布，来讲讲这玩意儿的不同之处：

对话式合成
复杂公式朗读
声音复刻升级

对话式合成

先比较下这两段

这个是豆包语音2.0，可以设置情景：

[用哽咽但努力忍住、带着笑意的语气]谢谢你们……真的……我以为……我以为没人记得我生日了……我今天一整天都在想，可能大家都忙吧，忘了也正常……我自己都快忘了……结果你们……你们居然……还准备了这么多……蛋糕也买了，礼物也有……你们这群坏蛋……我刚才还在那儿自怨自艾呢……觉得自己特别可怜……现在搞得我像个傻子一样……眼泪都止不住了……真的……谢谢你们……有你们真好……

作为对比，这是 GPT-4o 的 tts，默认音色：

是不是感情丰富了？这就是「对话式合成」

给到上下文、指令和背景设定，AI 便会以更合适的口吻播出来

这里有三种方式：括号指令、语音指令和增加上文

方式1：括号指令

类似 prompt，你可以在句子前加指令，比如[生气的说]，AI 并不会读括号里的内容，而是会使用对应的口吻

出来的效果是这样：

（我用了小姑娘的音色，奶凶奶凶）

再来一个

[兴奋溢于言表]卧槽！过了过了！我他妈真的过了！刚看到offer邮件，我还以为系统出bug了，刷了好几遍确认不是做梦！你知道吗，这公司我面了三轮，每轮都觉得自己要挂，尤其最后那轮技术面，我有好几个问题都没答上来……结果他们还是要我了！而且薪资比我预期的还高五千！我现在坐在星巴克，手机都快被我刷坏了，就一直盯着那封邮件看……兄弟，我终于他妈要翻身了！

这中间的笑声穿插，有些吞掉一半的字，绝了！要是不说，恐怕真没人能察觉

通过这种方式，你可以控制每句话的场景

方式2：语音指令

类似 system prompt，你也可以通过对整段内容进行控制，比如情绪、方言、语速、语调等

举几个例子

吵架

指令： <你得跟我互怼！就是跟我用吵架的语气对话>

合成文本：那你另请高明啊，你找我干嘛！我告诉你，你也不是什么好东西！

暧昧/悄悄话

指令： <用asmr的语气来试试撩撩我>

合成文本：你知道吗，我真的很喜欢你的声音。你说话的时候，声音特别温柔，特别好听，每次听到你的声音，我都觉得心里暖暖的，特别舒服。

方式3：增加上文

当然了，你也可以直接添加上文，让音色更连贯

然后，你就有了这个（没克隆音色）

做个比较：有上下文 vs 无上下文

无引用是这样：

北京…因为我来，这是第二次，上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去，真正的去游历，所以北京对我来说…只是…还存在一种想象之中啊，嗯没有太多的，直观的体验。

有引用是这样，引用上文： <你怎么评价北京这个城市？>

合成文本：北京…因为我来，这是第二次，上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去，真正的去游历，所以北京对我来说…只是…还存在一种想象之中啊，嗯没有太多的，直观的体验。

在这个 case 中，AI 理解了问询的语境，呈现出思考和停顿的感觉

这里再多点例子

引用上文：

<是… 是你吗？怎么看着… 好像没怎么变啊？>

合成文本：你头发长了… 以前总说留不长，十年了… 你还好吗？

这三种方式，可以单独用，也可以组合用

甚至再组合点别点工具

来完成个青头潜鸭的绘本

说到这，突然想起一个事，算作冷知识

ChatGPT 之所以会火，很大程度上是【AI 理解了上下文】

其实吧，早在 2020 年，GPT-3 就有了

当时叫「达芬奇-003」，只有少量开发者在用

到了 2022 年 ChatGPT 发布，大火出圈

这两者技术上差别不大，核心区别是什么？

3.5 给了 AI 以人格，给了他上下文，并进行了特别的后训练

于是， AI 不再以「句子填空」为任务，转而开始回答问题了

从接口的角度，GPT-3 的的时候，逻辑是这样

人给到半句话，AI 接着向后补全：

输入： 天空为什么是蓝色的？因为 输出（其实是补全）： 瑞利散射导致短波长的蓝光更容易被散射...

而 ChatGPT 呢？是这样：

System（预设）： 你是一个 helpful assistant User（用户的输入）： 天空为什么是蓝色的 Assistant（AI 的输出）： 这是个好问题！天空看起来是蓝色的...

多了什么？

多了 role（角色）的概念

System、User、Assistant 这些 role 告诉 AI：

你是谁（助手、老师、朋友）
你该怎么说话（友好、专业、幽默）
你在什么场景下（课堂、聊天、工作）

正是这些东西让 AI 从"补全工具"变成了"对话伙伴"

豆包语音 2.0 做的事情，本质上是一样的给 TTS 加上了"人格"

复杂公式朗读

回到最开始的那个 Case，令人咋舌的公式朗读

再教学内容里，会涉及大量复杂符号

比如这样的：∑、∂、∫

讲道理...这个 ∫ 咋读啊

（好像都是直接说：从xx到xx的积分）

还有数学语义理解

比如 x² 要读「x 的平方」，不能读「x2」

这些东西，市面上的模型，普遍都得寄

豆包语音 2.0 则做了专项优化

小学到高中全学科的复杂公式

准确率能到 90%

这俩都是豆包读的，说实话，挺狠的

不过这个功能目前只能通过 api 来调用，网页上还得再等等

5 秒复刻音色

豆包语音 2.0 也支持你来自定义音色

https://console.volcengine.com/speech/new/experience/clone

比如让豆包学我说话，有两种做法：

1. 上传一段我的语音

2. 直接录制，对着「贝加尔湖」的文案读一遍

支持中、英、日、西、葡等多语种

回望

这个 2.0 的模型，今天就能体验了

入口：https://console.volcengine.com/speech/new/

回望一年前，那时候还叫 Seed-TTS 刚发论文

我也在第一时间做了报道

那个时候，豆包语音 1.0 搞定了「说得像」

超自然（堪比真人）
多情绪（喜怒哀乐）
多场景（26 个精品音色）

而今天上线的 豆包语音 2.0，则搞定了「说得对」，变得可以理解场景

1.0到2.0，从说得像，到说得对。一晃一年半了，颇多感慨

最后说两句

这个语音模型，是字节在武汉的发布会放出来的

除了这个语音模型外，字节这次还更新了别的，比如：豆包 1.6 系列、图像生成 Seedream 4.0、视频生成 Seedance 1.0、编程模型等

大致如下，我画了个一图流

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.