网易首页 > 网易号 > 正文 申请入驻

豆包语音 2.0:数学公式也能读

0
分享至

放个演示

公式能读对,非常牛逼

这是字节新出的「豆包语音 2.0

今天发布,这里访问:

https://console.volcengine.com/speech/new/


我参与了这模型的内测,今天模型发布,来讲讲这玩意儿的不同之处:


  • 对话式合成
  • 复杂公式朗读
  • 声音复刻升级

对话式合成

先比较下这两段

这个是 豆包语音2.0,可以设置情景

[用哽咽但努力忍住、带着笑意的语气]谢谢你们……真的……我以为……我以为没人记得我生日了……我今天一整天都在想,可能大家都忙吧,忘了也正常……我自己都快忘了……结果你们……你们居然……还准备了这么多……蛋糕也买了,礼物也有……你们这群坏蛋……我刚才还在那儿自怨自艾呢……觉得自己特别可怜……现在搞得我像个傻子一样……眼泪都止不住了……真的……谢谢你们……有你们真好……

作为对比,这是 GPT-4o 的 tts,默认音色:

是不是感情丰富了?这就是「对话式合成」

给到上下文、指令和背景设定,AI 便会以更合适的口吻播出来

这里有三种方式:括号指令、语音指令和增加上文

方式1:括号指令

类似 prompt,你可以在句子前加指令,比如[生气的说],AI 并不会读括号里的内容,而是会使用对应的口吻


出来的效果是这样:

(我用了小姑娘的音色,奶凶奶凶)

再来一个

[兴奋溢于言表]卧槽!过了过了!我他妈真的过了!刚看到offer邮件,我还以为系统出bug了,刷了好几遍确认不是做梦!你知道吗,这公司我面了三轮,每轮都觉得自己要挂,尤其最后那轮技术面,我有好几个问题都没答上来……结果他们还是要我了!而且薪资比我预期的还高五千!我现在坐在星巴克,手机都快被我刷坏了,就一直盯着那封邮件看……兄弟,我终于他妈要翻身了!

这中间的笑声穿插,有些吞掉一半的字,绝了!要是不说,恐怕真没人能察觉

通过这种方式,你可以控制每句话的场景

方式2:语音指令

类似 system prompt,你也可以通过对整段内容进行控制,比如情绪、方言、语速、语调等


举几个例子

吵架

指令: <你得跟我互怼!就是跟我用吵架的语气对话>

合成文本: 那你另请高明啊,你找我干嘛!我告诉你,你也不是什么好东西!

暧昧/悄悄话

指令: <用asmr的语气来试试撩撩我>

合成文本: 你知道吗,我真的很喜欢你的声音。你说话的时候,声音特别温柔,特别好听,每次听到你的声音,我都觉得心里暖暖的,特别舒服。


方式3:增加上文

当然了,你也可以直接添加上文,让音色更连贯


然后,你就有了这个(没克隆音色)

做个比较:有上下文 vs 无上下文

无引用是这样:

北京…因为我来,这是第二次,上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去,真正的去游历,所以北京对我来说…只是…还存在一种想象之中啊,嗯没有太多的,直观的体验。

有引用是这样,引用上文: <你怎么评价北京这个城市?>

合成文本: 北京…因为我来,这是第二次,上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去,真正的去游历,所以北京对我来说…只是…还存在一种想象之中啊,嗯没有太多的,直观的体验。

在这个 case 中,AI 理解了问询的语境,呈现出思考和停顿的感觉

这里再多点例子

引用上文:

<是… 是你吗?怎么看着… 好像没怎么变啊?>

合成文本: 你头发长了… 以前总说留不长,十年了… 你还好吗?

这三种方式,可以单独用,也可以组合用

甚至再组合点别点工具

来完成个青头潜鸭的绘本

说到这,突然想起一个事,算作冷知识

ChatGPT 之所以会火,很大程度上是【AI 理解了上下文】

其实吧,早在 2020 年,GPT-3 就有了

当时叫「达芬奇-003」,只有少量开发者在用

到了 2022 年 ChatGPT 发布,大火出圈

这两者技术上差别不大,核心区别是什么?

3.5 给了 AI 以人格,给了他上下文,并进行了特别的后训练

于是, AI 不再以「句子填空」为任务,转而开始回答问题了

从接口的角度,GPT-3 的的时候,逻辑是这样

人给到半句话,AI 接着向后补全:

输入: 天空为什么是蓝色的?因为 输出(其实是补全): 瑞利散射导致短波长的蓝光更容易被散射...

而 ChatGPT 呢?是这样:

System(预设): 你是一个 helpful assistant User(用户的输入): 天空为什么是蓝色的 Assistant(AI 的输出): 这是个好问题!天空看起来是蓝色的...

多了什么?

多了 role(角色)的概念

System、User、Assistant 这些 role 告诉 AI:

  • 你是谁(助手、老师、朋友)
  • 你该怎么说话(友好、专业、幽默)
  • 你在什么场景下(课堂、聊天、工作)

正是这些东西 让 AI 从"补全工具"变成了"对话伙伴"

豆包语音 2.0 做的事情,本质上是一样的 给 TTS 加上了"人格"

复杂公式朗读

回到最开始的那个 Case,令人咋舌的公式朗读

再教学内容里,会涉及大量复杂符号

比如这样的:∑、∂、∫

讲道理...这个 ∫ 咋读啊

(好像都是直接说:从xx到xx的积分)

还有数学语义理解

比如 x² 要读「x 的平方」,不能读「x2」

这些东西,市面上的模型,普遍都得寄

豆包语音 2.0 则做了专项优化

小学到高中全学科的复杂公式

准确率能到 90%

这俩都是豆包读的,说实话,挺狠的

不过这个功能目前只能通过 api 来调用,网页上还得再等等

5 秒复刻音色

豆包语音 2.0 也支持你来自定义音色

https://console.volcengine.com/speech/new/experience/clone

比如让豆包学我说话,有两种做法:

1. 上传一段我的语音

2. 直接录制,对着「贝加尔湖」的文案读一遍


支持中、英、日、西、葡等多语种

回望

这个 2.0 的模型,今天就能体验了

入口:https://console.volcengine.com/speech/new/


回望一年前,那时候还叫 Seed-TTS 刚发论文

我也在第一时间做了报道

那个时候,豆包语音 1.0 搞定了「说得像」


  • 超自然(堪比真人)
  • 多情绪(喜怒哀乐)
  • 多场景(26 个精品音色)

而今天上线的 豆包语音 2.0,则搞定了「说得对」,变得可以理解场景

1.0到2.0,从说得像,到说得对。一晃一年半了,颇多感慨

最后说两句

这个语音模型,是字节在武汉的发布会放出来的

除了这个语音模型外,字节这次还更新了别的,比如:豆包 1.6 系列、图像生成 Seedream 4.0、视频生成 Seedance 1.0、编程模型等

大致如下,我画了个一图流


声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千胜教头!全队疯狂朝卡莱尔浇水庆祝 状元签概率14%已放眼明年

千胜教头!全队疯狂朝卡莱尔浇水庆祝 状元签概率14%已放眼明年

颜小白的篮球梦
2026-01-09 15:45:02
没有俄乌战争就没有马杜罗被抓事件!

没有俄乌战争就没有马杜罗被抓事件!

近距离
2026-01-05 11:14:12
不服?伊拉克U23主帅:我们就来了三成主力 中国队靠门将拿到1分

不服?伊拉克U23主帅:我们就来了三成主力 中国队靠门将拿到1分

风过乡
2026-01-09 07:43:56
好在中国强硬不退让!钓鱼岛上隐藏的秘密揭露,原来日本野心不小

好在中国强硬不退让!钓鱼岛上隐藏的秘密揭露,原来日本野心不小

老籣说体育
2026-01-08 18:51:04
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
街头的抗议,点燃了更大的火

街头的抗议,点燃了更大的火

陆弃
2026-01-08 15:36:29
CBA辽粤大战来袭,杜锋PK杨鸣,徐杰带队复仇,赵继伟揭复出悬念

CBA辽粤大战来袭,杜锋PK杨鸣,徐杰带队复仇,赵继伟揭复出悬念

二哥聊球
2026-01-09 11:41:32
1月9日人民币对美元中间价调升69个基点

1月9日人民币对美元中间价调升69个基点

证券时报
2026-01-09 09:31:04
2026年苹果产品首降来了:iPhone 17降价1300元!叠加国补到手价4699元起

2026年苹果产品首降来了:iPhone 17降价1300元!叠加国补到手价4699元起

快科技
2026-01-07 19:25:25
美国大规模退群!被列入裁撤清单的66个国际组织(详细名单)

美国大规模退群!被列入裁撤清单的66个国际组织(详细名单)

全球化智库CCG
2026-01-08 23:11:27
2299元的精品茅台上新首日“秒空”

2299元的精品茅台上新首日“秒空”

财闻
2026-01-09 14:05:31
下课 3 天就上岗?阿莫林被曝接班穆帅 曼联 14 个月闹剧终收场

下课 3 天就上岗?阿莫林被曝接班穆帅 曼联 14 个月闹剧终收场

澜归序
2026-01-09 02:55:40
这三国向全球发出警告:谁动我兄弟就灭谁!如今却把枪口对准中国

这三国向全球发出警告:谁动我兄弟就灭谁!如今却把枪口对准中国

青田花姑娘
2025-12-16 17:50:51
这招儿恐被用在台海?特朗普听完,耸耸肩说…

这招儿恐被用在台海?特朗普听完,耸耸肩说…

观察者网
2026-01-09 11:14:08
初代丁克现状:老公抗癌五年半后去世,现孤身一人庆幸未生养孩子

初代丁克现状:老公抗癌五年半后去世,现孤身一人庆幸未生养孩子

青梅侃史啊
2026-01-09 11:45:00
他的妻舅是元帅,大舅哥还是国家主席,为何拒绝当国家副主席

他的妻舅是元帅,大舅哥还是国家主席,为何拒绝当国家副主席

古书记史
2026-01-09 00:16:21
西方不愿承认但不得不面对的事实:中国远远落后美国的时代结束了

西方不愿承认但不得不面对的事实:中国远远落后美国的时代结束了

老范谈史
2026-01-06 13:39:21
景德镇灭门案再添猛料!凶手不道歉,父亲大闹法庭,还想打律师

景德镇灭门案再添猛料!凶手不道歉,父亲大闹法庭,还想打律师

阿纂看事
2026-01-09 16:24:27
张学良烟酒不离手活 101 岁,赵四小姐曝:软禁 55 年靠吃法续命

张学良烟酒不离手活 101 岁,赵四小姐曝:软禁 55 年靠吃法续命

唠叨说历史
2025-12-30 17:37:11
南海打捞出日军沉船,一铁箱被焊死,切开后专家哽咽:不是人!

南海打捞出日军沉船,一铁箱被焊死,切开后专家哽咽:不是人!

大千世界观
2025-11-17 21:46:22
2026-01-09 21:36:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
245文章数 12关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

健康
艺术
旅游
房产
军事航空

这些新疗法,让化疗不再那么痛苦

艺术要闻

Sean Yoro:街头艺术界的“冲浪高手”

旅游要闻

云南沙溪古镇的风景不错,但更吸引我的,还是这里的纯色山鹪莺

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版