01 缘由
昨天我发了一篇Agent的文章,是之前参加北京AI活动的内容整理。然后就有读者说,如果有音频就更完美了。
其实当天我是想到了,也把设备都带过去了,无奈的是,现场的设备不兼容,要考虑现场音响,就没办法录播客了。
我其实很希望大家听原声的分享,毕竟我整理的文字也是从2万多字里删减后的。一些思考细节没有呈现。
正好又有读者希望有音频,也正好扣子空间上线了AI播客,马上动手来试一试。试了差不多一个小时,来说说惊喜和不足吧。
02 惊喜
语音的AI味儿,几乎没有了。
大家可以听一听,语调、语气、节奏、互动,都非常好。
操作也很简单,直接自然语言输入,就可以了。提示词可以是“根据XX内容,生成XX分钟的XX播客,然后输出一个音频文件”
思考过程也可以展现出来。由于线下的活动是5个嘉宾一起聊的,所以我又给定了新的指示词,希望不同的人、有不同的声音。
好家伙,AI真的开始干活了。在脚本里注释了不同的语气:沉稳、亲切、自信、诚恳、好奇、理性、思索。
有不同语气,并不难,现在AI语音都有各种版本。重点是,能根据内容识别合适的语气。比如“稍微保守点”,就识别为理性;“第一个问题”就识别为好奇等等。
整个生成时间差不多10分钟左右。还有完整的字幕可以对照。
惊喜完了。说说实用性等不足吧。
03 不足
a、首先,尽管给出了不同的语气,我也严格要求了不同角色用不同声音,但效果来看,基本没实现。
还是男、女两个声音角色,没有不同。
也许是现在模型默认就是两位嘉宾对谈,而不是多嘉宾对谈。
可能考虑是,既然都用AI了,那应该不复杂。复杂的话,直接就真人啊。
b、其次,自己加戏太多。虽然我给了内容、也指示模型严格按照推文、读出来,结果,大模型还是根据推文内容,进行了自己的理解、再加工。
整理的内容倒没错,但是,如果给出了严格指令的话,还是希望能执行。毕竟,整理后的内容虽然没错、但有些表达方式,还是改变了。
尤其对我这个项目来说,当然希望是按照嘉宾确认后的内容来表达。
c、时长。这个应该问题不大,目前应该还是算力局限。
整体而言,对我还是有帮助的。尤其现在不少人不愿意读长文,那就可以让AI自动生成一个对话,毕竟听对话,比单纯听念文本好多了。
但是,如果是AI生成的播客,应该是要打标签、告知用户的。这种情况下,用户是否还愿意听呢?
就目前播客用户而言,可能一大半不愿意了。
所以,这个工具对真人播客,似乎帮助又有限了。当然,还是非常不错的探索。尤其语音效果,还是很惊叹的。
最后,借用我在Agent那篇文章里的一个观点:
AI对真人关联高的创造性工作替代,需要有边界,全替代未必好;而那些机械、重复、没有创造价值的工作,可以多替代些。
---全文完,欢迎交流
理工/金融 复合背景
畅销书《英伟达之道》译者
百亿私募/头部自媒体 双重经历
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.