Art Boffin
【网易智能讯 4月8日消息】虽然计算机不会在梦里数电子羊,但它们却可以想象出传奇人物,著名画家、电视节目主持人Bob Ross的悦耳声音。美国湾区的艺术家、工程师Alexander Reben用一项令人难以置信的机器学习壮举来纪念已故的Ross:创造出一个混搭视频,该视频的图像和音频轨道都应用了类似深度梦幻(Deep Dream)的算法。其结果带给人一种绝对超现实的体验,让你看后情不自禁地想掐掐自己。
“我很多作品的主题都是技术与人文的联系,无论是已和我们共存的,还是即将出现的技术”,Reben在最近的一次采访中告诉我。“我尝试从技术的实际应用中挖掘出一些更深入的理解。”在他名为“深度人工树”的最新作品中,Reben试图展现“AI观看Bob Ross是一种什么体验”。
为做到这个,他花了一个月的时间,用一整季的音频资料训练WaveNet机器学习算法,以使该系统掌握Ross的说话方式。研发Wavenet的最初目的是提高“文本转语音”系统产出声音的质量和准确性。它通过利用每一个样本点(16千赫的音频最高每秒可达1.6万个)直接将原始波形模化来达到这一目的,而不依赖于效率较低的拼接式或参数化方法。
Reben解释说,设计它的最终目的是为了接收音频,根据接收到的声音制作一个模型,然后根据模型产出新的音频。也就是说,这个系统学习的不是画家话语的语法或方言特色,而是他说话的节奏、音调和高低变化。学习结果和Ross专注于作画时低语的话风惊人地相似。该系统甚至基于它所听到的声音,自发生成了不同的呼吸和叹息声。
Reben仍在不断改进这一技术。他之前率先训练了Wavenet神经网络系统,使其能根据不同人的声音模仿多个名人的说话风格。尽管用词乱七八糟、难以辨认,但节奏和声调变化却非常精确。即使你不明白他们在说什么,你也可以听出来说话人是奥巴马总统、Ellen DeGeneres或是Stephen Colbert。他还训练这个系统,让它基于100人样本的输入,对一个普通英语使用者的声音做出最佳猜测。
对于视频部分,Reben利用了两组机器学习算法,TensorFlow上的谷歌深度梦幻(Deep Dream)模型和Keras上的VGG模型。这两个模型都在已经被人熟知的深度梦幻系统上进行操作。在这一系统中,通过输入一系列预先分类的训练图像,计算机被“教”会了如何识别它正在看的东西。训练集越大,产生的神经网络就越准确。但与微软Captionbot等系统只能报告其看到的东西是什么不同,深度梦幻会用它认为自己看到的图像(可能是一只狗,或一个眼球)覆盖原图像——因此产生了仿佛嗑药般的效果。其结果是一种令人高度不安的体验。说实在的,这与从一场真正的迷幻之旅中获得的体验并没有太大不同。
有趣的是,这部短片的两个组成部分——音频和视频,是独立制作的。音频部分需要一整季的讲话资料才能产出语音。相反,视频部分只需要几“集”的量就可以被合成。“这实际上就是计算机所理解的Bob Ross的声音,加上计算机根据它看的每一帧图像‘臆想’出来的Ross的样子”,Reben解释说。
(英文来源/Engadget 编译/机器小易 审校/佚名)
关注网易智能菌(微信公众号:smartman163),获取专业人工智能资讯与AI报告。
