人工智能观看绘画的时候想到了什么，听到了什么|神经网络|算法|计算机

人工智能观看绘画的时候想到了什么，听到了什么

2017-04-08 08:47:59　来源: 网易智能举报

分享至

Art Boffin

【网易智能讯 4月8日消息】虽然计算机不会在梦里数电子羊，但它们却可以想象出传奇人物，著名画家、电视节目主持人Bob Ross的悦耳声音。美国湾区的艺术家、工程师Alexander Reben用一项令人难以置信的机器学习壮举来纪念已故的Ross：创造出一个混搭视频，该视频的图像和音频轨道都应用了类似深度梦幻（Deep Dream）的算法。其结果带给人一种绝对超现实的体验，让你看后情不自禁地想掐掐自己。

“我很多作品的主题都是技术与人文的联系，无论是已和我们共存的，还是即将出现的技术”，Reben在最近的一次采访中告诉我。“我尝试从技术的实际应用中挖掘出一些更深入的理解。”在他名为“深度人工树”的最新作品中，Reben试图展现“AI观看Bob Ross是一种什么体验”。

为做到这个，他花了一个月的时间，用一整季的音频资料训练WaveNet机器学习算法，以使该系统掌握Ross的说话方式。研发Wavenet的最初目的是提高“文本转语音”系统产出声音的质量和准确性。它通过利用每一个样本点(16千赫的音频最高每秒可达1.6万个)直接将原始波形模化来达到这一目的，而不依赖于效率较低的拼接式或参数化方法。

Reben解释说，设计它的最终目的是为了接收音频，根据接收到的声音制作一个模型，然后根据模型产出新的音频。也就是说，这个系统学习的不是画家话语的语法或方言特色，而是他说话的节奏、音调和高低变化。学习结果和Ross专注于作画时低语的话风惊人地相似。该系统甚至基于它所听到的声音，自发生成了不同的呼吸和叹息声。

Reben仍在不断改进这一技术。他之前率先训练了Wavenet神经网络系统，使其能根据不同人的声音模仿多个名人的说话风格。尽管用词乱七八糟、难以辨认，但节奏和声调变化却非常精确。即使你不明白他们在说什么，你也可以听出来说话人是奥巴马总统、Ellen DeGeneres或是Stephen Colbert。他还训练这个系统，让它基于100人样本的输入，对一个普通英语使用者的声音做出最佳猜测。

对于视频部分，Reben利用了两组机器学习算法，TensorFlow上的谷歌深度梦幻（Deep Dream）模型和Keras上的VGG模型。这两个模型都在已经被人熟知的深度梦幻系统上进行操作。在这一系统中，通过输入一系列预先分类的训练图像，计算机被“教”会了如何识别它正在看的东西。训练集越大，产生的神经网络就越准确。但与微软Captionbot等系统只能报告其看到的东西是什么不同，深度梦幻会用它认为自己看到的图像(可能是一只狗，或一个眼球）覆盖原图像——因此产生了仿佛嗑药般的效果。其结果是一种令人高度不安的体验。说实在的，这与从一场真正的迷幻之旅中获得的体验并没有太大不同。

有趣的是，这部短片的两个组成部分——音频和视频，是独立制作的。音频部分需要一整季的讲话资料才能产出语音。相反，视频部分只需要几“集”的量就可以被合成。“这实际上就是计算机所理解的Bob Ross的声音，加上计算机根据它看的每一帧图像‘臆想’出来的Ross的样子”，Reben解释说。

（英文来源/Engadget 编译/机器小易审校/佚名）

关注网易智能菌（微信公众号：smartman163），获取专业人工智能资讯与AI报告。