2014年,Ian Goodfellow在酒吧醉酒后想出一个疯狂点子:让两个神经网络互相欺骗。一个负责伪造名画,一个负责鉴定真伪。造假者越骗越精,鉴定者越练越毒——这套「生成对抗网络」(GAN)直接改写了机器学习的游戏规则。
几乎同时,另一批研究者走了完全不同的路。他们不搞对抗,而是教机器学会「压缩再解压」:把一张猫的照片压成几个数字,再还原成猫。这套变分自编码器(VAE)思路温和得多,像让AI做填空题而不是狼人杀。
两条路线缠斗了整整十年。GAN派嘲笑VAE生成的图像模糊得像近视眼看世界;VAE派反击GAN训练不稳定,经常画出三只眼睛的猫。学术会议上的论文互怼,GitHub上的代码互相「借鉴」,两边都觉得对方在走弯路。
转折点来得悄无声息。2022年,DALL-E和Stable Diffusion突然爆火,用的既不是纯GAN也不是纯VAE,而是把两者的精髓揉进扩散模型。Goodfellow本人早已离开Google加入DeepMind,他去年在访谈里淡淡说了一句:「我们那代人的工作,更像是给后来者搭了块垫脚石。」
现在回头看,这场十年之争像个黑色幽默——两派人马打得头破血流,最后赢家是站在旁边看戏的扩散模型。更讽刺的是,今天大多数用户生成图片时,根本不在乎底层是GAN、VAE还是别的什么字母组合。他们只关心 prompt 输进去,能不能得到一张能发朋友圈的图。
技术史就是这样。奠基者往往看不到自己的地基上盖起了什么楼。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.