网易首页 > 网易号 > 正文 申请入驻

堪比LSTM,Transformer引燃机器学习圈:是万能的

0
分享至

  机器之心报道

  作者:魔王

  

  

谷歌研究科学家 David Ha:Transformer 是新的 LSTM。

  2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。

  在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer 的预训练语言模型成为主流),还开始了向其他领域的跨界,近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。

  2020 年 10 月,谷歌提出了Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。

  2020 年 12 月,复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR),将语义分割视为序列到序列的预测任务,该模型在 ADE20K 上排名第一,性能优于 OCNet、GCNet 等网络。

  2021 年 1 月初,OpenAI 又连放大招,用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。

  由此,「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示:Transformer 是新的 LSTM。

  

  他否定了自己在 2017 年 5 月发表的言论:「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它,都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出,当时已诞生 20 年。

  David Ha 不会想到,这句预言被一个月后出现的 Transformer 打破,而这仅用了 4 年时间。

  著名机器学习资源网站 Papers with Code 在 1 月 20 日发布的 Newsletter 中列举了近期应用 Transformer 的十大新任务

  图像合成

  论文:Taming Transformers for High-Resolution Image Synthesis

  链接:https://arxiv.org/pdf/2012.09841v1.pdf

  多目标追踪

  论文:TransTrack: Multiple-Object Tracking with Transformer

  链接:https://arxiv.org/pdf/2012.15460v1.pdf

  音乐生成

  论文:Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

  链接:https://arxiv.org/pdf/2101.02402v1.pdf

  舞蹈生成

  论文:Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning

  链接:https://arxiv.org/pdf/2006.06119v5.pdf

  3D 目标检测

  论文:Self-Attention Based Context-Aware 3D Object Detection

  链接:https://arxiv.org/pdf/2101.02672v1.pdf

  点云处理

  论文:PCT: Point Cloud Transformer

  链接:https://arxiv.org/pdf/2012.09688v1.pdf

  时序预测

  论文:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

  链接:https://arxiv.org/pdf/1912.09363v3.pdf

  视觉 - 语言建模

  论文:VinVL: Making Visual Representations Matter in Vision-Language Models

  链接:https://arxiv.org/pdf/2101.00529v1.pdf

  车道形状预测

  论文:End-to-end Lane Shape Prediction with Transformers

  链接:https://arxiv.org/pdf/2011.04233v2.pdf

  端到端目标检测

  论文:Deformable DETR: Deformable Transformers for End-to-End Object Detection

  链接:https://arxiv.org/pdf/2010.04159v2.pdf

  而除了 David Ha 以外,另一位研究者英伟达研究科学家、前 OpenAI 研究科学家 Ankur Handa 也表示「Transformers are all you need」:

  

  ... is All You Need?

  Transformer 引领了不止一种潮流。

  在其论文《Attention is All You Need》发表后,各种「** is All You Need」论文纷纷出现。就连 LSTM 提出者 Sepp Hochreiter 也写过一篇《Hopfield Networks is All You Need》。有趣的是,这篇论文正是对 Transformer 核心注意力机制新颖性的驳斥:Transformer 中的注意力机制等价于 Hopfield 网络中的更新规则。

  Transformer 的强大主要归功于其中的注意力机制。注意力机制在 NLP 领域的应用最早可以追溯到 2014 年 Bengio 团队将其引入神经机器翻译任务,但那时模型的核心架构还是 RNN。相比之下,Transformer 完全抛弃了传统的 CNN 和 RNN,整个网络结构完全由注意力机制组成,这种改变所带来的效果提升也是颠覆性的。

  然而,Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield Networks is All You Need》中表示,Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。

  

  Sepp 这篇论文发表时,Transformer 的跨界之旅已经开始。2020 年 5 月,Facebook AI 推出了 首个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架——Detection Transformer(DETR),用于目标检测和全景分割。6 月,OpenAI 将基于 Transformer 的模型GPT-2 应用到图像领域,用于图像分类任务。

  半年过去,越来越多的工作开始探索如何将 Transformer 应用于计算机视觉等其他领域,最近更是出现了「Transformers are all you need」、「Transformers are the new LSTMs」的说法。

  Transformer 是新的 LSTM 吗?

  1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络(LSTM)论文,被认为是机器学习发展史上的一座里程碑。

  LSTM 是一种特殊的循环神经网络(RNN)。Sepp Hochreiter 在 1991 年分析了随时间反向传播(BPTT)带来的梯度爆炸和梯度消失问题;1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 在 LSTM 论文中引入 CEC 单元解决 BPTT 带来的梯度爆炸和消失问题。之后又有许多研究者对其进行了改进和普及。

  

  LSTM 单元的基本结构(图源:https://en.wikipedia.org/wiki/Long_short-term_memory)

  2020 年 2 月,LSTM 提出者 Jürgen Schmidhuber 撰文综述了 LSTM 的十年发展史,介绍了它在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。

  而 Transformer 诞生伊始就完全舍弃了 RNN,在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在,许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers with Code 最近发布的 Transformer 应用十大新任务中,过去都有着 LSTM 的活跃身影。

  Transformer 是新的 LSTM 吗?从模型应用领域的多样性来看,这似乎已见雏形。

  不知道如果现在发表「Transformer 无法被替代,还可以再用 50 年」的预言,多久之后会被打破。

  https://paperswithcode.com/newsletter/3

  https://twitter.com/hardmaru

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

生孩子不用女人了?人造子宫技术或5年内成熟,未来生育或工厂化

科普大世界
2021-02-26 13:34:49

苹果被迫在法国官网页面加入 iPhone、MacBook 可修复性评分

IT之家
2021-02-26 19:59:17

母亲喊女儿回家过元宵节,女儿直言:放过我吧,22人的饭菜太难了

琉璃红孔雀
2021-02-26 17:02:17

华为折叠屏手机降温?网购可当天发货,黄牛称加价空间大幅减少

AI财经社
2021-02-26 18:57:38

老公有特殊癖好,我想离婚了

教子百科书
2021-02-25 16:21:43

发指!南非一男子下药强奸6名男孩、还用烙铁烧伤他们

环球时报国际
2021-02-26 17:50:17

它是宝马5系中最难卖的车型,因销量低迷已然停产,知情人吐露原因

擦车工聊车
2021-02-26 13:17:15

为何要抵制烟酒院士?饶毅:他们没资格!

丞聪说娱乐
2021-02-26 22:28:15

杜兰特:联盟发展至今仅有三人能抗衡我,科比榜上有名

体坛赛事风云录
2021-02-26 21:12:28

广州号驱逐舰在湛江港内爆炸,133名官兵遇难,起因令人心痛

随风飘荡的海藻
2021-02-25 19:06:36

国乒一人世界排名被清零,彻底无缘奥运冠军,刘国梁愿望成空

篮球迷聚集地
2021-02-26 14:11:39

上座率被反超,新黑马逆袭,《你好,李焕英》票房50亿恐无望

娱书雁帛
2021-02-26 16:44:05

震惊!单车均价最贵的车企,竟然是比亚迪?是否颠覆了你的认知?

新能源汽车说
2021-02-26 16:30:18

二战时候日本女人到底能够多“疯狂”?说了你绝对不敢信

小周弹吉他
2021-02-25 14:21:36

李湘租房事件再次反转,房东愤怒撕下其遮羞布:做人,请好自为之

娱人为乐
2021-02-26 03:57:15

醉酒男入室抢劫嫌钱少,竟当着丈夫的面,强奸其妻子

身边的刑法故事
2021-02-24 09:49:41

带她去山上拍写真,穿红色旗袍还好吧,就是有点胖,怕拍不好!

迟鸿波爱搞笑
2021-02-09 16:56:07

百位主持人齐聚元宵晚会!李思思造型撞款李梓萌,一身白难挡蜂腰

触乐游
2021-02-26 22:00:02

新冠疫情与1918年大流感发展几乎一致 或可推测新冠疫情走向

唐云娱乐社
2021-02-24 14:18:29

医生给患者纠正牙齿,竟然在牙缝中勾出一颗发芽的草莓籽

青风如橘
2021-02-25 12:40:57
2021-02-27 00:52:52
机器之心Pro
机器之心Pro
专业的人工智能媒体
5716文章数 117193关注度
往期回顾 全部

科技要闻

货拉拉车内有录音,到了家里女孩怎么办?

头条要闻

华西村资金危机?分红6万变100元 村民冒雨排队取钱

头条要闻

华西村资金危机?分红6万变100元 村民冒雨排队取钱

体育要闻

尼利基纳谈今年首次出场:非常高兴回到球场 我始终充满能量

娱乐要闻

金晨穿粉红拼接裙喜气足 秀蛮腰细腿

财经要闻

汽车要闻

UNI-K内饰挺优秀 3月上市新车抢先看

态度原创

亲子
游戏
教育
旅游
数码

亲子要闻

开放三胎时代要来了?3000万妈妈发言:发钱我都不敢生

《怪物猎人 崛起》公布游戏预购特典护石效果

教育要闻

施一公筹资200亿打造西湖大学称"5年超清华",现状引人深思

旅游要闻

3月,这13处地方的风光将惊艳中国

数码要闻

RedmiBook Pro系列发布:4499元起/3.2K 90Hz屏幕