网易首页 > 网易号 > 正文 申请入驻

Transformer登上nature,被誉为大模型基石的它到底凭什么这么火?

0
分享至

Transformer模型最初由Google的研究人员在2017年提出,它是一种基于自注意力机制的深度学习模型,用于处理序列数据。不仅彻底改变了NLP领域,还在CV领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。随着Transformer的成功,研究人员一直在探索如何进一步改进和扩展这一架构。

5月15日,我们邀请到英国某QS排名60高校博士,曾获某一区TOP期刊最佳论文奖Henry老师,为我们带来——荣登Nature!百变之王Transformer的进阶之路,深入详解Transformer最新工作进展及技术原理!

扫码免费参与直播

领导师推荐100+篇transformer必读论文&PPT原稿


部分transformer论文&ppt展示

导师简介:Henry老师

-英国某QS排名60高校博士

-共发表20余篇SCI国际期刊和EI会议论文,包括一区期刊ISPRS Journal of Photogrammetry and Remote Sensing (影响因子12.7)等

-论文曾获某一区Top期刊年度最佳论文奖(为博士所在高校校史上首位获此殊荣的学者),谷歌学术被引1500余次

-研究领域:深度学习及其在计算机视觉、遥感图像处理和离岸可再生能源三大方向的应用,特别是CNN、注意力机制和视觉Transformer在图像分割、超分辨率等

直播大纲

1. Vision Transformer基础

2. Efficient ViT和加速技术

3. 自监督ViT技术

4. 多模态大模型


扫码免费参与直播

领导师推荐100+篇transformer必读论文&PPT原稿

Transformer模型的核心设计理念可以概括为以下几点:

1. 自注意力(Self-Attention)机制

-核心概念:Transformer模型的基础是自注意力机制,它允许模型在处理序列(如文本)时,对序列中的每个元素计算其与序列中其他元素的关联度。这种机制使得模型能够捕捉到序列内长距离依赖关系。

-优势:相比于之前的RNN和LSTM,自注意力机制能够在并行处理时有效地处理长距离依赖问题,显著提高了处理速度和效率。


2. 多头注意力(Multi-Head Attention)

-设计:在自注意力的基础上,Transformer引入了多头注意力机制,通过将注意力机制“拆分”成多个头并行运行,模型可以从不同的子空间学习信息。

-目的:这种设计使模型能够更好地理解语言的多种复杂关系,比如同义词和反义词关系、语法和语义关系等。

3. 位置编码(Positional Encoding)

-问题:由于Transformer完全基于注意力机制,缺乏序列的位置信息。

-解决方案:通过向输入序列的每个元素添加位置编码,模型能够利用这些信息来了解单词在句子中的位置关系。位置编码是与词嵌入相加的,以保留位置信息。

4. 编码器-解码器架构

-架构:Transformer模型包含编码器和解码器两部分。编码器用于处理输入序列,解码器则基于编码器的输出和之前的输出生成目标序列。

-特点:每个编码器和解码器层都包含多头注意力机制和前馈神经网络,通过残差连接和层归一化来优化训练过程。

5. 可扩展性和效率

-并行处理:与RNN和LSTM等序列模型相比,Transformer的自注意力机制允许对整个序列进行并行处理,显著提高了训练和推理的速度。

-适用范围:Transformer模型不仅适用于NLP任务,还被扩展到其他领域,如计算机视觉、音频处理等。

继DeepMind的新设计MoD大幅提升了 Transformer 效率后,谷歌又双叒开始爆改了!

与之前荣登Nature子刊的life2vec不同,谷歌的新成果Infini-attention机制(无限注意力)将压缩内存引入到传统的注意机制中,并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

这让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比。(相当于一个存放100本书的图书馆,通过新技术能存储11400本书)


扫码免费参与直播

领导师推荐100+篇transformer必读论文&PPT原稿

ViT基础

Vision Transformer(ViT)是一种基于Transformer架构的图像处理模型。它将输入图像分割成固定大小的patch,并将每个patch转换成向量表示,然后送入Transformer模型进行处理。通过自注意力机制,ViT能够有效地捕获图像中的全局和局部信息,从而在图像分类、语义分割和目标检测等任务上取得优异表现。


图1. Vision Transformer架构

Efficient Transformer和加速技术

尽管ViT在图像处理任务上取得了显著成绩,但其计算量较大,训练和推理速度较慢。为了解决这一问题,研究人员提出了一系列加速技术,如窗口注意力机制、多尺度处理、稀疏注意力等。此外,Efficient Transformer模型也在降低计算复杂度的同时保持了较好的性能,为ViT的实际应用提供了可能。


图2. Swin Transformer中的Window Attention

Transformer自监督学习

除了监督学习,Transformer模型还可以通过自监督学习进行预训练。在自监督学习中,模型通过利用输入数据的内在结构进行训练,无需人工标注的标签。这种方法不仅能够提高模型的泛化能力,还能够有效利用大规模未标记的数据进行预训练,为模型的迁移学习提供了更好的基础。


图3. 无监督学习中的对比学习

多模态LLM

除了单一模态的图像处理,Transformer模型还可以处理多模态数据,如文本和图像的联合处理。通过引入多模态LLM(Language-Image Models),模型能够同时理解文本和图像之间的关系,从而在视觉问答、图像标注等任务上取得更好的效果。


图4. Flamingo架构示意图


图5. PaLM-E架构示意图

对于想要发表论文,对科研感兴趣或正在为科研做准备的同学,想要快速发论文有两点至关重

对于还没有发过第一篇论文,还不能通过其它方面来证明自己天赋异禀的科研新手,学会如何写论文、发顶会的重要性不言而喻。

发顶会到底难不难?近年来各大顶会的论文接收数量逐年攀升,身边的朋友同学也常有听闻成功发顶会,总让人觉得发顶会这事儿好像没那么难!

但是到了真正实操阶段才发现,并不那么简单,可能照着自己的想法做下去并不能写出一篇好的论文、甚至不能写出论文。掌握方法,有人指点和引导很重要!

还在为创新点而头秃的CSer,还在愁如何写出一篇好论文的科研党,一定都需要来自顶会论文作者、顶会审稿人的经验传授和指点。

很可能你卡了很久的某个点,在和学术前辈们聊完之后就能轻松解决。

与大牛导师一对一meeting

给大家送一波大福利!我整理了100节计算机全方向必学课程,包含CV&NLP&论文写作经典课程,限时免费领!


立即扫码 赠系列课程

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4位劣迹艺人复出失败!演出取消、评论区翻车,全部遭抵制

4位劣迹艺人复出失败!演出取消、评论区翻车,全部遭抵制

清欢渡语
2024-05-01 22:34:29
官宣离队,朱婷官宣意外决定,排协支持,丁霞祝福,替补球员曝光

官宣离队,朱婷官宣意外决定,排协支持,丁霞祝福,替补球员曝光

小豆豆赛事
2024-06-02 12:41:34
手冲咖啡改成了预制咖啡!南京老太却没明白,自己为啥不火了

手冲咖啡改成了预制咖啡!南京老太却没明白,自己为啥不火了

金牌娱乐
2024-06-02 11:30:35
回顾:中国留学生魏巍在日本被执行死刑,受刑过程中他泪流满面

回顾:中国留学生魏巍在日本被执行死刑,受刑过程中他泪流满面

新月智慧所
2024-06-02 16:54:18
女子直播失败后受到惩罚,现场遭遇男子非人对待,惨叫声不断!

女子直播失败后受到惩罚,现场遭遇男子非人对待,惨叫声不断!

闻秋的声
2024-06-02 11:20:16
安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

一个人讲故事
2024-05-05 21:46:11
上海一男子在超市买了四包软中华,但不曾想抽了一根后发现全部都是假烟

上海一男子在超市买了四包软中华,但不曾想抽了一根后发现全部都是假烟

元爸体育
2024-06-03 03:05:02
未来也是皇马的?皇马首发的中前场:20岁 21岁 23岁 25岁…

未来也是皇马的?皇马首发的中前场:20岁 21岁 23岁 25岁…

直播吧
2024-06-02 14:05:04
新婚一个月,丈夫始终拒绝同房,妻子跟踪却发现惊天秘密……

新婚一个月,丈夫始终拒绝同房,妻子跟踪却发现惊天秘密……

极品小牛肉
2024-03-04 11:28:45
今年最重磅的史诗级美剧定档,这下有的看了

今年最重磅的史诗级美剧定档,这下有的看了

美剧院线
2024-06-02 18:45:23
周末利空,12家公司年报收到问询函,周杰伦曾代言的知名企业中招

周末利空,12家公司年报收到问询函,周杰伦曾代言的知名企业中招

惜别的海岸
2024-06-02 20:10:51
大陆中止ECFA关税减让后,台公布民调,称76%民众不认同九二共识

大陆中止ECFA关税减让后,台公布民调,称76%民众不认同九二共识

美食阿鳕
2024-06-01 19:35:00
福建前首富失联,儿子差点卷跑380亿

福建前首富失联,儿子差点卷跑380亿

帅真商业
2024-06-02 17:59:00
自以为很聪明,却让社会付出了巨大代价

自以为很聪明,却让社会付出了巨大代价

小刀99
2024-05-25 18:13:11
范九亿晒日常已定居香港,五千万购买香港半山豪宅,疑似好事将近

范九亿晒日常已定居香港,五千万购买香港半山豪宅,疑似好事将近

花哥扒娱乐
2024-06-02 18:16:25
朱婷揭秘!蔡斌下课真相曝光,李盈莹态度坚决

朱婷揭秘!蔡斌下课真相曝光,李盈莹态度坚决

小豆豆赛事
2024-06-02 21:41:37
美媒:“一艘中国航天器降落在月球背面

美媒:“一艘中国航天器降落在月球背面

田间农人阿馋
2024-06-02 21:37:38
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
枢密院十号:瑞典“神器”能改变乌克兰天空?

枢密院十号:瑞典“神器”能改变乌克兰天空?

环球网资讯
2024-05-31 06:44:10
矛盾加深!台“陆委”发出逐客令,“两国论”一出口再无转圜余地

矛盾加深!台“陆委”发出逐客令,“两国论”一出口再无转圜余地

谢志传
2024-06-02 14:13:28
2024-06-03 06:22:44
人工智能研究
人工智能研究
分享深度学习、CV、NLP
96文章数 104关注度
往期回顾 全部

科技要闻

黄仁勋:2026年将推下代GPU架构平台Rubin

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒 左腿粉碎性骨折

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒 左腿粉碎性骨折

体育要闻

从0-1到2-1!石宇奇绝地反击逆转队友李诗沣,豪夺赛季第3冠

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

亲子
本地
手机
教育
公开课

亲子要闻

脾胃有“3怕”快阻止娃,已有孩子发育停滞

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

手机要闻

小米14更新澎湃OS1.0.38体验:不吐不快,说说真实感受

教育要闻

TTS新传论文带读:中国互联网30年!一篇文章就给整明白!!!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版