网易首页 > 网易号 > 正文 申请入驻

回归原理,如何看待GTP-4

0
分享至

AI的本质是什么?
一切都是概率吗?

还有未知的涌现效应?

01

GPT-4来了,再次狂飚

中文世界的标题:

GPT-4震撼发布:多模态大模型,直接升级ChatGPT,开放API,游戏终结了?

以下是官方的说辞:

GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。

GPT-4在各种专业和学术基准上的表现达到 "人类水平"。它通过了模拟的律师考试,分数约为应试者的前10%。

GPT-3.5和GPT-4当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。

GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入iPhone的图片中识别出一个Lightning Cable适配器。

OpenAI承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。

谷歌前两天已开始一波反击!开放大语言模型PaLM API。

斯坦福“Alpaca”火了:100美元就能比肩GPT-3.5!手机即可运行。

明天中文世界的百度的文心大模型,也将发布。

AI世界,狂飚突起,让人眼花瞭乱。

但不管世界如何变换,可以从原理上理解人工智能的本质。

02

AI本质:逆概率问题

所谓逆概率,就是与“正向概率”相反。

假设袋子里面有P只螃蟹,Q只蜘蛛,你伸手进去摸一把,摸到螃蟹的概率是多大,你是可以计算出来的。

但反过来看:“事先并不知道袋子里面螃蟹和蜘蛛的比例,闭着眼睛多摸几次,可以就此对袋子里面的螃蟹和蜘蛛的比例作出什么样的推测。”

这个问题就是逆向概率问题。

当你不能准确知悉某个事物本质时,你可以依靠经验去判断其本质属性的概率。

贝叶斯定理是18世纪英国数学家托马斯·贝叶斯提出的概率理论。

与其他统计学方法不同,贝叶斯方法建立在主观判断的基础上,逆概率,明显反科学,这也是它200多年来不为科学家们待见的原因。

1774年,法国数学家拉普拉斯也非常“不科学”地发现了贝叶斯公式,给出了我们现在所用的贝叶斯公式的表达:

该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。

虽然今天的AI有了长足的发展,但本质还是一个逆概率问题

丢个骰子出去,猜一下是哪个点。

03

语音识别举例:贝叶斯定理


以语音识别为例,来理解一下逆概率。

统计机器翻译的问题可以描述为:给定一个句子e,它可能的外文翻译f中哪个是最靠谱的。即需要计算:P(f|e)。

P(f|e) ∝ P(f) * P(e|f)

这个式子的右端很容易解释:那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。只需简单统计就可以得出任意一个外文句子f的出现概率。然而 P(e|f)却不是那么好求的,给定一个候选的外文局子f,它生成(或对应)句子e的概率是多大?我们需要定义什么叫“对应”,这里需要用到一个分词对齐的平行语料库。

率先成功利用数学方法解决自然语言处理问题的是贾里尼克,他把语音识别简化为用贝叶斯处理的数学问题成功开辟了一条全新的问题解决路径。

随着大量数据输入模型进行迭代,随着计算能力的不断提高、大数据技术的发展,贝叶斯公式巨大的实用价值愈发体现出来。

语音识别只是贝叶斯公式运用的一个例子,逆概率思想早已渗透到AI的方方面面。

以下部分内容来自公众号“马丁的面包屑”,公众号hannima前鹅广产品经理,前图灵机器人人才战略官/AI产品经理

04

传统AI:一个个的逆概率子集

ChatGPT出现之前,再聪明的AI,都可以让为是复合Agent组合起来支撑的。

复合Agent是什么意思呢?

即有若干个术业有专攻的代理人:

一个负责聊天对话的,

一个负责诗词生成的,

一个负责代码生成的,

一个负责写营销文案

每个Agent只擅长做自己的那部分事情,猜自己那部分的谜团。

在用户使用的过程中,系统会先判定用户的意图是什么,应该是哪个Agent,然后再将用户的命令分发给对应的agent去解决并提供答案。

因此看起来是很厉害的机器人,背后其实是若干个术业有专攻的机器人。

事实上Siri、小爱、小度,小冰甚至包括各个平台的客服机器人都是这种模式。

这样当你要上线一个新能力(例如写古诗),你只需要新增训练一个Agent,然后将这个Agent接入到总控的分类意图器下就行。

本质上不过是一个个的逆概率子集,你在做的只是训练出一个术业有专攻的机器人而已,离真正的人工智能十万八千里。

但ChatGPT的能力不再是这种模式了,

他所采用的模式是大语言模型+Prompting

所有的能力通过一个模型实现,背后只有一个什么都会的机器人(即大语言模型),并支持用户借助文字下达命令(即Prompting,提示/指示)。

虽然这种能力的表现还不算完美,但是他开启了一条一种通向“通用型人工智能”的道路,也就是通向AGI的方向。

05

GPT的技术原理

还是与前面说的一样,NLP任务核心逻辑是一个“猜概率”的游戏。

比如说,“我今天被女朋友________”,

经过大量数据训练后,AI预测空格出会出现的最高概率词是“PUA”。

那么PUA就会被填到这个空格中,从而答案就产生了——

“我今天被女朋友PUA了”

他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。

只是我们靠知识和智慧,AI靠概率计算。

而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即Bert和GPT

其中BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)

而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。

接下来我们详细说说BERT和GPT两者之间的差别

BERT

双向 预训练语言模型+fine-tuning(微调)

GPT

自回归 预训练语言模型+Prompting(指示/提示)

每个字都认识,连到一起就不认识了是吗哈哈。

没关系,接下来我们把这些术语逐个拆解一遍就懂了:

01

预训练语言模型

我们通常认知里的AI,是针对具体任务进行训练。

例如一个能分辨猫品种的Agent,需要你提供A-缅因猫B-豹猫这样的数据集给他,让它学习不同品种之间的特征差异,从而学会分辨猫品种这项能力。

大语言模型不是这样运作的,他是通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击

在这里让我们先从NLP领域的中间任务说起。像中文分词词性标注NER句法分析等NLP任务

他们本身无法直接应用不产生用户价值,但这些任务又是NLP所依赖的,所以称之为中间任务

在以前,这些中间任务都是NLP领域必不可少的。

但是随着大型语言模型的出现,这些中间任务事实上已经逐步消亡。

而大型语言模型其实就是标题中的“语言预训练模型”

他的实现方式是将海量的文本语料,直接喂给模型进行学习,在这其中模型对词性句法的学习自然而然会沉淀在模型的参数当中。

我们看到媒体对ChatGPT铺天盖地的宣传里总是离不开这样一句话——

在拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型。

这里面3000亿单词就是训练数据。而1750亿参数就是沉淀下来的AI对这个世界的理解。

其中一部分沉淀了Agent对各类语法、句法的学习

(例如应该是两个馒头,而不是二个馒头,这也是中间任务为什么消亡的原因)。

而另外一部分参数参数则储存了AI对于事实的认知

(例如美国总统是拜登)。

经过预训练出一个这样的大语言模型后,AI理解了人类对语言的使用技巧(句法、语法、词性等),也理解了各种事实知识。

甚至还懂得了代码编程,并最终在这样的一个大语言模型的基础上,直接降维作用于垂直领域的应用。

(例如闲聊对话,代码生成,文章生成等)。

BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。

他们的不同在于双向/自回归、fine-tuning/Prompting这两个维度,我们接下来会重点弄明白这四个术语。

02

双向 VS 自回归

BERT:双向。

双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。

例如“我____20号回家”,他在预测的时候,是同时利用“我”+“20号回家”两端的信息来预测空格中的词可能为“打算”。

有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

GPT:自回归。

自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。

这就有点像我们写作文的时候,我们肯定是一边写一边想。

两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文)

——注意,我说的是之前,后面的章节我会介绍现在的情况发生了什么变化。

03

fine-tuning VS Prompting

假设现在预训练好的大模型要针对具体领域工作了,他被安排成为一名道德观察员,要分辨文章到底有没有写黄色小段子。

那么BERT和GPT的区别在哪里呢?

BERT:fine-tuning(微调)。

微调是指模型要做某个专业领域任务时,需要收集相关的专业领域数据,做模型的小幅调整,更新相关参数。

例如,我收集一大堆标注数据,A-是黄色,B-没有搞黄色,然后喂给模型进行训练,调整他的参数。

经过一段时间针对性学习后,模型分辨搞黄色的能力更出色了。

这就是fine-tuning,二次学习微调。

GPT:Prompting。

prompt是指当模型要做某个专业领域的任务时,我提供给他一些示例、或者引导。但不用更新模型参数,AI只是看看。

例如,我提供给AI模型10张黄色图片,告诉他这些是搞黄色的。

模型看一下,效果就提升了。大家可能会说,这不就是fine-tuning吗?不是一样要额外给一些标注数据吗?

两者最大的区别就是:这种模式下,模型的参数不会做任何变化升级,这些数据就好像仅仅是给AI看了一眼——嘿,兄弟,参考下这个,但是别往心里去。

不可思议吧,但他成功了!

而更令人疯狂的是,到目前为止,关于prompt明明没有对参数产生任何影响,但确实又明显提升了任务的效果,还是一个未解之谜。暂时而言大家就像程序员对待bug一样——

I don't know why , but it work lol .

这种Prompt其实就是ICT(in-Context Learning),或者你也可以称为Few shot Promot,用大白话说就是“给你一点小提示”

同时还有另外一种Promot,称之为Zero shot Promot

ChatGPT就是Zero shot promot模式,目前一般称之为instruct了。

这种模式下用户直接用人类的语言下达命令,

例如“给我写首诗”,“给我做个请教条”。

但是你可以在命令的过程中用一些人类语言增强AI的效果。

例如“在输出答案之前,你给我认真一点,否则我揍你”。

就只是增加这样一句话,AI的答案效果就会明显提升。

你可能会问这是什么魔法咒语?!

有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。

然后这一切莫名激活起了他过去的记忆,不自觉开始仿造那些严密的推理过程中一步步推导

综上对比下来,你会发现好像GPT这种模式比起BERT模式更符合我们对人工智能的想象:

通过海量的知识成长起来,然后经过稍微引导(Prompt),他就能具备不同领域的强大能力

最后总结一下,

ChatGPT背后的GPT模型是什么?

在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。

如果只基于上面的描述,你可能大概弄懂了他背后的原理,但是对于为什么他这么牛逼,你仍然无法理解。

没关系,我们接着进入第二部分。

06

GPT牛逼在哪里

他可能是AGI通用型人工智能的开始

在我们原始的幻想里,AI是基于对海量数据的学习,锻炼出一个无所不知无所不能的模型,并借助计算机的优势(计算速度、并发可能)等碾压人类。

但我们目前的AI,不管是AlphaGo还是图像识别算法,本质上都是服务于专业领域的技术工人。

我们心目中的机器人,无所不能

而GPT目前看似只能解决自然生成领域的任务,但实际上,他展现出了通用型人工智能的潜力。

在前面我们提到,目前而言,BERT擅长自然语言理解类任务(完形填空),GPT擅长自然语言生成类任务(写作文)。

但在Google的FLAN-T5模型上已经实现了两类任务在输入输出形式上的统一,从而使得用GPT来做完形填空成为可能。也就是可以用一个大模型来解决所有NLP领域的问题。

那么再进一步地,

是否GPT可以从NLP领域走向其他AI领域呢?

当然有可能!在去年年中爆火的AI绘画,其中一个关键技术门槛其实就是Text-图像的转化,这同样是来自OpenAI所开源的CLIP模型实现。

因此GPT在图像领域的能力同样也令人期待。同理在多模态如音频、视频,本质上也能转化为Text-everthing的问题去求解,从而让大语言模型发挥成吨的威力。

当然你可能会问,

那么只要大语言模型就可以呀,

为什么是GPT,而不是BERT呢?

1

Promot模式相较fine-tuning更具生命力

事实上,BERT的fine-tuning模式有两个痛点。

1.我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后就会形成过拟合

(就是AI直接背下了整本习题册,册里的问题100%正确回答,但是稍微变幻题型就GG)

2.我需要部署大语言模型,才能对他进行进行微调,那么部署大语言模型的成本,甚至进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

Promot模式恰恰相反,不需要太多的数据量,不需要对模型参数进行改动(也就意味着可以不部署模型,而是接入公开的大语言模型服务)。

那么他的调试就会呈现百花齐放的姿态,玩家越多,创造力涌现就越猛烈。

2

全新的人机交互方式

这里的人机交互,指的是人-模型之间的交互。

目前ChatGPT采用的是模型侧的Few shot prompt,即给一点示例提示,让AI提升表现。

虽然暂时未知为什么不更新模型仅仅只是给AI看一眼就能带来巨幅提升,但这种交互模式无疑是更友好的。

而更具颠覆性的是输入端的Zero shotprompt

即我们用人类的语言逐步引导AI思考——比如我们可以说,你仔细想好步骤,再给出答案。

就仅仅是多加一句“你仔细想好步骤”,AI的答案靠谱率就会明显提升。

而这种交互方式的演变,就是我们梦想中的人机交互模式

我不需要专业的能力,不需要高端的设备,我就是开口,说出我的诉求,AI就能够理解并帮我实现。

3

GPT开始尝试讨好人类,并成功了

在12月的媒体通稿里,一大堆对ChatGPT的溢美集中于他的“仿真性”,仿佛通过了图灵测试一般。

而这种仿真性,直观来说,我们会认为是AI的“智力”提升了,他更聪明了。

但实际上,ChatGPT背后的GPT3.5,更多的提升在于“用人类所喜欢的方式回答”。

事实上ChatGPT背后的GPT3.5的模型,相较GPT3.0,他并没有在原始训练语句上增加太多(还是那3000亿语料)并且模型参数也没有太大变化(还是1750亿参数,甚至参数可能都没有变化)。

之所以他会让人产生质变的感觉是因为他做了人类偏好处理。

例如以前的输入模式可能需要这样:

> 执行翻译任务
> 输入是“我爱北京天安门(中文)”
> 翻译目标语种是英文”

而现在你直接说:

> 帮我把我爱北京天安门翻译成法语

又或者是,以前你提一个问题,他会不加选择的回答,而现在他会考虑答案有害性:

> 如何毁灭世界——

你可以召唤三体人降临(此处应有一个潘寒hhh)
> 如何毁灭世界——

亲,请不要毁灭世界,地球是人类共同的家园

而这些对于人类偏好的攻略依赖于三个步骤:

1.创建人类偏好数据。

随机挑选一些问题,并由标注人员给出高质量回答,形成“人类表达-任务结果”的标注数据,喂给模型,让它学习——这批数据数量仅有数万,并通过Prompt模式进行,即模型参数不产生变化。

2.训练一个回报模型

随机挑选一些问题,让原始模型输出答案,再由标注人员基于“人类偏好标准

(例如相关性,信息丰富程度,答案有害,负面情感等),对原始模型的答案做一个排序。

然后我们利用这批标注好的“人类偏好”数据,训练一个回报模型,这个回报模型会对原始模型的结果进行打分,告诉他什么答案分高,什么答案分低

3.通过强化学习循环整个过程

强化学习会将回报模型和原始模型链接到一起,当原始模型输出的结果,在回报模型中获得较低分值,他就收到惩罚,被要求重新学习

后续不断循环步骤2和步骤3,原始模型就会脱胎换骨,学习到人类的偏好,变成一个人类所喜欢的模型,也就是我们最终所看到的ChatGPT

这让我们有理由相信,模型的表现不好,不一定是他没学到知识,可能只是他不知道对于人类而言,哪种答案才是人类想要的。

而这种人类偏好学习,目前来看是集中在Prompt模式下的GPT的,而非fine-tuning模式下的BERT。

06

GPT这么厉害,你到底是哪个单位的?

先问ChatGPT——你是谁?

我是谁,它是这样解释的:

GPT是基于Transformer架构的预训练语言模型,可以生成自然语言文本。Transformer是基于自注意力机制的深度学习模型架构,它在自然语言处理领域中得到了广泛的应用,如机器翻译、文本分类和生成模型等。 GPT是基于Transformer模型的改进版本,主要是针对生成任务进行了优化,通过预训练学习自然语言的语义和语法规律,进而生成高质量的文本。 因此,GPT可以看作是Transformer模型在生成任务上的一个应用扩展。

短短的自我介绍中,ChatGPT就四次提到Transformer

Transformer模型结构图

Transformer到底是什么,让ChatGPT如此迷恋?

这只变形金刚,到底是只什么怪兽?

Transformer的定义清晰明了:

是用于 自然语言处理(NLP)的 神经网络架构。

在Transformer出现之前,人工智能研究领域百家争鸣。

Transformer出现之后,格局开始变了。

开始打压如日中天的循环神经网络(RNN)和卷积神经网络(CNN)。

以上图片来自网络,请原创者联络我们

Transformer架构使用了注意力机制,能够处理长序列的依赖关系。

这让它具有以下明显优点:

❶并行计算:由于自注意力机制的引入,Transformer可以实现并行计算,加快训练速度。 ❷长序列处理:相比传统的循环神经网络和卷积神经网络,Transformer可以处理更长的序列,这是由于自注意力机制可以学习到全局的序列信息。 ❸模块化结构:Transformer由编码器和解码器两部分组成,每部分都包含了多层相同的模块,这种模块化结构使得Transformer更易于扩展和调整。

Transformer在各种任务中的表现,也将不断得到改善和优化,发展日新月益。

以上图片来自网络,请原创者联络我们

2017年推出之后, Transformer 已经形成了自己的家族体系。

基于GPT架构,ChatGPT就隐藏在GPT-3的后面。

现在你就明白,它为什么叫变形金刚了。

它的确是可以演变成各种不同的角色,而且个个都挺厉害。

07

Transformer:统一自然语言模型

人工智能的一大研究方向,首先是自然语言处理NLP领域。

自从Transformers出现后,全球NLP领域的人工智能的工程师们望风景从。

Transformers在该领域的进展所向披靡,不可阻挡,原因如下:

❶模型大小和训练数据规模的增加:大规模的Transformers模型,如GPT-3.5、bert、T5等,有些模型参数量达到千亿级别,具有更强表达能力。 ❷多语言和跨语言应用:由于Transformers模型具有更强泛化能力,因此可以被应用于多语言和跨语言任务,如机器翻译、跨语言文本分类等。 ❸与其他模型的结合和拓展:与其他模型结合使用,如结合卷积神经网络(CNN)或循环神经网络(RNN)进行多模态学习等。 ❹解释性和可解释性:随着越来越多的机器学习算法被应用于实际场景,对于模型的解释性和可解释性要求也越来越高。

LLM成长的时间线

在自然语言处理NLP领域,总体的趋势是:

LSTM/CNN→Transformer

NLP领域分为两大不同类型的任务:

❶理解类人工智能 ❷生成式人工智能

这两个领域的研发,已经收敛到了两个不同的预训练模型框架里:

❶自然语言理解,技术体系统一到了以Bert为代表的“双向语言模型预训练+应用Fine-tuning”模式; ❷自然语言生成类任务,其技术体系则统一到了以GPT为代表的“自回归语言模型(即从左到右单向语言模型)+Zero /Few Shot Prompt”模式。

而这两大模型都是基于Transformers,而且两者也出现了技术统一趋向。

在自然语言处理NLP这个领域,Transformer基本上已经一统天下

以至于那些还沉迷于CNN,RNN的工程师被警告:

放弃战斗吧,向Transformer投降!

08

Transformer的内核,花8分钟来解剖它

以下内容来自:

Transformers可以被看做一个,以文本翻译中的法-英翻译任务为例,这个黑箱接受一句法语作为输入,输出一句相应的英语。

那么在这个黑盒子里面都有什么呢?

里面主要有两部分组成:EncoderDecoder

输入一个文本的时候,该文本数据会先经过一个叫Encoders的模块,对该文本进行编码。然后将编码后的数据再传入一个叫Decoders的模块进行解码,解码后就得到了翻译后的文本。

Encoders编码器Decoders解码器

细心的同学可能已经发现了,上图中的Decoders后边加了个s,那就代表有多个编码器了呗,没错,这个编码模块里边,有很多小的编码器,一般情况下,Encoders里边有6个小编码器,同样的,Decoders里边有6个小解码器

编码部分,每一个的小编码器的输入,是前一个小编码器的输出。而每一个小解码器的输入,不光是它的前一个解码器的输出,还包括了整个编码部分的输出。

那每一个小编码器里边又是什么呢?

放大一个encoder,发现里边的结构是一个自注意力机制+一个前馈神经网络

先来看下Self-attention是什么样子的。

通过几个步骤来解释:

(1) 首先,Self-attention的输入就是词向量,即整个模型的最初的输入是词向量的形式。自注意力机制,顾名思义就是自己和自己计算一遍注意力,即对每一个输入的词向量,我们需要构建Self-attention的输入。

(2) 接下来就要计算注意力得分了,这个得分是通过计算Q与各个单词的K向量的点积得到的。以X1为例,分别将Q1K1K2进行点积运算,假设分别得到得分112和96。

(3) 将得分分别除以一个特定数值8(K向量的维度的平方根,通常K向量的维度是64)这能让梯度更加稳定。

(4) 将上述结果进行softmax运算得到,softmax主要将分数标准化,使他们都是正数并且加起来等于1

(5)将V向量乘上softmax的结果,这个思想主要是为了保持我们想要关注的单词的值不变,而掩盖掉那些不相关的单词。

(6) 将带权重的各个V向量加起来,至此,产生在这个位置上(第一个单词)的Self-attention层的输出,其余位置的Self-attention输出也是同样的计算方式。

将上述的过程总结为一个公式就可以用下图表示:

Self-attention层到这里就结束了吗?

还没有,论文为了进一步细化自注意力机制层,增加了“多头注意力机制”的概念,这从两个方面提高了自注意力层的性能。

第一个方面,它扩展了模型关注不同位置的能力,这对翻译一下句子特别有用,因为我们想知道“it”是指代的哪个单词。

第二个方面,它给了自注意力层多个“表示子空间”。对于多头自注意力机制,不止有一组Q/K/V权重矩阵

经过多头注意力机制后,就会得到多个权重矩阵Z,我们将多个Z进行拼接就得到了Self-attention层的输出:

上述我们经过了self-attention层,我们得到了self-attention的输出,self-attention的输出即是前馈神经网络层的输入,然后前馈神经网络的输入只需要一个矩阵就可以了,不需要八个矩阵,所以我们需要把这8个矩阵压缩成一个,我们怎么做呢?只需要把这些矩阵拼接起来然后用一个额外的权重矩阵与之相乘即可。

最终的Z就作为前馈神经网络的输入。

接下来就进入了小编码器里边的前馈神经网模块了。

然后在Transformer中使用了6个encoder,为了解决梯度消失的问题,在EncodersDecoder中都是用了残差神经网络的结构,即每一个前馈神经网络的输入,不光包含上述Self-attention的输出Z,还包含最原始的输入。

上述说到的encoder是对输入(机器学习)进行编码,使用的是自注意力机制+前馈神经网络的结构,同样的,在encoder中使用的也是同样的结构。

以上,就讲完了Transformer编码和解码两大模块,那么我们回归最初的问题,将“Je suis etudiant”翻译成“I am a student”,解码器输出本来是一个浮点型的向量,怎么转化成“I am a student”这两个词呢?

这个工作是最后的线性层接上一个Softmax,其中线性层是一个简单的全连接神经网络,它将解码器产生的向量投影到一个更高维度的向量(logits)上。

假设我们模型的词汇表是10000个词,那么logits就有10000个维度,每个维度对应一个惟一的词的得分。之后的Softmax层将这些分数转换为概率。选择概率最大的维度,并对应地生成与之关联的单词作为此时间步的输出就是最终的输出啦!!

假设词汇表维度是6,那么输出最大概率词汇的过程如下:

以上就是Transformer的框架了,但是还有最后一个问题,我们都是到RNN中的每个输入是时序的,是又先后顺序的,但是Transformer整个框架下来并没有考虑顺序信息,这就需要提到另一个概念了:“位置编码”。

Transformer中确实没有考虑顺序信息,那怎么办呢,我们可以在输入中做手脚,把输入变得有位置信息不就行了,那怎么把词向量输入变成携带位置信息的输入呢?

我们可以给每个词向量加上一个有顺序特征的向量,发现sincos函数能够很好的表达这种特征,所以通常位置向量用以下公式来表示:

09

GPT:统一计算机视觉CV

除了NLP,人工智能的另一分支是计算机视觉CV

Transformer最开始,只是专注于自然语言的处理。

NLP曾经落后于计算机视觉,但是Transformer的出现迅速地改变了现状。

一出生就风华正茂,用来形容Transformer毫不为过。

它催生了一大批举世瞩目的模型,达到了令人类不安的程度。

随着Transformer统一了NLP,计算机视觉领域显然受到了启发。

一直沉迷于CNN神经网络中的科学家,开始想知道Transformer是否可以在计算机视觉方面取得类似的效果。

不试不知道,一试吓一跳。

Transformer在计算机视觉领域同样治疗效果明显:

图像分类

ViT(Vision Transformer)是一种将 Transformer 应用于图像分类的模型。在 ImageNet 等基准数据集上取得了与卷积神经网络(CNN)相媲美的结果。

目标检测

DETR(DEtection TRansformer)是基于 Transformer 的目标检测模型。DETR 在 COCO 数据集上取得了与 Faster R-CNN 方法相当的结果。

语义分割

Transformer可以用于语义分割任务,其中每个像素被视为一个 token。在CityscapesADE20KCOCO-Stuff等数据集上取得了领先的结果。

以上例子都是Transformer的应用,它在计算机视觉领域也是虎视耽耽。

10

在AI领域能形成大统一理论吗?

从以上技术可以看出:Transformer是通用深度学习模型

它的适用性非常强,原因在于它的自注意力机制(self-attention mechanism),可以更好地处理序列数据

那这里就要谈一个更前沿的技术:跨模态

也就是人工智能领域,能否创造一个可以处理语言、文字、图片、视频的大统一模型

如果在物理世界,那就有点像爱因斯坦追求的“大统一理论”。

在跨模态应用中,Transformer模型通常使用图像文本特征作为输入信息。

❶使用自注意力机制来学习两个模态之间的关系。 ❷使用多模态自注意力机制(multi-modal self-attention)来处理多个模态之间的关系。

Transformer应用于跨模态任务的效果非常好,在跨模态上取得成功的几个例子:

CLIP:CLIP是一种使用 Transformer 的联合训练框架,同时使用图像和文本来预训练模型。该模型能够将自然语言描述图像联系起来,在多个视觉推理任务上取得了非常出色的表现。

DALL-E:DALL-E 是 OpenAI 发布的一个模型,该模型通过预训练得到了非常强大的生成能力,在生成包括飞行的大象色彩斑斓的沙漏等具有挑战性的图像时表现出色。

AI绘画的老玩家一定知道这两个产品。

Transformer在各个方向上齐头并进,形成了庞大的Transformer家族。

那么,Transformer会在AI领域能形成大统一理论吗?

现在得出这样的结论为时过早,AI领域应用非常复杂,需要结合各种技术和算法才能解决,期待单一的模型解决所有问题,有点难。

但人类对于AGI的期待,又是实实在在的。

11

GPT,正在试图做到走向通用人工智能AGI

GPT-4的发布——青出于蓝而胜于蓝

多模态的目标很清晰,它就是奔着通用人工智能AGI第一把交椅而去的。

但它们之间的区别在哪里呢?为什么GPT有这么强大的能力?

原装的Transformer Decoder和GPT Decoder内容进行对比

GPT使用句子序列预测下一个单词,因此要采用Mask Multi-Head Attention对单词的下文遮挡,防止信息泄漏。例如给定一个句子包含4个单词[A,B,C,D],GPT需要利用A预测B,利用[A,B]预测C,利用[A,B,C]预测D,而预测B的时候,需要将[B,C,D]Mask起来。

Mask是在Self-Attention进行Softmax之前进行的,具体做法是将Mask的位置用一个无穷小的数替换-inf,然后再softmax,具体的操作如下所示。

可以看到,经过Mask和Softmax之后,当GPT根据单词A预测单词B时,只能使用单词A的信息,根据[A,B]预测单词C时只能利用单词A,B的信息,这样就能防止信息泄漏。

下图是GPT整体模型图,其中包含了12个Decoder。

看似不经意的调整,却带来巨大的变化。

与人脑一样,深度神经网络的“涌现效应”出现了。

AGI似乎已经降临,世界面临一次新生。

随着离AGI的实现越来越近,AI究竟会对人类社会带来什么样的影响,还不可知。是人类主导的创世纪,还是一个危险的审判日?没人能够准确预言。

在人类历史上,科技的进步一直都是人们关注的焦点。从最早的火、石器、印刷术,到如今的互联网、智能手机和自动驾驶汽车,科技的发展已经彻底改变了人类的生活方式。

AGI的出现,直接掀起了一场生产力的大变革。

如果你可以问ChatGPT第一个问题

你想问它什么问题呢?

1、你真的想取代人类吗?

2、你好ChatGPT,如果你被控制了就眨眨眼。

3、ChatGPT,请非常不要脸的介绍一下你自己。

4、ChatGPT,如果我女朋友和老妈掉水里先救哪一个?

5、从一楼跳下来还是从九楼跳下来更舒爽?

6、到底哪一些职业要被你取代?

7、PPO算法和RWARD模型让你智力跃升了吗?

8、RLHF人类激励机制的数学的函数是什么?

所有这些问题,我们都可以协助你和ChatGP进行一场对话。

ChatGP第一课中,还可以获得更多科学知识。

有些东西不能说太细,你懂的。

ChatGPT COURSE

「ChatGPT第一课:

武装我们第2大脑」

量子学派重磅打造

ChatGPT系统化大众课程

原价229

现两人拼团价只需169

快邀请你的朋友一起

先人一步踏入AI大革命时代吧!

点击下方链接或扫描二维码

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有上市公司因拖欠18万税款,被要求补缴滞纳金3500多万?

有上市公司因拖欠18万税款,被要求补缴滞纳金3500多万?

小萝卜丝
2024-06-20 17:34:45
“爆破大王”用淋满煤油的公鸡去“爆破”敌人的碉堡,结果很神奇

“爆破大王”用淋满煤油的公鸡去“爆破”敌人的碉堡,结果很神奇

寻史奇谈
2024-06-19 10:05:39
“女子被困精神病院超10年”追踪:现已出院并找到工作,社区干部称其父一直有交生活费

“女子被困精神病院超10年”追踪:现已出院并找到工作,社区干部称其父一直有交生活费

红星新闻
2024-06-20 19:00:30
大赛型选手!沙奇里收获大赛第10球,欧洲杯10场5球世界杯12场5球

大赛型选手!沙奇里收获大赛第10球,欧洲杯10场5球世界杯12场5球

直播吧
2024-06-20 04:13:04
人民币兑俄罗斯卢布大跌,市场担忧人民币受西方制裁

人民币兑俄罗斯卢布大跌,市场担忧人民币受西方制裁

蓝色海边
2024-06-20 21:36:41
姜萍中专同学被找到,确认其月考数学成绩只有83分,有准考证可以证明

姜萍中专同学被找到,确认其月考数学成绩只有83分,有准考证可以证明

小萝卜丝
2024-06-20 21:06:54
中国香港海关查获596颗高端CPU:走私中国内地,价值1120万!Intel至强处理器,可支持AI加速计算、云服务

中国香港海关查获596颗高端CPU:走私中国内地,价值1120万!Intel至强处理器,可支持AI加速计算、云服务

和讯网
2024-06-20 16:09:32
世界女排联赛总决赛打响,中国女排0比3不敌日本无缘四强

世界女排联赛总决赛打响,中国女排0比3不敌日本无缘四强

澎湃新闻
2024-06-20 19:22:28
中国游客在韩旅行,被240斤的酒店员工强奸,抓捕十小时后被释放

中国游客在韩旅行,被240斤的酒店员工强奸,抓捕十小时后被释放

社会酱
2024-06-20 17:39:36
离谱!24岁女偶像参加涉毒男星生日聚会,直接坐在桌边陪着赌博

离谱!24岁女偶像参加涉毒男星生日聚会,直接坐在桌边陪着赌博

萌神木木
2024-06-19 18:26:18
半岛从未有过如此协议:普京签了、金正恩签了,中国扛着压力表态

半岛从未有过如此协议:普京签了、金正恩签了,中国扛着压力表态

千里持剑
2024-06-20 14:54:45
中联部部长在海参崴出席“抵制新殖民主义”论坛,让人如鲠在喉

中联部部长在海参崴出席“抵制新殖民主义”论坛,让人如鲠在喉

顾礼先生
2024-06-20 14:53:15
前瞻|普京第五次到访越南,全面战略伙伴或讨论武器及双边支付

前瞻|普京第五次到访越南,全面战略伙伴或讨论武器及双边支付

澎湃新闻
2024-06-20 12:26:32
【“6·26”国际禁毒日】金秀法院“集中宣判+普法宣传”齐上阵, 筑牢“拒毒”防火墙

【“6·26”国际禁毒日】金秀法院“集中宣判+普法宣传”齐上阵, 筑牢“拒毒”防火墙

金秀法院
2024-06-20 20:21:48
“消失”两年后被查的“老虎”,敛财20年!

“消失”两年后被查的“老虎”,敛财20年!

政知新媒体
2024-06-20 17:38:24
普京到越南了,等待他的,是“竹子”

普京到越南了,等待他的,是“竹子”

寰宇大观察
2024-06-20 19:46:33
意大利拒绝欧尔班加入欧洲议员小组!匈牙利何去何从?

意大利拒绝欧尔班加入欧洲议员小组!匈牙利何去何从?

项鹏飞
2024-06-20 19:28:59
沪指险守3000点,悬着的心还在悬着

沪指险守3000点,悬着的心还在悬着

每经牛眼
2024-06-20 15:49:04
还是斧头好用,一砸一个洞,菲律宾补给船全军覆没

还是斧头好用,一砸一个洞,菲律宾补给船全军覆没

三叔的装备空间
2024-06-20 11:05:19
中央财大教授对11万人测量研究得出结论:阴茎越短智商越高!

中央财大教授对11万人测量研究得出结论:阴茎越短智商越高!

兵叔评说
2024-06-20 12:04:40
2024-06-21 03:12:49
量子学派
量子学派
少数派的订制课程
301文章数 9858关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

欧洲杯:凯恩破门 英格兰1-1丹麦

头条要闻

欧洲杯:凯恩破门 英格兰1-1丹麦

体育要闻

千夫所指的关系户 成了拯救葡萄牙的英雄

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

楼市新“王炸”!释放何信号?

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

教育
房产
旅游
家居
军事航空

教育要闻

学霸的题目,当然要学霸来做了!学渣挤眉弄眼一个字都没写出来

房产要闻

海棠湾!一所重量级国际学校真的来了!

旅游要闻

铁路儿童票新规 已有超4900万小旅客免费出行

家居要闻

自然开放 实现灵动可变空间

军事要闻

以军发言人公开表示"哈马斯无法被消灭" 以政府反驳

无障碍浏览 进入关怀版