来源:AI山脉
在当今数字化时代,人工智能技术已经成为企业发展的重要驱动力。然而,如何真正用AI赋能企业,打造适合自己的AI专属模型,却是一个需要深入探讨的话题。
在刚刚结束的《“企业如何打造AI专属模型”CTO圆桌论坛》上,我们邀请了顺顺智慧产品运营总经理兼合伙人占冰强,做了一场关于《定制企业私有化AI大模型》的主题分享。
分享内容如下:
我自己一直有研究AI行业2010年之前的阶段,研究数学建模、设计建模等。那个时候其实算法,什么神经网络,还有什么灰色预测,聚类分析,都还在学术层面。如果大家那个阶段在大学应该知道,在07、08年那个时候都是学术阶段的东西,然后一直到13、14年,互联网金融爆发,让AI进入了一个新的阶段,尤其金融行业,图像识别在风控、数据各个方向都有很多应用。那时每个人感触还不是特别明显,只是金融行业可能有所感受。
从17、18年开始一直到23年这个阶段应该是AI的一个新的周期。如果是AI从业者应该知道一点,在去年10月份之前,AI行业可以说是一片哀嚎,大家已经冷到极点,为什么?那个时候行业内的几家比较头部的公司被发现了一个很严重的问题——财务造假。去年10月份之前,很多AI公司用一些套路来骗VC的钱,使得VC在10月份之前,对这个行业真的是失望透顶。直到去年12月份,ChatGPT当时发布了第一个版本的时候,大家又重新燃起了对这个行业的新希望,很多公司都在思考这个问题,如何来定制企业自己的大模型?
应用场景大家也知道,以前我公司比如说市场部可能六七个人,现在我两个人就够了,比如原先我客服部可能100个人,我现在只有三四个人帮我去监督,比如说我公司有个AI的客服机器人,去帮我监督它的输出的内容是否合规,如果不合规,我让这四五个人帮我随时更改就好了。AI目前对于很多公司来说是比较降本增效的,这是一个最直接能看到的数据。
我们以前也做To B行业的投资,我们发现一个现象,中国的企业可能不会经历信息化这个阶段了,以前你让大家采用一个SaaS软件,他们感觉花钱花好多,一年2000块钱,就觉得花了好多。但现在AI数字人出现之后,你让我一年花1万花5000我是愿意的。
比如说我是一个直播公司,原先养一个直播真人,一年得花20万,现在买个数字人,一年花一次六七千块钱搞个数字人,这样人力成本下降了,所以大家更愿意把钱在这个事情上。所以中国的企业可能会从SaaS的这种信息化阶段,直接跨越到AI化。这已经是很明显的趋势,如果你不跨越,可能三年后你的公司没有竞争力的,你会发现你的成本结构和你的投入产出比很差,所以你必须得拥抱AI,这是一个现状。
但是现在我们处的另一个现状是什么呢?虽然ChatGPT的出现,引领了通用的一个模式,但它又存在一个问题,在垂直细分的很多场景里面表现并不好。那么,对于我们不管是所有公司,还是AI创业的,都是一个新机会,都是一个新的增量市场。而且我们从投资市场来看的话,大概预测至少有5年的红利期,等到5年以后,这个行业慢慢才会进入一个相对饱和的阶段。
未来5年,可能后面会出现的新概念叫AI的超级个体。在03年到10年之间,那个时候造就了一个什么?造就了那个群体——站长,我在10年之前算是站长,那个时候造就了将近全国300万的站长,那个时候最火的一个平台discuz,高峰期的时候,好像是有500万的站长,09年的时候被腾讯5,000万美金现金并购,大概也是中国整个互联网历史上第一个这么大金额并购的case。
我们如果说从这个时代类比的话,AI这个时代就超级个体时代,未来5~10年也会迸发出几百万个,我认为保守说有100万个超级个体。为什么这么说?大家可以评估一下,我刚才前面说一个市场部,原先我可能5个人,现在降到两三个人搞定,原先客服部100个人,我降到四五个人或者10个人以内搞定,这真的是对于超级个体的一个新的时代。
中间这个时代,比如说在14年,15年出现了合约的一批开发者,这批人相当于繁荣的一代。到现在23年,对于我们来说是新的时代,就是AI的超级个体,尤其去年12月份ChatGPT一出现之后,让AI对生产力的影响,这个临界点已经破过去。很多人都在想着怎么把AI用上,比如我公司裁员,把成本降一降,这也是很多老板都希望的,AI是实实在在降低成本的。而以前的SaaS并没有像AI一样更能降本增效,所以SaaS在中国赛道上走得并不好。去年大量SaaS公司倒闭,大量SaaS公司在收缩,现在他们又看到一个新的希望,就怎么让我的SaaS借助AI,每个公司都在想这个事情。
那么,这就涉及到咱们今天要讲的两个话题。第一个话题是说垂直行业的专属大模型,因为通用大模型在细分领域表现并不好,我如何训练一个自己在垂直领域的大模型,很多人都在探索,但现在市面上又没有很清楚的方式告诉你,垂直大模型需要怎么弄,还需要你自己去国外找资料去学习,这也是现在一个门槛。第二个部分就是企业应用的专属大模型。这其实是两个东西,现在很多人会把这个东西混为一谈,认为我企业建一个自己的AI的聊天机器人,我就是一个AI专属大模型,其实这是两个概念。为什么?
首先说垂直细分的一个专业大模型,你可以理解为它是一个专业的人,比如我给他喂了一批专家医生,比如协和的专家医生,我把他的数据,所有的病例报告录进去,我可以训练一个协和这样的专家出来,我会让AI跟专家一样具备这种看病能力,但现在ChatGPT是不具备看病能力的对不对?这种训练是相当于让他增加了一种新的知识,让这个AI具备了一个新的能力,那么这种属于大模型的一种训练。
目前企业端的这种应用更加偏向工程层面,什么叫工程层面?举个例子,比如说我现在企业要造一个自己的 AI机器人,其实你不需要训练自己的东西,你只需要建企业的知识库,把知识库建好之后,再通过所谓的相应数据库的相似性搜索得出一个相似搜索,然后把它再拼接,把这个问题拼接的更精准之后再交给ChatGPT,让它给你一个更精准的答案。
现在市面上大多数我们研究的langchain这些开源这些框架其实都是干这个事情的,说白了让你的提问更加精准,比如原先你不会问问题,或者说我这个很专业,我把给他增加一个上下文的语义,然后再去问ChatGPT,他能给你的回答会更好一点。但是ChatGPT它不具备看病能力,你让它去给你看病,你就算再专业,他也不可能给你开一个结果,这是一个现状。
这也是现在市面上可能大多数人在讲什么大模型,一讲大模型我觉得很容易混的一个地方。
我们下面进入开源这个话题。开源这块大概分为4大类,我就说一下开源的闭源。其实市面上主流的模型应该说基于4个衍生出来的:
第一个meta的Facebook系的,他们叫llm系统,有很多模型都是基于它衍生出来的,比如说像清华做的ChatGLM也是基于llm微调过来的,还有很多其他的都是微调过来的。
第二个是谷歌系的叫PaLM,有很多也是基于PaLM,在它上面会微调出一个新的。
第三个是属于BLOOM,基于BLOOM这个的话,上面进行了二次的一个微调。
第四类,就是说其他类的就有些自己的独有分支。
我们再往下就是说,这个是ChatGPT他自己的调整。我觉得我们的大模型也要做大训练,我们想对ChatGPT本身不会调整。
第一步,你需要收集一些问题和答案,把这个问题输到记录的模型里,找一些人把答案写出来,比如123456各种类型的答案,把它进行训练,通过有监督的学习训练,训练出一个有监督的SFT这个模型出来,有监督的训练模型出来之后,紧接着干什么呢?
我可以再把我原先的问题再通过我训练的这个模型,然后再回答ABC问题出来,然后再找一批人,再给他这个问题做一个好坏的排序,排序完之后,最后一部分答案相当于进入这个模型里面。它叫什么?叫奖励模型,通过奖励模型再把奖励模型再训练一遍,训练完之后,他还得通过这一步再对奖励模型再进行一个策略的算法的调整,相当于引入一个叫惩罚函数。惩罚函数干嘛的,比如说我用我这个地方其实问题就变了,它就不是像之前这样,之前我用我所有的样本数据来训练完之后,我再用我库里的数据再拿出一些样本数据再去测,得出这两个模型。这里的话你就需要比如说给他换个问题,他第一次回答可能不太满意,他不一定满足人的意图,所以你需要微调。这里面就涉及一些推理的东西,相当于是原先库里面没有这个问题,我现在要增加一些相当于新的推理过程,这里引入惩罚函数,就是说我要避免什么。
比如有时候你问的是A,可能你就是这个人给你回答的是B,但是B刚好切中了你想知道那个东西,但其实跟A没有关系,所以它这里其实要调整这种问题,调整分几步,然后这就是整个的一个 ChatGPT的微调原理,我们会发现这里面有很多工作量,为什么说成本非常大,现在所有人在做大模型的这种望而退却的原因就在这里,就是这一步需要大量的人工来标注数据,大量的人工介入来进行,需要人工来监督学习,所以导致很多工作量很大,所以就是说直到3.0和3.5出现之后,它符合了大家的通用模式,能达到大家的阀值,这个阀值基本上就越过去了。
所以但是后来我们发现什么?到4.0时代到GPT的4.0,它其实已经不完全去用人了,他已经把其中的一些地方换成了GPT3.5,什么意思?就是说他能在这个地方用3.5就给他把这块生成了,当然有些地方还会用人,但用人的量没以前那么大了。
所以很多现有的开源大模型,比如说我们刚刚前面说meta系的,他们就基于这个说我自己我就不再找一批人去标注了,我干嘛我能揣着机器帮我干这个事情,因为产品已经符合人的基本习惯了,我就用它来帮我去把一些数据给我构造一下,我自己就不去干。
所以这个的话是现在很多开源大模型做微调都会用到这一部分,也不像以需要这么多人,所以这也使得大模型的训练门槛一下就降下来了,也不需要那么高成本,为什么?
第一个的话,以前我们训练这个的话,你需要从头开始做,你需要的话先说什么算力成本。我们都知道像OpenAI的话,他们训练那个东西大概将近8000花了1,000万美金,说第一步就花1,000万,我觉得这对大多数人来说都是成本很高的,但现在因为最低3.5,你基于3.0和3.5 API之上的话,你就不需要做他们基础的一些工作了,现在AI行业就像堆积木一样,以前是没有这个条件的。现在的话就是说大模型这个行业的一个3.5出现之后,它的临界点相当于把这个行业一下子跨入到一个快速发展期,也就是快速可以预期的这么一个阶段,而以前是不行的,以前就是说你做出一个都是孤岛式的,我做我的你做你的现在是可以在上面堆的,所以这是行业发展非常快的一个很重要的原因。
然后再到这一步的话,获取数据集的方式,他就说的从前面也说了一堆获取数据集的方式,一种就是用ChatGPT生成,一种是人工标注。
然后就进入一个数据集的格式化,比如你前面你不是收集了一堆数据集吗。但让AI这个东西让这些算法这些东西来训练的话,还是需要构造一下。构造数据集的,就是说你用你微调,我们后面会讲到微调的几种方式,就微调其实它在进入数据集的时候,它的数据集是有些要求的。
然后说格式下来的话就参与微调的几种方式。我们都知道我们前面说了,其实在调整一个模型的时候,干的什么事情,每个模型公布的时候都有一个东西叫权重,叫模型的参数权重,这些参数权重大多数先于市场,可能大多数参与者都没有开源,我们一般说license,版权指的就是这个东西,大多数其实权重都没有开源的,所以没有开源的情况下,举个例子,比如我们前面说的清华的开了这样一个我前两天刚了解到的ChatGLM,你要商用的话,你需要交180万,版权现在不在清华手里,在一个商业公司。
所以这是现在市面上的就是一个现状,那么微调这一块的话,就是说分为这么几种方式,而微调的话主要是对权重做参数,这个权重参数作为调整,大概有这么几种大的有两种,一种是做全参的一个微调,比如说他原先有个权重对吧?我对他权重文件里面所有参数做调整,比如说ChatGPT的60亿参数,还有什么?有那种130亿参数报账,连发布的方框的好像是140亿参数的,就说这一类的说这种看看大模型的话,如果说对他去做全参调整的话,你的服务器各方面这个很恐怖的,一般人耗不起,所以说后来大家为了避免服务器资源这么耗,这批资源这么耗干嘛算?全参调整的最终的结果的话相差不大,基本上是能达到同一水平或者差距率不大。
然后第二种的话属于这种提示词的一种微调,这种微调相当于是在原先参数基础上,再比如在上面输入层那一块,给它加一些个隐藏的一些参数,或者说在一些个也可以在在某一个区域给它数列加一次也是可以的。
总之的话这一块你能理解为零点插入,说白了他这边可能有参数的一个数组参数,然后我在数组的前面加个前缀再加个东西,然后你比如大家都知道,如果大家就是大学如果对大学学的矩阵还有该概念的话,它就有点像在矩阵里面再给它一上面加一列或者在上面加一些东西。
大概这个意思,就是本这个原理,然后底下再有适配器调整的话相当于用模型分多层,然后你可以在每一层都加一个参数叫适配器的适配器的概念。
针对微调这一块,然后就是说微调的时候,其实本质就是把咱们前面说这个数据你是整理好这个数据的话,进入通过调用微调函数这些东西,对它进行训练,是基于人类的反馈强化学习。这一部分其实现在说实话,很多模型现在其实并没有去做这个事情。
这里我想说一点,就是说其实在微调过程中最重的两个工作量,第一个是在数据的整理,数据的整理这块的话应该是很多公司的话应该说是工作量是非常大的,调动人力各方面你要整理数据,各种数据要整理,这是一个很重要的。第二个工作量是你这个模型输出的结果,要符合各方面,比如说符合国家的监管法律,你不能让它输出一些违法的字眼,比如说它输出的结果是符合就是说比如这个行业要求的精度要求。
这是关于前面的刚才说的大模型这块,然后后面这块就进入应用,这对于我们企业来说,就是说因为大多数企业不可能去训练一些大模型,我们更多是把市面上人家已有的大模型来调用,比如说过段时间可能国内的几个大厂,他们的话大模型出来之后你就调用他,然后生成企业自己的模型,企业自己的模型无非是增加了一个专业场景,这个专业场景对于通用的专业场景来说一般都不满足。
我觉得一般就是说它的逻辑这样的,一般我们企业构建智库,就是说大概逻辑是什么?比如说你用ChatGPT或者用文心一言,他能回答你日常几乎所有的问题,但是就是说因为涉及到专业场景,我公司的话可能一些专业场景对吧?这个时候的话就是说我可能一句话给别人说不明白,比如说同样的你是做什么的,可能在这个公司它是那样的,在公司那样的,别人并不知道你做什么的,所以你需要增加一个知识库,就增加一个上下文,让别人首先知道你干嘛的,然后再去回答你的问题。
大概是做这个事情,然后从而的话通过在调动GPT或调用一些大模型再给你输出一个结果,但是这里的它的局限性在于如果说比如说你调度这个单位,他不具备这方面的能力,比如他不具备看病的能力,他不具备帮你解决法律问题的能力,你就算问他也是白搭,他会给你胡说八道,其实现在的AI跟以前AI最大的区别之一,我觉得以前AI的话他是不必胡说八道的,不懂就不懂。
搞出一个企业的专有知识库,现在这个东西已经很普遍了,要建立企业自己进大门,其实现在这个门槛并不高,但是它跟前面我们所说的行业的这种专属大模型是两个方向,像客服这种场景,我用企业知识库,然后说再加上GLM的 GDP的调用,基本上就满足一般企业的客户成本,所以这个要根据你的业务场景来定,但这是两个方向,后面这个方向更加偏向于一种叫工程化方向,前面更加偏向于叫模型训练和算法,它两个方向,这个是今天要重点说的。
总之,我觉得AI行业未来将迎来非常大的红利期,大家一定要抓住这次红利,将来有机会诞生100万、甚至1,000万个超级个体,10年后我们再来看!
好,今天分享到此,谢谢大家。
