网易首页 > 网易号 > 正文 申请入驻

ChatGPT发疯怎么办?小冰李笛:两个关键,我可破之

0
分享至

萧箫 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

微软必应接入GPT大模型后,效果并没有大家想象中那么好——它发疯了。

如今官方紧急出面,更(砍)新(掉)了必应上面最受欢迎的功能,也就是发表观点的能力。

大伙儿显然很不买账,认为新必应失去了最有意思的部分,现在版本的体验感甚至不如siri 1.0。

有网友寄希望于必应背后的大模型升级:

说不定现在只是GPT-3版本,GPT-4还没发布呢。

然而据《纽约时报》等爆料,必应背后的大模型很可能就已经是GPT-4了……

我们将这一现象抛给国内最熟悉AI Chat领域的人——李笛

他上来就给热得发烫的大模型浇了盆冷水:

新必应和ChatGPT目前表现出来的bug,反映出大模型不得不解决的一个关键问题。
这个问题可以一时无视,但做大模型、甚至是类ChatGPT产品,如果不解决它,终究会碰壁。

这个bug,就是大模型的逻辑能力。

大模型:成也逻辑,败也逻辑

事情要从ChatGPT背后的GPT-3.5模型说起。

从GPT-3.5开始,大模型展现出一种突破性的能力——思维链(CoT,Chain of Thought),也就是逻辑思考能力。

举个例子,在做数学题时,相比直接输出答案,模型能一步步推理直至给出正确答案,体现的就是思维链能力:

但此前在中小模型、甚至一部分大模型上都没有发现这种能力,学界便认为这是某些大模型独有的“新特性”。

基于这一“新特性”,大火的ChatGPT横空出世,在回答问题和发表看法时展现出了像人一样思考的效果。

然而李笛认为,GPT-3.5表现出的这种逻辑能力,是不稳定、不可控甚至危险的。

第一,它的思考方式不透明;第二,它连引用来源都没有。

这两个问题看似被OpenAI用大量人工精细标注的数据、大量的模型参数掩盖了起来,但一旦加入不可控因素(像必应一样接入互联网、或修改参数等),就随时可能导致模型崩溃。

因此,如今逻辑思考能力正在成为大模型的双刃剑——

使用效果好,大模型迈入新的时代;一旦失控,只会让大模型更难落地。

为了举例说明大模型的逻辑能力存在问题,李笛提到了小冰公司最新发布的产品小冰链

小冰链(X-CoTA,X-Chain of Thought & Action)同样是个大语言模型,通过对话的方式帮人们解答问题。

但它最典型的不同,在于仅仅用GPT-3参数量2%的模型就实现了思维链,而且思考过程还是透明的。

模型大小上,它不仅不是GPT系列的千亿参数大模型,背后参数只有几百亿甚至最低能降到35亿

至于功能上,它拒绝像ChatGPT一样生成综述、作业和发言稿,但能实现的功能更多。除了不避讳对事件发表看法、主动联网找答案以外,还能灵活调用各种模型或知识库完成任务。

具体来说,小冰链的架构分为三个模块

模块一负责运用思维链(CoT)能力处理语句。

这部分可以调用具备CoT能力的大模型来实现,但也可以调用上面说的35亿参数左右的中模型,将输入的语句转换成具体行动的Action指令输出。

模块二负责执行指令(Action),这部分接收并处理模块一输出的Action指令,负责执行对应的任务。

根据处理的指令不同,模块二调用的模型和数据也并不相同,至少有三大使用方式:

  • 联网或本地知识库搜索。既可以追踪互联网查找最新热点、甚至网页跳转,也可以在特定知识库中索引答案。
  • 调用特定模型做某件事。如调用效果很好的扩散模型完成作画、或调用语音模型合成声音等。
  • 控制物理世界特定行为。如开灯、买机票、打车等,不一定是特定指令,而是模型推断后得出的结论。

模块三负责自然语言生成,简单来说就是将思考行动的结果用人话描述一遍,再汇报给用户。

总结来看,小冰链可以说是把ChatGPT最火的“思考方式”拿出来单独做成模型,并不断降低模型大小。

李笛认为,即使小冰链的核心模型大小只有中等水平,却也能在一些问题的思考方式上展现出与大模型相近的效果。

△还能联网,抢在吃瓜第一线

基于这样的观点,李笛在一众主流“要做中国的ChatGPT”呼声中反其道而行之,不仅不宣传自家类ChatGPT产品,甚至推出了个强调“这不是ChatGPT”的小冰链。

看起来似乎有点非主流(手动狗头)。

这么做,真有理论依据吗?

背后的技术依据CoT,确实在国外已有不少相关研究,包括前段时间爆火的“哄一哄让GPT-3准确率暴涨”论文也在此列:

团队在研究中发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答出以前不会的逻辑推理题,比如下面这个来自MutiArith数据集的例子:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

这些例子专门考验语言模型做数学题的能力,尤其是逻辑推理能力。

GPT-3本来在零样本场景(之前完全没见过类似体型)下准确率仅有17%,但在要求它一步步思考后,准确率最高能暴涨到78.7%

这种名为CoT的方法,最早在去年1月由谷歌大脑团队发现并提出。

其核心思路是基于提示(prompting)的方法,让大模型学习一步步思考的过程,有逻辑地解决实际问题:

但上述思维链(CoT)论文基本都还停留在对大模型的研究上。

李笛却认为,思维链所代表的逻辑能力不是专属于大模型的产物。

在国内,“AI”或许已经是一个人尽皆知的词语,也是进行得如火如荼的创新风潮。

如果李笛所述方法得以验证,那么AI产业化应用除了“堆参数”、“砸资金”这一条大模型路线以外,或许还有其他出路。

国内AI应用落地,势力三分

ChatGPT的效果和热度,让走在大模型路线上的人们看到了一丝曙光,但并不意味着AI产业化路线只剩下大模型这一种可能。

或者说,ChatGPT的热度,反而能更鲜明地呈现出当下国内外AI应用落地的现状和趋势。

先提纲挈领地讲,主要路径可以分为三条。

第一种就是直接做底层大模型。

这是最直接、最容易理解,同时也是最难走的一条路。

一方面,大模型需要的训练数据是海量的,而现实情况是可用作训练的数据、尤其是中文数据较少。

以最近的热点举例说明,复旦邱锡鹏教授团队推出的中国首个类ChatGPT产品MOSS,最大短板是中文水平不够高,重要原因之一就是背后大模型训练时缺乏高质量的中文语料。

另一方面,大模型的参数是海量的。ChatGPT每一句看似简短的回答,都把1750亿参数调动了一次。

巨量参数首先给标注工程带来了巨大的工作量,为了应对这个环节,OpenAI在肯尼亚以低于2美元的时薪雇佣大量工人,夜以继日地进行数据的筛选标注。放眼国内,能拿出如此多人力耗在标注工作的,大约只有字节跳动、百度等巨头公司。

上述两个方面,最后的箭头都直指同一个问题:成本,无法估量的成本。

OpenAI CEO奥特曼曾在推特上透露,ChatGPT每次对话的计算成本为5美分,“让人难以忍受”。5美分这个数字看似单薄,然而每个人每天与ChatGPT对话的数量、以及不断增长的使用人数,叠加起来将会达到一个非常恐怖的量级。

谷歌母公司Alphabet的董事长ohn Hennessy在本周表示,大型语言模型等AI对话成本,可能是传统搜索引擎的10倍以上。此前摩根士丹利估计,2022年谷歌的3.3万亿次搜索查询,每次成本为0.2美分,如果接入Bard这类产品,根据AI文本生成的长度,这个数字还会增加。

类似ChatGPT的AI每次回答50字,来回答一般的查询业务,那么谷歌每年成本将增加60亿美元

值得注意的是,无论哪位国内玩家堆出了一个与GPT-3.5甚至GPT-4媲美的大模型,还须找到能够落地跑起来的应用场景,唯有实现商业闭环,才不致血本无归。

第二条路,是从大模型中去粗取精

展开来说,就是在尽可能保留、甚至提高大模型某一单项能力的前提下,缩小参数量级,致力于用更小的模型实现大模型表现出来的功能。

如果把大模型看作一辆自行车,堆参数的过程就是在大模型上实现某个效果的过程,过程艰辛而缓慢。去粗取精之后,不用自行车缓慢前行就能达到效果,相当于在通往同一目标的路上造火箭。

亚马逊在走这条路,方法是直接从小模型起手,不过这条路能走通,需要一个关键前提:中小模型可以接近、甚至达到大模型展现出来的实用能力。

砍掉不需要的枝叶,向下探索具有特定功能的模型规模最低下限,能够一定程度上缓解大模型训练带来的成本压力。

但这条路线亦有争议,一是因为ChatGPT大模型已经展现出应用可行性,坚持这种做法势必在技术上逆流而行;二是即便成本更优,却尚未有现实案例压阵,证明这种路线就能在AI应用落地较量中取得最后的胜利。

第三条路与前两者不同,并非技术差异,而是直接从商业化角度打出竞争优势。

这类玩家不需要在技术上多下文章,而更考验商业创新能力,属于想好场景应用后“拿钉找锤”的模式。

目前,国外已经有顺着这条路发展的可参考案例,比如AI初创公司Jasper,就是基于GPT-3开放的API提供各式服务,利用AI为博客文章、社交媒体帖子及网页等平台生成文字内容。

但凡产品体验足够好,或者场景资源足够丰厚,就能积攒大量用户,形成自己的核心竞争力。

反向思考之,正因为核心竞争力不是技术上的,走这条路的公司,头顶永远悬着一柄达摩克利斯之剑。把产品甚至公司的命运寄托在他人手中,随时有被卡脖子的风险,如何能不时刻提心吊胆?

三条路线摆在眼前,利弊也已经初步显现。第一条路,意味着巨大的成本;第二条路,方案尚待验证;第三条路,核心生产资料不可控。

哪一条才通向罗马?又或者,这三条路之外,是否还会出现直通AI应用落地的潜在捷径?

李笛说,他们选择第二条路。小冰链也正是基于这条路径之上探索出来的产物,本质上仍旧是从“可解释人工智能”的角度,探索成本、风险可控的AI商业化落地应用。

至于方案验证,或许也不用等太久,李笛说,未来小冰链会和必应合作,将这种方法应用到搜索引擎上。

实际应用效果如何,我们拭目以待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“阻拦春耕副书记”纪云浩大学学历来自政法系统定向培养?相关部门回应:2016年前确有专项招录

“阻拦春耕副书记”纪云浩大学学历来自政法系统定向培养?相关部门回应:2016年前确有专项招录

上游新闻
2024-04-25 19:46:07
清凉峰一男一女后续:妻子已回家,丈夫疑似被绿,评论区太黄了!

清凉峰一男一女后续:妻子已回家,丈夫疑似被绿,评论区太黄了!

叶公子
2024-04-25 20:54:44
45岁女子白天与50岁情人上床,晚上与52岁情人上床,索要20万被杀

45岁女子白天与50岁情人上床,晚上与52岁情人上床,索要20万被杀

胖胖侃咖
2024-04-26 08:00:09
布林肯在上外滩录视频,背景灯光秀:人民海军忠于党!人民海军生日快乐!

布林肯在上外滩录视频,背景灯光秀:人民海军忠于党!人民海军生日快乐!

不掉线电波
2024-04-25 19:56:55
谭秦东:我就是个没有靠山的软柿子!

谭秦东:我就是个没有靠山的软柿子!

大众新闻报社记者
2024-04-25 10:22:33
一场“吃肉”戏,扯下了杨幂最后的“遮羞布”

一场“吃肉”戏,扯下了杨幂最后的“遮羞布”

娱乐圈笔娱君
2024-04-25 16:10:31
曼城4-0双杀布莱顿!76分升至英超第二,福登双响,德布劳内破门

曼城4-0双杀布莱顿!76分升至英超第二,福登双响,德布劳内破门

侃球熊弟
2024-04-26 04:56:59
全网疯传“北大私密群聊记录流出”:985高材生圈子,越看越震撼

全网疯传“北大私密群聊记录流出”:985高材生圈子,越看越震撼

小椰子专栏
2024-04-25 13:02:25
许钟豪重伤任骏飞后!孙铭徽讽刺发声:“人不行了 快点急救”

许钟豪重伤任骏飞后!孙铭徽讽刺发声:“人不行了 快点急救”

狼叔评论
2024-04-26 02:28:15
炸裂!20岁小伙约嫖57岁大妈,被抓后喊冤:500元太贵,我没有做

炸裂!20岁小伙约嫖57岁大妈,被抓后喊冤:500元太贵,我没有做

叶公子
2024-04-25 21:10:14
印尼国奥主帅:赢球很高兴,但亲手送韩国回家很痛苦

印尼国奥主帅:赢球很高兴,但亲手送韩国回家很痛苦

直播吧
2024-04-26 08:59:13
曝光后才知道:财政如此吃紧,钱都花去哪了?原来是这样花掉的!

曝光后才知道:财政如此吃紧,钱都花去哪了?原来是这样花掉的!

清欢渡语
2024-04-25 21:35:47
人社部传来好消息,养老金的涨幅相对于去年,会提高吗?

人社部传来好消息,养老金的涨幅相对于去年,会提高吗?

社保小达人
2024-04-26 07:34:49
疯传!某地8203原配抓渣男开房扇耳光!3段28分钟完整版4K高清流出

疯传!某地8203原配抓渣男开房扇耳光!3段28分钟完整版4K高清流出

魔都囡
2024-04-26 08:00:57
侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

三月柳
2024-04-13 15:27:23
臭到离谱!上海阿婆在小区囤了24吨垃圾!邻居倒大霉:劝不动,陷入循环...

臭到离谱!上海阿婆在小区囤了24吨垃圾!邻居倒大霉:劝不动,陷入循环...

鲁中晨报
2024-04-26 08:01:13
纪云浩当兵照被扒出,帽子引热议,果然不简单,父亲身份曝光

纪云浩当兵照被扒出,帽子引热议,果然不简单,父亲身份曝光

180°视角
2024-04-24 22:24:34
4元拿下5600亩地承包权,开鲁“张氏兄弟”身份曝光,果然不一般

4元拿下5600亩地承包权,开鲁“张氏兄弟”身份曝光,果然不一般

叶公子
2024-04-26 00:13:10
他30多年前判断:只要东西方经济水平被追平,美西方就将管制意识形态

他30多年前判断:只要东西方经济水平被追平,美西方就将管制意识形态

可达鸭面面观
2024-04-25 21:10:35
美政客对抗议学生放狠话

美政客对抗议学生放狠话

环球时报国际
2024-04-26 07:26:19
2024-04-26 11:50:44
量子位
量子位
追踪人工智能动态
9321文章数 175241关注度
往期回顾 全部

科技要闻

中国车企“五常”激战北京车展

头条要闻

王毅:中美关系回不到过去 但应该能够有一个好的未来

头条要闻

王毅:中美关系回不到过去 但应该能够有一个好的未来

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

教育
家居
时尚
房产
数码

教育要闻

本科招生数前十名专业,亦是高考热门专业,它们分别有哪些特点?

家居要闻

光影之间 空间暖意打造生活律动

女人再美不如会穿!参考这些搭配解析更有魅力,美到老很简单

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

数码要闻

云鲸逍遥001扫拖机器人,长「脑子」了!| 体验

无障碍浏览 进入关怀版