网易首页 > 网易号 > 正文 申请入驻

易观:正视GPT-4功能缺陷与能力局限可更好探索大模型应用

0
分享至

易观:GPT-4于2023年3月14日正式发布。与前代相比,GPT-4的功能有着非常大的提升,易观认为其功能符合预期,也依旧存在前代即存在的功能缺陷类型与能力局限性。GPT-4的原有功能提升与新特性使其可应用的范围更广,但对GPT-4的应用需正视其目前存在的功能缺陷与能力局限性,以采取技术手段、改进应用方法、设计应用流程等方式充分挖掘其应用潜力的同时规避可能存在的应用风险。

GPT-4的功能缺陷与能力局限性以及相关思考

3月14日,GPT-4正式发布。OpenAI首席执行官Sam Altman表示GPT-4是他们目前功能最强的模型,而GPT-4也极有可能是对公众开放使用的功能最强的大模型。与GPT-3.5相比,GPT-4的功能更强。在如GRE定量推理、SAT数学等为人类设计的多项模拟考试中成绩有较大幅度的提升,在传统机器学习模型评估中其成绩也有非常明显的提升。作为多模态模型,GPT-4对图像的理解极为准确,且能解读图像中的深层含义。在推理方面,GPT-4的思维链,即将复杂推理任务分解为多个中间推理步骤的能力较前代也有明显提升。易观认为GPT-4在功能上的提升重点是其多模态理解能力与思维链能力,而这也使GPT-4具有更广的应用空间。

但也如Sam Altman所言,GPT-4仍有缺陷,其能力也有局限性。功能缺陷方面,与第4版ChatGPT相比,GPT-4的回答虽然在各个领域的知识上的真实率有了平均19%的提升,但其回答仍然会“编造”事实,并进行错误的推理。目前有关GPT-4的公开信息仍然较少,但易观认为GPT-4采用的事实测试其数据与GPT-4训练数据分布存在偏差,因此可以认为在测试中GPT-4已展示出出色的领域泛化能力,且“编造”事实的情况也可以认为是领域泛化的应用尝试,这也与神经科学中关于形成认知的过程相关研究成果具有较强的相似性。但结合GPT-4对错误答案的“坚持”与拒绝审查错误答案的情况也说明GPT-4目前对训练数据分布的边界感知仍然非常模糊。能力局限性方面,GPT-4的绝大部分预训练数据截止至2021年9月,因此十分缺少在此时点之后的知识,比如GPT-4很可能不知道女王逝世的信息。且GPT-4不能从对话经验中进行学习,而这种能力的局限性也从侧面反映出目前距离通用人工智能还有很长的一段路要走。

从人工智能相关研究来看,应对GPT-4的功能缺陷需要关注领域泛化相关研究,建议关注元学习、自监督学习、解耦表达学习方面的研究进展以及运用强化学习探索中间表达的分布的相关研究。易观认为解决训练数据分布的边界感知问题可能需要以图的形式审视训练数据,但目前从对图的学习研究进展来看,利用图神经网络学习GPT-4的训练数据图仍然有着非常大的挑战。从能力局限性来看,需要长期关注持续学习领域相关研究的进展,建议关注域增量持续学习与任务不可知持续学习的相关研究进展,重点关注基于参数隔离的持续学习方法,易观认为应用于基于参数隔离持续学习方法仍然需要以图的形式审视基于任务的参数隔离方法,并要形成任务与隔离方法的评估标准。

从应用角度来看,既可以采用技术的方式降低GPT-4的应用风险,也可以通过改进应用方式拓展其可用性,企业更应在充分考虑其缺陷与局限性的前提下制定合理合规的应用流程。后续也将在这个部分进一步展开。

对GPT-4的部分猜想及其引发的对大模型开发与应用的思考

目前已知GPT-3的参数量为175B,而其后GPT-3.5的参数量未知。易观认为GPT-3.5的参数量可能已接近500B规模,而GPT-4的参数量即使在经后训练后很可能也已突破1T规模。而从ChatGPT的应用效果来看,很有可能GPT-3.5已经采用编解码架构,GPT-4也沿用同一架构。

根据以上猜想,从微软与OpenAI对GPT系列模型训练而准备的算力规模来看,已有针对超算的并行计算框架,并很大程度上解决了T级参数量大模型的并行计算问题,即在大模型开发的工程化能力方面获得了前沿经验,也可以保证后续开发的大模型参数量的持续增长。从目前公开的GPT-4训练方面的资料来看,OpenAI也已经对大模型训练的规律有着较好的总结,这也有利于开发针对某一领域,具备特定功能的大模型。AI工程化能力的升级对于我国进行大模型的开发与落地具备非常重要的借鉴意义。

在商业化的考虑上,GPT-4所产生的示范效应主要为如下几个方面,国内大模型开发与商用过程中可以予以借鉴。

其一,与GPT-3.5以及ChatGPT相比,GPT-4更侧重其企业级应用的稳定性与安全性,GPT-4在2022年8月已经完成训练,而为了应对可能的风险,在完成训练后直到正式发布的这段时间里一直在对其进行评估、对抗测试、迭代提升、微调与系统级的调整;

其二,尽管GPT-4并未开源,但是需要关注到OpenAI同时开源的Evals,既可以用来评估不同大模型的表现,也可以为特定问题设计专有的评估逻辑。这既可证明其产品能力,又为行业设定标准,更可用来辅助设计GPT-4在不同场景不同行业的应用模式。充分利用GPT-4的思维链能力,检查其推理逻辑,拓展其可用性,规避错误推理以及“编造”事实可能产生的应用风险,企业应用GPT-4时,也应针对性的设计人工审查环节,明确责任主体,充分利用其生产力的同时保证其应用的合规性,降低应用风险发生的可能性;

其三,深度协同形成最佳实践,激发围绕GPT-4应用与开发的无限可能性,此次摩根斯丹利、Be My Eyes、可汗学院等应用实践不仅是GPT-4能力的最佳佐证,也进一步引导了未来其应用的可能方向,包括智能客服、知识搜索、虚拟员工与智能办公等应用,以及在软件开发、金融、医疗、法律、广告等行业的应用价值等;

其四,开放文本输入字数限制,不仅仅展示了其快速的文本理解与逻辑学习能力,同时,也为其按照输出内容量收费的商业化可能性打开了想象空间,结合其最佳实践的引导,无论是场景应用还是商业模式方面,GPT-4均做出了比较好的示范,值得中国大模型予以借鉴。

声明须知:易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
零跑D19,朱江明的生死赌局!

零跑D19,朱江明的生死赌局!

病毒营销陈轩
2026-04-17 21:25:49
绑走马杜罗惹大祸:特朗普如梦初醒,竟亲手给自己挖了个大坑!

绑走马杜罗惹大祸:特朗普如梦初醒,竟亲手给自己挖了个大坑!

墨羽怪谈
2026-04-21 18:26:54
特朗普警告中国有大麻烦!结果话音刚落,美国人推动了罢免总统

特朗普警告中国有大麻烦!结果话音刚落,美国人推动了罢免总统

小正说娱乐
2026-04-21 17:02:35
常州最大盒马,即将开业!

常州最大盒马,即将开业!

常州大喇叭
2026-04-21 17:27:33
美国失望了:中伊贸易暴跌80%,伊朗被打废,中国外贸却逆市大涨

美国失望了:中伊贸易暴跌80%,伊朗被打废,中国外贸却逆市大涨

壹只灰鸽子
2026-04-20 23:21:22
中央5台直播乒乓球时间表:4月21日CCTV5直播国乒!附国乒新消息

中央5台直播乒乓球时间表:4月21日CCTV5直播国乒!附国乒新消息

生活新鲜市
2026-04-21 17:13:40
多名院士调查发现:吃一口放久变软的香蕉,或等于进一次毒?真的

多名院士调查发现:吃一口放久变软的香蕉,或等于进一次毒?真的

垚垚分享健康
2026-04-21 10:49:25
私生女风波还没结束,黄一鸣再对王思聪出手,现任女友被曝大瓜

私生女风波还没结束,黄一鸣再对王思聪出手,现任女友被曝大瓜

法老不说教
2026-04-21 19:16:57
网友爸爸2年前垃圾堆里捡回72条32GB DDR4内存:如今价值近14万

网友爸爸2年前垃圾堆里捡回72条32GB DDR4内存:如今价值近14万

快科技
2026-04-20 10:51:04
英媒:中国最令人佩服的,就是美欧联手绞杀中国光伏,竟还能翻身

英媒:中国最令人佩服的,就是美欧联手绞杀中国光伏,竟还能翻身

杰丝聊古今
2026-04-19 01:18:49
NBA同战绩选秀抽签:爵士胜国王,鹈鹕胜独行侠,火箭胜骑士

NBA同战绩选秀抽签:爵士胜国王,鹈鹕胜独行侠,火箭胜骑士

懂球帝
2026-04-21 14:26:06
郑丽文对这个大陆姑娘“念念不忘”!

郑丽文对这个大陆姑娘“念念不忘”!

新动察
2026-04-21 10:17:57
日媒、外交部欧洲司发声!现在的樊振东,完全证实刘国梁当初的话

日媒、外交部欧洲司发声!现在的樊振东,完全证实刘国梁当初的话

老屬科普
2026-04-21 09:38:53
同样是选对手,东部2队赢麻了,掘金却吃了闷亏,湖人因祸得福

同样是选对手,东部2队赢麻了,掘金却吃了闷亏,湖人因祸得福

铁甲西奇
2026-04-21 16:59:46
中国即将开建史上最长跨海通道!五大超级工程,你最期待哪个

中国即将开建史上最长跨海通道!五大超级工程,你最期待哪个

云景侃记
2026-04-20 09:32:50
从中国驶向伊朗的货船,遭美军开火截停,不到24小时,中方表态

从中国驶向伊朗的货船,遭美军开火截停,不到24小时,中方表态

面包夹知识
2026-04-21 19:20:30
疯狂开火!王嘉尔反击黑粉!

疯狂开火!王嘉尔反击黑粉!

嘻笑堂
2026-04-20 18:10:23
外国人想不通:中国人看见士兵在大街上拿着枪,为啥完全不害怕?

外国人想不通:中国人看见士兵在大街上拿着枪,为啥完全不害怕?

珺瑶婉史
2026-04-21 19:20:05
官宣!英超前冠军很快两年降两级,将要举办夺冠纪念赛

官宣!英超前冠军很快两年降两级,将要举办夺冠纪念赛

嗨皮看球
2026-04-21 17:59:13
马英九基金会风暴,李德维怒了,向马英九开火,萧旭岑回应亮了

马英九基金会风暴,李德维怒了,向马英九开火,萧旭岑回应亮了

DS北风
2026-04-20 16:48:04
2026-04-21 20:03:00
易观分析
易观分析
激发科技与创新活力
873文章数 121关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

挪用1700万打赏主播女生已自首 警方:能否立案需调查

头条要闻

挪用1700万打赏主播女生已自首 警方:能否立案需调查

体育要闻

62岁,成为中国足坛最火的人

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

游戏
手机
家居
旅游
本地

CS2最大一次史诗级更新来了!底层系统彻底重构

手机要闻

小米17 Pro Max更新澎湃OS 3.0.306体验:不吐不快,说说真实感受

家居要闻

诗意光影 窥见自然之境

旅游要闻

软萌来袭!三只黑天鹅宝宝亮相翠湖公园

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

无障碍浏览 进入关怀版