网易首页 > 网易号 > 正文 申请入驻

史上最强模型!GPT-4发布,百度明天压力大了

0
分享至

当地时间3月14日,人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。

(点击图片观看发布会完整视频)

“我们花了 6 个月的时间,利用对抗性测试项目以及 ChatGPT 的经验,反复调整 GPT-4,结果在真实性、可操作性以及拒绝超出道德等边界方面取得了有史以来最好的结果(尽管远非完美)”,OpenAI 分享道。

在GPT-4发布后,微软宣布自家产品早已第一时间用上了 GPT-4。"我们很高兴地确认,新的 Bing 正在 GPT-4 上运行,为搜索而定制,"微软在一篇博客文章中写道。"如果你在过去六周的任何时候使用过预览版的新 Bing,你已经提前看到了 OpenAI 的最新模型的力量。随着 OpenAI 对 GPT-4 及以后的更新,Bing 从这些改进中受益,以确保我们的用户拥有最全面的副驾驶功能。"

除了表现方面,还有一个明显的不同是,ChatGPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。

新模型将提供给ChatGPT的付费用户 ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。OpenAI表示,多家公司已经将GPT-4集成到他们的产品中,包Duolingo、Stripe和Khan Academy等。

GPT-4到底强在哪里?

GPT-4 比上一个版本强在哪?OpenAI 称,虽然这两个版本在随意的谈话中看起来很相似,但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4 更可靠、更有创意,并且能够处理更细微的指令。

多模态的引入,让此次发布的GPT相较上一代综合体感明显“更上一层楼”。

“GPT-4比以往任何版本更具创造性和协作性”,并且“有更广泛的常识和解决问题的能力,可以更准确地解决难题”。OpenAI的CEO Sam Altman说:“这是我们迄今为止功能最强大的模型。”

为让众人更加清楚地了解 GPT-4,OpenAI 官方不仅上线了介绍性的网页(https://openai.com/research/gpt-4),还发布了一篇技术论文(https://cdn.openai.com/papers/gpt-4.pdf),详细分享了 GPT-4 强大的功能。

值得注意的是,OpenAI 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息。

从技术维度上来看,GPT-4 是一个基于 Transformer 的模型,经过预训练,可以预测文档中的下一个 token。这个项目的一个核心部分是开发了基础设施和优化方法。这使 OpenAI 能够根据不超过 GPT-4 的 1/1000 的计算量训练的模型,准确地预测 GPT-4 的某些方面的性能。

10秒钟做出一个网站

在 GPT4 的发布会上,OpenAI 的总裁和联合创始人 Greg Brockman 展示了 GPT-4 拥有的强大编程技能,有一段两分钟的精华,演示的内容如下:

1. 在草稿本上用纸笔画出一个非常粗糙的草图;

2. 拍照告诉 GPT-4 我们要做一个网站,效果就是图中这样,让 GPT-4 生成网站代码;

3. GPT-4 自己实现一个网站,总共历时十秒钟左右。

这效果给当下不少开发者带来了压力以及非常强烈的职业危机感,有人当即表示“睡不着了”:“辗转反侧了一个晚上,思考未来 5-10 年我们到底会在哪里。”

考试能力超过90%人类

在分析 GPT-4 的能力时,OpenAI 还让该模型参加了统一律师考试、法学院入学考试(LSAT)、研究生入学考试(GRE)的定量、口头推理、分析写作考试以及和各种 AP 科目考试等测试。

据了解,GPT-4在各种专业学术基准上有着人类水平表现。例如在模拟律师考试中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%。

GPT-4 在大多数这些专业和学术考试中表现与人类水平相当。这意味着,如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,而且很可能也能进入许多大学。

玩图也一流

GPT-4可以接收文本和图像输入,用户可指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像。在一系列的领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。

GPT-4可以看懂搞笑图中的梗!

用户:这幅图有什么不寻常之处?

GPT-4:这张图片的不寻常之处在于,一名男子正在连接在一辆行驶中的出租车车顶的熨衣板上熨烫衣服。

用户:你能解释一下这个帖子吗?

GPT-4:这个备忘录是一个笑话,它结合了两个不相关的东西:从太空看地球的图片和鸡块。该备忘录的文字表明,下面的图片是从太空拍摄的地球的照片。然而,该图片实际上是鸡块的排列,摆放得像一张世界地图。这个备忘录的幽默感来自于文字和图片的意外并置。文字让人期待地球的雄伟形象,但图像实际上是平凡而愚蠢的东西。

用户:这幅画有什么有趣的地方?逐一描述一下。

GPT-4:图片显示的是一个“Lightning Cable”适配器的包装,有三张图。图1:一部智能手机,其充电端口插着一个VGA接口。图2:“Lightning Cable”适配器的包装上有一张VGA接口的图片。图3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。这张图片的幽默感来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口的荒谬性。

支持更长的输入和输出

在性能上,GPT-4 超越了过往的模型,它可以遵循自然语言的复杂指令、生成技术或创意作品,支持生成和处理多达 32,768 个 token(约 25,000 字的文本),这使得 GPT-4 能有更长的上下文,允许长篇内容创建、扩展对话以及文档搜索和分析等用例。

超越传统的大模型

在一套传统的 NLP 基准测试中,GPT-4 超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。

在 MMLU(多任务语言理解)基准测试中,GPT-4 不仅在英语中以相当大的优势胜过现有的模型,而且在其他语言中也表现出强大的性能。在 MMLU 的翻译变体上,GPT-4 的性能优于 GPT-3.5 和其他 LLM(Chinchilla,PaLM)的英语性能,包括低资源语言,如拉脱维亚语、威尔士语和斯瓦希里语。

生成代码、改 Bug 的最佳小能手

除此之外,OpenAI通过开源评估框架,用于自动评估AI模型性能的框架,允许任何人报告模型中的缺点,以帮助指导进一步改进。

与此同时,GPT-4 对代码有超强的理解能力,可以帮助程序员生成代码,遇上 Bug 时,甚至只要你把错误信息或者代码异常的截图发给 GPT-4,它就能帮你给出相应的提示。

GPT-4的局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

1、该模型在其输出中可能会有各种偏见,但OpenAI在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

2、GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

3、GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会再检查一遍(double-check)。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI目前训练后的过程,校准减少了。

OpenAI表示,研究团队一直在对GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。数据显示,与GPT-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了29%。

另外,OpenAI团队还聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试,从而为改进GPT模型提供了依据。

“随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。”OpenAI 表示。

生成式AI向超级AI快速演变

此前,有机构认为,GPT-4的发布有望成为生成式AI向超级AI快速演变的关键节点。

国盛证券指出,传统模式下,视觉AI公司倾向于采用单点方式,在各个碎片场景中做客制化落地,定制化程度相对较高;若转向大模型模式,GPT-4 的多模态能力有望带来通用化的模式,显著提升AI模型生产效率。

华鑫证券认为,微软有望在产业中通过GPT-4不断拓展下游新兴领域,应用于更多的场景中,并利用其多模态模型成本改变传统 AI 客制化与定制化的特点,逐步向通用化方向发展。

值得注意的是,随着GPT-4转向多模态,未来输入输出出现图像、视频等形态,AI有望打开下游千行百业应用空间。

此外,更多机构将AIGC视为最先受益赛道。华鑫证券表示,文生图赛道作为AIGC概念下商业模式较成熟的领域,有望率先实现向C端落地。

德邦证券方面也认为,GPT-4有望加速AIGC的应用普及,并且在视频内容生成方面大放异彩,AIGC有望步入快速发展阶段。

百度明天压力大了

虽然上周 OpenAI 早已预告过 GPT-4 会在本周到来,但是真正到来时,还是让很多人猝不及防。而之所以选择此时发布,似乎也是为微软将在 3 月 16 号的 AI 最新进展做一定的铺垫,这样微软可以在明天轻松开上一场发布会了。

不过,处于同赛道的其他玩家可能得连夜加班了。

此前,被外界誉为“中国版ChatGPT”的百度文心一言宣布将会在 3 月 16 日带发布,最终成果不可避免地会与最新的 GPT-4 一较高下,究竟会如何,我们拭目以待。

责任编辑:张薇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当34岁的女儿也抑郁了,我才学会原谅自己

当34岁的女儿也抑郁了,我才学会原谅自己

心事寄山海
2026-06-27 00:19:06
大闹航班女子社会性死亡!女子正脸流出,知情人曝更多,评论炸了

大闹航班女子社会性死亡!女子正脸流出,知情人曝更多,评论炸了

轩逸阿II
2026-06-27 23:07:17
黎以美三方框架协议执行面临哪些障碍 专家分析

黎以美三方框架协议执行面临哪些障碍 专家分析

环球网资讯
2026-06-27 17:30:42
赖特:安德森选择曼城,而不是曼联让我有点惊讶;记者:琼阿梅尼不在穆里尼奥的计划中

赖特:安德森选择曼城,而不是曼联让我有点惊讶;记者:琼阿梅尼不在穆里尼奥的计划中

MUREDS
2026-06-27 23:37:46
张雪峰的财产争夺战开始了!

张雪峰的财产争夺战开始了!

八卦疯叔
2026-04-29 11:08:54
3.2亿吨水果卖不动!滥用药剂自毁口碑,散户果园路在何方?

3.2亿吨水果卖不动!滥用药剂自毁口碑,散户果园路在何方?

爱下厨的阿椅
2026-06-27 18:47:18
志愿填报大家谈   城市、学校、专业,填报志愿优先考虑哪个

志愿填报大家谈   城市、学校、专业,填报志愿优先考虑哪个

中国青年报
2026-06-27 18:04:14
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
太突然了!交叉韧带断裂,躺赚变躺亏5000万...

太突然了!交叉韧带断裂,躺赚变躺亏5000万...

体育新角度
2026-06-27 17:42:03
成都“牵手门”事件女主现今状况曝光,为了一时爽,真是太惨了

成都“牵手门”事件女主现今状况曝光,为了一时爽,真是太惨了

橘仔看世界
2026-06-27 08:47:26
仅剩理论可能,苏格兰出线概率暴跌至0.07%

仅剩理论可能,苏格兰出线概率暴跌至0.07%

懂球帝
2026-06-27 17:50:13
蛇的寿命有多长?为何我们很少看到蛇的尸体呢?

蛇的寿命有多长?为何我们很少看到蛇的尸体呢?

农夫也疯狂
2026-06-19 11:33:34
1号位告急!廖三宁高诗岩都不会组织,郭士强世预赛会带赵维伦吗

1号位告急!廖三宁高诗岩都不会组织,郭士强世预赛会带赵维伦吗

弄月公子
2026-06-27 06:52:14
八国联军侵华已过百年,至今没有一个中国人能笑着走出俄罗斯冬宫

八国联军侵华已过百年,至今没有一个中国人能笑着走出俄罗斯冬宫

史之铭
2026-06-18 07:04:05
Lisa闯进世界杯歌词引发低俗争议!终因露屁股蛋子被LV家族抛弃

Lisa闯进世界杯歌词引发低俗争议!终因露屁股蛋子被LV家族抛弃

阿讯说天下
2026-06-14 17:01:39
一场葬礼看清诗妮娜地位:是泰王的贵妃,却也被王室彻底边缘化了

一场葬礼看清诗妮娜地位:是泰王的贵妃,却也被王室彻底边缘化了

毒舌小红帽
2026-06-27 20:37:43
狂跌40个亿,门店卖不出去,经销商“造反”,曾经的饮料巨头大势已去?

狂跌40个亿,门店卖不出去,经销商“造反”,曾经的饮料巨头大势已去?

快刀财经
2026-05-28 22:18:53
六个年过六十的子女,轮流伺候90岁老娘,才懂最尴尬的中国式养老

六个年过六十的子女,轮流伺候90岁老娘,才懂最尴尬的中国式养老

热心市民小黄
2026-06-28 00:18:08
知名超市鱼肉查出违禁物,官方通报

知名超市鱼肉查出违禁物,官方通报

21世纪经济报道
2026-06-27 19:50:24
世界杯赌球最残酷真相:你连续猜对7场!却输光了全部家当?

世界杯赌球最残酷真相:你连续猜对7场!却输光了全部家当?

野渡舟山人
2026-06-15 17:54:37
2026-06-28 02:19:00
数据观 incentive-icons
数据观
数据观是专业的大数据内容平台
14879文章数 2736关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

游戏
本地
数码
公开课
军事航空

《GTA6》PC版遥遥无期!销量太低不备重视?

本地新闻

世界杯球迷节:比球赛更好玩的派对

数码要闻

存储芯片大涨 苹果美光打口水战

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版