网易首页 > 网易号 > 正文 申请入驻

用过GPT-4 Turbo以后,我们再也回不去了

0
分享至

机器之心报道

编辑:泽南、陈萍

GPT 变得好用了,但真的更聪明了吗?

昨天,很多人彻夜未眠 —— 全球科技圈都把目光聚焦在了美国旧金山。

短短 45 分钟时间里,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。

OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也更便宜,应用商店也开了起来。现在,用户还可以根据需求构建自己的 GPT。

根据官方说法,这一波 GPT 的升级包括:

  • 更长的上下文长度:128k,相当于 300 页文本。
  • 更高的智能程度,更好的 JSON / 函数调用。
  • 更高的速度:每分钟两倍 token。
  • 知识更新:目前的截止日期为 2023 年 4 月。
  • 定制化:GPT3 16k、GPT4 微调、定制模型服务。
  • 多模态:Dall-E 3、GPT4-V 和 TTS 模型现已在 API 中。
  • Whisper V3 开源(即将推出 API)。
  • 与开发者分享收益的 Agent 商店。
  • GPT4 Turbo 的价格约是 GPT4 的 1/3。

发布会一开完,人们蜂拥而入开始尝试。GPT4 Turbo 的体验果然不同凡响。首先是快,快到和以前所有大模型拉开了代差:

然后是功能增多,画画的时候,你一有灵感就可以直接说话让 AI 负责实现:

设计个 UI,几个小时的工作变成几分钟:

我直接不装了,截个图复制粘贴别人的网站,生成自己的,只用 40 秒:

利用 ChatGPT 与 Bing 的浏览功能以及与 DALL-E 3 图像生成器的集成,沃顿商学院教授 Ethan Mollick 分享了一段视频,展示了他的名为「趋势分析器」的 GPT 工具,其可查找市场特定细分市场的趋势,然后创建新产品的原型图像。

Octane AI 首席执行官 Matt Schlicht 的 Simponize Me GPT 会自动应用提示来转换用户上传的个人资料照片,生成《辛普森一家》的风格,做这个小应用只用了不到十分钟。

GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。

至此,生成式 AI 的竞争似乎进入了新的阶段。很多人认为,当竞争对手们依然在追求更快、能力更强的大模型时,OpenAI 其实早就已经把所有方向都试过了一遍,这一波更新会让一大批创业公司作古。

也有人表示,既然 Agent 是大模型重要的方向,OpenAI 也开出了 Agent 应用商店,接下来在智能体领域,我们会有很多机会。

竞争者们真的无路可走了吗?价格降低,速度变快以后,大模型的性能还能同时变得更好?这必须要看实践,在 OpenAI 的博客中,其实说法是这样的:在某些格式的输出下,GPT-4 Turbo 会比 GPT-4 结果更好。那么总体情况会如何?

在新模型发布的 24 小时内,就有研究者在 Aider 上进行了 AI 生成代码的能力测试。

在 gpt-4-1106-preview 模型上,仅使用 diff 编辑方法对 GPT-4 模型进行基准测试得出的结论是:

  • 新的 gpt-4-1106-preview 模型似乎比早期的 GPT-4 模型快得多;
  • 第一次尝试时似乎更能生成正确的代码,能正确完成大约 57% 的练习,以前的模型在第一次尝试时只能正确完成 46-47% 的练习;
  • 在通过检查测试套件错误输出获得第二次纠正错误的机会后,新模型的表现 (~66%) 似乎与旧模型 (63-64%) 相似 。

接下来是使用 whole 和 diff 编辑格式对 GPT-3.5 模型进行的基准测试。结果表明,似乎没有一个 gpt-3.5 模型能够有效地使用 diff 编辑格式,包括最新的 11 月出现的新模型( 简称 1106)。下面是一些 whole 编辑格式结果:

  • 新的 gpt-3.5-turbo-1106 型号完成基准测试的速度比早期的 GPT-3.5 型号快 3-4 倍;
  • 首次尝试后的成功率为 42%,与之前的 6 月 (0613) 型号相当。1106 模型和 0613 模型都比原来的 0301 第一次尝试的结果更差,为 50%;
  • 新模型在第二次尝试后的成功率为 56%,似乎与 3 月的模型相当,但比 6 月的模型要好一些,6 月的模型为 50% 得分。

这项测试是如何进行的呢,具体而言,研究者让 Aider 尝试完成 133 个 Exercism Python 编码练习。对于每个练习,Exercism 都提供了一个起始 Python 文件,文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。

基准测试分为两步:

  1. 第一次尝试时,Aider 向 GPT 提供要编辑的桩代码文件以及描述问题的自然语言指令。这些指令反映了用户如何使用 Aider 进行编码。用户将源代码文件添加到聊天中并请求更改,这些更改会被自动应用。
  2. 如果测试套件在第一次尝试后失败,Aider 会将测试错误输出提供给 GPT,并要求其修复代码。Aider 的这种交互式方式非常便捷,用户使用 /run pytest 之类的命令来运行 pytest 并在与 GPT 的聊天中共享结果。

然后就有了上述结果。至于 Aider ,对于那些不了解的小伙伴,接下来我们简单介绍一下。

Aider 是一个命令行工具,可以让用户将程序与 GPT-3.5/GPT-4 配对,以编辑本地 git 存储库中存储的代码。用户既可以启动新项目,也可以使用现有存储库。Aider 能够确保 GPT 中编辑的内容通过合理的提交消息提交到 git。Aider 的独特之处在于它可以很好地与现有的更大的代码库配合使用。

简单总结就是,借助该工具,用户可以使用 OpenAI 的 GPT 编写和编辑代码,轻松地进行 git commit、diff 和撤销 GPT 提出的更改,而无需复制 / 粘贴,它还具有帮助 GPT-4 理解和修改更大代码库的功能。

为了达到上述功能,Aider 需要能够准确地识别 GPT 何时想要编辑用户源代码,还需要确定 GPT 想要修改哪些文件并对 GPT 做出的修改进行准确的应用。然而,做好这项「代码编辑」任务并不简单,需要功能较强的 LLM、准确的提示以及与 LLM 交互的良好工具。

操作过程中,当有修改发生时,Aider 会依靠代码编辑基准(code editing benchmark)来定量评估修改后的性能。例如,当用户更改 Aider 的提示或驱动 LLM 对话的后端时,可以通过运行基准测试以确定这些更改产生多少改进。

此外还有人使用 GPT-4 Turbo 简单和其他模型对比了一下美国高考 SAT 的成绩:

同样,看起来聪明的程度并没有拉开代差,甚至还有点退步。不过必须要指出的是,实验的样本数量很小。

综上所述,GPT-4 Turbo 的这一波更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。业务落地速度慢的公司要小心了。

另一方面,从这次开发者日的发布内容来看,OpenAI 也从一个极度追求前沿技术的创业公司,变得开始关注起用户体验和生态构建,更像大型科技公司了。

再次颠覆 AI 领域的 GPT-5,我们还得再等一等。

参考内容:

https://venturebeat.com/ai/what-can-you-make-with-openais-gpt-builder-5-early-examples/

https://aider.chat/docs/benchmarks-1106.html

https://weibo.com/2194035935/N8pSZCdxH

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长:关于伊朗不存在任何军事解决方案

伊朗外长:关于伊朗不存在任何军事解决方案

界面新闻
2026-05-14 14:50:23
对象当初是这么把我骗到手的,网友:评论区个个都是高手啊

对象当初是这么把我骗到手的,网友:评论区个个都是高手啊

夜深爱杂谈
2026-05-13 07:37:46
成都楼市反转了,成都房东惜售,成都金融城房价从4万降至3.2万

成都楼市反转了,成都房东惜售,成都金融城房价从4万降至3.2万

靓仔情感
2026-05-14 16:34:57
张艺谋未料陈婷会亲手否认27年婚姻关系

张艺谋未料陈婷会亲手否认27年婚姻关系

观察者海风
2026-05-14 05:37:04
网传自助餐有“饱腹剂”?蘸料里加压缩饼干、桃酥碎让人快速吃撑回不了本?

网传自助餐有“饱腹剂”?蘸料里加压缩饼干、桃酥碎让人快速吃撑回不了本?

上观新闻
2026-05-13 19:31:06
为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

别让往昔的悲伤和对未来的恐惧
2026-05-13 16:03:22
河南信阳警方:一小轿车发生剐蹭后失控致1死5伤,司机涉嫌醉驾

河南信阳警方:一小轿车发生剐蹭后失控致1死5伤,司机涉嫌醉驾

澎湃新闻
2026-05-14 02:24:09
日本考察团来华,中国:不接待,不见面!

日本考察团来华,中国:不接待,不见面!

达文西看世界
2026-05-13 10:47:32
于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

华人星光
2024-11-07 13:39:41
薄一波的两位亲家,一个是开国将军,一个官至副国级,他们是谁?

薄一波的两位亲家,一个是开国将军,一个官至副国级,他们是谁?

凡人侃史
2026-05-12 14:39:35
开了十年麻将馆我算看透了!天天泡牌桌上的人,没一个命好的

开了十年麻将馆我算看透了!天天泡牌桌上的人,没一个命好的

欣悦广场舞
2026-04-17 16:25:41
阿坎吉:决赛是五五开的,希望我们的夺冠经验能决定比赛

阿坎吉:决赛是五五开的,希望我们的夺冠经验能决定比赛

懂球帝
2026-05-14 02:58:08
姆巴佩彻底慌了!皇马早已备好接班人,穆里尼奥若上任就敢动他

姆巴佩彻底慌了!皇马早已备好接班人,穆里尼奥若上任就敢动他

澜归序
2026-05-14 02:28:03
山姆排长队,一上架遭抢购!有商户一天卖了9000斤,网友:猝不及防

山姆排长队,一上架遭抢购!有商户一天卖了9000斤,网友:猝不及防

上海约饭局
2026-05-14 18:50:04
丁海峰夫妇凌晨1点机场接娃,儿子身高超190,长相随妈比爸爸还帅

丁海峰夫妇凌晨1点机场接娃,儿子身高超190,长相随妈比爸爸还帅

八怪娱
2026-05-14 11:08:39
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
雅思宣布:中国大陆地区,9月1日起取消纸笔考试

雅思宣布:中国大陆地区,9月1日起取消纸笔考试

南方都市报
2026-05-10 23:34:08
U17国足VS沙特:4231最强出击,万项领衔前场进攻,海归新星冲锋

U17国足VS沙特:4231最强出击,万项领衔前场进攻,海归新星冲锋

零度眼看球
2026-05-14 06:46:02
太讽刺!许家印狱中等判决,前妻却在伦敦豪宅养31岁“小鲜肉”

太讽刺!许家印狱中等判决,前妻却在伦敦豪宅养31岁“小鲜肉”

未曾青梅
2026-05-11 22:14:44
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
2026-05-14 19:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12996文章数 142648关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

手机
数码
艺术
教育
旅游

手机要闻

0.79KG极致轻薄+22小时全天续航!华硕ProArt创X重新定义移动创作

数码要闻

万色生辉入画屏:实拍海信UX2026款RGB-Mini LED时代旗舰电视

艺术要闻

美国务卿鲁比奥点赞中式美学,实景令人惊叹!

教育要闻

5月16日开考! 2026上海中考理化实验操作考试及外语听说测试,考前重要提醒来啦!

旅游要闻

半价or免票?5月17日-19日,崇明这些景点参与优惠活动

无障碍浏览 进入关怀版