网易首页 > 网易号 > 正文 申请入驻

OpenAI 重磅发布的GPT-4 Turbo with Vision,是编码的倒退

0
分享至

整理|Tina

近日,OpenAI 宣布最新 GPT-4 Turbo with Vision 模型已经通过 OpenAI API 向开发人员开放。

该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小,以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力,可处理和分析多媒体输入信息。OpenAI 发言人表示,这些变化有助于简化开发人员的工作流程并打造更高效的应用程序,因为“过去,开发者需要调用不同的模型来处理文本和图像信息,但现在,只需一次 API 调用,该模型就可以分析图像并应用推理。”

开发利器?

现在大家可以通过文本格式 JSON 和函数调用来请求使用该模型的视觉识别和分析功能。函数调用会生成一个 JSON 代码片段,供开发人员在其连接的应用程序中自动执行操作,例如发送电子邮件、发布在线内容、进行购买等。

OpenAI 在其 API 页面上提醒道,在执行会影响现实世界操作之前,强烈建议内置用户确认流程。

OpenAI 开发者团队也分享了一些使用该模型的有趣用例,主打一个非常酷的实时屏幕交互效果。

例如,热门初创公司 Cognition,其“世界首位 AI 软件工程师 Devin”使用的就是 GPT-4 Turbo with Vision ,它利用了该模型的视觉能力来执行各种编码任务。

还有一家名为 Healthify 的健康 & 健身平台,提供健康跟踪和人工智能增强的健康指导,目前拥有超过 4000 万用户。Healthify 利用 GPT-4 Turbo with Vision 来扫描用户膳食的照片,通过照片识别来提供营养见解。

融入实际业务时,GPT-4 Vision 表现得也相当强悍。Healthify 分享了他们的使用感受,表示 GPT-4 T Vision 准确性远超现有水平,识别多种食物;集成简易,完成原型验证后,只需将 OpenAI API 添加到现有管道即可;开箱即用,微调简单,无需大量配置。另外,还能利用 OpenAI 词嵌入模型,成功解决如何匹配食物的难题。Healthify 团队需要将 GPT-4 返回的食物名称与自身系统中的食物名称进行匹配。技术副总裁 Abhijit Khasnis 评论道:“GPT 是一个独立的模型,拥有自己的食物名称字典。Healthify 也有自己的食物名称,我们一直在尝试解决匹配问题。当我们测试 OpenAI 词嵌入模型时,发现相似度匹配准确性极高!”

一些 Twitter 网友也纷纷尝鲜。

其中一位开发者表示,现在他通过使用 instructor_ex ,无需调用其他库,就能更可靠地从图像中提取数据,“从此告别 mode: :md_json 了”。

例如,我们可以轻松从这幅卖家图片中,提取到物品名称、价格、颜色信息。

还有一位以构建人工智能应用为生的程序员,尝试了下用 GPT-4 Vision 重新创建一个 Hacker News 的网页,他表示这是“将屏幕截图转换为应用程序的最快方法”。

还有一位网友,制作了一个图片转测验创作者工具,可以上传来自教科书或报纸的任何截图,并即时生成测验供练习!还能支持多种形式的测验,如:单选题、多选题、填空题、判断题、简答题等。

完成这个功能的开发,他只用了 NextJS 14 + Supabase + GPT-4。看起来,GPT-4 Vision 确实极大地简化了前端开发。

新模型的编程能力

是否变强了?

从目前网友的一些测试来看,受 GPT-4 Vision 影响最大的就是前端开发人员了,那么该模型的整体编程能力是否上升了呢?

有些出乎意料的是,有测评表示 GPT-4 Vision 编程能力反而是越来越糟糕了。

Aider 是一家开发 AI 结对编程工具的公司,他们依靠代码编辑基准对 LLM 进行了定量评估:“在 aider 的代码基准测试套件上,其性能表现低于所有之前版本的 GPT-4 模型。”

该测试是使用 aider 完成 133 个 Exercism Python 编码练习 ( https://github.com/exercism/python)

对于每个练习,LLM 会尝试两次来解决每个问题。在首次尝试中,它将获得初始存根代码和编码任务的英文描述。如果测试全部通过,就表示完成了任务。如果有测试失败,aider 会向 LLM 发送失败的测试输出,并让它进行第二次尝试以完成任务。

GPT-4 Turbo with Vision 在这项基准测试中的得分仅为 62%,是现有 GPT-4 模型中得分最低的。其他模型的得分在 63-66% 之间时,这个最新的模型只是稍有退步,与 gpt-4-0613 相比差距并不明显。

此前 GPT-4 Turbo preview 模型因在编码时“偷懒”,受到了不少业界开发者的批评。它们经常省略所需的代码,而在注释中留下“在此处实现方法”之类的语句。在惰性测试中,GPT-4 Vision 显然是最“懒惰”的那个:只获得了 34% 的分数。

如果编程能力真的“倒退”了,那显然是一个糟糕的结果。

但也有人表示,将编程 / 开发这一严谨的学科贬称为“编码”才是一种更大的倒退。事实上,要开发出架构良好、易于维护且安全的软件,也不仅仅是写代码。

据 Tech Republic 报道,编写实际代码通常只占软件开发人员工作时间的一半以下,甚至在许多情况下,编码时间仅占 20%。这意味着即使像 GPT-4 这样的系统能够完美运行,它们也无法完全替代人类软件开发人员的工作。

另外,技术只是工具,无法替代人类的创造力和沟通能力。开发人员需要与客户会谈、了解他们的需求,并将复杂的问题分解成可解决的组件。这些工作需要丰富的经验和专业知识,并非简单的代码生成工具所能替代。

所以,不管怎么说,就算 GPT-4 Vision 能一键生成网页应用了,那也离替代人类开发者还远。

https://twitter.com/ramsri_goutham/status/1777938488454738374

https://openai.com/customer-stories/healthify

https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4

https://aider.chat/2024/04/09/gpt-4-turbo.html

https://news.ycombinator.com/item?id=39985596

内容推荐

大模型应用挑战赛已拉开帷幕。现阶段,多数语言模型已完成 3 轮更新,大模型赛道入场券所剩无几。同时,2023 年超 200 款大模型产品问世,典型场景又有哪些产品动向?对于现阶段的文生图产品而言,四大维度能力究竟如何?以上问题的回答尽在《2023 年第 4 季度中国大模型季度监测报告》,欢迎大家扫码关注「AI 前线」公众号,回复「季度报告」领取。

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

今天是会议 9 折购票阶段,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王皓刘国梁没料到,樊振东消失一年回归即巅峰,这人气国乒没谁了

王皓刘国梁没料到,樊振东消失一年回归即巅峰,这人气国乒没谁了

蹲坑看世界
2026-06-15 06:49:41
今年毕业季透着诡异:大批高材生不进大厂,全在抢这碗饭!

今年毕业季透着诡异:大批高材生不进大厂,全在抢这碗饭!

音乐时光的娱乐
2026-06-29 12:30:19
北京刚开了一家养老社区,环境是真不错。 但价格一算,心里拔凉

北京刚开了一家养老社区,环境是真不错。 但价格一算,心里拔凉

阿离家居
2026-07-01 18:58:59
金三角毒枭不怕武警手中的枪,他们忌惮的是一道30年没人动的密令

金三角毒枭不怕武警手中的枪,他们忌惮的是一道30年没人动的密令

磊子讲史
2026-07-01 14:01:21
冯德莱恩认清现实,热浪下,她见识到了:欧洲的无能,中国的高明

冯德莱恩认清现实,热浪下,她见识到了:欧洲的无能,中国的高明

体育小柚
2026-07-02 01:46:27
查尔斯终究出手了!威廉锁死的门,被国王亲手砸开

查尔斯终究出手了!威廉锁死的门,被国王亲手砸开

全球奇趣娱乐八卦
2026-07-01 06:25:08
吴昕感冒想买“白加黑”:年轻助理蒙了,说没听过,一查这药已停产6年;广告语曾是80后童年记忆,现已淡出大众视野

吴昕感冒想买“白加黑”:年轻助理蒙了,说没听过,一查这药已停产6年;广告语曾是80后童年记忆,现已淡出大众视野

鲁中晨报
2026-06-29 11:47:34
贵客抵达北京!不到24小时,美财长发火:全世界只有中国敢接单

贵客抵达北京!不到24小时,美财长发火:全世界只有中国敢接单

离离言几许
2026-07-02 02:22:55
公安部172号令落地,69岁C1、C2车主不用额外提交体检证明

公安部172号令落地,69岁C1、C2车主不用额外提交体检证明

沙雕小琳琳
2026-06-30 01:55:15
谁能进四强?世界杯1/4分区:法国vs巴拉圭,加拿大vs摩洛哥

谁能进四强?世界杯1/4分区:法国vs巴拉圭,加拿大vs摩洛哥

懂球帝
2026-07-01 07:28:02
100多位情妇,包养费上亿元,曾9女同床却沦落凄凉下场、人财两空

100多位情妇,包养费上亿元,曾9女同床却沦落凄凉下场、人财两空

傲傲讲历史
2026-06-11 16:24:18
最牛“汉奸”夏文运:吃日本饭睡日本女人,仅用8个字消灭2万日寇

最牛“汉奸”夏文运:吃日本饭睡日本女人,仅用8个字消灭2万日寇

大运河时空
2026-07-01 14:25:03
取消中考、高中免费?国务院文件给出准信

取消中考、高中免费?国务院文件给出准信

户外阿毽
2026-07-01 02:34:45
谁是内鬼?官方公布的英格兰首发,与媒体提前泄露的完全一致

谁是内鬼?官方公布的英格兰首发,与媒体提前泄露的完全一致

懂球帝
2026-07-01 23:01:08
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

李侽在北漂
2026-06-28 18:23:13
二手豪华燃油车价格集体跳水 宾利仅27万 保时捷15万

二手豪华燃油车价格集体跳水 宾利仅27万 保时捷15万

CNMO科技
2026-07-01 14:50:05
WTT美国大满贯:女单爆冷!世界第9出局 朱雨玲3:1 蒯曼温瑞博狂胜

WTT美国大满贯:女单爆冷!世界第9出局 朱雨玲3:1 蒯曼温瑞博狂胜

童叔不飙车
2026-07-01 01:42:20
“谁能靠$24活一个月?”全美粮食券大缩水,低收入居民被迫变卖首饰买面包?

“谁能靠$24活一个月?”全美粮食券大缩水,低收入居民被迫变卖首饰买面包?

纽约时间
2026-07-01 03:39:49
利智:被李连杰宠爱37年,外人看来是掉进蜜罐,甜蜜背后全是眼泪

利智:被李连杰宠爱37年,外人看来是掉进蜜罐,甜蜜背后全是眼泪

乡野小珥
2026-07-02 01:47:57
2026-07-02 03:51:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1589文章数 160关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

手机
本地
旅游
游戏
亲子

手机要闻

TCL华星宣布独供REDMI K90至尊版屏幕:165Hz高刷 40+款游戏原生适配

本地新闻

强烈建议,全国高校都向这所大学看齐!

旅游要闻

昆明自驾两小时!这座菌子山,藏着滇东独一份避暑秘境

IGN 9分!任天堂第一方独占新游被吹爆:不容错过

亲子要闻

科学护航儿童成长 | 破除育儿误区 把握儿童康复黄金干预期

无障碍浏览 进入关怀版