网易首页 > 网易号 > 正文 申请入驻

AI工程师上线!通过面试抢程序员饭碗,创始团队手握10块IOI金牌

0
分享至



机器之心报道

机器之心编辑部

前段时间,英伟达 CEO 黄院士发出惊人言论:「都别学编程了,以后交给 AI 就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI 永远不会取代程序员。」没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。



在 SWE-Bench 基础测试中,无需人类协助,Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型,在没有人类帮忙的情况下,只能完成 1.96% 的任务。



仅从评测结果看,Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Claude 等模型。

官方发的推特说,Devin 不仅通过了一家业内领先的人工智能公司的面试,在自由职业平台 Upwork 上也能成功接单,完成单主要求的工作。也就是说,Devin 不仅是横扫基础测试的「做题家」,在就业市场里也有人为它的工作能力买账。

难道继 Sora 让「现实世界」不存在了之后,Devin 也要让「软件工程」不存在了吗?

Devin 现在还未对外开放,但已经有开发人员和产品人员用上了。测试过的网友表示,以前一直用人工智能辅助编码,但一直失败。直到昨天,他给 Devin 了一个简单的 HTML 页面,让它提取选择器,这个 GPT-4-turbo 、Claude、Groq 、LLama2 都没完成的任务,Devin 只用了大约 10 秒就搞定了。

源自 https://news.ycombinator.com/item?id=39679787



Devin 的评论区的画风,也是哀嚎一片:



当然,对这种说法,也有网友并不买账,认为这是夸大宣传。



所以,这位来抢程序员「饭碗」的 AI 软件工程师的本事到底有多大呢?

首位 AI 软件工程师

真要抢程序员饭碗?

要知道,虽然现在市面上的一系列大模型都有编程能力,但大多数都采用了单行代码补全或者单个函数生成的方式。想生成完整的程序,还需要设计 prompt 逐步「调教」。

而对 Devin 来说,你只需要向它提要求,坐等其成就可以了。

Devin 配备了包括 shell、代码编辑器和浏览器在内的常见开发工具,这些都在一个沙盒化的计算环境中 —— 这些都是人类软件工程师完成工作所需的一切。

根据自然语言提示自动写代码、生成完整的程序并上线只是 Devin 的基操,它可以自动规划并执行需要数千个决策的复杂任务。

例如请它在几个不同的 API 上对 Llama 的表现进行基础测试,它首先制定了一个逐步解决问题的计划:



在完成项目的过程中,它使用了浏览器为 API 留档,以便它可以阅读并学习如何插入这些 API:



遇到意外的错误时,Devin 决定先「print」出来,再根据日志中的错误决定如何修复 bug:



最后,它为你构建了一个完整的可视化网站:



Devin 能自动完成如此复杂的规划,得益于其背后的 Cognition AI 在长期推理和规划方面的进展,这使它能够在每一步回忆相关的上下文,随时间学习,并修复错误。

Devin 拥有积极的协作的能力,它能实时报告进度,接受反馈,并根据需要调整,还能适应成熟的代码库,修改前辈留下的 bug:



视频链接:https://mp.weixin.qq.com/s/QkkYAilf4_XZyBRqSIEL2Q

自主学习,从完全陌生的知识学习使用不熟悉的技术,也是 Devin 所擅长的。

你给它一篇新博客,讲的是如何运行 ControlNet on Modal,生成带文字的图像:



它不仅能迅速从中学会所需的代码,没过两秒,工作就自动帮你完成了:



在 Upwork 接的单里,Devin 被要求编写并调试运行计算机视觉模型的代码。它采样了结果数据,最后呈现了一份报告:



视频链接:https://mp.weixin.qq.com/s/QkkYAilf4_XZyBRqSIEL2Q

Devin 甚至能够训练和微调自己的 AI 模型,看来 AI 的生命快要在此刻完成闭环了。仅通过一个 GitHub 仓库的链接,Devin 就微调了一个大型语言模型:



视频链接:https://mp.weixin.qq.com/s/QkkYAilf4_XZyBRqSIEL2Q

总体来看,与其他具有编程能力的大模型,Devin 不仅辅助编程或提供代码片段,它能够独立支持一整个项目,而不仅仅是辅助或提供代码片段的建议。相比于「副驾驶」的角色,Devin 更接近于一个独立工作者。而 Cognition AI 声称 Devin 实现了在 AI 领域被称为「理解」的突破,这意味着它能够不仅是在预测下一个单词或代码行应该输出什么,而是更像在思考如何解决问题的总体方法。

而 Devin 的技术路径,CognitionAI 并还未公开,只是简要地提到,Cognition AI 的团队发现了将大型语言模型(LLM)如 OpenAI 的 GPT-4 与强化学习技术结合的独特方法。这种方法可能是他们技术突破的关键点。

看到 Devin 的 Demo 后,刚从 OpenAI 离职的 AI 大牛 Andrej Karpathy 发表了一些独到的见解。在他看来,自动化软件工程的发展将类似于自动化驾驶,是一个人工智能做的越来越多,而人类的工作越来越少,但仍提供监督的过程。



Devin 可能是通向未来,人类在更高层级进行抽象监督的过程中一环,在这个过程中仍有很多问题需要解决。例如,人工智能部分以及用户界面 / 用户体验部分都有很多工作要做。人类如何提供监督他们如何引导人工智能走向不同的路径?他们如何调试出错的地方?代码编辑器的设计有可能需要大幅改变。

CognitionAI 简介

整个 Cognition AI 团队由 10 人组成,包括获得过 10 枚国际比赛金牌的运动编码者。



不少网友感叹,这太疯狂了。

这支团队的成员在编程竞赛中获得的成就和对问题解决的独特方法。其中三位创始人信息如下:



从左到右分别为 Steven Hao、Scott Wu、Walden Yan,图源:https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

Scott Wu - 首席执行官 (CEO):Scott 是团队的领导者,和他的兄弟 Neal Wu 一起,自青少年时期就开始参加并经常获胜于国际编程比赛,曾连续三年揽获 IOI 金牌,这些比赛提升了他们的编程能力。Scott 的背景和对算法问题的深入理解为 Cognition AI 的开发提供了独特的视角。



Scott Wu 曾连续三年获得 IOI 金牌

Steven Hao - 首席技术官 (CTO):Steven之前是Scale AI的顶尖工程师,Scale AI是一家估值很高的初创公司,专注于帮助训练AI系统。



Walden Yan - 首席产品官 (CPO):Walden 直到最近还在哈佛大学上学,他请求将他在学校的状态留作模糊,大概率是想「辍学创业」。



Walden Yan 在哈佛就读期间,曾在一年级时获得第 32 届 IOI 金牌

除了这三位核心成员,还有一位 Neal Wu,他是 Scott Wu 的兄弟,他也在 Cognition AI 工作。Wu 兄弟因其编程才华在全球范围内享有盛誉,他们自青少年时期起就在国际编码比赛中竞争并常获胜利,这些比赛经验帮助他们在编程和解决问题方面拥有独特的方法。

https://twitter.com/cognition_labs/status/1767548763134964000

https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

博客链接:https://www.cognition-labs.com/blog

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林生斌彻底恢复清白,朱小贞哥哥为其澄清,称希望回归平静生活

林生斌彻底恢复清白,朱小贞哥哥为其澄清,称希望回归平静生活

小柠娱计
2024-06-15 15:44:32
美国取消“亚速营”供武禁令,克宫:不惜一切手段压制俄罗斯

美国取消“亚速营”供武禁令,克宫:不惜一切手段压制俄罗斯

环球时报国际
2024-06-12 17:38:57
重庆农商行女职员表白副行长后续: 单位回应 知情人爆内幕 评论破防

重庆农商行女职员表白副行长后续: 单位回应 知情人爆内幕 评论破防

妮子说美食
2024-06-16 06:53:56
4大惊人暗示浮现!39岁C罗逆袭?或包揽欧洲杯冠军+金球奖

4大惊人暗示浮现!39岁C罗逆袭?或包揽欧洲杯冠军+金球奖

念洲
2024-06-14 22:32:15
保送广东队夺冠!男篮“新一哥”王者归来,或遭北京等5队哄抢?

保送广东队夺冠!男篮“新一哥”王者归来,或遭北京等5队哄抢?

绯雨儿
2024-06-15 13:00:12
热衷“养娃”的00后,正掉进“娃娃陷阱”

热衷“养娃”的00后,正掉进“娃娃陷阱”

蓝鲸财经
2024-06-14 11:45:42
巴西巨星质疑姆巴佩,南美足球团结一致,梅西小罗功不可没

巴西巨星质疑姆巴佩,南美足球团结一致,梅西小罗功不可没

老乐说球
2024-06-16 08:41:34
回顾山东33岁女子遭17岁修理工强奸,哀求:求别杀我,我都配合你

回顾山东33岁女子遭17岁修理工强奸,哀求:求别杀我,我都配合你

玲说百态味
2024-06-16 06:24:09
怪不得哈尔科夫俄军偃旗息鼓了,原来乌军采取了这么一个动作

怪不得哈尔科夫俄军偃旗息鼓了,原来乌军采取了这么一个动作

听风听你
2024-06-13 11:16:52
亚马逊云科技:合作伙伴生态是生成式AI应用创新和落地的关键

亚马逊云科技:合作伙伴生态是生成式AI应用创新和落地的关键

经济观察报
2024-06-14 08:49:19
上海楼市全军覆没,上海房价跌破57000元,上海楼市6月分析

上海楼市全军覆没,上海房价跌破57000元,上海楼市6月分析

有事问彭叔
2024-06-15 12:13:13
16岁338天!亚马尔创新纪录,成欧洲杯最小出场球员,7场造6球

16岁338天!亚马尔创新纪录,成欧洲杯最小出场球员,7场造6球

奥拜尔
2024-06-15 22:35:55
经济体量全球第二的数据真的太虚了吗?

经济体量全球第二的数据真的太虚了吗?

流苏晚晴
2024-06-10 11:01:25
别再为胡塞武装叫好了!胡塞武“击中”的可是中国外贸人的七寸!

别再为胡塞武装叫好了!胡塞武“击中”的可是中国外贸人的七寸!

趣说世界哈
2024-06-15 09:30:03
官方回应:他俩均已离婚!

官方回应:他俩均已离婚!

沈阳地铁第一时间
2024-06-15 13:16:10
一个家庭最大的内耗,是这种无效“提醒”

一个家庭最大的内耗,是这种无效“提醒”

新东方家庭教育
2024-06-13 15:50:03
印度首富之子带千人来欧洲开婚前派对,豪华到难以想象!

印度首富之子带千人来欧洲开婚前派对,豪华到难以想象!

新欧洲
2024-06-15 21:12:05
10.61万亿经营贷,要爆了!

10.61万亿经营贷,要爆了!

说故事的阿袭
2024-06-14 17:35:56
3-0!日本女排横扫塞尔维亚队,加8.68分,世界排名仍落后中国队

3-0!日本女排横扫塞尔维亚队,加8.68分,世界排名仍落后中国队

湘楚风云
2024-06-15 19:59:41
无证倒卖香烟案引行政诉讼:收回专卖许可是否送达本人?烟草局承认3年后补贴通知

无证倒卖香烟案引行政诉讼:收回专卖许可是否送达本人?烟草局承认3年后补贴通知

红星新闻
2024-06-13 22:58:18
2024-06-16 09:08:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9080文章数 141943关注度
往期回顾 全部

科技要闻

TikTok开始找退路了?

头条要闻

牛弹琴:梅洛尼和马克龙吵了一架 晚宴上眼神可"杀人"

头条要闻

牛弹琴:梅洛尼和马克龙吵了一架 晚宴上眼神可"杀人"

体育要闻

莱夫利,让困难为我让路

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

新情况!高层对人民币的态度180°转弯

汽车要闻

东风奕派eπ008售21.66万元 冰箱彩电都配齐

态度原创

旅游
本地
时尚
教育
公开课

旅游要闻

如何文艺消夏?乌镇10大活动开启古镇消夏节

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

可以轻松借鉴的通勤装扮,女人多穿“过膝裙”,优雅时尚大气

教育要闻

拼成上市公司董事长,在儿子眼里却只是60分爸爸?他用30年看清父爱真相

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版