网易首页 > 网易号 > 正文 申请入驻

基准测试表明人工智能编码潜力提升

0
分享至

不久前,人工智能生成的代码还不适合部署。SQL代码太冗长,或者Python代码有缺陷或不安全。然而,近几个月来,这种情况发生了很大变化,今天的人工智能模型每天都在为客户生成更多的代码。

基准测试提供了一种很好的方法来衡量代理人工智能在软件工程领域的发展程度。普林斯顿大学的研究人员创建了一个更受欢迎的基准,称为SWE bench,用于衡量Meta的Llama和Anthropic的Claude等LLM在解决常见软件工程挑战方面的能力。该基准测试利用GitHub作为跨16个存储库的Python软件错误的丰富资源,并提供了一种衡量基于LLM的AI代理解决这些错误的能力的机制。

当作者在2023年10月向国际学习表征会议(ICLR)提交他们的论文《SWE Bench:语言模型能否解决现实世界的GitHub问题?》时,LLM的表现并不好。作者在摘要中写道:“我们的评估表明,最先进的专有模型和我们微调的模型SWE Llama只能解决最简单的问题。”“表现最好的模型Claude 2只能解决1.96%的问题。”

情况变化很快。今天,SWE bench排行榜显示,得分最高的模型解决了SWE bench-Lite上55%的编码问题,这是旨在降低评估成本和提高可访问性的基准的一个子集。

Hugging Face为通用人工智能助理制定了一个基准,称为GAIA,用于衡量模型在多个领域的能力,包括推理、多模态处理、网页浏览和一般工具使用熟练程度。GAIA测试没有歧义,并且具有挑战性,例如在五分钟的视频中计算鸟类的数量。

H2O.ai的首席执行官兼联合创始人Sri Ambati表示,一年前,GAIA测试第三级的最高得分约为14分。如今,基于Claude 3.7 Sonnet的H2O.ai模型获得了最高的总分,约为53分。

Ambati说:“准确性确实增长得非常快。”“我们还没有完全达到目标,但我们正在这条路上。”

H2O.ai的软件参与了另一个衡量SQL生成的基准测试。BIRD代表用于LaRge规模数据库基础文本到SQL评估的BIg Bench,用于衡量AI模型将自然语言解析为SQL的能力。

当BIRD于2023年5月首次亮相时,得分最高的模型CoT+ChatGPT的准确率约为40%。一年前,得分最高的AI模型ExSL+granite-20b-code(基于IBM的granite AI模型)准确率约为68%。这远低于人类表现的能力,BIRD测量的人类表现约为92%。目前的BIRD排行榜显示,AT&T的基于H2O.ai的模型是领导者,准确率为77%。

在生成计算机代码方面的快速进展促使一些有影响力的人工智能领导者,如英伟达首席执行官兼联合创始人黄仁勋和Anthropic联合创始人兼首席执行官Dario Amodei做出了大胆的预测。

Amodei本月早些时候表示:“我们离人工智能编写90%代码的世界不远了——我认为我们将在三到六个月内到达那里。”“然后在12个月内,我们可能会进入一个人工智能基本上编写所有代码的世界。”

在上周的GTC25主题演讲中,黄仁勋分享了他对代理计算未来的看法。在他看来,我们正在迅速接近一个AI工厂基于人类输入生成和运行软件的世界,而不是人类编写软件来检索和操纵数据。

他说:“过去我们编写软件并在计算机上运行,而将来,计算机将为软件生成令牌。”“因此,计算机已经成为令牌的生成器,而不是文件的检索。[我们已经]从基于检索的计算转向基于生成的计算。”

其他人则持更务实的观点。Snowflake首席研究科学家、Snowflake AI研究团队负责人Anupam Datta对SQL生成的改进表示赞赏。例如,Snowflake表示其Cortex Agent的文本到SQL生成准确率为92%。然而,Datta不同意Amodei的观点,即计算机将在年底前滚动自己的代码。

Datta上周在GTC25上表示:“我的观点是,在某些领域,如文本到SQL的编码代理,我认为正在变得非常好。”“在某些其他领域,它们更像是帮助程序员加快速度的助手。人类还没有脱离循环。”

他说,由于编写数字助手和代理人工智能系统,程序员的生产力将成为最大的赢家。他说,我们离代理人工智能生成初稿的世界不远了,然后人类会进来改进和完善它。“生产力将有巨大的提高,”Datta说。“因此,仅就数字助理而言,影响将非常显著。”

H2O.ai的Ambati还认为,软件工程师将与人工智能密切合作。他说,即使是当今最好的编码代理也会引入“微妙的错误”,所以人们仍然需要查看代码。“这仍然是一项非常必要的技能。”

Ambati说:“其中一部分是理解客户模式的语义层,即元数据。”“那部分仍在构建中。本体论仍然是一个领域知识。”

幻觉仍然是一个问题,就像人工智能模型脱轨、说或做坏事的可能性一样。这些都是Anthropic、Nvidia、H2O.ai和Snowflake等公司正在努力缓解的问题。但随着GenAI的核心能力越来越好, AI代理也将越来越多投入生产。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
都打张本美和,孙颖莎能赢,为何王曼昱输球?邓亚萍赛后总结来了

都打张本美和,孙颖莎能赢,为何王曼昱输球?邓亚萍赛后总结来了

体育大学僧
2026-05-11 08:42:42
特朗普时隔9年再度访华;首次访华两国曾签下2535亿美元大单,今年2月特朗普还在赞叹访华期间中国仪仗队强大阵容、整齐划一

特朗普时隔9年再度访华;首次访华两国曾签下2535亿美元大单,今年2月特朗普还在赞叹访华期间中国仪仗队强大阵容、整齐划一

极目新闻
2026-05-11 10:22:20
损失难以估量!世界杯若失去中国观众,国际足联将直面3大压力

损失难以估量!世界杯若失去中国观众,国际足联将直面3大压力

云舟史策
2026-05-11 07:10:07
村民劳作时被2米长,5斤重的眼镜王蛇咬伤,毒蛇蛇身被他当场斩断,他随即出现疼痛、头晕、乏力等症状,医院用13支抗蛇毒血清,救治3天3夜终于转危为安

村民劳作时被2米长,5斤重的眼镜王蛇咬伤,毒蛇蛇身被他当场斩断,他随即出现疼痛、头晕、乏力等症状,医院用13支抗蛇毒血清,救治3天3夜终于转危为安

观威海
2026-05-11 14:26:03
震惊!沈阳外卖小哥全款提奥迪A6引争议,评论炸锅,观点争锋相对

震惊!沈阳外卖小哥全款提奥迪A6引争议,评论炸锅,观点争锋相对

火山詩话
2026-05-10 09:52:37
步行者老板道歉:我承担全部责任,没想到只有第5顺位

步行者老板道歉:我承担全部责任,没想到只有第5顺位

林子说事
2026-05-11 08:57:23
人民日报发声:机关事业单位的隐性收入,正在消失

人民日报发声:机关事业单位的隐性收入,正在消失

细说职场
2026-05-09 12:16:27
一特斯拉Model 3服役7年跑了61万公里后,实测续航缩水34.2%

一特斯拉Model 3服役7年跑了61万公里后,实测续航缩水34.2%

IT之家
2026-05-10 21:38:29
李嘉诚再谈及未来房价:100万的房子,到2030年还能值多少钱?

李嘉诚再谈及未来房价:100万的房子,到2030年还能值多少钱?

社会日日鲜
2026-05-11 04:52:07
5月11日,人社部会公布2026年养老金调整通知吗?社保制度优化

5月11日,人社部会公布2026年养老金调整通知吗?社保制度优化

社保小达人
2026-05-11 10:07:04
外交部介绍特朗普访华具体安排和中方期待

外交部介绍特朗普访华具体安排和中方期待

新京报
2026-05-11 15:33:19
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

梦想的旅途照进现实
2026-05-09 18:40:12
太可怕!印度女局长深夜便衣上街,3小时被40名男性轮番冒犯

太可怕!印度女局长深夜便衣上街,3小时被40名男性轮番冒犯

傲傲讲历史
2026-05-10 04:40:19
7部委发文:严禁医生参加此类活动!违规者将移送至公检机关

7部委发文:严禁医生参加此类活动!违规者将移送至公检机关

医脉圈
2026-05-11 12:04:57
油价飙升,莫迪呼吁全民:居家办公、别买黄金、取消海外婚礼

油价飙升,莫迪呼吁全民:居家办公、别买黄金、取消海外婚礼

红星新闻
2026-05-11 12:09:16
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
冲上热搜!突然收到地震局短信,很多人吓一跳!上海明天也有,莫慌莫慌

冲上热搜!突然收到地震局短信,很多人吓一跳!上海明天也有,莫慌莫慌

上观新闻
2026-05-11 14:58:22
大争议!文班亚马肘击里德喉部 被吹罚二级恶犯生涯首次被驱逐

大争议!文班亚马肘击里德喉部 被吹罚二级恶犯生涯首次被驱逐

醉卧浮生
2026-05-11 08:32:04
上层圈子的潜规则:没人明说,但招招致命

上层圈子的潜规则:没人明说,但招招致命

细说职场
2026-05-10 09:39:27
2026-05-11 16:19:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1734文章数 512关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
时尚
房产
亲子
公开课

家居要闻

多元生活 此处无声

衬衫四季都能穿!简约大方适合日常穿搭,配裤子、裙子都好看

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

亲子要闻

首都教育亲子欢乐跑开跑,合作伙伴火花思维携亲子家庭亮相系统

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版