网易首页 > 网易号 > 正文 申请入驻

基准测试表明人工智能编码潜力提升

0
分享至

不久前,人工智能生成的代码还不适合部署。SQL代码太冗长,或者Python代码有缺陷或不安全。然而,近几个月来,这种情况发生了很大变化,今天的人工智能模型每天都在为客户生成更多的代码。

基准测试提供了一种很好的方法来衡量代理人工智能在软件工程领域的发展程度。普林斯顿大学的研究人员创建了一个更受欢迎的基准,称为SWE bench,用于衡量Meta的Llama和Anthropic的Claude等LLM在解决常见软件工程挑战方面的能力。该基准测试利用GitHub作为跨16个存储库的Python软件错误的丰富资源,并提供了一种衡量基于LLM的AI代理解决这些错误的能力的机制。

当作者在2023年10月向国际学习表征会议(ICLR)提交他们的论文《SWE Bench:语言模型能否解决现实世界的GitHub问题?》时,LLM的表现并不好。作者在摘要中写道:“我们的评估表明,最先进的专有模型和我们微调的模型SWE Llama只能解决最简单的问题。”“表现最好的模型Claude 2只能解决1.96%的问题。”

情况变化很快。今天,SWE bench排行榜显示,得分最高的模型解决了SWE bench-Lite上55%的编码问题,这是旨在降低评估成本和提高可访问性的基准的一个子集。

Hugging Face为通用人工智能助理制定了一个基准,称为GAIA,用于衡量模型在多个领域的能力,包括推理、多模态处理、网页浏览和一般工具使用熟练程度。GAIA测试没有歧义,并且具有挑战性,例如在五分钟的视频中计算鸟类的数量。

H2O.ai的首席执行官兼联合创始人Sri Ambati表示,一年前,GAIA测试第三级的最高得分约为14分。如今,基于Claude 3.7 Sonnet的H2O.ai模型获得了最高的总分,约为53分。

Ambati说:“准确性确实增长得非常快。”“我们还没有完全达到目标,但我们正在这条路上。”

H2O.ai的软件参与了另一个衡量SQL生成的基准测试。BIRD代表用于LaRge规模数据库基础文本到SQL评估的BIg Bench,用于衡量AI模型将自然语言解析为SQL的能力。

当BIRD于2023年5月首次亮相时,得分最高的模型CoT+ChatGPT的准确率约为40%。一年前,得分最高的AI模型ExSL+granite-20b-code(基于IBM的granite AI模型)准确率约为68%。这远低于人类表现的能力,BIRD测量的人类表现约为92%。目前的BIRD排行榜显示,AT&T的基于H2O.ai的模型是领导者,准确率为77%。

在生成计算机代码方面的快速进展促使一些有影响力的人工智能领导者,如英伟达首席执行官兼联合创始人黄仁勋和Anthropic联合创始人兼首席执行官Dario Amodei做出了大胆的预测。

Amodei本月早些时候表示:“我们离人工智能编写90%代码的世界不远了——我认为我们将在三到六个月内到达那里。”“然后在12个月内,我们可能会进入一个人工智能基本上编写所有代码的世界。”

在上周的GTC25主题演讲中,黄仁勋分享了他对代理计算未来的看法。在他看来,我们正在迅速接近一个AI工厂基于人类输入生成和运行软件的世界,而不是人类编写软件来检索和操纵数据。

他说:“过去我们编写软件并在计算机上运行,而将来,计算机将为软件生成令牌。”“因此,计算机已经成为令牌的生成器,而不是文件的检索。[我们已经]从基于检索的计算转向基于生成的计算。”

其他人则持更务实的观点。Snowflake首席研究科学家、Snowflake AI研究团队负责人Anupam Datta对SQL生成的改进表示赞赏。例如,Snowflake表示其Cortex Agent的文本到SQL生成准确率为92%。然而,Datta不同意Amodei的观点,即计算机将在年底前滚动自己的代码。

Datta上周在GTC25上表示:“我的观点是,在某些领域,如文本到SQL的编码代理,我认为正在变得非常好。”“在某些其他领域,它们更像是帮助程序员加快速度的助手。人类还没有脱离循环。”

他说,由于编写数字助手和代理人工智能系统,程序员的生产力将成为最大的赢家。他说,我们离代理人工智能生成初稿的世界不远了,然后人类会进来改进和完善它。“生产力将有巨大的提高,”Datta说。“因此,仅就数字助理而言,影响将非常显著。”

H2O.ai的Ambati还认为,软件工程师将与人工智能密切合作。他说,即使是当今最好的编码代理也会引入“微妙的错误”,所以人们仍然需要查看代码。“这仍然是一项非常必要的技能。”

Ambati说:“其中一部分是理解客户模式的语义层,即元数据。”“那部分仍在构建中。本体论仍然是一个领域知识。”

幻觉仍然是一个问题,就像人工智能模型脱轨、说或做坏事的可能性一样。这些都是Anthropic、Nvidia、H2O.ai和Snowflake等公司正在努力缓解的问题。但随着GenAI的核心能力越来越好, AI代理也将越来越多投入生产。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥有钱老板破产后会想不开 看网友讲述心理落差 发现真不堪回首

为啥有钱老板破产后会想不开 看网友讲述心理落差 发现真不堪回首

侃神评故事
2026-06-30 09:15:12
胡乔木为刘少奇起草报告,毛主席阅后写下批语,胡乔木:恕难从命

胡乔木为刘少奇起草报告,毛主席阅后写下批语,胡乔木:恕难从命

冰语历史
2026-06-30 03:51:20
网红芝士蛋糕KUMO KUMO大撤退:一年关店180家,创始人转向Gelato赛道

网红芝士蛋糕KUMO KUMO大撤退:一年关店180家,创始人转向Gelato赛道

蓝鲸新闻
2026-06-30 15:01:31
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
美再加37.5%关税!中方包圆170万吨牛肉,巴西:贸易不是非“美”不可

美再加37.5%关税!中方包圆170万吨牛肉,巴西:贸易不是非“美”不可

说故事的阿袭
2026-06-29 20:09:00
莱维特:总统已证明不怕动武,伊朗最好表现好点

莱维特:总统已证明不怕动武,伊朗最好表现好点

看看新闻Knews
2026-06-30 09:11:47
思蕊梵公主最新活动,身穿泰服成全场亮点,最像诗丽吉王后的公主

思蕊梵公主最新活动,身穿泰服成全场亮点,最像诗丽吉王后的公主

娱乐顺风车666
2026-06-30 11:48:04
世界杯头号罪人!曼联水货彻底现形,全场隐身差点坑死巴西!

世界杯头号罪人!曼联水货彻底现形,全场隐身差点坑死巴西!

奶盖熊本熊
2026-06-30 03:27:12
没有公告,卢卡申科紧急访华,普京有心无力,白俄只有中国能救?

没有公告,卢卡申科紧急访华,普京有心无力,白俄只有中国能救?

顾史
2026-06-30 02:21:37
奉命撞你舰?台海巡和大陆海警东沙对峙,台中舰居然开足马力冲锋

奉命撞你舰?台海巡和大陆海警东沙对峙,台中舰居然开足马力冲锋

阿龙聊军事
2026-06-28 08:27:45
杭州见!学生党技术狂欢来袭,阿里硬核少年技术节5.0首次开放报名

杭州见!学生党技术狂欢来袭,阿里硬核少年技术节5.0首次开放报名

机器之心Pro
2026-06-29 20:45:47
绿军卖布朗索要4-5首轮!本人点赞评论:把他交易到尊重他的城市

绿军卖布朗索要4-5首轮!本人点赞评论:把他交易到尊重他的城市

罗说NBA
2026-06-30 11:15:36
Windows终于支持原生跑Linux容器!微软WSLC公测发布:无需安装Docker

Windows终于支持原生跑Linux容器!微软WSLC公测发布:无需安装Docker

快科技
2026-06-30 18:17:03
今日足球二串一:科特迪瓦VS挪威+墨西哥 VS 厄瓜多尔

今日足球二串一:科特迪瓦VS挪威+墨西哥 VS 厄瓜多尔

冷桂零落
2026-06-30 16:21:07
克洛泽:不介意梅西破纪录;一直是他球迷

克洛泽:不介意梅西破纪录;一直是他球迷

懂球帝
2026-06-30 17:34:05
科特迪瓦VS挪威,两个黑马之战,比分精准预测,悬念十足

科特迪瓦VS挪威,两个黑马之战,比分精准预测,悬念十足

刘哥谈体育
2026-06-30 12:25:16
为什么大获全胜的歼-10卖不出去,一败涂地的阵风却销量火爆?

为什么大获全胜的歼-10卖不出去,一败涂地的阵风却销量火爆?

基斯默默
2026-05-28 11:06:03
6月30日正式施行!借车、开门杀、无偿搭车理赔标准统一

6月30日正式施行!借车、开门杀、无偿搭车理赔标准统一

天气观察站
2026-06-29 12:28:59
杨紫斩获白玉兰视后,孙俪吴越台下反应,道尽演员真正格局

杨紫斩获白玉兰视后,孙俪吴越台下反应,道尽演员真正格局

可乐谈情感
2026-06-30 17:55:55
波兰外长:最好让俄乌直接谈判,有些问题我们不希望施压他们去做

波兰外长:最好让俄乌直接谈判,有些问题我们不希望施压他们去做

雅儿姐爱追剧
2026-06-29 16:09:41
2026-06-30 18:52:49
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1775文章数 512关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

亲子
游戏
数码
艺术
军事航空

亲子要闻

宝蓝画完画不洗手就去吃饭,被爸爸拉着去洗手不准吃东西。

《斯普拉遁:涂击队》直面会今晚举行 时长15分钟

数码要闻

AMD发布MoP集成内存版Versal Premium Gen 2自适应SoC

艺术要闻

《争座位帖》唐代双钩本现身,填补书坛空白

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版