网易首页 > 网易号 > 正文 申请入驻

57.6万代码撕碎AI编程神话,20%「幽灵包」暗藏漏洞!苹果、微软已中招

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】AI编程梦被撕碎!最新研究用57.6万个代码样本揭示:超20%代码依赖的是不存在的软件包。苹果、微软都曾中招,而Meta和微软还在高喊「未来AI写95%代码」。AI写代码的神话,正在变成安全灾难。

最近,扎克伯格表示,Meta正在内部开发专门用于编程和AI研究的智能体——

这些并不是通用型工具,而是为提升 Meta自家AI项目(如 LLaMA)量身定制的专用智能体


他预测,在未来的12到18个月,Meta用于AI开发的大部分代码将不再由人类编写,而是由AI智能体生成

微软首席技术官Kevin Scott的预测更长远,但更大胆。

在最近的一档播客节目中,他预估在未来五年,AI生成的代码将占据主导地位,表示道:

95%的代码将由AI生成,人类完全手动编写的代码几乎一行也没有。


左:微软首席技术官Kevin Scott;右:播客主持人Harry Stebbings

Scott拥有41年的编程经验,足以让他见证行业内的多次变革。

20世纪80年代,汇编语言编程开始向高级语言编程转变,

当时,有些老程序员会说:「如果你不会写汇编语言,就不算真正的程序员,那是唯一正确的编程方式。」

如今,已经没人再提这些了。

在他看来,AI的崛起与当年的变革并无太大不同。

Scott认为,「最优秀的程序员」会迅速适应AI工具:

一开始,开发者对这些工具持怀疑态度,但现在他们的态度变成了「除非我死了,否则别想让我放弃这些工具」。

AI已经成为他们工具箱中不可或缺的一部分。

但软件工程中,「没有银弹」:如果开发的次要部分少于整个工作的 9/10,那么即使不占用任何时间,也不会给生产率带来数量级的提高。

正如Scott所言:「代码的创造性和核心设计,仍然完全依赖于人类。」


论文链接:https://www.cs.unc.edu/techreports/86-020.pdf

拥有超过25年经验的记者Dan Goodin,则报道了AI生成代码,不仅不能取代人类开发者,甚至可能对软件供应链造成灾难性影响。


AI带来的灾难性影响

在2025年美国计算机安全协会安全研讨会(USENIX Security 2025)上,研究人员计划发表一篇论文,报告发现的 「软件包幻觉」现象。


USENIX Security 2025在今年8月13日到8月15日举行

这项研究显示,AI生成的计算机代码中充斥着对并不存在的第三方库的引用,这为供应链攻击创造了绝佳机会。

攻击者可以利用恶意软件包毒害合法程序,进而窃取数据、植入后门,以及实施其他恶意行为。


论文链接:https://arxiv.org/abs/2406.10279v3

该研究使用16种主流大型语言模型(LLM)生成了57.6万个代码样本。

结果发现,这些样本中包含的软件包依赖项里,有44万个是 「幻觉产物」,也就是说它们根本不存在。

开源模型的虚构依赖比例最高,生成的代码所包含的依赖项中21%并不存在。

新型软件攻击:软件包混淆

这些并不存在的依赖项加剧了所谓的「依赖项混淆攻击」,对软件供应链构成了威胁。

这类攻击的原理是让软件包访问错误的组件依赖项。

例如,攻击者发布一个恶意软件包,给它起一个与合法软件包相同的名字,但标注一个更新的版本号。在某些情况下,依赖该软件包的软件会选择恶意版本,而不是合法版本,因为恶意版本看起来更新。


这种攻击方式,也称为「软件包混淆」,在2021年的一次概念验证中首次展示,成功在苹果、微软等巨头公司的网络中执行了伪造代码。


这属于软件供应链攻击,目的是污染软件源头,感染所有下游用户。


软件供应链攻击(software supply chain attack)一般步骤

该研究的主要负责人、德克萨斯大学圣安东尼奥分校的博士生Joseph Spracklen,在给媒体的电子邮件中表示:「一旦攻击者利用虚构软件包名称发布包含恶意代码的软件包,并依靠模型向毫无戒心的用户推荐该名称,如果用户没有仔细验证就安装了该软件包,隐藏在其中的恶意代码就会在用户系统上执行。」


软件包幻觉多严重?

为了评估软件包幻觉问题的严重性,研究人员测试了16种代码生成AI模型(包括GPT-4、Claude、CodeLlama、DeepSeek Coder、Mistral等),使用两个独特的提示数据集,生成了576,000个Python和JavaScript代码样本。

结果显示,推荐的软件包中有近20%是不存在的。

研究发现,不同LLM和编程语言的虚构软件包比例差异显著。

开源模型的平均虚构比例接近22%,而商业模型仅略超5%。Python代码的虚构比例平均为16%,低于JavaScript的21%。

这种差异可能与模型复杂性和训练数据有关。

商业模型(如ChatGPT系列)通常拥有比开源模型多10倍以上的参数,参数量更大可能减少幻觉。此外,训练数据、微调和安全优化也可能影响虚构比例。

至于JavaScript虚构比例高于Python,研究推测这与JavaScript生态系统中软件包数量(约为Python的10倍)和命名空间复杂性有关。

更大的软件包生态和复杂命名增加了模型准确回忆包名的难度,导致虚构比例上升。


不同语言模型在Python和JavaScript代码中的幻觉率

为了验证LLM是否会反复幻觉相同的软件包,研究人员随机抽取了500个引发幻觉的提示,并对每个提示重复查询10次。

结果发现:

  • 43%的幻觉软件包在10次查询中均被重复提及;

  • 39%的幻觉软件包在10次查询中完全未重复;

  • 58%的幻觉软件包在10次迭代中被重复提及超过一次。

研究人员指出:「这表明,大多数幻觉不是随机错误,而是可重复、持续的现象。这种持久性对恶意攻击者更有价值,让幻觉攻击成为更现实的威胁。」

尽管许多模型在某些情况下能检测到自己的幻觉,但问题在于,许多开发者依赖AI生成代码,并盲目信任AI的输出。

「幻觉」难以根除

在AI领域,当大语言模型产生的输出结果在事实上不正确、毫无意义,或者与分配给它的任务完全无关时,就会出现 「幻觉」 现象。

长期以来,「幻觉」 一直困扰着大语言模型,因为它降低了模型的实用性和可信度;而且事实证明,LLM「幻觉」 很难预测和解决

幻觉软件包是否可能源于模型预训练数据中已删除的软件包?

研究人员调查结果发现:已删除软件包对幻觉的贡献「微乎其微」。

他们还发现了「跨语言幻觉」:某个编程语言中的幻觉软件包名称与另一种语言中存在的软件包名称相同。

而跨语言幻觉在JavaScript中更常见。

此外,大多数幻觉软件包的名称与现有软件包名称「实质性不同」,但这些名称往往令人信服,且与上下文高度相关。

对于使用LLM的开发者,研究人员的建议是:在使用AI推荐的代码之前,仔细检查推荐的软件包是否存在,以避免落入供应链攻击的陷阱。

开发者提高警惕和验证,可以有效降低因软件包幻觉引发的安全风险,确保代码安全可靠。

参考资料:

https://arstechnica.com/security/2025/04/ai-generated-code-could-be-a-disaster-for-the-software-supply-chain-heres-why/

https://www.helpnetsecurity.com/2025/04/14/package-hallucination-slopsquatting-malicious-code/

https://x.com/WesRothMoney/status/1917370974032519547

https://www.youtube.com/watch?v=KN7KYzpPfiU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

娜乌和西卡
2025-11-10 13:50:19
湖南某医院不雅事件的同款“战袍”,彻底火了!

湖南某医院不雅事件的同款“战袍”,彻底火了!

仕道
2025-11-10 14:06:05
俄罗斯人在公车上写骂中国人的话,但现场没人敢吭声……

俄罗斯人在公车上写骂中国人的话,但现场没人敢吭声……

麦杰逊
2025-11-10 12:28:01
油箱见底了!打完这个赛季,可能退役的七位球星

油箱见底了!打完这个赛季,可能退役的七位球星

球毛鬼胎
2025-11-10 18:50:33
俄罗斯提出一个新概念——俄罗斯历史领土

俄罗斯提出一个新概念——俄罗斯历史领土

每日一见
2025-11-10 14:09:17
女子高铁推婴儿车堵20分钟后续!正面曝光,甩娃撂狠话:赔得起吗

女子高铁推婴儿车堵20分钟后续!正面曝光,甩娃撂狠话:赔得起吗

八斗小先生
2025-11-10 11:39:17
“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

妍妍教育日记
2025-11-09 10:44:07
第一次!高市早苗提对台海出兵,日本高层的反应,果然如中国所料

第一次!高市早苗提对台海出兵,日本高层的反应,果然如中国所料

叹知
2025-11-10 16:05:39
郑丽文提“二二八”和解,喊话民进党“历史不该成斗争工具”

郑丽文提“二二八”和解,喊话民进党“历史不该成斗争工具”

海峡导报社
2025-11-10 15:39:08
全红婵老家新房封顶引来大量无人机“围观”:全父表示无奈 村民称有噪音干扰

全红婵老家新房封顶引来大量无人机“围观”:全父表示无奈 村民称有噪音干扰

上游新闻
2025-11-10 17:13:05
李嘉诚曾和梁洛施私下做交易,不把3个孙子纳入李家,是一种算计

李嘉诚曾和梁洛施私下做交易,不把3个孙子纳入李家,是一种算计

娱乐团长
2025-11-09 14:33:37
大反转!偷拍者被带走调查,出轨地点不是医院,祖副院长原配发声

大反转!偷拍者被带走调查,出轨地点不是医院,祖副院长原配发声

壹月情感
2025-11-10 16:52:17
俄罗斯大幅加税,中国汽车出口骤降58%!1辆净赚几万已成过去,有商家暂停对俄业务,如何破局?专家建议“扎下根”

俄罗斯大幅加税,中国汽车出口骤降58%!1辆净赚几万已成过去,有商家暂停对俄业务,如何破局?专家建议“扎下根”

每日经济新闻
2025-11-10 00:30:08
尴尬啊!50岁大叔哭诉想挽回20岁女孩,称大理骑行时花钱同吃同住

尴尬啊!50岁大叔哭诉想挽回20岁女孩,称大理骑行时花钱同吃同住

火山诗话
2025-11-09 21:49:00
“大衣哥”反击网暴:我不惹事,但也不怕事丨面孔

“大衣哥”反击网暴:我不惹事,但也不怕事丨面孔

大象新闻
2025-11-10 15:02:09
扇耳光大赛倒地的中国选手公布病历!称看东西有重影需要手术

扇耳光大赛倒地的中国选手公布病历!称看东西有重影需要手术

南方都市报
2025-11-10 12:10:16
国家广电总局关于撤销机顶盒的重要消息

国家广电总局关于撤销机顶盒的重要消息

小柱解说游戏
2025-11-09 14:50:37
贵阳女副市长主动投案,贵州省自然资源系统反腐连续打“虎”

贵阳女副市长主动投案,贵州省自然资源系统反腐连续打“虎”

界面新闻
2025-11-10 14:03:21
61岁关咏荷白衣出镜,状态年轻被赞似41岁!张家辉:我保持好自己,才能配得上她

61岁关咏荷白衣出镜,状态年轻被赞似41岁!张家辉:我保持好自己,才能配得上她

FM93浙江交通之声
2025-11-10 14:24:07
淡水虹鳟,彻底毁掉了“三文鱼”这一优质食品

淡水虹鳟,彻底毁掉了“三文鱼”这一优质食品

北欧模式
2025-10-16 22:38:47
2025-11-10 19:19:01
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13835文章数 66241关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

20年驾龄"老司机"一踩油门就失控了 新能源车企回应

头条要闻

20年驾龄"老司机"一踩油门就失控了 新能源车企回应

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

最终,万科只成全了一个人

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

教育
本地
游戏
时尚
亲子

教育要闻

给中小学教师减负还需找到真正“病因”

本地新闻

这届干饭人,已经把博物馆吃成了食堂

Faker微博晒S15奖杯合照!T1战队官方:神!

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

亲子要闻

怎么养出有担当的娃

无障碍浏览 进入关怀版