网易首页 > 网易号 > 正文 申请入驻

研究发现许多人工智能模型的安全评估都有很大的局限性

0
分享至

一份新报告指出,尽管对人工智能安全性和问责制的要求越来越高,但目前的测试和基准可能还不够。生成式人工智能模型--可以分析和输出文本、图像、音乐、视频等的模型--因其容易犯错和普遍行为不可预测而受到越来越多的关注。现在,从公共部门机构到大型科技公司,都在提出新的基准来测试这些模型的安全性。

去年年底,初创公司 Scale AI 成立了一个实验室,专门评估模型与安全准则的一致性。本月,NIST和英国人工智能安全研究所发布了旨在评估模型风险的工具。但这些模型探测测试和方法可能还不够。

英国非营利性人工智能研究机构阿达-拉芙蕾丝研究所(ALI)进行了一项研究,采访了来自学术实验室、民间社会和生产厂商模型的专家,并对最近的人工智能安全评估研究进行了审核。共同作者发现,虽然目前的评估可能有用,但它们并不详尽,很容易被玩弄,也不一定能说明模型在真实世界场景中的表现。

"无论是智能手机、处方药还是汽车,我们都希望自己使用的产品是安全可靠的;在这些领域,产品在部署之前都要经过严格的测试,以确保它们是安全的,"ALI高级研究员、报告的共同作者埃利奥特-琼斯(Elliot Jones)说。"我们的研究旨在检查当前人工智能安全评估方法的局限性,评估目前如何使用评估,并探索将其作为政策制定者和监管者的工具。"

研究报告的共同作者首先对学术文献进行了调查,以了解当今模型造成的危害和风险,以及现有人工智能模型评估的现状。然后,他们采访了 16 位专家,其中包括四位开发生成式人工智能系统的未具名科技公司的员工。

研究发现,人工智能行业内部对评估模型的最佳方法和分类标准存在严重分歧。

有些评估只测试了模型如何与实验室中的基准保持一致,而没有测试模型可能对真实世界的用户产生的影响。还有一些评估采用的是为研究目的开发的测试,而不是对生产模型进行评估,但供应商却坚持在生产中使用这些模型。

研究中引用的专家指出,从基准结果推断一个模型的性能是很困难的,甚至不清楚基准是否能表明一个模型拥有特定的能力。例如,一个模型可能在州律师资格考试中表现出色,但这并不意味着它能解决更多开放性的法律难题。

专家们还指出了数据污染问题,即如果模型是在与测试数据相同的数据上训练出来的,那么基准结果就会高估模型的性能。专家们说,在很多情况下,企业选择基准并不是因为它们是最好的评估工具,而是为了方便和易于使用。

ALI的研究员、该研究的合著者Mahi Hardalupas表示:"基准有可能被开发人员操纵,他们可能会在用于评估模型的相同数据集上训练模型,相当于在考试前看到试卷,或者战略性地选择使用哪种评估方法。评估模型的版本也很重要。微小的变化可能会导致不可预测的行为变化,并可能会覆盖内置的安全功能。"

ALI 的研究还发现了"红队"(red-teaming)的问题。"红队"是指让个人或团体"攻击"模型以找出漏洞和缺陷的做法。包括人工智能初创公司 OpenAI 和 Anthropic 在内的许多公司都在使用"红队"评估模型,但"红队"几乎没有公认的标准,因此很难评估特定工作的有效性。

专家们告诉研究报告的合著者,很难找到具备必要技能和专业知识的人员来组建红色团队,而且红色团队的人工性质使其成本高昂、费力不讨好,这对没有必要资源的小型组织来说是个障碍。

加快模型发布速度的压力,以及不愿在发布前进行可能引发问题的测试,是人工智能评估效果不佳的主要原因。

"与我们交谈过的一位在一家开发基础模型的公司工作的人认为,公司内部存在着更大的压力,要求快速发布模型,这使得推倒重来和认真开展评估变得更加困难,"琼斯说。"主要的人工智能实验室发布模型的速度超过了他们或社会确保模型安全可靠的能力"。

在 ALI 的研究中,一位受访者称评估安全模型是一个"棘手"的问题。那么,该行业--以及监管该行业的人--对解决方案抱有什么希望呢?研究员马希-哈达鲁帕斯(Mahi Hardalupas)认为,前进的道路是存在的,但需要公共部门机构更多的参与。他说:"监管者和决策者必须清楚地阐明他们希望从评估中得到什么。同时,评价界必须对评价目前的局限性和潜力保持透明。"

Hardalupas 建议各国政府授权公众更多地参与评估的制定工作,并采取措施支持第三方测试的"生态系统",包括确保定期获取所需的模型和数据集的计划。

琼斯认为,可能有必要开展"针对具体情况"的评估,这种评估不仅仅是测试模型如何响应提示,而是要研究模型可能影响的用户类型(如特定背景、性别或种族的人),以及对模型的攻击可能破坏保障措施的方式。

她补充说:"这将需要对评估的基础科学进行投资,以便在了解人工智能模型如何运作的基础上,开发出更稳健、更可重复的评估。"

但可能永远无法保证模型的安全。"正如其他人所指出的,'安全'并不是模型的属性,"Hardalupas 说。"确定一个模型是否'安全',需要了解它的使用环境、销售对象或获取对象,以及现有的保障措施是否足以降低这些风险。对基金会模式的评估可以起到探索作用,以确定潜在的风险,但不能保证模式是安全的,更不用说'完全安全'了。我们的许多受访者都认为,评估不能证明模式是安全的,只能说明模式不安全"。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

帅领留学真话
2026-06-27 09:53:57
克罗地亚2-1加纳第二出线!苏契奇贴地斩 魔笛助攻弗拉希奇制胜

克罗地亚2-1加纳第二出线!苏契奇贴地斩 魔笛助攻弗拉希奇制胜

狍子歪解体坛
2026-06-28 06:59:49
身高猛涨!12岁乔治王子身高齐平凯特王妃,创下温莎家族新纪录

身高猛涨!12岁乔治王子身高齐平凯特王妃,创下温莎家族新纪录

墨印斋
2026-06-28 00:09:15
把中国游客挡在门外,高市不听岸田劝告,中方对日本政府改了称呼

把中国游客挡在门外,高市不听岸田劝告,中方对日本政府改了称呼

临云史策
2026-06-28 13:04:35
乌媒:基辅遭弹道导弹袭击,传出强烈爆炸声

乌媒:基辅遭弹道导弹袭击,传出强烈爆炸声

环球网资讯
2026-06-28 07:37:04
首位90后白玉兰视后诞生:不只是杨紫的胜利,更是代际交替的信号

首位90后白玉兰视后诞生:不只是杨紫的胜利,更是代际交替的信号

极客电影
2026-06-27 21:27:38
王濛成团夜!把奖杯放在脚边,缺席成团后采访,原因曝光

王濛成团夜!把奖杯放在脚边,缺席成团后采访,原因曝光

情感大头说说
2026-06-28 09:51:20
日本慌了!日本陷入唐朝以来千年最大败局!百年优势崩塌,无解

日本慌了!日本陷入唐朝以来千年最大败局!百年优势崩塌,无解

魔都姐姐杂谈
2026-06-28 00:03:11
历史唯一没有农民起义的朝代,每任帝王都是明君,人口增长相当快

历史唯一没有农民起义的朝代,每任帝王都是明君,人口增长相当快

心中的麦田
2026-05-28 20:50:58
200万粉丝博主诋毁袁隆平“三系杂交技术”,中国食品报痛批:“有的人仓廪实而知礼节,有的人吃饱了就撑得慌”,已提交举报材料

200万粉丝博主诋毁袁隆平“三系杂交技术”,中国食品报痛批:“有的人仓廪实而知礼节,有的人吃饱了就撑得慌”,已提交举报材料

大风新闻
2026-06-28 09:33:02
人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

艺鉴在线
2026-06-22 08:20:18
山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

环球网资讯
2026-06-27 18:21:42
出局!宣布辞职!

出局!宣布辞职!

五星体育
2026-06-28 09:53:33
小仙女为了8000元“举报全班师生”,老师被停职,全班学生延毕

小仙女为了8000元“举报全班师生”,老师被停职,全班学生延毕

妍妍教育日记
2026-06-28 08:10:07
韩红“走个面”翻车事件升级!其戒指、手串、腕表被网友追问价格

韩红“走个面”翻车事件升级!其戒指、手串、腕表被网友追问价格

火山詩话
2026-06-24 15:26:03
广东一男子网购山楂条吃出整只苍蝇尸体,向平台索赔1000元,客服回应:可申请仅退款,并给100元积分

广东一男子网购山楂条吃出整只苍蝇尸体,向平台索赔1000元,客服回应:可申请仅退款,并给100元积分

深圳晚报
2026-06-27 22:50:30
快讯!关于郑丽文的消息!

快讯!关于郑丽文的消息!

有态度的何总
2026-06-28 10:58:31
林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

可读
2026-06-25 23:21:52
又一艘油轮遇袭,霍尔木兹海峡威胁等级被上调!打击中东地区美军多个目标后,伊朗最高领袖军事顾问:将有力回应违反谅解备忘录行为

又一艘油轮遇袭,霍尔木兹海峡威胁等级被上调!打击中东地区美军多个目标后,伊朗最高领袖军事顾问:将有力回应违反谅解备忘录行为

每日经济新闻
2026-06-27 20:38:38
电影《四渡》票房破7000万

电影《四渡》票房破7000万

界面新闻
2026-06-28 10:55:42
2026-06-28 13:59:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68881文章数 70221关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

白玉兰奖落幕,唯她被骂惨

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

健康
时尚
亲子
旅游
房产

“无糖汤圆”是否隐藏着健康陷阱?

今天的脸不想营业,但墨镜想

亲子要闻

小卡蜜拉偷走了小格力乔的睡觉时间

旅游要闻

荷塘花开映古寨 生态乡景引客来

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

无障碍浏览 进入关怀版