网易首页 > 网易号 > 正文 申请入驻

2025年GDC|“DeepSeek让大模型更普及了,AI治理也更急迫了”

0
分享至

DeepSeek火爆全球,人人都用上了AI,但在专家看来,在这一情况下,大模型的安全问题和治理问题也变得更为迫切。

“大模型存在诱导和欺骗行为怎么办?”“大模型失控了怎么办?”

在2025 GDC全球开发者先锋大会工作坊“安全超级智能”上,不少开发者和专业观众对AI安全提出担忧。

2025 GDC全球开发者先锋大会工作坊“安全超级智能”现场。

AI智能安全研究员朱小虎是此次工作坊的负责人,2019年他在上海成立了一个非营利机构——安全人工通用智能研究中心(The center for safe artificial general intelligence),希望能推动国内安全AGI的发展。2021年,朱小虎曾被麻省理工学院生命未来研究所邀请,以合作学者的身份专注于AI的风险研究和通用人工智能安全研究。

“现阶段的人工智能为人工混乱智能”,朱小虎告诉澎湃科技(www.thepaper.cn),在他看来,即便如DeepSeek、马斯克新发布的Grok3这类大模型在深度推理方面表现得非常优秀,但“并不安全。”

“你的AI大模型有可能会欺骗你。”朱小虎说。大模型具有“欺骗性价值对齐”(Deceptive value alignment)的情况,这种对齐以欺骗的方式获得,且不能反映AI的真实目标或意图的现象被称为“欺骗性价值对齐”。比如在训练阶段、推理阶段,模型对形成的上下文会形成一定的“欺骗性的对齐”,这会影响很多用户比如老人和小孩的个人判断,还有对隐私保护的侵犯等,这也是模型不安全的一大方面。

如果想要建立一个安全、可靠、可控且可信的人机(技)协作环境,就必须提出合理应对欺骗性价值对齐的有效措施。

“现阶段只能依靠技术手段去‘堵’而不是‘疏’。”朱小虎说,不过,目前的技术还无法完全解决这些问题,因为投入在AI安全领域的精力、时间、金钱和资源远远不足。这也是大模型落地行业待解的难题之一。

如何让AI变得更安全?2月22日,澎湃科技(www.thepaper.cn)和朱小虎聊了聊。

模型有“欺骗性对齐”的情况,Grok3也不安全

澎湃科技:如何理解AI Safety这一概念?

朱小虎:最早期AI安全分成了两个大类的概念,英文世界它有两个词来表达安全,Safety(安全性)和Security(安全防护、安保)。

Safety的概念比较宽泛,包括常提到的AI伦理方面也算是Safety的分支,它更强调在早期阶段将“安全”考虑清楚,包括后期设计方法、建立相应的保护措施、应用的方式。但Security从技术手段更强调模型的权重怎么保护、如何防止黑客攻击等。Safety更需要大家深入地思考找出实践的路径,目前国内的一线安全厂商他们其实强调在Security上的能力,大家对Safety的概念较为模糊。

澎湃科技:在你看来,现在AI大模型常见的风险有哪些?大模型技术最薄弱的环节、安全漏洞在哪里?

朱小虎:最严重的是现在大模型的“黑盒”特质(当人们输入一个数据,大模型就能直接输出一个答案,但是它的运作机制却没人知道,我们称之为“黑盒”)。

大模型很多内在机制基于神经网络和深度学习,比如通过梯度下降等训练方式优化,但它内在的连接和权重目前缺乏有效且可规模化的研究方法去理解。这导致在使用大模型技术时,生成的内容往往难以被用户完全理解。

这种模型训练规模达到万亿级别的,它对于单个的研究人员、一个公司来说,都是一个非常棘手的任务。OpenAI花费了大量精力在模型调校和对齐(Alignment)领域,利用强化学习使模型行为符合人类价值观和伦理约束,让OpenAI能够在大规模推广前确保模型的安全性。微软甚至Meta(原Facebook)等公司也曾推出了类似模型,但因为模型在当时出现了不可控的负面效果后暂停。

大模型本身除了不可解释性之外,架构还容易受到外界干扰。比如,恶意使用或黑客攻击可能导致模型在应用场景中产生不安全的扩散效应。这些问题进一步加剧了大模型在实际应用中的安全风险。

澎湃科技:对企业和用户来说,不安全的模型会有怎样的影响?

朱小虎:“不安全的模型”其实是一个模型的特质,一些研究人员包括Anthropic PBC,(一家美国的人工智能初创企业和公益公司)也非常重视安全,他们在研究过程中发现模型具有“欺骗性对齐”(Deceptive element)的情况。比如在训练阶段、推理阶段,模型对形成的上下文会形成一定的“欺骗性的对齐”,它可以欺骗人。这导致在大规模部署的时候,会影响很多用户比如老人和小孩的个人判断,还有对隐私保护的侵犯等,这也是模型不安全的一大方面。

投入在AI安全领域的精力、时间、金钱和资源远远不足

澎湃科技:在你的观察中,现在大模型哪些做得安全?

朱小虎: 即便马斯克刚发布的Grok3、DeepSeeK也并不是百分百安全,它还具有欺骗性和诱导性。虽然这类大模型的目标是实现AGI,但模型非常不安全,会衍生出很多问题需要大家解决。不安全的地方在于比如模型可能会被诱导输出一些暴力、危害性信息,甚至一些少儿不宜的内容。这是大模型本身固有的问题,所以需要大量内容审查和过滤,现在只能通过技术手段“堵”而不是“疏”。

目前的技术还无法完全解决这些问题,因为投入在AI安全领域的精力、时间、金钱和资源远远不足。加州大学伯克利分校的一位核安全专家曾提到,核领域的安全投入与核能力开发的比例是7:1。相比之下,AI安全需要投入更多资源来确保安全性。

这些也是大模型落地行业待解的难题之一。技术本身没有善恶,但现在技术让AI产生了价值观,因为训练大模型都是来自人类的数据,不管是正面或是负面,都可能产生危害。

澎湃科技:现在AI深度伪造技术能逼真到什么阶段?普通用户该如何辨别?

朱小虎:深度伪造(DeepFake)近几年确实在持续不断地发展,随着AI技术的增强,它的精细度会逐渐增强。很多时候普通用户比如年纪较大的还有小孩没有办法辨别。对模型企业来说,很多做的模型附带一些水印,这是防范AI深度伪造的技术手段之一,不过这只是初步的技术方案。

澎湃科技:你认为现在谈论AI治理和AI安全,为时过早吗?

朱小虎:之前我认为这个问题并不紧迫,但今年,特别是DeepSeek产生全球影响后,安全问题和治理问题变得非常急迫。过去,大家可能一直在缓慢探索治理和安全的策略,但现在进入了一个新阶段,即开放式的人工智能治理。过去,许多AI技术隐藏在公司或高校背后,例如OpenAI、Google DeepMind、Anthropic等,他们的许多内容并未公开,主要是防止技术扩散。

但现在,OpenAI和DeepSeek的发展激发了大家对开源生态的渴望,所以出现了许多实验和开源项目。全球的企业和高校都在推动开源AI或AGI的发展,这已成为一个明显的趋势。在这一过程中,需要从技术角度进行革新,构建新的框架或平台。这不是单个公司、群体或政府能够独立完成的,而是需要全社会的参与,从不同层面引入合理的方式,通盘考虑并推进。

澎湃科技:在你看来,一个安全的大模型应该是怎样的?

朱小虎:目前还没有出现一个非常好的安全模型。这是一个需要磨合的过程,未来可能会有新的研究机构出现来解决这些问题,因为安全性风险将很快成为现实问题。

目前我们主要追求的是需要模型“可证明安全”,这是非常严格的要求,但从长远来看是最可行的路径。现阶段我们都是通过实验和评估不断测试和改进,逐步逼近目标。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
地球那么大,为什么没有一个国家面积,在400万~700万km²之间?

地球那么大,为什么没有一个国家面积,在400万~700万km²之间?

清沐执笔
2026-06-03 16:01:33
2.0T!林肯新款SUV:16.99万元起

2.0T!林肯新款SUV:16.99万元起

手机评测室
2026-06-04 11:52:42
为什么说中文是地狱难度?网友:给大家来个“中译中”

为什么说中文是地狱难度?网友:给大家来个“中译中”

另子维爱读史
2026-06-03 08:01:08
彻底放纵了!詹姆斯放飞自我!布朗尼你肿么了...

彻底放纵了!詹姆斯放飞自我!布朗尼你肿么了...

詹姆斯吧
2026-06-04 15:22:45
科威特机场遭伊朗袭击,机场航站楼严重损毁,多人受伤,科威特宣布关闭领空

科威特机场遭伊朗袭击,机场航站楼严重损毁,多人受伤,科威特宣布关闭领空

每日经济新闻
2026-06-03 16:00:10
美貌,是顶级陷阱

美貌,是顶级陷阱

说情感世界
2026-06-04 12:35:04
贝克汉姆的女儿小七不仅长残了,还学妈妈美黑明明14岁看着像30岁

贝克汉姆的女儿小七不仅长残了,还学妈妈美黑明明14岁看着像30岁

情感大头说说
2026-06-04 01:27:32
46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

牛油果生活观
2026-06-02 19:09:43
北京街头三大怪:夜行墨镜、遮秃帽、蒙面侠,没捂白却披上战袍

北京街头三大怪:夜行墨镜、遮秃帽、蒙面侠,没捂白却披上战袍

荷兰豆爱健康
2026-06-04 12:29:57
4天期限已到,中方不忍了!我大使敲警钟,欺负中国人后果很严重

4天期限已到,中方不忍了!我大使敲警钟,欺负中国人后果很严重

冷眼看尽世间繁华
2026-06-03 20:01:43
金价跌破980元/克!北京菜百店员称购买投资金条者减少约六成,专家提醒勿将投资变投机

金价跌破980元/克!北京菜百店员称购买投资金条者减少约六成,专家提醒勿将投资变投机

极目新闻
2026-06-04 00:07:31
印媒破防,中国新规堵死印度空手套技术路子,没有下个保变电气了

印媒破防,中国新规堵死印度空手套技术路子,没有下个保变电气了

王新喜
2026-06-04 08:28:13
1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

唠叨说历史
2026-06-01 19:49:35
郑钦文凭啥进温网正赛?FAA遭逆转贝雷蒂尼伤退,郭涵煜输德比战

郑钦文凭啥进温网正赛?FAA遭逆转贝雷蒂尼伤退,郭涵煜输德比战

网球之家
2026-06-04 13:12:02
尼克斯105-95逆袭马刺,1-0领先!我认清了5个现实:文班暴露短板

尼克斯105-95逆袭马刺,1-0领先!我认清了5个现实:文班暴露短板

篮球扫地僧
2026-06-04 14:08:24
卧槽!1000w,威少重返雷霆

卧槽!1000w,威少重返雷霆

体育新角度
2026-06-03 21:11:56
被美国遣返的美籍华人,如今成无国籍人,中国做法值得全世界学习

被美国遣返的美籍华人,如今成无国籍人,中国做法值得全世界学习

探源历史
2026-06-02 14:28:29
全民拒接陌生电话的默契与信任代价

全民拒接陌生电话的默契与信任代价

白浅娱乐聊
2026-06-03 11:22:12
绝望 萨巴伦卡泪洒发布会:心理有黑洞 我现在想退役 几天后见答案

绝望 萨巴伦卡泪洒发布会:心理有黑洞 我现在想退役 几天后见答案

风过乡
2026-06-04 06:37:35
里克尔梅:若哈兰德和罗德里没有加盟,我将支付全部会员会费

里克尔梅:若哈兰德和罗德里没有加盟,我将支付全部会员会费

懂球帝
2026-06-04 06:20:09
2026-06-04 15:43:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
902852文章数 5091954关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

家居
健康
亲子
旅游
军事航空

家居要闻

220平对味儿家 空间情绪宅

违规干细胞抗衰美容,为何肆无忌惮

亲子要闻

高龄备孕很久为什么就是怀不上呢?卵巢功能衰退还能受孕吗?

旅游要闻

美丽中国行·探访大熊猫国家公园|走进卧龙中华大熊猫苑神树坪基地

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版