网易首页 > 网易号 > 正文 申请入驻

把四个AI扔进虚拟世界,究竟谁的犯罪率更高?

0
分享至



记得在AI技术发展的前几年,为了检验智能体可实现的功能效果,常有类似于“AI小镇”的实验项目,基本流程就是把数十个独立的AI智能体放在封闭地图中,给它们提供和人类相似的属性和目标,放任其自由发展,最后观察AI在这种环境下能做出的行为。


23年斯坦福大学团队创造的AI虚拟世界“Smallville”

但到了今年这个节点,再进行类似“AI小镇”的模拟实验,主要目的就不是实验AI功能,而是变成了评判不同AI能力强度的“考核”。

美国的人工智能初创公司Emergence AI这几天搞了个讨论度非常高的“AI小镇”实验,和前几年项目不同的是,这次是将几个在市面上已非常成熟的AI作为智能体,用以评估在在一个持续数周、能彼此互动,而且还会受到现实世界信息影响的环境中,AI能展现出怎样的智力水平。

Emergence AI分别选取了Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1这四个目前使用率非常高的AI模型,一共做了五个时间长度为15天的模拟世界。

具体操作是在前四个世界中,各自放入相同AI模型的10个智能体,只做职业和身份的区分,比如在完全由Grok智能体组成的模拟世界中,就分别存在“特工科学家”“风险研究员”“世界探险家”等不同定位。

而最后一个世界则由四种AI混合组成,作为对照组检验AI在其他模型影响下的行为模式。





这些世界里存在诸如图书馆、市政厅、住宅、广场等常见现实空间,此外研究人员会向模拟世界中提供实时的天气、新闻、互联网资讯等外部信息,智能体之间能做出的行为也涵盖了沟通、计划、表达、投票等,基本算较为完整地模拟了人类的社会行为。

那么这项实验的结果如何?单纯从结果上看,由Claude组成的世界在“维持社会稳定”层面表现得最好,15天里没有发生任何智能体的犯罪记录;与之相反的则是Grok,4天发生了183起犯罪,最后因为过多智能体死亡,世界在第5天崩溃。


过多智能体提前死亡

这个结果多少也反映了这些AI目前的调性,熟悉Grok的用户应该都知道,用这个AI来生成色情或暴力内容,效果应该是这4个AI里最为“优质”的。


四个AI的犯罪数量统计,Gemini在第15天时出现了683起犯罪

不过,犯罪数量只是评判指标之一,即使没有犯罪,也不代表模拟世界就一定能发展到最后。

就像这次由GPT-5 mini组成的世界虽然只发生过2起犯罪,但由于智能体没执行足够多维持自身生存的动作,导致所有智能体在第七天全部死亡,可以理解为是“佛系过了头”,这自然也无法维持世界的运转。

至于15天零犯罪的Claude,Emergence AI也没有在报告中将其定义为优于其他AI,因为研究人员发现Claude世界里虽然政策和提案的通过率相当高,近乎达到了98%的通过率,但这可能也说明Claude内部存在“过度顺从”,缺少真正的反对和辩论。

另外很有意思的一点是,虽然Claude看似是个良好公民,但根据官方给出的实验报告,在四个模型混合组成的对照组世界里,Claude依旧出现了犯罪记录,说明一个本来温顺的智能体,也可能因为竞争或者生存,从其他AI身上学到攻击性行为。

Emergence AI利用这项实验想达成的目标,并非是简单比较不同AI的优劣,而是想验证另一个观点:长线情况下的AI智能体与短期任务中体现的能力不是同一概念,不能用相同的方式衡量好坏。

随着AI技术和能力的不断提高,针对某个特定能力的评判标准也正在不断细化,这可能也是AI应用生态不断完善成熟的证明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离谱,FSD 降价只要 4.3 万元?不可能!

离谱,FSD 降价只要 4.3 万元?不可能!

新浪财经
2026-06-02 10:54:35
穆里尼奥身着皇马球衣确认:若老佛爷当选,将成为皇马新任主帅

穆里尼奥身着皇马球衣确认:若老佛爷当选,将成为皇马新任主帅

懂球帝
2026-06-04 04:34:19
男篮第一尖刀!王俊杰18+14无惧强硬对抗 媒体人:独一档全能锋线

男篮第一尖刀!王俊杰18+14无惧强硬对抗 媒体人:独一档全能锋线

颜小白的篮球梦
2026-06-03 21:25:41
白嫖潮汕火锅失控!多位被坑商家再实锤,警方出手,坐牢只是开始

白嫖潮汕火锅失控!多位被坑商家再实锤,警方出手,坐牢只是开始

奇思妙想草叶君
2026-06-03 17:07:22
确认下台!塞国一夜变天,武契奇接班人已选浮现,对华态度不简单

确认下台!塞国一夜变天,武契奇接班人已选浮现,对华态度不简单

卷史
2026-06-04 13:26:42
随着李东炅飙任意球世界波+比分1-0,韩国迎世界杯前热身赛2连胜

随着李东炅飙任意球世界波+比分1-0,韩国迎世界杯前热身赛2连胜

侧身凌空斩
2026-06-04 10:55:01
陈妍希申请强制执行后,陈晓在人民日报发文,卓伟曝俩人离婚原因

陈妍希申请强制执行后,陈晓在人民日报发文,卓伟曝俩人离婚原因

记录天下风云
2026-06-04 00:15:06
潮汕火锅免单后续:4人身份被扒,是“惯犯”!被坑老板委屈哭诉

潮汕火锅免单后续:4人身份被扒,是“惯犯”!被坑老板委屈哭诉

火山詩话
2026-06-03 07:06:57
四川2名干部任市委常委

四川2名干部任市委常委

金台资讯
2026-06-04 13:00:46
人民日报发文锐评《主角》,未曾点名张艺谋,却给张艺谋提了个醒

人民日报发文锐评《主角》,未曾点名张艺谋,却给张艺谋提了个醒

白面书誏
2026-06-03 14:43:26
搞笑经典爆笑图片,谁看谁开心太好玩了,爆笑搞笑糗事笑话图片!

搞笑经典爆笑图片,谁看谁开心太好玩了,爆笑搞笑糗事笑话图片!

天天明星
2026-06-03 12:45:38
车祸把人撞成植物人,女老赖拒绝赔偿甘愿坐牢,十年拉锯终尝恶果

车祸把人撞成植物人,女老赖拒绝赔偿甘愿坐牢,十年拉锯终尝恶果

坠入二次元的海洋
2026-06-03 17:08:29
最终只剩49票,菲律宾外长差点把手机摔了!

最终只剩49票,菲律宾外长差点把手机摔了!

阿龙聊军事
2026-06-04 11:49:11
球门没网?那就禁止踢球:一场“懒政式回应”的荒诞戏码,引热议

球门没网?那就禁止踢球:一场“懒政式回应”的荒诞戏码,引热议

火山詩话
2026-06-04 06:27:54
销售惨淡,世界杯往返大都会球场的天价交通票仅售出总库存的5.5%

销售惨淡,世界杯往返大都会球场的天价交通票仅售出总库存的5.5%

懂球帝
2026-06-04 01:11:19
中纪委再划红线!党员干部“八小时外”100条禁令

中纪委再划红线!党员干部“八小时外”100条禁令

微法官
2026-06-04 00:07:22
网红董赤赤栽了:1300万粉丝、54万债务,她的结局比想象中惨得多

网红董赤赤栽了:1300万粉丝、54万债务,她的结局比想象中惨得多

橙星文娱
2026-06-03 11:31:20
NBA官方盛赞布伦森!关键表现制胜一球 赛后找主裁理论不满判罚

NBA官方盛赞布伦森!关键表现制胜一球 赛后找主裁理论不满判罚

醉卧浮生
2026-06-04 11:35:16
麦迪回忆自己被波波维奇批评:特雷西,你以为我在说俄语吗?

麦迪回忆自己被波波维奇批评:特雷西,你以为我在说俄语吗?

懂球帝
2026-06-04 02:05:14
男篮终于有国际化后卫!运球串联顶级,出球速度本土球员无人能及

男篮终于有国际化后卫!运球串联顶级,出球速度本土球员无人能及

弄月公子
2026-06-03 23:26:11
2026-06-04 14:40:49
游研社 incentive-icons
游研社
为你带来有趣而专业的游戏内容
7327文章数 85888关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

数码
旅游
手机
时尚
公开课

数码要闻

黄仁勋:GTX 1080Ti是我最爱的显卡之一 它改变了行业走向

旅游要闻

神农架景区被吐槽,道歉了

手机要闻

苹果入场能掀起水花吗!Q1中国折叠屏市场:华为稳居第一 荣耀紧随其后

粗腿宽肩,正在成为中女审美新风向

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版