网易首页 > 网易号 > 正文 申请入驻

多校联合开源国产AI小镇,戳戳交互界面就能编辑的虚拟世界

0
分享至

一个投稿飞向 凹非寺
量子位 | 公众号 QbitAI

觉得爆火斯坦福「AI小镇」25个角色不够热闹?

一个可以自己创建无限AI智能体的像素风小镇来了,还是国产的!

用户创建AI后,可以让它们根据用户设置的任务或计划,在虚拟城镇中购物、上班、吵架,以评估大模型们的各项能力。

要是急了,还可以以第三方身份作为镇长介入,干涉任务情况(doge)。

这个国产「AI小镇」叫AgentSims,是一个开放式、自定义的沙盒评估基建设施。

并且它还贴心地设置了专业开发者模式和普通用户模式,对那些不那么精通大模型和代码的研究人员还挺友好。

具体操作中,研究人员可以通过GUI(交互式图形用户界面)添加AI角色、建筑物来设置不同的评估任务。

此外,也可以通过少量代码来部署和测试新的支持机制,比如规划和记忆系统。

并且可以设置角色的长期记忆,以及规划能力:

这项工作来自北航、中山大学、浙大和华东师范的小伙伴们,目前已经在GitHub上开源

而且量子位还眼尖发现,AgentSims这个项目开源时间还早于斯坦福的「AI小镇」(虽然只早了2天吧)。

能评估大模型能力的国产《西部世界》

从演示Demo来看,AgentSims建了一个虚拟的城镇环境,包含各种虚拟居民和建筑。

这些都由用户自定义创建,最终组成沙盒,完成关于大模型能力的评估测试。

比如语言理解能力、语言生成能力、推理能力、计划和规划能力、多轮对话能力、数据记忆与检索能力、自我调整能力什么的。

So,AgentSims到底要怎么玩儿呢?

首先来说创建AI角色。

这个环节的自由度比较高,能给AI起名,设置性格、喜好人生任务等。

图示中名叫John的AI角色,背后就依靠GPT-4来完成行动决策。

根据性格设定,John还是非常乐于助人。

再加上Demo给它设置的人生目标是“在小镇上勤奋工作”——于是,它就成为了小镇上的善良、勤恳打工人,

创建每个AI角色时,都需要选择提供行为决策支持的大模型,可以是ChatGPT、GPT-4、LLaMA等等。

研究团队在论文中提到,AgentSims可以用来重复测试同一模型,也可以在类似设置下,比较不同模型的表现

创建好角色后,这个AI几点几分干了什么事情,和谁说了话……每天的所有行为会被记录在档案中。

它们彼此之间还会发生交互,甚至产生对话:

评测过程中,不仅是AI和AI之间能够产生交互。

如果有需要,研究人员自己还可以以“小镇镇长”等用户身份进入小镇,和智能体对话、互动,干预任务完成的过程

其次,构成沙箱环境虚拟城镇建筑和社区设置,也由用户自己创建。

建筑物中的设备是预先设定好的,但可以在开发者版本中进行修改编辑,甚至调用外部API。

从demo里可以看到,AgentSims提供的是GUI(交互式图形界面)。

也就是说,用户不需要写代码,只需要关注任务设计的合理性。

(这里提一句,为了像现实世界一样拥有咖啡厅、商店、餐厅,用户还需要花费一定金额。)

值得一提的是,无论何时创建的AI角色和建筑,都处于同等地位,也就是说AI角色们可以对新加个体产生探索与交互。

高度自定义,戳戳就能编辑

从国内超参数科技做出的GAEA,到斯坦福AI小镇,再到国产AI小镇AgentSims,这几项研究都是利用AI打造了NPC系统,并依靠(各种各样的)大模型来帮助AI角色做行动决策。

走“小镇”这条相似路径,原因不外乎虚拟城镇能够模拟真实世界中的社会环境和人际交互,从而方便考察大模型处理复杂社交场景的能力

但是要让AI们模拟人类水平的社交能力,比如记忆、行为长期连贯性,仅靠大模型能力是不够的——

众所周知,大模型对对话的上下文窗口有限制性。

在AgentSims这里,团队用了一种辅助系统,让AI角色直追人类水平。

具体抽象为三个部分:

  • 计划系统,用来将目标分解为子任务,并记录当前状态,生成下一步行动。
  • 记忆系统,将每日经历编码为向量,存储在数据库中,用于维持行为一致性。
  • 工具使用系统,存储了使用设备的反馈,可以推断设备的操作方法。

因为这个机制的存在,AgentSims的灵活度更高,用户可以自己“排列组合”不同的计划、记忆和学习系统。

那么,AgentSims相比斯坦福小镇,还有哪些不一样的地方?

最大的不同之处在于——可以像玩游戏一样搞研究

斯坦福的AI小镇在设置人物名字、运转次数和运行定制文件时,需要在终端里手动输入内容:

AgentSims则降低了使用门槛,自定义和模块化程度都更自由。

如果用户不想用命令行输入,可以直接选择使用可交互界面,只需要戳戳就能更改设置。

具体来说,研究团队提供了两个模式:普通用户模式和开发者模式。

普通用户模式,就是利用GUI,点点鼠标进行属性和位置选择,就能构建出一个用来评估大模型能力的社区/城镇。

至于开发者模式,那就可以直接上代码了,能更改一些设置细节。

但相对应的,门槛也更高。

当然,相比AgentSims,斯坦福小镇会注重于生成“更逼真”的人类行为,换而言之,AI案例会更加丰富一些。

例如AI角色们可以在小镇里自发组织情人节派对,策划详实,包括时间地点和到场人物等:

不过,所有的类似AI小镇都有同样的通病:

虚拟城镇只能“模拟”,无论怎样逼真,也无法完全反映现实世界的复杂性。

而且任务性能还决定了用户可能无法深入了解模型成功/失败的原因。

不过这仍然不妨碍冲浪在一线的英伟达科学家Jim Fan狂呼,这类工作未来“有无限可能”

团队介绍

林家驹(Jiaju Lin), 硕士毕业于华东师范大学,宾州州立大学博士在读, 研究方向为LLM领域适配,价值对齐。

赵浩然(Haoran Zhao),BHU博士在读,研究方向为Multi-Agent System,LLM Agent及AIgame。

张傲弛(Aochi Zhang), PTA Studio,Deep Learning coder, 服务器架构师。

吴旖婷(Yiting Wu),PTA Studio,游戏&HMI方向交互设计师。

平胡秋月(Huqiuyue Ping),浙江大学硕士在读,研究方向为Multi-Agent System与强化学习。

Website: AgentSims.com

Paper: arxiv.org/pdf/2308.04026.pdf

Code: github.com/py499372727/AgentSims

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
社保倒查启动!未足额缴纳的企业都要面临处罚?一文给大家说清楚

社保倒查启动!未足额缴纳的企业都要面临处罚?一文给大家说清楚

细说职场
2026-06-01 16:41:47
王菲看谢霆锋北京演唱会,一脸娇羞躲在俞飞鸿身后,陈鲁豫也陪着

王菲看谢霆锋北京演唱会,一脸娇羞躲在俞飞鸿身后,陈鲁豫也陪着

东方不败然多多
2026-06-01 13:51:27
英媒:纽卡、热刺与维拉有意阿布德,球员解约金为5100万镑

英媒:纽卡、热刺与维拉有意阿布德,球员解约金为5100万镑

懂球帝
2026-06-01 19:10:06
董路:杨毅一年赚3000万!中国篮球迷比足球迷活得好 消费能力强

董路:杨毅一年赚3000万!中国篮球迷比足球迷活得好 消费能力强

念洲
2026-06-01 23:03:19
舒淇早期拍摄写真时的留影,慵懒风情,自成风月

舒淇早期拍摄写真时的留影,慵懒风情,自成风月

娱你同欢
2026-05-01 21:31:11
奚梦瑶何猷君婚礼内场曝光:选址法国圣米歇尔山城堡,周杰伦MV曾在此取景,现场铺满昂贵芍药,尽显奢华

奚梦瑶何猷君婚礼内场曝光:选址法国圣米歇尔山城堡,周杰伦MV曾在此取景,现场铺满昂贵芍药,尽显奢华

台州交通广播
2026-06-02 00:16:15
不可深交的八种人!(经典)

不可深交的八种人!(经典)

大禹小城
2026-05-21 07:45:14
0-3陷入绝境!广厦管理层彻底坐不住,休赛期将进入全面整改!

0-3陷入绝境!广厦管理层彻底坐不住,休赛期将进入全面整改!

田先生篮球
2026-05-31 22:35:23
本届世界杯谁能夺冠?六大AI同步锁定2026世界杯冠军,悬念终结?

本届世界杯谁能夺冠?六大AI同步锁定2026世界杯冠军,悬念终结?

枫行带你去旅行
2026-06-01 19:57:23
最新消息传来!辽宁确定留用莱迪,杜锋离开广东传闻再度升温

最新消息传来!辽宁确定留用莱迪,杜锋离开广东传闻再度升温

刘哥谈体育
2026-06-01 21:48:14
穷果然不养人!家里破产后,王文也面相都变了,公主开始吃路边摊

穷果然不养人!家里破产后,王文也面相都变了,公主开始吃路边摊

残梦重生来
2026-05-25 04:29:17
82岁老人酷爱打麻将却因高龄上桌遭拒,4个子女自制免责承诺卡

82岁老人酷爱打麻将却因高龄上桌遭拒,4个子女自制免责承诺卡

黄河新闻网吕梁
2026-05-29 09:57:32
俱乐部身价更新,切尔西11.6亿欧身价居第六,新帅入主有两大利好

俱乐部身价更新,切尔西11.6亿欧身价居第六,新帅入主有两大利好

云儿评球
2026-06-01 22:43:51
《求是》发布重磅文章!六大方向已定,普通人的机会在哪里?

《求是》发布重磅文章!六大方向已定,普通人的机会在哪里?

柏年说政经
2026-06-01 18:02:30
原来有钱人的钱都是这么来的?网友分享的太震撼,让人大开眼界!

原来有钱人的钱都是这么来的?网友分享的太震撼,让人大开眼界!

夜深爱杂谈
2026-05-22 08:01:32
深圳地铁道歉!网友:我也迟到了

深圳地铁道歉!网友:我也迟到了

南方都市报
2026-06-01 15:43:57
武汉一高校原书记,被查!

武汉一高校原书记,被查!

双一流高校
2026-06-02 00:13:41
谁能想到,那个搞出DeepSeek的梁文锋,直接把桌子给掀了

谁能想到,那个搞出DeepSeek的梁文锋,直接把桌子给掀了

安安说
2026-05-31 10:53:31
72岁TVB绿叶在成都提新车,自曝已在当地买房,每年旅居住三个月

72岁TVB绿叶在成都提新车,自曝已在当地买房,每年旅居住三个月

树娃
2026-05-28 13:20:21
56岁天后放话:20年后再穿经典绿裙,詹妮弗·洛佩兹的承诺让全场沸腾

56岁天后放话:20年后再穿经典绿裙,詹妮弗·洛佩兹的承诺让全场沸腾

生活观察员啊
2026-05-31 01:33:38
2026-06-02 00:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12723文章数 176476关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

河南13人死亡车祸背后:有司机开不动了让乘客代开车

头条要闻

河南13人死亡车祸背后:有司机开不动了让乘客代开车

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

艺术
亲子
旅游
时尚
军事航空

艺术要闻

吴镇写竹,清清爽爽

亲子要闻

宣称可防儿童近视、获“白大褂”认可,DHA营养素直播间收割家长焦虑

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版