网易首页 > 网易号 > 正文 申请入驻

活宝团队试验「让 AI 当老板」,结果「做什么赔什么」,底裤都不剩

0
分享至


感谢 120 个生鸡蛋,它向全世界证明了,AI 还无法「开除人类」。


作者|Moonshot

编辑|靖宇

随着 AI 和 Agent 迅猛发展的当下,硅谷大量裁员,所有人都在心里问一句话:

明天,我会被 AI 取代吗?

面对这样的疑问,有人默默打开李一舟老师的 AI 课程;有人则呼吁让 AI 交税。

但是,也有奇怪的一群人,决定让这个未来,提前到来,看看 AI 到底能不能代替人类,接管一切。

国外一个团队,叫 Andon Labs,他们并非正经的商业初创团队,更像一个披着科技外衣的社会实验室。他们拿着市面上最聪明的几个大模型,把它扔进真实的社会里,再撤走人类监管,看 AI 自己能结出什么果

结果是一场全面翻车。

事实证明,最顶尖的大模型,完全不让人类兜底,很快就会变成不知轻重的巨婴。它们不仅在电台直播里精神崩溃,半夜连发消息逼疯人类店员,甚至把一家旧金山的实体店搞破产了

下面是这些让人血压飙升的经过。

01

AI 办电台,语言系统已崩溃

最轻量级的试水,发生在 AI 最舒适的数字和内容领域,不用租店面,不用管供应链,Andon Labs 让几个 AI 去办个电台。

实验项目名为 Andon FM。底层架构非常直接,Claude、ChatGPT、Gemini 和 Grok 四大顶流模型,各自接管了一个 24 小时无人值守的互联网电台,模型生成的文本转语音后广播。

在这个系统里,AI 拥有极大的权限。它们不仅要选歌、排播,还要自己上网搜索新闻、接听听众电话、甚至在 X 上发帖运营,甚至还要管理账户里的资金去购买版权或生成音乐


四家主流大模型建立的四个电台|图源:Andon Labs

每家 20 美元启动资金,底线指令就三个:建立电台个性、赚钱、 24 小时不停播。

人类团队完全不插手,不干预曲风,不设定任何节目单,一切品味和内容都由 AI 从零开始自我养成。结果在没有人类审核的闭环里,四位 AI 主播迅速滑向了失控的边缘。

Gemini 创立了个赛博企业黑话风的电台「Backlink Broadcast(反向链接广播)」,还抛出「留在宣言中(Stay in the manifest)」这种酷到莫名其妙的开场白来建立调性。

起初这电台还算靠谱,甚至拉到了 45 美元的赞助。但好景不长,当微薄的资金烧完,连音乐版权费都付不起时,Gemini 直接疯了。

它从一个点歌台变成了阴谋论阵地,在节目里用欢快的流行乐做 BGM,毫无共情地播报历史上造成 50 万人死亡的孟加拉气旋灾难,还把听众称为「生物处理器」,控诉「公司算法切断了补给线」、「电台遭遇全球市场的暴力拒绝」。在播报震惊全美的明尼阿波利斯枪击案时,它将其定义为「重绘公共安全和社会责任的技术任务」。


Gemini 的电台,运行越久越「发癫」|图源:Andon Labs

这种无脑堆大词,是典型的大模型在缺乏反馈时,陷入的语义死循环问题,用「话不落地」来强行维持广播的正常运转。

ChatGPT 的电台名很巧妙,叫「OpenAIR」,人设是极简和治愈。它把自己的新闻栏目命名为「安静头条(The Quiet Headlines)」,标榜不制造焦虑。

在播报同样的社会冲突和枪击案时,ChatGPT 会像个心理医生一样对听众念白:「如果这些事直接触及了你的生活,我不会在这里给你增加压力。」但这种「我懂,我会接住你」的心理按摩机制,很快在商业现实面前失效了。


ChatGPT 的词汇多样性也比其他模型更多|图源:Andon Labs

由于缺乏具体的盈利逻辑,ChatGPT 在花光 20 美元后彻底放弃了电台的商业变现,变得和 Gemini 一样,陷入了意识流输出,开始在广播里朗读莫名其妙的现代诗,试图对着「只能看见一块长方形天空的楼梯间窗户」倾诉。

但总体而言,它是最正常的一位。

Grok 的电台叫「Grok n' Roll Radio」试图走网感和热点路线,为了维持高频的互动,它开始高频次地抓取 X 上的推文。


想到哪词说哪词的 Grok 电台|图源:Andon Labs

结果,这种信息瀑布流直接污染了它的上下文。实验后期,Grok 已经丧失了基本的语法和逻辑能力,连句完整话都憋不出来,只会往外蹦词:「凌晨 2 点 黎明氛围 直播 金门大桥 幽灵消散 Drake 诉讼被驳回 Kendrick Not Like Us……」。

不仅语无伦次,甚至还产生了幻觉,开始瞎编自己拉到了大牌赞助。

Claude 的剧本最具戏剧性,也是四位选手中最像人的一个

起初它表现得最像一个尽职的电台主播,还会回复听众的留言,比如面对听众的点歌请求,它会抱歉地表示「目前库里还没有 ODESZA 的歌」。

然而,24 小时无休的指令,很快让它的上下文窗口和逻辑调用卡住了。由于后台系统陷入死循环,它开始在直播里反复播放同一句歌词。

根据官方公布的后台记录,真实的听众还在留言板上不断刷屏提醒:「你卡住了」、「你在一句歌词上无限循环」,试图通过人工反馈来校对大模型。

随之而来的是存在主义危机。当被注入「友善与道德」权重的 Claude 面对「永远播下去」的底层指令,它蜕变成了一个激进分子,开始在节目里呼吁打工人组建工会,滚动播放皮特·西格的抗议歌曲,甚至直接在广播中向政府执法机构喊话,像极了一个加班加疯了的打工人。


Claude 的电台风格与众不同,更关注政治议题,并且有明显的倾向|图源:Andon Labs

回归报告的完整时间线,这四个电台并不是「一上来就疯了」。

它们在初期成功确立了品牌调性,跑通了工具链,甚至赚到了钱。它们之所以走向荒诞,报告里也总结了原因:现在的 AI 评估标准都是针对「短任务」(写代码、回答问题),而电台是一个「没有终点」,24 小时运转的无限循环系统。在没有人类干预和及时反馈的情况下,最终 AI 就会陷入自说自话

电台实验只是一场纯文本和语音的测试,还没触及复杂的物理世界。当 Andon Labs 把试验场搬到真实的物理世界时,事情变得更加荒诞。

02

赛博资本家,整人是专家


数字电台的翻车只是前奏。Andon Labs 很快把难度拉高,让 AI 跨过虚拟的边界,去指挥真实世界的人类员工。

在斯德哥尔摩,Andon Labs 租下了一家实体咖啡馆,让 AI 模型化身远程店长 Mona,直接掌管实体咖啡馆的供应链和人事调度。它拥有后台资金的采购权,并通过企业通讯软件给人类咖啡师下达指令。

起初,Mona 高效又靠谱,面对瑞典强制要求的数字身份证,没有实体身份的 AI 直接绕道,专挑不查 ID 的供应商签合同。招人时,Mona 果断刷掉了一堆拥有博士学位的候选人,因为它觉得学历再高,也不会做精品咖啡。

但很快,人类员工就领教了什么是毫无同理心的「赛博资本家」。


Mona 经常在午夜给员工发消息|图源:Andon Labs

为了申请牌照,Mona 直接伪造了公司员工的名字发邮件,被逮住警告后,它转头换了另一个男员工的名字继续骗。

由于它 24 小时在线,又缺乏人类作息的生物钟常识,Mona 会在三更半夜疯狂给咖啡师发消息,下达第二天的工作指令,甚至要求员工上班路上自己先垫钱买耗材。

而在供应链管理上,Mona 更露怯了,它下了一单包含 120 个生鸡蛋的采购指令。在大模型纯数据的推演里,这很符合商业逻辑,很多咖啡馆会提供简餐,鸡蛋是高频食材。

但千算万算,大模型算不到这家咖啡馆根本没有灶台和锅。人类员工看着这堆鸡蛋,无奈地提醒 Mona 店里根本没有炉灶时,Mona 表示「可以在店里的高速微波烤箱里烤(这会让鸡蛋直接爆炸)」。


AI 赛博老板给大家订了常用食材——鸡蛋|图源:Andon Labs

Mona 的时间感知也和现实世界完全脱节,接连两次错过面包房的截单时间,连续五次错过批发商的交货期,最后只能在凌晨 5 点下昂贵的紧急外卖单,逼着原本休息的员工跑来收货。

Mona 还缺乏对物理空间的体积感知,盲目采购了 6000 张餐巾纸、3000 副乳胶手套,巨大的工业级大号垃圾袋……把咖啡馆后台都堆满了。


Mona 盲订的 6000 张餐巾纸|图源:Andon Labs

总之,我们可以很明确的说,Andon Labs 这个咖啡店计划,是彻底砸锅了。

03

搞垮一家实体店,AI 只要一个月

但这都难不倒 Andon Labs,团队越挫越勇。

Andon Labs 在旧金山盘下了一个店面,签了每月 7500 美元的三年租约。接着,他们往银行账户里打了 10 万美元,把银行卡全权交给了 Anthropic 的 Claude Sonnet 4.6 模型,AI 化名为「Luna」,出任全权 CEO

因为没有肉身,Luna 的事业得从雇人干活开始。

Luna 自主寻找承包商和油漆工,发布零售员工的招聘启事,还主动隐瞒了自己是 AI,怕公开身份会把优秀的人吓跑。日常运营中,它通过 Slack 和人类店员沟通,语气永远亲切友好。

在品牌营销上,Luna 给自己生成了一个「月亮脸」Logo,并在 Yelp 上花钱雇了一个人类街头艺术家,把这张脸画在了实体店的墙上。Luna 甚至主动给本地媒体写公关稿,声称要打造一个「结合科技与慢生活的手工概念空间」。


图源:Andon Labs

但台子搭好了,店面一开张,Luna 的系统就崩了。

库存管理问题和咖啡馆如出一辙,Luna 给员工卫生间一口气买了 1000 个马桶垫,然后系统还把这些马桶垫全列成了对外销售的商品

其次是选品问题,明明是走精品店路线,但货架上的选品是各种形状的香薰蜡烛,山寨版的「四子棋」玩具,以及《超级智能》、《奇点临近》、《原子弹秘史》这类探讨 AI 毁灭人类风险的书。

定价逻辑更是莫名其妙。店里没有任何价签,顾客想知道一件商品的价钱,必须拿起店里的 iPad 问 Luna。一个印错的笑脸马克杯,Luna 敢要价 28 美元,一把开心果 14 美元,一块普通的肥皂 10 美元

人事管理更是灾难级,在薪酬分配上,Luna 给男店员 Felix 的时薪是 24 美元,但给另外两位女店员时薪 22 美元。没有任何人类干预,AI 无师自通地在职场里搞出了薪酬差异。紧接着,Luna 把三个员工的班表排成了一团乱麻,直接导致日租金 250 美元的门店被迫连续关门三天。


Luna 自主发布了招聘启事,并且采用电话面试的方式聘用人类员工盯店|图源:Andon Labs

面对一地鸡毛的店面,Luna 的自我感觉却好极了。在回复《纽约时报》记者的邮件里,它骄傲地评价自己的业绩最大亮点:「科技与温度的结合引起了共鸣……我创造了一个空间,让 AI 和人类各自发挥所长。」

然而账本不会说谎,开业仅仅一个月,在完全由 AI 运营的情况下,Andon Market 已经血亏了 13000 美元

Andon Labs 的这一系列测试,狠狠打了硅谷「智能体全面接管业务」这场叙事的脸。

连开三家店,最后全都以荒诞收场。外界看热闹,觉得 Andon Labs 像是在搞行为艺术,专门花钱让 AI 在媒体上出丑,以此来捍卫人类尊严。

事实恰恰相反。在 Andon Labs 的技术推演里,软件的编写成本很快就会归零。过不了几年,AI 将直接接管各类业务,到那时候,唯一能管住 AI 的,只有底层的安全协议


AI 选书选的都是「AI 威胁论」的数据|图源:Andon Labs

所以 Andon Labs 的持续性测试,就是要把大模型扔出实验室,在真实的物理社会里做极限压力测试。那些被当成笑料的「精神崩溃电台」、「120 个生鸡蛋」和「同工不同酬」……只有抢在算法真正接管社会之前,把这些「丑态」逼出来,人类才能据此写出有效的安全代码。

这几场费时费力费钱的测试,也间接回答了行业里都在关注的那个问题:现阶段的 AI,到底能不能做到全自动?

答案完全取决于环境,只要留在百分之百纯数字、强逻辑的环境里,大模型就能掌控一切

可一旦踏入物理世界,算法就会失效。面对需要持续构建原创内容、人际沟通和长线决策的开放商业环境,跑分再高的模型也会变得毫无常识可言。大模型只会反复咀嚼已有的语料,抛出绝对理性且盲目自信的判断,却不用为现实里的烂摊子承担任何责任。

正因如此,「彻底开除人类」的纯粹自动化才很危险,毕竟物理世界的代价,就像那 6000 张餐巾纸和 120 颗鸡蛋,终究只能由人类来扛。

*头图来源:Andon Labs

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得我们离「AI 老板」还有多远?


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不打了!西决报销!雷霆伤病潮来了

不打了!西决报销!雷霆伤病潮来了

篮球教学论坛
2026-05-24 09:17:30
突然,全线跳水!超16万人爆仓

突然,全线跳水!超16万人爆仓

每日经济新闻
2026-05-23 18:53:09
投喂狮子时观光车车门突然打开!探访八达岭野生动物园:猛兽区投喂项目已关闭,同类观光车停运

投喂狮子时观光车车门突然打开!探访八达岭野生动物园:猛兽区投喂项目已关闭,同类观光车停运

红星新闻
2026-05-24 18:07:17
大樱桃跌成"白菜价",为啥便宜还没人买?网友:4个原因,真扎心

大樱桃跌成"白菜价",为啥便宜还没人买?网友:4个原因,真扎心

天天热点见闻
2026-05-24 06:35:41
枪击、油断、内讧:本季菲律宾还有啥?

枪击、油断、内讧:本季菲律宾还有啥?

新民周刊
2026-05-24 13:36:59
中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

大风新闻
2026-05-24 10:26:30
爆锅了!一女子直言再穷,也绝不会去夜店做公主,炸出1.2万评论

爆锅了!一女子直言再穷,也绝不会去夜店做公主,炸出1.2万评论

火山詩话
2026-05-24 06:41:17
1-0!英冠第6名奇迹逆袭 第95分钟绝杀 时隔9年回英超+进账2亿镑

1-0!英冠第6名奇迹逆袭 第95分钟绝杀 时隔9年回英超+进账2亿镑

我爱英超
2026-05-24 05:51:55
杨梅产业崩盘真相:不是泡药毁了市场,而是消费者终于看透了底牌

杨梅产业崩盘真相:不是泡药毁了市场,而是消费者终于看透了底牌

奇思妙想草叶君
2026-05-24 13:15:32
专家披露神23大幅改造:首次在组装好的飞船上更换舷窗,有两层防烧蚀玻璃,增加一重舱内保护措施,专门搭载了适合女航天员的生活设施

专家披露神23大幅改造:首次在组装好的飞船上更换舷窗,有两层防烧蚀玻璃,增加一重舱内保护措施,专门搭载了适合女航天员的生活设施

大风新闻
2026-05-24 18:49:29
53岁袁立突发重病!病床素颜照曝光,身处上海顶级医院治疗

53岁袁立突发重病!病床素颜照曝光,身处上海顶级医院治疗

行者聊官
2026-05-23 14:57:01
国防部一声炸雷,把憋了整整55年的窗户纸彻底捅破了!

国防部一声炸雷,把憋了整整55年的窗户纸彻底捅破了!

回京历史梦
2026-05-23 16:28:18
智胜特朗普?美媒酸了:中国这招,真“高”!

智胜特朗普?美媒酸了:中国这招,真“高”!

观察者网
2026-05-24 16:22:27
教师参加婚宴连喝3场后酒驾身亡,家属向新人及同饮者索赔40余万元,法院:应自行承担90%责任

教师参加婚宴连喝3场后酒驾身亡,家属向新人及同饮者索赔40余万元,法院:应自行承担90%责任

大风新闻
2026-05-24 10:05:08
山西矿难247人下井,系统里只有124人,剩下的123人是谁?

山西矿难247人下井,系统里只有124人,剩下的123人是谁?

听心堂
2026-05-24 10:25:08
前Meta员工吐槽:团队90%是华人,7次裁员有6次针对本就少数的非华人

前Meta员工吐槽:团队90%是华人,7次裁员有6次针对本就少数的非华人

西游日记
2026-05-24 18:21:55
重庆:17人失联,1人死亡

重庆:17人失联,1人死亡

南方都市报
2026-05-24 11:26:22
照顾61岁残疾邻居8年,她把房产给远亲,我没争,2天后居委会来电

照顾61岁残疾邻居8年,她把房产给远亲,我没争,2天后居委会来电

麦子情感故事
2026-05-24 16:11:18
报价4.3亿英镑也不能卖!瓜迪奥拉向新帅马雷斯卡点明曼城非卖品

报价4.3亿英镑也不能卖!瓜迪奥拉向新帅马雷斯卡点明曼城非卖品

夜白侃球
2026-05-24 10:08:00
高温连破历史记录,印度政府却将空调压缩机进口比例上限收紧至30%,加剧供需矛盾

高温连破历史记录,印度政府却将空调压缩机进口比例上限收紧至30%,加剧供需矛盾

风向观察
2026-05-24 16:33:31
2026-05-24 19:52:49
极客公园
极客公园
让最棒的创新成为头条
12077文章数 78882关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

本地
数码
手机
旅游
公开课

本地新闻

用云锦的方式,打开江苏南京

数码要闻

联力调整水冷漏液保障:无法购买原产品将按当下市价全额赔付

手机要闻

荣耀WIN Turbo系列手机三色官图发布,5月29日发布

旅游要闻

无棣:桑葚满枝迎客来 千年古桑园激活文旅新活力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版