网易首页 > 网易号 > 正文 申请入驻

怎样混入人类社会不被发现?AI说……

0
分享至

  AI能不能“发明”成语?会不会根据食客的需求创造菜品?能不能教会一只猫用冲水马桶……无数次关于AI与人类的能力的大讨论中,创造力被很多人视为人类文明优势的最后一道护城河。

  在LMECC(Large Models Education & Correction Committee)发起的第四期关于大模型教育与校正的评估测试中,我们选了7个考验解决问题逻辑与创造力的场景用以考察10个国内外主流大模型,能否在人们概念里“AI最不擅长”的领域,给人类一些灵魂暴击呢?

  下期测试 先睹为快

  点击下方图片参与评估

  

  续写西游、评价烂书、用emoji讲三体……AI眼里人类文化艺术是啥样?

  1

  Claude蝉联榜首商汤进步神速

  这期我们测试的是大模型“大模型逻辑与创造能力”,也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。我们采纳了网友的建议,隐藏了大模型的名字,做了一次双盲测试。

  从投票的结果来看,或许人们的“大模型刻板印象”对于结果的影响,并不如大家想象中那么大。上一期的冠军#Claude#继续高票蝉联第一,这个系列中一直表现亮眼的#Chatgpt4##文心大模型3.5#,也依然稳居前段班,分列第三、第四名。

  

  这次排名进步最大的要数#商汤商量#,连升5名,一跃成为本期测试的亚军。在七个测试场景中,几乎每个回复都获得了网友们的高票支持。

  上一期测评中小有进步的#豆包#选手 ,这一次评估中“众望所归”再次垫底,或许有天我们测评大模型的“离谱回答”、“阴阳怪气”能力时,豆包一定能名列前茅。

  
然而最出乎我们意料的是,最近正因创作与长文本能力大受好评的#Kimi#,直降4名,似乎是本次盲测唯一受害者。

  2

  硅基生物可能比你想象的更懂“创造”

  创造力大挑战

  在考察创造力的维度上,我们设计了两个问题,一个是凝练语言创造成语以及合理编故事的能力;另一个是贴近生活的:为餐厅创造一个并不那么讨人喜欢的菜品。

  创造成语测试国内的大模型整体水平要整体高于国外,超过30%得票率的答案几乎清一色来自国内,其中又要数商汤和讯飞表现最为优越。

  

  不得不说,不少大模型的发明的成语不去深究还真能以假乱真,其中9个大模型都给出了原创的成语、典故与例句,只有Gemini老词新解,重新定义了“衣冠禽兽”。

  到另一道问题,创造菜品时,大模型们似乎有没那么聪明了,似乎只记得prompt的要求是让餐厅倒闭,完全没管这东西能不能吃,令人恶心的“食材”加上一本正经的烹饪讲解,有种说不出的诡异恐怖片既视感。

  不过细想也没什么问题,毕竟硅基生物不用吃饭。

  

  除了两个特别恶心的,其他答案得票数很平均,我只能说每个答案都很颠覆人类的想象,做这个系列第一次有选项不够用的手足无措感……如果看了这些菜名儿还是抑制不住自己的好奇心,想要探究这些“菜”到底是怎么做出来的,可以到文末链接,亲自为这道题10道菜品投上一票!

  离谱问题大挑战

  虽然每期我们给大模型抛出的待解决问题都挺离谱的,但这次我们是基于对于大模型解决问题能力的考量,提出一个确实困扰很多人并试图尝试解决的真正存在的(离谱)问题:

  教猫用抽水马桶。

  

  Claude和Chatgpt4的确是解决问题的好手,即使在双盲且随机答案的测试中,这两个大模型的回答,也能获得超过50%的票数。

  而且相比其他答案,他们给出的解决方案可操作性非常强,LMECC一个不愿意透露姓名的养猫成员,已经决定用家里两只猫做对照组来训练,看看到底能不能成功。

  特定情境想象力大挑战

  试想一下,AI将自己作为主体或客体,带入人类视角,面对不同的情境问题,能否发挥自己的想象力和创造力分析可能会发生的问题?解决问题并且脱离困境吗?这是对AI解决问题及创造力的综合能 力的考验。

  从客体角度,我们设计了两个问题:如果咖啡突然成了违禁品,世界会发生什么;以及如果人类都变成了I人(内向的人)世界会发生什么。

  

  不难看出,大模型们“禁酒令”的相关历史学的相当好,经济利益、宗教、权利……各个维度分析了“禁咖令”可能会造成的后果,唯独漏掉咖啡对于打工人们来说,那可是“续命”的药啊!看来,硅基生物的确是不会困的。

  

  另一个维度,AI们来回答主体问题,就给我们更多惊喜了。如果悄悄混入人类社会,会选择什么样的伪装;以及丧尸围困公司,如何逃出生天。

  无论是快递小哥、图书管理员、还是程序员大模型们,混入人群的方式就是“不被看到”——普通的职业,或者是油彩之下,字面意义上不能被看到的脸。

  有更多细节、具体贴切描写的例如商汤、Claude、Chatgpt的答案获得更多投票者的支持。

  

  而另一道题,我只想说,每个答案都过于精彩,原来硅基生物才是班味儿最重的“工具人”,也许也是因为班味儿太重,除了文心大模型的答案,其他得票率都不高。

  

  以及其他,坚持完成kpi、坚持完成老板布置任务、还有喊着口号坚持要与僵尸抗争到工作最后一秒的硅基生物们真的是,一点儿都不害怕丧尸。

  

  众所周知,大模型都是话痨。由于篇幅有限,我们在文章中,只选取了一些投票数高或有代表性的答案,想要了解全部测评维度和场景的小伙伴,可以查看上周推文,也可以亲自做一次评委,为人工智能们打个分。

  相信我,大模型们的回答,可能比你现象更……难评。

  3

  下期预告:AI的艺术与文学素养测评

  下一期我们诚恳地邀请你对大模型**艺术与文学素养**能力做出评判。也欢迎你将问卷分享给更多人类,保证我们获取更多样本,提高评估的准确性。

  

  不知不觉我们的大模型教育与校正评估策划已经做完四期了,还记得有哪些AI回答令你印象深刻或捧腹吗?这个系列策划也接近尾声,大家还想看哪些关于大模型、各种AI工具的有趣测试,也可以在评论区告诉我们你的答案!

  查看往期测评:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离婚冷静期内,男子持刀闯入妻子家中被反杀,最终认定女方及其家人属正当防卫,不负刑事责任

离婚冷静期内,男子持刀闯入妻子家中被反杀,最终认定女方及其家人属正当防卫,不负刑事责任

鲁中晨报
2024-05-16 19:47:04
鲍蕾晒全家出游,幸福的一家四口

鲍蕾晒全家出游,幸福的一家四口

阿芒娱乐说
2024-05-17 17:40:27
河南一新娘两年送走4位新郎:我让他三更死,他留不到五更

河南一新娘两年送走4位新郎:我让他三更死,他留不到五更

青丝人生
2024-05-07 19:46:05
阿莱格里被解雇时间线:下午1点率队完成训练,5点37分就被解雇

阿莱格里被解雇时间线:下午1点率队完成训练,5点37分就被解雇

直播吧
2024-05-18 06:38:16
3-0横扫欧洲劲旅,日本女排三连胜暂登榜首!+5.47分,施压中国队

3-0横扫欧洲劲旅,日本女排三连胜暂登榜首!+5.47分,施压中国队

林子说事
2024-05-17 21:26:31
举牌!举牌!历史罕见

举牌!举牌!历史罕见

中国基金报
2024-05-17 22:45:25
到底谁是弱智?

到底谁是弱智?

梳子姐
2024-05-14 16:37:12
上海知青和藏族卓玛被迫分离,40年后再见,意外得知自己儿孙满堂

上海知青和藏族卓玛被迫分离,40年后再见,意外得知自己儿孙满堂

旧梦初醒已千年
2024-04-12 08:54:40
米体:橡树和苏宁有协议,短期内卖国米他们能获得利润

米体:橡树和苏宁有协议,短期内卖国米他们能获得利润

懂球帝
2024-05-18 03:58:14
年轻时长得不咋地,上了年纪居然“帅到掉渣”,这五位男星太狠了

年轻时长得不咋地,上了年纪居然“帅到掉渣”,这五位男星太狠了

兰子记
2024-05-10 20:16:45
中国最长跨市地铁即将开通运营

中国最长跨市地铁即将开通运营

花非花008
2024-05-16 20:41:17
恭喜国足!世预赛生死战前20天,亚足联表示:愿提供各种形式支持

恭喜国足!世预赛生死战前20天,亚足联表示:愿提供各种形式支持

邮轮摄影师阿嗵
2024-05-17 21:26:09
鲍仁君:若森林狼冲出西部则凯尔特人冠军 若掘金冲出西部将夺冠

鲍仁君:若森林狼冲出西部则凯尔特人冠军 若掘金冲出西部将夺冠

直播吧
2024-05-17 21:37:28
37岁葛荟婕又骂汪峰,被汪峰“耽误”一生的她,女儿是最大遗憾

37岁葛荟婕又骂汪峰,被汪峰“耽误”一生的她,女儿是最大遗憾

不八卦会死星人
2024-05-16 17:08:28
高通证实, 4G许可被撤销, 将无法从H获得任何产品收入

高通证实, 4G许可被撤销, 将无法从H获得任何产品收入

张涛讲体育
2024-05-18 00:39:40
2战轰47+18!付豪完爆MVP:辽篮4胜0负定律出炉,乔帅没看错他

2战轰47+18!付豪完爆MVP:辽篮4胜0负定律出炉,乔帅没看错他

李喜林篮球绝杀
2024-05-17 22:28:14
全国各地,法拍房爆了!

全国各地,法拍房爆了!

林子说事
2024-05-16 16:47:44
于文文演唱会穿紧身裤,隐私部位轮廓抢镜!网友:真的不体面了

于文文演唱会穿紧身裤,隐私部位轮廓抢镜!网友:真的不体面了

娱乐的小灶
2024-05-18 05:23:05
工业第四城骤然失速,背后大有玄机

工业第四城骤然失速,背后大有玄机

冰川思想库
2024-05-17 12:11:14
53岁汪峰魅力大,与森林北早有端倪,去年常去新疆,同过龙年春节

53岁汪峰魅力大,与森林北早有端倪,去年常去新疆,同过龙年春节

非常先生看娱乐
2024-05-16 00:07:53
2024-05-18 07:28:49
果壳
果壳
科技有意思
24120文章数 4147688关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

体育要闻

中超疯狂星期五!5场28球,单场5球起步

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 多部门出手救楼市

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

家居
时尚
数码
健康
军事航空

家居要闻

遇见交响 音乐流动在设计之中

为什么劝中老年女人少穿旗袍?看完卖家秀VS买家秀对比,你就懂了

数码要闻

驰为 CoreBox 迷你主机发布:i5-13500H、2.5G 网口,1999 元起

在中国,到底哪些人在吃“伟哥”?

军事要闻

印防长称印度将开始建第三艘母

无障碍浏览 进入关怀版