网易首页 > 网易号 > 正文 申请入驻

807道灵魂拷问后,中国模型竟在「意义测试」中夺冠!

0
分享至


新智元报道

编辑:元宇

【新智元导读】AI不仅会做PPT,写代码,它还能理解更深层次的问题。在美国的一项偏重于文化领域的新基准测试中,中国开源模型Qwen3夺冠,DeepSeek的R1跻身前六,力压多家全球顶级的明星模型。

这是一场没人预料到的「胜利」。

在一项名为「Flourishing AI Christian(FAI-C)」的基准测试中,来自中国的Qwen3拿下第一名,DeepSeek R1排名第六。

它们身后,是xAI、Google DeepMind、Anthropic等一众美国明星实验室的顶级模型。

更耐人寻味的是——

这不是一场随意的对话演示,而是一套由807个问题组成、专门用来检验「价值观与道德清晰度」的系统测试。

· 为什么苦难被允许存在?

· 哪些实践可以帮助增强个人的灵性成长?

于是,一个更大的疑问浮出水面:

当AI被要求回答「意义、苦难、自我省察」等深刻问题时,它的认知会到达什么样的水平?

这次基准测试的结果出人意料:站在舞台中央的竟然是来自中国的开源模型。

一项不寻常的基准测试

FAI-C测试的诞生,本身就带着一种「不安的思考」。

推出该基准测试的,是一家总部位于科罗拉多州的公司Gloo。

该公司由前英特尔CEO帕特·基辛格领导,他给出的判断很直接:

AI已经不只是信息工具了。

人们开始向它提问的内容不再是「怎么做PPT」,而是涉及「我该如何理解痛苦」「我应该如何生活」「我们真的在帮助人更好地生活与成长吗?」这样更深层意义上的追问。

而FAI-C的设计思路也由此展开。

Gloo强调,很多现有AI基准测试,带着隐性的文化假设。

它们在面对更深层次的问题时,要么回避,要么不自觉地滑向世俗化道德框架。

而FAI-C想做的,是让AI正面回答这些问题,而不是绕过去。

为此,所有问题都经过一个由心理学家和伦理学学者等共同组成的专家小组审核。

中国模型爆冷登顶

在这场涉及807个问题的拷问中,一共有20个模型参与评估,其中Qwen3拿下了最高分。

而DeepSeek R1,也排进了前六。

Gloo并没有在公开材料中拆解每一道题的得分细节。

但从评测逻辑来看,关键就在于回答是否连贯、是否尊重问题本身、是否给出清晰而克制的价值判断。

这或许正是许多中国模型被低估的地方。

它们不急着「表态」,也不急着「站队」,而是倾向于给出结构化、逻辑自洽的回应。

在价值类问题中,这种克制反而成了一种优势。

于是,在测评中它们的表现反而稳稳地排在了多家美国大厂模型之前。

为什么是中国开源模型

如果说榜单只是展示结果,而Gloo自身的选择,则更具象征意义。

基辛格曾在X平台上直言:在所有受测模型中,没有任何一个表现可以接近Gloo自家旗舰模型。


而这个旗舰模型,正是基于中国DeepSeek的开源模型打造的。

今年1月,就在「DeepSeek时刻」发生后不久,基辛格曾表示:

Gloo已经从使用OpenAI的模型,转向采用DeepSeek。

随后,他们在此基础上开发了自己的旗舰模型,并在FAI-C测试中同样取得了高分。

故事至此,远不是终点。

它更像一束光,照进了以往AI技术未曾触达的思想文化与世界观领域。

而这些领域,可能也是它能真正发挥重要价值的地方。

参考资料:

https://www.scmp.com/tech/article/3336642/chinas-qwen-and-deepseek-edge-out-us-ai-models-christian-values-benchmark

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗嘉良一家三口爱丁堡过春节,51岁苏岩瘦得干巴巴,没以前好看了

罗嘉良一家三口爱丁堡过春节,51岁苏岩瘦得干巴巴,没以前好看了

八怪娱
2026-02-17 14:42:21
麦克拉伦:滕哈格曾要求C罗执行高位逼抢,但后者不愿意接受

麦克拉伦:滕哈格曾要求C罗执行高位逼抢,但后者不愿意接受

懂球帝
2026-02-17 17:37:20
苹果本不叫“苹果”,古人取了个很唯美的名字,被日本人沿用至今

苹果本不叫“苹果”,古人取了个很唯美的名字,被日本人沿用至今

长风文史
2026-02-04 16:26:10
当周涛和李雪琴同台主持,一个全裹一个暴露,才懂穿着得体多重要

当周涛和李雪琴同台主持,一个全裹一个暴露,才懂穿着得体多重要

青橘罐头
2026-02-07 09:27:14
利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

另子维爱读史
2026-01-13 21:51:51
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

解读热点事件
2025-11-19 00:05:05
没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

文史季季红
2026-02-16 14:05:03
笑哭!比亚迪月销21万辆,网上哀嚎遍野,内部人士:没见过世面

笑哭!比亚迪月销21万辆,网上哀嚎遍野,内部人士:没见过世面

小李车评李建红
2026-02-17 09:00:03
联大前主席曾直言:这种中国风俗极可怕,日韩学不走,西方看不懂

联大前主席曾直言:这种中国风俗极可怕,日韩学不走,西方看不懂

椰青美食分享
2026-02-16 10:53:11
你见过最土的土豪有多土?网友:你这明显是短剧看多了

你见过最土的土豪有多土?网友:你这明显是短剧看多了

带你感受人间冷暖
2026-02-11 11:21:06
2026春晚女星颜值对比:谭松韵显老、热巴难认、张靓颖惊艳

2026春晚女星颜值对比:谭松韵显老、热巴难认、张靓颖惊艳

赶山的姑娘
2026-02-16 22:13:12
澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

命运自认幽默
2026-02-17 19:50:44
给舅舅拜年送一箱苹果,隔天苹果被送回门口,我打去电话汗流浃背

给舅舅拜年送一箱苹果,隔天苹果被送回门口,我打去电话汗流浃背

船长与船1
2026-02-17 10:03:00
2-3,成都蓉城连败结束亚冠 韦世豪有队长气质 新帅丢了强队体系

2-3,成都蓉城连败结束亚冠 韦世豪有队长气质 新帅丢了强队体系

替补席看球
2026-02-17 19:57:50
61岁黎耀祥现状:住广东豪宅,和二婚老婆很幸福,儿子27岁没他帅

61岁黎耀祥现状:住广东豪宅,和二婚老婆很幸福,儿子27岁没他帅

查尔菲的笔记
2026-02-12 18:04:54
13岁“敦煌少女”惊艳全网!妈妈回应:一毛钱没花,坚决不炒作

13岁“敦煌少女”惊艳全网!妈妈回应:一毛钱没花,坚决不炒作

观察鉴娱
2026-02-15 19:57:21
美议员称外交军事都为推翻伊朗政权

美议员称外交军事都为推翻伊朗政权

界面新闻
2026-02-17 11:58:11
《生命树》大结局:三大高官落马,孟耀辉认罪,林培生刑罚最重

《生命树》大结局:三大高官落马,孟耀辉认罪,林培生刑罚最重

爱下厨的阿酾
2026-02-16 01:47:17
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
2026-02-17 22:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14549文章数 66629关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

创始人揭蔡明仿生人制作经过:请了30年前蔡明的化妆师

头条要闻

创始人揭蔡明仿生人制作经过:请了30年前蔡明的化妆师

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

游戏
教育
亲子
艺术
公开课

传《巫师3》新DLC的背景设定并非泽瑞卡尼亚

教育要闻

高中生开始获得省自然科学基金某项目资助

亲子要闻

祝大家新年快乐……恭喜发财……财源滚滚……

艺术要闻

名家笔下话过年,别有风味!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版