网易首页 > 网易号 > 正文 申请入驻

能做数学却答错大小比较:AI能力评估方法亟待革新

0
分享至


斯坦福大学人类中心人工智能研究所(HAI)举办的一场研讨会汇聚了众多专家,共同探讨开发新的评估方法,以测量AI的隐藏能力,而不仅仅是其应试表现。

让人工智能创作一首十四行诗或求解复杂的微分方程,它能展现出惊人的能力,但与此同时,它也可能坚称2.11大于2.9。

这些不协调且令人困惑的回答,促使一组AI研究人员——包括施密特科学中心AI研究所驻所研究员奥拉瓦莱·萨劳丁、斯坦福大学计算机科学助理教授桑米·科耶约,以及康奈尔大学信息科学助理教授安杰丽娜·王——在斯坦福人类中心人工智能研究所召开研讨会,讨论和辩论如何更好地测量AI的内在能力和特征。该研讨会由施密特科学中心和麦克阿瑟基金会资助。

"这项工作十分必要,因为我们经常在没有科学依据的情况下,将人类特征和相关行为强加到这些非人类系统上,"萨劳丁说。"AI模型很可能拥有与人类截然不同的一套行为解释特征,尽管它们可能会模仿人类行为。"

"更好的测量是实现更安全、更可靠的人工智能的关键,"科耶约解释道,"我们需要为AI系统建立一门测量科学,就像从物理学到学习科学等领域那样。但现在,这门科学还不存在。"

当前AI评估的问题

每次训练新模型时,都会对其进行一系列问题测试,并根据其回答的好坏进行评分。但这些问题无法评估AI那些难以测量的隐藏能力,如智能、逻辑和推理。尽管目前有数千个基准测试题库可用,但科耶约表示,大多数题库要么存在缺陷,要么无法胜任测量当今日益复杂的模型的微妙技能。

组织者表示,这次基准测试研讨会对AI的未来至关重要。它汇集了来自学术界、产业界、非营利组织和政策领域的专家,共同回答一个迫在眉睫的问题:"当我们对AI系统进行基准测试时,我们实际上在测量什么?"

他们更大的目标是激发整个领域的努力,开发一套稳健、准确和标准的基准测试,以测量AI对其所提供答案的理解程度。王将此与心理测量学进行了类比,心理测量学是心理学的一个分支,试图测量智能和推理等隐藏品质。

正如心理测量学测试人类学生是否理解数学背后的概念,而不仅仅是记忆答案,当前的AI基准测试只检查AI是否给出正确答案。它可能在测试中得"A",但却错过了更重要的要点。

"AI基准测试能很好地测试特定的客观任务和知识,但无法测试潜在的特征和能力,"王说。

借鉴心理测量学的方法

基于心理学和神经科学数十年的测量科学积累,此次基准测试研讨会旨在弥合AI领域的这一差距。与会者讨论了当前基准测试的质量和有效性,探讨了AI的潜在特征是否可以被测量,并辩论了推理等人类概念是否适用于AI。一些组织者已经开始创建"AI概念词典",作为为AI开发类似认知科学领域"认知图谱"的早期步骤——一个协作创建和管理的知识库,反映整个领域的最新和最佳思想。

"在其历史早期,心理学也面临着测量看似无法测量特征的类似挑战,"科耶约指出。"该领域发展出心理测量学,通过多项测试的模式推断'潜在特征'。AI需要类似的方法——从'AI能通过这个实际测试吗?'转向'这个测试揭示了AI的什么潜在能力?'"

萨劳丁以研讨会上的热门话题"同名异义与异名同义谬误"为例,这个术语借用自心理测量学,指两个不相关的概念因名称相同而被等同——即同名异义谬误;或者相反,两个相关的事物因标签不准确而被否定——即异名同义谬误。

他指出,诸如"常识"和"推理"等术语常用于描述AI的理解能力,但它们更可能仅反映AI识别模式或进行统计推断的能力。因此,将AI文本生成不协调地称为"创造性"或"智能"属于同名异义谬误的范畴,即使仅因AI缺乏"意识"而不公正地否定这些术语也是一种异名同义谬误。

王最喜欢研讨会上的一个环节叫做"共识光谱",它证明了困惑不仅存在于机器之间,也存在于科学家之间。在一次练习中,参与者通过走到房间的不同区域来实际定位自己,以显示对关于AI的故意有争议的"激进观点"陈述的相对支持或反对程度。

由人类组成的散点图揭示了一个严峻的事实——目前对于如何定义AI"推理"等概念,或者这样的概念是否作为AI系统的核心属性存在(使我们能够将广泛的行为归因于能够推理的系统),几乎没有共识。我们为人类概念化的推理可能与机器不兼容。

未来研究方向

研讨会接近尾声时,组织者概述了该领域的下一步计划。一个潜在成果是基于研讨会讨论和见解撰写一篇技术论文。此外,学者们将继续开发AI特征和术语图谱。

科耶约强调,这类研讨会的长期价值在于产生更可预测、更可靠的AI系统。"如果我们更好地理解这些工具,就能理解它们在各种环境中部署时的预期表现,"他说。更高的可预测性可能彻底改变AI模型在实际应用中的评估、优化和信任方式。

最终,研究人员一致认为,更好的AI测量的潜力远远超出学术范畴。它可能带来不仅更有能力,而且比过去更可靠、更透明的AI系统。这一进展可能加速开发安全、符合伦理且在多个领域更有益的AI技术。

在这样的背景下,研讨会迈出了重要的第一步:"努力以可能的方式统一该领域,在评估思维方面保持严谨和技术性,这令人兴奋,"王说。

"这个富有成效的过程帮助我们理解了应该测量什么,并开始理解如何测量,"科耶约补充道。"AI将因此变得更好。"

其他研讨会组织者包括:斯坦福大学研究生桑·张(Sang Truong)、麻省理工学院研究生张浩然,以及斯坦福HAI项目经理特雷西·纳维乔克。

Q&A

Q1:为什么AI能解决复杂方程却在简单数字比较上出错?

A:这反映了当前AI评估方法的缺陷。现有基准测试只检查AI是否给出正确答案,而无法测试其是否真正理解概念。AI可能只是识别模式或进行统计推断,而非真正掌握逻辑推理能力。这就像学生死记硬背答案却不理解原理一样。

Q2:什么是AI评估中的"同名异义与异名同义谬误"?

A:这是从心理测量学借用的术语。同名异义谬误指两个不相关的概念因名称相同而被等同,比如将AI的模式识别能力称为"推理"或"常识"。异名同义谬误则相反,指因标签不准确而否定相关事物,比如仅因AI缺乏意识就否定其所有智能表现。

Q3:如何建立更科学的AI能力评估体系?

A:研究人员提出借鉴心理测量学方法,从"AI能通过这个测试吗"转向"测试揭示了AI的什么潜在能力"。具体措施包括开发AI概念词典、建立类似认知图谱的知识库,以及创建能测量AI隐藏能力(如智能、逻辑和推理)的标准化基准测试体系,而不仅仅测试应试表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
工信部出手整治减配乱象,2027年新规落地,车主权益彻底升级

工信部出手整治减配乱象,2027年新规落地,车主权益彻底升级

老特有话说
2026-02-03 13:17:54
阿雅发文悼念大S,力挺具俊晔,称看到雕像就知道,具俊晔最懂大S

阿雅发文悼念大S,力挺具俊晔,称看到雕像就知道,具俊晔最懂大S

动物奇奇怪怪
2026-02-03 16:43:57
5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

芳芳历史烩
2026-01-25 10:06:32
四川小叔子接26岁寡嫂回家过年引发吃瓜群众和网友围观

四川小叔子接26岁寡嫂回家过年引发吃瓜群众和网友围观

阿SIR观察
2026-02-03 10:53:11
语文很好的孩子,数学可以很差,但数学很好的孩子,语文却不会差

语文很好的孩子,数学可以很差,但数学很好的孩子,语文却不会差

好爸育儿
2026-02-01 22:19:26
再等6天来袭!丰田全新中大型SUV来袭,大六座奶爸车,实力剑指理想L6

再等6天来袭!丰田全新中大型SUV来袭,大六座奶爸车,实力剑指理想L6

隔壁说车老王
2026-02-04 00:05:26
听一句劝:高血压不想脑梗,这4种食物要少碰,再馋也要忍住

听一句劝:高血压不想脑梗,这4种食物要少碰,再馋也要忍住

39健康网
2026-02-03 19:31:45
“周一见”11年后43岁姚笛的选择让网友全看愣了,马伊琍也想不到

“周一见”11年后43岁姚笛的选择让网友全看愣了,马伊琍也想不到

小椰的奶奶
2026-02-04 02:03:41
江西男子骑摩托车回去看自己的老房子,房子已经烂尾20多年:父母不在了,房子没人住

江西男子骑摩托车回去看自己的老房子,房子已经烂尾20多年:父母不在了,房子没人住

好笑娱乐君每一天
2026-02-04 00:25:36
骆马湖魔咒再现!

骆马湖魔咒再现!

行者殷涛
2026-02-03 20:23:09
破防了!重庆走出的学霸,留美13年当教授,转头带顶尖技术回北大

破防了!重庆走出的学霸,留美13年当教授,转头带顶尖技术回北大

削桐作琴
2026-02-02 15:09:56
影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

徐帮阳
2025-12-23 18:33:38
创历史纪录!苹果拿下美国69%市场份额:iPhone 17系列立大功

创历史纪录!苹果拿下美国69%市场份额:iPhone 17系列立大功

快科技
2026-02-03 10:17:06
河北夫妻收留弱智流浪男,18年后男子大喊:我想起我是谁了

河北夫妻收留弱智流浪男,18年后男子大喊:我想起我是谁了

农村情感故事
2026-01-18 13:47:49
中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

叹为观止易
2026-01-28 14:25:41
2026养老金上调细则:这三类人能多领500元,转给爸妈!

2026养老金上调细则:这三类人能多领500元,转给爸妈!

度看全球
2026-02-04 00:05:23
3年1.5亿,乔治离开+哈登将离开,NBA球星成害群之马!你该离开了

3年1.5亿,乔治离开+哈登将离开,NBA球星成害群之马!你该离开了

老梁体育漫谈
2026-02-04 00:13:05
彻底破防!网传宁波男子花50万彩礼结婚,妻子新婚出轨被捉奸在床

彻底破防!网传宁波男子花50万彩礼结婚,妻子新婚出轨被捉奸在床

火山诗话
2026-02-03 06:51:09
炸裂!台媒曝赵薇离婚内幕:前夫出轨女儿老师生子,要她净身出户

炸裂!台媒曝赵薇离婚内幕:前夫出轨女儿老师生子,要她净身出户

往史过眼云烟
2026-02-02 11:38:14
2026-02-04 05:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15878文章数 49688关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

本地
数码
旅游
艺术
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

机械师推出新款24寸显示器:1080P 144Hz IPS屏仅449元

旅游要闻

避开网红坑!嘉峪关真正的宝藏在这

艺术要闻

成都在建第一高楼冲刺300米!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版