网易首页 > 网易号 > 正文 申请入驻

生成式AI的两个问题:“幻觉”与“单一的基准测试”

0
分享至

我们介绍了预测式AI的问题,下面重点谈谈生成式AI的问题。生成式AI的核心任务不再是“预测”,而是“创造”。生成式AI的代表,就是像ChatGPT、DeepSeek这样的大语言模型。虽然大语言模型和人交流能力非常强,但也很容易“一本正经地胡说八道”。也就是说,它生成的文本语言流畅、逻辑自洽、充满自信,但其核心内容却可能是完全虚假的。这种现象在学术界被称为“幻觉”(Hallucination)。

为什么大模型会产生“幻觉”?这源于其根本的技术原理。与能够精确检索信息的数据库不同,大型语言模型是一个概率性的文本生成器。它通过在数万亿词元(Token)的庞大语料库上进行训练,学习词语与词语之间的统计关系。它的任务是预测“下一个最有可能出现的词是什么”,从而生成一段在语言模式上“看似合理”的文本,而非确保其内容的真实性。事实准确性,从来不是其核心设计目标。

面对生成式AI的“幻觉”问题,学术界和工业界正在探索多种解决方案。这已远非简单的模型调优,而是一项复杂的系统性工程。下面,我们来思考一个基本的问题:我们究竟该如何衡量AI的能力?当前,整个AI领域都陷入了一场围绕基准测试(Benchmark)的激烈竞赛。各大公司和研究机构轮番登场,发布者在各项标准化测试中不断刷分。

但是,基准测试的根本问题在于,它将复杂、多维的现实世界,简化为了单一、刻板的评分标准。具体来说,绝大多数基准测试只关注模型在特定任务上的表现。例如,主流的自然语言基准测试,注重的主要是自然语言推理、文本蕴含、情感分析、问答和语义相似度判断等核心语言理解能力,但它们却完全没有评估那些在现实世界中更重要、更关乎伦理的维度。例如,模型的输出是否固化了文化偏见?它输出的内容是否会对社会稳定造成风险?这些在基准测试中统统是“隐形”的。

此外,当所有开发者都以基准分数为唯一目标时,他们会有意或无意地“为测试而优化”。这就像一个只为应试而学习的学生,他能熟练掌握所有考点和解题技巧,但在真实世界中解决复杂问题的能力却不堪一击。AI模型也一样,它们变得越来越擅长在基准测试中“看起来很美”,但在实际应用中表现不佳。

另外一个值得关注的问题是,许多模型可能已经在其海量的训练数据中,不知不觉地“见过”了基准测试的题目和答案。这种数据泄露问题让测试结果变得不再可信,因为模型不是在“推理”,而是在“背诵”。

所以,结论是:我们不应该对基准测试寄予太多希望。衡量一项技术真实价值的唯一标准,是它在真实世界中的表现。我们应该关注那些真正尝试在专业环境中使用这些AI系统的人,他们从大模型中获得的真实感受和助益,才是我们衡量大模型的金标准。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝克汉姆首度回应儿子控诉!这招“以退为进”,堪称公关教科书!

贝克汉姆首度回应儿子控诉!这招“以退为进”,堪称公关教科书!

琨玉秋霜
2026-01-22 20:45:58
“金杯车”生产商鑫源汽车发布新Logo,被指“撞脸小米”

“金杯车”生产商鑫源汽车发布新Logo,被指“撞脸小米”

IT之家
2026-01-21 13:17:26
预制菜国标要来了,牛马大概率先破防!

预制菜国标要来了,牛马大概率先破防!

黑企鹅观察
2026-01-23 09:14:15
1月22日俄乌:俄军损失突破123万;熬过冬天,乌克兰将占据优势

1月22日俄乌:俄军损失突破123万;熬过冬天,乌克兰将占据优势

山河路口
2026-01-22 17:46:13
马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

现代小青青慕慕
2026-01-22 00:25:08
英伟达护城河告急?Claude Code 半小时移植 CUDA 至 AMD

英伟达护城河告急?Claude Code 半小时移植 CUDA 至 AMD

EETOP半导体社区
2026-01-23 11:35:11
没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

喜欢历史的阿繁
2026-01-23 11:10:25
宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

胖哥不胡说
2026-01-22 17:12:38
22年前错失亚洲杯冠军,那是中国足球史上最痛的意难平!

22年前错失亚洲杯冠军,那是中国足球史上最痛的意难平!

球叮足球
2026-01-23 10:02:17
没跟中国打招呼,白俄直接跟了美国?拉夫罗夫说了句掏心窝子的话

没跟中国打招呼,白俄直接跟了美国?拉夫罗夫说了句掏心窝子的话

来科点谱
2026-01-23 11:08:30
四大板块加速井喷,三大板块逢高减仓!

四大板块加速井喷,三大板块逢高减仓!

鸿牛
2026-01-23 12:10:09
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
林志玲:还是志玲姐姐得劲啊……

林志玲:还是志玲姐姐得劲啊……

动物奇奇怪怪
2026-01-23 12:03:53
河南9个月女童疑被患精神疾病母亲丢弃,搜寻6天未有线索,警方已立案

河南9个月女童疑被患精神疾病母亲丢弃,搜寻6天未有线索,警方已立案

极目新闻
2026-01-22 23:11:44
英特尔盘后股价跌9%

英特尔盘后股价跌9%

每日经济新闻
2026-01-23 06:32:13
老蒋扣押傅作义夫人,地下党束手无策,周总理悄悄放出一条消息

老蒋扣押傅作义夫人,地下党束手无策,周总理悄悄放出一条消息

搜史君
2026-01-21 10:05:09
1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

南权先生
2026-01-21 15:42:34
越媒:阮庭北从未说过要踢中国3-0,刘浩帆可能被错误信息误导

越媒:阮庭北从未说过要踢中国3-0,刘浩帆可能被错误信息误导

懂球帝
2026-01-23 00:24:31
重罚来了!闫学晶因偷税背债首度回应,真相曝光!

重罚来了!闫学晶因偷税背债首度回应,真相曝光!

特约前排观众
2026-01-23 00:20:03
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
2026-01-23 13:03:00
一头漂浮在北京的大妞 incentive-icons
一头漂浮在北京的大妞
爱好财经、文史
1436文章数 502关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

时尚
本地
艺术
旅游
健康

章小姐罕见谈婚姻,这个词用得太妙了

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

旅游要闻

迎春茶会路线攻略!清照泉城·泉韵茶香,邀您明天共赴~

打工人年终总结!健康通关=赢麻了

无障碍浏览 进入关怀版