网易首页 > 网易号 > 正文 申请入驻

上海人工智能实验室推出“以人为本”大模型评测体系

0
分享至

“大模型能力越来越强,各类评测榜单层出不穷,模型分数越刷越高,但大模型的能力对我们个人来说究竟有什么用,我们并不知道。”2月22日,在2025全球开发者先锋大会“浦江AI生态论坛”上,上海人工智能实验室双聘研究员、上海交通大学教授翟广涛表示,大模型终究要为人服务,当前以模型为中心的先出题、再做题、算分的评价模式面临数据泄露和性能饱和两大挑战,大模型出现“高分低能”。

为了应对这种情况,上海人工智能实验室提出了“以人为本”的评测思路。上海人工智能实验室大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求提供可量化的人本评估标注。

上海人工智能实验室提出“以人为本”的评测思路。

传统大模型基准测试普遍采用结果导向的评价标准,这种评价方式虽然能够直观反映模型性能,却忽略了人类实际需求。司南团队提出的评测方案根据人类需求设计实际问题,让人与大模型协作解决,再由人类对模型的辅助能力进行主观评分,以此补充客观评价的不足,使评估更贴合人类感知。

其中,“认知科学驱动”评估框架围绕解决问题能力、信息质量、交互体验三大核心维度,构建覆盖多场景、多领域的主观评测体系。通过模拟学术研究、数据分析、决策支持等真实人类需求,由用户与大模型协作完成任务,并基于人类主观反馈量化评估模型的实际应用价值,为下一步技术研发与产业落地提供科学参考。

为了验证“以人为本”评估方式的有效性,同时评测大模型在研究生学术研究中的应用价值,司南团队选取了当前公认的优秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作为评测对象,组织有学术研究需求的研究生参与。团队根据文献综述、数据分析、可行性研究等学术研究中的常见需求,设计了人工智能、法律、金融等8个领域的相关问题,研究生与大模型协作解决。实验结果显示,所有受测模型分析准确性、思考全面性、协助高效性维度能力均势。DeepSeek-R1在解决生物、教育学科问题上表现突出;Grok-3在金融、自然领域优势明显;GPT-o3-mini则在社会领域表现良好。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
C罗的长子:身高超1.9米,遗传父亲的运动天赋,和乔治娜相处融洽

C罗的长子:身高超1.9米,遗传父亲的运动天赋,和乔治娜相处融洽

小书生吃瓜
2026-06-29 16:00:26
布莱顿6笔交易净赚3亿镑!布莱顿狂吸血英超豪门 不降级底气在哪

布莱顿6笔交易净赚3亿镑!布莱顿狂吸血英超豪门 不降级底气在哪

体坛八点半的那些事儿
2026-07-05 19:57:46
未获明确同意,深圳一民办社康给女患者打激素!还伪造病历!处罚决定书披露

未获明确同意,深圳一民办社康给女患者打激素!还伪造病历!处罚决定书披露

南方都市报
2026-07-05 19:26:40
正常男人吃一颗伟哥是什么体验?网友们的分享让人脸红心跳加快!

正常男人吃一颗伟哥是什么体验?网友们的分享让人脸红心跳加快!

黯泉
2026-06-25 12:10:30
全网愤怒!狂批世界杯有黑幕:严查最烂的裁判 巴拉圭跟流氓没两样

全网愤怒!狂批世界杯有黑幕:严查最烂的裁判 巴拉圭跟流氓没两样

风过乡
2026-07-05 08:01:40
神奇!国足归化球员的出生地,全进世界杯的16强

神奇!国足归化球员的出生地,全进世界杯的16强

湖北的老球迷
2026-07-05 19:29:14
张馨予晒出家居生活,凭一菜园子圈粉百万,网友:一看就不是摆拍

张馨予晒出家居生活,凭一菜园子圈粉百万,网友:一看就不是摆拍

可乐谈情感
2026-07-05 19:15:20
四川德阳市绵竹市发生4.0级地震

四川德阳市绵竹市发生4.0级地震

四川省地震局
2026-07-05 23:29:33
中纪委怒批:公务员也是人,正常生活不应问责处理!

中纪委怒批:公务员也是人,正常生活不应问责处理!

细说职场
2026-06-24 10:55:30
赛前3连胜却遭横扫,陈幸同到底怎么了?听完她的解释懂了

赛前3连胜却遭横扫,陈幸同到底怎么了?听完她的解释懂了

林子说事
2026-07-05 20:10:39
北方将迎今年来最大规模高温,中暑风险增加

北方将迎今年来最大规模高温,中暑风险增加

人民日报健康客户端
2026-07-05 11:14:20
2026高考志愿填完后别再只傻傻等录取!档案状态一定要盯紧!

2026高考志愿填完后别再只傻傻等录取!档案状态一定要盯紧!

高三倒计时
2026-07-05 18:15:48
全智贤手背皱纹登上热搜,网友:她的手背确实能看出年龄了

全智贤手背皱纹登上热搜,网友:她的手背确实能看出年龄了

韩小娱
2026-07-05 07:18:52
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

熙熙说教
2026-07-01 19:29:52
意大利门将布冯老婆出轨,身材火辣超模出身,出轨布冯多位队友

意大利门将布冯老婆出轨,身材火辣超模出身,出轨布冯多位队友

叹知
2026-07-05 01:09:26
俄罗斯陷“断油”危机,普京承认燃油短缺,乌无人机持续打击俄能源设施

俄罗斯陷“断油”危机,普京承认燃油短缺,乌无人机持续打击俄能源设施

网易新闻出品
2026-07-04 11:47:04
韩红风波升级,基金会被曝猛料,央媒一举表态,暴露了不堪的一面

韩红风波升级,基金会被曝猛料,央媒一举表态,暴露了不堪的一面

鲸探所长
2026-07-05 09:54:09
豁出去了!清空就等签布朗尼,骑士在下一盘大棋

豁出去了!清空就等签布朗尼,骑士在下一盘大棋

体育新角度
2026-07-05 22:52:59
一个残忍的真相:你和任何人相处,只要你表现出小心翼翼、处处迎合、生怕对方不高兴,对方就会从骨子里轻视你,而且你越讨好,对方越嫌弃

一个残忍的真相:你和任何人相处,只要你表现出小心翼翼、处处迎合、生怕对方不高兴,对方就会从骨子里轻视你,而且你越讨好,对方越嫌弃

心理观察局
2026-07-05 06:28:09
2026-07-05 23:56:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
912675文章数 5093503关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
家居
房产
公开课
军事航空

艺术要闻

画布上邂逅一场光影之恋:俄罗斯油画大师的温柔人间

家居要闻

传奇筑 日常诗

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版