网易首页 > 网易号 > 正文 申请入驻

上海人工智能实验室推出“以人为本”大模型评测体系

0
分享至

“大模型能力越来越强,各类评测榜单层出不穷,模型分数越刷越高,但大模型的能力对我们个人来说究竟有什么用,我们并不知道。”2月22日,在2025全球开发者先锋大会“浦江AI生态论坛”上,上海人工智能实验室双聘研究员、上海交通大学教授翟广涛表示,大模型终究要为人服务,当前以模型为中心的先出题、再做题、算分的评价模式面临数据泄露和性能饱和两大挑战,大模型出现“高分低能”。

为了应对这种情况,上海人工智能实验室提出了“以人为本”的评测思路。上海人工智能实验室大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求提供可量化的人本评估标注。

上海人工智能实验室提出“以人为本”的评测思路。

传统大模型基准测试普遍采用结果导向的评价标准,这种评价方式虽然能够直观反映模型性能,却忽略了人类实际需求。司南团队提出的评测方案根据人类需求设计实际问题,让人与大模型协作解决,再由人类对模型的辅助能力进行主观评分,以此补充客观评价的不足,使评估更贴合人类感知。

其中,“认知科学驱动”评估框架围绕解决问题能力、信息质量、交互体验三大核心维度,构建覆盖多场景、多领域的主观评测体系。通过模拟学术研究、数据分析、决策支持等真实人类需求,由用户与大模型协作完成任务,并基于人类主观反馈量化评估模型的实际应用价值,为下一步技术研发与产业落地提供科学参考。

为了验证“以人为本”评估方式的有效性,同时评测大模型在研究生学术研究中的应用价值,司南团队选取了当前公认的优秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作为评测对象,组织有学术研究需求的研究生参与。团队根据文献综述、数据分析、可行性研究等学术研究中的常见需求,设计了人工智能、法律、金融等8个领域的相关问题,研究生与大模型协作解决。实验结果显示,所有受测模型分析准确性、思考全面性、协助高效性维度能力均势。DeepSeek-R1在解决生物、教育学科问题上表现突出;Grok-3在金融、自然领域优势明显;GPT-o3-mini则在社会领域表现良好。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩红基金会被扒多次对外投资,几个亿善款闲置,网友要求公开说明

韩红基金会被扒多次对外投资,几个亿善款闲置,网友要求公开说明

萌神木木
2026-06-29 18:33:42
以色列防长:若伊朗攻击以色列领土将发动独立军事行动,穆杰塔巴已被列入死亡名单

以色列防长:若伊朗攻击以色列领土将发动独立军事行动,穆杰塔巴已被列入死亡名单

红星新闻
2026-06-30 13:57:26
未来5年,孩子上学有这些大变化!

未来5年,孩子上学有这些大变化!

安徽发布
2026-06-30 08:17:59
世界杯:荷兰点球3-4无缘16强!创队史最差战绩 摩洛哥踢加拿大

世界杯:荷兰点球3-4无缘16强!创队史最差战绩 摩洛哥踢加拿大

念洲
2026-06-30 11:55:27
凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

流史岁月
2026-06-30 10:12:33
停更5年,明天回归!曾红极一时又被1元转让,网友沸腾:青春回来了

停更5年,明天回归!曾红极一时又被1元转让,网友沸腾:青春回来了

封面新闻
2026-06-30 19:14:05
巴拉圭淘汰德国后,巴拉圭知名女球迷里克尔梅直播中动情落泪

巴拉圭淘汰德国后,巴拉圭知名女球迷里克尔梅直播中动情落泪

懂球帝
2026-06-30 11:32:05
“月收入为7899元,配偶月收入为12100元”,退休女子填写困难职工登记表引争议,安徽省药监局工作人员回应

“月收入为7899元,配偶月收入为12100元”,退休女子填写困难职工登记表引争议,安徽省药监局工作人员回应

大风新闻
2026-06-30 18:45:14
山东泰山,极不体面

山东泰山,极不体面

吴女士
2026-06-30 15:54:51
他们节俭了一辈子,临走前捐出500万

他们节俭了一辈子,临走前捐出500万

澎湃新闻
2026-06-30 07:00:31
35岁男子收到岗位被 AI 取代通知,拒绝大幅降薪后被单位开除。

35岁男子收到岗位被 AI 取代通知,拒绝大幅降薪后被单位开除。

HR蔷薇
2026-06-30 16:03:56
战术洁癖真无语!平庸执教拖垮全队,他亲手葬送德国足球一个周期

战术洁癖真无语!平庸执教拖垮全队,他亲手葬送德国足球一个周期

体坛老球迷
2026-06-30 09:15:54
48小时内!高市开始反击:召见中国大使后,日本又爆发一个噩耗

48小时内!高市开始反击:召见中国大使后,日本又爆发一个噩耗

羽逸地之光
2026-06-30 17:15:53
5人溺亡,“几乎无自救可能”

5人溺亡,“几乎无自救可能”

中国新闻周刊
2026-06-30 18:35:33
央视:12架F-2挂载48枚反舰导弹,日本模拟攻击辽宁舰,挑衅升级

央视:12架F-2挂载48枚反舰导弹,日本模拟攻击辽宁舰,挑衅升级

止戈军是我
2026-06-30 12:34:12
热议德国爆冷:德国失去了祖传风格,是“娘炮”在踢球

热议德国爆冷:德国失去了祖传风格,是“娘炮”在踢球

懂球帝
2026-06-30 09:45:08
iPhone18 Pro遭泄密!照片、零部件、供应商信息被挂暗网,此前刚把印度推成生产基地

iPhone18 Pro遭泄密!照片、零部件、供应商信息被挂暗网,此前刚把印度推成生产基地

红星新闻
2026-06-30 14:19:20
“如果重来一次,我还会这么做”——荷兰出局后,科曼拒绝为五后卫战术道歉

“如果重来一次,我还会这么做”——荷兰出局后,科曼拒绝为五后卫战术道歉

潇湘晨报
2026-06-30 14:58:12
热死也不能买中国空调?德国媒体:中国正“摧毁”欧洲

热死也不能买中国空调?德国媒体:中国正“摧毁”欧洲

热血江湖旧
2026-06-29 10:42:41
电吸门夹断手指,车主获赔190万!

电吸门夹断手指,车主获赔190万!

电动知家
2026-06-30 12:11:27
2026-06-30 20:23:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
911392文章数 5093266关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
家居
游戏
手机
军事航空

“复古波点”又流行回来了!夏天简单穿就很时髦

家居要闻

传奇筑 日常诗

游戏还没发售就有“攻略书”了?AI瞎编20欧元一本

手机要闻

摩托罗拉Edge 70 Max手机获Qi 2.2.1认证,支持磁吸充电

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版