网易首页 > 网易号 > 正文 申请入驻

大模型越来越强,上海也努力让大模型“考试”更专业、全面!

0
分享至



大模型“考生”数量越来越多、能力越来越强,呼唤更专业、公正、开放的“统一考试”——这不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

新民晚报记者21日从上海人工智能实验室获悉,由其打造的创新开放评测体系司南(OpenCompass)全面升级,从大模型评测扩展至AI计算系统、具身智能、安全可信及垂类行业应用等五大领域,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力,为行业提供一站式、全景化的能力刻度。

补齐五大板块能力评估矩阵

人们发现,现今模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,AI正加速走向与真实世界深度融合。

面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式,已难以支撑技术走向大规模部署与可信应用。

在这样的背景下,构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室告诉记者,已对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上,进一步拓展并纳入了安全可信评测、具身智能评测、AI计算系统评测和垂类行业评测。

至此,司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信以及垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式。


重塑AI能力刻度标准

记者获悉,在此次推出的“垂类应用评测模块”,当前已“上新”了“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业,对安全性、专业性、实用性要求极高。“AI+金融”评测构建了融合多模态、主观题与大模型评审的新型评测范式。其中,金融多模态评测集在纯文本基础上,融合财报、研报、IPO、K线图、公章等典型图文材料,更贴近金融实务的多模态场景。

“AI+医疗”评测新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

此外,具身智能评测从具身大脑、具身小脑和具身系统三大功能维度出发,构建“静态—仿真—实境”三层级评测路径,覆盖模型从认知到行动的全链条能力。

助力新技术在应用中达到预期

自发布以来,司南评测体系通过开源可复现的一站式评测框架,已累计支持超200个大语言模型、150个多模态模型,覆盖300+评测集,工具链GitHub Stars超过1万。

据透露,司南作为主要成员参与制定国家标准《人工智能大模型第2部分:评测指标与方法》,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单,工具链已集成至阿里云ModeScope、百度云在线评测服务等产品,持续赋能大模型产业生态;同时,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

新民晚报记者获悉,目前,司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。

未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

原标题:《大模型越来越强,上海也努力让大模型“考试”更专业、全面!》

栏目编辑:马丹 题图来源:东方IC 图片来源:采访对象供图

来源:作者:新民晚报 郜阳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
直到曼城签下多纳鲁马,才发现瓜迪奥拉的足球哲学,可能要变天了

直到曼城签下多纳鲁马,才发现瓜迪奥拉的足球哲学,可能要变天了

二爷台球解说
2025-09-14 14:46:19
卡塔尔挨炸后,埃及向美国传话:若以色列对我动手,后果很严重!

卡塔尔挨炸后,埃及向美国传话:若以色列对我动手,后果很严重!

阿龙聊军事
2025-09-12 19:57:04
湖南油罐车侧翻烧了民房!火光冲天,居民崩溃痛哭:我的房子没了

湖南油罐车侧翻烧了民房!火光冲天,居民崩溃痛哭:我的房子没了

成成鉴话
2025-09-14 21:57:57
对于上海申花最薄弱的门将,姬宇阳给出解决方案

对于上海申花最薄弱的门将,姬宇阳给出解决方案

小彭美识
2025-09-14 08:35:27
九旬老兵吹响冲锋号:战友们,归队!

九旬老兵吹响冲锋号:战友们,归队!

新华社
2025-09-13 14:11:02
医生建议:过了70的老人,宁可牙齿缺失,也别在这4种状态去镶牙

医生建议:过了70的老人,宁可牙齿缺失,也别在这4种状态去镶牙

普陀动物世界
2025-09-12 10:34:07
北约战机出击!波兰封锁中欧班列,外交部为何如此强硬?

北约战机出击!波兰封锁中欧班列,外交部为何如此强硬?

时时有聊
2025-09-12 21:38:39
现实中出轨的人很多吗?网友:这种事不分男女穷富美丑,天性而已

现实中出轨的人很多吗?网友:这种事不分男女穷富美丑,天性而已

解读热点事件
2025-09-11 00:05:09
拒绝降薪,无缘山东,弗格发声,新工作曝光,杨鸣祝福

拒绝降薪,无缘山东,弗格发声,新工作曝光,杨鸣祝福

东球弟
2025-09-14 10:06:29
国内单体规模最大陆上风电项目正式运行

国内单体规模最大陆上风电项目正式运行

财联社
2025-09-14 07:37:07
台湾只要有马英九,朱立伦,洪秀珠,想实现和平统一,门都没有。

台湾只要有马英九,朱立伦,洪秀珠,想实现和平统一,门都没有。

火山杂谈
2025-09-05 00:03:08
91-93输澳洲豪强!焦泊乔首秀13分,杜锋盛赞2小将,球员数据出炉

91-93输澳洲豪强!焦泊乔首秀13分,杜锋盛赞2小将,球员数据出炉

老吴说体育
2025-09-15 00:47:56
尼泊尔今天的局面,是“制度错配”的必然产物

尼泊尔今天的局面,是“制度错配”的必然产物

观察者网
2025-09-13 09:45:05
又一对明星在海外弃养孩子,背后瓜太爆了!

又一对明星在海外弃养孩子,背后瓜太爆了!

毒舌八卦
2025-09-01 23:17:07
远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

晓艾故事汇
2025-01-09 22:01:49
41岁唐嫣喜讯!

41岁唐嫣喜讯!

鲁中晨报
2025-09-14 07:23:18
天意让你看到这篇文章:从此,你的世界开始变得明亮

天意让你看到这篇文章:从此,你的世界开始变得明亮

金沛的国学笔记
2025-09-03 19:41:21
“浆果儿”事件回顾:200名女主角,拍摄17部视频,内容不堪入目

“浆果儿”事件回顾:200名女主角,拍摄17部视频,内容不堪入目

就一点
2025-09-01 14:01:24
日本入国管理厅的一系列动作,让部分长居在日本的外国人陷入了恐慌

日本入国管理厅的一系列动作,让部分长居在日本的外国人陷入了恐慌

东京在线
2025-09-14 23:58:44
难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

草莓解说体育
2025-08-29 05:54:09
2025-09-15 04:27:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
354069文章数 756760关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

教育
健康
房产
手机
军事航空

教育要闻

南京29初中班级数量持续减少,为何不再“超级”?

内分泌科专家破解身高八大谣言

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

手机要闻

手机周报份额再次出炉:小米逆袭上位,iPhone蓄势待发!

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版