网易首页 > 网易号 > 正文 申请入驻

大模型越来越强,上海也努力让大模型“考试”更专业、全面!

0
分享至

大模型“考生”数量越来越多、能力越来越强,呼唤更专业、公正、开放的“统一考试”——这不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

新民晚报记者21日从上海人工智能实验室获悉,由其打造的创新开放评测体系司南(OpenCompass)全面升级,从大模型评测扩展至AI计算系统、具身智能、安全可信及垂类行业应用等五大领域,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力,为行业提供一站式、全景化的能力刻度。

补齐五大板块能力评估矩阵

人们发现,现今模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,AI正加速走向与真实世界深度融合。

面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式,已难以支撑技术走向大规模部署与可信应用。

在这样的背景下,构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室告诉记者,已对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上,进一步拓展并纳入了安全可信评测、具身智能评测、AI计算系统评测和垂类行业评测。

至此,司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信以及垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式。

重塑AI能力刻度标准

记者获悉,在此次推出的“垂类应用评测模块”,当前已“上新”了“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业,对安全性、专业性、实用性要求极高。“AI+金融”评测构建了融合多模态、主观题与大模型评审的新型评测范式。其中,金融多模态评测集在纯文本基础上,融合财报、研报、IPO、K线图、公章等典型图文材料,更贴近金融实务的多模态场景。

“AI+医疗”评测新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

此外,具身智能评测从具身大脑、具身小脑和具身系统三大功能维度出发,构建“静态—仿真—实境”三层级评测路径,覆盖模型从认知到行动的全链条能力。

助力新技术在应用中达到预期

自发布以来,司南评测体系通过开源可复现的一站式评测框架,已累计支持超200个大语言模型、150个多模态模型,覆盖300+评测集,工具链GitHub Stars超过1万。

据透露,司南作为主要成员参与制定国家标准《人工智能大模型第2部分:评测指标与方法》,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单,工具链已集成至阿里云ModeScope、百度云在线评测服务等产品,持续赋能大模型产业生态;同时,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

新民晚报记者获悉,目前,司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。

未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

原标题:《大模型越来越强,上海也努力让大模型“考试”更专业、全面!》

栏目编辑:马丹 题图来源:东方IC 图片来源:采访对象供图

来源:作者:新民晚报 郜阳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
森林狼主帅:赢马刺靠强硬的身体对抗,文班离场后我们有点松懈

森林狼主帅:赢马刺靠强硬的身体对抗,文班离场后我们有点松懈

懂球帝
2026-05-11 15:30:07
我刚搬进新家,就听楼上情侣折腾了一夜,没忍住加了楼上帅哥

我刚搬进新家,就听楼上情侣折腾了一夜,没忍住加了楼上帅哥

古怪奇谈录
2026-05-11 15:42:49
玉渊谭天丨美国总统时隔9年再访华

玉渊谭天丨美国总统时隔9年再访华

上观新闻
2026-05-11 13:34:12
结不起还是结不动?一季度全国结婚登记再创纪录新低

结不起还是结不动?一季度全国结婚登记再创纪录新低

听心堂
2026-05-10 17:04:06
谈判破裂!央视回绝国际足联报价,中国球迷还能看到世界杯吗?

谈判破裂!央视回绝国际足联报价,中国球迷还能看到世界杯吗?

米老鼠的世界
2026-05-11 08:59:16
中国证实去年印巴战争期间,曾向巴基斯坦空军提供援助

中国证实去年印巴战争期间,曾向巴基斯坦空军提供援助

照亮你的前行之路
2026-05-10 10:05:55
常州高架通车,别让“迷信”活动开了“倒车”

常州高架通车,别让“迷信”活动开了“倒车”

清哲木观察
2026-05-11 15:14:04
39+35+33!队史第1!这就是尼克斯给他1.57亿美金大合同的原因

39+35+33!队史第1!这就是尼克斯给他1.57亿美金大合同的原因

世界体育圈
2026-05-10 19:03:04
调查发现:男性若长期不喝酒,用不了2个月,身体或出现5大改变

调查发现:男性若长期不喝酒,用不了2个月,身体或出现5大改变

摇感军事
2026-05-04 18:24:49
倒计时2天,中方终于官宣,特朗普松了一口气,高市早苗彻底傻眼

倒计时2天,中方终于官宣,特朗普松了一口气,高市早苗彻底傻眼

无情有思ss
2026-05-11 15:19:21
顺治只活了23岁,并且只宠爱董鄂妃,那他14个孩子都是谁生的?

顺治只活了23岁,并且只宠爱董鄂妃,那他14个孩子都是谁生的?

铭记历史呀
2026-05-10 19:20:42
年报临时改、突然戴*ST!12.5万散户被闷杀,连吃6跌停

年报临时改、突然戴*ST!12.5万散户被闷杀,连吃6跌停

财经智多星
2026-05-11 12:05:34
辽宁男篮动态更新!付豪合同到期开练,三名小将将升入第一梯队,球队不会放赵继伟离开

辽宁男篮动态更新!付豪合同到期开练,三名小将将升入第一梯队,球队不会放赵继伟离开

凯丰侃球
2026-05-11 09:15:04
被传绯闻22年,杨紫和张一山终于现身回应,彼此家长都见过了

被传绯闻22年,杨紫和张一山终于现身回应,彼此家长都见过了

落雪听梅a
2026-05-08 16:23:37
中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

掉了颗大白兔糖
2026-05-05 15:18:03
央一48集新剧《主角》开播!2名配角太优秀,连张嘉益都被抢风头

央一48集新剧《主角》开播!2名配角太优秀,连张嘉益都被抢风头

八斗小先生
2026-05-11 12:40:33
建议中老年:生活别太节俭,这3种“软黄金”该吃就吃,体力足

建议中老年:生活别太节俭,这3种“软黄金”该吃就吃,体力足

阿龙美食记
2026-04-10 10:30:57
“东尼这么一个烂大街的名字,咱也不知道它是品牌啊”,英国一公司起诉山东小理发店商标侵权,代理律师曾否认恶意碰瓷,已有多家店被判赔

“东尼这么一个烂大街的名字,咱也不知道它是品牌啊”,英国一公司起诉山东小理发店商标侵权,代理律师曾否认恶意碰瓷,已有多家店被判赔

扬子晚报
2026-05-11 07:36:46
成本3.5亿,预计亏损超2亿,《寒战1994》失败的原因找到了

成本3.5亿,预计亏损超2亿,《寒战1994》失败的原因找到了

影视高原说
2026-05-11 14:39:34
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
2026-05-11 16:43:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
480947文章数 761364关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

尼克斯横扫费城:唐斯恩比德的命运与角色

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

时尚
艺术
游戏
本地
亲子

伊姐周日热推:电视剧《主角》;电视剧《良陈美锦》......

艺术要闻

陆抑非写竹,笔力遒劲

《巫师4》曝重磅消息:《天国:拯救》核心主创加盟!

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

一转眼儿子3岁了,从出生到现在带来太多快乐幸福,生日快乐!

无障碍浏览 进入关怀版