网易首页 > 网易号 > 正文 申请入驻

大模型越来越强,上海也努力让大模型“考试”更专业、全面!

0
分享至



大模型“考生”数量越来越多、能力越来越强,呼唤更专业、公正、开放的“统一考试”——这不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

新民晚报记者21日从上海人工智能实验室获悉,由其打造的创新开放评测体系司南(OpenCompass)全面升级,从大模型评测扩展至AI计算系统、具身智能、安全可信及垂类行业应用等五大领域,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力,为行业提供一站式、全景化的能力刻度。

补齐五大板块能力评估矩阵

人们发现,现今模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,AI正加速走向与真实世界深度融合。

面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式,已难以支撑技术走向大规模部署与可信应用。

在这样的背景下,构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室告诉记者,已对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上,进一步拓展并纳入了安全可信评测、具身智能评测、AI计算系统评测和垂类行业评测。

至此,司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信以及垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式。


重塑AI能力刻度标准

记者获悉,在此次推出的“垂类应用评测模块”,当前已“上新”了“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业,对安全性、专业性、实用性要求极高。“AI+金融”评测构建了融合多模态、主观题与大模型评审的新型评测范式。其中,金融多模态评测集在纯文本基础上,融合财报、研报、IPO、K线图、公章等典型图文材料,更贴近金融实务的多模态场景。

“AI+医疗”评测新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

此外,具身智能评测从具身大脑、具身小脑和具身系统三大功能维度出发,构建“静态—仿真—实境”三层级评测路径,覆盖模型从认知到行动的全链条能力。

助力新技术在应用中达到预期

自发布以来,司南评测体系通过开源可复现的一站式评测框架,已累计支持超200个大语言模型、150个多模态模型,覆盖300+评测集,工具链GitHub Stars超过1万。

据透露,司南作为主要成员参与制定国家标准《人工智能大模型第2部分:评测指标与方法》,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单,工具链已集成至阿里云ModeScope、百度云在线评测服务等产品,持续赋能大模型产业生态;同时,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

新民晚报记者获悉,目前,司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。

未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

原标题:《大模型越来越强,上海也努力让大模型“考试”更专业、全面!》

栏目编辑:马丹 题图来源:东方IC 图片来源:采访对象供图

来源:作者:新民晚报 郜阳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离队倒计时?北京首钢又一水货外援,许利民难咎其责

离队倒计时?北京首钢又一水货外援,许利民难咎其责

篮球看比赛
2026-01-19 12:32:35
79岁陶华碧太狠了!出山救子改回老配方,老干妈狂赚54亿重回巅峰

79岁陶华碧太狠了!出山救子改回老配方,老干妈狂赚54亿重回巅峰

卷史
2026-01-17 04:17:58
67万亿砸向市场!比08年疯狂16倍,房价物价要变天?

67万亿砸向市场!比08年疯狂16倍,房价物价要变天?

无情有思ss
2026-01-18 16:45:23
伺候瘫痪婆婆十年,丈夫说我在家吃白食,我当即出门旅游半个月

伺候瘫痪婆婆十年,丈夫说我在家吃白食,我当即出门旅游半个月

船长与船1
2026-01-19 11:48:30
建议大家:今明年买房,牢记“买旧、买大、不买二”,真不是胡说

建议大家:今明年买房,牢记“买旧、买大、不买二”,真不是胡说

家居设计师苏哥
2026-01-19 12:44:16
官媒亲自点名,揭开43岁张杰陷饭圈大战的内幕,他也走上孙俪老路

官媒亲自点名,揭开43岁张杰陷饭圈大战的内幕,他也走上孙俪老路

阿器谈史
2026-01-19 16:25:11
内蒙古伊金霍洛旗应急管理局:东博煤矿存在重大安全隐患,停产整顿2日

内蒙古伊金霍洛旗应急管理局:东博煤矿存在重大安全隐患,停产整顿2日

界面新闻
2026-01-19 16:35:57
《新三国》20个名梗,一个比一个好笑,都成经典了

《新三国》20个名梗,一个比一个好笑,都成经典了

可乐谈情感
2026-01-18 11:21:15
原来他是罗京的儿子,14岁时扛起小家,母亲再嫁时只提了一个要求

原来他是罗京的儿子,14岁时扛起小家,母亲再嫁时只提了一个要求

丰谭笔录
2026-01-11 07:30:10
无法停止的大雪崩,湖人的25-26赛季已然结束了

无法停止的大雪崩,湖人的25-26赛季已然结束了

小僫搞笑解说
2026-01-19 00:42:16
古代没有光谱仪,给一块石头包上银子,能拿出去当钱花吗?

古代没有光谱仪,给一块石头包上银子,能拿出去当钱花吗?

收藏大视界
2026-01-17 17:41:56
徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

念洲
2026-01-18 16:12:52
董璇前夫高云翔深夜晒淋雪照!边走边笑,对比张维伊差太多

董璇前夫高云翔深夜晒淋雪照!边走边笑,对比张维伊差太多

一盅情怀
2026-01-19 14:10:47
那个在西藏头顶撒野40年的邻居终于老实了

那个在西藏头顶撒野40年的邻居终于老实了

历史回忆室
2026-01-16 12:23:12
农历春节前好运回归,意外横财来袭,3个生肖实力飙升开启上坡路

农历春节前好运回归,意外横财来袭,3个生肖实力飙升开启上坡路

毅谈生肖
2026-01-19 11:49:37
国家统计局:2025年出生人口792万人

国家统计局:2025年出生人口792万人

EOL教育在线
2026-01-19 14:01:21
刚刚,川普正式向欧盟宣战

刚刚,川普正式向欧盟宣战

西楼饮月
2026-01-18 23:23:12
台岛海峡发生激烈对峙!2架直10不顾阻扰,强行压向美军宙斯盾舰

台岛海峡发生激烈对峙!2架直10不顾阻扰,强行压向美军宙斯盾舰

荐史
2026-01-19 09:20:16
看笑话的人失望了,波音最担心的发生,欧洲人试飞C919评了8个字

看笑话的人失望了,波音最担心的发生,欧洲人试飞C919评了8个字

通文知史
2026-01-17 20:55:03
上海第二大高铁站2027年建成,同步接入国铁与市铁,实现内联外通

上海第二大高铁站2027年建成,同步接入国铁与市铁,实现内联外通

行走的知识库
2026-01-19 12:11:24
2026-01-19 17:03:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
420936文章数 758859关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

数码
教育
家居
游戏
房产

数码要闻

当贝预热Dangbei Air 1蓝牙耳机,1月22日正式发布

教育要闻

“打了没用,是打得不够狠”,家长晒女儿哭闹视频,网友看清现实

家居要闻

隽永之章 清雅无尘

《剑星》×《妮姬》红莲大尺度雕像 翘臀挺立很性感

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

无障碍浏览 进入关怀版