网易首页 > 网易号 > 正文 申请入驻

大模型基准测试有了 ITU 国际标准,中国信通院牵头制定

0
分享至

IT之家 4 月 11 日消息,据中国信通院今日消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试 / Assessment criteria for foundation models: Benchmark

该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。

近些年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试(Benchmark)通过设计合理的测试任务和评价数据集来客观、公正、量化的评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。

当前已有数百个基准测试方法和数据集用于衡量大模型的能力,例如 MMLU、C-Eval、AGIEval、GSM8K 等。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,特联合相关单位开展标准的编制工作。

本次发布的国际标准基于当前产学研界 500 余项基准测试系统性研究,一方面确立了大模型基准测试的 4 项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。

IT之家从中国信通院官方获悉,中国信通院人工智能研究所于 2023 年开始布局大模型基准测试研究,并于 2023 年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累 600 万条数据集,构建 FactTeting 测试工具,支撑整个大模型测试过程的自动化实施。

自 2024 年以来,参照已发布的 ITU 大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。国际标准 ITU-T F.748.44 的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
澳洲医疗技术逆天! 华人全身血液抽干, 心跳停止, 40分钟后重生! 全球仅10例, 只有澳洲能做

澳洲医疗技术逆天! 华人全身血液抽干, 心跳停止, 40分钟后重生! 全球仅10例, 只有澳洲能做

澳微Daily
2026-02-22 14:06:29
高市早苗连任后的第一次演讲,公开点名中俄朝三个国家

高市早苗连任后的第一次演讲,公开点名中俄朝三个国家

近史博览
2026-02-22 16:03:07
别看景区人山人海,仔细一算全是穷游,人均消费露馅,消费降级了

别看景区人山人海,仔细一算全是穷游,人均消费露馅,消费降级了

眼光很亮
2026-02-22 10:37:00
90年代,谷爱凌的外公谷振光,一张罕见留影,他是孙女童年的玩伴

90年代,谷爱凌的外公谷振光,一张罕见留影,他是孙女童年的玩伴

动物奇奇怪怪
2026-02-12 07:54:48
揭露手机厂商作弊视频被下架,极客湾硬刚:分享源视频文件

揭露手机厂商作弊视频被下架,极客湾硬刚:分享源视频文件

识礁Farsight
2026-02-22 22:10:33
堵疯了!广东进入堵车“炼狱”,20公里走5小时,比蜗牛爬还慢…

堵疯了!广东进入堵车“炼狱”,20公里走5小时,比蜗牛爬还慢…

火山詩话
2026-02-23 05:58:25
宇树去年卖了5500台机器人,深挖后发现:买主根本不是普通人

宇树去年卖了5500台机器人,深挖后发现:买主根本不是普通人

离离言几许
2026-02-22 20:45:23
后续!摔倒被扶反索赔22万大妈认怂撤诉 女孩母亲再发声 事恐没完

后续!摔倒被扶反索赔22万大妈认怂撤诉 女孩母亲再发声 事恐没完

离离言几许
2026-02-22 11:08:04
香港身份烂尾潮已来!12万内地中产,正在被精准收割

香港身份烂尾潮已来!12万内地中产,正在被精准收割

社会日日鲜
2026-02-22 04:38:12
2月22日俄乌最新:川普逼迫乌克兰2天内投降

2月22日俄乌最新:川普逼迫乌克兰2天内投降

西楼饮月
2026-02-22 16:03:29
价值380万元被“泼墨”画作已初步修复,画家:尊重内心,没有用网友的方案

价值380万元被“泼墨”画作已初步修复,画家:尊重内心,没有用网友的方案

南国今报
2026-02-22 12:14:52
并非迷信!今天大年初七,牢记:1要洗、2不做、3要吃、别犯忌讳

并非迷信!今天大年初七,牢记:1要洗、2不做、3要吃、别犯忌讳

阿龙美食记
2026-02-23 00:50:03
第一批返程的人已堵哭,有人从河南回上海开了23小时还剩200公里,“每个服务区都堵到怀疑人生”!

第一批返程的人已堵哭,有人从河南回上海开了23小时还剩200公里,“每个服务区都堵到怀疑人生”!

极目新闻
2026-02-23 09:58:18
冬奥会收官日,中国第5金诞生!谷爱凌大翻盘:失误后从第8升第1

冬奥会收官日,中国第5金诞生!谷爱凌大翻盘:失误后从第8升第1

侃球熊弟
2026-02-22 19:16:16
4-1!哲凯赖什双响,1.3亿巨头伤退,阿森纳大胜,甩开曼城5分

4-1!哲凯赖什双响,1.3亿巨头伤退,阿森纳大胜,甩开曼城5分

我的护球最独特
2026-02-23 02:41:35
男子参加“王婆说媒”,自称“在政府机关上班”、有豪车及多套房,官方回应

男子参加“王婆说媒”,自称“在政府机关上班”、有豪车及多套房,官方回应

上观新闻
2026-02-22 14:29:06
哈登20+9吞加盟首败!骑士负残阵雷霆无缘8连胜 乔22分5断

哈登20+9吞加盟首败!骑士负残阵雷霆无缘8连胜 乔22分5断

罗说NBA
2026-02-23 04:46:37
家里闲置行李箱别扔!8个脑洞用法,看完直呼太会玩!

家里闲置行李箱别扔!8个脑洞用法,看完直呼太会玩!

绘本家居
2026-02-20 09:38:01
鹅粉砸了重金的「俄罗斯娜娜」,原来是中国大妈,可她毕竟温暖了多少人夜里难眠的心……

鹅粉砸了重金的「俄罗斯娜娜」,原来是中国大妈,可她毕竟温暖了多少人夜里难眠的心……

家传编辑部
2026-02-22 16:40:47
妈祖被换后续:官方发通报澄清,许家人身份曝光,还有更多疑点

妈祖被换后续:官方发通报澄清,许家人身份曝光,还有更多疑点

离离言几许
2026-02-22 23:41:21
2026-02-23 11:12:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
330549文章数 607012关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

女歌手曲婉婷新账号疑似被封 中纪委曾发文提及其母亲

头条要闻

女歌手曲婉婷新账号疑似被封 中纪委曾发文提及其母亲

体育要闻

谷爱凌:6次参赛6次夺牌 我对自己非常自豪

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

艺术
健康
游戏
手机
时尚

艺术要闻

十大名家画春,送给春天的你!

转头就晕的耳石症,能开车上班吗?

游戏女主播曝抖音直播内幕!播游戏没工资 真会饿死

手机要闻

时隔4年终于回归!iPhone 18 Pro将推出深红配色

50+女人更适合基础款,掌握3个高段位搭配思路,轻松提升品味

无障碍浏览 进入关怀版