网易首页 > 网易号 > 正文 申请入驻

大模型基准测试有了 ITU 国际标准,中国信通院牵头制定

0
分享至

IT之家 4 月 11 日消息,据中国信通院今日消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试 / Assessment criteria for foundation models: Benchmark

该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。

近些年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试(Benchmark)通过设计合理的测试任务和评价数据集来客观、公正、量化的评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。

当前已有数百个基准测试方法和数据集用于衡量大模型的能力,例如 MMLU、C-Eval、AGIEval、GSM8K 等。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,特联合相关单位开展标准的编制工作。

本次发布的国际标准基于当前产学研界 500 余项基准测试系统性研究,一方面确立了大模型基准测试的 4 项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。

IT之家从中国信通院官方获悉,中国信通院人工智能研究所于 2023 年开始布局大模型基准测试研究,并于 2023 年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累 600 万条数据集,构建 FactTeting 测试工具,支撑整个大模型测试过程的自动化实施。

自 2024 年以来,参照已发布的 ITU 大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。国际标准 ITU-T F.748.44 的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巨星施瓦辛格28岁私生子参加健美赛!亲妈是保姆,网友:长一样!

巨星施瓦辛格28岁私生子参加健美赛!亲妈是保姆,网友:长一样!

英国报姐
2026-03-27 21:29:30
iOS 紧急发布系统更新提醒,建议升级!

iOS 紧急发布系统更新提醒,建议升级!

花果科技
2026-03-29 00:02:21
以军称接近完成对伊朗约90%关键军工设施的打击

以军称接近完成对伊朗约90%关键军工设施的打击

财联社
2026-03-29 00:43:03
好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

互联网.乱侃秀
2026-03-26 10:55:17
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
新设计!华为新机定档:4月份,正式登场亮相

新设计!华为新机定档:4月份,正式登场亮相

科技堡垒
2026-03-26 11:33:56
英国首相回击美国的伊朗战争施压:绝不屈服

英国首相回击美国的伊朗战争施压:绝不屈服

国际在线
2026-03-28 07:46:18
这次确定了!东契奇将被禁赛!三巨头81分,魔鬼赛程要来了

这次确定了!东契奇将被禁赛!三巨头81分,魔鬼赛程要来了

Haviven聊球
2026-03-28 22:34:06
德转列史上40+岁球员身价榜:C罗1200万欧断层领先,伊布次席

德转列史上40+岁球员身价榜:C罗1200万欧断层领先,伊布次席

懂球帝
2026-03-28 11:58:14
“老虎”伍兹被捕,违法总是要付出代价的,不分国别!

“老虎”伍兹被捕,违法总是要付出代价的,不分国别!

阿废冷眼观察所
2026-03-29 03:51:22
95后“掏粪男孩”结婚 9辆吸粪车组车队迎亲 新娘:这是我们专属的浪漫

95后“掏粪男孩”结婚 9辆吸粪车组车队迎亲 新娘:这是我们专属的浪漫

红星新闻
2026-03-28 13:41:14
奖金795万!萨巴伦卡让美国观众闭嘴:终结高芙9连霸 开年只输1场

奖金795万!萨巴伦卡让美国观众闭嘴:终结高芙9连霸 开年只输1场

风过乡
2026-03-29 06:52:50
写给所有被网贷压垮的人:2026年,是你翻身最容易的一年

写给所有被网贷压垮的人:2026年,是你翻身最容易的一年

我不叫阿哏
2026-03-06 20:12:30
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
美国为什么突然打伊朗?一篇文讲清楚

美国为什么突然打伊朗?一篇文讲清楚

李月亮
2026-03-02 20:46:25
遗传病能有多恐怖?网友:癌症遗传那个堪称地狱级了

遗传病能有多恐怖?网友:癌症遗传那个堪称地狱级了

带你感受人间冷暖
2026-03-28 16:23:17
A股:大家坐稳扶好了,从下周一起,大牛市或将再次重演历史了!

A股:大家坐稳扶好了,从下周一起,大牛市或将再次重演历史了!

夜深爱杂谈
2026-03-28 18:00:54
气质是天生的,这是我见过最美的中年女性,没有之一

气质是天生的,这是我见过最美的中年女性,没有之一

小椰的奶奶
2026-03-27 17:26:10
伊朗封锁海峡,川普拿捏能源买家和卖家达到顶点,差不多才会解决

伊朗封锁海峡,川普拿捏能源买家和卖家达到顶点,差不多才会解决

邵旭峰域
2026-03-28 16:00:03
中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

不似少年游
2026-02-10 09:18:15
2026-03-29 07:35:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336446文章数 607096关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

教育
房产
家居
公开课
军事航空

教育要闻

“女孩家长心真大!”小男孩带女同学回家留宿,网友破防了!

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

家居要闻

曲线华尔兹 现代简约

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版