网易首页 > 网易号 > 正文 申请入驻

大模型基准测试有了 ITU 国际标准,中国信通院牵头制定

0
分享至

IT之家 4 月 11 日消息,据中国信通院今日消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试 / Assessment criteria for foundation models: Benchmark

该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。


近些年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试(Benchmark)通过设计合理的测试任务和评价数据集来客观、公正、量化的评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。

当前已有数百个基准测试方法和数据集用于衡量大模型的能力,例如 MMLU、C-Eval、AGIEval、GSM8K 等。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,特联合相关单位开展标准的编制工作。

本次发布的国际标准基于当前产学研界 500 余项基准测试系统性研究,一方面确立了大模型基准测试的 4 项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。

IT之家从中国信通院官方获悉,中国信通院人工智能研究所于 2023 年开始布局大模型基准测试研究,并于 2023 年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累 600 万条数据集,构建 FactTeting 测试工具,支撑整个大模型测试过程的自动化实施。

自 2024 年以来,参照已发布的 ITU 大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。国际标准 ITU-T F.748.44 的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
空调大王跌落神坛,巨亏14亿,叫板董明珠扬言造最好空调现成老赖

空调大王跌落神坛,巨亏14亿,叫板董明珠扬言造最好空调现成老赖

北纬的咖啡豆
2025-09-16 19:16:27
台海还没开战,另一场恶仗已逼近中国,美撕下伪装,基辛格说对了

台海还没开战,另一场恶仗已逼近中国,美撕下伪装,基辛格说对了

盒子里的密探
2025-09-19 16:29:05
上海市的人均养老金到底是多少?6000元位列多少名次?

上海市的人均养老金到底是多少?6000元位列多少名次?

小鹿姐姐情感说
2025-09-19 11:58:54
广东初中毕业女孩为一万月薪“硬刚”老板火遍全网,网友评价:本科看了崩溃,硕士看了流泪.....

广东初中毕业女孩为一万月薪“硬刚”老板火遍全网,网友评价:本科看了崩溃,硕士看了流泪.....

桌子的生活观
2025-09-19 12:48:08
西贝跌倒,麻六记吃饱!西贝送上的泼天流量,被汪小菲接住了

西贝跌倒,麻六记吃饱!西贝送上的泼天流量,被汪小菲接住了

坦然风云
2025-09-15 01:55:11
在金正恩治理下,去朝鲜的中餐厅点海参和茅台酒,需要花费多少钱

在金正恩治理下,去朝鲜的中餐厅点海参和茅台酒,需要花费多少钱

明史专家
2025-09-18 18:34:49
菲所有部队“全员待命”之际,中国在黄岩岛出手了:还敢不敢来?

菲所有部队“全员待命”之际,中国在黄岩岛出手了:还敢不敢来?

通文知史
2025-09-18 16:05:05
网友称离开大陆后,运营商打着“为你好”的旗号,无故将手机号停机

网友称离开大陆后,运营商打着“为你好”的旗号,无故将手机号停机

可达鸭面面观
2025-09-19 09:52:04
在金正恩的治理下,去平壤高级饭店吃一碗冷面,需要花多少钱?

在金正恩的治理下,去平壤高级饭店吃一碗冷面,需要花多少钱?

明史专家
2025-09-17 19:49:48
稻盛和夫:站在1楼,有人骂我,我很生气;站在10楼,有人骂我...

稻盛和夫:站在1楼,有人骂我,我很生气;站在10楼,有人骂我...

清风拂心
2025-09-15 14:15:08
苏翊鸣社媒为朱易送上生日祝福:Happy Bev Day!

苏翊鸣社媒为朱易送上生日祝福:Happy Bev Day!

懂球帝
2025-09-19 13:53:27
梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

清风拂心
2025-09-14 13:15:08
FIBA最新男篮排名:中国男篮世界第27,亚洲第五

FIBA最新男篮排名:中国男篮世界第27,亚洲第五

懂球帝
2025-09-19 08:28:10
世界乒联官宣!公布中国大满贯完整名单,国乒多达33位选手入围

世界乒联官宣!公布中国大满贯完整名单,国乒多达33位选手入围

郝小小看体育
2025-09-19 16:14:59
49年,男子心软放过日本女俘,带她隐居山村,35年后才知她真实身份

49年,男子心软放过日本女俘,带她隐居山村,35年后才知她真实身份

月下有清风
2025-09-18 16:39:46
重返老东家!小史密斯一年合同回归独行侠 上赛季效力皇马

重返老东家!小史密斯一年合同回归独行侠 上赛季效力皇马

罗说NBA
2025-09-19 07:44:12
9月18日俄乌:乌再袭俄两大炼油厂,泽连斯基提出B计划

9月18日俄乌:乌再袭俄两大炼油厂,泽连斯基提出B计划

山河路口
2025-09-18 17:15:55
迄今为止,罗永浩是最爱护贾国龙的人

迄今为止,罗永浩是最爱护贾国龙的人

桉予
2025-09-17 16:06:37
今起至周末北京“初秋感”拉满 下周将迎新一轮冷空气过程

今起至周末北京“初秋感”拉满 下周将迎新一轮冷空气过程

北青网-北京青年报
2025-09-19 07:48:06
收到访华邀请,特朗普提了两个条件,只要中方做到专机立马起飞

收到访华邀请,特朗普提了两个条件,只要中方做到专机立马起飞

回京历史梦
2025-09-19 10:14:34
2025-09-19 17:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
306669文章数 606560关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

翟欣欣与前夫聊天记录披露 前夫跳楼前被骂"不得好死"

头条要闻

翟欣欣与前夫聊天记录披露 前夫跳楼前被骂"不得好死"

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

"矿霸"填埋万吨危废 当地政府成立调查组

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

本地
房产
健康
艺术
公开课

本地新闻

大学生军训哪家强,广西申请“出战”!

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

内分泌科专家破解身高八大谣言

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版