网易首页 > 网易号 > 正文 申请入驻

破防了!全球顶尖AI惨败,人类最后防线竟是「重启试试」?

0
分享至


新智元报道

编辑:元宇 好困

【新智元导读】大模型能写代码、聊八卦,但敢不敢让它直接接管网络运维?一项最新评测显示,面对真实网络故障,头部模型平均准确率竟不足50%!为此,GSMA联手全球巨头开启「地狱级」难度挑战赛,通往MWC 2026的门票已备好,3.5万欧元大奖等你来拿!

大模型的效用价值正处在从「做试卷」向「干实活」转变的深刻变革期。

当业界目光从聊天机器人(Chatbot)转向智能体(Agent),在现实网络作业的复杂场景下,现有的大模型表现与其在基准Benchmark的表现大相径庭。


GSMA(全球移动通信系统协会)连同ITU、ETSI、IEEE、TM Forum等电信行业权威组织,正式发起AITelco Troubleshooting Challenge(全球电信AI故障排查挑战赛)

这种跨标准组织、跨地域的合作极其罕见,彰显了该赛事的权威性。


这是一场迈向网络智能体的终极实验。

截至当前,该项赛事已吸引来自全球超过1000+支队伍参赛,受到产学研各界的广泛关注。

智能体能力的提升,已成为大模型在垂直领域大规模应用的关键赛点。

全球精英同台竞技,你准备好了吗?


为什么这可能是今年最「硬核」的AI赛事


范式跃迁

从「懂行」到「能干」的跨越

电信行业是人类历史上构建的最为复杂的工程系统之一。

现代通信网络涉及从无线接入网、传输网到核心网的端到端协同,包含数以万计的配置参数、毫秒级的信令交互以及海量的多模态日志数据。

长期以来,运营商一直致力于通过自动化技术降低运维成本,提升网络韧性。

具备强大推理与代码生成能力的大语言模型,被视为解决这一困境的银弹。

理论上,LLM可以阅读数百万页的技术标准(3GPP、ETSI等),理解复杂的网络拓扑,甚至像资深工程师一样进行故障排查。

然而,现实与理想之间存在着巨大的「准确性鸿沟」。

随着AI向垂直领域纵深发展,电信行业正经历从网络优化到客户服务的全方位智能化转型。

尽管全球运营商已斥资数十亿美元进军AI,但至今未出现一款「一骑绝尘」的杀手级应用。

原因在于电信领域的高门槛低容错

  • 知识壁垒模型需理解复杂的协议原理、计费结构、网络切片及拥塞控制。

  • 风险极高一个错误的配置指令,可能导致地区级网络瘫痪。

此前网络领域的相关评测往往聚焦于静态问答,忽略了智能体在真实网络环境中的表现。

本次挑战赛旨在打破这一瓶颈,依托GSMA Open-Telco LLM Benchmarks,寻找真正能「读取日志、分析原因、生成配置、下发指令、修复网络」的自主智能体


权威标尺

GSMA Open-Telco Benchmarks

本次大赛的底座——GSMA Open-Telco LLM Benchmarks,是由GSMA Foundry发起,AT&T、中国电信、Deutsche Telekom、Orange、Telefonica、Vodafone等全球顶级运营商,以及华为、Hugging Face、哈利法大学(Khalifa University)等技术伙伴共同构建的产业级大模型评价基准。

其目标是建立一个透明、开源、反映真实网络运营挑战的评估框架

它经历了两大阶段的迭代:

1.0阶段(Proof of Concept)

集中在通用的电信知识问答上的通用能力。

验证通用大模型在电信行业的独特需求下的满足度,即在高度专业化的工业场景中,通用推理能力无法替代领域知识。

2.0阶段(Operational Realism)

引入了更为严苛和务实的评估标准,来自12家运营商贡献了多个具体的真实用例,涵盖了从RAN优化、网络预测到客户支持的八大战略领域。

不仅关注模型「懂不懂知识」,更关注模型「能不能干活」,即在网络故障定位、通信协议分析、网络配置生成等生产环节的表现。

这是目前行业内最透明、开源、反映真实网络运营挑战的评估框架。

丰厚激励

决战MWC 2026


赛程与赛制

本次挑战赛官方提供算力资源供参赛队伍部署训练模型,并挑选不同参数规模的模型以适配未来在端侧和云端不同的消费需求。

挑战赛问题包含了网络故障定位和网络运维任务,为满足运营商降低网络故障(无论是硬件故障还是软件配置错误)的运营成本诉求,参赛者需要通过微调构建电信领域专有模型,从而在网络故障根因作业中辅助网络工程师。

然而,构建能够泛化到未知故障、新的数据分布和全新的网络环境,同时还能在资源受限的边缘服务器上高效运行的模型,仍然是一个巨大的挑战。


根据使用的基座模型区别,参赛者将在以下三个赛道中展开角逐,每类产生一支冠军队伍:

  • 最佳云模型(LLM)挑战大规模参数模型在复杂逻辑下的推理极限。

  • 最佳边缘模型(SLM)探索轻量化模型在边缘侧的高效部署与决策。

  • 最佳推理模型聚焦故障定位、告警分析与自动化修复的准确性。

获胜者不仅能获得丰厚的现金奖励,更将获得全球顶级的展示舞台:

  • 现金大奖瓜分3.5万欧元(约合人民币27万元)奖金池。

  • 直通巴塞罗那:获奖团队代表将获得全额资助(机票+住宿),前往MWC Barcelona 2026(世界移动通信大会)现场领奖!在全球数十万行业精英面前展示你的方案。

  • 顶会加持:冠军方案有机会被推荐至IEEE ICMLCN 2026(阿布扎比)发表,科研KPI直接拉满。

  • 全球曝光:获胜模型将登顶Hugging Face的GSMA Benchmark榜单,获得ITU「AI for Good」项目的官方认证。


5G路测日志故障定位

该任务数据集使用GSMA Open Telco Benchmark 2.0中未公开的TeleLogs特定竞赛版本,通过两阶段分别发布竞赛题,防止早期过拟合。

大模型需要在真实的5G路测日志、工参等信息中,定位配置错误或网络问题,重点考察其在电信推理任务-网络故障根因分析的基础能力,需要模型具备「物理世界的直觉」。

赛题设置:

通过两阶段分开分布赛题,支撑对作品模型的泛化性能力评估,预防过拟合结果:

第一阶段:该阶段公布一部分比赛用例,支撑参赛人员研究并查看初步结果;

第二阶段:剩余问题将于挑战截止日期前两周公布,综合评估在更广泛网络问题中模型推理能力。

核心评估指标:

Pass@1:衡量模型在单次尝试中得出正确答案的能力。其计算方法是分别评估生成的4个答案,然后对所有样本的正确率取平均值;

综合能力评估:未预防模型在专有任务的过拟合,模型的最终评估将在涵盖保持通用知识准确性的能力。即判分评测集将包含网络故障数据(与公开案例不同的数据分布)以及通用知识问题。

⚠️难度预警:

在最新的海外厂商测试中,Agent类挑战任务使用闭源模型的最好表现不足50%,这意味着,目前的通用大模型距离成为「可靠的网络工程师」,仍有很长的路要走。


One More Thing

Agent挑战赛即将开启

除了面向网络故障的定位任务,GSMA AI挑战赛的下一跳为限时条件下的智能体任务。

在网络运维场景中,通过深度模拟高度还原的企业级数据中心组网环境,竞赛系统会通过动态注入技术,随机产生异常波动与突发故障,模拟出真实生产环境中的各种不确定性。

开发者可以通过训练模型、设计并实现智能体完成真实网络运维业务场景的关键难题,系统将针对每类问题生成独立的任务环境,涵盖多家网络服务厂商的真实问题分布,最终以步骤级推理和最终结果进行打分,深度评估Agent在应对复杂网络问题时的逻辑推理能力与自动化处置效能。

而将Agent置于复杂的拓扑结构与动态流量之中,这种全链路、高压力的场景设定,旨在使参赛智能体需像资深运维专家一样,不仅要理解深厚的网络协议知识,更要在海量告警的干扰下精准完成告警相关性分析,并迅速给出网络还原策略,即自主完成网络还原、故障定位与修复。

在效能考核上,竞赛制定了「准确性(Correctness)」与「速度(Speed)」并重的双重评价体系,旨在深度挖掘Agent在复杂网络环境下发现并修复故障的实战潜力。

相关任务敬请期待~


重构运营模式

构建「网络生命体」


AI Telco Troubleshooting Challenge系列赛事不仅是一场技术竞赛,更是电信运营模式重构的开始。

电信领域的AGI愿景,是构建一个能够自我感知、自我决策、乃至自我进化的「网络生命体」。

构建电信领域专用评测基准不仅是技术发展的必然要求,更是推动产业智能化升级的战略支点,为破解垂直领域AI评估难题提供了可复制的范式。

本次挑战赛预示着电信运营模式的根本性重构,降低风险并加速人工智能在电信行业的应用,形成「技术-场景-商业」闭环,实现AI从「可用」到「可信」的质变,推动「工程师」角色的深刻变革。

立即报名

挑战SOTA

无论你是来自高校的科研狂人,还是大厂的算法大神,这场「电信界的究极挑战」都不容错过。

立即访问官网报名:https://telcoai-competition.bluescarf.ai/

截止时间以官网公布信息为准。

最新挑战赛的详细安排也将在大赛官网陆续更新,敬请期待!

二维码快速报名:


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

袁医生课堂
2026-01-24 17:33:06
航班大量取消!超市货架拿空!不少中国网友发文称滞留日本,“简直是灾难”…...

航班大量取消!超市货架拿空!不少中国网友发文称滞留日本,“简直是灾难”…...

鲁中晨报
2026-01-27 09:19:48
退脏衣女记者社死!嚣张丢了铁饭碗,商家硬刚到底,势力大也没用

退脏衣女记者社死!嚣张丢了铁饭碗,商家硬刚到底,势力大也没用

离离言几许
2026-01-26 10:48:59
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
有人企图煽动“国外的月亮更圆”的扭曲风气等,国安部披露

有人企图煽动“国外的月亮更圆”的扭曲风气等,国安部披露

中国网
2026-01-26 10:13:11
中央批准:省级党委常委跨省履新!近日,五个省级党委领导班子调整

中央批准:省级党委常委跨省履新!近日,五个省级党委领导班子调整

上观新闻
2026-01-26 22:42:05
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
国务院决定:免去曾国卫职务

国务院决定:免去曾国卫职务

看看新闻Knews
2026-01-27 11:01:02
贝克汉姆家齐聚巴黎!被问起大布全体冷漠,15岁小七胖成两个贝嫂

贝克汉姆家齐聚巴黎!被问起大布全体冷漠,15岁小七胖成两个贝嫂

李健政观察
2026-01-27 09:46:07
特朗普:若遭暗杀,美国将把伊朗“从地球上抹去”

特朗普:若遭暗杀,美国将把伊朗“从地球上抹去”

扬子晚报
2026-01-27 12:19:31
江苏一餐饮老板李金良去世,仅37岁,新店才几个月,妻子心都碎了

江苏一餐饮老板李金良去世,仅37岁,新店才几个月,妻子心都碎了

深析古今
2026-01-27 09:48:29
马德兴:邵佳一组织国足召开学习会,明确提出要向U23国足学习

马德兴:邵佳一组织国足召开学习会,明确提出要向U23国足学习

懂球帝
2026-01-27 11:55:12
29岁女子被丈夫砍死!受害者完全可以逃生,3条生路被堵死

29岁女子被丈夫砍死!受害者完全可以逃生,3条生路被堵死

细品名人
2026-01-26 07:36:25
奥巴马发声!特朗普:愿意从明尼阿波利斯撤出ICE

奥巴马发声!特朗普:愿意从明尼阿波利斯撤出ICE

参考消息
2026-01-26 14:47:08
长沙18元到广州,桂林5.5元到永州?有一种票价优惠叫“反向春运”

长沙18元到广州,桂林5.5元到永州?有一种票价优惠叫“反向春运”

环球网资讯
2026-01-27 15:41:13
退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

李健政观察
2026-01-26 09:33:07
男装商家不使用巨型吊牌防止恶意退货!网友:男人买衣看的是质感

男装商家不使用巨型吊牌防止恶意退货!网友:男人买衣看的是质感

火山诗话
2026-01-27 07:47:46
性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

医诺维
2026-01-26 17:02:36
访华前,他为何说前几任首相不去中国是失职?

访华前,他为何说前几任首相不去中国是失职?

新民周刊
2026-01-27 09:08:46
伊朗对国内民众的残酷镇压,成为了自己的催命符

伊朗对国内民众的残酷镇压,成为了自己的催命符

林中木白
2026-01-26 16:58:23
2026-01-27 15:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14424文章数 66543关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

墨西哥被指取消向古巴运送原油计划

头条要闻

墨西哥被指取消向古巴运送原油计划

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

本地
数码
时尚
公开课
军事航空

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

高颜值银白刀锋!微星MPG B850M EDGE TI MAX WIFI图赏

降温了!羽绒服这样穿显瘦又时髦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版