网易首页 > 网易号 > 正文 申请入驻

破防了!全球顶尖AI惨败,人类最后防线竟是「重启试试」?

0
分享至


新智元报道

编辑:元宇 好困

【新智元导读】大模型能写代码、聊八卦,但敢不敢让它直接接管网络运维?一项最新评测显示,面对真实网络故障,头部模型平均准确率竟不足50%!为此,GSMA联手全球巨头开启「地狱级」难度挑战赛,通往MWC 2026的门票已备好,3.5万欧元大奖等你来拿!

大模型的效用价值正处在从「做试卷」向「干实活」转变的深刻变革期。

当业界目光从聊天机器人(Chatbot)转向智能体(Agent),在现实网络作业的复杂场景下,现有的大模型表现与其在基准Benchmark的表现大相径庭。


GSMA(全球移动通信系统协会)连同ITU、ETSI、IEEE、TM Forum等电信行业权威组织,正式发起AITelco Troubleshooting Challenge(全球电信AI故障排查挑战赛)

这种跨标准组织、跨地域的合作极其罕见,彰显了该赛事的权威性。


这是一场迈向网络智能体的终极实验。

截至当前,该项赛事已吸引来自全球超过1000+支队伍参赛,受到产学研各界的广泛关注。

智能体能力的提升,已成为大模型在垂直领域大规模应用的关键赛点。

全球精英同台竞技,你准备好了吗?


为什么这可能是今年最「硬核」的AI赛事


范式跃迁

从「懂行」到「能干」的跨越

电信行业是人类历史上构建的最为复杂的工程系统之一。

现代通信网络涉及从无线接入网、传输网到核心网的端到端协同,包含数以万计的配置参数、毫秒级的信令交互以及海量的多模态日志数据。

长期以来,运营商一直致力于通过自动化技术降低运维成本,提升网络韧性。

具备强大推理与代码生成能力的大语言模型,被视为解决这一困境的银弹。

理论上,LLM可以阅读数百万页的技术标准(3GPP、ETSI等),理解复杂的网络拓扑,甚至像资深工程师一样进行故障排查。

然而,现实与理想之间存在着巨大的「准确性鸿沟」。

随着AI向垂直领域纵深发展,电信行业正经历从网络优化到客户服务的全方位智能化转型。

尽管全球运营商已斥资数十亿美元进军AI,但至今未出现一款「一骑绝尘」的杀手级应用。

原因在于电信领域的高门槛低容错

  • 知识壁垒模型需理解复杂的协议原理、计费结构、网络切片及拥塞控制。

  • 风险极高一个错误的配置指令,可能导致地区级网络瘫痪。

此前网络领域的相关评测往往聚焦于静态问答,忽略了智能体在真实网络环境中的表现。

本次挑战赛旨在打破这一瓶颈,依托GSMA Open-Telco LLM Benchmarks,寻找真正能「读取日志、分析原因、生成配置、下发指令、修复网络」的自主智能体


权威标尺

GSMA Open-Telco Benchmarks

本次大赛的底座——GSMA Open-Telco LLM Benchmarks,是由GSMA Foundry发起,AT&T、中国电信、Deutsche Telekom、Orange、Telefonica、Vodafone等全球顶级运营商,以及华为、Hugging Face、哈利法大学(Khalifa University)等技术伙伴共同构建的产业级大模型评价基准。

其目标是建立一个透明、开源、反映真实网络运营挑战的评估框架

它经历了两大阶段的迭代:

1.0阶段(Proof of Concept)

集中在通用的电信知识问答上的通用能力。

验证通用大模型在电信行业的独特需求下的满足度,即在高度专业化的工业场景中,通用推理能力无法替代领域知识。

2.0阶段(Operational Realism)

引入了更为严苛和务实的评估标准,来自12家运营商贡献了多个具体的真实用例,涵盖了从RAN优化、网络预测到客户支持的八大战略领域。

不仅关注模型「懂不懂知识」,更关注模型「能不能干活」,即在网络故障定位、通信协议分析、网络配置生成等生产环节的表现。

这是目前行业内最透明、开源、反映真实网络运营挑战的评估框架。

丰厚激励

决战MWC 2026


赛程与赛制

本次挑战赛官方提供算力资源供参赛队伍部署训练模型,并挑选不同参数规模的模型以适配未来在端侧和云端不同的消费需求。

挑战赛问题包含了网络故障定位和网络运维任务,为满足运营商降低网络故障(无论是硬件故障还是软件配置错误)的运营成本诉求,参赛者需要通过微调构建电信领域专有模型,从而在网络故障根因作业中辅助网络工程师。

然而,构建能够泛化到未知故障、新的数据分布和全新的网络环境,同时还能在资源受限的边缘服务器上高效运行的模型,仍然是一个巨大的挑战。


根据使用的基座模型区别,参赛者将在以下三个赛道中展开角逐,每类产生一支冠军队伍:

  • 最佳云模型(LLM)挑战大规模参数模型在复杂逻辑下的推理极限。

  • 最佳边缘模型(SLM)探索轻量化模型在边缘侧的高效部署与决策。

  • 最佳推理模型聚焦故障定位、告警分析与自动化修复的准确性。

获胜者不仅能获得丰厚的现金奖励,更将获得全球顶级的展示舞台:

  • 现金大奖瓜分3.5万欧元(约合人民币27万元)奖金池。

  • 直通巴塞罗那:获奖团队代表将获得全额资助(机票+住宿),前往MWC Barcelona 2026(世界移动通信大会)现场领奖!在全球数十万行业精英面前展示你的方案。

  • 顶会加持:冠军方案有机会被推荐至IEEE ICMLCN 2026(阿布扎比)发表,科研KPI直接拉满。

  • 全球曝光:获胜模型将登顶Hugging Face的GSMA Benchmark榜单,获得ITU「AI for Good」项目的官方认证。


5G路测日志故障定位

该任务数据集使用GSMA Open Telco Benchmark 2.0中未公开的TeleLogs特定竞赛版本,通过两阶段分别发布竞赛题,防止早期过拟合。

大模型需要在真实的5G路测日志、工参等信息中,定位配置错误或网络问题,重点考察其在电信推理任务-网络故障根因分析的基础能力,需要模型具备「物理世界的直觉」。

赛题设置:

通过两阶段分开分布赛题,支撑对作品模型的泛化性能力评估,预防过拟合结果:

第一阶段:该阶段公布一部分比赛用例,支撑参赛人员研究并查看初步结果;

第二阶段:剩余问题将于挑战截止日期前两周公布,综合评估在更广泛网络问题中模型推理能力。

核心评估指标:

Pass@1:衡量模型在单次尝试中得出正确答案的能力。其计算方法是分别评估生成的4个答案,然后对所有样本的正确率取平均值;

综合能力评估:未预防模型在专有任务的过拟合,模型的最终评估将在涵盖保持通用知识准确性的能力。即判分评测集将包含网络故障数据(与公开案例不同的数据分布)以及通用知识问题。

⚠️难度预警:

在最新的海外厂商测试中,Agent类挑战任务使用闭源模型的最好表现不足50%,这意味着,目前的通用大模型距离成为「可靠的网络工程师」,仍有很长的路要走。


One More Thing

Agent挑战赛即将开启

除了面向网络故障的定位任务,GSMA AI挑战赛的下一跳为限时条件下的智能体任务。

在网络运维场景中,通过深度模拟高度还原的企业级数据中心组网环境,竞赛系统会通过动态注入技术,随机产生异常波动与突发故障,模拟出真实生产环境中的各种不确定性。

开发者可以通过训练模型、设计并实现智能体完成真实网络运维业务场景的关键难题,系统将针对每类问题生成独立的任务环境,涵盖多家网络服务厂商的真实问题分布,最终以步骤级推理和最终结果进行打分,深度评估Agent在应对复杂网络问题时的逻辑推理能力与自动化处置效能。

而将Agent置于复杂的拓扑结构与动态流量之中,这种全链路、高压力的场景设定,旨在使参赛智能体需像资深运维专家一样,不仅要理解深厚的网络协议知识,更要在海量告警的干扰下精准完成告警相关性分析,并迅速给出网络还原策略,即自主完成网络还原、故障定位与修复。

在效能考核上,竞赛制定了「准确性(Correctness)」与「速度(Speed)」并重的双重评价体系,旨在深度挖掘Agent在复杂网络环境下发现并修复故障的实战潜力。

相关任务敬请期待~


重构运营模式

构建「网络生命体」


AI Telco Troubleshooting Challenge系列赛事不仅是一场技术竞赛,更是电信运营模式重构的开始。

电信领域的AGI愿景,是构建一个能够自我感知、自我决策、乃至自我进化的「网络生命体」。

构建电信领域专用评测基准不仅是技术发展的必然要求,更是推动产业智能化升级的战略支点,为破解垂直领域AI评估难题提供了可复制的范式。

本次挑战赛预示着电信运营模式的根本性重构,降低风险并加速人工智能在电信行业的应用,形成「技术-场景-商业」闭环,实现AI从「可用」到「可信」的质变,推动「工程师」角色的深刻变革。

立即报名

挑战SOTA

无论你是来自高校的科研狂人,还是大厂的算法大神,这场「电信界的究极挑战」都不容错过。

立即访问官网报名:https://telcoai-competition.bluescarf.ai/

截止时间以官网公布信息为准。

最新挑战赛的详细安排也将在大赛官网陆续更新,敬请期待!

二维码快速报名:


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
谷爱凌把米兰冬奥会全部奖金796万自己4万,一共800万全部捐出去

谷爱凌把米兰冬奥会全部奖金796万自己4万,一共800万全部捐出去

离离言几许
2026-03-09 22:43:32
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
带队轰23胜1负,追上联盟第一!联盟失策,但MVP或许真该换人了

带队轰23胜1负,追上联盟第一!联盟失策,但MVP或许真该换人了

老梁体育漫谈
2026-03-27 00:59:28
3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

李喜林篮球绝杀
2026-03-26 20:29:48
刘晓庆妹妹发声反驳!称姐姐受身边人挑拨,支持她把遗产捐给国家

刘晓庆妹妹发声反驳!称姐姐受身边人挑拨,支持她把遗产捐给国家

萌神木木
2026-03-26 18:26:44
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

云隐南山
2026-03-26 16:19:11
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
为什么一定要多接高中孩子放学?这5个答案点醒无数家长

为什么一定要多接高中孩子放学?这5个答案点醒无数家长

户外阿毽
2026-03-26 12:33:16
土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

红星新闻
2026-03-26 17:20:06
美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

潇湘晨报
2026-03-26 16:25:20
小佩顿已连续命中16球!勇士队史纪录为张伯伦的连中19球

小佩顿已连续命中16球!勇士队史纪录为张伯伦的连中19球

北青网-北京青年报
2026-03-26 20:51:05
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
2026-03-27 02:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
手机
教育
家居
时尚

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

家居要闻

傍海而居 静观蝴蝶海

400万人爱过的女孩,被黄谣网暴180天后

无障碍浏览 进入关怀版