网易首页 > 网易号 > 正文 申请入驻

回看2025,AI的系统工程时刻:重构智能的底座与边界

0
分享至


本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数智先行者”共同探讨、碰撞,希望这些内容能让你有所启发。

文/阿里云研究院

站在2026年的节点回望,2025年无疑是人工智能发展史上的关键转折之年,在算力狂欢和参数规模的军备竞赛之后,人工智能技术开始全面扎根,经历了一场从单点突破向系统重构的深刻质变。

这一年,多模态技术走向成熟,超长上下文成为标配,智能体(Agent)开始尝试解决复杂的现实任务。但与此同时,效率瓶颈、路径分歧、成本压力与场景落地等深层次挑战也接踵而至。面对这些挑战,单纯依赖模型参数的堆叠已面临边际效益递减。我们清晰地看到,破解难题的钥匙,在于“系统工程”——即从底层基础设施到上层应用范式的全链路协同创新。不仅要追求更聪明的模型,更要构建更高效的算力、更严谨的逻辑、更安全的防线以及更自主的执行力。

正是在这种系统工程思维的指引下,阿里云对AI技术栈进行了全方位的重构与升级。在模型架构的底层革新、基础设施与训推体系的工业化升级、内生安全与指令遵循的可信构建、多模态感官的全面打通,以及智能体自主认知的范式跃迁等五大维度取得了系统性突破。本文将深度复盘这些关键技术进展,勾勒中国科技企业如何以系统工程思维,推动AI从技术验证迈向规模化产业应用的深水区。

架构重塑:打破认知的物理瓶颈

模型架构是AI的大脑结构,它定义了信息处理的效率上限。随着大模型进入长序列、多任务并行的深水区,传统架构在处理海量信息时面临着计算复杂度呈平方级增长、有效信息被淹没等本质难题。阿里云在2025年的一系列架构创新,旨在从根源上释放模型的认知潜力。

告别“注意力沉没”,重构信息筛选逻辑

注意力机制是Transformer的核心,但在处理长序列时,传统模型普遍存在“注意力沉没”现象——即模型倾向于过度关注序列开头的几个词,导致后续关键信息被忽略。这不仅浪费了宝贵的算力,更限制了模型对长文档的理解深度。

阿里云在NeurIPS 2025发表的研究中提出了门控注意力机制。它如同给模型的“眼睛”装上了一个智能且动态的“瞳孔”,能在计算注意力时实时过滤噪声。数据显示,该机制将平均每层对初始Token的无效关注比例从46.7%压缩至4.8%。这不仅大幅提升了计算的有效性,更让模型在长文档分析、代码库级编程等场景下的性能提升超过27%。

与此同时,为了解决超长序列带来的计算负担,阿里云在Qwen3-Next等模型中引入了线性注意力机制。通过数学分解将计算复杂度从二次方降低到线性,使得模型在处理数万乃至数十万Token时,内存占用和时延显著下降,使处理整本书级别的长文本变得既快又省。

释放MoE的专精潜力

混合专家模型(MoE)是提升模型容量的关键路径,但如何让成百上千个专家高效分工一直是行业难题。传统的负载平衡策略往往为了追求计算均匀,导致专家泛而不精。

阿里云创新性地提出了全局批次负载平衡策略。不再苛求每一个微小批次的数据都平均分配,而是着眼于全局数据的均衡。这种策略赋予了路由器更大的自由度,使得模型内部自发涌现出了清晰的专业化分工。结果显示,这种内生性的专业化,让模型在同等规模下获得了显著更强的知识深度与任务处理能力。

工业化闭环:基础设施、后训练与推理服务的协同进阶

如果说架构是设计图,那么基础设施、后训练与推理服务则构成了AI的流水线。只有这三个环节实现工业化级别的协同,AI才能打破“高成本、低效率”的诅咒,真正实现普惠。

基础设施:从盲测到精益制造与极致调度

在大模型研发与服务的全生命周期中,基础设施的效率直接决定了创新的成本。

在研发侧,试错成本是最大的拦路虎。阿里云研发的SimAI高精度训练模拟器,通过无缝接入主流框架,能以98.1%的对齐度在单机环境下模拟分布式训练的真实负载。这意味着,在动用昂贵的GPU集群前,架构师就能精准预测性能瓶颈,将硬件选型从经验驱动升级为数据驱动。而DataMan数据管理器,则实现了从数据源头到训练终点的智能化治理,仅用60%的高质量筛选数据即可达到全量训练效果。

在服务侧,资源调度的颗粒度决定了成本的下限。阿里云推出的Aegaeon多模型服务系统,是一次对云上资源利用率的极致挖掘。传统系统按请求调度,容易阻塞;Aegaeon则实现了“Token粒度”的自动扩缩容,允许GPU在生成一个Token的微小间隙即刻切换服务对象。结合高效的组件复用与内存管理,该系统将GPU资源池的利用率从不足34%提升至48%,在内部部署中显著减少了GPU需求,使得同时部署千百个模型成为经济可行的现实。

后训练:赋予模型逻辑与理性

预训练让模型获得了知识,但后训练才是决定其逻辑严密性的关键。阿里云在2025年推动了一场从结果导向到过程监督的范式革命。

针对复杂数学与逻辑任务,阿里云引入了过程级价值评估(PRM)。不同于只看最终答案,该机制能对推理链条的每一步进行审核。在Qwen数学模型的训练中,这种技术使其能精准定位微小的逻辑偏差,从而在极具挑战的AIME 2024大赛中成功解出21道难题,证明了AI从依靠概率猜测进化为具备严密推导能力的“理科生”。此外,针对MoE模型在强化学习中易发散的难题,GSPO(组序列策略优化)与CHORD动态协同机制提供了理论完备的解决方案。这些创新平衡了模仿专家与自我探索的关系,确保模型在不断进化的同时,不会遗忘已有的知识,实现了工业级可靠性的能力跃迁。

推理服务:测试时扩展与智能压缩技术的跃升

在模型落地环节,除了成本,性能与准确率的平衡同样关键。阿里云通过一系列算法创新,不仅让模型跑得快,更让模型在推理阶段能多想一步。

针对高精度需求,阿里云引入了测试时扩展(Test-Time Scaling)技术。这就好比让考生在考试时多花时间检查。而通过自截断N选优(ST-BoN)算法,模型在生成早期就能通过内部状态预判路径优劣,快速锁定最优解并截断其他路径。这种“早预判、早放弃”的策略,在相同计算成本下可将准确率提升3-4个百分点,且无需依赖额外的奖励模型。此外,TeaCache技术通过缓存视频生成中的冗余计算,实现了4.41倍的提速;而AsymKV非对称量化技术,则精准区分Key与Value的敏感度,大幅降低了长文本推理的显存占用。这些技术组合拳,构建了一个高性能、低成本的推理服务体系。

可信基石:内生安全与指令遵循的深度对齐

随着AI深入金融、医疗等关键领域,安全与听话变得比聪明更重要。阿里云不再满足于外挂式的过滤,而是深入模型机理,构建内生的免疫系统与精准的执行能力。

内生安全:解密“安全注意力头”与神经元级调控

安全不能是黑盒。阿里云研究团队在深入探究模型内部机理时发现,模型中存在特定的“安全注意力头(Safety Attention Heads)”。这些特殊的结构单元就像电路中的保险丝,在处理潜在风险内容时起着决定性的阻断作用。实验数据表明,仅移除模型中极小比例的关键安全头,就会导致模型的防御成功率大幅下降。基于这一发现,阿里云实现了神经元级的安全调控。在应用层,Qwen3Guard安全护栏系统引入了创新的三分类机制(安全、不安全、有争议),打破了非黑即白的僵化审核,让业务方能根据场景灵活定义边界。同时,STAIR框架赋予了模型三思而后行的内省能力,在回复高危问题前先进行思维链推理,分析用户意图与合规边界,显著提升了面对隐晦攻击时的防御力。

指令遵循:自我博弈下的极致执行

为了让模型更精准地执行复杂指令,阿里云推出了AutoIF自我博弈机制。针对代码生成与复杂任务规划中“静态数据不足以覆盖动态错误”的痛点,该机制引入了由模型主导的“生成-执行-验证”闭环。模型化身出题人与判卷人,通过生成代码并执行单元测试获取反馈,在没有人工标注的情况下自主进化。这种机制让Qwen模型在代码生成与复杂任务规划上的表现大幅提升。针对“写一首诗,不包含字母E,且每行字数相同”这类包含多重限制的苛刻指令,IOPO(输入-输出联合偏好优化)技术将优化的视野扩展到了输入-输出的联合空间。它迫使模型细致研读输入中的每一个约束条件,解决了长指令中的遗忘与顾此失彼问题。而SymDPO则通过符号化演示,解决了多模态少样本学习中的逻辑断层,让模型真正看懂演示中的规律。

全感融合:多模态理解与生成的双向奔赴

2025年,AI正在打通感知的任督二脉。阿里云在多模态领域的突破,不仅在于让AI看得见、听得清,更在于赋予其专业级的创造力,实现了从感知世界到创造世界的完整闭环。

理解:全双工交互与长时程细粒度感知

在交互体验上,Qwen3-Omni模型搭载了“Thinker-Talker”架构,通过MoE分工确保理解深度,并利用Talker模块实现了毫秒级的实时语音交互。这种全双工能力让AI能像人类一样插话、打断、共情,彻底改变了人机对话的节奏。

在深度感知上,针对多图推理和小时级长视频分析的痛点,mPLUG-Owl3引入了Hyper Attention(超注意力)模块。它在模型内部增加“图文交叉注意力”,与文字注意力并行工作,既不占用文字上下文空间,又能精准匹配问题需要的图像信息。这使得模型能轻松看懂2小时的电影,并精准回答关于细节的提问。而LLMDet则打破了目标检测的类别限制,利用大模型能力实现了对开放世界物体的精准识别,为具身智能提供了敏锐的眼睛。

生成:生产力工具的范式升级

生成不仅仅是娱乐,更是生产力。Wan视频大模型的升级发布,是视频生成工业化的里程碑。它创新性地采用了“4×8×8倍时空压缩”技术,统一了文生视频、图生视频与视频编辑任务,且1.3B轻量版让消费级显卡也能进行专业创作。针对视频中角色互动的难题,MIMO空间解耦技术将视频解构为角色、场景、遮挡物等独立层进行编码,终于解决了角色动作僵硬、互动失真的顽疾。在图像与3D领域,Qwen-Image攻克了中文复杂排版(如竖排、双语混排)的难题,ACE++框架则实现了基于自然语言的全能修图。AniGS与HybridGS技术的出现,让从单张照片生成可实时驱动的3D数字人、从充满动态干扰的视频中重建纯净3D场景成为现实。这些技术正在将内容产业从手工作坊推向智能制造,大幅降低了元宇宙与数字孪生的构建门槛。

自主进化:RAG与智能体的认知跃迁

如果说前述技术是AI的器官,那么RAG(检索增强生成)与智能体(Agent)则是其手脚。2025年,AI正在从被动问答走向主动探索,展现出更强的自主规划与社会适应力。

RAG:主动探索、逻辑内化与零成本训练

传统的搜索智能体训练依赖昂贵的商业API。阿里云提出的ZeroSearch打破了这一僵局,构建了一个虚拟检索环境,让模型通过自我博弈学会如何搜索、搜什么,将Search Agent的训练成本降低了数个数量级。

不仅如此,阿里云还致力于解决模型懂知识但不会用的问题。KG-SFT(知识图谱微调)技术将外部知识的严谨结构内化为模型的思维直觉,显著增强了模型在处理复杂知识时的逻辑操纵能力。同时,StructRAG与AirRAG赋予了模型在推理过程中动态重组信息结构、

利用蒙特卡洛树搜索(MCTS)进行战略规划的能力,让AI在面对海量碎片信息时不再迷失,而是能进行“三思而后行”的深度决策。

智能体:从工具到具备社会属性的数字劳动力

为了解决长周期调研任务,WebResearcher提出了一种迭代式研究范式。它将深度调研重构为马尔可夫决策过程,让Agent能像人类研究员一样,周期性整理中间报告,清理冗余上下文。这种机制赋予了Agent理论上无边界的信息吞吐能力,能连续进行数十轮深度搜索,产出逻辑连贯的万字深度研报。

在移动端,Mobile-Agent-v3引入了“反思者(Reflector)”模块,实时监控屏幕状态,具备了操作失败后的自我纠错能力。更有前瞻性的是GenSim社会模拟平台,它通过标准化的“档案-记忆-行动”架构,支持十万级智能体并发运行。我们在平台上成功复现了信息茧房、群体情绪传播等社会现象。这不仅证明了智能体群体的演化规律,更为政策推演、舆情分析及社会治理提供了一个可控、可复现的数字平行世界。

结语

2025年,是AI技术去伪存真、深蹲起跳的一年。回顾过去这一年的技术演进,我们看到的不仅是单点算法的突破,更是一幅波澜壮阔的系统工程画卷。从底层的注意力机制到上层的社会模拟,从极致的推理优化到内生的安全机理,阿里云正在用全栈技术的系统性整合,回答一个终极命题:如何将简单、经济、可靠的智能能力,真正赋予千行百业。

这其中,开源与普惠始终是贯穿其中的主线。截至目前,千问(Qwen)系列大模型全球累计下载量已突破10亿次,衍生模型数量超过20万个。这组庞大的数字背后,是一个由全球开发者共同参与、蓬勃生长的创新生态。这证明了真正伟大的技术突破,不仅闪耀于论文,更生长于开放创新、共塑产业升级的广阔实践之中。

本文核心观点与技术细节均提炼自最新发布的《阿里云年度AI技术进展》报告(点击获取)。

本文摘自《云栖战略参考》总第21期

扫码查看最新杂志


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

小徐讲八卦
2026-03-30 07:47:00
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太辛酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太辛酸

阿伧说事
2026-03-29 19:45:09
为球员健康拒超负荷训练,德国青训教练遭中国球队停职

为球员健康拒超负荷训练,德国青训教练遭中国球队停职

懂球帝
2026-03-30 18:10:15
广州暴雨“一秒天黑”高架桥变“高架河”

广州暴雨“一秒天黑”高架桥变“高架河”

界面新闻
2026-03-30 17:25:06
苹果京东旗舰店将于4月1日开启“Apple 50周年庆”直播活动

苹果京东旗舰店将于4月1日开启“Apple 50周年庆”直播活动

IT之家
2026-03-30 23:01:56
中国银行副行长杨军:预计2026年到期定期存款转存比例较高

中国银行副行长杨军:预计2026年到期定期存款转存比例较高

中国经营报
2026-03-30 19:16:54
美的集团盈利约440亿,方洪波分红超过5亿

美的集团盈利约440亿,方洪波分红超过5亿

华美财经
2026-03-30 22:30:22
善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

科普100克克
2026-03-30 00:44:32
四国开会与中国作用

四国开会与中国作用

新民周刊
2026-03-30 10:51:55
大衣哥前儿媳陈亚楠订婚!五年终找到幸福,老公健谈没朱小伟高

大衣哥前儿媳陈亚楠订婚!五年终找到幸福,老公健谈没朱小伟高

离离言几许
2026-03-30 22:36:59
关东、关西、关中、关内、关外,到底指的是哪里?

关东、关西、关中、关内、关外,到底指的是哪里?

长风文史
2026-03-28 09:18:06
2007年,孔令仪在上海宋庆龄陵园扫墓时的留影,第二年她就去世了

2007年,孔令仪在上海宋庆龄陵园扫墓时的留影,第二年她就去世了

芳芳历史烩
2026-03-30 12:05:05
好奇查了一下姚晨的出身,一查才知道,姚晨根本不是资源咖

好奇查了一下姚晨的出身,一查才知道,姚晨根本不是资源咖

阿七说史
2026-03-20 15:43:11
1950年李弥撤台受冷落、妻失联,蒋召见质问:为何留精锐于金三角

1950年李弥撤台受冷落、妻失联,蒋召见质问:为何留精锐于金三角

唠叨说历史
2026-03-27 18:28:49
两岸统一为什么迫在眉睫?

两岸统一为什么迫在眉睫?

心中的麦田
2026-03-04 20:12:08
被迫床上试戏?33号远征队"女主"曝自己重大失误

被迫床上试戏?33号远征队"女主"曝自己重大失误

游民星空
2026-03-29 22:04:14
伊能静秦昊牵手逛迪士尼,58岁了还穿学院风,衣服紧绷起皱欲撑开

伊能静秦昊牵手逛迪士尼,58岁了还穿学院风,衣服紧绷起皱欲撑开

观察鉴娱
2026-03-30 10:06:22
输不起的政治:民主党为何沉迷这场“无王抗议”闹剧

输不起的政治:民主党为何沉迷这场“无王抗议”闹剧

斌闻天下
2026-03-30 07:15:03
离开皇马帅位77天!阿隆索等待再就业:今夏有望接手利物浦

离开皇马帅位77天!阿隆索等待再就业:今夏有望接手利物浦

叶青足球世界
2026-03-30 08:49:40
美媒痛批特朗普错误将中国视为同等级对手

美媒痛批特朗普错误将中国视为同等级对手

郭长包工头
2026-03-30 16:51:22
2026-03-30 23:32:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131527文章数 862037关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

女子借公司500万维权14年收回1.2万:连利息零头都不够

头条要闻

女子借公司500万维权14年收回1.2万:连利息零头都不够

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

游戏
房产
亲子
本地
公开课

四月PS新会免游戏爆料!类魂与二次元双大作领衔

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

亲子要闻

孩子眼睛出现这些现象,一定要警惕!

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版