网易首页 > 网易号 > 正文 申请入驻

上交大和江行智能团队提出LLMSched

0
分享至

上交大和江行智能团队提出LLMSched:复合大模型应用任务

平均完成时间骤降79%

日前,江行智能联合上海交通大学朱怡飞教授团队在复合大语言模型系统领域取得重要进展。最新研究成果《LLMSched: Uncertainty-Aware Workload Scheduling for Compound LLM Applications》被 IEEE ICDCS'25 接收。

以下为量子位报道原文,标题为《提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25》:

复合LLM应用 (compound LLM applications) 是一种结合大语言模型(LLM)与外部工具、API、或其他LLM的高效多阶段工作流应用。

⽬前,服务这些应⽤任务需要⾯对运⾏时⻓不确定、⼯作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运⾏效率。

为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合LLM应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。

目前论文已被IEEE ICDCS’ 25接收。

实验结果显示,LLMSched结合探索-利用策略来平衡调度不确定性与当前调度收益,最终实现高效调度复合LLM应用,相较现有调度器平均任务完成时间降低14~79%。



LLMSched:DAG模型重构+熵减调度

团队通过对现有复合LLM应用的设计分析与实验,总结出复合LLM应用以下两点不确定性:

时长不确定性:单任务耗时波动高达300秒(图1a)。该不确定性主要来源于LLM的自回归生成特性。

结构不确定性:任务步骤数与运行结构随机波动(图1b/c)。该不确定性主要来源于LLM在复合LLM应用中发挥的决策与规划功能。



复合LLM应用这两种不确定性极大限制了传统调度的性能表现。如下图实例所示,传统最短任务优先(Shortest Job First)调度因误判耗时导致效率低下(任务平均完成时间6.5s),而不确定性感知的调度器通过提前执行高熵减阶段(TA-1)降低不确定性,从而达到更有效调度(任务平均完成时间5s)。



DAG模型重构:调度的基石

为了应对复合LLM应用中存在的结构不确定性,研究团队提出全新有向无环图(DAG)建模框架,如下图所示。该框架引入了三种节点,常规节点(Regular Stage),LLM 节点(LLM Stage)与动态虚拟节点(Dynamic Stage)。其中,常规节点对应外部工具、api等的调用,LLM节点对应LLM推理任务,动态虚拟节点对应由LLM规划生成的子DAG。



重构后的DAG模型能将现有的复合LLM应用表征为拥有固定拓扑结构的调度单元,为之后的调度设计建立了基础。

贝叶斯分析器+熵减衡量机制:让系统越算越“清醒”

团队在研究过程中意识到复合LLM应用的部分节点存在显著的关联性。这种关联性使得在执行完成某些前置节点后,后续节点的不确定性能够有效降低,具体表现如下:

1、规划式任务中LLM规划节点后的工作流完全由该节点决定。完成该LLM规划节点后,所规划的子工作流的未知拓扑结构可被完全揭示。

2、相当一部分的节点在运行时长上存在较高的关联性(下图所示)。在完成前置节点后,后续节点的时长不确定性进一步降低。具体表现在后续节点的运行时长的条件分布更为紧凑、可预测。



为此,团队为每个应用在对应数据集上收集了大量的运行时长数据,并在数据上基于重构的DAG模型训练贝叶斯网络(BN)来获取节点的运行时长分布与节点之间的关联性。当BN中的一个节点存在一条或多条出边时,该节点便与其他的节点存在关联,调度该节点便可以降低其他节点的不确定性。

考虑到实际情况中,不同的节点能够降低的不确定性程度大不相同,团队引入信息论中信息熵的概念,使用互信息衡量,如下图所示。由于信息熵与互信息均通过变量的分布进行计算,因此之前通过BN获得分布便可以直接用于计算调度每个节点的熵减,无需额外的测量。



为了将上述的熵减思想用于优化任务的平均完成时间,团队使用ε-greedy算法结合最短剩余时间优先与最大熵减优先两种策略,提出了一个高效的调度算法。该算法借鉴了探索-利用的思想,巧妙地在降低任务不确定性与降低任务完成时间两个潜在的冲突目标中达到了平衡。在调度过程中,调度算法会收集任务完成的时长信息,利用贝叶斯网络动态更新每个任务的运行时长,从而获取更精确的任务时长估计。该算法的复杂度仅为,能够对动态的负载做出快速的调度决策。



实验结果:平均任务完成时间最低降至79%

团队选取了六种代表性的复合LLM应用,并基于此构建了4种不同应用组成的负载,如下图所示。团队在一台搭载H800 GPU的ubuntu机器上使用vLLM框架与LLaMA-7B 模型进行了实验。

实验结果表明,LLMSched相较于现有的调度器最多可降低79%的平均任务完成时间。



为了进一步衡量LLMSched的可拓展性与适应性,团队构建了一个简易的LLM推理模拟器,并在上面进行了多组不同任务数量的实验。如下图所示,团队展示了不同任务数量的仿真结果。

实验结果表明,LLMSched在任意一组实验设置上均取得领先的成绩,同时随着任务数量增加,LLMSched的优势变得更为突出,比如,与 Decima 相比,在包含 100、200、300和400个任务的混合工作负载中,LLMSched 分别降低了 38%、65%、73%和 75%的平均 JCT,这展示了 LLMSched 的可扩展性。



此外,团队在测试平台实验中,在下图中展示了每种方法的平均调度开销(总开销除以每种方法的调用次数,包括BN推理和熵计算)。团队方法的平均调度开销略高于FCFS、SJF和Fair等简单启发式算法,但远低于Decima和Carbyne这两种复杂方法。此外,LLMSched的平均开销对于所有类型的工作负载都低于3毫秒,这表明LLMSched可以在不影响平均JCT的情况下执行高效的实时调度。



消融研究

为了分析这两个组件的有效性,团队进行了消融研究,创建了两种额外的方法——LLMSched w/o BN 和 LLMSched w/o uncertainty。第一种方法遵循算法1中提出的相同调度方案,但使用历史任务平均持续时间进行估计。第二种方法使用贝叶斯网络更新任务持续时间的后验分布,但仅执行SRTF策略。



上图展示了在四种类型工作负载上进行的消融研究结果。团队将两种方法的平均JCT归一化到LLMSched的水平。

对于LLMSched w/o BN,在四种类型工作负载上,平均JCT分别比LLMSched高18%、17%、20%和 5%。这表明BN发挥了重要作用,因为它显著提高了任务持续时间估计的准确性。借助BN,可以通过利用阶段间相关性,更动态地更新和更准确地预测非计划阶段的任务持续时间。

对于LLMSchedw/o uncertainty,在四种类型工作负载上,平均JCT分别比LLMSched高 21%、12%、15% 和 13%。这表明不确定性感知策略在有效引导探索过程中至关重要。当处理混合工作负载时,其重要性尤为突出,因为各阶段的不确定性减少差异显著。对于这种工作负载,LLMSched w/o BN的性能优于LLMSched w/o uncertainty。

LLMSched为LLM服务优化开辟了新方向,尤其对多模块协作的Agent系统、LLM推理集群资源调度具有重要参考价值。其不确定性量化框架可扩展至其他动态任务场景,推动智能调度理论与实际系统的深度融合。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国第一个2万亿经济大区,要来了

中国第一个2万亿经济大区,要来了

国民经略
2026-01-22 12:16:37
32岁程序员周末在家晕倒后猝死,当天有4项工作任务待完成,人社局一工作人员回应:是否算工伤还在调查

32岁程序员周末在家晕倒后猝死,当天有4项工作任务待完成,人社局一工作人员回应:是否算工伤还在调查

极目新闻
2026-01-22 17:02:53
拜合拉木:父母双亡被爷爷养大,今闯入亚洲杯决赛,孙继海没说错

拜合拉木:父母双亡被爷爷养大,今闯入亚洲杯决赛,孙继海没说错

哎呀哎呀看电影
2026-01-22 10:55:57
见鬼了!登场16分钟,所有数据都挂0,连犯规也是0,球迷:真混子

见鬼了!登场16分钟,所有数据都挂0,连犯规也是0,球迷:真混子

弄月公子
2026-01-22 22:31:21
上海国盛(集团)有限公司原副总裁陈为被提起公诉

上海国盛(集团)有限公司原副总裁陈为被提起公诉

界面新闻
2026-01-22 16:05:10
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
美国急坏了:中国为什么遮住神舟20的舷窗?有什么不想让人看到?

美国急坏了:中国为什么遮住神舟20的舷窗?有什么不想让人看到?

铁锤简科
2026-01-21 14:06:40
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

不写散文诗
2026-01-22 19:38:59
美军舰护航对台军售船闯台海,百架F35撑腰,中方亮杀招硬刚到底

美军舰护航对台军售船闯台海,百架F35撑腰,中方亮杀招硬刚到底

达文西看世界
2026-01-22 09:28:01
彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

荷兰豆爱健康
2026-01-22 15:52:01
破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

破案了!看了牢A的直播后,终于知道宋祖儿为什么会被全网黑了!

乐悠悠娱乐
2026-01-22 08:57:21
吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

磊子讲史
2026-01-06 11:48:34
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

基斯默默
2026-01-21 16:54:14
张柏芝一家四口飞澳洲,疑给大儿子陪读,7岁小王子圆脸很呆萌!

张柏芝一家四口飞澳洲,疑给大儿子陪读,7岁小王子圆脸很呆萌!

娱乐团长
2026-01-22 21:11:06
1月22日俄乌最新:跨大西洋关系正式分裂

1月22日俄乌最新:跨大西洋关系正式分裂

西楼饮月
2026-01-22 22:00:51
双双复出!76人68-61火箭,杜兰特16+3+2过度单打!

双双复出!76人68-61火箭,杜兰特16+3+2过度单打!

运筹帷幄的篮球
2026-01-23 09:13:13
战役结束,陈毅来到六纵,对皮定均说:你小子副司令是干不成了!

战役结束,陈毅来到六纵,对皮定均说:你小子副司令是干不成了!

史之铭
2026-01-23 03:56:47
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
武汉理工大学毕业做保安:月薪3800,男子讲述自身经历被学校约谈

武汉理工大学毕业做保安:月薪3800,男子讲述自身经历被学校约谈

汉史趣闻
2026-01-22 19:29:07
为什么大家都在拒接电话?10086打来也是挂掉,陌生电话更是无视

为什么大家都在拒接电话?10086打来也是挂掉,陌生电话更是无视

木言观
2026-01-22 17:45:53
2026-01-23 10:23:00
全球汽车汇 incentive-icons
全球汽车汇
最新汽车信息与你分享
7290文章数 461关注度
往期回顾 全部

科技要闻

TikTok在美正式建合资公司,字节保留算法

头条要闻

300万元一张票 演员黄景瑜将上太空:很荣幸坐自家飞船

头条要闻

300万元一张票 演员黄景瑜将上太空:很荣幸坐自家飞船

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

茂名首富,这次糟了

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

游戏
亲子
数码
教育
军事航空

制作人谈《生化危机9》格蕾丝角色塑造

亲子要闻

2025年中国早教行业白皮书

数码要闻

做好Arrow Lake Refresh准备:华硕月末将为对应主板更新BIOS

教育要闻

安徽建大这个专业全国24!省内第2超强实力

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版