网易首页 > 网易号 > 正文 申请入驻

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同性能

0
分享至

Avengers-Pro团队 投稿
量子位 | 公众号 QbitAI

顶级大模型性能确实很强,但对于预算不高的用户来说就是:

你很好但我不配。

虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。

为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。



该方案集成了8个行业领先的大模型,并在Human Last Exam、GPQA-diamond、ARC-AGI等6个挑战性数据集上取得了优秀成绩:

  1. 性能新高:Avengers-Pro的最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%。
  2. 极致性价比:Avengers-Pro能以降低27%成本的方式,达到与GPT-5-medium同等的顶级性能;更能以仅19%的成本,获得Gemini-2.5-Pro同等的性能水平。
  3. 帕累托最优:相比单个模型,Avengers-Pro在任何给定成本水平下都能实现最高准确率;反之,针对任何指定的准确率目标,也能将成本降至最低,实现了性能-成本平衡的帕累托最优解。



来看看是如何做到的。

比GPT-5更强,更便宜

研究背景:大模型的智能调度路由

如何平衡大模型的性能表现和推理成本是大模型领域的关键问题。

在已经被优化到极致的大模型系统的基础上进一步提升性价比的挑战性不言而喻。

为解决这一问题,大模型智能调度路由应运而生。其核心思想是将不同任务分配给最适合的大模型,以提升模型回复质量,同时避免”大炮打蚊子“而产生的资源浪费。

OpenAI在最新推出的GPT-5中,首次在商业模型中引入的多模型调度路由机制:

在推理阶段,系统会根据任务特性和用户需求,动态切换低成本低性能模型与高成本强推理模型,实现性能与成本的灵活平衡。

这表明GPT-5会通过一个实时的路由器(Router)来动态决策,可以在保证绝大多数问题得到高效解答的同时,将复杂、困难的推理任务交给能力更强的模型处理,从而在系统层面实现性能与陈本的最佳平衡。

Avengers-Pro多模型调度路由方案则是对GPT-5多模型调度路由机制的进一步拓展。

Avengers-Pro: 兼顾性能与成本,推动降本增效

Avengers-Pro实现了对不同性能与成本的大模型进行统一集成与调度路由,为性能与成本的权衡提供了一站式解决方案,有效推动了大模型的降本增效。

其核心机制是通过对用户请求进行嵌入(embedding)和聚类(clustering)分析,动态匹配并分配最适合的模型来处理不同任务

只需依靠少量用户请求-答案标签数据,Avengers-Pro框架主要包括以下三个核心步骤:

  1. 嵌入 (Embedding): 首先,该框架使用文本嵌入模型将用户请求转换成高维向量,捕捉其深层语义信息。
  2. 聚类 (Clustering): 接着,该框架将这些语义向量进行聚类,将相似的问题或任务归为一个团簇。这使得系统能够理解不同类型任务的共性,例如“物理知识问答”、“网页制作代码生成”等。
  3. 评分(Scoring): 该框架会预先在每个聚类所得到的团簇(即每类任务)上评估模型池中所有模型的性能和成本。基于一个可调节的性能-成本权衡参数α,系统为每个模型在个团簇上计算一个性能-成本综合评分。

推理时,Avengers-Pro框架会首先将其归类到最相关的聚类中,并结合各模型在该聚类上的性能-成本综合评分,将请求动态分配给得分最高的模型。

通过调整参数α(范围在0到1之间),系统可以在追求极致性能(α=1)与极致性价比(α=0)之间灵活切换,满足不同应用场景下对性能与成本的多样化需求。

实验表现:Avengers-Pro比GPT-5更强,更便宜

在实验中,Avengers-Pro集成了来自4个厂家的8个业界顶尖模型:

  1. OpenAI:GPT-5-chat, GPT-5-medium;
  2. Anthropic:Claude-4.1-opus, Claude-4-sonnet;
  3. Google:Gemini-2.5-pro, Gemini-2.5-flash;
  4. 阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。

评测场景由6个极具挑战性的数据集组成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench,覆盖了代码生成、科学推理、智能体应用等。

Avengers-Pro的整体性能优于任意单一模型。当权衡系数倾向于追求性能时,Avengers-Pro的平均正确率为0.66。

相比之下,模型池中最强的单一模型GPT-5-medium的平均正确率为0.62。也就是说,Avengers-Pro即使与当前性能最强的单模型对比,仍然实现了7%的性能提升。

Avengers-Pro实现了性能-成本平衡,形成了帕累托前沿。通过灵活调整性能-成本权衡系数,当Avengers-Pro与GPT-5-medium性能持平时,能够节省高达27%的成本。

如果仅需达到GPT-5-medium 90%的性能,成本更是可降至仅37%。

而在追求与Gemini-2.5-Pro相当的性能时,Avengers-Pro甚至只需19%的超低成本即可实现。

并且,Avengers-Pro在任何给定的成本水平上,都能提供最高的准确率;反之,对于任何给定的准确率目标,都能将成本控制在最低。



性能-成本权衡系数的影响:

对性能-成本平衡系数的分析显示,随着系数从0逐渐提升到1(追求性能),模型的性能和成本均逐步上升。



模型选择:

在不同的性能-成本权衡系数下,Avengers-Pro能够根据不同模型的性能成本灵活进行任务分配。

当系数更倾向于成本时,Qwen族的模型由于其较低的成本会被更多选择。

而当系数更倾向于性能时,GPT-5-medium这一性能相对较强的模型会被更多选择。

在集成了多个大模型后,调度路由能实现大模型的降本增效:在性能上超越了模型池中最强的单一模型,并且在保证相同性能的情况下,能显著降低成本。

此外,面对不同的性能与成本权衡需求,可针对不同任务,灵活自动选择最合适的模型,全面满足多样化的应用场景。

Avergers-Pro证明了在当前大模型生态下,智能调度路由方案的突出表现和巨大潜力。

智能路由理念也将在未来大模型应用中带来更多突破与惊喜。

论文地址:https://arxiv.org/abs/2508.12631
GitHub地址:https://github.com/ZhangYiqun018/AvengersPro

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这届网友要「造反」了!雷军抖音视频首次遭举报下架

这届网友要「造反」了!雷军抖音视频首次遭举报下架

汽车有文化
2025-11-07 20:33:15
量子科技入列“十五五”!8家硬核企业加速落地,抢占万亿赛道

量子科技入列“十五五”!8家硬核企业加速落地,抢占万亿赛道

Thurman在昆明
2025-11-07 13:51:53
恭喜!23岁落选港姐正式签约TVB,前艺人爸爸分享喜悦

恭喜!23岁落选港姐正式签约TVB,前艺人爸爸分享喜悦

日落于西
2025-11-07 17:02:50
企业25%企业所得税、20%分红个税,核定征收,统统按照0.3%征收!

企业25%企业所得税、20%分红个税,核定征收,统统按照0.3%征收!

七橘姐姐
2025-10-09 16:30:15
福建舰服役,新华社通稿,这四个字出现7次,美驻华使馆一言不发

福建舰服役,新华社通稿,这四个字出现7次,美驻华使馆一言不发

潮鹿逐梦
2025-11-07 14:23:36
史上最大军售黄了?埃及刚要买中国歼-10,转头签美国332亿大单

史上最大军售黄了?埃及刚要买中国歼-10,转头签美国332亿大单

起喜电影
2025-11-07 14:12:23
知名大牌关店近千家!上海仍有数百家,很多人买过;网友意外:不应该啊

知名大牌关店近千家!上海仍有数百家,很多人买过;网友意外:不应该啊

新民晚报
2025-11-07 22:19:29
一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

有故事的人
2025-11-04 06:17:05
反转?波蒂斯:字母哥见义勇为是假的,若是真的早就有视频流出了

反转?波蒂斯:字母哥见义勇为是假的,若是真的早就有视频流出了

懂球帝
2025-11-07 15:37:11
这一次当众落泪的陈芋汐,给全红婵提了个醒,原来周继红说的没错

这一次当众落泪的陈芋汐,给全红婵提了个醒,原来周继红说的没错

小鬼头体育
2025-11-08 01:47:10
台当局抗议,要求大陆允许赴陆参会,国台办提条件:不答应就别来

台当局抗议,要求大陆允许赴陆参会,国台办提条件:不答应就别来

博览历史
2025-11-06 20:54:03
摊牌了!郭德纲1天喜提3个新身份,全网恭喜,于谦一个字都没说错

摊牌了!郭德纲1天喜提3个新身份,全网恭喜,于谦一个字都没说错

丁丁鲤史纪
2025-11-07 18:23:19
和男友挑新家具准备同居,他去接电话时,导购阿姨一句话我愣住了

和男友挑新家具准备同居,他去接电话时,导购阿姨一句话我愣住了

红豆讲堂
2025-11-02 17:20:03
现在我才明白,为什么农村光棍越来越多

现在我才明白,为什么农村光棍越来越多

加油丁小文
2025-11-07 05:30:03
马塔:我想继续证明我依然能享受足球,并且保持高水平状态

马塔:我想继续证明我依然能享受足球,并且保持高水平状态

懂球帝
2025-11-07 09:25:12
李显龙预言:印度经济终将超越中国!

李显龙预言:印度经济终将超越中国!

荆楚寰宇文枢
2025-11-07 21:49:01
郭晶晶也没想到,79岁公公霍震霆再破天花板,让整个豪门圈沉默了

郭晶晶也没想到,79岁公公霍震霆再破天花板,让整个豪门圈沉默了

阿讯说天下
2025-11-06 17:47:45
荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

凡知
2025-11-06 11:38:13
万万没想到王家卫报应来的太快了!刘嘉玲梁朝伟晒出三人亲密合影

万万没想到王家卫报应来的太快了!刘嘉玲梁朝伟晒出三人亲密合影

乐悠悠娱乐
2025-11-07 10:22:15
明明是抢来的,反当“筹码”跟中国提条件…

明明是抢来的,反当“筹码”跟中国提条件…

观察者网
2025-11-07 22:12:04
2025-11-08 06:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
11642文章数 176329关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身 庆祝胜利

头条要闻

奥巴马意外现身 庆祝胜利

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

游戏
数码
艺术
教育
公开课

海的那边是什么?我会自己去看"/> 主站 商城 论坛 自运营 登录 注册 海的那边是什么?我会自己去看 廉颇 2025-11-07 返回专栏首页 作者:...

数码要闻

受AI热潮推动 全球DRAM内存价格暴涨172% 创下历史新高

艺术要闻

这梅花,古趣盎然

教育要闻

本科最适合保底的几所英国大学!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版