网易首页 > 网易号 > 正文 申请入驻

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同性能

0
分享至

Avengers-Pro团队 投稿
量子位 | 公众号 QbitAI

顶级大模型性能确实很强,但对于预算不高的用户来说就是:

你很好但我不配。

虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。

为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。



该方案集成了8个行业领先的大模型,并在Human Last Exam、GPQA-diamond、ARC-AGI等6个挑战性数据集上取得了优秀成绩:

  1. 性能新高:Avengers-Pro的最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%。
  2. 极致性价比:Avengers-Pro能以降低27%成本的方式,达到与GPT-5-medium同等的顶级性能;更能以仅19%的成本,获得Gemini-2.5-Pro同等的性能水平。
  3. 帕累托最优:相比单个模型,Avengers-Pro在任何给定成本水平下都能实现最高准确率;反之,针对任何指定的准确率目标,也能将成本降至最低,实现了性能-成本平衡的帕累托最优解。



来看看是如何做到的。

比GPT-5更强,更便宜

研究背景:大模型的智能调度路由

如何平衡大模型的性能表现和推理成本是大模型领域的关键问题。

在已经被优化到极致的大模型系统的基础上进一步提升性价比的挑战性不言而喻。

为解决这一问题,大模型智能调度路由应运而生。其核心思想是将不同任务分配给最适合的大模型,以提升模型回复质量,同时避免”大炮打蚊子“而产生的资源浪费。

OpenAI在最新推出的GPT-5中,首次在商业模型中引入的多模型调度路由机制:

在推理阶段,系统会根据任务特性和用户需求,动态切换低成本低性能模型与高成本强推理模型,实现性能与成本的灵活平衡。

这表明GPT-5会通过一个实时的路由器(Router)来动态决策,可以在保证绝大多数问题得到高效解答的同时,将复杂、困难的推理任务交给能力更强的模型处理,从而在系统层面实现性能与陈本的最佳平衡。

Avengers-Pro多模型调度路由方案则是对GPT-5多模型调度路由机制的进一步拓展。

Avengers-Pro: 兼顾性能与成本,推动降本增效

Avengers-Pro实现了对不同性能与成本的大模型进行统一集成与调度路由,为性能与成本的权衡提供了一站式解决方案,有效推动了大模型的降本增效。

其核心机制是通过对用户请求进行嵌入(embedding)和聚类(clustering)分析,动态匹配并分配最适合的模型来处理不同任务

只需依靠少量用户请求-答案标签数据,Avengers-Pro框架主要包括以下三个核心步骤:

  1. 嵌入 (Embedding): 首先,该框架使用文本嵌入模型将用户请求转换成高维向量,捕捉其深层语义信息。
  2. 聚类 (Clustering): 接着,该框架将这些语义向量进行聚类,将相似的问题或任务归为一个团簇。这使得系统能够理解不同类型任务的共性,例如“物理知识问答”、“网页制作代码生成”等。
  3. 评分(Scoring): 该框架会预先在每个聚类所得到的团簇(即每类任务)上评估模型池中所有模型的性能和成本。基于一个可调节的性能-成本权衡参数α,系统为每个模型在个团簇上计算一个性能-成本综合评分。

推理时,Avengers-Pro框架会首先将其归类到最相关的聚类中,并结合各模型在该聚类上的性能-成本综合评分,将请求动态分配给得分最高的模型。

通过调整参数α(范围在0到1之间),系统可以在追求极致性能(α=1)与极致性价比(α=0)之间灵活切换,满足不同应用场景下对性能与成本的多样化需求。

实验表现:Avengers-Pro比GPT-5更强,更便宜

在实验中,Avengers-Pro集成了来自4个厂家的8个业界顶尖模型:

  1. OpenAI:GPT-5-chat, GPT-5-medium;
  2. Anthropic:Claude-4.1-opus, Claude-4-sonnet;
  3. Google:Gemini-2.5-pro, Gemini-2.5-flash;
  4. 阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。

评测场景由6个极具挑战性的数据集组成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench,覆盖了代码生成、科学推理、智能体应用等。

Avengers-Pro的整体性能优于任意单一模型。当权衡系数倾向于追求性能时,Avengers-Pro的平均正确率为0.66。

相比之下,模型池中最强的单一模型GPT-5-medium的平均正确率为0.62。也就是说,Avengers-Pro即使与当前性能最强的单模型对比,仍然实现了7%的性能提升。

Avengers-Pro实现了性能-成本平衡,形成了帕累托前沿。通过灵活调整性能-成本权衡系数,当Avengers-Pro与GPT-5-medium性能持平时,能够节省高达27%的成本。

如果仅需达到GPT-5-medium 90%的性能,成本更是可降至仅37%。

而在追求与Gemini-2.5-Pro相当的性能时,Avengers-Pro甚至只需19%的超低成本即可实现。

并且,Avengers-Pro在任何给定的成本水平上,都能提供最高的准确率;反之,对于任何给定的准确率目标,都能将成本控制在最低。



性能-成本权衡系数的影响:

对性能-成本平衡系数的分析显示,随着系数从0逐渐提升到1(追求性能),模型的性能和成本均逐步上升。



模型选择:

在不同的性能-成本权衡系数下,Avengers-Pro能够根据不同模型的性能成本灵活进行任务分配。

当系数更倾向于成本时,Qwen族的模型由于其较低的成本会被更多选择。

而当系数更倾向于性能时,GPT-5-medium这一性能相对较强的模型会被更多选择。

在集成了多个大模型后,调度路由能实现大模型的降本增效:在性能上超越了模型池中最强的单一模型,并且在保证相同性能的情况下,能显著降低成本。

此外,面对不同的性能与成本权衡需求,可针对不同任务,灵活自动选择最合适的模型,全面满足多样化的应用场景。

Avergers-Pro证明了在当前大模型生态下,智能调度路由方案的突出表现和巨大潜力。

智能路由理念也将在未来大模型应用中带来更多突破与惊喜。

论文地址:https://arxiv.org/abs/2508.12631
GitHub地址:https://github.com/ZhangYiqun018/AvengersPro

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坐滩破船迎来大结局?中国把仁爱礁围成铁桶,菲军参谋长下死命令

坐滩破船迎来大结局?中国把仁爱礁围成铁桶,菲军参谋长下死命令

古事寻踪记
2025-08-29 07:31:53
通缩杀疯了!99%的人抢降价货,1%的人囤这3样躺赢

通缩杀疯了!99%的人抢降价货,1%的人囤这3样躺赢

流苏晚晴
2025-11-01 22:08:24
美国报道的南海撞机事件,迫降后全国专家会诊,美方说万幸没升级

美国报道的南海撞机事件,迫降后全国专家会诊,美方说万幸没升级

干史人
2025-08-30 07:00:02
釜山会谈刚结束,德国火速转向,柏林果断炒掉外长,荷兰却沦为最大笑话

釜山会谈刚结束,德国火速转向,柏林果断炒掉外长,荷兰却沦为最大笑话

孔孔说体育
2025-11-02 06:19:25
39岁知名男演员自曝:被亲戚骗光所有积蓄

39岁知名男演员自曝:被亲戚骗光所有积蓄

喜欢历史的阿繁
2025-11-02 18:40:16
适合轻熟气质的姐姐穿的简约搭配

适合轻熟气质的姐姐穿的简约搭配

美女穿搭分享
2025-10-08 14:47:01
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
离婚才7天,41岁唐嫣直接官宣喜讯,原来早用行动给出了答案

离婚才7天,41岁唐嫣直接官宣喜讯,原来早用行动给出了答案

科学发掘
2025-10-31 06:27:46
王艺迪4:3夺冠,拿到4万美元,收获第三个冠军赛女单冠军

王艺迪4:3夺冠,拿到4万美元,收获第三个冠军赛女单冠军

郭揦包工头
2025-11-03 00:45:32
央视国宴那瓶水火了!不是娃哈哈,更不是农夫山泉,背后有何讲究

央视国宴那瓶水火了!不是娃哈哈,更不是农夫山泉,背后有何讲究

山河月明史
2025-09-09 17:00:57
3年之后,两岸统一的希望,恐将落在这个人的身上!

3年之后,两岸统一的希望,恐将落在这个人的身上!

老范谈史
2025-10-18 21:13:14
朱芊曦2-4王艺迪,重要的不是输赢,而是赛后朱芊曦诚恳的表态

朱芊曦2-4王艺迪,重要的不是输赢,而是赛后朱芊曦诚恳的表态

大嘴说台球
2025-11-02 22:34:13
1946年,朱旦华被救回延安后,江青仔细看她的长相:我认识你

1946年,朱旦华被救回延安后,江青仔细看她的长相:我认识你

元哥说历史
2025-11-01 16:20:03
老师不敢讲了!教科书遭清洗,敏感内容全删除,美国教育风向变了

老师不敢讲了!教科书遭清洗,敏感内容全删除,美国教育风向变了

壹知眠羊
2025-10-31 14:37:57
41岁白百何现身东京,她的下跨变得好大啊,脸也胖了,变化真大

41岁白百何现身东京,她的下跨变得好大啊,脸也胖了,变化真大

手工制作阿歼
2025-10-31 11:34:31
惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

我爱英超
2025-11-02 17:29:43
波司登有对手了!山东小厂逆袭成户外黑马,13亿卖爆中产衣柜

波司登有对手了!山东小厂逆袭成户外黑马,13亿卖爆中产衣柜

今日美食分享
2025-11-01 00:48:51
网传某律所合伙人带小三产检被抓,正妻质问:叫你妹妹还是姐姐?怀上没?

网传某律所合伙人带小三产检被抓,正妻质问:叫你妹妹还是姐姐?怀上没?

互联网大观
2025-11-01 09:51:44
养花人的天塌了!工业废土伪装成养花土被曝光,自制营养土成潮流

养花人的天塌了!工业废土伪装成养花土被曝光,自制营养土成潮流

环球网资讯
2025-11-01 12:11:29
致哀!兰州大学发讣告

致哀!兰州大学发讣告

双一流高校
2025-11-02 20:26:44
2025-11-03 03:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
11617文章数 176320关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
艺术
房产
公开课
军事航空

教育要闻

学龄前的孩子真的不要教,榜样的力量

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版