网易首页 > 网易号 > 正文 申请入驻

新型15亿参数路由模型实现93%准确率,无需昂贵重训练

0
分享至

Katanemo Labs的研究人员推出了Arch-Router,这是一种全新的路由模型和框架,旨在智能地将用户查询映射到最合适的大语言模型。

对于构建依赖多个大语言模型产品的企业来说,Arch-Router旨在解决一个关键挑战:如何在不依赖刚性逻辑或每次变化时进行昂贵重训练的情况下,将查询导向最适合的模型。

大语言模型路由的挑战

随着大语言模型数量的增长,开发者正从单模型设置转向多模型系统,利用每个模型在特定任务上的独特优势(如代码生成、文本摘要或图像编辑)。

大语言模型路由已成为构建和部署这些系统的关键技术,充当交通控制器的角色,将每个用户查询导向最合适的模型。

现有的路由方法通常分为两类:"基于任务的路由",根据预定义任务路由查询;"基于性能的路由",寻求成本和性能之间的最佳平衡。

然而,基于任务的路由在处理不明确或变化的用户意图时遇到困难,特别是在多轮对话中。另一方面,基于性能的路由刚性地优先考虑基准分数,往往忽略现实世界的用户偏好,并且在适应新模型时表现不佳,除非进行昂贵的微调。

更根本的是,正如Katanemo Labs研究人员在论文中指出的:"现有路由方法在现实世界使用中存在局限性。它们通常优化基准性能,同时忽略由主观评估标准驱动的人类偏好。"

研究人员强调需要"与主观人类偏好保持一致、提供更多透明度,并在模型和用例演变时保持易于适应"的路由系统。

偏好对齐路由的新框架

为了解决这些局限性,研究人员提出了一个"偏好对齐路由"框架,该框架基于用户定义的偏好将查询与路由策略匹配。

在这个框架中,用户使用"领域-动作分类法"以自然语言定义他们的路由策略。这是一个两级层次结构,反映了人们自然描述任务的方式,从一般主题(领域,如"法律"或"金融")开始,然后缩小到特定任务(动作,如"摘要"或"代码生成")。

每个策略都与首选模型相关联,允许开发者基于现实世界需求而不仅仅是基准分数做出路由决策。正如论文所述:"这种分类法作为一个心理模型,帮助用户定义清晰和结构化的路由策略。"

路由过程分两个阶段进行。首先,偏好对齐路由模型接收用户查询和完整的策略集,选择最合适的策略。其次,映射函数将选定的策略连接到其指定的大语言模型。

由于模型选择逻辑与策略分离,可以通过简单编辑路由策略来添加、删除或交换模型,无需重新训练或修改路由器本身。这种解耦提供了实际部署所需的灵活性,其中模型和用例不断演变。

策略选择由Arch-Router驱动,这是一个为偏好对齐路由而微调的紧凑型15亿参数语言模型。Arch-Router接收用户查询和完整的策略描述集合作为其提示。然后生成最佳匹配策略的标识符。

由于策略是输入的一部分,系统可以在推理时通过上下文学习适应新的或修改的路由,无需重新训练。这种生成方法允许Arch-Router使用其预训练知识来理解查询和策略的语义,并一次性处理整个对话历史。

在提示中包含大量策略的一个常见担忧是可能增加延迟。然而,研究人员设计Arch-Router高度高效。"虽然路由策略的长度可能很长,但我们可以轻松增加Arch-Router的上下文窗口,对延迟的影响最小,"论文共同作者、Katanemo Labs创始人兼CEO Salman Paracha解释说。他指出,延迟主要由输出长度驱动,对于Arch-Router,输出只是路由策略的短名称,如"image_editing"或"document_creation"。

Arch-Router的实际应用

为了构建Arch-Router,研究人员在一个包含43,000个示例的精选数据集上微调了Qwen 2.5模型的15亿参数版本。然后在四个用于评估对话AI系统的公共数据集上测试了其相对于OpenAI、Anthropic和Google的最先进专有模型的性能。

结果显示,Arch-Router实现了93.17%的最高总体路由分数,超过所有其他模型,包括顶级专有模型,平均优势为7.71%。该模型在更长对话中的优势更加明显,展示了其在多轮对话中跟踪上下文的强大能力。

据Paracha介绍,这种方法已经在多个场景中得到应用。例如,在开源编码工具中,开发者使用Arch-Router将工作流程的不同阶段(如"代码设计"、"代码理解"和"代码生成")导向最适合每个任务的大语言模型。类似地,企业可以将文档创建请求路由到Claude 3.7 Sonnet等模型,同时将图像编辑任务发送到Gemini 2.5 Pro。

该系统也非常适合"各个领域的个人助理,用户有从文本摘要到事实查询的多样化任务,"Paracha说,并补充说"在这些情况下,Arch-Router可以帮助开发者统一和改善整体用户体验。"

这个框架与Arch集成,Arch是Katanemo Labs面向智能体的AI原生代理服务器,允许开发者实现复杂的流量整形规则。例如,在集成新的大语言模型时,团队可以向新模型发送特定路由策略的一小部分流量,通过内部指标验证其性能,然后自信地完全转移流量。该公司也在努力将其工具与评估平台集成,以进一步简化企业开发者的流程。

最终目标是超越孤立的AI实现。"Arch-Router——以及更广泛的Arch——帮助开发者和企业从分散的大语言模型实现转向统一的、策略驱动的系统,"Paracha说。"在用户任务多样化的场景中,我们的框架帮助将任务和大语言模型的分散转变为统一体验,使最终产品对终端用户感觉无缝。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7499元,新机官宣:4月24日,全渠道首销!

7499元,新机官宣:4月24日,全渠道首销!

科技堡垒
2026-04-24 09:54:10
今夜,直线拉升!美伊谈判,重大突发

今夜,直线拉升!美伊谈判,重大突发

中国基金报
2026-04-26 00:24:15
伊朗巴斯基被投毒:100人中毒倒下

伊朗巴斯基被投毒:100人中毒倒下

桂系007
2026-04-25 17:29:24
霍尔木兹海峡,传来大消息!伊朗总统,最新发声!比特币跳水,超9.9万人爆仓!

霍尔木兹海峡,传来大消息!伊朗总统,最新发声!比特币跳水,超9.9万人爆仓!

证券时报e公司
2026-04-25 22:11:02
澳洲首创! 全新癌症治疗法重磅突破: 不化疗, 不手术, 能治愈80%癌症, 已开始人体实验!

澳洲首创! 全新癌症治疗法重磅突破: 不化疗, 不手术, 能治愈80%癌症, 已开始人体实验!

澳微Daily
2026-04-25 15:43:13
谁把东方甄选的主播们逼走了? 俞敏洪一天损失四员大将!主播明明等发公开信直指新管理层“不友好”

谁把东方甄选的主播们逼走了? 俞敏洪一天损失四员大将!主播明明等发公开信直指新管理层“不友好”

新浪财经
2026-04-25 18:08:34
张军失联前的荒诞细节:老婆去要人

张军失联前的荒诞细节:老婆去要人

鲁八两
2026-04-25 14:43:09
马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

思思夜话
2026-04-25 11:16:17
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
尚界汽车法务部:北京国际车展现场有观众蓄意破坏展车内饰,造成车辆损伤,已做好取证

尚界汽车法务部:北京国际车展现场有观众蓄意破坏展车内饰,造成车辆损伤,已做好取证

都市快报橙柿互动
2026-04-25 12:33:09
网易号平台每日辟谣公告(四月二十四日)

网易号平台每日辟谣公告(四月二十四日)

网易号官方平台
2026-04-24 17:54:26
巴萨豪取西甲9连胜!最快7天后夺冠,11战赫塔费不败,连刷4纪录

巴萨豪取西甲9连胜!最快7天后夺冠,11战赫塔费不败,连刷4纪录

奥拜尔
2026-04-26 00:08:30
山姆“爆雷”,3亿中产炸了!

山姆“爆雷”,3亿中产炸了!

新零售参考Pro
2026-04-23 16:31:50
忘了两伊战争?如今伊朗拿霍尔木兹海峡赌国运,纯属记吃不记打!

忘了两伊战争?如今伊朗拿霍尔木兹海峡赌国运,纯属记吃不记打!

寰球经纬所
2026-04-25 16:00:55
随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

侧身凌空斩
2026-04-25 21:59:26
战与和的拉扯:美国无限反转在消磨什么?日本扩军狂飙想干什么?

战与和的拉扯:美国无限反转在消磨什么?日本扩军狂飙想干什么?

上观新闻
2026-04-25 18:49:05
岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

DS北风
2026-04-23 15:56:17
3连鞭,8-5!赵心童二阶段不败,丁俊晖单局0分,小特3-1领先瓦菲

3连鞭,8-5!赵心童二阶段不败,丁俊晖单局0分,小特3-1领先瓦菲

刘姚尧的文字城堡
2026-04-25 23:28:20
送走董璇又迎来张婉婷,倒霉的高云翔,终究逃不过“女人坑”

送走董璇又迎来张婉婷,倒霉的高云翔,终究逃不过“女人坑”

悦君兮君不知
2026-04-24 19:59:28
2026-04-26 03:44:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17997文章数 49700关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

房产
艺术
数码
健康
公开课

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

艺术要闻

最适合作为抖音总部的大楼,它在福建莆田!

数码要闻

联发科亮相2026北京车展:主动式智能体座舱解决方案

干细胞如何让烧烫伤皮肤"再生"?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版