网易首页 > 网易号 > 正文 申请入驻

微软发明全新「LLM语言」,AI智能体交互效率翻倍!

0
分享至

新智元报道

编辑:alan

【新智元导读】对于LLM来说,人类语言可能不是最好的交流媒介,正如《星战》中的机器人有自己的一套语言,近日,来自微软的研究人员改进了智能体间的交互方式,使模型的通信速度翻倍且不损失精度。

在《星球大战》中,机器人R2-D2和其他机器人使用特殊的语言进行交流。

这种语言主要由蜂鸣声和口哨声组成,被称为「二进制语」(Binary)或「机器人语」(Droidspeak)。

Droidspeak是专门为机器人之间的交流设计的,只有机器人能够完全理解其精确含义。

电影中,C-3PO是唯一能够完全理解R2-D2语言的角色,而天行者等人类则是通过长期与R2-D2相处,逐渐能够猜测出它所表达的意思。

机器人之间的「专用」通信显然更加高效,那对于LLM来说,是否也应该如此?

近日,来自微软、芝加哥大学的研究人员推出了「Droidspeak」,让AI智能体之间可以用自己的语言进行交流:

论文地址:https://arxiv.org/pdf/2411.02820

结果表明,在不损失性能的情况下,Droidspeak使模型的通信速度提高了2.78倍。

所以,尽管人类用自然语言训练出了LLM,但用自然语言输出和交流,只是AI对于人类的一种「迁就」。

Droidspeak

下面是喜闻乐见的读论文环节。

事先甩个锅,说「发明全新LLM语言」或有标题党之嫌,概括文章的思想,四个字足矣:缓存复用。

再具体一些:在很多智能体系统中,不同的Agents其实是同源的,大家从同一个base model微调而来,参数的差距并不大。

那么,相同的输入(经过差不多的weight)产生的计算结果也应该差不多。

在智能体系统中,前一个Agent(sender)的输出,会作为后一个Agent(receiver)输入的一部分。

而这部分需要prefill的计算,在之前其实已经做过了,那对于receiver来说,是不是能直接把sender的计算结果拿过来?

——直接传递模型中间的计算结果(缓存),而不需要转换成人类能够理解的自然语言,这就是「Droidspeak」的含义。

如果您是相关领域研究者,看到这里基本就可以退出了,节约了您宝贵的时间。

(但是小编走不了,毕竟稿费是按字数算的......)

智能体面临的挑战

高端的食材往往只需要最朴素的烹饪方式,而简单的idea往往得来并不简单。

根据小学二年级学过的知识,LLM的推理可分为预填充(prefill)和解码(decode)两个阶段:

prefill是LLM拿你提出的问题(词向量序列),一股脑放进模型计算,填充所有层的kv cache;

而decode是用最后一个词作为query,开始一个一个词往外蹦。

从计算的角度来看,预填充阶段是矩阵乘矩阵,为计算密集型;解码阶段是向量乘矩阵,相对来说访存变多。

当我们长时间运行上下文密集的对话时,prefill的占比会越来越高,包括计算和通信的开销。

所以在需要频繁交互的智能体系统中,prefill会成为瓶颈。

比如,在HotpotQA数据集中,Llama-3-70B-Instruct的平均预填充延迟为2.16秒,而解码时间只有0.21秒;

在MapCoder这种级联智能体系统中,前一个Agent的输出最多可达到38,000个token,从而导致极高的预填充延迟。

亲子关系

之前有工作探究过,利用kv cache来减少同一个模型的预填充延迟,这件事在智能体系统中貌似也能成立。

先测试一下亲子之间的相似度。

实验使用base model作为发送方,微调版本作为接收方,选择了下面四组模型。

单从模型参数来看,绝对是亲生的,相似度差别都是小数点后三位的水平:

那么对于相同输入,中间的计算结果有多大差别?

这里的E cache指的是每层的输入,即E通过投影矩阵计算出QKV。

相比于权重,每对模型的E cache和KV cache差别大了一点点,但也还好,那能不能直接复用呢?

方法探索

在最初的实验构建中,要求微调版本在测试基准上的表现比基础模型好得多,以便测试出复用缓存带来的影响。

在此基础上,如果只是简单的复用全部的kv cache,效果稍显惨不忍睹,Fine-tuned Model的性能直接被打回原形:

看上去需要更加细致的操作,所以逐层分析一下E cache和KV cache的差别(注意是与base model的差别)。

因为缓存的差异因层而异,所以优化的应用也要按层来,这里首先考虑重用KV cache的连续层(直到最后一层)。

下图表明了重用KV cache带来的精度影响,效果很不错,但优化的自由度很低。

小编推测,这个「自由度低」的意思是:复用KV cache时,本层的输入(E cache)就不需要了,没有输入就没法算Q,就没法算下一层,所以后面也只能复用KV cache(直到最后一层)。

所以,作者接下来就测试复用E cache的情况,因为有输入可以继续往下算,所以复用E cache时可以选择任意的起点和终点。

如下图所示,每个点代表在一定程度的预填充延迟下的最佳精度。

我们可以看到,重用E cache在保持生成质量的同时,将预填充延迟降低了1.8倍。

最终方案

作者表示,尽管重用 E cache在层方面提供了极大的灵活性,但它会在GPU内存、传输和计算方面产生开销。

考虑发送方和接收方放置在两个GPU节点上,并通过Infiniband链路互连:

在发送方,E cache需要先存储在GPU内存中(内存开销),发送E cache到接收方会产生额外的传输延迟;

在接收端,还需要额外的QKV投影操作,将E cache转换为KV cache,这会导致额外的计算延迟。这三种类型的delay随着重用层的数量呈线性增长,如图12所示。

与之相对,重用KV cache没啥额外开销,只是缺乏灵活性。

所以,两种方法合体。

图13在预填充延迟和准确性权衡方面,比较了单独重用E cache与重用KV+E cache。

对于实验的三对模型,重用KV+E cache在延迟和准确性方面效果良好,且不会增加发送方的GPU内存开销或接收方的计算开销。

最后是端到端的整体架构:

如图14所示,离线阶段,DroidSpeak首先在示例分析数据集上分析每对要重用的层(复用配置);

在线阶段,当发送方与接收方LLM通信时,会根据复用配置将KV和E缓存发送给接收方。

然后,接收方会为那些不重用KV缓存的层重新计算新的KV缓存。

下图展示了DroidSpeak相对于baseline的改进:

我们可以看到,与完全预填充相比,DroidSpeak的预填充延迟减少了1.69到2.77倍,而不会影响生成质量(重用所有E缓存或KV缓存时,生成质量会大大降低)。

水平虚线表示基础模型的生成质量,DroidSpeak的质量损失与基础模型和微调模型之间的差异相比微不足道。

参考资料:

https://singularityhub.com/2024/11/21/droidspeak-ai-agents-now-have-their-own-language-thanks-to-microsoft/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
环球小姐上演集体退赛?!主办施压骂人,冠军带头离席:老娘不伺候了!

环球小姐上演集体退赛?!主办施压骂人,冠军带头离席:老娘不伺候了!

英国那些事儿
2025-11-06 23:04:32
责成多部门提交方案,表明俄罗斯坚定立场,普京回应美国“重启核试验”

责成多部门提交方案,表明俄罗斯坚定立场,普京回应美国“重启核试验”

环球网资讯
2025-11-07 06:36:20
副院长与眼科主任,两个月前办公室的一次关系!

副院长与眼科主任,两个月前办公室的一次关系!

闲侃闲侃
2025-11-07 08:25:25
泡泡玛特回应直播事故:正在调查,不会开除涉事员工

泡泡玛特回应直播事故:正在调查,不会开除涉事员工

界面新闻
2025-11-07 10:35:44
河北婚车遭拦截!50条香烟才放行,僵持1小时新娘气哭,官方回应

河北婚车遭拦截!50条香烟才放行,僵持1小时新娘气哭,官方回应

奇思妙想草叶君
2025-11-07 02:09:41
柬埔寨光速服软了,韩国冻结910亿,将电诈帝国命脉连根拔起

柬埔寨光速服软了,韩国冻结910亿,将电诈帝国命脉连根拔起

百科密码
2025-11-06 17:11:58
杭州一小区物业退出不干了,选聘进场4年,称业主拖欠物业费1200多万元

杭州一小区物业退出不干了,选聘进场4年,称业主拖欠物业费1200多万元

大风新闻
2025-11-07 08:57:02
女子水洗貂退货后续:老板娘起诉了,买家已社会性死亡,底裤被扒

女子水洗貂退货后续:老板娘起诉了,买家已社会性死亡,底裤被扒

阿纂看事
2025-11-06 08:06:17
致命援助!美国 1000 枚战斧导弹驰援乌克兰

致命援助!美国 1000 枚战斧导弹驰援乌克兰

世界探索者探索
2025-11-06 21:37:00
时隔8年,刘强东重返世界互联网大会并做主题演讲

时隔8年,刘强东重返世界互联网大会并做主题演讲

极目新闻
2025-11-07 11:34:15
全球首场“金箍棒发布会”!极氪金箍棒定义安全新模式

全球首场“金箍棒发布会”!极氪金箍棒定义安全新模式

齐鲁壹点
2025-11-07 11:10:51
北大女博士娄滔查出渐冻症,与男友分手,拒绝探望:当我从未来过

北大女博士娄滔查出渐冻症,与男友分手,拒绝探望:当我从未来过

李遝手工制作
2025-11-06 15:54:57
诺奖级突破?牙釉质终于可再生了?37亿人牙齿或有救了!

诺奖级突破?牙釉质终于可再生了?37亿人牙齿或有救了!

徐德文科学频道
2025-11-06 21:51:16
特斯拉股东大会批准马斯克万亿美元薪酬计划

特斯拉股东大会批准马斯克万亿美元薪酬计划

财联社
2025-11-07 06:53:20
“副院长与眼科女副主任”事件再爆料:疑似女副主任曾出轨多人

“副院长与眼科女副主任”事件再爆料:疑似女副主任曾出轨多人

胡侃社会百态
2025-11-07 09:26:58
越扒越多!17分钟不雅视频拍摄者疑曝光,女医生丈夫照片流出

越扒越多!17分钟不雅视频拍摄者疑曝光,女医生丈夫照片流出

派大星纪录片
2025-11-07 11:59:33
40岁女医生曾琦的日常工作被披露!一天“精准卡点”的战斗模式…

40岁女医生曾琦的日常工作被披露!一天“精准卡点”的战斗模式…

火山诗话
2025-11-07 11:46:47
开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

开打!联合国终于不再忍耐,维和部队对以色列开火,法军开第一枪

Ck的蜜糖
2025-11-06 10:48:53
“被三个男的围着!”浙江19岁女大学生拍写真,事后委屈大哭……

“被三个男的围着!”浙江19岁女大学生拍写真,事后委屈大哭……

FM93浙江交通之声
2025-10-17 14:16:07
一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

城市研究室
2025-11-06 16:27:43
2025-11-07 14:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13807文章数 66238关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

中国首例冷冻人8年后 丈夫对其复活信心减弱交新女友

头条要闻

中国首例冷冻人8年后 丈夫对其复活信心减弱交新女友

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

汽车要闻

小鹏X9增程版综合续航1606公里 有底气挑战赛那?

态度原创

房产
亲子
教育
本地
公开课

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

亲子要闻

3岁女儿让爸爸去接她放学,结果爸爸没去她生气了,看看她咋说的

教育要闻

郭晶晶12岁儿子入读这所高端私校!为什么全球富人都在拼英式教育

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版