网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

2024-12-01 12:50:07　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】对于LLM来说，人类语言可能不是最好的交流媒介，正如《星战》中的机器人有自己的一套语言，近日，来自微软的研究人员改进了智能体间的交互方式，使模型的通信速度翻倍且不损失精度。

在《星球大战》中，机器人R2-D2和其他机器人使用特殊的语言进行交流。

这种语言主要由蜂鸣声和口哨声组成，被称为「二进制语」（Binary）或「机器人语」（Droidspeak）。

Droidspeak是专门为机器人之间的交流设计的，只有机器人能够完全理解其精确含义。

电影中，C-3PO是唯一能够完全理解R2-D2语言的角色，而天行者等人类则是通过长期与R2-D2相处，逐渐能够猜测出它所表达的意思。

机器人之间的「专用」通信显然更加高效，那对于LLM来说，是否也应该如此？

近日，来自微软、芝加哥大学的研究人员推出了「Droidspeak」，让AI智能体之间可以用自己的语言进行交流：

论文地址：https://arxiv.org/pdf/2411.02820

结果表明，在不损失性能的情况下，Droidspeak使模型的通信速度提高了2.78倍。

所以，尽管人类用自然语言训练出了LLM，但用自然语言输出和交流，只是AI对于人类的一种「迁就」。

Droidspeak

下面是喜闻乐见的读论文环节。

事先甩个锅，说「发明全新LLM语言」或有标题党之嫌，概括文章的思想，四个字足矣：缓存复用。

再具体一些：在很多智能体系统中，不同的Agents其实是同源的，大家从同一个base model微调而来，参数的差距并不大。

那么，相同的输入（经过差不多的weight）产生的计算结果也应该差不多。

在智能体系统中，前一个Agent（sender）的输出，会作为后一个Agent（receiver）输入的一部分。

而这部分需要prefill的计算，在之前其实已经做过了，那对于receiver来说，是不是能直接把sender的计算结果拿过来？

——直接传递模型中间的计算结果（缓存），而不需要转换成人类能够理解的自然语言，这就是「Droidspeak」的含义。

如果您是相关领域研究者，看到这里基本就可以退出了，节约了您宝贵的时间。

（但是小编走不了，毕竟稿费是按字数算的......）

智能体面临的挑战

高端的食材往往只需要最朴素的烹饪方式，而简单的idea往往得来并不简单。

根据小学二年级学过的知识，LLM的推理可分为预填充（prefill）和解码（decode）两个阶段：

prefill是LLM拿你提出的问题（词向量序列），一股脑放进模型计算，填充所有层的kv cache；

而decode是用最后一个词作为query，开始一个一个词往外蹦。

从计算的角度来看，预填充阶段是矩阵乘矩阵，为计算密集型；解码阶段是向量乘矩阵，相对来说访存变多。

当我们长时间运行上下文密集的对话时，prefill的占比会越来越高，包括计算和通信的开销。

所以在需要频繁交互的智能体系统中，prefill会成为瓶颈。

比如，在HotpotQA数据集中，Llama-3-70B-Instruct的平均预填充延迟为2.16秒，而解码时间只有0.21秒；

在MapCoder这种级联智能体系统中，前一个Agent的输出最多可达到38,000个token，从而导致极高的预填充延迟。

亲子关系

之前有工作探究过，利用kv cache来减少同一个模型的预填充延迟，这件事在智能体系统中貌似也能成立。

先测试一下亲子之间的相似度。

实验使用base model作为发送方，微调版本作为接收方，选择了下面四组模型。

单从模型参数来看，绝对是亲生的，相似度差别都是小数点后三位的水平：

那么对于相同输入，中间的计算结果有多大差别？

这里的E cache指的是每层的输入，即E通过投影矩阵计算出QKV。

相比于权重，每对模型的E cache和KV cache差别大了一点点，但也还好，那能不能直接复用呢？

方法探索

在最初的实验构建中，要求微调版本在测试基准上的表现比基础模型好得多，以便测试出复用缓存带来的影响。

在此基础上，如果只是简单的复用全部的kv cache，效果稍显惨不忍睹，Fine-tuned Model的性能直接被打回原形：

看上去需要更加细致的操作，所以逐层分析一下E cache和KV cache的差别（注意是与base model的差别）。

因为缓存的差异因层而异，所以优化的应用也要按层来，这里首先考虑重用KV cache的连续层（直到最后一层）。

下图表明了重用KV cache带来的精度影响，效果很不错，但优化的自由度很低。

小编推测，这个「自由度低」的意思是：复用KV cache时，本层的输入（E cache）就不需要了，没有输入就没法算Q，就没法算下一层，所以后面也只能复用KV cache（直到最后一层）。

所以，作者接下来就测试复用E cache的情况，因为有输入可以继续往下算，所以复用E cache时可以选择任意的起点和终点。

如下图所示，每个点代表在一定程度的预填充延迟下的最佳精度。

我们可以看到，重用E cache在保持生成质量的同时，将预填充延迟降低了1.8倍。

最终方案

作者表示，尽管重用 E cache在层方面提供了极大的灵活性，但它会在GPU内存、传输和计算方面产生开销。

考虑发送方和接收方放置在两个GPU节点上，并通过Infiniband链路互连：

在发送方，E cache需要先存储在GPU内存中（内存开销），发送E cache到接收方会产生额外的传输延迟；

在接收端，还需要额外的QKV投影操作，将E cache转换为KV cache，这会导致额外的计算延迟。这三种类型的delay随着重用层的数量呈线性增长，如图12所示。

与之相对，重用KV cache没啥额外开销，只是缺乏灵活性。

所以，两种方法合体。

图13在预填充延迟和准确性权衡方面，比较了单独重用E cache与重用KV+E cache。

对于实验的三对模型，重用KV+E cache在延迟和准确性方面效果良好，且不会增加发送方的GPU内存开销或接收方的计算开销。

最后是端到端的整体架构：

如图14所示，离线阶段，DroidSpeak首先在示例分析数据集上分析每对要重用的层（复用配置）；

在线阶段，当发送方与接收方LLM通信时，会根据复用配置将KV和E缓存发送给接收方。

然后，接收方会为那些不重用KV缓存的层重新计算新的KV缓存。

下图展示了DroidSpeak相对于baseline的改进：

我们可以看到，与完全预填充相比，DroidSpeak的预填充延迟减少了1.69到2.77倍，而不会影响生成质量（重用所有E缓存或KV缓存时，生成质量会大大降低）。

水平虚线表示基础模型的生成质量，DroidSpeak的质量损失与基础模型和微调模型之间的差异相比微不足道。

参考资料：

https://singularityhub.com/2024/11/21/droidspeak-ai-agents-now-have-their-own-language-thanks-to-microsoft/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

俄方：俄罗斯"责任太重" 不可能发动第三次世界大战

红星新闻 2026-07-08 16:30:25
29858 跟贴 29858
高校男生参加期末考试监考老师:你眼镜有问题交卷吧

中国新闻周刊 2026-07-08 13:12:27
1382 跟贴 1382

河南老君山月薪6万招人每天看云海，需在山顶住30天，每天至少发一条短视频，景区：咨询报名者众多，全国仅选一人

极目新闻 2026-07-08 14:01:25
5284 跟贴 5284

北京老年卡坐市郊铁路可用！开通方法→

BRTV新闻 2026-07-08 13:00:50
992 跟贴 992
恶臭焦臭，频频来袭！沪上小区空气检测仪“连连报警”，排查结果竟是“达标”

新民晚报 2026-07-08 18:29:06
20 跟贴 20

挪威队被曝遭遇疾病困扰，数名球员身体不适，主帅被拍到不停咳嗽，哈兰德状况尚不清楚，周日他们将迎战英格兰队

极目新闻 2026-07-08 10:38:11
352 跟贴 352

小店老板守着冰柜叹气：今年雪糕棒冰怎么没人吃了？

大象新闻 2026-07-05 21:58:07
2153 跟贴 2153
“77万条未读消息”事件后，企业微信紧急上线“拉群确认”机制

界面新闻 2026-07-08 10:14:57
346 跟贴 346

江西小姐姐：“沈阳机场地铁站我都懒得说你了！”

沈阳公交网小林 2026-07-09 02:50:26
0 跟贴 0
古巴外长在联大严厉抨击美国对古政策

新华社 2026-07-08 21:52:33
29 跟贴 29
纯电GLC上市，奔驰迎来 “新起点”

澎湃新闻 2026-07-08 21:42:27
34 跟贴 34
工信部：Claude Code安全后门隐患

界面新闻 2026-07-08 13:58:11
536 跟贴 536
网购依立腾防晒衣，收到的货颜色不对且无品牌厂家信息，男子认为是三无产品；卖家：寄错了，仅可退货退款

大风新闻 2026-07-08 11:04:09
222 跟贴 222
考文垂：运动员不该为政府行为承担责任

澎湃新闻 2026-07-08 18:34:20
31 跟贴 31
乘联分会：上半年乘用车零售同比下降20.2%，新车降价力度达12.6%

红星资本局 2026-07-08 18:37:15
28 跟贴 28
广州举行云溪植物园、云萝植物园门票收费标准方案听证会

南方都市报 2026-07-07 13:48:11
337 跟贴 337
网传百色严重洪灾视频实为外地素材拼接（2026·07·08）

今日辟谣 2026-07-08 19:05:20
68 跟贴 68
上海一小区两只狗撕咬拖行一幼童，家长趴地上奋力营救，小区住户：狗疑似是从外面窜进小区；镇妇联：孩子正治疗，无生命危险

台州交通广播 2026-07-09 02:57:00
0 跟贴 0

日本人排大队抢购中国相机，很可能只是个开始……

日本人排大队抢购中国相机，很可能只是个开始……

补壹刀

2026-07-07 16:16:03

95年我去退亲，丈母娘不在家，未婚妻把我拉进屋里后反锁了门

95年我去退亲，丈母娘不在家，未婚妻把我拉进屋里后反锁了门

千秋文化

2026-06-13 20:06:29

马卡报：迈阿密国际有意免签沃齐尼亚，巴乙多家俱乐部竞争

马卡报：迈阿密国际有意免签沃齐尼亚，巴乙多家俱乐部竞争

懂球帝

2026-07-08 16:48:27

台风巴威登陆浙江中南部到福建北部概率最高80%，上海有局部大暴雨可能

台风巴威登陆浙江中南部到福建北部概率最高80%，上海有局部大暴雨可能

上观新闻

2026-07-08 19:58:31

触目惊心！洪水冲走后被淹死的牛铺满，缰绳牢牢拴在牛头，引争议

触目惊心！洪水冲走后被淹死的牛铺满，缰绳牢牢拴在牛头，引争议

火山詩话

2026-07-08 06:05:13

达成了！NBA史上第二大交易！全明星射手搭档浓眉哥

达成了！NBA史上第二大交易！全明星射手搭档浓眉哥

篮球实战宝典

2026-07-08 09:57:03

2：3！中国女排惜败，唐欣22分，赵勇用人失误，龚翔宇负效率

2：3！中国女排惜败，唐欣22分，赵勇用人失误，龚翔宇负效率

跑者排球视角

2026-07-08 23:10:09

特朗普终于翻脸了，决定放出埃尔多安，去“撕咬”内塔尼亚胡

特朗普终于翻脸了，决定放出埃尔多安，去“撕咬”内塔尼亚胡

罗富强说

2026-07-08 14:36:03

黄金一代毁灭者？马丁内斯率领比利时、葡萄牙三度折戟世界杯

黄金一代毁灭者？马丁内斯率领比利时、葡萄牙三度折戟世界杯

懂球帝

2026-07-08 17:31:05

伟伟道来 | 战火重燃，伊朗伊斯兰革命卫队处境艰难

伟伟道来 | 战火重燃，伊朗伊斯兰革命卫队处境艰难

经济观察报

2026-07-08 12:38:30

工信部首次定调：Claude Code危害严重！

工信部首次定调：Claude Code危害严重！

智东西

2026-07-08 18:24:46

龙卷风袭击湖北多地，“眼看着父母被卷到百米高空”

龙卷风袭击湖北多地，“眼看着父母被卷到百米高空”

中国新闻周刊

2026-07-07 22:23:30

击败世界第一夺冠！中国女乒15岁新星崛起：专治日乒看齐孙颖莎

击败世界第一夺冠！中国女乒15岁新星崛起：专治日乒看齐孙颖莎

李喜林篮球绝杀

2026-07-08 11:54:11

TA：亚马尔3岁弟弟凯内走红世界杯，看台庆祝出圈

TA：亚马尔3岁弟弟凯内走红世界杯，看台庆祝出圈

懂球帝

2026-07-08 18:44:19

洪水致村庄被围父母失联，小伙买轮胎游4小时回村寻找，途中差点被水冲走，“到家后，妈妈当场落泪，自己也后怕，但实在担心家人”

洪水致村庄被围父母失联，小伙买轮胎游4小时回村寻找，途中差点被水冲走，“到家后，妈妈当场落泪，自己也后怕，但实在担心家人”

扬子晚报

2026-07-08 18:20:30

俄总统新闻秘书：俄“体量太大，责任太重”，不可能发动第三次世界大战

俄总统新闻秘书：俄“体量太大，责任太重”，不可能发动第三次世界大战

红星新闻

2026-07-08 16:30:25

六蓝水库溃坝并非个例，老坝+极端天气是全世界的难题!

六蓝水库溃坝并非个例，老坝+极端天气是全世界的难题!

闫老大

2026-07-08 11:04:57

从泄洪到溃口，广西横州洪灾实录：一个小时水涨了4米左右，养蛇场被冲毒蛇四散逃逸

从泄洪到溃口，广西横州洪灾实录：一个小时水涨了4米左右，养蛇场被冲毒蛇四散逃逸

网易新闻出品

2026-07-07 23:12:46

美加墨世界杯8强全落位，金球奖悬念也不大了，将在以下6人中诞生

美加墨世界杯8强全落位，金球奖悬念也不大了，将在以下6人中诞生

球场没跑道

2026-07-08 11:33:45

中共中央组织部印发通知

农民日报

2026-07-08 01:41:54

AI产业主平台领航智能+时代

15640文章数 66949关注度

往期回顾全部

科技要闻

独家对话小红书IPO举报风波当事人

头条要闻

广西贵港3000名师生等待救援老师:人几乎都要被冲走

头条要闻

广西贵港3000名师生等待救援老师:人几乎都要被冲走

体育要闻

阿根廷绝境重生，离不开这个罗！

娱乐要闻

鹿晗出轨？邓超出轨绯闻又被扒出

财经要闻

新能源车"外挂电池"乱象：暗藏致命风险

汽车要闻

MB.EA纯电架构/售价33.98万全新奔驰纯电GLC鎏金版上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

亲子

时尚

旅游

军事航空

干细胞是人体的专属修理工吗？

亲子要闻

别把认字当作技术活，建立文字与感受的连接，孩子日后学习阅读都不会觉得苦

取下妈妈体内的节育环

旅游要闻

朱德都专程到访的滇南名山，藏在小县城身后，大多数游客直接错过

军事要闻

特朗普：美伊谅解备忘录“已终结”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版