网易首页 > 网易号 > 正文 申请入驻

一句话,满足两个广告商!谷歌最新「Token拍卖模型」,多LLM联合创作广告词

0
分享至

新智元报道

编辑:英智

【新智元导读】谷歌研究人员提出了一种创新的token拍卖模型,通过「竞拍」的方式,让智能体在文本生成过程中进行出价,确保最终输出能满足各方利益,实现最佳效果。这一机制优化了广告、内容创作等领域的协作。

当多个LLM智能体共同创作内容时,它们会如何协调彼此的「话语权」?

想象一下,在广告投放中,A航空公司和B度假村都希望吸引用户的目光,但单独宣传各自的服务可能不如联合推广来得有吸引力。

那么,如何让AI智能体像人类一样展开博弈,在竞争与合作之间找到最佳平衡?

谷歌研究人员提出了一种创新的「token拍卖模型」,让LLM在文本生成过程中通过「竞拍」来决定最终输出,确保每个智能体的利益最大化,同时生成最优质的内容。

这种机制不仅能优化广告创意,还能拓展至智能客服、内容创作等多个领域,重新定义AI协作。

以广告为例,当用户搜索「夏威夷度假」时,网页上可能会出现一个广告位。A航空公司和B度假村这两家广告商,都希望在这个位置展示自家的广告。

他们分别借助LLM生成广告内容,比如A公司的「乘坐A航空,飞向夏威夷」,B度假村的「在B度假村,享受夏威夷的美景」。

但如果能将两者的优势结合,形成联合广告「乘坐A航空抵达夏威夷,在B度假村享受梦幻一周的度假体验」无疑会更具吸引力,也能更好地满足用户夏威夷度假的需求。

假设有两个分别代表虚拟广告商A航空和B度假村的智能体,它们的任务是合作一则联合广告创意。

然而,这种合作并不容易实现。

每个LLM背后的广告商都有自己的偏好和利益诉求。广告商们都希望自家的产品或服务能在广告中被重点提及,并且突出展示那些他们认为更有吸引力的特点。

这就好比在一场团队比赛中,每个队员都想让自己负责的部分成为焦点。

这种情况下,如何协调多个LLM的输出,让它们共同生成一个既能满足各方利益,又能达到最佳效果的联合输出,成为了一个需要解决的问题。

Token「拍卖」模型

为了解决上述问题,研究人员提出了token拍卖模型。

该模型以token为单位,逐个进行拍卖。在每次拍卖中,每个LLM作为竞拍者,根据自身的能力和意愿对下一个token进行出价。模型的核心任务包括:

1. 扩展共享的token序列:决定下一个添加到文本中的token。

2. 确定每个竞拍者的支付费用:通过支付函数计算每个LLM需要支付的费用。

分布聚合函数在此过程中扮演裁判角色,综合考虑每个LLM提供的token分布和出价,生成新的聚合分布。支付函数则负责确定每个智能体的支付金额,激励其真实地表达自身偏好。

先来看看单个LLM是如何工作的。当模型接收到一段输入文本后,会根据自己所学的知识和模式,给出下一个可能出现的token的概率分布。

例如,输入「机制设计为」,模型可能会输出 [(大型,0.8), (生成式,0.2)],这意味着下一个token是「大型」的概率为80%,是「生成式」的概率为20%。

基于这种概率分布,LLM可以自动生成文本,从一个初始的提示文本开始,不断根据概率分布选择下一个token,直到生成一个完整的文本。

token拍卖模型在此基础上进行了拓展,它以token为单位,逐个进行拍卖。

在这个「拍卖会」上,每个LLM都是一个「竞拍者」,它们根据自己的能力和意愿出价。

同时,token拍卖模型承担着两个关键任务:一是扩展共享的token序列,也就是决定下一个添加到文本中的token;二是确定每个「竞拍者」需要支付的「费用」。这两个任务分别由分布聚合函数和支付函数来完成。

Token拍卖模型架构

分布聚合函数就像是一个裁判,它综合考虑每个LLM给出的token分布和它们的出价,然后给出一个新的聚合后的token分布。

假设有三个LLM智能体,当前共享的token序列是「机制设计为」,智能体1的LLM给出的分布是 [(大型,0.8),(生成式,0.2)],出价为1;智能体2的分布是 [(大型,1.0)],出价为2;智能体3的分布是 [(生成式,1.0)],出价为2。

那么,分布聚合函数可能会根据出价加权平均的方式,得到一个新的聚合分布 [(大型,0.56),(生成式,0.44)] 。

设计空间缩减

在Token拍卖模型的设计中,研究人员强调了以下两个理想属性:

  • 支付单调性:如果一个LLM提高了出价,那么在最终的联合输出中,其偏好应得到更好的体现。

  • 一致聚合:不同LLM的分布应以合理、一致的方式进行聚合。

通过严谨的数学推导,研究人员发现,这两个属性等同于要求分布聚合函数具有单调性。这一发现缩小了分布聚合函数的设计空间,使得模型设计和分析更加简洁。

支付函数负责确定每个智能体需要支付的费用。支付单调性意味着如果一个智能体提高了出价,那么它在最终的联合输出中应该得到更好的待遇,也就是聚合后的分布应该朝着它更偏好的方向变化。

一致聚合则要求不同的LLM在参与拍卖时,它们的分布能够以一种合理、一致的方式进行聚合。

「第二价格」支付机制

在拍卖理论中,「第二价格」支付方式被证明能够提供良好的激励效果。

在传统的单物品拍卖中,「第二价格」支付是指把物品卖给出价最高的竞拍者,但让他支付第二高的出价。

在token拍卖模型中,研究人员也借鉴了这一理念。他们证明了(在一些合理的假设条件下),任何单调的分布聚合函数都可以采用类似「第二价格」的支付方式。

这种支付方式的好处在于,它可以促使智能体更真实地出价,因为即使他们提高出价赢得了竞拍,也不需要支付过高的费用,从而避免了智能体为了获得更好的结果而盲目抬高出价的情况。

最优聚合策略

为了设计最优的分布聚合函数,研究人员从先进的LLM训练方法中汲取灵感,构建了聚合损失函数。

该函数为每个输出分布关联一个总损失值,目标是通过调整分布聚合函数,使总损失最小化。

研究人员提出了两种有效的分布聚合函数:

  • 线性分布聚合函数:输出分布为出价加权平均值。

  • 对数线性分布聚合函数:在对数空间中执行加权平均操作。

这两种聚合函数在不同的场景下都有着良好的表现,为实际应用提供了更多的选择。

实验结果

为了验证token拍卖模型的有效性,研究人员进行了一系列实验。

他们选择了现有的LLM,并通过提示调整(prompt tuning)的方式,让模型扮演不同的广告商角色。

在前面提到的A航空公司和B度假村的例子中,研究人员展示了在不同的出价相对权重(λ)下,线性聚合规则和对数线性聚合规则生成的广告内容。

随着λ值的变化,生成的广告内容呈现出有趣的变化。

当λ=1时,广告主要提及A航空公司;随着λ逐渐减小,广告开始同时提及A航空公司和B度假村。当λ=0时,广告则主要宣传B度假村。

实验结果显示,随着出价权重的变化,生成的广告内容能够合理地体现各方的利益诉求,实现了不同广告商之间的有效协作。

此外,研究人员还展示了更多不同提示,包括竞争广告商场景下的实验结果,进一步证明了token拍卖模型的灵活性和有效性,为多个LLM的协作提供了方案。

LLM的机制设计研究为多个LLM的协同工作带来了启发。

Token拍卖模型的提出,解决了多模型协作中的关键问题,还为后续的研究和应用奠定了基础。

从实际应用的角度来看,这种机制在广告、内容创作、智能客服等领域都有着广阔的应用前景。

例如,在广告领域,它可以让不同品牌的广告更巧妙地融合,提高广告的吸引力和效果;在内容创作方面,多个智能体可以通过这种机制共同创作出更丰富、多元的作品。

参考资料:https://research.google/blog/mechanism-design-for-large-language-models/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

体坛瞎白话
2026-03-25 16:52:09
经济下行后,正常人变得越来越稀缺了

经济下行后,正常人变得越来越稀缺了

经济学教授V
2026-03-24 08:04:04
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

懂球帝
2026-03-26 11:02:09
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

新京报
2026-03-26 12:58:08
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
2026-03-26 18:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
手机
旅游
艺术
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版