网易首页 > 网易号 > 正文 申请入驻

谷歌把这技术藏了3年,500步训练让7个模型"自动组队"

0
分享至

联邦学习(Federated Learning)有个老毛病:各家公司把模型练得再精,合起来反而更差。KALAVAI团队用一套新机制,让7个独立训练的"专科医生"自动学会会诊——全程不交换任何原始数据。

数据不出域,模型怎么"抱团"

传统思路是中央集权:把数据收上来,练一个大模型。但医疗、金融、小语种场景里,数据根本动不了。KALAVAI反过来操作:把基础模型 checkpoint(检查点)分发出去,各参与方用自己的数据微调,再把模型权重交回来。

这里有个反直觉的点:模型 diverge(发散)得越厉害,融合后效果越好。如果各方数据太像,微调后的模型长得差不多,融合就是七个克隆人开会,毫无意义。只有数据足够多样,模型参数"各奔东西",才能互补。

谷歌研究院 2022 年的实验显示,用 KALAVAI 融合 7 个语言专家模型,在低资源语言任务上比单模型平均提升 23%。关键是,整个路由网络只训了 500 步——相当于让七个专家在半小时内学会互相打配合。

500步训练的"门控系统"

融合的核心是个轻量级 Mixture of Experts(混合专家)路由。它不看原始数据,只看输入 token 的特征,实时决定该激活哪个专家。门控函数的权重直接对应"这个输入更像谁的专业领域"。

训练路由用的是混合数据——从各专家的训练集里采样拼凑。这里容易翻车:如果路由过拟合,见到陌生输入就懵;如果学歪了,把法语句子派给阿拉伯语专家,直接 domain mismatch(领域错配)。KALAVAI 的解法是把验证集误差写进损失函数,强制路由保持"谦虚"。

整个流程零梯度共享、零数据共享。参与方只上传最终的模型权重,连训练过程中的中间状态都不暴露。这比传统的联邦平均(FedAvg)更进一步——后者好歹还要传梯度。

谁该紧张,谁该兴奋

对小语种研究者,这是救命稻草。斯瓦希里语、冰岛语的数据持有者再也不用把语料交给大厂,自己训完模型,扔个 checkpoint 进池子就行。对医疗 AI 更关键:医院 A 的肿瘤数据、医院 B 的心电数据,这辈子不可能见面,但两个专科模型可以融合成一个"全科医生"。

但有个隐藏成本:路由的 inference(推理)开销。每处理一个 token 都要计算 7 个专家的输出再加权,延迟比单模型高 40% 左右。KALAVAI 团队的建议是——用稀疏激活,每次只跑 top-2 专家,把开销压到 15% 以内。

2024 年 3 月,Hugging Face 社区有人复现了 KALAVAI 的简化版,用 4 个 7B 模型融合出一个"免费 GPT-4 替代品"。帖子底下最高赞的评论是:"终于不用求爷爷告奶奶要数据了。"

如果每个医院都能贡献一个专科模型,却不泄露任何病例——你觉得最先落地的会是肿瘤筛查,还是罕见病诊断?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15.6公里每秒!伴随巨响声,1吨重火球坠落美国:击穿房子屋顶

15.6公里每秒!伴随巨响声,1吨重火球坠落美国:击穿房子屋顶

肖兹探秘说
2026-03-24 16:32:33
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
黄文雅任深圳市政府副秘书长,此前任龙岗区委副书记

黄文雅任深圳市政府副秘书长,此前任龙岗区委副书记

南方都市报
2026-03-25 20:54:03
315晚会后,不出意外的话,这7样东西再“无人问津”,白给也不要

315晚会后,不出意外的话,这7样东西再“无人问津”,白给也不要

海豚女王
2026-03-25 04:16:54
三峡功臣、全国劳模陈文夫落马,他打造的无缝大坝也没堵住贪腐!

三峡功臣、全国劳模陈文夫落马,他打造的无缝大坝也没堵住贪腐!

至死不渝的爱情
2026-03-25 03:12:36
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
王曼昱见此消息定满心悲痛,张雪峰曾许下承诺:请她做公司代言人

王曼昱见此消息定满心悲痛,张雪峰曾许下承诺:请她做公司代言人

冷桂零落
2026-03-25 20:15:22
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
比亚迪又出黑科技,光伏天窗量产上车,或首搭“唐/汉”旗舰!

比亚迪又出黑科技,光伏天窗量产上车,或首搭“唐/汉”旗舰!

芭比衣橱
2026-03-24 17:21:01
东北两省书记省长会见刘强东

东北两省书记省长会见刘强东

观察者网
2026-03-25 21:43:37
85后宝妈长期陪娃写作业到半夜,竟遭遇“鬼剃头” :孩子动作慢,心里焦虑又睡不好,开始仅有手指肚大,现在已经变成巴掌大斑秃了

85后宝妈长期陪娃写作业到半夜,竟遭遇“鬼剃头” :孩子动作慢,心里焦虑又睡不好,开始仅有手指肚大,现在已经变成巴掌大斑秃了

观威海
2026-03-25 08:59:11
国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

趣文说娱
2026-03-25 16:42:22
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
扒开张雪峰的家底才明白:他最厉害的不是报志愿,而是选对妻子

扒开张雪峰的家底才明白:他最厉害的不是报志愿,而是选对妻子

风起见你
2026-03-25 10:40:24
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
张雪峰:​大学这俩证,​拼了老命也得给我考下来

张雪峰:​大学这俩证,​拼了老命也得给我考下来

热点网友
2026-03-25 12:18:57
张雪峰抢救细节曝光!他认识的副院长参与抢救,用最好的救护手段

张雪峰抢救细节曝光!他认识的副院长参与抢救,用最好的救护手段

安宁007
2026-03-24 23:14:49
25日最新:美军基地被炸视频,在外网疯传,战损比很惊人

25日最新:美军基地被炸视频,在外网疯传,战损比很惊人

消失的电波
2026-03-25 16:52:47
为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

心中的麦田
2026-03-24 19:53:20
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

有范又有料
2026-03-25 13:48:51
2026-03-26 00:39:00
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
36文章数 0关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗放话愿意与"主和派"万斯谈 特朗普表态

头条要闻

伊朗放话愿意与"主和派"万斯谈 特朗普表态

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

旅游
艺术
教育
时尚
游戏

旅游要闻

探秘云南保山勐赫小镇,感受与怒江贡山相拥的独特魅力!

艺术要闻

1008米!世界新第一高楼用上中国黑科技!

教育要闻

寒门的缺点是自负,优点是敢拼

女人过了40岁别胡乱穿衣,赶紧看看这些日系穿搭,舒适又耐看

《铁拳8》第三赛季上线即遭差评轰炸 万代迅速滑跪

无障碍浏览 进入关怀版