![]()
每天7000万人在Roblox里聊天,16种语言来回切换,256种翻译组合。传统做法要养256个模型,Roblox只做了一个,还把延迟压到100毫秒——比人类眨一次眼还快。
这不是炫技,是算账。每加一种语言,传统方案要新增32个模型,维护成本指数级爆炸。Roblox的工程师算过这笔账:要么接受这个无底洞,要么重新发明轮子。
从256个模型到1个:MoE架构的减法逻辑
Roblox的选择是Mixture of Experts(混合专家模型,MoE)。听起来像学术名词,实际是个分诊台逻辑:来了英语翻韩语的请求,只叫醒懂东亚语言的专家;来了法语翻泰语,激活东南亚组。
每个专家只处理自己擅长的语言簇,参数总量不变,但单次推理只跑一小部分。这就像医院不用让每个科室同时值班,而是按挂号类型动态调度。
具体实现上,Roblox用了一个统一的Transformer底座。输入句子先过语言识别,路由层决定激活哪些专家,最后输出目标语言。整个流程端到端训练,专家之间共享底层表征,但保留各自的语言特异性。
关键数字:16种语言,256个方向,1个模型。新增第17种语言时,不需要32个新模型,只需要扩展路由层和少量专家。复杂度从O(n²)降到O(n)。
100毫秒的秘密:推理优化的三层拆解
MoE解决了模型数量问题,但没解决速度问题。聊天场景下,100毫秒是硬门槛——超过这个数,用户会明显感觉到"卡顿",对话节奏断裂。
![]()
Roblox做了三层优化。
第一层是专家并行。传统MoE的路由决策会引入额外延迟,Roblox把路由计算和专家执行流水线化,重叠调度开销。第二层是动态批处理。不是来了请求就立即处理,而是微秒级窗口内攒一批相似请求,一起送进GPU,提高吞吐量。第三层是内存布局优化。高频激活的专家常驻显存,冷门的按需加载,减少PCIe带宽瓶颈。
最终指标:单句翻译约100毫秒,峰值处理5000条聊天/秒。作为对比,Google翻译的API延迟通常在200-500毫秒区间,且不支持这种量级的实时并发。
但这里有个取舍:100毫秒是"足够好",不是"理论最优"。Roblox本可以压榨到50毫秒,但那样需要更大的批次、更激进的缓存策略,会牺牲单用户响应的稳定性。他们选择了体验一致性优先。
数据困境:没有平行语料,怎么办?
翻译模型的传统训练依赖平行语料——同一句话的两种语言对照。但Roblox的场景里,玩家聊天是口语化、碎片化、充满游戏黑话的。"gg no re"在英语玩家里是"good game, no rematch",直译成韩语毫无意义。
更麻烦的是稀有语言对。韩语-泰语的平行数据几乎不存在,但Roblox的用户确实需要这个组合。
他们的解法是多阶段训练。先用公开平行语料预训练,建立基础能力;再用Roblox平台内的单语数据做无监督对齐,学习游戏特定表达;最后用少量人工标注的高质量对话做微调。MoE架构在这里再次发挥作用:专家可以专门学习"游戏黑话"这个子领域,而不污染通用翻译能力。
一个细节:Roblox没有披露具体的数据规模,但提到"数十亿级别的token"。这个量级在工业界属于中等偏上,说明他们的效率来自架构设计而非暴力堆数据。
![]()
未解决的问题与真实代价
这套系统运行了,但Roblox的工程师在公开分享中留了余地。
首先是长尾语言的质量。16种语言里,英语-西班牙语这类高频组合的准确率显著高于冰岛语-越南语这类低频组合。MoE的路由机制理论上可以缓解这个问题,但Roblox没有公布分语言的BLEU分数(机器翻译标准评测指标)。
其次是内容安全的耦合。实时翻译意味着内容审核也要实时。Roblox提到他们在翻译 pipeline 中集成了安全过滤器,但具体如何平衡延迟与审核深度,没有展开。
最后是成本结构。MoE减少了模型数量,但单次推理的显存占用更高(需要同时加载多个专家的参数)。Roblox没有透露基础设施支出,但提到"与业务增长线性相关"——暗示他们压住了边际成本曲线。
「我们的目标不是完美的翻译,是可理解的沟通。」Roblox工程团队在技术博客中写道。这句话暴露了产品优先级:流畅度 > 准确度,社交体验 > 语言纯度。
一个值得玩味的对比:Meta同期也在推多语言翻译,但路线不同。Meta的No Language Left Behind项目追求"200种语言全覆盖",用大量小模型+蒸馏;Roblox则是"16种语言极致优化",用单个大MoE。两种哲学,两种场景,没有高下之分。
Roblox的翻译系统已经跑了超过一年。最新数据是:日均翻译消息数超过10亿条,覆盖180个国家的用户。但工程师们仍在调试一个参数——当两个玩家开始用翻译后的语言聊得火热,系统要不要主动提示"你们其实可以用母语"?
这个开关至今没有统一答案。有人觉得提示会破坏沉浸感,有人担心玩家不知道对方在"迁就"自己。产品决策没有标准解,只有场景解。
如果你在一个跨国团队工作,实时翻译的延迟阈值设多少毫秒,你会开始觉得"不如直接用英语"?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.