马斯克刚刚真把平台推荐算法开源，核心也是Transformer|埃隆_马斯克

马斯克刚刚真把平台推荐算法开源，核心也是Transformer

2026-01-20 20:22:31　来源: 机器之心Pro

北京举报

分享至

编辑｜冷猫

刚刚，平台（原 Twitter 平台）公布了全新的开源消息：已将全新的推荐算法开源，该算法由与 xAI 的 Grok 模型相同的 Transformer 架构驱动。

该模型预测用户行为（点赞、回复、转发等）来对帖子进行排序，出现在 For You 一栏中。

众所周知，推荐算法是社交媒体平台的生命线，几乎已经成为了媒体平台获取用户留存，扩大营销收益的核心。在一周多前，马斯克在平台发推声明「将在 7 天后开源平台推荐算法」的时候几乎令人难以置信。

而马斯克确实说到做到，虽然比声称的 7 天内略晚，但推荐算法的确已经完全开源。希望之后能够长期遵循每 4 周重复更新的承诺。

在开源信息发布后，马斯克表示：「我们知道这个算法很笨拙，需要大量的改进，但至少你可以看到我们在实时和透明的情况下努力让它变得更好。没有其他社交媒体公司这样做。」

不过，马斯克选择开源平台推荐算法可能另有原因。

据路透社报道，2025 年 7 月，巴黎检察官调查了该社交媒体平台，怀疑其存在算法偏见和欺诈性数据提取，马斯克将其称为「政治动机的刑事调查」，威胁到其用户的言论自由。

12 月，欧盟对处以 1.2 亿欧元罚款，监管机构表示该公司违反了该地区数字服务法案下的透明度义务。罚款与的「蓝 V」订阅、广告库缺乏透明度以及未能向研究人员提供平台公共数据有关。

既然已经开源，那我们来看一下平台到底公开了些啥？

Github 开源链接：https://github.com/xai-org/x-algorithm

这份代码仓库包含了平台「For You」信息流背后的核心推荐系统。

它将站内关系内容（来自你已关注账号的内容）与站外发现内容（通过基于机器学习的召回机制发现的内容）进行融合，并使用基于 Grok 的 Transformer 模型对所有内容进行统一排序。

随后就是一长串的系统架构：

推荐算法系统架构

新系统彻底抛弃了传统的手工规则，并大幅减少启发式方法，采用完全的神经网络方式。

整个推荐过程的核心几乎全部交给了这个基于 Grok 的 Transformer 模型：它通过理解你的历史互动行为（比如点赞、回复、转发等），来判断哪些内容与你最相关。

整个系统的核心是称为 Thunder 和 Phoenix 的组件。「For You」信息流算法会从两个来源中召回、排序并过滤内容：

站内关系内容（In-Network，Thunder）：来自你已关注账号的帖子
站外发现内容（Out-of-Network，Phoenix Retrieval）：从全局内容池中通过模型发现的帖子

来自这两个来源的内容会被合并在一起，并统一交由Phoenix进行排序。Phoenix 是一个基于 Grok 的 Transformer 模型，它会为每一条帖子预测不同形式的互动概率。最终排序分数，是这些预测互动概率的加权组合。

Thunder 组件

这是一个基于内存的帖子存储与实时数据摄取系统，用于跟踪全体用户的最新发帖情况，主要功能包括：

从 Kafka 中消费帖子创建 / 删除事件
为每个用户分别维护原帖、回复 / 转发、以及视频帖的存储
向请求用户提供其关注账号的「站内关系内容（in-network）」候选帖
自动清理超过保留期限的旧帖子
支持亚毫秒级查询，无需访问外部数据库即可获取站内关系内容

Thunder 的作用，是让系统能够极高速地获取「你关注的人最近发了什么」。

Phoenix 组件

这是推荐系统中的机器学习核心组件，主要包含两个功能模块：

召回（Two-Tower 双塔模型），用于发现相关的站外内容（out-of-network）：

用户塔（User Tower）：将用户特征和历史互动行为编码为向量表示
候选内容塔（Candidate Tower）：将所有帖子编码为向量表示
相似度检索：通过向量点积相似度，召回最相关的 Top-K 帖子

排序（带候选隔离的 Transformer），用于预测每条候选内容的互动概率：

以用户上下文（历史互动）和候选帖子作为输入
使用特殊的注意力掩码机制，确保候选帖子之间不能相互看到彼此
输出不同互动行为的概率预测（点赞、回复、转发、点击等）

基于 Phoenix 的 transformer 模型预测多种参与类型的概率：

Predictions:├── P(favorite)├── P(reply)├── P(repost)├── P(quote)├── P(click)├── P(profile_click)├── P(video_view)├── P(photo_expand)├── P(share)├── P(dwell)├── P(follow_author)├── P(not_interested)├── P(block_author)├── P(mute_author)└── P(report)

加权评分器将这些因素综合成一个最终得分：

FinalScore= Σ (weight_i × P(action_i))

流量密码

这个得分就是影响推文推荐水平的量化数据。简单分析，平台的推荐逻辑更加关注评估内容与用户的关系质量。

在新的「For You」机制下，每一条帖子都会被独立评估，排序不再主要依赖点赞数量，而是基于系统对深度互动行为的预测与反馈，包括引用评论、私信分享、复制链接、个人主页点击与关注，以及停留时长。相反，「不感兴趣」、静音、拉黑、举报等负面行为会直接被赋予负权重，显著压低内容分发。

此外，情绪化标题、短期刺激型内容的收益正在下降。算法不仅关注互动峰值，也会捕捉后续的负反馈，从而惩罚低质量、不可持续的互动模式。

同时，发布频率越高并不等于覆盖面越广。系统会对同一作者在同一信息流中的多条内容进行递减加权，刷屏式发布反而更容易被压制。更有效的策略，是降低频率、提高单条内容的独立价值。

在分发机制上，关注关系的重要性进一步上升。来自关注者网络的内容保持满权重，而推送给非关注用户的内容则会被系统性折扣，降低「纯病毒式传播」的成功概率。

总体来看，的推荐系统正在明确优化长期关系和内容质量，而不是短期热度。谁能建立稳定、正向的互动关系，谁才能获得更可持续的曝光。

规则已经明确地展现在所有人面前，从中每个人都可以发掘自己的流量密码。

或许大家可以去关注一下我们机器之心的？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.