![]()
编辑|冷猫
刚刚, 平台(原 Twitter 平台)公布了全新的开源消息:已将全新的推荐算法开源,该算法由与 xAI 的 Grok 模型相同的 Transformer 架构驱动。
该模型预测用户行为(点赞、回复、转发等)来对帖子进行排序,出现在 For You 一栏中。
![]()
众所周知,推荐算法是社交媒体平台的生命线,几乎已经成为了媒体平台获取用户留存,扩大营销收益的核心。在一周多前,马斯克在 平台发推声明「将在 7 天后开源平台推荐算法」的时候几乎令人难以置信。
![]()
而马斯克确实说到做到,虽然比声称的 7 天内略晚,但推荐算法的确已经完全开源。希望之后能够长期遵循每 4 周重复更新的承诺。
在开源信息发布后,马斯克表示:「我们知道这个算法很笨拙,需要大量的改进,但至少你可以看到我们在实时和透明的情况下努力让它变得更好。没有其他社交媒体公司这样做。」
不过,马斯克选择开源 平台推荐算法可能另有原因。
据路透社报道,2025 年 7 月,巴黎检察官调查了该社交媒体平台,怀疑其存在算法偏见和欺诈性数据提取,马斯克将其称为「政治动机的刑事调查」,威胁到其用户的言论自由。
12 月,欧盟对 处以 1.2 亿欧元罚款,监管机构表示该公司违反了该地区数字服务法案下的透明度义务。罚款与的「蓝 V」订阅、广告库缺乏透明度以及未能向研究人员提供平台公共数据有关。
既然已经开源,那我们来看一下 平台到底公开了些啥?
![]()
- Github 开源链接:https://github.com/xai-org/x-algorithm
这份代码仓库包含了平台「For You」信息流背后的核心推荐系统。
它将站内关系内容(来自你已关注账号的内容)与站外发现内容(通过基于机器学习的召回机制发现的内容)进行融合,并使用基于 Grok 的 Transformer 模型对所有内容进行统一排序。
随后就是一长串的系统架构:
![]()
推荐算法系统架构
新系统彻底抛弃了传统的手工规则,并大幅减少启发式方法,采用完全的神经网络方式。
整个推荐过程的核心几乎全部交给了这个基于 Grok 的 Transformer 模型:它通过理解你的历史互动行为(比如点赞、回复、转发等),来判断哪些内容与你最相关。
整个系统的核心是称为 Thunder 和 Phoenix 的组件。「For You」信息流算法会从两个来源中召回、排序并过滤内容:
- 站内关系内容(In-Network,Thunder):来自你已关注账号的帖子
- 站外发现内容(Out-of-Network,Phoenix Retrieval):从全局内容池中通过模型发现的帖子
来自这两个来源的内容会被合并在一起,并统一交由Phoenix进行排序。Phoenix 是一个基于 Grok 的 Transformer 模型,它会为每一条帖子预测不同形式的互动概率。最终排序分数,是这些预测互动概率的加权组合。
Thunder 组件
这是一个基于内存的帖子存储与实时数据摄取系统,用于跟踪全体用户的最新发帖情况,主要功能包括:
- 从 Kafka 中消费帖子创建 / 删除事件
- 为每个用户分别维护原帖、回复 / 转发、以及视频帖的存储
- 向请求用户提供其关注账号的「站内关系内容(in-network)」候选帖
- 自动清理超过保留期限的旧帖子
- 支持亚毫秒级查询,无需访问外部数据库即可获取站内关系内容
Thunder 的作用,是让系统能够极高速地获取「你关注的人最近发了什么」。
Phoenix 组件
这是推荐系统中的机器学习核心组件,主要包含两个功能模块:
召回(Two-Tower 双塔模型),用于发现相关的站外内容(out-of-network):
- 用户塔(User Tower):将用户特征和历史互动行为编码为向量表示
- 候选内容塔(Candidate Tower):将所有帖子编码为向量表示
- 相似度检索:通过向量点积相似度,召回最相关的 Top-K 帖子
排序(带候选隔离的 Transformer),用于预测每条候选内容的互动概率:
- 以用户上下文(历史互动)和候选帖子作为输入
- 使用特殊的注意力掩码机制,确保候选帖子之间不能相互看到彼此
- 输出不同互动行为的概率预测(点赞、回复、转发、点击等)
基于 Phoenix 的 transformer 模型预测多种参与类型的概率:
Predictions:├── P(favorite)├── P(reply)├── P(repost)├── P(quote)├── P(click)├── P(profile_click)├── P(video_view)├── P(photo_expand)├── P(share)├── P(dwell)├── P(follow_author)├── P(not_interested)├── P(block_author)├── P(mute_author)└── P(report)
加权评分器将这些因素综合成一个最终得分:
FinalScore= Σ (weight_i × P(action_i))
流量密码
这个得分就是影响推文推荐水平的量化数据。简单分析, 平台的推荐逻辑更加关注评估内容与用户的关系质量。
在新的「For You」机制下,每一条帖子都会被独立评估,排序不再主要依赖点赞数量,而是基于系统对深度互动行为的预测与反馈,包括引用评论、私信分享、复制链接、个人主页点击与关注,以及停留时长。相反,「不感兴趣」、静音、拉黑、举报等负面行为会直接被赋予负权重,显著压低内容分发。
此外,情绪化标题、短期刺激型内容的收益正在下降。算法不仅关注互动峰值,也会捕捉后续的负反馈,从而惩罚低质量、不可持续的互动模式。
同时,发布频率越高并不等于覆盖面越广。系统会对同一作者在同一信息流中的多条内容进行递减加权,刷屏式发布反而更容易被压制。更有效的策略,是降低频率、提高单条内容的独立价值。
在分发机制上,关注关系的重要性进一步上升。来自关注者网络的内容保持满权重,而推送给非关注用户的内容则会被系统性折扣,降低「纯病毒式传播」的成功概率。
总体来看, 的推荐系统正在明确优化长期关系和内容质量,而不是短期热度。谁能建立稳定、正向的互动关系,谁才能获得更可持续的曝光。
规则已经明确地展现在所有人面前,从中每个人都可以发掘自己的流量密码。
或许大家可以去关注一下我们机器之心的 ?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.