网易首页 > 网易号 > 正文 申请入驻

MIT天才博士刚毕业,就被前OpenAI CTO抢走!年薪或300万起步

0
分享至

  

  新智元报道

  编辑:桃子

  【新智元导读】MIT天才博士,清华学霸肖光烜官宣,正式加盟Thinking Machines,下一步主攻大模型预训练。

  MIT天才博士一毕业,火速加盟OpenAI前CTO初创!

  最近,肖光烜(Guangxuan Xiao)在社交媒体官宣,刚刚完成了MIT博士学位。

  下一步,他将加入Thinking Machines,专注于大模型预训练的工作。

  

  评论区下方,英伟达科学家、xAI研究员、UCSD等一众大佬,为他本人送上了祝贺。

  

  

  清华双学位学霸,MIT博士开挂人生

  打开他的个人主页,多元而充实的经历便映入眼帘。

  肖光烜本科毕业于清华大学,拿到了双学位,主修的是计算机科学,金融学是第二学位。

  

  在此期间,他获得了清华大学综合优秀奖学金(2019)、全国大学生数学建模竞赛(CUMCM)一等奖(2020)、国家奖学金(2020)、清华大学「未来学者」奖学金(2021)等多项奖项。

  他曾于2020–2021年作为访问生(Visiting Student),前往斯坦福大学计算机系开展科研工作。

  2022年,肖光烜加入MIT攻读博士学位,导师为韩松(Song Han)教授。

  个人研究方向聚焦于:深度学习的高效算法与系统,尤其是大规模基础模型(Foundation Model)。

  

  他于2022年9月至2026年1月,在MIT EECS担任全职研究助理(Research Assistant)。

  读博期间,肖光烜曾多次进入全球顶级科技大厂从事前沿研究实习,具备了丰富的一线工业研发的经验。

  2023年,他曾加入Meta实习,研究方向为「流式语言模型的高效注意力机制」,相关成果发表在arxiv上。

  

  论文地址:https://arxiv.org/pdf/2309.17453

  2024年2-5月期间,他作为英伟达实习生,研究方向是为长上下文大语言模型推理加速。

  他和团队提出了DuoAttention,结合检索与流式注意力头,实现高效推理。

  

  论文地址:https://research.nvidia.com/labs/eai/publication/duoattention/

  随后,他又参与了多项核心研究项目,其中包括:

  XAttention:基于反对角评分的块稀疏注意力机制

  StreamingVLM:面向无限视频流的实时理解模型

  FlashMoBA:混合块注意力(Mixture of Block Attention)的高效优化

  值得一提的是,肖光烜在研究之外,还有丰富的兴趣爱好,比如足球、乒乓球、围棋、钢琴。

  他曾担任所在院系足球队的队长兼先锋,贝多芬的作品是个人最爱。

  

  一篇博士论文,破解LLM三大难题

  比起耀眼的履历,肖光烜的博士论文本身更值得深入研析与拆解。

  

  不得不承认,如今大模型已经无所不能,但它们依然太贵了。

  显存爆炸、推理太慢、长上下文直接OOM(内存溢出),这是几乎所有LLM工程团队每天都在面对的现实。

  Efficient Algorithms and Systems for Large Language Models这篇论文,给出了一个罕见的、从工程到理论、从算法到架构的完整答案。

  论文中, 他们提出了SmoothQuant,解决了一个长期困扰工业界的问题——激活值异常(activation outliers)。

  SmoothQuant通过一个巧妙的数学等价变换,把量化难点从「激活」转移到「权重」。

  结果,它实现了首个在十亿级模型上W8A8无损量化,无需重新训练,显存更小、推理更快。

  针对超长序列的处理,作者在StreamingLLM中发现了「注意力汇点」(attention sink)现象——

  即使没有任何语义,初始token会被后续token持续关注。这些token的作用不是「理解」,而是数值稳定。

  结果,实现了常数内存的流式推理,模型上下文长度从数千token扩展到百万级

  更进一步,他们又把这一思想推广到多模态,StreamingVLM可以在保持时间一致性的同时处理长达数小时的视频内容。

  对于超长上下文场景,团队又提出一个互补方案,分别针对不同的性能瓶颈。

  KVCache太大,采用DuoAttention

  注意力头本身就有分工:少数负责「全局检索」,多数只看「最近上下文」。

  DuoAttention用混合策略,大幅降低显存,却几乎不掉性能。

  预填充(Prefill)太慢,采用XAttention

  利用反对角线评分机制,仅识别、计算必要的注意力块,从而实现显著的加速效果。

  论文的最后,并没有止步于「优化现有模型」,通过对MoBA(块混合注意力) 的信噪比分析,作者证明了:

  理论上,block越小越好。

  但现实是,GPU不答应,于是有了FlashMoBA,一种定制化的CUDA内核,使小块架构在实践中可行,并实现了最高可达9倍的速度提升。

  这篇论文的价值在于,构建了一整套高效大模型的完整框架,既回应了当下的现实挑战,也为下一代计算高效、普惠可及的AGI奠定了基础。

  平均350万年薪,碾压OpenAI

  最后来到一个大家比较感兴趣的话题——薪资。

  去年,硅谷人才争夺战激烈,BI一篇独家挖到了Thinking Machines(TML)给员工们开出的薪资——

  基础年薪高达50万美元(约350万元)。

  

  据BI获取的招聘数据,TML向两名技术员工支付了45万美元的基础年薪,另一名员工的年薪则高达50万美元。

  第四名员工被列为「联合创始人/机器学习专家」,其年薪同样为45万美元。

  这些薪酬数据,来自2025年第一季度,早于Murati以100亿美元的估值,成功完成20亿美元的种子轮融资。

  总体来看,TML为这四名技术员工提供的平均年薪达到462,500美元。

  相较之下,TML明显高于业内更为成熟LLM公司——

  OpenAI在相关申报文件中列出的29名技术员工,平均年薪为292,115美元。

  其中最高薪资为53万美元,最低为20万美元。

  Anthropic向14名技术员工支付的平均年薪为387,500美元,薪资区间在30万至69万美元之间。

  虽然比起Meta疯狂的超1万亿美元薪酬还差得远,但这一水平也在硅谷数一数二。

  果然,21世纪最贵的还是人才。

  

  参考资料:

  https://x.com/Guangxuan_Xiao/status/2008779396497502337

  https://guangxuanx.com/

  https://scholar.google.com/citations?user=sRGO-EcAAAAJ

  https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/

  https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里27+10勇士击退国王2连胜,巴特勒15+6+6德罗赞24分

库里27+10勇士击退国王2连胜,巴特勒15+6+6德罗赞24分

湖人崛起
2026-01-10 13:17:21
让对手忌惮的不是中国的战略核武器,而是这两款武器

让对手忌惮的不是中国的战略核武器,而是这两款武器

清欢百味
2026-01-10 20:36:31
看着都疼!苏提达踩“钢针鞋”健步如飞,优雅背后是女人才懂的痛

看着都疼!苏提达踩“钢针鞋”健步如飞,优雅背后是女人才懂的痛

白露文娱志
2026-01-09 10:52:01
陈光评价叶帅:从未打过大仗,既然如此,为何55年还能评为元帅?

陈光评价叶帅:从未打过大仗,既然如此,为何55年还能评为元帅?

浩渺青史
2026-01-10 12:19:31
特朗普:俄货船有两艘俄舰艇护卫,当我们抵达时,他们迅速撤离了

特朗普:俄货船有两艘俄舰艇护卫,当我们抵达时,他们迅速撤离了

知法而形
2026-01-09 17:49:12
杨紫新剧《家业》改《祯娘传》!央视力推,非遗徽墨大女主冲爆

杨紫新剧《家业》改《祯娘传》!央视力推,非遗徽墨大女主冲爆

东方不败然多多
2026-01-10 15:08:00
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
皇马28天5连胜!阿隆索自救成功:即便输巴萨丢冠也不下课

皇马28天5连胜!阿隆索自救成功:即便输巴萨丢冠也不下课

叶青足球世界
2026-01-10 15:40:23
从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

照见古今
2025-12-12 18:19:05
电影《我不是药神》原型陆勇时隔五年重返印度,确诊白血病23年后计划今年停止服药,他去年又开设新公司

电影《我不是药神》原型陆勇时隔五年重返印度,确诊白血病23年后计划今年停止服药,他去年又开设新公司

极目新闻
2026-01-10 17:00:13
伊朗巨变前夜

伊朗巨变前夜

凤眼论
2026-01-08 10:31:08
若有一天中日开战,日退役少将预言三大后果,日本唯一生机曝光​

若有一天中日开战,日退役少将预言三大后果,日本唯一生机曝光​

比利
2025-12-26 20:59:23
美女老板糊涂!6万可兑现送车承诺 某车企掏200万达2亿宣传效果

美女老板糊涂!6万可兑现送车承诺 某车企掏200万达2亿宣传效果

念洲
2026-01-10 12:49:45
官方公告:刘亚萍同志,长期失联、未到岗履职,被解聘

官方公告:刘亚萍同志,长期失联、未到岗履职,被解聘

新京报政事儿
2026-01-10 19:00:11
万万没想到,未婚未育的李胜素,如今在59岁活成了人生赢家

万万没想到,未婚未育的李胜素,如今在59岁活成了人生赢家

窥史
2026-01-10 16:04:53
2026年春节不一般,老人说“5个生肖要穿红”,看看有你吗?

2026年春节不一般,老人说“5个生肖要穿红”,看看有你吗?

复转这些年
2026-01-05 23:36:21
阿联酋叫停学生去英国留学:怕校园被激进伊斯兰组织洗脑

阿联酋叫停学生去英国留学:怕校园被激进伊斯兰组织洗脑

桂系007
2026-01-09 14:28:16
又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

牛牛叨史
2025-12-23 23:07:38
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
江苏企退人员,12月过渡性养老金已增700元,2026年再增300元吗?

江苏企退人员,12月过渡性养老金已增700元,2026年再增300元吗?

八斗小先生
2026-01-09 10:57:25
2026-01-10 21:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14301文章数 66452关注度
往期回顾 全部

教育要闻

“破圈计划”——教学-就业-升学一体化知识库:洞见教育闭环,赋能精准决策

头条要闻

特朗普宣称“不需要国际法” 联合国秘书长表态

头条要闻

特朗普宣称“不需要国际法” 联合国秘书长表态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

科技要闻

传DeepSeek准备第二次震惊全世界

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

时尚
游戏
手机
艺术
旅游

年底大牌返场 || 每次都“秒空”,这次100+真的好值!

马斯克女儿叫“彗星亚兹勒”!你会学他这样取名吗?

手机要闻

苹果再次发力:20周年纪念版+iPhone Air 2,均迎来新消息!

艺术要闻

王耀中油画作品集

旅游要闻

内蒙古呼和浩特:哈素海冬捕节启幕 冰湖腾鱼寒冬“热”

无障碍浏览 进入关怀版