那个被马斯克点赞的17岁深圳少年，入行仅一年就跻身AI核心攻关|罗德|张宇|伊尔|深圳市|kimi|埃隆_马斯克

那个被马斯克点赞的17岁深圳少年，入行仅一年就跻身AI核心攻关

分享至

#3月·每日幸运签#

3月16日晚上，马斯克在社交平台上发了句话：Kimi这项工作令人印象深刻。

他说的是一项刚公开的AI技术成果。论文发表当天，作者名单里排第一的名字是Guangyu Chen。很快有人发现，这是个17岁的高中生，来自深圳，目前还在读高三。

陈广宇。这个名字一夜之间出现在无数人的手机上。

他做了什么？简单说，他和Kimi团队的同事们一起，动了一个很多年没人动过的地方。

现在所有大模型都建立在一种叫Transformer的架构上。这个架构2017年提出来，之后这些年，模型越做越大，参数越堆越多，但层与层之间怎么传信息，一直用的是一种叫残差连接的办法。打个比方，就像每一层算完后，把前面所有的资料整包往后传。层数浅的时候没问题，但一深到上百层，真正重要的信息反而被不断累加的内容冲淡了。

OpenAI的联合创始人伊尔亚·苏茨克维都琢磨过这事，觉得这里头还有文章可做。

Kimi团队这次提的叫注意力残差。不再是整包传，而是让每一层自己挑，哪些信息值得带走，哪些可以放下。过去像搬整箱书，现在更像先翻一遍，挑有用的几页拿走。

效果呢？在48B参数的模型上试过，训练计算量能省20%左右，推理延迟增加不到2%。效率提升了1.25倍。

这事有意思的地方在于，它给了AI圈一个提醒：想提升模型能力，不一定非拼谁算力多、谁参数大，从底层结构入手也是一条路。

但真正让人好奇的是，一个17岁的高中生，怎么坐到这个位置上的？

陈广宇真正深入接触AI，是近一年的事。起步靠读论文、刷GitHub开源项目，一点点补基础。后来他在社交平台上分享对技术博客的反思，被一个硅谷AI公司的CEO注意到。对方给他出了个限时实验测试，他过了。去年暑假，他飞去旧金山实习了七周，回国后11月加入Kimi团队。

他不是那种突然冒出来的天才。他有竞技编程背景，参加过美国计算机奥林匹克竞赛铂金组比赛，在Kimi内部拿过48小时黑客马拉松冠军。入选过罗德信托的高潜力未来领袖计划，那是面向全球15到17岁青少年的选拔。

但论文出来之后，他说得最多的一句话是：不要造神。

他在朋友圈复盘时，特意感谢了三位同等贡献作者，还有做模型扩展和基础设施的同事。说这项工作缺一不可。接受采访时反复强调，希望外界少写个人、多写技术和团队，这是大家共同完成的成果。

有网友评论说，这小孩厉害的不只是脑子，还有情商。

还有评论说，17岁的年纪，这么清醒，比技术本身更难得。

其实仔细看论文附录，前三位作者Guangyu Chen、Yu Zhang、Jianlin Su都被标注了同等贡献。张宇是Kimi高效模型架构的核心研发，苏剑林是大模型圈子里很知名的人，旋转位置编码RoPE就是他提的。陈广宇和他们并列共同一作，背后是真正参与、真正贡献，不是挂名。

这件事最触动人的，可能不是天才叙事，而是另一个事实：一个17岁的深圳高中生，用一年时间，从零基础走到AI研究最前沿，在顶级的团队里和顶尖的同行一起，动手改变了一个沿用近十年的底层结构。

有媒体写他时用了小孩哥这个称呼。但陈广宇自己显然不想被架到那个位置上。他说得很清楚，这是团队的事，不是个人的事。

对他而言，比起被当成天才，更想被看到的，是那个需要几十个人一起使劲才能解决的问题，以及它试图打开的那条路。

17岁，排第一位作者，马斯克点赞。这些标签足够让一个人被反复书写。但真正让这件事值得记住的，可能不是这些标签，而是那个站在流量中心却反复说不要造神的人。

深圳那块土地上，每年都有很多孩子冒出来。有的因为解题，有的因为发明，有的因为一篇文章。陈广宇是其中一个。他让人看到的不是神话，而是一个路径：自学，实习，进团队，做实事，然后安静地站在成果后面。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.