#3月·每日幸运签#
3月16日晚上,马斯克在社交平台上发了句话:Kimi这项工作令人印象深刻。
![]()
他说的是一项刚公开的AI技术成果。论文发表当天,作者名单里排第一的名字是Guangyu Chen。很快有人发现,这是个17岁的高中生,来自深圳,目前还在读高三。
陈广宇。这个名字一夜之间出现在无数人的手机上。
他做了什么?简单说,他和Kimi团队的同事们一起,动了一个很多年没人动过的地方。
现在所有大模型都建立在一种叫Transformer的架构上。这个架构2017年提出来,之后这些年,模型越做越大,参数越堆越多,但层与层之间怎么传信息,一直用的是一种叫残差连接的办法。打个比方,就像每一层算完后,把前面所有的资料整包往后传。层数浅的时候没问题,但一深到上百层,真正重要的信息反而被不断累加的内容冲淡了。
OpenAI的联合创始人伊尔亚·苏茨克维都琢磨过这事,觉得这里头还有文章可做。
Kimi团队这次提的叫注意力残差。不再是整包传,而是让每一层自己挑,哪些信息值得带走,哪些可以放下。过去像搬整箱书,现在更像先翻一遍,挑有用的几页拿走。
效果呢?在48B参数的模型上试过,训练计算量能省20%左右,推理延迟增加不到2%。效率提升了1.25倍。
这事有意思的地方在于,它给了AI圈一个提醒:想提升模型能力,不一定非拼谁算力多、谁参数大,从底层结构入手也是一条路。
但真正让人好奇的是,一个17岁的高中生,怎么坐到这个位置上的?
陈广宇真正深入接触AI,是近一年的事。起步靠读论文、刷GitHub开源项目,一点点补基础。后来他在社交平台上分享对技术博客的反思,被一个硅谷AI公司的CEO注意到。对方给他出了个限时实验测试,他过了。去年暑假,他飞去旧金山实习了七周,回国后11月加入Kimi团队。
他不是那种突然冒出来的天才。他有竞技编程背景,参加过美国计算机奥林匹克竞赛铂金组比赛,在Kimi内部拿过48小时黑客马拉松冠军。入选过罗德信托的高潜力未来领袖计划,那是面向全球15到17岁青少年的选拔。
但论文出来之后,他说得最多的一句话是:不要造神。
他在朋友圈复盘时,特意感谢了三位同等贡献作者,还有做模型扩展和基础设施的同事。说这项工作缺一不可。接受采访时反复强调,希望外界少写个人、多写技术和团队,这是大家共同完成的成果。
有网友评论说,这小孩厉害的不只是脑子,还有情商。
还有评论说,17岁的年纪,这么清醒,比技术本身更难得。
其实仔细看论文附录,前三位作者Guangyu Chen、Yu Zhang、Jianlin Su都被标注了同等贡献。张宇是Kimi高效模型架构的核心研发,苏剑林是大模型圈子里很知名的人,旋转位置编码RoPE就是他提的。陈广宇和他们并列共同一作,背后是真正参与、真正贡献,不是挂名。
这件事最触动人的,可能不是天才叙事,而是另一个事实:一个17岁的深圳高中生,用一年时间,从零基础走到AI研究最前沿,在顶级的团队里和顶尖的同行一起,动手改变了一个沿用近十年的底层结构。
有媒体写他时用了小孩哥这个称呼。但陈广宇自己显然不想被架到那个位置上。他说得很清楚,这是团队的事,不是个人的事。
对他而言,比起被当成天才,更想被看到的,是那个需要几十个人一起使劲才能解决的问题,以及它试图打开的那条路。
17岁,排第一位作者,马斯克点赞。这些标签足够让一个人被反复书写。但真正让这件事值得记住的,可能不是这些标签,而是那个站在流量中心却反复说不要造神的人。
深圳那块土地上,每年都有很多孩子冒出来。有的因为解题,有的因为发明,有的因为一篇文章。陈广宇是其中一个。他让人看到的不是神话,而是一个路径:自学,实习,进团队,做实事,然后安静地站在成果后面。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.