深圳商报·读创客户端首席记者 袁静娴
17岁,论文一作,被特斯拉创始人马斯克点赞——这不是一段设定好的“天才剧本”,而是真实发生在陈广宇身上的一幕。
3月中旬,月之暗面Kimi团队发布论文《Attention Residuals》,这项关于大模型结构的创新,引发业内关注。而随着马斯克的转发与评论,第一作者之一的陈广宇也迅速被推到聚光灯下。
比起“少年天才”的标签,更值得被讨论的或许是另一件事:当17岁就可以参与大模型核心研究,这样的路径,正在变得不再罕见。随之被放大的,不只是一个少年的经历,还有一个逐渐清晰的趋势:越来越多“更早登场”的年轻人,正在进入技术与创业的核心地带。
![]()
从黑客松到硅谷,17岁少年如何走进AI前沿
时间回到3月16日。
当天,月之暗面Kimi团队发表了论文《Attention Residuals》(“注意力残差”),把OpenAI联合创始人Ilya Sutskever提出的设想变成了现实,提升了大模型在复杂上下文中的信息筛选与调用能力。
随后,马斯克点赞并在社交平台发文称,Kimi这项工作“令人印象深刻”。此举把Kimi团队的这一论文带入更多公众视野,作为该论文的共同一作之一的陈广宇,也迅速引起讨论。
陈广宇出生于2009年,今年17岁,正在深圳贝赛思体系学校就读高中。
![]()
“很少有16岁的孩子,能用行动把人生切换到另一条轨道。广宇是其中一个。他从一场黑客松出发,一路走进科研、实习和硅谷。不是因为他赢过什么大比赛,也不是天赋异禀,而是因为他愿意动身,愿意试,愿意亲自去看世界。”奇绩创坛(原YC中国)创始成员董科含如此评价陈广宇。
2025年2月,北京一场中学生黑客松上,陈广宇展示了一个关于“人类第三只机械辅助手”的创新构想——ThirdArm。正是在这场活动上,陈广宇结识了评委董科含。很快,陈广宇就入选了董科含发起的面向全球15–17岁青年的高潜力未来领袖计划。从黑客松开始,陈广宇慢慢开启科研、实习之路,并一路走到了美国硅谷。
在接触科研之前,陈广宇坦言,自己更喜欢的是“做产品、玩创意、跑市场”。中学时他就试着用家长身份注册 Shopify 店铺,拍产品照、投广告,还做过短视频账号四天涨了29万粉。此外,陈广宇也组织过青少年开源社区、机器人等等。
当时还不知道什么是Transformer的陈广宇,经董科含引荐认识了DeepSeek研究员袁境阳,在袁境阳的指导下,陈广宇开始利用Gemini作为辅助工具,研读经典论文、追踪GitHub开源项目等方式,逐步建立认知。
学习的过程中,有一次陈广宇在推特上发表了对一篇博客的反思,引起了一家硅谷AI初创公司CEO的关注。该公司在2025年初完成800万美元种子轮融资,资方背景涉及OpenAI与Anthropic。对方很快向陈广宇抛出了橄榄枝——邀请陈广宇到公司实习。
2025年的暑假,陈广宇坐上飞往硅谷的航班,开启了为期7周的实习。实习期间,陈广宇主导定义了一个涉及144张H100显卡的探索项目,同时他还与该公司创始人一起参与技术开发、探讨融资策略讨论、认识了更多的工程师等等。
2025年11月,陈广宇加入了月之暗面,参与Kimi大模型结构层的优化。据陈广宇发表在董科含公众号的文章介绍,月之暗面吸引陈广宇的原因之一,是Kimi团队一直做的Flash Linear Attention这一类高效Attention工作,而这也是陈广宇在开始学习AI时,所接触的GitHub上的FLA项目。
让大模型学会筛选信息
那么Kimi团队此次发表的论文,主要是讲什么?
在使用大模型的过程中,不少用户都有这样的困扰:随着与大模型对话的内容和丢给它的素材越来越多,大模型就越来越倾向于“大脑爆炸、记忆过载”的状态,虽然它会尽可能记住所有信息,但仍然缺乏有效的筛选机制,导致给出的结果抓不住重点、信息匹配错乱等。
此前,OpenAI联合创始人Ilya Sutskever就提出可以把按时间先后顺序处理数据的LSTM网络“旋转90度”,即把时间轴换成模型深度轴,变成残差网络的设想。
Kimi团队则认为,如果时间上的LSTM能对应深度上的残差,那淘汰了LSTM的“注意力机制”也可以照做。于是,Kimi团队开发了一套Attention Residuals技术,相当于把注意力机制也“旋转了90度”。在这套新方法下,模型在计算当前层时可以聪明地“回头看”,根据需要自由决定去提取前面哪一层的信息。
Kimi团队把这一套方法在Kimi Linear架构上做了测试,结果显示,训练效率提升25%,推理延迟增加不到2%。
“00后”开始陆续登场了
陈广宇的这次出圈,也让“00后”这一代创业者与技术人才,开始更频繁地进入投资人与公众的共同视野。
比如,成立于2025年1月的零次方机器人,其创始人闵宇恒、程颐、李宜哲,均是“00后”,也是清华大学深圳国际研究生院的在读生。零次方机器人在成立半年内,累计完成了天使轮、天使+轮、天使++轮总计过亿元的融资,成为2025年创投圈的现象级项目。
如果说过去,创业仍然是一条需要经历“名校—大厂—融资”的标准路径,那么近两年,这条路径正在被悄然改写。
一方面,以大模型为代表的新一轮技术工具,大幅降低了技术探索与产品验证的门槛;另一方面,开源社区、黑客松、社交平台等新型入口,也让更多年轻人得以绕开传统体系,直接进入一线技术与创业网络。
在这样的背景下,“00后”不再只是被观察的一代,而是开始更早地进入牌桌、参与竞争,甚至是定义问题的人。也正因此,一个更现实的问题开始浮现:在投资人眼中,什么样的年轻人,更有可能从“早起步”走向“走得远”?
“真正能走得远的年轻人,往往不合逻辑,但却符合一种直觉。是因为他们敢在没人看懂的时候投身去做。他们敢于说出还没成体系的想法,做出没人能理解的产品,在孤独中坚持自己节奏。”在董科含看来,有着“创业天才”预兆的他们,不一定起点高,表达也可能笨拙,但只要给时间和一点能量,就会突然长成别人看不懂的样子。
近10年来,董科含累计带过7000多人、接触过10万名创业者。结合创业成功的年轻人共同特点,董科含总结了部分“创业天才”的本质特点。比如:有控制不住的好奇心;极度自信,极度相信自己会赢;逻辑极清晰,并且能用简单的语言表达清楚;动手能力极强,喜欢亲自上手解决问题;不能忍受低效,哪怕是别人浪费时间也会不舒服等等。
其次是创业成功概率的增强特征:比如天然屏蔽噪音,一次只做一件重要的事,直奔问题本质;自我驱动的完美主义,总要把事情推到极限边界;有自己的判断,不同观点;对细节高度关注等等。
“这些年轻创业者的观点不一定对,甚至很多是愚蠢、未完成、粗糙的,但他们敢说、敢做、敢坚持,有一种奇怪的能量,混着真实、傲慢、野性和觉悟。他们不去背那些标准答案,去复述别人的观点,而是去做一个反常识、但真实的项目,同时他们相信构建比证明重要,不急于赢一次比赛,而是要自己造一个新的赛道。”在董科含看来,“他们不是模仿者,是造路者。”
另一位投资机构的负责人向记者表示,陈广宇的意义,或许不在于“17岁”本身,而在于当一个高中生可以参与大模型底层研究,并被全球顶级技术人物关注时,“成为创业者”这件事,正在被整体前移。在他看来,起点被拉低了,门槛被重写了,路径被压缩了,但赛道并没有变得更简单。对这一代人来说,真正的分水岭,或许不再是“有没有机会”,而是——当机会提前到来时,是否已经准备好承接它。
(图片来源于陈广宇个人社交平台)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.