网易首页 > 网易号 > 正文 申请入驻

智造人物 | Transformer的八位奠基人都去了哪里?

0
分享至

来源:市场资讯

(来源:洪泰智造)

智造人物 | Transformer的八位奠基人都去了哪里?

作者:玻色子

导语:一篇论文,八个人,改变AI历史的六十天

2017年6月12日,一个看似平常的周一,八位谷歌员工向arXiv提交了一篇论文。论文标题借用了披头士乐队的经典歌曲——《Attention Is All You Need》。

彼时,没有人预料到,这篇仅有11页的论文将在未来数年内掀起席卷全球的人工智能风暴。它的核心贡献——Transformer架构,不仅彻底颠覆了自然语言处理领域,更成为ChatGPT、GPT-4、DALL-E、Stable Diffusion等划时代产品的技术基石。

截至2025年6月,这篇论文的被引次数已超过18万次,成为人工智能领域被引用最多的论文之一。

更具戏剧性的是,创造这一历史性成果的八位作者,如今已全部离开谷歌。他们中有人创办独角兽公司估值超过50亿美元,有人被谷歌以27亿美元"回购",有人投身加密货币领域创造百亿市值,也有人在日本东京组建AI实验室挑战OpenAI。

聚是一团火,散是满天星。

这八位Transformer奠基人究竟是谁?他们如何创造出改变世界的技术?又为何集体告别谷歌?今天的他们,各自在何处书写着AI历史的新篇章?

第一章:Transformer诞生记——谷歌大脑里的六十天

1.1 自注意力的灵光一现

Transformer的故事始于一个名叫Jakob Uszkoreit的德国研究员。

2016年的某个午后,在谷歌山景城总部的会议室里,Uszkoreit陷入沉思。当时,自然语言处理领域的主流架构是循环神经网络(RNN)和其变体长短期记忆网络(LSTM)。这些架构虽然有效,但存在一个致命缺陷:无法并行计算。

"为什么机器必须一个字一个字地理解句子?"Uszkoreit自问,"人类阅读时,难道不是一眼就看到了整句话的所有单词,然后瞬间理解它们之间的关系吗?"

这个简单却深刻的问题,催生了"自注意力机制"(Self-Attention)的雏形。

Uszkoreit的想法是:与其让模型像RNN那样按顺序处理单词,不如让模型同时看到句子中的所有单词,并自动学习它们之间的关联强度。这种"全局视野"将彻底摆脱顺序处理的束缚,实现真正的并行计算。

2017年初,Uszkoreit开始与Ashish Vaswani和Niki Parmar合作,在谷歌大脑团队内部推进这一想法。他们最初的目标是改进谷歌翻译系统——谷歌最重要的产品之一。

1.2 八人团队的集结

随着项目的深入,越来越多的研究者被这个充满潜力的方向吸引。

Noam Shazeer,这位在谷歌工作了20年的"老谷歌",是最后一位加入团队的成员,却发挥了关键作用。Shazeer是谷歌最早期的员工之一,曾开发谷歌搜索的拼写纠正功能、谷歌广告系统PHIL、垃圾邮件检测系统等核心产品。他对分布式系统和模型训练有着极深的理解。

"我根据团队的基本想法重新编写了整个项目的代码实现,"Shazeer后来回忆道,"团队成员说我施展了'魔法'。"

事实上,Shazeer的贡献确实如同魔法。他不仅大幅提升了系统性能,还提出了多头注意力机制等关键创新,使Transformer从理论走向实用。

Llion Jones,论文标题的提出者,来自英国伯明翰。他本硕毕业于伯明翰大学,曾在YouTube工作三年,自学机器学习课程后于2015年加入谷歌研究院。论文标题"Attention Is All You Need"正是源于他——灵感来自披头士乐队的歌曲"All You Need Is Love"。

Aidan Gomez,当时还是多伦多大学的本科生,通过主动联系AI先驱Geoffrey Hinton进入谷歌大脑实习。他帮助建立了名为Tensor2Tensor的软件基础设施,使Transformer能在成千上万的GPU之间分配计算任务。

Lukasz Kaiser,TensorFlow的核心作者之一,谷歌大脑的资深研究员。他致力于将机器学习的所有数据集整合到一个完全多模态的模型中。

Illia Polosukhin,来自乌克兰,2014年加入谷歌,是八人中最年轻的成员之一。

至此,八人团队集结完毕:

姓名国籍/背景在谷歌时间角色定位Jakob Uszkoreit德国2008-2021自注意力机制提出者Ashish Vaswani印度裔美国人2016-2021论文一作,NLP专家Niki Parmar印度2015-2021唯一女性作者Noam Shazeer以色列裔美国人2001-2021谷歌20年老兵,工程魔术师Llion Jones英国2015-2023论文标题提出者Aidan Gomez加拿大2017(实习)Tensor2Tensor构建者Lukasz Kaiser法国/波兰2013-2021TensorFlow作者Illia Polosukhin乌克兰2014-2017最年轻的作者

1.3 六十天的疯狂冲刺

2017年春天,八人团队开始了疯狂的冲刺。

"我们每天工作14个小时,"Aidan Gomez回忆道,"编码、建设基础设施、运行实验。那段时间几乎没人睡觉。"

他们在名为Tensor2Tensor的开源框架上构建Transformer。这个框架可以在数千个GPU之间分配计算任务,使大规模训练成为可能。

奇迹在第十周出现了。当团队将非常深的仅解码器Transformer应用于语言建模任务时,性能立即达到了1.1比特/字符,远超当时主流的RNN架构(约1.26比特/字符)。

"这是早期非常成功、可以大规模扩展的架构之一,"Gomez说,"我们的大规模GPU集群带来了极高的性能。"

Transformer的优势立竿见影:

  • 并行计算:摆脱了RNN的顺序依赖,所有单词同时处理

  • 长距离依赖:自注意力机制天然捕捉远距离单词关系

  • 可扩展性:模型越大,性能越好,没有明显瓶颈

2017年5月19日,在神经信息处理系统大会(NeurIPS)的截止日期前,团队提交了论文。

然而,出乎意料的是,这篇改变世界的论文最初仅被安排在晚间海报展示环节,连口头报告的机会都没有获得。

"没人意识到这篇论文的重要性,"一位审稿人事后承认。

1.4 论文发布后的连锁反应

2017年6月12日,论文正式在arXiv发布。

起初,反响平平。但几个月后,情况开始改变。

2018年6月,OpenAI发布GPT-1,首次将Transformer应用于大规模无监督语言建模。

2018年10月,谷歌发布BERT,基于Transformer的双向编码器,在11项NLP任务上取得最先进结果。

2019年10月,OpenAI发布GPT-2,展示了惊人的文本生成能力。

2020年6月,OpenAI发布GPT-3,参数量达到1750亿,展现出惊人的涌现能力。

2022年11月,OpenAI发布ChatGPT,引爆全球AI应用浪潮。

而这一切的技术根基,都来自那篇11页的论文。

"要不是因为有了Transformers,我觉得我们走不到今天这一步,"深度学习先驱Geoffrey Hinton评价道。

第二章:八子去何方——从谷歌大脑到创业版图

Transformer论文发表后,八位作者的命运轨迹开始分化。但一个共同的趋势是:他们都离开了谷歌。

2021年至2023年间,八人陆续告别这家他们曾经效力的科技巨头。如今,他们分布在全球各地,在AI的各个角落继续书写传奇。

2.1 Ashish Vaswani与Niki Parmar:两次创业的印度搭档

Ashish Vaswani(阿希什·瓦斯瓦尼)是Transformer论文的第一作者,也是八人中最具学术背景的成员。2014年,他在南加州大学获得博士学位,2016年加入谷歌大脑团队。

Niki Parmar(尼基·帕尔玛)来自印度西部城市浦那。在加入谷歌之前,她也就读于南加州大学。2015年,Parmar加入谷歌大脑团队,成为八人中唯一的女性作者。

这对来自印度的搭档,在离开谷歌后开启了一段紧密相连的创业旅程。

第一次创业:Adept AI Labs(2022-2022)

2021年底,Vaswani和Parmar同时离开谷歌。2022年4月,他们与David Luan(曾任OpenAI工程副总裁)共同创办了Adept AI Labs。

Adept的愿景非常宏大:构建能够使用软件的通用人工智能。不同于ChatGPT这样的对话模型,Adept的AI可以直接操作Airtable、Photoshop、ATS、Tableau等工具,完成"生成本月阅读报告"等实际工作任务。

"Transformer应该是第一个对每个主要AI用例都能'正常工作'的神经网络,"Vaswani说,"这让我们相信:通用人工智能是完全有可能被实现的。"

Adept迅速获得资本市场青睐,累计融资超过4.15亿美元,估值超过10亿美元,跻身独角兽行列。

然而,仅仅8个月后,2022年12月,Vaswani和Parmar突然离开了Adept。

外界对此猜测纷纷。一种说法是,两位技术出身的创始人与CEO David Luan在 company vision上产生了分歧;另一种说法是,Vaswani和Parmar想追求更纯粹的AGI研究,而Adept更专注于企业应用。

第二次创业:Essential AI(2023至今)

离开Adept后,Vaswani和Parmar并没有停下脚步。2023年,他们共同创立了Essential AI。

这次,他们的目标更加务实:为企业构建软件,便于企业使用大型语言模型。

2023年5月,Essential AI获得由OpenAI投资者Thrive Capital领投的800万美元融资。

与Adept时期不同,Essential AI更加低调神秘。公司官网极为简洁,几乎没有公开产品信息。但从招聘信息看,Essential AI正在构建"下一代企业AI系统"。

现状:Vaswani担任Essential AI的CEO,Parmar担任联合创始人。两人继续并肩作战,在印度和美国之间穿梭。

2.2 Noam Shazeer:Character.AI与谷歌的"回购"传奇

Noam Shazeer(诺姆·沙泽尔)是八人中资历最深的"老谷歌"。2001年,他加入谷歌,参与了搜索拼写纠正功能的开发。此后20年,他在谷歌度过了整个职业生涯。

Shazeer的贡献遍及谷歌的多个核心产品:

  • 2001年:谷歌搜索拼写纠正

  • 2005年:谷歌广告系统PHIL技术主管

  • 2006年:谷歌第一个垃圾邮件检测ML系统

  • 2008年:新闻文章排名ML系统

  • 2017年:Transformer核心作者

在技术层面,Shazeer还提出了多项被广泛采用的技术:Adafactor优化器、Gated Linear Unit(GLU)、Multi Query Attention(MQA)机制,以及混合专家模型(MoE)的早期研究。

然而,2021年,这位谷歌20年老兵选择了离开。

"我对谷歌的官僚主义和风险规避感到失望,"Shazeer后来说。他开发的LaMDA聊天机器人在谷歌内部遭遇发布阻力,这成为他离职的导火索。

Character.AI的诞生与崛起

2021年,Shazeer与Daniel De Freitas(谷歌LaMDA项目的前同事)共同创立了Character.AI。

Character.AI的核心产品是AI虚拟角色聊天平台。用户可以创建各种不同人格的虚拟角色,与它们进行对话。从爱因斯坦到哈利·波特,从心理咨询师到编程助手,Character.AI的角色覆盖了各种类型。

2022年9月,Character.AI正式发布Beta版,迅速引爆市场。

"我们的目标是让每个人都能获得量身定制的、最好的教育,以及随时陪伴的朋友和导师,"Shazeer说,"真正实现技术普惠。"

Character.AI的增长速度惊人:

  • 仅用20多名员工,就服务了数百万用户

  • 累计融资近2亿美元

  • 估值超过10亿美元,成为独角兽

戏剧性回归:被谷歌27亿美元"回购"

2024年8月,一场戏剧性的收购发生了。

谷歌以约27亿美元的价格收购了Character.AI的核心团队。Shazeer和De Freitas,以及约30名研究人员,重返谷歌,加入DeepMind部门。

这笔交易被业界称为"反向人才收购"——谷歌花了27亿美元,不是为了收购Character.AI的产品或用户,而是为了重新获得两位创始人。

据透露,Shazeer个人入账7.5亿至10亿美元。

回归谷歌后,Shazeer被任命为Gemini AI项目的联合技术负责人,与Jeff Dean、Oriol Vinyals等谷歌传奇工程师并肩工作。

现状:Shazeer重返谷歌DeepMind,担任Gemini联合技术负责人,同时个人财富实现自由。

2.3 Aidan Gomez:Cohere的55亿美元征途

Aidan Gomez(艾丹·戈麦斯)是八人中最年轻、最具企业家气质的成员之一。

1995年,Gomez出生在加拿大。在多伦多大学求学期间,他对人工智能产生浓厚兴趣。通过主动联系AI先驱Geoffrey Hinton,他获得了进入谷歌大脑实习的机会。

"我变得痴迷,日夜不停地阅读论文,"Gomez回忆道,"我会带着一篇研究论文入睡。"

在谷歌大脑,Gomez与Lukasz Kaiser合作,参与了Tensor2Tensor框架的开发,为Transformer的诞生奠定了工程基础。

创立Cohere:为企业而生的大模型

2019年,Gomez与Nick Frosst、Ivan Zhang共同创立了Cohere。

与OpenAI面向消费者的策略不同,Cohere从一开始就专注于企业级AI服务。他们相信,大模型的商业价值不仅在于聊天机器人,更在于帮助企业自动化业务流程、提升生产力。

Cohere的发展路径稳健而迅速:

  • 成立一年,获得李飞飞、Hinton、Pieter Abbeel等多位AI科学家的注资

  • 后续获得思科、AMD、富士通等知名企业投资

  • 发布Command R、Command R+等企业级大模型

  • 估值达到55亿美元

"对于有钱的公司来说,扩大模型规模是一种低风险而且有效的做法,但也是极其低效的,"Gomez在2024年的一次访谈中说,"其他人还有其他的路可以选择。"

对AI行业的深刻洞察

作为Transformer作者和独角兽CEO,Gomez对AI行业有着独特见解:

关于价格战:"短期内,只靠模型API赚钱的AI公司将举步维艰,因为价格战正在将利润率压缩到极致。相反,应用层正变得越来越有吸引力。"

关于OpenAI:"我非常钦佩Ilya,扩大规模的想法很早就存在于他的脑海中。但随着Ilya等人的离职,OpenAI越来越像一家产品公司,他们对于AGI的长期追求似乎开始让位于面向消费者的产品。"

关于中国AI:2025年12月,Gomez在一次公开演讲中称,在与全球采用AI的经济体合作方面,美国和加拿大处于"难以置信的有利位置",而这使得美加在全球AI竞赛中"领先于中国"。

现状:Gomez担任Cohere的CEO,公司估值55亿美元,是企业级大模型领域的重要玩家。

2.4 Llion Jones:在日本挑战Transformer的"叛徒"

Llion Jones(利昂·琼斯)在八人中最晚离开谷歌。2023年7月,当他宣布离职时,Transformer八子已经全部告别谷歌。

Jones本硕毕业于英国伯明翰大学。在加入谷歌之前,他曾在YouTube工作三年,自学机器学习课程后,于2015年加入谷歌研究院。

Jones在谷歌工作了8年。论文中,他的名字恰好排在第五位——完全是随机排序的结果。

"就因为我的名字出现在了一篇论文上,有人就找我合影了!"Jones曾感慨道。

Sakana AI:日本版的OpenAI

离开谷歌后,Jones做出了一个出人意料的选择:他前往日本,与David Ha(前谷歌大脑东京团队负责人、前Stability AI研究部门主管)共同创立了Sakana AI。

"Sakana"在日语中意为"鱼"。公司的理念是:像鱼群一样,通过简单规则的个体协作,涌现复杂的集体智能。

Sakana AI的使命是挑战OpenAI和西方AI巨头:

  • 总部位于日本东京

  • 2024年1月,获得由Lux Capital领投的3000万美元种子轮融资

  • 2024年8月,获得谷歌、英伟达等参与的1.25亿美元A轮融资

  • 估值超过10亿美元,成为日本最贵的AI独角兽

"在谷歌,官僚主义已经发展到让我感觉什么都做不成的地步,"Jones说,"谷歌确实让我有种'被困住的感觉'。"

"背叛"Transformer:呼唤新架构

更具戏剧性的是,作为Transformer的发明者之一,Jones现在公开呼吁放弃Transformer,寻找新的AI架构。

2025年10月,Jones在旧金山TEDAI大会上发表了惊人言论:

"我不认为Transformer就是终点,也不相信我们只需要继续无限扩大规模。"

"现在的论文似乎回到了老路子:在同一个架构上,做无数微小的改动——比如调整normalization层的位置,或略微改良训练方式。"

Jones警告说,当前AI研究正在重蹈RNN的悲剧:"在Transformer出现后,所有关于RNN的研究突然之间显得白费了。而现在的论文,似乎又回到了老路子。"

"不停给马车打造各种好看的设备,却不知道拐弯看看路口是不是有飞船停靠。"

现状:Jones担任Sakana AI的CTO,在日本东京领导一支国际团队,致力于探索后Transformer时代的AI架构。

2.5 Jakob Uszkoreit:从AI到mRNA的跨界者

Jakob Uszkoreit(雅各布·乌斯克尔特)是Transformer的最初提出者,也是八人中最先离开谷歌的成员之一。

2008年,Uszkoreit加入谷歌,在谷歌大脑进行深度学习研究,组建了Google Assistant的语言理解团队,并在Google Translate早期工作时积累了丰富经验。

Uszkoreit是"自注意力机制"的最初提出者。那个改变AI历史的午后会议室思考,正是源于他的灵感。

Inceptive Labs:AI+生物科技的跨界创业

2021年7月,在谷歌工作了13年后,Uszkoreit选择离开。

这一次,他没有继续留在纯AI领域,而是做出了一个大胆的跨界选择:与斯坦福大学计算生物化学家、生物化学与物理学副教授Rhiju Das共同创办了Inceptive Labs。

Inceptive Labs的愿景非常独特:利用神经网络设计mRNA药物。

"Transformer架构不仅适用于语言,"Uszkoreit说,"它也可以学习生物分子的'语言',帮助我们设计更好的mRNA疫苗和疗法。"

Inceptive Labs致力于:

  • 使用深度学习设计RNA分子结构

  • 开发新一代mRNA疫苗

  • 探索AI在药物研发中的创新应用

2023年,Inceptive Labs完成由Andreessen Horowitz(a16z)领投的1亿美元融资。

现状:Uszkoreit担任Inceptive Labs的CEO,在AI+生物科技的前沿领域探索。

2.6 Lukasz Kaiser:唯一加入OpenAI的Transformer作者

Lukasz Kaiser(卢卡什·凯泽)是八人中唯一一位加入OpenAI的成员。

Kaiser是TensorFlow的核心作者之一,也是谷歌大脑的资深研究员。他在八人中的角色是构建底层基础设施——Tensor2Tensor框架使Transformer的大规模训练成为可能。

2021年中,Kaiser离开谷歌,加入OpenAI。

在OpenAI,Kaiser参与了多个关键项目:

  • GPT系列模型的研发

  • Q*项目(一个高度保密的AI项目)

2024年3月,在一次由黄仁勋主持的Transformer作者聚会中,Kaiser公开承认自己参与了Q*项目,是这项新技术的发明者之一。

当记者试图进一步探究Q*项目时,OpenAI的公关人员迅速介入,阻止了Kaiser的发言。这显示出该项目的敏感性和保密程度。

外界猜测,Q*可能是OpenAI实现AGI的关键技术,涉及推理能力的重大突破。

现状:Kaiser担任OpenAI技术人员,参与公司最核心的研发项目。

2.7 Illia Polosukhin:从Transformer到百亿区块链

Illia Polosukhin(伊利亚·波洛苏欣)是八人中最早离开谷歌的成员,也是转型最彻底的一位。

Polosukhin来自乌克兰哈尔科夫。2014年,他加入谷歌,是八人中最年轻的成员之一。

2017年,就在Transformer论文发表的同一年,Polosukhin做出了一个出人意料的选择:离开谷歌,投身区块链领域。

NEAR Protocol:百亿市值的区块链巨头

2017年,Polosukhin与Alexander Skidanov共同创立了NEAR Protocol。

NEAR是一个去中心化应用(DApp)平台,旨在解决以太坊的扩展性问题。它使用一种名为"Nightshade"的分片技术,实现了高吞吐量和低交易成本。

Polosukhin在NEAR中引入了他在谷歌学到的工程理念:

  • 用户友好的设计

  • 开发者优先的体验

  • 高性能的底层架构

NEAR的发展令人瞩目:

  • 市值约20亿美元

  • 累计融资约3.75亿美元

  • 成为以太坊之外最重要的智能合约平台之一

IronClaw:Transformer作者重造AI Agent

2025-2026年,Polosukhin重返AI领域,以一个令人意想不到的方式。

OpenClaw(业界称为"龙虾")是当时最火的AI Agent框架。但Polosukhin发现,它的安全状况堪称灾难:一键式远程代码执行、提示注入攻击、恶意技能窃取密码等漏洞层出不穷。

"这是我等了20年的技术,"Polosukhin说,"但再多的便利也不值得拿我自己或家人的安全和隐私去冒险。"

于是,他出手从零重构了安全版OpenClaw——IronClaw。

IronClaw使用Rust语言完全重写,建立了四层纵深防御:

  • Rust内存安全保证

  • WASM沙箱隔离

  • 加密凭证保险库(AES-256-GCM)

  • 可信执行环境(TEE)

IronClaw在GitHub上迅速获得4.6k星标,成为AI Agent安全领域的重要开源项目。

现状:Polosukhin担任NEAR Protocol联合创始人,同时领导IronClaw开源项目。

第三章:八子现状一览——聚是一团火,散是满天星

姓名现职位公司/机构估值/市值关键成就Ashish VaswaniCEOEssential AI未披露Adept AI创始人(10亿美元估值)Niki Parmar联合创始人Essential AI未披露两次创业,专注企业AINoam ShazeerGemini联合技术负责人谷歌DeepMind27亿美元"回购"Character.AI创始人,个人入账7.5-10亿美元Llion JonesCTOSakana AI10亿美元+日本最贵AI独角兽,公开呼吁放弃TransformerAidan GomezCEOCohere55亿美元企业级大模型独角兽Jakob UszkoreitCEOInceptive Labs1亿美元融资AI+生物科技跨界者Lukasz Kaiser技术人员OpenAIN/A唯一加入OpenAI的作者,参与Q*项目Illia Polosukhin联合创始人NEAR Protocol20亿美元市值百亿区块链巨头,IronClaw创始人

第四章:为什么他们都离开了谷歌?

Transformer八子集体告别谷歌,这绝非偶然。背后有着深刻的技术、商业和个人原因。

4.1 谷歌的"创新者困境"

Transformer诞生于谷歌,但引爆市场的却是OpenAI。这一悖论折射出大公司的"创新者困境"。

官僚主义的束缚:多位作者提到,谷歌的官僚主义和风险规避文化让他们感到"被困住"。

"谷歌确实让我有种'被困住的感觉',"Llion Jones说,"公司目前已经发展到一定规模,使得我无法继续进行自己想做的工作。"

Noam Shazeer也有类似感受:"我对谷歌的官僚主义和风险规避感到失望。"

产品化的阻力:谷歌拥有世界一流的研究团队,但将研究成果转化为产品却面临重重阻力。

Shazeer开发的LaMDA聊天机器人在谷歌内部遭遇发布阻力,这成为他离职的导火索。而OpenAI的ChatGPT,技术上并非革命性突破,却因为敢于发布而引爆市场。

薪酬与创新激励:谷歌给研究人员的薪酬虽高,但远低于创业成功的回报。

Noam Shazeer回归谷歌后,个人入账7.5-10亿美元。这笔财富,是他在谷歌工作20年都无法获得的。

4.2 AGI竞赛的吸引力

八位作者都深信通用人工智能(AGI)的可能性,而创业是实现这一愿景的更快路径。

"Transformer应该是第一个对每个主要AI用例都能'正常工作'的神经网络,"Ashish Vaswani说,"这让我们相信:通用人工智能是完全有可能被实现的。"

创业公司的敏捷性、决策速度、人才密度,都远超大公司。在AGI这场百年一遇的技术革命中,没有人愿意错过。

4.3 技术理想的追求

对有些人来说,离开谷歌是为了追求更纯粹的技术理想。

Llion Jones在日本创立Sakana AI,是为了探索后Transformer时代的AI架构。他公开"背叛"自己发明的技术,呼吁业界寻找新的方向。

Jakob Uszkoreit投身AI+生物科技,是为了用技术解决人类健康这一根本性问题。

Illia Polosukhin创立NEAR Protocol,是因为相信去中心化的力量。

第五章:Transformer的遗产与未来

5.1 改变世界的技术

Transformer的影响力已经远远超出自然语言处理领域:

自然语言处理:BERT、GPT、T5等模型彻底改变了NLP,机器翻译、文本生成、问答系统等任务达到人类水平。

计算机视觉:Vision Transformer(ViT)将Transformer应用于图像识别,在ImageNet等基准上超越CNN。

多模态模型:CLIP、DALL-E、Stable Diffusion等模型将文本和图像结合,实现文本生成图像、图像理解等能力。

科学发现:AlphaFold 2使用Transformer架构预测蛋白质结构,解决了生物学50年的难题。

代码生成:GitHub Copilot、Codex等工具使用Transformer生成代码,改变软件开发方式。

5.2 超越Transformer?

尽管Transformer取得了巨大成功,但八位作者中的多位已经公开呼吁寻找新架构。

Llion Jones的观点最具代表性:

"我不认为Transformer就是终点,也不相信我们只需要继续无限扩大规模。"

"在Transformer出现之前,RNN是主流。所有关于RNN的研究,在Transformer出现后突然之间显得白费了。现在的论文,似乎又回到了老路子:在同一个架构上,做无数微小的改动。"

潜在的新方向:

  • 状态空间模型(SSM):如Mamba架构,挑战Transformer的二次复杂度

  • 神经符号AI:结合神经网络和符号推理

  • 生物启发架构:从大脑结构中汲取灵感

5.3 八子的共同信念

尽管各奔东西,八位Transformer作者仍然保持着共同的信念:

AGI是可能的:他们都相信,通用人工智能不再是科幻,而是可预见未来的现实。

技术应该普惠:无论是Character.AI的"让每个人都能获得最好的教育",还是Cohere的企业级服务,还是NEAR的去中心化愿景,他们都致力于让AI技术惠及更多人。

创新需要自由:离开谷歌,是为了获得更大的创新自由。创业虽然风险更高,但回报也更大——不仅是财富,更是实现技术理想的机会。

结语:从一篇论文到满天星辰

2017年那个春天,八位谷歌员工不会想到,他们花了六十天写就的论文,将改变整个AI行业的走向。

今天,这八位奠基人已经分散在全球各地:

  • 有人在美国继续创业征程(Vaswani、Parmar、Gomez)

  • 有人被谷歌以27亿美元"回购"(Shazeer)

  • 有人在日本东京挑战OpenAI(Jones)

  • 有人在OpenAI参与最神秘的Q*项目(Kaiser)

  • 有人跨界生物科技(Uszkoreit)

  • 有人创造了百亿区块链巨头(Polosukhin)

聚是一团火,散是满天星。

Transformer的故事告诉我们:真正改变世界的创新,往往诞生于小团队的紧密协作;而创新者的归宿,永远是下一场冒险。

当未来的人们回望AI发展的历史,2017年6月12日,那个平平无奇的周一,将被铭记为一个时代的起点。

而那八个人的名字——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin——将永远镌刻在人工智能的丰碑上。

作者:玻色子

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

童叔不飙车
2026-04-09 20:43:06
单依纯武汉演唱会造型狂野的不忍直视!脚上那双鞋子起码有20厘米

单依纯武汉演唱会造型狂野的不忍直视!脚上那双鞋子起码有20厘米

小娱乐悠悠
2026-04-11 11:07:54
如果当初中国不改革开放,今天仍是全球最落后的国家之一吗?

如果当初中国不改革开放,今天仍是全球最落后的国家之一吗?

掠影后有感
2026-04-10 09:58:45
运营10年的卡牌游戏停运,战胜炉石传说咋就这么难?

运营10年的卡牌游戏停运,战胜炉石传说咋就这么难?

差评XPIN
2026-04-12 00:05:37
陪睡3年被公开羞辱!买超翻脸和邵晴切割,张嘉倪离婚翻盘成赢家

陪睡3年被公开羞辱!买超翻脸和邵晴切割,张嘉倪离婚翻盘成赢家

精彩背后的故事
2026-04-10 16:35:55
扫了共享单车上的码,00后小伙亏掉一套房的首付!一夜白头,自扇巴掌:没脸面对家人......

扫了共享单车上的码,00后小伙亏掉一套房的首付!一夜白头,自扇巴掌:没脸面对家人......

洪观新闻
2026-03-31 15:10:25
刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

老特有话说
2026-04-11 17:33:51
首盘吞蛋决胜盘送蛋,王欣瑜2-1逆转伦纳德晋级WTA250鲁昂资格赛次轮

首盘吞蛋决胜盘送蛋,王欣瑜2-1逆转伦纳德晋级WTA250鲁昂资格赛次轮

懂球帝
2026-04-11 21:08:47
赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

细品名人
2026-04-11 07:29:02
又一女星宣布离婚!恩爱结婚11年从未有孩子,背后原因不难猜

又一女星宣布离婚!恩爱结婚11年从未有孩子,背后原因不难猜

地理三体说
2026-04-11 22:06:12
停牌!翻倍牛股,将被ST

停牌!翻倍牛股,将被ST

中国基金报
2026-04-11 23:15:15
演员汤唯:我这辈子最正确的决定,就是在37岁高龄为大丈夫生孩子

演员汤唯:我这辈子最正确的决定,就是在37岁高龄为大丈夫生孩子

阿尢说历史
2026-04-11 08:25:00
2026高考,这12所大学已宣布扩招!最高扩招800人!家长考生了解

2026高考,这12所大学已宣布扩招!最高扩招800人!家长考生了解

高三倒计时
2026-04-11 19:07:32
安菲尔德奇迹没有第2次!克洛普:不可能了,4-0击败巴萨做不到的

安菲尔德奇迹没有第2次!克洛普:不可能了,4-0击败巴萨做不到的

云隐南山
2026-04-11 14:35:06
央八黄金档《醒来》上线!6人全是假身份太烧脑

央八黄金档《醒来》上线!6人全是假身份太烧脑

草莓解说体育
2026-04-11 16:01:22
我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

千秋文化
2026-04-06 19:51:23
两岸谈完,郑丽文临走前达成共识,岛内传出两种截然不同的声音

两岸谈完,郑丽文临走前达成共识,岛内传出两种截然不同的声音

信息风云
2026-04-12 03:14:41
17岁8000万欧,22岁只剩500万欧,23岁重生打破个人单赛季进球数

17岁8000万欧,22岁只剩500万欧,23岁重生打破个人单赛季进球数

体坛老球迷
2026-04-11 16:48:34
中国工科高校最新排名!哈工大退居第5,北邮第20,浙工大位居41

中国工科高校最新排名!哈工大退居第5,北邮第20,浙工大位居41

教育导向分享
2026-04-11 22:16:00
巴拿马总统寻求缓和与中国关系

巴拿马总统寻求缓和与中国关系

参考消息
2026-04-11 19:52:15
2026-04-12 05:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2834501文章数 6566关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
房产
本地
教育
公开课

艺术要闻

你绝对想不到,这个国家美女竟如此多!

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

教育要闻

阿图什西部计划志愿者访顾炎武家乡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版