智造人物 | Transformer的八位奠基人都去了哪里？|谷歌|人工智能|超级智能|知名企业|自然语言处理

分享至

来源：市场资讯

（来源：洪泰智造）

智造人物 | Transformer的八位奠基人都去了哪里？

作者：玻色子

导语：一篇论文，八个人，改变AI历史的六十天

2017年6月12日，一个看似平常的周一，八位谷歌员工向arXiv提交了一篇论文。论文标题借用了披头士乐队的经典歌曲——《Attention Is All You Need》。

彼时，没有人预料到，这篇仅有11页的论文将在未来数年内掀起席卷全球的人工智能风暴。它的核心贡献——Transformer架构，不仅彻底颠覆了自然语言处理领域，更成为ChatGPT、GPT-4、DALL-E、Stable Diffusion等划时代产品的技术基石。

截至2025年6月，这篇论文的被引次数已超过18万次，成为人工智能领域被引用最多的论文之一。

更具戏剧性的是，创造这一历史性成果的八位作者，如今已全部离开谷歌。他们中有人创办独角兽公司估值超过50亿美元，有人被谷歌以27亿美元"回购"，有人投身加密货币领域创造百亿市值，也有人在日本东京组建AI实验室挑战OpenAI。

聚是一团火，散是满天星。

这八位Transformer奠基人究竟是谁？他们如何创造出改变世界的技术？又为何集体告别谷歌？今天的他们，各自在何处书写着AI历史的新篇章？

第一章：Transformer诞生记——谷歌大脑里的六十天

1.1 自注意力的灵光一现

Transformer的故事始于一个名叫Jakob Uszkoreit的德国研究员。

2016年的某个午后，在谷歌山景城总部的会议室里，Uszkoreit陷入沉思。当时，自然语言处理领域的主流架构是循环神经网络（RNN）和其变体长短期记忆网络（LSTM）。这些架构虽然有效，但存在一个致命缺陷：无法并行计算。

"为什么机器必须一个字一个字地理解句子？"Uszkoreit自问，"人类阅读时，难道不是一眼就看到了整句话的所有单词，然后瞬间理解它们之间的关系吗？"

这个简单却深刻的问题，催生了"自注意力机制"（Self-Attention）的雏形。

Uszkoreit的想法是：与其让模型像RNN那样按顺序处理单词，不如让模型同时看到句子中的所有单词，并自动学习它们之间的关联强度。这种"全局视野"将彻底摆脱顺序处理的束缚，实现真正的并行计算。

2017年初，Uszkoreit开始与Ashish Vaswani和Niki Parmar合作，在谷歌大脑团队内部推进这一想法。他们最初的目标是改进谷歌翻译系统——谷歌最重要的产品之一。

1.2 八人团队的集结

随着项目的深入，越来越多的研究者被这个充满潜力的方向吸引。

Noam Shazeer，这位在谷歌工作了20年的"老谷歌"，是最后一位加入团队的成员，却发挥了关键作用。Shazeer是谷歌最早期的员工之一，曾开发谷歌搜索的拼写纠正功能、谷歌广告系统PHIL、垃圾邮件检测系统等核心产品。他对分布式系统和模型训练有着极深的理解。

"我根据团队的基本想法重新编写了整个项目的代码实现，"Shazeer后来回忆道，"团队成员说我施展了'魔法'。"

事实上，Shazeer的贡献确实如同魔法。他不仅大幅提升了系统性能，还提出了多头注意力机制等关键创新，使Transformer从理论走向实用。

Llion Jones，论文标题的提出者，来自英国伯明翰。他本硕毕业于伯明翰大学，曾在YouTube工作三年，自学机器学习课程后于2015年加入谷歌研究院。论文标题"Attention Is All You Need"正是源于他——灵感来自披头士乐队的歌曲"All You Need Is Love"。

Aidan Gomez，当时还是多伦多大学的本科生，通过主动联系AI先驱Geoffrey Hinton进入谷歌大脑实习。他帮助建立了名为Tensor2Tensor的软件基础设施，使Transformer能在成千上万的GPU之间分配计算任务。

Lukasz Kaiser，TensorFlow的核心作者之一，谷歌大脑的资深研究员。他致力于将机器学习的所有数据集整合到一个完全多模态的模型中。

Illia Polosukhin，来自乌克兰，2014年加入谷歌，是八人中最年轻的成员之一。

至此，八人团队集结完毕：

姓名国籍/背景在谷歌时间角色定位Jakob Uszkoreit德国2008-2021自注意力机制提出者Ashish Vaswani印度裔美国人2016-2021论文一作，NLP专家Niki Parmar印度2015-2021唯一女性作者Noam Shazeer以色列裔美国人2001-2021谷歌20年老兵，工程魔术师Llion Jones英国2015-2023论文标题提出者Aidan Gomez加拿大2017（实习）Tensor2Tensor构建者Lukasz Kaiser法国/波兰2013-2021TensorFlow作者Illia Polosukhin乌克兰2014-2017最年轻的作者

1.3 六十天的疯狂冲刺

2017年春天，八人团队开始了疯狂的冲刺。

"我们每天工作14个小时，"Aidan Gomez回忆道，"编码、建设基础设施、运行实验。那段时间几乎没人睡觉。"

他们在名为Tensor2Tensor的开源框架上构建Transformer。这个框架可以在数千个GPU之间分配计算任务，使大规模训练成为可能。

奇迹在第十周出现了。当团队将非常深的仅解码器Transformer应用于语言建模任务时，性能立即达到了1.1比特/字符，远超当时主流的RNN架构（约1.26比特/字符）。

"这是早期非常成功、可以大规模扩展的架构之一，"Gomez说，"我们的大规模GPU集群带来了极高的性能。"

Transformer的优势立竿见影：

并行计算：摆脱了RNN的顺序依赖，所有单词同时处理
长距离依赖：自注意力机制天然捕捉远距离单词关系
可扩展性：模型越大，性能越好，没有明显瓶颈

2017年5月19日，在神经信息处理系统大会（NeurIPS）的截止日期前，团队提交了论文。

然而，出乎意料的是，这篇改变世界的论文最初仅被安排在晚间海报展示环节，连口头报告的机会都没有获得。

"没人意识到这篇论文的重要性，"一位审稿人事后承认。

1.4 论文发布后的连锁反应

2017年6月12日，论文正式在arXiv发布。

起初，反响平平。但几个月后，情况开始改变。

2018年6月，OpenAI发布GPT-1，首次将Transformer应用于大规模无监督语言建模。

2018年10月，谷歌发布BERT，基于Transformer的双向编码器，在11项NLP任务上取得最先进结果。

2019年10月，OpenAI发布GPT-2，展示了惊人的文本生成能力。

2020年6月，OpenAI发布GPT-3，参数量达到1750亿，展现出惊人的涌现能力。

2022年11月，OpenAI发布ChatGPT，引爆全球AI应用浪潮。

而这一切的技术根基，都来自那篇11页的论文。

"要不是因为有了Transformers，我觉得我们走不到今天这一步，"深度学习先驱Geoffrey Hinton评价道。

第二章：八子去何方——从谷歌大脑到创业版图

Transformer论文发表后，八位作者的命运轨迹开始分化。但一个共同的趋势是：他们都离开了谷歌。

2021年至2023年间，八人陆续告别这家他们曾经效力的科技巨头。如今，他们分布在全球各地，在AI的各个角落继续书写传奇。

2.1 Ashish Vaswani与Niki Parmar：两次创业的印度搭档

Ashish Vaswani（阿希什·瓦斯瓦尼）是Transformer论文的第一作者，也是八人中最具学术背景的成员。2014年，他在南加州大学获得博士学位，2016年加入谷歌大脑团队。

Niki Parmar（尼基·帕尔玛）来自印度西部城市浦那。在加入谷歌之前，她也就读于南加州大学。2015年，Parmar加入谷歌大脑团队，成为八人中唯一的女性作者。

这对来自印度的搭档，在离开谷歌后开启了一段紧密相连的创业旅程。

第一次创业：Adept AI Labs（2022-2022）

2021年底，Vaswani和Parmar同时离开谷歌。2022年4月，他们与David Luan（曾任OpenAI工程副总裁）共同创办了Adept AI Labs。

Adept的愿景非常宏大：构建能够使用软件的通用人工智能。不同于ChatGPT这样的对话模型，Adept的AI可以直接操作Airtable、Photoshop、ATS、Tableau等工具，完成"生成本月阅读报告"等实际工作任务。

"Transformer应该是第一个对每个主要AI用例都能'正常工作'的神经网络，"Vaswani说，"这让我们相信：通用人工智能是完全有可能被实现的。"

Adept迅速获得资本市场青睐，累计融资超过4.15亿美元，估值超过10亿美元，跻身独角兽行列。

然而，仅仅8个月后，2022年12月，Vaswani和Parmar突然离开了Adept。

外界对此猜测纷纷。一种说法是，两位技术出身的创始人与CEO David Luan在 company vision上产生了分歧；另一种说法是，Vaswani和Parmar想追求更纯粹的AGI研究，而Adept更专注于企业应用。

第二次创业：Essential AI（2023至今）

离开Adept后，Vaswani和Parmar并没有停下脚步。2023年，他们共同创立了Essential AI。

这次，他们的目标更加务实：为企业构建软件，便于企业使用大型语言模型。

2023年5月，Essential AI获得由OpenAI投资者Thrive Capital领投的800万美元融资。

与Adept时期不同，Essential AI更加低调神秘。公司官网极为简洁，几乎没有公开产品信息。但从招聘信息看，Essential AI正在构建"下一代企业AI系统"。

现状：Vaswani担任Essential AI的CEO，Parmar担任联合创始人。两人继续并肩作战，在印度和美国之间穿梭。

2.2 Noam Shazeer：Character.AI与谷歌的"回购"传奇

Noam Shazeer（诺姆·沙泽尔）是八人中资历最深的"老谷歌"。2001年，他加入谷歌，参与了搜索拼写纠正功能的开发。此后20年，他在谷歌度过了整个职业生涯。

Shazeer的贡献遍及谷歌的多个核心产品：

2001年：谷歌搜索拼写纠正
2005年：谷歌广告系统PHIL技术主管
2006年：谷歌第一个垃圾邮件检测ML系统
2008年：新闻文章排名ML系统
2017年：Transformer核心作者

在技术层面，Shazeer还提出了多项被广泛采用的技术：Adafactor优化器、Gated Linear Unit（GLU）、Multi Query Attention（MQA）机制，以及混合专家模型（MoE）的早期研究。

然而，2021年，这位谷歌20年老兵选择了离开。

"我对谷歌的官僚主义和风险规避感到失望，"Shazeer后来说。他开发的LaMDA聊天机器人在谷歌内部遭遇发布阻力，这成为他离职的导火索。

Character.AI的诞生与崛起

2021年，Shazeer与Daniel De Freitas（谷歌LaMDA项目的前同事）共同创立了Character.AI。

Character.AI的核心产品是AI虚拟角色聊天平台。用户可以创建各种不同人格的虚拟角色，与它们进行对话。从爱因斯坦到哈利·波特，从心理咨询师到编程助手，Character.AI的角色覆盖了各种类型。

2022年9月，Character.AI正式发布Beta版，迅速引爆市场。

"我们的目标是让每个人都能获得量身定制的、最好的教育，以及随时陪伴的朋友和导师，"Shazeer说，"真正实现技术普惠。"

Character.AI的增长速度惊人：

仅用20多名员工，就服务了数百万用户
累计融资近2亿美元
估值超过10亿美元，成为独角兽

戏剧性回归：被谷歌27亿美元"回购"

2024年8月，一场戏剧性的收购发生了。

谷歌以约27亿美元的价格收购了Character.AI的核心团队。Shazeer和De Freitas，以及约30名研究人员，重返谷歌，加入DeepMind部门。

这笔交易被业界称为"反向人才收购"——谷歌花了27亿美元，不是为了收购Character.AI的产品或用户，而是为了重新获得两位创始人。

据透露，Shazeer个人入账7.5亿至10亿美元。

回归谷歌后，Shazeer被任命为Gemini AI项目的联合技术负责人，与Jeff Dean、Oriol Vinyals等谷歌传奇工程师并肩工作。

现状：Shazeer重返谷歌DeepMind，担任Gemini联合技术负责人，同时个人财富实现自由。

2.3 Aidan Gomez：Cohere的55亿美元征途

Aidan Gomez（艾丹·戈麦斯）是八人中最年轻、最具企业家气质的成员之一。

1995年，Gomez出生在加拿大。在多伦多大学求学期间，他对人工智能产生浓厚兴趣。通过主动联系AI先驱Geoffrey Hinton，他获得了进入谷歌大脑实习的机会。

"我变得痴迷，日夜不停地阅读论文，"Gomez回忆道，"我会带着一篇研究论文入睡。"

在谷歌大脑，Gomez与Lukasz Kaiser合作，参与了Tensor2Tensor框架的开发，为Transformer的诞生奠定了工程基础。

创立Cohere：为企业而生的大模型

2019年，Gomez与Nick Frosst、Ivan Zhang共同创立了Cohere。

与OpenAI面向消费者的策略不同，Cohere从一开始就专注于企业级AI服务。他们相信，大模型的商业价值不仅在于聊天机器人，更在于帮助企业自动化业务流程、提升生产力。

Cohere的发展路径稳健而迅速：

成立一年，获得李飞飞、Hinton、Pieter Abbeel等多位AI科学家的注资
后续获得思科、AMD、富士通等知名企业投资
发布Command R、Command R+等企业级大模型
估值达到55亿美元

"对于有钱的公司来说，扩大模型规模是一种低风险而且有效的做法，但也是极其低效的，"Gomez在2024年的一次访谈中说，"其他人还有其他的路可以选择。"

对AI行业的深刻洞察

作为Transformer作者和独角兽CEO，Gomez对AI行业有着独特见解：

关于价格战："短期内，只靠模型API赚钱的AI公司将举步维艰，因为价格战正在将利润率压缩到极致。相反，应用层正变得越来越有吸引力。"

关于OpenAI："我非常钦佩Ilya，扩大规模的想法很早就存在于他的脑海中。但随着Ilya等人的离职，OpenAI越来越像一家产品公司，他们对于AGI的长期追求似乎开始让位于面向消费者的产品。"

关于中国AI：2025年12月，Gomez在一次公开演讲中称，在与全球采用AI的经济体合作方面，美国和加拿大处于"难以置信的有利位置"，而这使得美加在全球AI竞赛中"领先于中国"。

现状：Gomez担任Cohere的CEO，公司估值55亿美元，是企业级大模型领域的重要玩家。

2.4 Llion Jones：在日本挑战Transformer的"叛徒"

Llion Jones（利昂·琼斯）在八人中最晚离开谷歌。2023年7月，当他宣布离职时，Transformer八子已经全部告别谷歌。

Jones本硕毕业于英国伯明翰大学。在加入谷歌之前，他曾在YouTube工作三年，自学机器学习课程后，于2015年加入谷歌研究院。

Jones在谷歌工作了8年。论文中，他的名字恰好排在第五位——完全是随机排序的结果。

"就因为我的名字出现在了一篇论文上，有人就找我合影了！"Jones曾感慨道。

Sakana AI：日本版的OpenAI

离开谷歌后，Jones做出了一个出人意料的选择：他前往日本，与David Ha（前谷歌大脑东京团队负责人、前Stability AI研究部门主管）共同创立了Sakana AI。

"Sakana"在日语中意为"鱼"。公司的理念是：像鱼群一样，通过简单规则的个体协作，涌现复杂的集体智能。

Sakana AI的使命是挑战OpenAI和西方AI巨头：

总部位于日本东京
2024年1月，获得由Lux Capital领投的3000万美元种子轮融资
2024年8月，获得谷歌、英伟达等参与的1.25亿美元A轮融资
估值超过10亿美元，成为日本最贵的AI独角兽

"在谷歌，官僚主义已经发展到让我感觉什么都做不成的地步，"Jones说，"谷歌确实让我有种'被困住的感觉'。"

"背叛"Transformer：呼唤新架构

更具戏剧性的是，作为Transformer的发明者之一，Jones现在公开呼吁放弃Transformer，寻找新的AI架构。

2025年10月，Jones在旧金山TEDAI大会上发表了惊人言论：

"我不认为Transformer就是终点，也不相信我们只需要继续无限扩大规模。"

"现在的论文似乎回到了老路子：在同一个架构上，做无数微小的改动——比如调整normalization层的位置，或略微改良训练方式。"

Jones警告说，当前AI研究正在重蹈RNN的悲剧："在Transformer出现后，所有关于RNN的研究突然之间显得白费了。而现在的论文，似乎又回到了老路子。"

"不停给马车打造各种好看的设备，却不知道拐弯看看路口是不是有飞船停靠。"

现状：Jones担任Sakana AI的CTO，在日本东京领导一支国际团队，致力于探索后Transformer时代的AI架构。

2.5 Jakob Uszkoreit：从AI到mRNA的跨界者

Jakob Uszkoreit（雅各布·乌斯克尔特）是Transformer的最初提出者，也是八人中最先离开谷歌的成员之一。

2008年，Uszkoreit加入谷歌，在谷歌大脑进行深度学习研究，组建了Google Assistant的语言理解团队，并在Google Translate早期工作时积累了丰富经验。

Uszkoreit是"自注意力机制"的最初提出者。那个改变AI历史的午后会议室思考，正是源于他的灵感。

Inceptive Labs：AI+生物科技的跨界创业

2021年7月，在谷歌工作了13年后，Uszkoreit选择离开。

这一次，他没有继续留在纯AI领域，而是做出了一个大胆的跨界选择：与斯坦福大学计算生物化学家、生物化学与物理学副教授Rhiju Das共同创办了Inceptive Labs。

Inceptive Labs的愿景非常独特：利用神经网络设计mRNA药物。

"Transformer架构不仅适用于语言，"Uszkoreit说，"它也可以学习生物分子的'语言'，帮助我们设计更好的mRNA疫苗和疗法。"

Inceptive Labs致力于：

使用深度学习设计RNA分子结构
开发新一代mRNA疫苗
探索AI在药物研发中的创新应用

2023年，Inceptive Labs完成由Andreessen Horowitz（a16z）领投的1亿美元融资。

现状：Uszkoreit担任Inceptive Labs的CEO，在AI+生物科技的前沿领域探索。

2.6 Lukasz Kaiser：唯一加入OpenAI的Transformer作者

Lukasz Kaiser（卢卡什·凯泽）是八人中唯一一位加入OpenAI的成员。

Kaiser是TensorFlow的核心作者之一，也是谷歌大脑的资深研究员。他在八人中的角色是构建底层基础设施——Tensor2Tensor框架使Transformer的大规模训练成为可能。

2021年中，Kaiser离开谷歌，加入OpenAI。

在OpenAI，Kaiser参与了多个关键项目：

GPT系列模型的研发
Q*项目（一个高度保密的AI项目）

2024年3月，在一次由黄仁勋主持的Transformer作者聚会中，Kaiser公开承认自己参与了Q*项目，是这项新技术的发明者之一。

当记者试图进一步探究Q*项目时，OpenAI的公关人员迅速介入，阻止了Kaiser的发言。这显示出该项目的敏感性和保密程度。

外界猜测，Q*可能是OpenAI实现AGI的关键技术，涉及推理能力的重大突破。

现状：Kaiser担任OpenAI技术人员，参与公司最核心的研发项目。

2.7 Illia Polosukhin：从Transformer到百亿区块链

Illia Polosukhin（伊利亚·波洛苏欣）是八人中最早离开谷歌的成员，也是转型最彻底的一位。

Polosukhin来自乌克兰哈尔科夫。2014年，他加入谷歌，是八人中最年轻的成员之一。

2017年，就在Transformer论文发表的同一年，Polosukhin做出了一个出人意料的选择：离开谷歌，投身区块链领域。

NEAR Protocol：百亿市值的区块链巨头

2017年，Polosukhin与Alexander Skidanov共同创立了NEAR Protocol。

NEAR是一个去中心化应用（DApp）平台，旨在解决以太坊的扩展性问题。它使用一种名为"Nightshade"的分片技术，实现了高吞吐量和低交易成本。

Polosukhin在NEAR中引入了他在谷歌学到的工程理念：

用户友好的设计
开发者优先的体验
高性能的底层架构

NEAR的发展令人瞩目：

市值约20亿美元
累计融资约3.75亿美元
成为以太坊之外最重要的智能合约平台之一

IronClaw：Transformer作者重造AI Agent

2025-2026年，Polosukhin重返AI领域，以一个令人意想不到的方式。

OpenClaw（业界称为"龙虾"）是当时最火的AI Agent框架。但Polosukhin发现，它的安全状况堪称灾难：一键式远程代码执行、提示注入攻击、恶意技能窃取密码等漏洞层出不穷。

"这是我等了20年的技术，"Polosukhin说，"但再多的便利也不值得拿我自己或家人的安全和隐私去冒险。"

于是，他出手从零重构了安全版OpenClaw——IronClaw。

IronClaw使用Rust语言完全重写，建立了四层纵深防御：

Rust内存安全保证
WASM沙箱隔离
加密凭证保险库（AES-256-GCM）
可信执行环境（TEE）

IronClaw在GitHub上迅速获得4.6k星标，成为AI Agent安全领域的重要开源项目。

现状：Polosukhin担任NEAR Protocol联合创始人，同时领导IronClaw开源项目。

第三章：八子现状一览——聚是一团火，散是满天星

姓名现职位公司/机构估值/市值关键成就Ashish VaswaniCEOEssential AI未披露Adept AI创始人（10亿美元估值）Niki Parmar联合创始人Essential AI未披露两次创业，专注企业AINoam ShazeerGemini联合技术负责人谷歌DeepMind27亿美元"回购"Character.AI创始人，个人入账7.5-10亿美元Llion JonesCTOSakana AI10亿美元+日本最贵AI独角兽，公开呼吁放弃TransformerAidan GomezCEOCohere55亿美元企业级大模型独角兽Jakob UszkoreitCEOInceptive Labs1亿美元融资AI+生物科技跨界者Lukasz Kaiser技术人员OpenAIN/A唯一加入OpenAI的作者，参与Q*项目Illia Polosukhin联合创始人NEAR Protocol20亿美元市值百亿区块链巨头，IronClaw创始人

第四章：为什么他们都离开了谷歌？

Transformer八子集体告别谷歌，这绝非偶然。背后有着深刻的技术、商业和个人原因。

4.1 谷歌的"创新者困境"

Transformer诞生于谷歌，但引爆市场的却是OpenAI。这一悖论折射出大公司的"创新者困境"。

官僚主义的束缚：多位作者提到，谷歌的官僚主义和风险规避文化让他们感到"被困住"。

"谷歌确实让我有种'被困住的感觉'，"Llion Jones说，"公司目前已经发展到一定规模，使得我无法继续进行自己想做的工作。"

Noam Shazeer也有类似感受："我对谷歌的官僚主义和风险规避感到失望。"

产品化的阻力：谷歌拥有世界一流的研究团队，但将研究成果转化为产品却面临重重阻力。

Shazeer开发的LaMDA聊天机器人在谷歌内部遭遇发布阻力，这成为他离职的导火索。而OpenAI的ChatGPT，技术上并非革命性突破，却因为敢于发布而引爆市场。

薪酬与创新激励：谷歌给研究人员的薪酬虽高，但远低于创业成功的回报。

Noam Shazeer回归谷歌后，个人入账7.5-10亿美元。这笔财富，是他在谷歌工作20年都无法获得的。

4.2 AGI竞赛的吸引力

八位作者都深信通用人工智能（AGI）的可能性，而创业是实现这一愿景的更快路径。

"Transformer应该是第一个对每个主要AI用例都能'正常工作'的神经网络，"Ashish Vaswani说，"这让我们相信：通用人工智能是完全有可能被实现的。"

创业公司的敏捷性、决策速度、人才密度，都远超大公司。在AGI这场百年一遇的技术革命中，没有人愿意错过。

4.3 技术理想的追求

对有些人来说，离开谷歌是为了追求更纯粹的技术理想。

Llion Jones在日本创立Sakana AI，是为了探索后Transformer时代的AI架构。他公开"背叛"自己发明的技术，呼吁业界寻找新的方向。

Jakob Uszkoreit投身AI+生物科技，是为了用技术解决人类健康这一根本性问题。

Illia Polosukhin创立NEAR Protocol，是因为相信去中心化的力量。

第五章：Transformer的遗产与未来

5.1 改变世界的技术

Transformer的影响力已经远远超出自然语言处理领域：

自然语言处理：BERT、GPT、T5等模型彻底改变了NLP，机器翻译、文本生成、问答系统等任务达到人类水平。

计算机视觉：Vision Transformer（ViT）将Transformer应用于图像识别，在ImageNet等基准上超越CNN。

多模态模型：CLIP、DALL-E、Stable Diffusion等模型将文本和图像结合，实现文本生成图像、图像理解等能力。

科学发现：AlphaFold 2使用Transformer架构预测蛋白质结构，解决了生物学50年的难题。

代码生成：GitHub Copilot、Codex等工具使用Transformer生成代码，改变软件开发方式。

5.2 超越Transformer？

尽管Transformer取得了巨大成功，但八位作者中的多位已经公开呼吁寻找新架构。

Llion Jones的观点最具代表性：

"我不认为Transformer就是终点，也不相信我们只需要继续无限扩大规模。"

"在Transformer出现之前，RNN是主流。所有关于RNN的研究，在Transformer出现后突然之间显得白费了。现在的论文，似乎又回到了老路子：在同一个架构上，做无数微小的改动。"

潜在的新方向：

状态空间模型（SSM）：如Mamba架构，挑战Transformer的二次复杂度
神经符号AI：结合神经网络和符号推理
生物启发架构：从大脑结构中汲取灵感

5.3 八子的共同信念

尽管各奔东西，八位Transformer作者仍然保持着共同的信念：

AGI是可能的：他们都相信，通用人工智能不再是科幻，而是可预见未来的现实。

技术应该普惠：无论是Character.AI的"让每个人都能获得最好的教育"，还是Cohere的企业级服务，还是NEAR的去中心化愿景，他们都致力于让AI技术惠及更多人。

创新需要自由：离开谷歌，是为了获得更大的创新自由。创业虽然风险更高，但回报也更大——不仅是财富，更是实现技术理想的机会。

结语：从一篇论文到满天星辰

2017年那个春天，八位谷歌员工不会想到，他们花了六十天写就的论文，将改变整个AI行业的走向。

今天，这八位奠基人已经分散在全球各地：

有人在美国继续创业征程（Vaswani、Parmar、Gomez）
有人被谷歌以27亿美元"回购"（Shazeer）
有人在日本东京挑战OpenAI（Jones）
有人在OpenAI参与最神秘的Q*项目（Kaiser）
有人跨界生物科技（Uszkoreit）
有人创造了百亿区块链巨头（Polosukhin）

聚是一团火，散是满天星。

Transformer的故事告诉我们：真正改变世界的创新，往往诞生于小团队的紧密协作；而创新者的归宿，永远是下一场冒险。

当未来的人们回望AI发展的历史，2017年6月12日，那个平平无奇的周一，将被铭记为一个时代的起点。

而那八个人的名字——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin——将永远镌刻在人工智能的丰碑上。

作者：玻色子

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.