来源:市场资讯
(来源:洪泰智造)
智造人物 | Transformer的八位奠基人都去了哪里?
作者:玻色子
导语:一篇论文,八个人,改变AI历史的六十天
2017年6月12日,一个看似平常的周一,八位谷歌员工向arXiv提交了一篇论文。论文标题借用了披头士乐队的经典歌曲——《Attention Is All You Need》。
彼时,没有人预料到,这篇仅有11页的论文将在未来数年内掀起席卷全球的人工智能风暴。它的核心贡献——Transformer架构,不仅彻底颠覆了自然语言处理领域,更成为ChatGPT、GPT-4、DALL-E、Stable Diffusion等划时代产品的技术基石。
截至2025年6月,这篇论文的被引次数已超过18万次,成为人工智能领域被引用最多的论文之一。
更具戏剧性的是,创造这一历史性成果的八位作者,如今已全部离开谷歌。他们中有人创办独角兽公司估值超过50亿美元,有人被谷歌以27亿美元"回购",有人投身加密货币领域创造百亿市值,也有人在日本东京组建AI实验室挑战OpenAI。
聚是一团火,散是满天星。
这八位Transformer奠基人究竟是谁?他们如何创造出改变世界的技术?又为何集体告别谷歌?今天的他们,各自在何处书写着AI历史的新篇章?
第一章:Transformer诞生记——谷歌大脑里的六十天
1.1 自注意力的灵光一现
Transformer的故事始于一个名叫Jakob Uszkoreit的德国研究员。
2016年的某个午后,在谷歌山景城总部的会议室里,Uszkoreit陷入沉思。当时,自然语言处理领域的主流架构是循环神经网络(RNN)和其变体长短期记忆网络(LSTM)。这些架构虽然有效,但存在一个致命缺陷:无法并行计算。
"为什么机器必须一个字一个字地理解句子?"Uszkoreit自问,"人类阅读时,难道不是一眼就看到了整句话的所有单词,然后瞬间理解它们之间的关系吗?"
这个简单却深刻的问题,催生了"自注意力机制"(Self-Attention)的雏形。
Uszkoreit的想法是:与其让模型像RNN那样按顺序处理单词,不如让模型同时看到句子中的所有单词,并自动学习它们之间的关联强度。这种"全局视野"将彻底摆脱顺序处理的束缚,实现真正的并行计算。
2017年初,Uszkoreit开始与Ashish Vaswani和Niki Parmar合作,在谷歌大脑团队内部推进这一想法。他们最初的目标是改进谷歌翻译系统——谷歌最重要的产品之一。
1.2 八人团队的集结
随着项目的深入,越来越多的研究者被这个充满潜力的方向吸引。
Noam Shazeer,这位在谷歌工作了20年的"老谷歌",是最后一位加入团队的成员,却发挥了关键作用。Shazeer是谷歌最早期的员工之一,曾开发谷歌搜索的拼写纠正功能、谷歌广告系统PHIL、垃圾邮件检测系统等核心产品。他对分布式系统和模型训练有着极深的理解。
"我根据团队的基本想法重新编写了整个项目的代码实现,"Shazeer后来回忆道,"团队成员说我施展了'魔法'。"
事实上,Shazeer的贡献确实如同魔法。他不仅大幅提升了系统性能,还提出了多头注意力机制等关键创新,使Transformer从理论走向实用。
Llion Jones,论文标题的提出者,来自英国伯明翰。他本硕毕业于伯明翰大学,曾在YouTube工作三年,自学机器学习课程后于2015年加入谷歌研究院。论文标题"Attention Is All You Need"正是源于他——灵感来自披头士乐队的歌曲"All You Need Is Love"。
Aidan Gomez,当时还是多伦多大学的本科生,通过主动联系AI先驱Geoffrey Hinton进入谷歌大脑实习。他帮助建立了名为Tensor2Tensor的软件基础设施,使Transformer能在成千上万的GPU之间分配计算任务。
Lukasz Kaiser,TensorFlow的核心作者之一,谷歌大脑的资深研究员。他致力于将机器学习的所有数据集整合到一个完全多模态的模型中。
Illia Polosukhin,来自乌克兰,2014年加入谷歌,是八人中最年轻的成员之一。
至此,八人团队集结完毕:
姓名国籍/背景在谷歌时间角色定位Jakob Uszkoreit德国2008-2021自注意力机制提出者Ashish Vaswani印度裔美国人2016-2021论文一作,NLP专家Niki Parmar印度2015-2021唯一女性作者Noam Shazeer以色列裔美国人2001-2021谷歌20年老兵,工程魔术师Llion Jones英国2015-2023论文标题提出者Aidan Gomez加拿大2017(实习)Tensor2Tensor构建者Lukasz Kaiser法国/波兰2013-2021TensorFlow作者Illia Polosukhin乌克兰2014-2017最年轻的作者
1.3 六十天的疯狂冲刺
2017年春天,八人团队开始了疯狂的冲刺。
"我们每天工作14个小时,"Aidan Gomez回忆道,"编码、建设基础设施、运行实验。那段时间几乎没人睡觉。"
他们在名为Tensor2Tensor的开源框架上构建Transformer。这个框架可以在数千个GPU之间分配计算任务,使大规模训练成为可能。
奇迹在第十周出现了。当团队将非常深的仅解码器Transformer应用于语言建模任务时,性能立即达到了1.1比特/字符,远超当时主流的RNN架构(约1.26比特/字符)。
"这是早期非常成功、可以大规模扩展的架构之一,"Gomez说,"我们的大规模GPU集群带来了极高的性能。"
Transformer的优势立竿见影:
并行计算:摆脱了RNN的顺序依赖,所有单词同时处理
长距离依赖:自注意力机制天然捕捉远距离单词关系
可扩展性:模型越大,性能越好,没有明显瓶颈
2017年5月19日,在神经信息处理系统大会(NeurIPS)的截止日期前,团队提交了论文。
然而,出乎意料的是,这篇改变世界的论文最初仅被安排在晚间海报展示环节,连口头报告的机会都没有获得。
"没人意识到这篇论文的重要性,"一位审稿人事后承认。
1.4 论文发布后的连锁反应
2017年6月12日,论文正式在arXiv发布。
起初,反响平平。但几个月后,情况开始改变。
2018年6月,OpenAI发布GPT-1,首次将Transformer应用于大规模无监督语言建模。
2018年10月,谷歌发布BERT,基于Transformer的双向编码器,在11项NLP任务上取得最先进结果。
2019年10月,OpenAI发布GPT-2,展示了惊人的文本生成能力。
2020年6月,OpenAI发布GPT-3,参数量达到1750亿,展现出惊人的涌现能力。
2022年11月,OpenAI发布ChatGPT,引爆全球AI应用浪潮。
而这一切的技术根基,都来自那篇11页的论文。
"要不是因为有了Transformers,我觉得我们走不到今天这一步,"深度学习先驱Geoffrey Hinton评价道。
第二章:八子去何方——从谷歌大脑到创业版图
Transformer论文发表后,八位作者的命运轨迹开始分化。但一个共同的趋势是:他们都离开了谷歌。
2021年至2023年间,八人陆续告别这家他们曾经效力的科技巨头。如今,他们分布在全球各地,在AI的各个角落继续书写传奇。
2.1 Ashish Vaswani与Niki Parmar:两次创业的印度搭档
Ashish Vaswani(阿希什·瓦斯瓦尼)是Transformer论文的第一作者,也是八人中最具学术背景的成员。2014年,他在南加州大学获得博士学位,2016年加入谷歌大脑团队。
Niki Parmar(尼基·帕尔玛)来自印度西部城市浦那。在加入谷歌之前,她也就读于南加州大学。2015年,Parmar加入谷歌大脑团队,成为八人中唯一的女性作者。
这对来自印度的搭档,在离开谷歌后开启了一段紧密相连的创业旅程。
第一次创业:Adept AI Labs(2022-2022)
2021年底,Vaswani和Parmar同时离开谷歌。2022年4月,他们与David Luan(曾任OpenAI工程副总裁)共同创办了Adept AI Labs。
Adept的愿景非常宏大:构建能够使用软件的通用人工智能。不同于ChatGPT这样的对话模型,Adept的AI可以直接操作Airtable、Photoshop、ATS、Tableau等工具,完成"生成本月阅读报告"等实际工作任务。
"Transformer应该是第一个对每个主要AI用例都能'正常工作'的神经网络,"Vaswani说,"这让我们相信:通用人工智能是完全有可能被实现的。"
Adept迅速获得资本市场青睐,累计融资超过4.15亿美元,估值超过10亿美元,跻身独角兽行列。
然而,仅仅8个月后,2022年12月,Vaswani和Parmar突然离开了Adept。
外界对此猜测纷纷。一种说法是,两位技术出身的创始人与CEO David Luan在 company vision上产生了分歧;另一种说法是,Vaswani和Parmar想追求更纯粹的AGI研究,而Adept更专注于企业应用。
第二次创业:Essential AI(2023至今)
离开Adept后,Vaswani和Parmar并没有停下脚步。2023年,他们共同创立了Essential AI。
这次,他们的目标更加务实:为企业构建软件,便于企业使用大型语言模型。
2023年5月,Essential AI获得由OpenAI投资者Thrive Capital领投的800万美元融资。
与Adept时期不同,Essential AI更加低调神秘。公司官网极为简洁,几乎没有公开产品信息。但从招聘信息看,Essential AI正在构建"下一代企业AI系统"。
现状:Vaswani担任Essential AI的CEO,Parmar担任联合创始人。两人继续并肩作战,在印度和美国之间穿梭。
2.2 Noam Shazeer:Character.AI与谷歌的"回购"传奇
Noam Shazeer(诺姆·沙泽尔)是八人中资历最深的"老谷歌"。2001年,他加入谷歌,参与了搜索拼写纠正功能的开发。此后20年,他在谷歌度过了整个职业生涯。
Shazeer的贡献遍及谷歌的多个核心产品:
2001年:谷歌搜索拼写纠正
2005年:谷歌广告系统PHIL技术主管
2006年:谷歌第一个垃圾邮件检测ML系统
2008年:新闻文章排名ML系统
2017年:Transformer核心作者
在技术层面,Shazeer还提出了多项被广泛采用的技术:Adafactor优化器、Gated Linear Unit(GLU)、Multi Query Attention(MQA)机制,以及混合专家模型(MoE)的早期研究。
然而,2021年,这位谷歌20年老兵选择了离开。
"我对谷歌的官僚主义和风险规避感到失望,"Shazeer后来说。他开发的LaMDA聊天机器人在谷歌内部遭遇发布阻力,这成为他离职的导火索。
Character.AI的诞生与崛起
2021年,Shazeer与Daniel De Freitas(谷歌LaMDA项目的前同事)共同创立了Character.AI。
Character.AI的核心产品是AI虚拟角色聊天平台。用户可以创建各种不同人格的虚拟角色,与它们进行对话。从爱因斯坦到哈利·波特,从心理咨询师到编程助手,Character.AI的角色覆盖了各种类型。
2022年9月,Character.AI正式发布Beta版,迅速引爆市场。
"我们的目标是让每个人都能获得量身定制的、最好的教育,以及随时陪伴的朋友和导师,"Shazeer说,"真正实现技术普惠。"
Character.AI的增长速度惊人:
仅用20多名员工,就服务了数百万用户
累计融资近2亿美元
估值超过10亿美元,成为独角兽
戏剧性回归:被谷歌27亿美元"回购"
2024年8月,一场戏剧性的收购发生了。
谷歌以约27亿美元的价格收购了Character.AI的核心团队。Shazeer和De Freitas,以及约30名研究人员,重返谷歌,加入DeepMind部门。
这笔交易被业界称为"反向人才收购"——谷歌花了27亿美元,不是为了收购Character.AI的产品或用户,而是为了重新获得两位创始人。
据透露,Shazeer个人入账7.5亿至10亿美元。
回归谷歌后,Shazeer被任命为Gemini AI项目的联合技术负责人,与Jeff Dean、Oriol Vinyals等谷歌传奇工程师并肩工作。
现状:Shazeer重返谷歌DeepMind,担任Gemini联合技术负责人,同时个人财富实现自由。
2.3 Aidan Gomez:Cohere的55亿美元征途
Aidan Gomez(艾丹·戈麦斯)是八人中最年轻、最具企业家气质的成员之一。
1995年,Gomez出生在加拿大。在多伦多大学求学期间,他对人工智能产生浓厚兴趣。通过主动联系AI先驱Geoffrey Hinton,他获得了进入谷歌大脑实习的机会。
"我变得痴迷,日夜不停地阅读论文,"Gomez回忆道,"我会带着一篇研究论文入睡。"
在谷歌大脑,Gomez与Lukasz Kaiser合作,参与了Tensor2Tensor框架的开发,为Transformer的诞生奠定了工程基础。
创立Cohere:为企业而生的大模型
2019年,Gomez与Nick Frosst、Ivan Zhang共同创立了Cohere。
与OpenAI面向消费者的策略不同,Cohere从一开始就专注于企业级AI服务。他们相信,大模型的商业价值不仅在于聊天机器人,更在于帮助企业自动化业务流程、提升生产力。
Cohere的发展路径稳健而迅速:
成立一年,获得李飞飞、Hinton、Pieter Abbeel等多位AI科学家的注资
后续获得思科、AMD、富士通等知名企业投资
发布Command R、Command R+等企业级大模型
估值达到55亿美元
"对于有钱的公司来说,扩大模型规模是一种低风险而且有效的做法,但也是极其低效的,"Gomez在2024年的一次访谈中说,"其他人还有其他的路可以选择。"
对AI行业的深刻洞察
作为Transformer作者和独角兽CEO,Gomez对AI行业有着独特见解:
关于价格战:"短期内,只靠模型API赚钱的AI公司将举步维艰,因为价格战正在将利润率压缩到极致。相反,应用层正变得越来越有吸引力。"
关于OpenAI:"我非常钦佩Ilya,扩大规模的想法很早就存在于他的脑海中。但随着Ilya等人的离职,OpenAI越来越像一家产品公司,他们对于AGI的长期追求似乎开始让位于面向消费者的产品。"
关于中国AI:2025年12月,Gomez在一次公开演讲中称,在与全球采用AI的经济体合作方面,美国和加拿大处于"难以置信的有利位置",而这使得美加在全球AI竞赛中"领先于中国"。
现状:Gomez担任Cohere的CEO,公司估值55亿美元,是企业级大模型领域的重要玩家。
2.4 Llion Jones:在日本挑战Transformer的"叛徒"
Llion Jones(利昂·琼斯)在八人中最晚离开谷歌。2023年7月,当他宣布离职时,Transformer八子已经全部告别谷歌。
Jones本硕毕业于英国伯明翰大学。在加入谷歌之前,他曾在YouTube工作三年,自学机器学习课程后,于2015年加入谷歌研究院。
Jones在谷歌工作了8年。论文中,他的名字恰好排在第五位——完全是随机排序的结果。
"就因为我的名字出现在了一篇论文上,有人就找我合影了!"Jones曾感慨道。
Sakana AI:日本版的OpenAI
离开谷歌后,Jones做出了一个出人意料的选择:他前往日本,与David Ha(前谷歌大脑东京团队负责人、前Stability AI研究部门主管)共同创立了Sakana AI。
"Sakana"在日语中意为"鱼"。公司的理念是:像鱼群一样,通过简单规则的个体协作,涌现复杂的集体智能。
Sakana AI的使命是挑战OpenAI和西方AI巨头:
总部位于日本东京
2024年1月,获得由Lux Capital领投的3000万美元种子轮融资
2024年8月,获得谷歌、英伟达等参与的1.25亿美元A轮融资
估值超过10亿美元,成为日本最贵的AI独角兽
"在谷歌,官僚主义已经发展到让我感觉什么都做不成的地步,"Jones说,"谷歌确实让我有种'被困住的感觉'。"
"背叛"Transformer:呼唤新架构
更具戏剧性的是,作为Transformer的发明者之一,Jones现在公开呼吁放弃Transformer,寻找新的AI架构。
2025年10月,Jones在旧金山TEDAI大会上发表了惊人言论:
"我不认为Transformer就是终点,也不相信我们只需要继续无限扩大规模。"
"现在的论文似乎回到了老路子:在同一个架构上,做无数微小的改动——比如调整normalization层的位置,或略微改良训练方式。"
Jones警告说,当前AI研究正在重蹈RNN的悲剧:"在Transformer出现后,所有关于RNN的研究突然之间显得白费了。而现在的论文,似乎又回到了老路子。"
"不停给马车打造各种好看的设备,却不知道拐弯看看路口是不是有飞船停靠。"
现状:Jones担任Sakana AI的CTO,在日本东京领导一支国际团队,致力于探索后Transformer时代的AI架构。
2.5 Jakob Uszkoreit:从AI到mRNA的跨界者
Jakob Uszkoreit(雅各布·乌斯克尔特)是Transformer的最初提出者,也是八人中最先离开谷歌的成员之一。
2008年,Uszkoreit加入谷歌,在谷歌大脑进行深度学习研究,组建了Google Assistant的语言理解团队,并在Google Translate早期工作时积累了丰富经验。
Uszkoreit是"自注意力机制"的最初提出者。那个改变AI历史的午后会议室思考,正是源于他的灵感。
Inceptive Labs:AI+生物科技的跨界创业
2021年7月,在谷歌工作了13年后,Uszkoreit选择离开。
这一次,他没有继续留在纯AI领域,而是做出了一个大胆的跨界选择:与斯坦福大学计算生物化学家、生物化学与物理学副教授Rhiju Das共同创办了Inceptive Labs。
Inceptive Labs的愿景非常独特:利用神经网络设计mRNA药物。
"Transformer架构不仅适用于语言,"Uszkoreit说,"它也可以学习生物分子的'语言',帮助我们设计更好的mRNA疫苗和疗法。"
Inceptive Labs致力于:
使用深度学习设计RNA分子结构
开发新一代mRNA疫苗
探索AI在药物研发中的创新应用
2023年,Inceptive Labs完成由Andreessen Horowitz(a16z)领投的1亿美元融资。
现状:Uszkoreit担任Inceptive Labs的CEO,在AI+生物科技的前沿领域探索。
2.6 Lukasz Kaiser:唯一加入OpenAI的Transformer作者
Lukasz Kaiser(卢卡什·凯泽)是八人中唯一一位加入OpenAI的成员。
Kaiser是TensorFlow的核心作者之一,也是谷歌大脑的资深研究员。他在八人中的角色是构建底层基础设施——Tensor2Tensor框架使Transformer的大规模训练成为可能。
2021年中,Kaiser离开谷歌,加入OpenAI。
在OpenAI,Kaiser参与了多个关键项目:
GPT系列模型的研发
Q*项目(一个高度保密的AI项目)
2024年3月,在一次由黄仁勋主持的Transformer作者聚会中,Kaiser公开承认自己参与了Q*项目,是这项新技术的发明者之一。
当记者试图进一步探究Q*项目时,OpenAI的公关人员迅速介入,阻止了Kaiser的发言。这显示出该项目的敏感性和保密程度。
外界猜测,Q*可能是OpenAI实现AGI的关键技术,涉及推理能力的重大突破。
现状:Kaiser担任OpenAI技术人员,参与公司最核心的研发项目。
2.7 Illia Polosukhin:从Transformer到百亿区块链
Illia Polosukhin(伊利亚·波洛苏欣)是八人中最早离开谷歌的成员,也是转型最彻底的一位。
Polosukhin来自乌克兰哈尔科夫。2014年,他加入谷歌,是八人中最年轻的成员之一。
2017年,就在Transformer论文发表的同一年,Polosukhin做出了一个出人意料的选择:离开谷歌,投身区块链领域。
NEAR Protocol:百亿市值的区块链巨头
2017年,Polosukhin与Alexander Skidanov共同创立了NEAR Protocol。
NEAR是一个去中心化应用(DApp)平台,旨在解决以太坊的扩展性问题。它使用一种名为"Nightshade"的分片技术,实现了高吞吐量和低交易成本。
Polosukhin在NEAR中引入了他在谷歌学到的工程理念:
用户友好的设计
开发者优先的体验
高性能的底层架构
NEAR的发展令人瞩目:
市值约20亿美元
累计融资约3.75亿美元
成为以太坊之外最重要的智能合约平台之一
IronClaw:Transformer作者重造AI Agent
2025-2026年,Polosukhin重返AI领域,以一个令人意想不到的方式。
OpenClaw(业界称为"龙虾")是当时最火的AI Agent框架。但Polosukhin发现,它的安全状况堪称灾难:一键式远程代码执行、提示注入攻击、恶意技能窃取密码等漏洞层出不穷。
"这是我等了20年的技术,"Polosukhin说,"但再多的便利也不值得拿我自己或家人的安全和隐私去冒险。"
于是,他出手从零重构了安全版OpenClaw——IronClaw。
IronClaw使用Rust语言完全重写,建立了四层纵深防御:
Rust内存安全保证
WASM沙箱隔离
加密凭证保险库(AES-256-GCM)
可信执行环境(TEE)
IronClaw在GitHub上迅速获得4.6k星标,成为AI Agent安全领域的重要开源项目。
现状:Polosukhin担任NEAR Protocol联合创始人,同时领导IronClaw开源项目。
第三章:八子现状一览——聚是一团火,散是满天星
姓名现职位公司/机构估值/市值关键成就Ashish VaswaniCEOEssential AI未披露Adept AI创始人(10亿美元估值)Niki Parmar联合创始人Essential AI未披露两次创业,专注企业AINoam ShazeerGemini联合技术负责人谷歌DeepMind27亿美元"回购"Character.AI创始人,个人入账7.5-10亿美元Llion JonesCTOSakana AI10亿美元+日本最贵AI独角兽,公开呼吁放弃TransformerAidan GomezCEOCohere55亿美元企业级大模型独角兽Jakob UszkoreitCEOInceptive Labs1亿美元融资AI+生物科技跨界者Lukasz Kaiser技术人员OpenAIN/A唯一加入OpenAI的作者,参与Q*项目Illia Polosukhin联合创始人NEAR Protocol20亿美元市值百亿区块链巨头,IronClaw创始人
第四章:为什么他们都离开了谷歌?
Transformer八子集体告别谷歌,这绝非偶然。背后有着深刻的技术、商业和个人原因。
4.1 谷歌的"创新者困境"
Transformer诞生于谷歌,但引爆市场的却是OpenAI。这一悖论折射出大公司的"创新者困境"。
官僚主义的束缚:多位作者提到,谷歌的官僚主义和风险规避文化让他们感到"被困住"。
"谷歌确实让我有种'被困住的感觉',"Llion Jones说,"公司目前已经发展到一定规模,使得我无法继续进行自己想做的工作。"
Noam Shazeer也有类似感受:"我对谷歌的官僚主义和风险规避感到失望。"
产品化的阻力:谷歌拥有世界一流的研究团队,但将研究成果转化为产品却面临重重阻力。
Shazeer开发的LaMDA聊天机器人在谷歌内部遭遇发布阻力,这成为他离职的导火索。而OpenAI的ChatGPT,技术上并非革命性突破,却因为敢于发布而引爆市场。
薪酬与创新激励:谷歌给研究人员的薪酬虽高,但远低于创业成功的回报。
Noam Shazeer回归谷歌后,个人入账7.5-10亿美元。这笔财富,是他在谷歌工作20年都无法获得的。
4.2 AGI竞赛的吸引力
八位作者都深信通用人工智能(AGI)的可能性,而创业是实现这一愿景的更快路径。
"Transformer应该是第一个对每个主要AI用例都能'正常工作'的神经网络,"Ashish Vaswani说,"这让我们相信:通用人工智能是完全有可能被实现的。"
创业公司的敏捷性、决策速度、人才密度,都远超大公司。在AGI这场百年一遇的技术革命中,没有人愿意错过。
4.3 技术理想的追求
对有些人来说,离开谷歌是为了追求更纯粹的技术理想。
Llion Jones在日本创立Sakana AI,是为了探索后Transformer时代的AI架构。他公开"背叛"自己发明的技术,呼吁业界寻找新的方向。
Jakob Uszkoreit投身AI+生物科技,是为了用技术解决人类健康这一根本性问题。
Illia Polosukhin创立NEAR Protocol,是因为相信去中心化的力量。
第五章:Transformer的遗产与未来
5.1 改变世界的技术
Transformer的影响力已经远远超出自然语言处理领域:
自然语言处理:BERT、GPT、T5等模型彻底改变了NLP,机器翻译、文本生成、问答系统等任务达到人类水平。
计算机视觉:Vision Transformer(ViT)将Transformer应用于图像识别,在ImageNet等基准上超越CNN。
多模态模型:CLIP、DALL-E、Stable Diffusion等模型将文本和图像结合,实现文本生成图像、图像理解等能力。
科学发现:AlphaFold 2使用Transformer架构预测蛋白质结构,解决了生物学50年的难题。
代码生成:GitHub Copilot、Codex等工具使用Transformer生成代码,改变软件开发方式。
5.2 超越Transformer?
尽管Transformer取得了巨大成功,但八位作者中的多位已经公开呼吁寻找新架构。
Llion Jones的观点最具代表性:
"我不认为Transformer就是终点,也不相信我们只需要继续无限扩大规模。"
"在Transformer出现之前,RNN是主流。所有关于RNN的研究,在Transformer出现后突然之间显得白费了。现在的论文,似乎又回到了老路子:在同一个架构上,做无数微小的改动。"
潜在的新方向:
状态空间模型(SSM):如Mamba架构,挑战Transformer的二次复杂度
神经符号AI:结合神经网络和符号推理
生物启发架构:从大脑结构中汲取灵感
5.3 八子的共同信念
尽管各奔东西,八位Transformer作者仍然保持着共同的信念:
AGI是可能的:他们都相信,通用人工智能不再是科幻,而是可预见未来的现实。
技术应该普惠:无论是Character.AI的"让每个人都能获得最好的教育",还是Cohere的企业级服务,还是NEAR的去中心化愿景,他们都致力于让AI技术惠及更多人。
创新需要自由:离开谷歌,是为了获得更大的创新自由。创业虽然风险更高,但回报也更大——不仅是财富,更是实现技术理想的机会。
结语:从一篇论文到满天星辰
2017年那个春天,八位谷歌员工不会想到,他们花了六十天写就的论文,将改变整个AI行业的走向。
今天,这八位奠基人已经分散在全球各地:
有人在美国继续创业征程(Vaswani、Parmar、Gomez)
有人被谷歌以27亿美元"回购"(Shazeer)
有人在日本东京挑战OpenAI(Jones)
有人在OpenAI参与最神秘的Q*项目(Kaiser)
有人跨界生物科技(Uszkoreit)
有人创造了百亿区块链巨头(Polosukhin)
聚是一团火,散是满天星。
Transformer的故事告诉我们:真正改变世界的创新,往往诞生于小团队的紧密协作;而创新者的归宿,永远是下一场冒险。
当未来的人们回望AI发展的历史,2017年6月12日,那个平平无奇的周一,将被铭记为一个时代的起点。
而那八个人的名字——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin——将永远镌刻在人工智能的丰碑上。
作者:玻色子
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.