谷歌痛失两员大将致股价暴跌,“Transformer 之父”八人九年来履历与去向大揭秘 谷歌痛失两员大将致股价暴跌“Transformer 之父”八人九年来履历与去向大揭秘前几天谷歌接连痛失两员大将。6月18日Transformer论文的共同作者之一Noam Shazeer在X上宣布离职加入OpenAI。两天后2024年诺贝尔化学奖得主、AlphaFold团队负责人John Jumper也宣布离开Google DeepMind去向是Anthropic。两条消息接连砸下资本市场反应强烈谷歌母公司Alphabet股价一度暴跌超7%市值蒸发逾3000亿美元。多家分析机构将此次抛售归因于「人才出走」。D.A. Davidson的分析师Gil Luria直言Shazeer投奔OpenAI、Jumper投奔Anthropic两人前后脚离职让市场开始担心谷歌在AI人才争夺战中落于下风。Shazeer的离开尤为值得关注——这已是他第二次离开谷歌。2021年他因不满公司不愿公开发布自己主导研发的聊天机器人出走创办了Character.AI2024年8月谷歌花约27亿美元买下Character.AI的技术授权将他请回DeepMind让他出任Gemini项目的工程副总裁与Jeff Dean共同领导该项目。不到两年他还是走了这次去了死对头OpenAI。至此九年前发表的论文《Attention Is All You Need》的八位共同作者已全部离开谷歌。X用户Tyler Maran做了一张图展示他们如今各自的去向这张图在社交网络上被大量转发。不过这张图可能很快就会过时。过去两天市场传言英伟达正在悄悄吸纳Essential AI的核心团队其中包括Transformer论文作者之一、Essential AI联合创始人兼CEO Ashish Vaswani。截至发稿英伟达和Essential AI均未正式回应此事。借此机会我们来完整盘点这八位被称为「Transformer 之父」的人九年来的履历以及他们如今的真正去处。需说明的是《Attention Is All You Need》论文的作者顺序是随机排列的。论文脚注明确所有作者贡献均等排序随机不存在「第一作者」或「通讯作者」。本文按论文原本的署名顺序依次介绍这八个人。「万物起源」八个不务正业的谷歌人要理解他们如今的去向得回到2017年。当时机器翻译领域主流是循环神经网络RNN模型按顺序处理句子无法并行计算训练又慢又贵。谷歌大脑的八个人决定尝试一个大胆想法扔掉循环结构只留「注意力机制」让模型一次性看完整句话自行判断重点关注的词。论文标题「Attention Is All You Need」化用了披头士的《All You Need Is Love》此后成为许多论文标题模仿的形式。论文的作者贡献说明记录了每个人的具体工作Jakob Uszkoreit最先提出用自注意力取代循环结构并主导早期验证Ashish Vaswani与Illia Polosukhin一起设计并实现最初的Transformer模型几乎参与项目各环节Noam Shazeer提出缩放点积注意力、多头注意力机制以及无参数的位置表示方法事事亲力亲为Niki Parmar在最初的代码库和后来的tensor2tensor框架里设计、实现并调试了众多模型变体Llion Jones尝试大量新模型变体负责最初的代码库、推理效率优化和可视化工作Łukasz Kaiser和Aidan N. Gomez搭建tensor2tensor的各个模块替换早期代码库提升了实验结果和研究效率。这段说明也揭示了一个细节尽管论文署名顺序随机但Uszkoreit、Vaswani、Polosukhin和Shazeer承担了架构层面更核心的角色而Parmar、Jones、Kaiser和Gomez则在工程实现和系统搭建上发挥重要作用——这也是后来八人选择不同道路时性格与专长差异的早期体现。「Transformer」这个名字也有故事。Uszkoreit喜欢这个词的发音团队内部自称「Team Transformer」早期设计文档封面上画着变形金刚动画里的六个角色。论文发表至今引用量已超过26万次是21世纪被引用最多的论文之一。Ashish VaswaniVaswani 1986年出生于印度2002年从印度比拉理工学院BIT Mesra获得计算机科学学士学位随后赴美在南加州大学跟随David Chiang攻读博士研究统计机器翻译和神经网络语言建模。博士毕业后他在南加大信息科学研究所做了两年计算机科学家2016年加入Google Brain成为研究科学家工作至2021年。按论文作者贡献说明Vaswani与Illia Polosukhin一起设计并实现最初的Transformer模型是核心人物之一。离开谷歌后2021年他与Niki Parmar、前OpenAI工程副总裁David Luan等人共同创办Adept AI担任首席科学家目标是打造能在任意软件里自主完成操作的「行为模型」。Adept一度融资超4亿美元估值约10亿美元但产品未落地团队出现分歧。Vaswani和Parmar早早退出他在Adept的首席科学家任期止于2022年11月。2023年初Vaswani与Parmar再次合作创立Essential AI他出任CEO。公司获谷歌、英伟达、AMD战略投资种子轮830万美元由Thrive Capital领投2023年底5650万美元A轮由March Capital领投谷歌、英伟达、AMD、KB Investment、Franklin Templeton等机构跟投。2026年初公司完成1.75亿美元B轮融资由Lightspeed Venture Partners领投Thrive Capital跟投估值达10亿美元成为独角兽。2025年底公司发布首个开源模型系列Rnj - 1以印度数学家拉马努金Ramanujan命名。然而过去两天情况有变。据报道英伟达正在招募Essential AI的核心团队Vaswani也在其中未来将参与英伟达开源模型Nemotron的研发。消息人士称原因是Essential AI融资遇瓶颈且把Vaswani和团队从英伟达竞争对手AMD的阵营拉走是划算的买卖。已有几位Essential AI的研究员包括Alok Tripathy、Saurabh Srivastava更新领英资料显示已加入英伟达。但截至目前英伟达和Essential AI均未正式确认该消息。Noam ShazeerShazeer 1976年出生于费城是正统犹太教徒父亲Dov Shazeer是数学教师出身的工程师姐妹被希伯来学院授予拉比资格。他少年时天赋出众1994年作为美国队成员参加国际数学奥林匹克竞赛获满分金牌随后进入杜克大学学习数学和计算机科学是Angier B. Duke纪念奖学金获得者并在Putnam数学竞赛中获奖。2000年Shazeer加入谷歌早期成名作是修好谷歌搜索的拼写纠错功能。按Transformer论文作者贡献说明他提出缩放点积注意力、多头注意力机制以及无参数的位置表示方法是除Vaswani和Polosukhin外「几乎参与每个细节」的人。2017年合著Transformer论文后他和同事Daniel De Freitas做出聊天机器人Meena但谷歌未公开发布。2021年两人离职创办Character.AI从a16z等机构融资超1.5亿美元做成受欢迎的角色扮演聊天应用。2024年8月情况转折谷歌与Character.AI达成27亿美元授权协议Shazeer和De Freitas带同事回谷歌DeepMind他被任命为工程副总裁与Jeff Dean、Oriol Vinyals共同领导Gemini项目。因他持有Character.AI约三成到四成股份这笔交易让他个人套现7.5亿到10亿美元。2026年他当选美国国家工程院院士履历辉煌。但几个月后他再次离开这次去了OpenAI负责「架构研究」方向恰逢OpenAI为冲击IPO招兵买马公司6月8日已向美国证券交易委员会秘密提交S - 1文件估值传闻达8520亿美元。OpenAI CEO Sam Altman公开表示「从OpenAI创立第一天起他就是我最想合作的人之一」还称这次招聘「酝酿了十年」。对谷歌而言这是代价高昂的「回购未遂」两年前花27亿美元请回的人如今投奔头号竞争对手这也是本周谷歌股价大跌的直接原因之一。Niki ParmarParmar出生于印度浦那本科就读于浦那计算机技术学院Pune Institute of Computer Technology主修信息技术。在校期间她通过吴恩达和Peter Norvig开设的网络公开课对人工智能和机器学习产生兴趣随后赴美在南加州大学读计算机科学硕士跟随教授Morteza Dehghani用机器学习方法研究社会科学问题。2015年Parmar加入谷歌研究院做软件工程师2017年转入谷歌大脑做研究软件工程师是当时谷歌大脑团队里最年轻、唯一没有博士学位的研究人员。按论文作者贡献说明她在最初的代码库和后来的tensor2tensor框架里设计、实现并调试了众多模型变体。论文发表后她将Transformer推向语言之外领域参与自注意力机制扩展到图像生成和计算机视觉的研究。2021年Parmar离开谷歌与Ashish Vaswani、David Luan等人共同创办Adept AI担任首席技术官。她和Vaswani一样早早退出Adept2023年初与Vaswani一起创立Essential AI继续担任联合创始人。但她没等到Essential AI的B轮融资和独角兽身份。2024年底Parmar悄悄离开Essential AI加入Anthropic并于2025年2月公开宣布。她在X上写道「今天和往常一样适合分享我去年12月加入了Anthropic。」她随后参与Claude 3.7 Sonnet的开发这是Anthropic历史上重要的模型发布之一。如今她是Anthropic的技术团队成员专注于前沿能力研究和强化学习方向。两位曾经的合著者、两次共同创业的搭档最终走向不同归宿Parmar提前一年多悄然离开融入头部实验室而Vaswani选择继续推动Essential AI发展直到本周被竞争对手招揽。Jakob UszkoreitUszkoreit出生于语言学世家父亲Hans Uszkoreit是知名计算语言学家。儿子提出「单靠注意力机制就够用」假设时父亲也表示怀疑。Uszkoreit在柏林工业大学获得博士学位后来在谷歌大脑达到「杰出科学家」级别。按论文作者贡献说明Uszkoreit最先提出用自注意力机制取代循环神经网络并主导早期验证——这个假设的种子早在他2016年与Ankur Parikh、Oscar Täckström、Dipanjan Das合著的「可分解注意力模型」论文中就已埋下。「Transformer」这个名字因他喜欢发音而定团队内部自称「Team Transformer」早期设计文档封面上画着变形金刚动画里的六个角色。2020年底DeepMind的AlphaFold2证明Transformer式的模型可解决蛋白质折叠难题。他意识到深度学习未能改变生物学缺的不是算法而是数据。「这几乎成了一种道德义务」他回忆说。于是2021年他和斯坦福大学生物化学教授、知名RNA设计游戏Eterna的开发者Rhiju Das共同创立Inceptive公司总部在伯克利研究团队在柏林——他本人住在柏林员工分布在苏黎世、伦敦、温哥华和美国东海岸多个城市。公司核心思路是反向做实验用机器人和人工大规模生成全新的RNA实验数据再喂给模型学习。Inceptive已从英伟达、a16z、Obvious Ventures、Section 32等机构融资约1.2亿美元。本月初RNA干扰疗法的开创者Alnylam制药与Inceptive签署战略合作借助Inceptive的基础模型加速siRNA候选药物的设计首付款3000万美元整笔合作潜在总金额可达约20亿美元。Uszkoreit表示「大多数药物设计靠试错而Inceptive认为生命规律复杂只有AI能学会。」八位作者中他是唯一转行做生物科技的人印证了论文当年的预言注意力机制的潜力不止于机器翻译。Llion JonesJones是威尔士人毕业于伯明翰大学2011年加入谷歌做软件工程师工作十多年是八位作者中少数没有博士学位、靠工程直觉摸索的人。按论文作者贡献说明他尝试大量新模型变体负责最初的代码库、推理效率优化和可视化工作。他回忆那个关键瞬间「我们尝试砍掉模型部分看效果结果反而更好。」这是「循环结构多余」假设首次被验证。2023年Jones和同样来自谷歌的David Ha在东京创立Sakana AI。「Sakana」在日语中是「鱼」的意思。Ha任CEOJones任CTO公司另一位联合创始人Ren Ito任COO。Jones常驻东京在社交媒体自称「住在东京的威尔士AI研究员」。公司研究路线反潮流不单纯堆算力和参数而是借鉴自然演化逻辑让小模型像鱼群一样协作代表性研究成果有Continuous Thought Machine连续思维机和能自主开展端到端研究的「AI Scientist」项目。近日公司发布性能前沿的Sakana Fugu模型。Sakana AI累计融资3.79亿美元包括2026年3月完成的B轮融资三菱电机是投资方之一。2026年3月公司与三菱日联金融集团MUFG达成多年合作协议后者计划用Sakana的技术改造银行业务系统这笔合作有望让估值约15亿美元的公司一年内盈利。Jones多次表达对单纯「scaling」的怀疑。2026年3月他在银行业内部活动中说当下AI研究面临尴尬投资和人才涌入理论上应催生更多突破但实际留给研究者「自由摸索」的空间被压缩。他提到Sakana内部保留部分「没有KPI」的研究自由度因为下一个突破可能来自这种不计后果的长线投入——这也是当年谷歌大脑孕育出Transformer的方式。他还说过要让新架构取代Transformer必须「明显地、毫无疑问地更好」。Aidan N. GomezGomez是八位作者中年纪最小的。论文发表时他是谷歌大脑20岁的本科实习生在多伦多大学读计算机和数学双学位。按论文作者贡献说明他和Łukasz Kaiser搭建tensor2tensor框架的各个模块替换早期代码库提升了实验结果和研究效率。他回忆「我只想搞清楚注意力机制没想到它会成为『万物的架构』。」论文发表后他去牛津大学读博士中途暂停学业创业2024年正式拿到博士学位。2019年Gomez和Ivan Zhang、Nick Frosst创办Cohere定位为企业级AI服务商避开消费级聊天机器人的烧钱竞赛主打数据隐私、本地化部署和多语言能力客户多为大型企业和各国政府。2023年Gomez入选《时代周刊》AI领域百大影响力人物他和联合创始人获《麦考林》杂志AI趋势先锋榜首位2025年4月他入选电动车公司Rivian的董事会。这种「不性感」的打法让公司财务数据良好截至2026年中Cohere年化经常性收入超2亿美元过去一年增长6倍毛利率约70%累计融资近17亿美元估值约70亿美元2025年8月公司请来曾参与Uber上市的Francois Chadwick担任首位CFO员工二级市场卖出股份的窗口已开放一轮Gomez多次表示IPO「快了」但公司仍未向监管机构提交招股书。Gomez越来越像地缘政治意义上的AI发言人。本周他在《财富》杂志撰文呼吁各国重视「数字主权」问题提到Anthropic模型访问权限收紧事件警告各国不能把未来「租」给少数科技巨头要建立多元生态让各国依赖不同AI供应商保有自己的价值观、语言和法律体系。他还表示外界对「AI末日」风险的担忧被夸大他更担心虚假信息在社交媒体上被自动化放大。Gomez如今关注的不仅是模型本身还有谁有资格决定全球使用的AI。Łukasz KaiserKaiser是波兰人最初学术训练集中在逻辑学、自动机理论、算法模型论和博弈论等理论计算机科学方向他在弗罗茨瓦夫大学获得数学和计算机科学双硕士学位在德国亚琛工业大学完成博士学业随后在法国国家科学研究中心CNRS和巴黎七大拥有终身教职专注于逻辑学和自动机理论的纯理论研究。后来他转向应用在谷歌大脑工作近八年期间是TensorFlow的合著者之一与Samy Bengio合作发表「主动记忆能否取代注意力」的早期论文与Ilya Sutskever合作发表「神经GPU学习算法」。按论文作者贡献说明他和Aidan N. Gomez搭建tensor2tensor框架提升了实验结果和研究效率。八位作者中他是唯一未创业、始终在大型实验室做纯研究的人。2021年他加入OpenAI当时ChatGPT还未面世。在OpenAI他参与Codex的研发后来成为GitHub Copilot的技术基础以及配套的HumanEval编程基准也参与GSM8K数学题数据集的研究这项工作展示了「让模型多算、多采样」可提升准确率是后来推理模型范式的雏形。他还是GPT - 4技术报告的署名作者之一成为OpenAI首个推理模型o12024年9月发布的核心贡献者被认为是「研究负责人」级别的角色此后参与o3及更新的推理范式直到如今的GPT - 5系列。他最近在Matt Turck主持的MAD Podcast上谈到Transformer已被数学证明可解决任何问题只要允许模型生成足够多的中间推理步骤。这是对九年前那篇论文的更精确注解。Illia PolosukhinPolosukhin来自乌克兰哈尔科夫本科学应用数学是国际大学生程序设计竞赛ICPC冠军选手。他回忆十岁看《黑客帝国》后就对人工智能产生浓厚兴趣。2014年他加入谷歌参与TensorFlow相关研究也从事机器阅读理解和问答系统方面的研究。按论文作者贡献说明他与Ashish Vaswani一起设计并实现最初的Transformer模型负责验证架构在机器翻译任务上的有效性。论文发表后2017年他离开谷歌与Alexander Skidanov共同创办人工智能公司NEAR.AI。不久他们发现做去中心化基础设施更有趣于是2018年前后公司转型为区块链项目NEAR Protocol。NEAR采用Nightshade分片技术通过Aurora提供与以太坊兼容的二层网络2020年主网正式上线已从a16z、Coinbase、老虎环球基金、Hashed、Dragonfly Capital等机构融资超5.3亿美元。如今的Polosukhin试图融合自己的两个身份2026年3月他表示「区块链未来的用户将是AI智能体而非人类」将NEAR定位为智能体经济的「结算层」。同年4月他呼吁建立更完善的监管框架应对自主AI智能体认为现有机构和制度未准备好处理责任归属和系统性风险问题呼吁建立清晰的问责机制和「人在回路」式的监督。他目前常驻葡萄牙。能同时拥有「写了奠基性LLM论文」和「经营市值数十亿美元区块链公司」两个身份的人全世界可能只有他一个。八条路继续探索2024年3月英伟达GTC大会上八位作者中的七位Niki Parmar因故缺席首次以群体身份亮相接受黄仁勋访谈。黄仁勋说「我们今天享受的一切都能追溯到那一刻。」对话结束时他给每人送上一块刻着「你们改变了世界You transformed the world」的英伟达DGX - 1超算签名纪念牌。同年11月日本NEC CC;基金会将当年的CC;奖颁给「Transformer团队」与他们同台领奖的是三位研究跨洋海底光缆传输技术的资深工程师。不同领域的基础设施建设者被放在同一个奖项里。九年过去这八条人生轨迹已分散到几乎不会相交的地方硅谷的企业服务赛道东京的演化算法实验室柏林的分子生物学公司葡萄牙的区块链协议以及本周仍在变动的几家头部AI实验室。但如果把他们的话放在一起会发现一个共同观点没有人认为Transformer是终点。Aidan N. Gomez说世界需要更好的架构Llion Jones认为新架构必须「明显地、毫无疑问地更好」才能取代TransformerŁukasz Kaiser用数学语言探索这套九年前诞生的架构能将人类带多远。这或许是论文留下的最持久遗产八位作者虽散落各地但都未停止寻找下一个答案。