面试前和腾讯师兄聊：“明天面试需要准备啥？”，师兄：“看看Transformer层的结构”，我只好半夜爬起来恶补...牢记Attention、FNN-北京尧图网络科技有限公司

这一篇我们把焦点放在最关键的地方一层 Transformer Block 到底长什么样你可以把 Transformer 想象成一栋楼每一层楼就是一个 Block。无论楼有多高每一层的结构都是相同的。搞清楚一层楼长什么样整栋楼就通了。一个 Transformer Block由两个子层组成自注意力子层Self-Attention Sublayer前馈神经网络子层FFN Sublayer每个子层外面都包裹着两件固定的外套残差连接和层归一化。一、自注意力子层先回顾一下自注意力机制上前几篇文章提到Transformer 最核心的能力之一是让每个 token 都能直接看到整个序列里其他位置。自注意力机制Self-Attention就是完成这件事的核心模块。还是用这句话举例★远方有颗苹果树当模型在计算苹果这个词的表示时自注意力机制会让它去衡量苹果和树有多相关苹果和远方有多相关苹果和有有多相关最后把所有位置的信息按相关程度加权聚合得到苹果这个词更丰富的表示。多头注意力多角度看问题实际上Transformer 不只用一组注意力而是同时用多组这就是多头注意力Multi-Head Attention。为什么要多头一个词和其他词的关系往往不止一种维度。比如苹果和树的关系可能既有苹果是树上长的这层语义又有苹果和树位置相邻这层结构信息。单头注意力每次只能学一种关系模式。多头注意力则相当于同时派出多个分析员每个人从不同角度去看词与词的关系最后把所有分析结果拼起来。★多头注意力多个注意力头并行计算结果拼接线性变换假设有 8 个注意力头每个头负责不同的语义维度最后把 8 个结果拼在一起再做一次线性映射输出和输入维度保持一致。二、残差连接把原来的自己加回来自注意力算完之后不是直接把结果往下传而是要先做一个操作把输出和输入相加。用公式表示就是输出这就是残差连接Residual Connection为什么要这样做这样做有两个好处防止信息丢失哪怕注意力层没学到什么有用的东西至少原始输入还保留着不会越传越面目全非。解决深层网络训练难题网络层数很深时梯度容易消失。残差连接提供了一条快速通道让梯度可以直接流回较早的层训练更稳定。★残差连接原始输入子层输出三、层归一化把数值拉回合理范围残差连接之后紧接着是层归一化Layer Normalization简称 LayerNorm。归一化的直觉是经过多次矩阵运算数值可能跑得很大或很小分布变得很不稳定。LayerNorm 的作用是把每一层的输出重新拉回到均值为 0、方差为 1 附近的分布让后续计算更稳定。把残差连接和层归一化合起来这一步完整写出来是注意现代很多大模型比如 Llama改成了Pre-LayerNorm也就是先归一化再送入子层效果往往更稳定我们后续文章会详细讲。四、前馈神经网络子层引入非线性理解自注意力子层完成后数据进入第二个子层前馈神经网络Feed-Forward NetworkFFN。上一篇文章提到自注意力本质上是在做线性变换也就是对序列中的各个位置进行加权组合。但只有线性变换模型的理解能力其实是有上限的——很多复杂的语义模式线性变换捕捉不了。FFN 的存在就是为了引入非线性让模型能学到更深层次的语义信息。FFN 的结构很简单三步走第一步升维把维度从 512 升到 2048通常是 4 倍乘一个大矩阵。第二步激活函数引入非线性常用 ReLU 或 GELU。第三步降维再乘一个矩阵把维度从 2048 降回 512。输出★FFN 先升维 → 激活 → 再降维这个先升维再降维的设计让模型能够去捕捉非线性特征然后再压缩回来继续传递。FFN 结束后同样要做一次残差连接层归一化五、一层 Block 的完整前向过程现在把所有步骤串起来一层 Transformer Block 的前向过程如下输入矩阵形状为 L 为序列长度d 为向量维度第一步自注意力子层第二步前馈神经网络子层输出矩阵形状仍为注意关键点输入和输出的维度完全一致。这意味着可以把很多层 Block 串联起来一层接一层最终形成深层网络。这也是 Transformer 能轻松堆深的原因之一。本阶段小结一层 Transformer Block本质上就是两个子层的叠加自注意力子层让 token 之间互相交流聚合全局信息前馈神经网络子层对每个 token 独立做深层非线性变换两个子层都由相同的外壳包裹★子层输出 → 残差连接 → 层归一化这套组合简洁、稳定、可扩展是 Transformer 能被堆到几十上百层的根本原因。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

面试前和腾讯师兄聊：“明天面试需要准备啥？”，师兄：“看看Transformer层的结构”，我只好半夜爬起来恶补...牢记Attention、FNN

相关新闻

2026年最适合产品验证的原型设计工具推荐

工业级遗传算法实操指南：从染色体编码到自适应算子

Sunshine 2025：如何实现8ms超低延迟的游戏串流技术革命？

最新新闻

单日销量破百台：探路者外骨骼从“概念”到“货架”的质变时刻

Java 操作 RocksDB

亚博科技APP广告片记录

2026 年易柯森特：北京民营企业借工程监理优化施工管理

零基础学AI人工智能：10.3 ANN人工神经网络

什么是 transformer

日新闻

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

Claude Code 提示词设计：从塑造“人格”到建立“状态机”

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

周新闻

深入解析P89LPC932A1 CCU模块：输入捕获与PWM实战指南

进化博弈论解析AI代理欺骗行为与风险管控

SCF5250 FlashMedia接口与DMA控制器配置实战：实现嵌入式存储高效数据传输

月新闻