背景与动机
为什么需要Transformer
核心原理
自注意力机制详解
模型架构
编码器-解码器结构
应用与实例
GPT/BERT/ViT等
"Attention Is All You Need"
— Vaswani et al., 2017 (Google Brain)Google Brain 发表 "Attention Is All You Need",在机器翻译任务上取得SOTA
OpenAI 推出 GPT-1,Google 推出 BERT,开启预训练语言模型时代
GPT-2 展示惊人文本生成能力(15亿参数),引发AI安全讨论
GPT-3(1750亿参数)展示Few-shot能力;ViT将Transformer引入计算机视觉
ChatGPT 引爆全球,Transformer成为通用AI的基础架构
多模态大模型涌现,Transformer架构统治AI领域
自注意力机制允许序列中的每个位置直接关注序列中的所有其他位置,从而捕获全局依赖关系。
想象你在阅读一个句子:
"这只猫很可爱,它正在睡觉"
自注意力能让模型知道"它"指的是"猫",无论它们相距多远。
假设输入句子: "I love AI"
Step 1: 每个词向量 × WQ, WK, WV → 得到 Q, K, V
Step 2: Qi · KjT → 注意力分数矩阵
Step 3: 分数 / √dk → Softmax → 注意力权重
Step 4: 权重 × V → 加权输出
单个注意力头可能只关注一种模式。多头注意力允许模型同时关注不同位置的不同表示子空间。
就像看一幅画时,一双眼看颜色,另一双看形状,还有看纹理的——多视角理解更全面。
• 8个头(h=8)
• 模型维度 dmodel = 512
• 每个头维度 dk = dv = 512/8 = 64
自注意力机制是排列不变的(permutation invariant)——它不关心输入的顺序。
但语言有顺序!
"狗 咬 人" ≠ "人 咬 狗"
所以需要显式注入位置信息。
x + Sublayer(x)
将输入直接加到子层输出上:
对每个样本的特征维度进行归一化:
LayerNorm(x) = γ · (x-μ)/σ + β
FFN(x) = ReLU(xW₁+b₁)W₂+b₂
两层全连接网络:
在解码器中,生成第 t 个词时不能看到 t 之后的词(防止信息泄露)。
通过将未来位置的注意力分数设为 -∞(softmax 后变为 0)来实现。
| 特性 | RNN/LSTM | CNN | Transformer |
|---|---|---|---|
| 并行计算 | ❌ 不支持 | ✅ 支持 | ✅ 完全支持 |
| 长距离依赖 | O(n) 路径 | O(log n) 路径 | O(1) 直接连接 |
| 计算复杂度/层 | O(n·d²) | O(k·n·d²) | O(n²·d) |
| 训练速度 | 慢 | 中 | 快 |
| 可解释性 | 差 | 中 | 注意力可视化 |
| 扩展性 | 有限 | 中等 | 极强(Scaling Law) |
Transformer 在长序列建模中的优势是革命性的:任意两个位置之间只需一步即可直接交互信息。
Warmup + 衰减策略:
前 warmup_steps 步线性增大学习率,之后按步数平方根衰减。
应用位置:
通常 rate = 0.1
Label Smoothing (ε=0.1)
将 one-hot 标签软化:
正确类: 1-ε = 0.9
其他类: ε/(K-1)
防止过拟合,提高泛化能力,提升 BLEU 分数。
翻译、摘要、问答
文本生成、情感分析
命名实体识别
图像分类 (ViT)
目标检测 (DETR)
图像生成 (DiT)
语音识别 (Whisper)
语音合成 (TTS)
音乐生成
蛋白质结构 (AlphaFold)
药物发现
基因组分析
ChatGPT、Claude
Gemini、文心一言
GitHub Copilot
CodeLlama
代码补全与调试
DALL·E / Midjourney
文本→图像
视频理解与生成
Decision Transformer
机器人控制
游戏AI
Bidirectional Encoder Representations from Transformers
Google 2018 年推出,只使用 Transformer 的编码器部分。
创新点:双向理解上下文(同时看前后文)。
只使用 Transformer 的解码器部分
自回归生成:从左到右,逐个预测下一个词
预训练任务:因果语言建模 (CLM)
P(wt | w1, w2, ..., wt-1)
证明预训练+微调范式可行
无需微调即可执行多种任务
In-context learning,涌现能力
支持图像输入,接近人类水平
ChatGPT = GPT-3.5 + RLHF
人类反馈强化学习使模型:
"An Image is Worth 16x16 Words"
将图像切分为固定大小的 patch(如16×16像素),每个 patch 展平后作为一个"token",输入标准 Transformer 编码器。
蛋白质结构预测
DeepMind 使用 Transformer 中的注意力机制(Evoformer模块)预测蛋白质3D结构。
解决了困扰生物学界50年的难题,被《Nature》评为年度科学突破。
文本到图像生成
DALL·E 使用 Transformer 理解文本描述,结合扩散模型生成高质量图像。
"一只穿宇航服的柴犬在月球上弹吉他" → 🎨
通用语音识别
OpenAI 的 Whisper 使用编码器-解码器 Transformer 架构进行语音识别。
支持 99种语言,可做翻译、时间戳标注、语言检测。
基于 Codex (GPT的代码微调版) 的AI编程助手,实时代码补全和生成。
使用 Diffusion Transformer (DiT) 架构生成高质量视频,理解物理世界。
将强化学习问题转化为序列建模,用Transformer做决策和控制。
"Scaling laws 表明:更大的模型 + 更多的数据 + 更多的计算 = 更强的能力。
但我们也在探索更高效、更智能的新范式。"
自注意力机制
多头注意力
位置编码
残差+LayerNorm
编码器-解码器
仅编码器(BERT)
仅解码器(GPT)
灵活可扩展
NLP / CV / 语音
科学发现
代码生成
多模态AI
Transformer 不仅是一个模型架构,更是当代 AI 革命的基石。
从2017年的一篇论文,到今天驱动着 ChatGPT、DALL·E、AlphaFold 等
改变世界的产品,它重新定义了我们与技术交互的方式。
Q & A 环节
欢迎提问与讨论 💬