差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:注意力机制与transformer [2026/03/02 22:28] – [1.5 Transformer的变体与优化] 张叶安深度学习:注意力机制与transformer [2026/03/02 22:33] (当前版本) – [4. 答案与解析] 张叶安
行 242: 行 242:
 注意力权重天然具有可解释性。通过可视化注意力矩阵,可以观察模型关注输入的哪些部分: 注意力权重天然具有可解释性。通过可视化注意力矩阵,可以观察模型关注输入的哪些部分:
  
-- **编码器自注意力**:显示输入序列内部的关系 +  - **编码器自注意力**:显示输入序列内部的关系 
-- **解码器自注意力**:显示生成过程中的依赖 +  - **解码器自注意力**:显示生成过程中的依赖 
-- **交叉注意力**:显示输出与输入的对齐关系+  - **交叉注意力**:显示输出与输入的对齐关系
  
 **注意力作为解释工具** **注意力作为解释工具**
  
 注意力权重可以回答"模型在决策时关注了什么"。例如: 注意力权重可以回答"模型在决策时关注了什么"。例如:
-- 机器翻译中,可以看到源语言词与目标语言词的对应 +  - 机器翻译中,可以看到源语言词与目标语言词的对应 
-- 情感分析中,可以看到影响分类的关键词+  - 情感分析中,可以看到影响分类的关键词
  
 **注意力的局限性** **注意力的局限性**
  
-- 注意力权重不等于特征重要性 +  - 注意力权重不等于特征重要性 
-- 多头注意力的可解释性较复杂 +  - 多头注意力的可解释性较复杂 
-- 注意力分布可能集中在特定token(如[CLS])+  - 注意力分布可能集中在特定token(如[CLS])
  
 ==== 1.7 注意力机制的应用领域 ==== ==== 1.7 注意力机制的应用领域 ====
  
 **自然语言处理**: **自然语言处理**:
-- 机器翻译、文本摘要、问答系统 +  - 机器翻译、文本摘要、问答系统 
-- 预训练语言模型(BERT、GPT、T5) +  - 预训练语言模型(BERT、GPT、T5) 
-- 信息抽取、情感分析+  - 信息抽取、情感分析
  
 **计算机视觉**: **计算机视觉**:
-- 视觉Transformer(ViT):将图像分割为patch,应用Transformer +  - 视觉Transformer(ViT):将图像分割为patch,应用Transformer 
-- 目标检测(DETR):端到端目标检测 +  - 目标检测(DETR):端到端目标检测 
-- 图像生成(DALL-E、Stable Diffusion)+  - 图像生成(DALL-E、Stable Diffusion)
  
 **多模态学习**: **多模态学习**:
-- 图像-文本对齐(CLIP) +  - 图像-文本对齐(CLIP) 
-- 视觉问答 +  - 视觉问答 
-- 文生图、图生文+  - 文生图、图生文
  
 **其他领域**: **其他领域**:
-- 语音识别 +  - 语音识别 
-- 蛋白质结构预测(AlphaFold) +  - 蛋白质结构预测(AlphaFold) 
-- 推荐系统 +  - 推荐系统 
-- 时间序列预测+  - 时间序列预测
  
 ===== 2. 例题分析 ===== ===== 2. 例题分析 =====
行 306: 行 306:
  
 计算指数: 计算指数:
-- $\exp(1.155) \approx 3.174$ +  - $\exp(1.155) \approx 3.174$ 
-- $\exp(0.577) \approx 1.781$ +  - $\exp(0.577) \approx 1.781$ 
-- $\exp(0.577) \approx 1.781$+  - $\exp(0.577) \approx 1.781$
  
 求和:$3.174 + 1.781 + 1.781 = 6.736$ 求和:$3.174 + 1.781 + 1.781 = 6.736$
  
 注意力权重: 注意力权重:
-- $\alpha_1 = 3.174 / 6.736 \approx 0.471$ +  - $\alpha_1 = 3.174 / 6.736 \approx 0.471$ 
-- $\alpha_2 = 1.781 / 6.736 \approx 0.264$ +  - $\alpha_2 = 1.781 / 6.736 \approx 0.264$ 
-- $\alpha_3 = 1.781 / 6.736 \approx 0.264$+  - $\alpha_3 = 1.781 / 6.736 \approx 0.264$
  
 **步骤4:加权求和** **步骤4:加权求和**
行 463: 行 463:
 ==== 二、填空题 ==== ==== 二、填空题 ====
  
-6. 注意力机制的三个核心组件是________________________+6. 注意力机制的三个核心组件$\_\_\_\_$$\_\_\_\_$$\_\_\_\_$
  
-7. Transformer编码器包含________个相同的层,每层有________个子层。+7. Transformer编码器包含$\_\_\_\_$个相同的层,每层有$\_\_\_\_$个子层。
  
-8. 层归一化与批归一化的主要区别是层归一化对________进行归一化,不依赖________统计量。+8. 层归一化与批归一化的主要区别是层归一化对$\_\_\_\_$进行归一化,不依赖$\_\_\_\_$统计量。
  
 9. 残差连接的公式是$\text{LayerNorm}(x + \text{________}(x))$。 9. 残差连接的公式是$\text{LayerNorm}(x + \text{________}(x))$。
行 486: 行 486:
  
 1. **答案:B** 1. **答案:B**
-   解析:缩放因子防止点积值过大,避免softmax进入梯度极小的饱和区域。+ 
 +解析:缩放因子防止点积值过大,避免softmax进入梯度极小的饱和区域。
  
 2. **答案:B** 2. **答案:B**
-   解析:自注意力中,Q、K、V来自同一序列,通过不同的投影矩阵$W_Q, W_K, W_V$得到。+ 
 +解析:自注意力中,Q、K、V来自同一序列,通过不同的投影矩阵$W_Q, W_K, W_V$得到。
  
 3. **答案:B** 3. **答案:B**
-   解析:多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。+ 
 +解析:多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。
  
 4. **答案:C** 4. **答案:C**
-   解析:Transformer使用正弦/余弦位置编码显式注入位置信息,替代RNN的隐式位置建模。+ 
 +解析:Transformer使用正弦/余弦位置编码显式注入位置信息,替代RNN的隐式位置建模。
  
 5. **答案:B** 5. **答案:B**
-   解析:GPT仅使用Transformer解码器,BERT仅使用编码器,T5使用完整的编码器-解码器。+ 
 +解析:GPT仅使用Transformer解码器,BERT仅使用编码器,T5使用完整的编码器-解码器。
  
 **二、填空题答案:** **二、填空题答案:**
  
 6. **答案:**查询(Query);键(Key);值(Value) 6. **答案:**查询(Query);键(Key);值(Value)
-   解析:注意力机制的核心三元组,查询与键计算相似度,值提供实际内容。+ 
 +解析:注意力机制的核心三元组,查询与键计算相似度,值提供实际内容。
  
 7. **答案:**6(或N);2 7. **答案:**6(或N);2
-   解析:原论文使用6层编码器,每层包含多头自注意力和前馈网络两个子层。+ 
 +解析:原论文使用6层编码器,每层包含多头自注意力和前馈网络两个子层。
  
 8. **答案:**每个样本的所有特征;批次 8. **答案:**每个样本的所有特征;批次
-   解析:层归一化沿特征维度归一化,批归一化沿批次维度归一化。+ 
 +解析:层归一化沿特征维度归一化,批归一化沿批次维度归一化。
  
 9. **答案:**Sublayer 9. **答案:**Sublayer
-   解析:残差连接将子层输出与输入相加,再经过层归一化。+ 
 +解析:残差连接将子层输出与输入相加,再经过层归一化。
  
 10. **答案:**2 10. **答案:**2
-    解析:自注意力需要计算$n \times n$的注意力矩阵,复杂度为$O(n^2)$。+ 
 +解析:自注意力需要计算$n \times n$的注意力矩阵,复杂度为$O(n^2)$。
  
 **三、计算题答案:** **三、计算题答案:**
行 521: 行 531:
 11. **解答:** 11. **解答:**
          
-    $QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$+$QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$
          
-    缩放:$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$+缩放:$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$
          
-    Softmax: +Softmax: 
-    - $\exp(2.828) \approx 16.92$ +  - $\exp(2.828) \approx 16.92$ 
-    - $\exp(3.536) \approx 34.31$ +  - $\exp(3.536) \approx 34.31$ 
-    - 和 $\approx 51.23$ +  - 和 $\approx 51.23$ 
-    - $\alpha_1 = 16.92 / 51.23 \approx 0.330$ +  - $\alpha_1 = 16.92 / 51.23 \approx 0.330$ 
-    - $\alpha_2 = 34.31 / 51.23 \approx 0.670$+  - $\alpha_2 = 34.31 / 51.23 \approx 0.670$
          
-    输出:$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$+输出:$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$
  
 12. **解答:** 12. **解答:**
          
-    对于$i = 0$:$10000^{0/4} = 1$+对于$i = 0$:$10000^{0/4} = 1$
          
-    $PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$+$PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$
          
-    $PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$+$PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$
  
 13. **解答:** 13. **解答:**
          
-    $\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$+$\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$
          
-    $= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$+$= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$
          
-    $= [2.4, 3.4]$+$= [2.4, 3.4]$

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/注意力机制与transformer.1772461690.txt.gz
  • 最后更改: 2026/03/02 22:28
  • 张叶安