深度学习:注意力机制与transformer

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
深度学习:注意力机制与transformer [2026/03/02 22:31] – [二、填空题] 张叶安深度学习:注意力机制与transformer [2026/03/02 22:33] (当前版本) – [4. 答案与解析] 张叶安
行 486: 行 486:
  
 1. **答案:B** 1. **答案:B**
-   解析:缩放因子防止点积值过大,避免softmax进入梯度极小的饱和区域。+ 
 +解析:缩放因子防止点积值过大,避免softmax进入梯度极小的饱和区域。
  
 2. **答案:B** 2. **答案:B**
-   解析:自注意力中,Q、K、V来自同一序列,通过不同的投影矩阵$W_Q, W_K, W_V$得到。+ 
 +解析:自注意力中,Q、K、V来自同一序列,通过不同的投影矩阵$W_Q, W_K, W_V$得到。
  
 3. **答案:B** 3. **答案:B**
-   解析:多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。+ 
 +解析:多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。
  
 4. **答案:C** 4. **答案:C**
-   解析:Transformer使用正弦/余弦位置编码显式注入位置信息,替代RNN的隐式位置建模。+ 
 +解析:Transformer使用正弦/余弦位置编码显式注入位置信息,替代RNN的隐式位置建模。
  
 5. **答案:B** 5. **答案:B**
-   解析:GPT仅使用Transformer解码器,BERT仅使用编码器,T5使用完整的编码器-解码器。+ 
 +解析:GPT仅使用Transformer解码器,BERT仅使用编码器,T5使用完整的编码器-解码器。
  
 **二、填空题答案:** **二、填空题答案:**
  
 6. **答案:**查询(Query);键(Key);值(Value) 6. **答案:**查询(Query);键(Key);值(Value)
-   解析:注意力机制的核心三元组,查询与键计算相似度,值提供实际内容。+ 
 +解析:注意力机制的核心三元组,查询与键计算相似度,值提供实际内容。
  
 7. **答案:**6(或N);2 7. **答案:**6(或N);2
-   解析:原论文使用6层编码器,每层包含多头自注意力和前馈网络两个子层。+ 
 +解析:原论文使用6层编码器,每层包含多头自注意力和前馈网络两个子层。
  
 8. **答案:**每个样本的所有特征;批次 8. **答案:**每个样本的所有特征;批次
-   解析:层归一化沿特征维度归一化,批归一化沿批次维度归一化。+ 
 +解析:层归一化沿特征维度归一化,批归一化沿批次维度归一化。
  
 9. **答案:**Sublayer 9. **答案:**Sublayer
-   解析:残差连接将子层输出与输入相加,再经过层归一化。+ 
 +解析:残差连接将子层输出与输入相加,再经过层归一化。
  
 10. **答案:**2 10. **答案:**2
-    解析:自注意力需要计算$n \times n$的注意力矩阵,复杂度为$O(n^2)$。+ 
 +解析:自注意力需要计算$n \times n$的注意力矩阵,复杂度为$O(n^2)$。
  
 **三、计算题答案:** **三、计算题答案:**
行 521: 行 531:
 11. **解答:** 11. **解答:**
          
-    $QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$+$QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$
          
-    缩放:$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$+缩放:$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$
          
-    Softmax: +Softmax: 
-    - $\exp(2.828) \approx 16.92$ +  - $\exp(2.828) \approx 16.92$ 
-    - $\exp(3.536) \approx 34.31$ +  - $\exp(3.536) \approx 34.31$ 
-    - 和 $\approx 51.23$ +  - 和 $\approx 51.23$ 
-    - $\alpha_1 = 16.92 / 51.23 \approx 0.330$ +  - $\alpha_1 = 16.92 / 51.23 \approx 0.330$ 
-    - $\alpha_2 = 34.31 / 51.23 \approx 0.670$+  - $\alpha_2 = 34.31 / 51.23 \approx 0.670$
          
-    输出:$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$+输出:$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$
  
 12. **解答:** 12. **解答:**
          
-    对于$i = 0$:$10000^{0/4} = 1$+对于$i = 0$:$10000^{0/4} = 1$
          
-    $PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$+$PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$
          
-    $PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$+$PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$
  
 13. **解答:** 13. **解答:**
          
-    $\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$+$\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$
          
-    $= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$+$= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$
          
-    $= [2.4, 3.4]$+$= [2.4, 3.4]$

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/注意力机制与transformer.txt
  • 最后更改: 2026/03/02 22:33
  • 张叶安