差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:注意力机制与transformer [2026/03/02 22:29] – [例题1：缩放点积注意力计算] 张叶安
+++ 深度学习:注意力机制与transformer [2026/03/02 22:33] (当前版本) – [4. 答案与解析] 张叶安
@@ 行 463: / 行 463: @@
 ==== 二、填空题 ====
-. 注意力机制的三个核心组件是________、________和________。
+. 注意力机制的三个核心组件$\_\_\_\_$、$\_\_\_\_$和$\_\_\_\_$。
-. Transformer编码器包含________个相同的层，每层有________个子层。
+. Transformer编码器包含$\_\_\_\_$个相同的层，每层有$\_\_\_\_$个子层。
-. 层归一化与批归一化的主要区别是层归一化对________进行归一化，不依赖________统计量。
+. 层归一化与批归一化的主要区别是层归一化对$\_\_\_\_$进行归一化，不依赖$\_\_\_\_$统计量。
 . 残差连接的公式是$\text{LayerNorm}(x + \text{________}(x))$。
@@ 行 486: / 行 486: @@
 . **答案：B**
-   解析：缩放因子防止点积值过大，避免softmax进入梯度极小的饱和区域。
+解析：缩放因子防止点积值过大，避免softmax进入梯度极小的饱和区域。
 . **答案：B**
-   解析：自注意力中，Q、K、V来自同一序列，通过不同的投影矩阵$W_Q, W_K, W_V$得到。
+解析：自注意力中，Q、K、V来自同一序列，通过不同的投影矩阵$W_Q, W_K, W_V$得到。
 . **答案：B**
-   解析：多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。
+解析：多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。
 . **答案：C**
-   解析：Transformer使用正弦/余弦位置编码显式注入位置信息，替代RNN的隐式位置建模。
+解析：Transformer使用正弦/余弦位置编码显式注入位置信息，替代RNN的隐式位置建模。
 . **答案：B**
-   解析：GPT仅使用Transformer解码器，BERT仅使用编码器，T5使用完整的编码器-解码器。
+解析：GPT仅使用Transformer解码器，BERT仅使用编码器，T5使用完整的编码器-解码器。
 **二、填空题答案：**
 . **答案：**查询（Query）；键（Key）；值（Value）
-   解析：注意力机制的核心三元组，查询与键计算相似度，值提供实际内容。
+解析：注意力机制的核心三元组，查询与键计算相似度，值提供实际内容。
 . **答案：**6（或N）；2
-   解析：原论文使用6层编码器，每层包含多头自注意力和前馈网络两个子层。
+解析：原论文使用6层编码器，每层包含多头自注意力和前馈网络两个子层。
 . **答案：**每个样本的所有特征；批次
-   解析：层归一化沿特征维度归一化，批归一化沿批次维度归一化。
+解析：层归一化沿特征维度归一化，批归一化沿批次维度归一化。
 . **答案：**Sublayer
-   解析：残差连接将子层输出与输入相加，再经过层归一化。
+解析：残差连接将子层输出与输入相加，再经过层归一化。
 . **答案：**2
-    解析：自注意力需要计算$n \times n$的注意力矩阵，复杂度为$O(n^2)$。
+解析：自注意力需要计算$n \times n$的注意力矩阵，复杂度为$O(n^2)$。
 **三、计算题答案：**
@@ 行 521: / 行 531: @@
 . **解答：**
-    $QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$
+$QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$
-    缩放：$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$
+缩放：$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$
-    Softmax：
+Softmax：
-    - $\exp(2.828) \approx 16.92$
+  - $\exp(2.828) \approx 16.92$
-    - $\exp(3.536) \approx 34.31$
+  - $\exp(3.536) \approx 34.31$
-    - 和 $\approx 51.23$
+  - 和 $\approx 51.23$
-    - $\alpha_1 = 16.92 / 51.23 \approx 0.330$
+  - $\alpha_1 = 16.92 / 51.23 \approx 0.330$
-    - $\alpha_2 = 34.31 / 51.23 \approx 0.670$
+  - $\alpha_2 = 34.31 / 51.23 \approx 0.670$
-    输出：$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$
+输出：$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$
 . **解答：**
-    对于$i = 0$：$10000^{0/4} = 1$
+对于$i = 0$：$10000^{0/4} = 1$
-    $PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$
+$PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$
-    $PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$
+$PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$
 . **解答：**
-    $\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$
+$\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$
-    $= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$
+$= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$
-    $= [2.4, 3.4]$
+$= [2.4, 3.4]$

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客