差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:注意力机制与transformer [2026/03/02 22:28] – [1.5 Transformer的变体与优化] 张叶安
+++ 深度学习:注意力机制与transformer [2026/03/02 22:33] (当前版本) – [4. 答案与解析] 张叶安
@@ 行 242: / 行 242: @@
 注意力权重天然具有可解释性。通过可视化注意力矩阵，可以观察模型关注输入的哪些部分：
-- **编码器自注意力**：显示输入序列内部的关系
+  - **编码器自注意力**：显示输入序列内部的关系
-- **解码器自注意力**：显示生成过程中的依赖
+  - **解码器自注意力**：显示生成过程中的依赖
-- **交叉注意力**：显示输出与输入的对齐关系
+  - **交叉注意力**：显示输出与输入的对齐关系
 **注意力作为解释工具**
 注意力权重可以回答"模型在决策时关注了什么"。例如：
-- 机器翻译中，可以看到源语言词与目标语言词的对应
+  - 机器翻译中，可以看到源语言词与目标语言词的对应
-- 情感分析中，可以看到影响分类的关键词
+  - 情感分析中，可以看到影响分类的关键词
 **注意力的局限性**
-- 注意力权重不等于特征重要性
+  - 注意力权重不等于特征重要性
-- 多头注意力的可解释性较复杂
+  - 多头注意力的可解释性较复杂
-- 注意力分布可能集中在特定token（如[CLS]）
+  - 注意力分布可能集中在特定token（如[CLS]）
 ==== 1.7 注意力机制的应用领域 ====
 **自然语言处理**：
-- 机器翻译、文本摘要、问答系统
+  - 机器翻译、文本摘要、问答系统
-- 预训练语言模型（BERT、GPT、T5）
+  - 预训练语言模型（BERT、GPT、T5）
-- 信息抽取、情感分析
+  - 信息抽取、情感分析
 **计算机视觉**：
-- 视觉Transformer（ViT）：将图像分割为patch，应用Transformer
+  - 视觉Transformer（ViT）：将图像分割为patch，应用Transformer
-- 目标检测（DETR）：端到端目标检测
+  - 目标检测（DETR）：端到端目标检测
-- 图像生成（DALL-E、Stable Diffusion）
+  - 图像生成（DALL-E、Stable Diffusion）
 **多模态学习**：
-- 图像-文本对齐（CLIP）
+  - 图像-文本对齐（CLIP）
-- 视觉问答
+  - 视觉问答
-- 文生图、图生文
+  - 文生图、图生文
 **其他领域**：
-- 语音识别
+  - 语音识别
-- 蛋白质结构预测（AlphaFold）
+  - 蛋白质结构预测（AlphaFold）
-- 推荐系统
+  - 推荐系统
-- 时间序列预测
+  - 时间序列预测
 ===== 2. 例题分析 =====
@@ 行 306: / 行 306: @@
 计算指数：
-- $\exp(1.155) \approx 3.174$
+  - $\exp(1.155) \approx 3.174$
-- $\exp(0.577) \approx 1.781$
+  - $\exp(0.577) \approx 1.781$
-- $\exp(0.577) \approx 1.781$
+  - $\exp(0.577) \approx 1.781$
 求和：$3.174 + 1.781 + 1.781 = 6.736$
 注意力权重：
-- $\alpha_1 = 3.174 / 6.736 \approx 0.471$
+  - $\alpha_1 = 3.174 / 6.736 \approx 0.471$
-- $\alpha_2 = 1.781 / 6.736 \approx 0.264$
+  - $\alpha_2 = 1.781 / 6.736 \approx 0.264$
-- $\alpha_3 = 1.781 / 6.736 \approx 0.264$
+  - $\alpha_3 = 1.781 / 6.736 \approx 0.264$
 **步骤4：加权求和**
@@ 行 463: / 行 463: @@
 ==== 二、填空题 ====
-. 注意力机制的三个核心组件是________、________和________。
+. 注意力机制的三个核心组件$\_\_\_\_$、$\_\_\_\_$和$\_\_\_\_$。
-. Transformer编码器包含________个相同的层，每层有________个子层。
+. Transformer编码器包含$\_\_\_\_$个相同的层，每层有$\_\_\_\_$个子层。
-. 层归一化与批归一化的主要区别是层归一化对________进行归一化，不依赖________统计量。
+. 层归一化与批归一化的主要区别是层归一化对$\_\_\_\_$进行归一化，不依赖$\_\_\_\_$统计量。
 . 残差连接的公式是$\text{LayerNorm}(x + \text{________}(x))$。
@@ 行 486: / 行 486: @@
 . **答案：B**
-   解析：缩放因子防止点积值过大，避免softmax进入梯度极小的饱和区域。
+解析：缩放因子防止点积值过大，避免softmax进入梯度极小的饱和区域。
 . **答案：B**
-   解析：自注意力中，Q、K、V来自同一序列，通过不同的投影矩阵$W_Q, W_K, W_V$得到。
+解析：自注意力中，Q、K、V来自同一序列，通过不同的投影矩阵$W_Q, W_K, W_V$得到。
 . **答案：B**
-   解析：多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。
+解析：多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。
 . **答案：C**
-   解析：Transformer使用正弦/余弦位置编码显式注入位置信息，替代RNN的隐式位置建模。
+解析：Transformer使用正弦/余弦位置编码显式注入位置信息，替代RNN的隐式位置建模。
 . **答案：B**
-   解析：GPT仅使用Transformer解码器，BERT仅使用编码器，T5使用完整的编码器-解码器。
+解析：GPT仅使用Transformer解码器，BERT仅使用编码器，T5使用完整的编码器-解码器。
 **二、填空题答案：**
 . **答案：**查询（Query）；键（Key）；值（Value）
-   解析：注意力机制的核心三元组，查询与键计算相似度，值提供实际内容。
+解析：注意力机制的核心三元组，查询与键计算相似度，值提供实际内容。
 . **答案：**6（或N）；2
-   解析：原论文使用6层编码器，每层包含多头自注意力和前馈网络两个子层。
+解析：原论文使用6层编码器，每层包含多头自注意力和前馈网络两个子层。
 . **答案：**每个样本的所有特征；批次
-   解析：层归一化沿特征维度归一化，批归一化沿批次维度归一化。
+解析：层归一化沿特征维度归一化，批归一化沿批次维度归一化。
 . **答案：**Sublayer
-   解析：残差连接将子层输出与输入相加，再经过层归一化。
+解析：残差连接将子层输出与输入相加，再经过层归一化。
 . **答案：**2
-    解析：自注意力需要计算$n \times n$的注意力矩阵，复杂度为$O(n^2)$。
+解析：自注意力需要计算$n \times n$的注意力矩阵，复杂度为$O(n^2)$。
 **三、计算题答案：**
@@ 行 521: / 行 531: @@
 . **解答：**
-    $QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$
+$QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$
-    缩放：$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$
+缩放：$[4, 5] / \sqrt{2} \approx [2.828, 3.536]$
-    Softmax：
+Softmax：
-    - $\exp(2.828) \approx 16.92$
+  - $\exp(2.828) \approx 16.92$
-    - $\exp(3.536) \approx 34.31$
+  - $\exp(3.536) \approx 34.31$
-    - 和 $\approx 51.23$
+  - 和 $\approx 51.23$
-    - $\alpha_1 = 16.92 / 51.23 \approx 0.330$
+  - $\alpha_1 = 16.92 / 51.23 \approx 0.330$
-    - $\alpha_2 = 34.31 / 51.23 \approx 0.670$
+  - $\alpha_2 = 34.31 / 51.23 \approx 0.670$
-    输出：$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$
+输出：$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$
 . **解答：**
-    对于$i = 0$：$10000^{0/4} = 1$
+对于$i = 0$：$10000^{0/4} = 1$
-    $PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$
+$PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$
-    $PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$
+$PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$
 . **解答：**
-    $\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$
+$\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$
-    $= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$
+$= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$
-    $= [2.4, 3.4]$
+$= [2.4, 3.4]$

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客