差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
| 深度学习:注意力机制与transformer [2026/03/02 22:29] – [例题1:缩放点积注意力计算] 张叶安 | 深度学习:注意力机制与transformer [2026/03/02 22:33] (当前版本) – [4. 答案与解析] 张叶安 | ||
|---|---|---|---|
| 行 463: | 行 463: | ||
| ==== 二、填空题 ==== | ==== 二、填空题 ==== | ||
| - | 6. 注意力机制的三个核心组件是________、________和________。 | + | 6. 注意力机制的三个核心组件$\_\_\_\_$、$\_\_\_\_$和$\_\_\_\_$。 |
| - | 7. Transformer编码器包含________个相同的层,每层有________个子层。 | + | 7. Transformer编码器包含$\_\_\_\_$个相同的层,每层有$\_\_\_\_$个子层。 |
| - | 8. 层归一化与批归一化的主要区别是层归一化对________进行归一化,不依赖________统计量。 | + | 8. 层归一化与批归一化的主要区别是层归一化对$\_\_\_\_$进行归一化,不依赖$\_\_\_\_$统计量。 |
| 9. 残差连接的公式是$\text{LayerNorm}(x + \text{________}(x))$。 | 9. 残差连接的公式是$\text{LayerNorm}(x + \text{________}(x))$。 | ||
| 行 486: | 行 486: | ||
| 1. **答案:B** | 1. **答案:B** | ||
| - | 解析:缩放因子防止点积值过大,避免softmax进入梯度极小的饱和区域。 | + | |
| + | 解析:缩放因子防止点积值过大,避免softmax进入梯度极小的饱和区域。 | ||
| 2. **答案:B** | 2. **答案:B** | ||
| - | 解析:自注意力中,Q、K、V来自同一序列,通过不同的投影矩阵$W_Q, | + | |
| + | 解析:自注意力中,Q、K、V来自同一序列,通过不同的投影矩阵$W_Q, | ||
| 3. **答案:B** | 3. **答案:B** | ||
| - | 解析:多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。 | + | |
| + | 解析:多头注意力允许模型在不同表示子空间中学习不同类型的依赖关系。 | ||
| 4. **答案:C** | 4. **答案:C** | ||
| - | 解析:Transformer使用正弦/ | + | |
| + | 解析:Transformer使用正弦/ | ||
| 5. **答案:B** | 5. **答案:B** | ||
| - | 解析:GPT仅使用Transformer解码器,BERT仅使用编码器,T5使用完整的编码器-解码器。 | + | |
| + | 解析:GPT仅使用Transformer解码器,BERT仅使用编码器,T5使用完整的编码器-解码器。 | ||
| **二、填空题答案:** | **二、填空题答案:** | ||
| 6. **答案:**查询(Query);键(Key);值(Value) | 6. **答案:**查询(Query);键(Key);值(Value) | ||
| - | 解析:注意力机制的核心三元组,查询与键计算相似度,值提供实际内容。 | + | |
| + | 解析:注意力机制的核心三元组,查询与键计算相似度,值提供实际内容。 | ||
| 7. **答案:**6(或N);2 | 7. **答案:**6(或N);2 | ||
| - | 解析:原论文使用6层编码器,每层包含多头自注意力和前馈网络两个子层。 | + | |
| + | 解析:原论文使用6层编码器,每层包含多头自注意力和前馈网络两个子层。 | ||
| 8. **答案:**每个样本的所有特征;批次 | 8. **答案:**每个样本的所有特征;批次 | ||
| - | 解析:层归一化沿特征维度归一化,批归一化沿批次维度归一化。 | + | |
| + | 解析:层归一化沿特征维度归一化,批归一化沿批次维度归一化。 | ||
| 9. **答案:**Sublayer | 9. **答案:**Sublayer | ||
| - | 解析:残差连接将子层输出与输入相加,再经过层归一化。 | + | |
| + | 解析:残差连接将子层输出与输入相加,再经过层归一化。 | ||
| 10. **答案:**2 | 10. **答案:**2 | ||
| - | | + | |
| + | 解析:自注意力需要计算$n \times n$的注意力矩阵,复杂度为$O(n^2)$。 | ||
| **三、计算题答案:** | **三、计算题答案:** | ||
| 行 521: | 行 531: | ||
| 11. **解答:** | 11. **解答:** | ||
| | | ||
| - | | + | $QK^T = [2, 1] \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} = [2\times1 + 1\times2,\; 2\times2 + 1\times1] = [4, 5]$ |
| | | ||
| - | | + | 缩放:$[4, |
| | | ||
| - | | + | Softmax: |
| - | - $\exp(2.828) \approx 16.92$ | + | - $\exp(2.828) \approx 16.92$ |
| - | - $\exp(3.536) \approx 34.31$ | + | - $\exp(3.536) \approx 34.31$ |
| - | - 和 $\approx 51.23$ | + | - 和 $\approx 51.23$ |
| - | - $\alpha_1 = 16.92 / 51.23 \approx 0.330$ | + | - $\alpha_1 = 16.92 / 51.23 \approx 0.330$ |
| - | - $\alpha_2 = 34.31 / 51.23 \approx 0.670$ | + | - $\alpha_2 = 34.31 / 51.23 \approx 0.670$ |
| | | ||
| - | | + | 输出:$0.330 \times [3, 1] + 0.670 \times [2, 4] = [0.990, 0.330] + [1.340, 2.680] = [2.330, 3.010]$ |
| 12. **解答:** | 12. **解答:** | ||
| | | ||
| - | | + | 对于$i = 0$:$10000^{0/ |
| | | ||
| - | | + | $PE_{(1,0)} = \sin(1/1) = \sin(1) \approx 0.841$ |
| | | ||
| - | | + | $PE_{(1,1)} = \cos(1/1) = \cos(1) \approx 0.540$ |
| 13. **解答:** | 13. **解答:** | ||
| | | ||
| - | | + | $\text{Output} = 0.5 \times [1, 2] + 0.3 \times [3, 4] + 0.2 \times [5, 6]$ |
| | | ||
| - | | + | $= [0.5, 1.0] + [0.9, 1.2] + [1.0, 1.2]$ |
| | | ||
| - | | + | $= [2.4, 3.4]$ |