差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
| 深度学习:循环神经网络 [2026/03/02 22:21] – [例题2:LSTM门控机制分析] 张叶安 | 深度学习:循环神经网络 [2026/03/02 22:23] (当前版本) – [4. 答案与解析] 张叶安 | ||
|---|---|---|---|
| 行 436: | 行 436: | ||
| **分析**: | **分析**: | ||
| - | - 注意力权重:$[0.245, | + | |
| - | - 解码器关注程度:$h_2 > h_1 > h_3$ | + | - 解码器关注程度:$h_2 > h_1 > h_3$ |
| - | - 这是因为$s_{t-1} = [1, 0]$与$h_2 = [2, 0]$方向最相似(点积最大) | + | - 这是因为$s_{t-1} = [1, 0]$与$h_2 = [2, 0]$方向最相似(点积最大) |
| - | - 上下文向量是编码器状态的加权平均,偏向与解码器状态相似的$h_2$ | + | - 上下文向量是编码器状态的加权平均,偏向与解码器状态相似的$h_2$ |
| ===== 3. 训练题 ===== | ===== 3. 训练题 ===== | ||
| 行 500: | 行 500: | ||
| 1. **答案:B** | 1. **答案:B** | ||
| - | 解析:RNN在不同时间步使用相同的权重矩阵($W_{xh}, | + | |
| + | 解析:RNN在不同时间步使用相同的权重矩阵($W_{xh}, | ||
| 2. **答案:B** | 2. **答案:B** | ||
| - | 解析:遗忘门(Forget Gate)通过$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$控制历史信息的保留程度。 | + | |
| + | 解析:遗忘门(Forget Gate)通过$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$控制历史信息的保留程度。 | ||
| 3. **答案:B** | 3. **答案:B** | ||
| - | 解析:GRU将LSTM的遗忘门和输入门合并为更新门,细胞状态和隐藏状态合并,参数量约为LSTM的75%。 | + | |
| + | 解析:GRU将LSTM的遗忘门和输入门合并为更新门,细胞状态和隐藏状态合并,参数量约为LSTM的75%。 | ||
| 4. **答案:B** | 4. **答案:B** | ||
| - | 解析:注意力机制允许解码器动态关注输入序列的不同部分,解决了固定长度上下文向量的信息瓶颈问题。 | + | |
| + | 解析:注意力机制允许解码器动态关注输入序列的不同部分,解决了固定长度上下文向量的信息瓶颈问题。 | ||
| 5. **答案:B** | 5. **答案:B** | ||
| - | 解析:双向RNN包含前向和后向两个RNN,分别捕获过去和未来的上下文信息。 | + | |
| + | 解析:双向RNN包含前向和后向两个RNN,分别捕获过去和未来的上下文信息。 | ||
| **二、填空题答案:** | **二、填空题答案:** | ||
| 6. **答案:**输入;输出 | 6. **答案:**输入;输出 | ||
| - | 解析:LSTM的三个门是遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。 | + | |
| + | 解析:LSTM的三个门是遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。 | ||
| 7. **答案:**加法 | 7. **答案:**加法 | ||
| - | 解析:$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$,加法更新使梯度可以直接传播,缓解了梯度消失。 | + | |
| + | 解析:$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$,加法更新使梯度可以直接传播,缓解了梯度消失。 | ||
| 8. **答案:**BPTT(或Backpropagation Through Time) | 8. **答案:**BPTT(或Backpropagation Through Time) | ||
| - | 解析:BPTT将RNN按时间展开,使用反向传播算法计算梯度。 | + | |
| + | 解析:BPTT将RNN按时间展开,使用反向传播算法计算梯度。 | ||
| 9. **答案:**编码(Encoder);解码(Decoder) | 9. **答案:**编码(Encoder);解码(Decoder) | ||
| - | 解析:Seq2Seq(序列到序列)模型由编码器处理输入序列,解码器生成输出序列。 | + | |
| + | 解析:Seq2Seq(序列到序列)模型由编码器处理输入序列,解码器生成输出序列。 | ||
| 10. **答案:**梯度爆炸 | 10. **答案:**梯度爆炸 | ||
| - | | + | |
| + | 解析:当梯度过大时,梯度裁剪将其缩放到阈值以内,防止参数更新失控。 | ||
| **三、计算题答案:** | **三、计算题答案:** | ||
| 行 535: | 行 545: | ||
| 11. **解答:** | 11. **解答:** | ||
| | | ||
| - | | + | $h_1 = \tanh(0.5 \times 0 + 0.3 \times 1) = \tanh(0.3) \approx 0.291$ |
| | | ||
| - | | + | |
| + | $h_2 = \tanh(0.5 \times 0.291 + 0.3 \times 2) = \tanh(0.146 + 0.6) = \tanh(0.746) \approx 0.633$ | ||
| | | ||
| - | | + | $h_3 = \tanh(0.5 \times 0.633 + 0.3 \times 1) = \tanh(0.317 + 0.3) = \tanh(0.617) \approx 0.549$ |
| | | ||
| - | | + | 因此:$h_1 \approx 0.291$,$h_2 \approx 0.633$,$h_3 \approx 0.549$ |
| 12. **解答:** | 12. **解答:** | ||
| | | ||
| - | | + | |
| + | $C_t = f_t \times C_{t-1} + i_t \times \tilde{C}_t$ | ||
| | | ||
| - | | + | $= 0.2 \times 10 + 0.8 \times 2$ |
| | | ||
| - | | + | $= 2 + 1.6$ |
| | | ||
| - | | + | $= 3.6$ |
| 13. **解答:** | 13. **解答:** | ||
| | | ||
| - | | + | 计算点积: |
| - | - $e_1 = s \cdot h_1 = [2, 1] \cdot [1, 0] = 2 \times 1 + 1 \times 0 = 2$ | + | - $e_1 = s \cdot h_1 = [2, 1] \cdot [1, 0] = 2 \times 1 + 1 \times 0 = 2$ |
| - | - $e_2 = s \cdot h_2 = [2, 1] \cdot [1, 1] = 2 \times 1 + 1 \times 1 = 3$ | + | - $e_2 = s \cdot h_2 = [2, 1] \cdot [1, 1] = 2 \times 1 + 1 \times 1 = 3$ |
| - | - $e_3 = s \cdot h_3 = [2, 1] \cdot [0, 1] = 2 \times 0 + 1 \times 1 = 1$ | + | - $e_3 = s \cdot h_3 = [2, 1] \cdot [0, 1] = 2 \times 0 + 1 \times 1 = 1$ |
| | | ||
| - | | + | Softmax: |
| - | - $\sum \exp(e_i) = \exp(2) + \exp(3) + \exp(1) = 7.389 + 20.086 + 2.718 = 30.193$ | + | - $\sum \exp(e_i) = \exp(2) + \exp(3) + \exp(1) = 7.389 + 20.086 + 2.718 = 30.193$ |
| - | - $\alpha_1 = 7.389 / 30.193 \approx 0.245$ | + | - $\alpha_1 = 7.389 / 30.193 \approx 0.245$ |
| - | - $\alpha_2 = 20.086 / 30.193 \approx 0.665$ | + | - $\alpha_2 = 20.086 / 30.193 \approx 0.665$ |
| - | - $\alpha_3 = 2.718 / 30.193 \approx 0.090$ | + | - $\alpha_3 = 2.718 / 30.193 \approx 0.090$ |
| | | ||
| - | | + | 注意力权重:$[0.245, |