深度学习:循环神经网络

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:循环神经网络 [2026/03/02 22:21] – [例题2:LSTM门控机制分析] 张叶安深度学习:循环神经网络 [2026/03/02 22:23] (当前版本) – [4. 答案与解析] 张叶安
行 436: 行 436:
  
 **分析**: **分析**:
-- 注意力权重:$[0.245, 0.665, 0.090]$ +  - 注意力权重:$[0.245, 0.665, 0.090]$ 
-- 解码器关注程度:$h_2 > h_1 > h_3$ +  - 解码器关注程度:$h_2 > h_1 > h_3$ 
-- 这是因为$s_{t-1} = [1, 0]$与$h_2 = [2, 0]$方向最相似(点积最大) +  - 这是因为$s_{t-1} = [1, 0]$与$h_2 = [2, 0]$方向最相似(点积最大) 
-- 上下文向量是编码器状态的加权平均,偏向与解码器状态相似的$h_2$+  - 上下文向量是编码器状态的加权平均,偏向与解码器状态相似的$h_2$
  
 ===== 3. 训练题 ===== ===== 3. 训练题 =====
行 500: 行 500:
  
 1. **答案:B** 1. **答案:B**
-   解析:RNN在不同时间步使用相同的权重矩阵($W_{xh}, W_{hh}$),这是RNN能够处理变长序列的基础。+ 
 +解析:RNN在不同时间步使用相同的权重矩阵($W_{xh}, W_{hh}$),这是RNN能够处理变长序列的基础。
  
 2. **答案:B** 2. **答案:B**
-   解析:遗忘门(Forget Gate)通过$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$控制历史信息的保留程度。+ 
 +解析:遗忘门(Forget Gate)通过$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$控制历史信息的保留程度。
  
 3. **答案:B** 3. **答案:B**
-   解析:GRU将LSTM的遗忘门和输入门合并为更新门,细胞状态和隐藏状态合并,参数量约为LSTM的75%。+ 
 +解析:GRU将LSTM的遗忘门和输入门合并为更新门,细胞状态和隐藏状态合并,参数量约为LSTM的75%。
  
 4. **答案:B** 4. **答案:B**
-   解析:注意力机制允许解码器动态关注输入序列的不同部分,解决了固定长度上下文向量的信息瓶颈问题。+ 
 +解析:注意力机制允许解码器动态关注输入序列的不同部分,解决了固定长度上下文向量的信息瓶颈问题。
  
 5. **答案:B** 5. **答案:B**
-   解析:双向RNN包含前向和后向两个RNN,分别捕获过去和未来的上下文信息。+ 
 +解析:双向RNN包含前向和后向两个RNN,分别捕获过去和未来的上下文信息。
  
 **二、填空题答案:** **二、填空题答案:**
  
 6. **答案:**输入;输出 6. **答案:**输入;输出
-   解析:LSTM的三个门是遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。+ 
 +解析:LSTM的三个门是遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。
  
 7. **答案:**加法 7. **答案:**加法
-   解析:$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$,加法更新使梯度可以直接传播,缓解了梯度消失。+ 
 +解析:$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$,加法更新使梯度可以直接传播,缓解了梯度消失。
  
 8. **答案:**BPTT(或Backpropagation Through Time) 8. **答案:**BPTT(或Backpropagation Through Time)
-   解析:BPTT将RNN按时间展开,使用反向传播算法计算梯度。+ 
 +解析:BPTT将RNN按时间展开,使用反向传播算法计算梯度。
  
 9. **答案:**编码(Encoder);解码(Decoder) 9. **答案:**编码(Encoder);解码(Decoder)
-   解析:Seq2Seq(序列到序列)模型由编码器处理输入序列,解码器生成输出序列。+ 
 +解析:Seq2Seq(序列到序列)模型由编码器处理输入序列,解码器生成输出序列。
  
 10. **答案:**梯度爆炸 10. **答案:**梯度爆炸
-    解析:当梯度过大时,梯度裁剪将其缩放到阈值以内,防止参数更新失控。+ 
 +解析:当梯度过大时,梯度裁剪将其缩放到阈值以内,防止参数更新失控。
  
 **三、计算题答案:** **三、计算题答案:**
行 535: 行 545:
 11. **解答:** 11. **解答:**
          
-    $h_1 = \tanh(0.5 \times 0 + 0.3 \times 1) = \tanh(0.3) \approx 0.291$+$h_1 = \tanh(0.5 \times 0 + 0.3 \times 1) = \tanh(0.3) \approx 0.291$
          
-    $h_2 = \tanh(0.5 \times 0.291 + 0.3 \times 2) = \tanh(0.146 + 0.6) = \tanh(0.746) \approx 0.633$+   
 +$h_2 = \tanh(0.5 \times 0.291 + 0.3 \times 2) = \tanh(0.146 + 0.6) = \tanh(0.746) \approx 0.633$
          
-    $h_3 = \tanh(0.5 \times 0.633 + 0.3 \times 1) = \tanh(0.317 + 0.3) = \tanh(0.617) \approx 0.549$+$h_3 = \tanh(0.5 \times 0.633 + 0.3 \times 1) = \tanh(0.317 + 0.3) = \tanh(0.617) \approx 0.549$
          
-    因此:$h_1 \approx 0.291$,$h_2 \approx 0.633$,$h_3 \approx 0.549$+因此:$h_1 \approx 0.291$,$h_2 \approx 0.633$,$h_3 \approx 0.549$
  
 12. **解答:** 12. **解答:**
          
-    $C_t = f_t \times C_{t-1} + i_t \times \tilde{C}_t$+ 
 +$C_t = f_t \times C_{t-1} + i_t \times \tilde{C}_t$
          
-    $= 0.2 \times 10 + 0.8 \times 2$+$= 0.2 \times 10 + 0.8 \times 2$
          
-    $= 2 + 1.6$+$= 2 + 1.6$
          
-    $= 3.6$+$= 3.6$
  
 13. **解答:** 13. **解答:**
          
-    计算点积: +计算点积: 
-    - $e_1 = s \cdot h_1 = [2, 1] \cdot [1, 0] = 2 \times 1 + 1 \times 0 = 2$ +  - $e_1 = s \cdot h_1 = [2, 1] \cdot [1, 0] = 2 \times 1 + 1 \times 0 = 2$ 
-    - $e_2 = s \cdot h_2 = [2, 1] \cdot [1, 1] = 2 \times 1 + 1 \times 1 = 3$ +  - $e_2 = s \cdot h_2 = [2, 1] \cdot [1, 1] = 2 \times 1 + 1 \times 1 = 3$ 
-    - $e_3 = s \cdot h_3 = [2, 1] \cdot [0, 1] = 2 \times 0 + 1 \times 1 = 1$+  - $e_3 = s \cdot h_3 = [2, 1] \cdot [0, 1] = 2 \times 0 + 1 \times 1 = 1$
          
-    Softmax: +Softmax: 
-    - $\sum \exp(e_i) = \exp(2) + \exp(3) + \exp(1) = 7.389 + 20.086 + 2.718 = 30.193$ +  - $\sum \exp(e_i) = \exp(2) + \exp(3) + \exp(1) = 7.389 + 20.086 + 2.718 = 30.193$ 
-    - $\alpha_1 = 7.389 / 30.193 \approx 0.245$ +  - $\alpha_1 = 7.389 / 30.193 \approx 0.245$ 
-    - $\alpha_2 = 20.086 / 30.193 \approx 0.665$ +  - $\alpha_2 = 20.086 / 30.193 \approx 0.665$ 
-    - $\alpha_3 = 2.718 / 30.193 \approx 0.090$+  - $\alpha_3 = 2.718 / 30.193 \approx 0.090$
          
-    注意力权重:$[0.245, 0.665, 0.090]$+注意力权重:$[0.245, 0.665, 0.090]$

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/循环神经网络.1772461278.txt.gz
  • 最后更改: 2026/03/02 22:21
  • 张叶安