差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:循环神经网络 [2026/03/02 22:21] – [例题2：LSTM门控机制分析] 张叶安
+++ 深度学习:循环神经网络 [2026/03/02 22:23] (当前版本) – [4. 答案与解析] 张叶安
@@ 行 436: / 行 436: @@
 **分析**：
-- 注意力权重：$[0.245, 0.665, 0.090]$
+  - 注意力权重：$[0.245, 0.665, 0.090]$
-- 解码器关注程度：$h_2 > h_1 > h_3$
+  - 解码器关注程度：$h_2 > h_1 > h_3$
-- 这是因为$s_{t-1} = [1, 0]$与$h_2 = [2, 0]$方向最相似（点积最大）
+  - 这是因为$s_{t-1} = [1, 0]$与$h_2 = [2, 0]$方向最相似（点积最大）
-- 上下文向量是编码器状态的加权平均，偏向与解码器状态相似的$h_2$
+  - 上下文向量是编码器状态的加权平均，偏向与解码器状态相似的$h_2$
 ===== 3. 训练题 =====
@@ 行 500: / 行 500: @@
 . **答案：B**
-   解析：RNN在不同时间步使用相同的权重矩阵（$W_{xh}, W_{hh}$），这是RNN能够处理变长序列的基础。
+解析：RNN在不同时间步使用相同的权重矩阵（$W_{xh}, W_{hh}$），这是RNN能够处理变长序列的基础。
 . **答案：B**
-   解析：遗忘门（Forget Gate）通过$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$控制历史信息的保留程度。
+解析：遗忘门（Forget Gate）通过$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$控制历史信息的保留程度。
 . **答案：B**
-   解析：GRU将LSTM的遗忘门和输入门合并为更新门，细胞状态和隐藏状态合并，参数量约为LSTM的75%。
+解析：GRU将LSTM的遗忘门和输入门合并为更新门，细胞状态和隐藏状态合并，参数量约为LSTM的75%。
 . **答案：B**
-   解析：注意力机制允许解码器动态关注输入序列的不同部分，解决了固定长度上下文向量的信息瓶颈问题。
+解析：注意力机制允许解码器动态关注输入序列的不同部分，解决了固定长度上下文向量的信息瓶颈问题。
 . **答案：B**
-   解析：双向RNN包含前向和后向两个RNN，分别捕获过去和未来的上下文信息。
+解析：双向RNN包含前向和后向两个RNN，分别捕获过去和未来的上下文信息。
 **二、填空题答案：**
 . **答案：**输入；输出
-   解析：LSTM的三个门是遗忘门（Forget Gate）、输入门（Input Gate）和输出门（Output Gate）。
+解析：LSTM的三个门是遗忘门（Forget Gate）、输入门（Input Gate）和输出门（Output Gate）。
 . **答案：**加法
-   解析：$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$，加法更新使梯度可以直接传播，缓解了梯度消失。
+解析：$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$，加法更新使梯度可以直接传播，缓解了梯度消失。
 . **答案：**BPTT（或Backpropagation Through Time）
-   解析：BPTT将RNN按时间展开，使用反向传播算法计算梯度。
+解析：BPTT将RNN按时间展开，使用反向传播算法计算梯度。
 . **答案：**编码（Encoder）；解码（Decoder）
-   解析：Seq2Seq（序列到序列）模型由编码器处理输入序列，解码器生成输出序列。
+解析：Seq2Seq（序列到序列）模型由编码器处理输入序列，解码器生成输出序列。
 . **答案：**梯度爆炸
-    解析：当梯度过大时，梯度裁剪将其缩放到阈值以内，防止参数更新失控。
+解析：当梯度过大时，梯度裁剪将其缩放到阈值以内，防止参数更新失控。
 **三、计算题答案：**
@@ 行 535: / 行 545: @@
 . **解答：**
-    $h_1 = \tanh(0.5 \times 0 + 0.3 \times 1) = \tanh(0.3) \approx 0.291$
+$h_1 = \tanh(0.5 \times 0 + 0.3 \times 1) = \tanh(0.3) \approx 0.291$
-    $h_2 = \tanh(0.5 \times 0.291 + 0.3 \times 2) = \tanh(0.146 + 0.6) = \tanh(0.746) \approx 0.633$
+$h_2 = \tanh(0.5 \times 0.291 + 0.3 \times 2) = \tanh(0.146 + 0.6) = \tanh(0.746) \approx 0.633$
-    $h_3 = \tanh(0.5 \times 0.633 + 0.3 \times 1) = \tanh(0.317 + 0.3) = \tanh(0.617) \approx 0.549$
+$h_3 = \tanh(0.5 \times 0.633 + 0.3 \times 1) = \tanh(0.317 + 0.3) = \tanh(0.617) \approx 0.549$
-    因此：$h_1 \approx 0.291$，$h_2 \approx 0.633$，$h_3 \approx 0.549$
+因此：$h_1 \approx 0.291$，$h_2 \approx 0.633$，$h_3 \approx 0.549$
 . **解答：**
-    $C_t = f_t \times C_{t-1} + i_t \times \tilde{C}_t$
+$C_t = f_t \times C_{t-1} + i_t \times \tilde{C}_t$
-    $= 0.2 \times 10 + 0.8 \times 2$
+$= 0.2 \times 10 + 0.8 \times 2$
-    $= 2 + 1.6$
+$= 2 + 1.6$
-    $= 3.6$
+$= 3.6$
 . **解答：**
-    计算点积：
+计算点积：
-    - $e_1 = s \cdot h_1 = [2, 1] \cdot [1, 0] = 2 \times 1 + 1 \times 0 = 2$
+  - $e_1 = s \cdot h_1 = [2, 1] \cdot [1, 0] = 2 \times 1 + 1 \times 0 = 2$
-    - $e_2 = s \cdot h_2 = [2, 1] \cdot [1, 1] = 2 \times 1 + 1 \times 1 = 3$
+  - $e_2 = s \cdot h_2 = [2, 1] \cdot [1, 1] = 2 \times 1 + 1 \times 1 = 3$
-    - $e_3 = s \cdot h_3 = [2, 1] \cdot [0, 1] = 2 \times 0 + 1 \times 1 = 1$
+  - $e_3 = s \cdot h_3 = [2, 1] \cdot [0, 1] = 2 \times 0 + 1 \times 1 = 1$
-    Softmax：
+Softmax：
-    - $\sum \exp(e_i) = \exp(2) + \exp(3) + \exp(1) = 7.389 + 20.086 + 2.718 = 30.193$
+  - $\sum \exp(e_i) = \exp(2) + \exp(3) + \exp(1) = 7.389 + 20.086 + 2.718 = 30.193$
-    - $\alpha_1 = 7.389 / 30.193 \approx 0.245$
+  - $\alpha_1 = 7.389 / 30.193 \approx 0.245$
-    - $\alpha_2 = 20.086 / 30.193 \approx 0.665$
+  - $\alpha_2 = 20.086 / 30.193 \approx 0.665$
-    - $\alpha_3 = 2.718 / 30.193 \approx 0.090$
+  - $\alpha_3 = 2.718 / 30.193 \approx 0.090$
-    注意力权重：$[0.245, 0.665, 0.090]$
+注意力权重：$[0.245, 0.665, 0.090]$

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客