深度学习:反向传播算法

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:反向传播算法 [2026/03/02 21:29] – [3.5.3 解决方法] 张叶安深度学习:反向传播算法 [2026/03/02 21:37] (当前版本) – [计算题答案] 张叶安
行 296: 行 296:
  
 **题目**:考虑以下简单网络: **题目**:考虑以下简单网络:
-- 输入:$x = 2$ +  - 输入:$x = 2$ 
-- 权重:$w_1 = 0.5$,$w_2 = 0.3$ +  - 权重:$w_1 = 0.5$,$w_2 = 0.3$ 
-- 计算:$z_1 = w_1 \cdot x$,$a_1 = \text{ReLU}(z_1)$,$\hat{y} = w_2 \cdot a_1$ +  - 计算:$z_1 = w_1 \cdot x$,$a_1 = \text{ReLU}(z_1)$,$\hat{y} = w_2 \cdot a_1$ 
-- 真实值:$y = 1$ +  - 真实值:$y = 1$ 
-- 损失函数:$\mathcal{L} = \frac{1}{2}(y - \hat{y})^2$+  - 损失函数:$\mathcal{L} = \frac{1}{2}(y - \hat{y})^2$
  
 请计算$\frac{\partial \mathcal{L}}{\partial w_1}$和$\frac{\partial \mathcal{L}}{\partial w_2}$。 请计算$\frac{\partial \mathcal{L}}{\partial w_1}$和$\frac{\partial \mathcal{L}}{\partial w_2}$。
行 335: 行 335:
  
 **Sigmoid**: **Sigmoid**:
-- $\sigma(2) = \frac{1}{1+e^{-2}} \approx 0.881$ +  - $\sigma(2) = \frac{1}{1+e^{-2}} \approx 0.881$ 
-- $\sigma(-2) = \frac{1}{1+e^{2}} \approx 0.119$ +  - $\sigma(-2) = \frac{1}{1+e^{2}} \approx 0.119$ 
-- $\sigma'(2) = 0.881 \times (1-0.881) \approx 0.105$ +  - $\sigma'(2) = 0.881 \times (1-0.881) \approx 0.105$ 
-- $\sigma'(-2) = 0.119 \times (1-0.119) \approx 0.105$+  - $\sigma'(-2) = 0.119 \times (1-0.119) \approx 0.105$
  
 **Tanh**: **Tanh**:
-- $\tanh(2) \approx 0.964$ +  - $\tanh(2) \approx 0.964$ 
-- $\tanh(-2) \approx -0.964$ +  - $\tanh(-2) \approx -0.964$ 
-- $\tanh'(2) = 1 - 0.964^2 \approx 0.071$ +  - $\tanh'(2) = 1 - 0.964^2 \approx 0.071$ 
-- $\tanh'(-2) = 1 - (-0.964)^2 \approx 0.071$+  - $\tanh'(-2) = 1 - (-0.964)^2 \approx 0.071$
  
 **ReLU**: **ReLU**:
-- $\text{ReLU}'(2) = 1$ +  - $\text{ReLU}'(2) = 1$ 
-- $\text{ReLU}'(-2) = 0$+  - $\text{ReLU}'(-2) = 0$
  
 **分析**: **分析**:
  
 1. **Sigmoid**:在$|x|$较大时,梯度约为0.1,深层网络中多次相乘会迅速衰减 1. **Sigmoid**:在$|x|$较大时,梯度约为0.1,深层网络中多次相乘会迅速衰减
 +
 2. **Tanh**:梯度更小(约0.07),梯度消失问题更严重 2. **Tanh**:梯度更小(约0.07),梯度消失问题更严重
 +
 3. **ReLU**:正区间梯度恒为1,有效缓解梯度消失;负区间梯度为0,可能导致神经元死亡 3. **ReLU**:正区间梯度恒为1,有效缓解梯度消失;负区间梯度为0,可能导致神经元死亡
  
行 406: 行 408:
 ==== 填空题 ==== ==== 填空题 ====
  
-6. 梯度下降中,参数更新公式为$\theta_{t+1} = \theta_t - \eta$______+6. 梯度下降中,参数更新公式为$\theta_{t+1} = \theta_t - \eta$$\_\_$
  
-7. 在反向传播中,$\boldsymbol{\delta}^{(l)} = \frac{\partial \mathcal{L}}{\partial \mathbf{z}^{(l)}}$被称为______项。+7. 在反向传播中,$\boldsymbol{\delta}^{(l)} = \frac{\partial \mathcal{L}}{\partial \mathbf{z}^{(l)}}$被称为$\_\_$项。
  
-8. Sigmoid函数的导数可以表示为$\sigma'(x) =$______+8. Sigmoid函数的导数可以表示为$\sigma'(x) =$$\_\_$
  
-9. Momentum优化中,动量系数$\gamma$通常设为______+9. Momentum优化中,动量系数$\gamma$通常设为$\_\_$。 
 + 
 +10. 梯度裁剪的两种主要方式是$\_\_$裁剪和$\_\_$裁剪
  
-10. 梯度裁剪的两种主要方式是______裁剪和______裁剪。 
  
 ==== 计算题 ==== ==== 计算题 ====
行 438: 行 441:
  
 1. **答案:B** 1. **答案:B**
-   解析:反向传播基于链式法则高效计算梯度。+ 
 +解析:反向传播基于链式法则高效计算梯度。
  
 2. **答案:C** 2. **答案:C**
-   解析:ReLU在负区间梯度为0,仍可能出现"神经元死亡"的类似问题。+ 
 +解析:ReLU在负区间梯度为0,仍可能出现"神经元死亡"的类似问题。
  
 3. **答案:A** 3. **答案:A**
-   解析:$\mathbf{m}_t$是一阶矩(梯度均值),$\mathbf{v}_t$是二阶矩(梯度方差)。+ 
 +解析:$\mathbf{m}_t$是一阶矩(梯度均值),$\mathbf{v}_t$是二阶矩(梯度方差)。
  
 4. **答案:C** 4. **答案:C**
-   解析:ReLU主要解决梯度消失问题,对梯度爆炸影响不大。+ 
 +解析:ReLU主要解决梯度消失问题,对梯度爆炸影响不大。
  
 5. **答案:B** 5. **答案:B**
-   解析:小批量通常为32-512,平衡计算效率和梯度准确性。+ 
 +解析:小批量通常为32-512,平衡计算效率和梯度准确性。
  
 ==== 填空题答案 ==== ==== 填空题答案 ====
行 468: 行 476:
 11. **解答**: 11. **解答**:
          
-    **前向传播**: +**前向传播**: 
-    $$z = 0.5 \times 1 + (-0.3) \times 2 = 0.5 - 0.6 = -0.1$$ + 
-    $$\hat{y} = \sigma(-0.1) = \frac{1}{1 + e^{0.1}} \approx \frac{1}{1.105} \approx 0.475$$+$$z = 0.5 \times 1 + (-0.3) \times 2 = 0.5 - 0.6 = -0.1$$ 
 + 
 +$$\hat{y} = \sigma(-0.1) = \frac{1}{1 + e^{0.1}} \approx \frac{1}{1.105} \approx 0.475$$
          
-    **反向传播**: +**反向传播**: 
-    $$\frac{\partial \mathcal{L}}{\partial \hat{y}} = -\frac{y}{\hat{y}} + \frac{1-y}{1-\hat{y}} = -\frac{1}{0.475} \approx -2.105$$+ 
 +$$\frac{\partial \mathcal{L}}{\partial \hat{y}} = -\frac{y}{\hat{y}} + \frac{1-y}{1-\hat{y}} = -\frac{1}{0.475} \approx -2.105$$
          
-    $$\frac{\partial \hat{y}}{\partial z} = \sigma(-0.1)(1-\sigma(-0.1)) = 0.475 \times 0.525 \approx 0.249$$+$$\frac{\partial \hat{y}}{\partial z} = \sigma(-0.1)(1-\sigma(-0.1)) = 0.475 \times 0.525 \approx 0.249$$
          
-    $$\frac{\partial z}{\partial w_1} = x_1 = 1, \quad \frac{\partial z}{\partial w_2} = x_2 = 2$$+$$\frac{\partial z}{\partial w_1} = x_1 = 1, \quad \frac{\partial z}{\partial w_2} = x_2 = 2$$
          
-    $$\frac{\partial \mathcal{L}}{\partial w_1} = -2.105 \times 0.249 \times 1 \approx -0.524$$ +$$\frac{\partial \mathcal{L}}{\partial w_1} = -2.105 \times 0.249 \times 1 \approx -0.524$$ 
-    $$\frac{\partial \mathcal{L}}{\partial w_2} = -2.105 \times 0.249 \times 2 \approx -1.048$$+ 
 +$$\frac{\partial \mathcal{L}}{\partial w_2} = -2.105 \times 0.249 \times 2 \approx -1.048$$
  
 12. **解答**: 12. **解答**:
          
-    **计算一阶矩**: +**计算一阶矩**: 
-    $$\mathbf{m}_t = 0.9 \times [0.1, 0.1] + 0.1 \times [0.2, -0.3]$$ + 
-    $$= [0.09, 0.09] + [0.02, -0.03] = [0.11, 0.06]$$+$$\mathbf{m}_t = 0.9 \times [0.1, 0.1] + 0.1 \times [0.2, -0.3]$$ 
 + 
 +$$= [0.09, 0.09] + [0.02, -0.03] = [0.11, 0.06]$$
          
-    **计算二阶矩**: +**计算二阶矩**: 
-    $$\mathbf{v}_t = 0.999 \times [0.01, 0.01] + 0.001 \times [0.04, 0.09]$$ + 
-    $$= [0.00999, 0.00999] + [0.00004, 0.00009] = [0.01003, 0.01008]$$+$$\mathbf{v}_t = 0.999 \times [0.01, 0.01] + 0.001 \times [0.04, 0.09]$$ 
 + 
 +$$= [0.00999, 0.00999] + [0.00004, 0.00009] = [0.01003, 0.01008]$$
          
-    **偏差校正**: +**偏差校正**: 
-    $$1 - \beta_1^t = 1 - 0.9^{10} = 1 - 0.349 = 0.651$$ + 
-    $$1 - \beta_2^t = 1 - 0.999^{10} = 1 - 0.990 = 0.010$$+$$1 - \beta_1^t = 1 - 0.9^{10} = 1 - 0.349 = 0.651$$ 
 + 
 +$$1 - \beta_2^t = 1 - 0.999^{10} = 1 - 0.990 = 0.010$$
          
-    $$\hat{\mathbf{m}}_t = \frac{[0.11, 0.06]}{0.651} \approx [0.169, 0.092]$$ +$$\hat{\mathbf{m}}_t = \frac{[0.11, 0.06]}{0.651} \approx [0.169, 0.092]$$ 
-    $$\hat{\mathbf{v}}_t = \frac{[0.01003, 0.01008]}{0.010} \approx [1.003, 1.008]$$+ 
 +$$\hat{\mathbf{v}}_t = \frac{[0.01003, 0.01008]}{0.010} \approx [1.003, 1.008]$$
  
---- 
-**本章完** 

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/反向传播算法.1772458141.txt.gz
  • 最后更改: 2026/03/02 21:29
  • 张叶安