深度学习:优化算法

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:优化算法 [2026/03/02 21:46] – [填空题] 张叶安深度学习:优化算法 [2026/03/02 21:49] (当前版本) – [4.4.1 大批量训练的挑战] 张叶安
行 177: 行 177:
 增大批量大小可以提高计算效率(利用硬件并行性),但会带来挑战: 增大批量大小可以提高计算效率(利用硬件并行性),但会带来挑战:
  
-- **泛化性能下降**:大批量训练的测试误差通常更高 +  - **泛化性能下降**:大批量训练的测试误差通常更高 
-- **优化困难**:损失曲面更尖锐,容易陷入尖锐极小值 +  - **优化困难**:损失曲面更尖锐,容易陷入尖锐极小值 
-- **需要调整学习率**:大批量需要更大的学习率+  - **需要调整学习率**:大批量需要更大的学习率
  
 ==== 4.4.2 线性学习率缩放 ==== ==== 4.4.2 线性学习率缩放 ====
行 380: 行 380:
 11. **解答**: 11. **解答**:
          
-    逐步计算:+逐步计算: 
 + 
 +| t | $g_t$ | $m_t$ | $v_t$ | 
 +| 1 | 0.5 | 0.05 | 0.0005 | 
 +| 2 | -0.3 | 0.015 | 0.00035 | 
 +| 3 | 0.2 | 0.0335 | 0.00028 | 
 +| 4 | 0.1 | 0.0402 | 0.00022 | 
 +| 5 | -0.4 | -0.0038 | 0.00018 |
          
-    | $g_t$m_t$ | $v_t$ | +偏差校正($t=5$): 
-    |---|-------|-------|-------| + 
-    | 1 | 0.5 0.05 | 0.0005 | +$$\hat{m}_5 = \frac{-0.0038}{1-0.9^5} = \frac{-0.0038}{0.4095} \approx -0.0093$$ 
-    | 2 | -0.3 | 0.015 | 0.00035 | + 
-    | 3 | 0.2 | 0.0335 | 0.00028 | +$$\hat{v}_5 = \frac{0.00018}{1-0.999^5} = \frac{0.00018}{0.005} \approx 0.036$$
-    | 4 | 0.1 0.0402 | 0.00022 | +
-    | | -0.4 | -0.0038 | 0.00018 |+
          
-    偏差校正($t=5$): +参数更新量: 
-    $$\hat{m}_5 = \frac{-0.0038}{1-0.9^5} = \frac{-0.0038}{0.4095} \approx -0.0093$$ + 
-    $$\hat{v}_5 = \frac{0.00018}{1-0.999^5} = \frac{0.00018}{0.005} \approx 0.036$$ +$$\Delta\theta = -\frac{0.001}{\sqrt{0.036} + 10^{-8}} \times (-0.0093) \approx 0.00049$$
-     +
-    参数更新量: +
-    $$\Delta\theta = -\frac{0.001}{\sqrt{0.036} + 10^{-8}} \times (-0.0093) \approx 0.00049$$+
  
 12. **解答**: 12. **解答**:
          
-    衰减函数:$\eta_t = 0.1 \times 0.1^{\lfloor t/30 \rfloor}$+衰减函数:$\eta_t = 0.1 \times 0.1^{\lfloor t/30 \rfloor}$
          
-    - $t=10$:$\lfloor 10/30 \rfloor = 0$,$\eta = 0.1 \times 1 = 0.1$ +$t=10$:$\lfloor 10/30 \rfloor = 0$,$\eta = 0.1 \times 1 = 0.1$ 
-    $t=35$:$\lfloor 35/30 \rfloor = 1$,$\eta = 0.1 \times 0.1 = 0.01$ + 
-    $t=70$:$\lfloor 70/30 \rfloor = 2$,$\eta = 0.1 \times 0.01 = 0.001$+$t=35$:$\lfloor 35/30 \rfloor = 1$,$\eta = 0.1 \times 0.1 = 0.01$ 
 + 
 +$t=70$:$\lfloor 70/30 \rfloor = 2$,$\eta = 0.1 \times 0.01 = 0.001$
  
---- 
-**本章完** 

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/优化算法.1772459211.txt.gz
  • 最后更改: 2026/03/02 21:46
  • 张叶安