深度学习:正则化技术

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:正则化技术 [2026/03/02 21:57] – [1.10 正则化的选择与组合] 张叶安深度学习:正则化技术 [2026/03/02 22:00] (当前版本) – [4. 答案与解析] 张叶安
行 369: 行 369:
  
 **关键因素1:验证集划分** **关键因素1:验证集划分**
-- 验证集应足够大以可靠估计泛化性能 +  - 验证集应足够大以可靠估计泛化性能 
-- 通常使用10-20%的数据作为验证集 +  - 通常使用10-20%的数据作为验证集 
-- 对于小数据集,使用交叉验证+  - 对于小数据集,使用交叉验证
  
 **关键因素2:监控指标选择** **关键因素2:监控指标选择**
-- 分类任务:验证准确率或验证损失 +  - 分类任务:验证准确率或验证损失 
-- 回归任务:验证MSE或MAE +  - 回归任务:验证MSE或MAE 
-- 注意:训练损失持续下降时,验证损失可能已经开始上升+  - 注意:训练损失持续下降时,验证损失可能已经开始上升
  
 **关键因素3:Patience参数** **关键因素3:Patience参数**
  
 Patience定义了性能不提升时等待的周期数: Patience定义了性能不提升时等待的周期数:
-- **小patience(5-10)**: +  - **小patience(5-10)**: 
-  - 优点:快速停止,节省计算资源 +    - 优点:快速停止,节省计算资源 
-  - 缺点:可能因验证波动过早停止+    - 缺点:可能因验证波动过早停止
      
-- **大patience(20-50)**: +  - **大patience(20-50)**: 
-  - 优点:容忍验证波动,捕获长期趋势 +    - 优点:容忍验证波动,捕获长期趋势 
-  - 缺点:可能过拟合,浪费计算资源+    - 缺点:可能过拟合,浪费计算资源
  
-- **自适应patience**: +  - **自适应patience**: 
-  - 初期使用小patience快速收敛 +    - 初期使用小patience快速收敛 
-  - 后期使用大patience精细调整+    - 后期使用大patience精细调整
  
 **关键因素4:模型恢复机制** **关键因素4:模型恢复机制**
  
 实现方式: 实现方式:
-```+
 1. 保存验证性能最佳时的模型状态 1. 保存验证性能最佳时的模型状态
 +
 2. 包括权重、优化器状态、轮次等 2. 包括权重、优化器状态、轮次等
 +
 3. 停止训练后恢复最佳状态 3. 停止训练后恢复最佳状态
 +
 4. 避免使用最终(可能过拟合)的模型 4. 避免使用最终(可能过拟合)的模型
-```+
  
 **关键因素5:与其他正则化的配合** **关键因素5:与其他正则化的配合**
  
 早停法与其他技术的交互: 早停法与其他技术的交互:
-- **与L2正则化**:两者都限制模型复杂度,可能产生叠加效果 +  - **与L2正则化**:两者都限制模型复杂度,可能产生叠加效果 
-- **与Dropout**:早停法可补偿Dropout的训练-测试差异 +  - **与Dropout**:早停法可补偿Dropout的训练-测试差异 
-- **与学习率调度**:应协调patience与学习率衰减周期 +  - **与学习率调度**:应协调patience与学习率衰减周期 
-- **与数据增强**:数据增强延长训练时间,需要更大的patience+  - **与数据增强**:数据增强延长训练时间,需要更大的patience
  
 ===== 3. 训练题 ===== ===== 3. 训练题 =====
行 470: 行 473:
  
 1. **答案:C** 1. **答案:C**
-   解析:L1正则化由于其绝对值函数的几何特性,会产生稀疏解,许多参数会被压缩到精确的零值。+ 
 +解析:L1正则化由于其绝对值函数的几何特性,会产生稀疏解,许多参数会被压缩到精确的零值。
  
 2. **答案:B** 2. **答案:B**
-   解析:保留概率$p$直接表示期望保留的比例,因此$p=0.7$表示70%的神经元被保留。+ 
 +解析:保留概率$p$直接表示期望保留的比例,因此$p=0.7$表示70%的神经元被保留。
  
 3. **答案:B** 3. **答案:B**
-   解析:L2正则化在统计学中称为Ridge回归,L1正则化称为Lasso回归。+ 
 +解析:L2正则化在统计学中称为Ridge回归,L1正则化称为Lasso回归。
  
 4. **答案:C** 4. **答案:C**
-   解析:增加网络层数会增加模型复杂度,不属于正则化或数据增强方法。其他选项都是图像数据增强技术。+ 
 +解析:增加网络层数会增加模型复杂度,不属于正则化或数据增强方法。其他选项都是图像数据增强技术。
  
 5. **答案:B** 5. **答案:B**
-   解析:标签平滑将硬标签替换为软标签,防止模型对预测过于自信,从而提高泛化能力。+ 
 +解析:标签平滑将硬标签替换为软标签,防止模型对预测过于自信,从而提高泛化能力。
  
 **二、填空题答案:** **二、填空题答案:**
  
 6. **答案:**$\theta_i^2$ 6. **答案:**$\theta_i^2$
-   解析:L2正则化使用参数的平方和作为惩罚项。+ 
 +解析:L2正则化使用参数的平方和作为惩罚项。
  
 7. **答案:**$1/p$(或$1/0.5=2$);不使用(或停止) 7. **答案:**$1/p$(或$1/0.5=2$);不使用(或停止)
-   解析:Dropout在训练时需要缩放以保持一致期望值,测试时使用完整网络。+ 
 +解析:Dropout在训练时需要缩放以保持一致期望值,测试时使用完整网络。
  
 8. **答案:**验证(或validation) 8. **答案:**验证(或validation)
-   解析:早停法通过监控验证集性能来防止过拟合。+ 
 +解析:早停法通过监控验证集性能来防止过拟合。
  
 9. **答案:**L1;L2(或Lasso;Ridge) 9. **答案:**L1;L2(或Lasso;Ridge)
-   解析:弹性网络同时包含L1和L2惩罚项。+ 
 +解析:弹性网络同时包含L1和L2惩罚项。
  
 10. **答案:**标准化(或减去均值除以标准差) 10. **答案:**标准化(或减去均值除以标准差)
-    解析:批归一化的核心步骤包括:计算统计量、标准化、学习缩放和平移。+ 
 +解析:批归一化的核心步骤包括:计算统计量、标准化、学习缩放和平移。
  
 **三、计算题答案:** **三、计算题答案:**
行 505: 行 518:
 11. **解答:** 11. **解答:**
          
-    L2正则化后的损失函数: + 
-    $$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$+L2正则化后的损失函数: 
 + 
 +$$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$
          
-    对$w_1$求偏导: +对$w_1$求偏导: 
-    $$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$+ 
 +$$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$
          
-    梯度下降更新: +梯度下降更新: 
-    $$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$ + 
-    $$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$+$$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$ 
 + 
 +$$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$
          
-    其中$(1 - 2\eta\lambda)$体现了"权重衰减"的效果。+其中$(1 - 2\eta\lambda)$体现了"权重衰减"的效果。
  
 12. **解答:** 12. **解答:**
          
-    训练时:期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个+训练时:期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个
          
-    测试时:使用所有神经元,不应用Dropout,因此100个神经元全部激活。+测试时:使用所有神经元,不应用Dropout,因此100个神经元全部激活。
          
-    注意:如果使用Inverted Dropout,训练时保留的神经元输出会乘以$1/p=2$,测试时不做处理。+注意:如果使用Inverted Dropout,训练时保留的神经元输出会乘以$1/p=2$,测试时不做处理。
  
 13. **解答:** 13. **解答:**
          
-    正则化项 = $0.01(|\theta_1| + |\theta_2|)$+正则化项 = $0.01(|\theta_1| + |\theta_2|)$
          
-    $= 0.01(|3| + |-4|)$+$= 0.01(|3| + |-4|)$
          
-    $= 0.01(3 + 4)$+$= 0.01(3 + 4)$
          
-    $= 0.01 \times 7$+$= 0.01 \times 7$
          
-    $= 0.07$+$= 0.07$
          
-    因此,正则化项的值为0.07。+因此,正则化项的值为0.07。

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/正则化技术.1772459864.txt.gz
  • 最后更改: 2026/03/02 21:57
  • 张叶安