差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:正则化技术 [2026/03/02 21:57] – [1.10 正则化的选择与组合] 张叶安
+++ 深度学习:正则化技术 [2026/03/02 22:00] (当前版本) – [4. 答案与解析] 张叶安
@@ 行 369: / 行 369: @@
 **关键因素1：验证集划分**
-- 验证集应足够大以可靠估计泛化性能
+  - 验证集应足够大以可靠估计泛化性能
-- 通常使用10-20%的数据作为验证集
+  - 通常使用10-20%的数据作为验证集
-- 对于小数据集，使用交叉验证
+  - 对于小数据集，使用交叉验证
 **关键因素2：监控指标选择**
-- 分类任务：验证准确率或验证损失
+  - 分类任务：验证准确率或验证损失
-- 回归任务：验证MSE或MAE
+  - 回归任务：验证MSE或MAE
-- 注意：训练损失持续下降时，验证损失可能已经开始上升
+  - 注意：训练损失持续下降时，验证损失可能已经开始上升
 **关键因素3：Patience参数**
 Patience定义了性能不提升时等待的周期数：
-- **小patience（5-10）**：
+  - **小patience（5-10）**：
-  - 优点：快速停止，节省计算资源
+    - 优点：快速停止，节省计算资源
-  - 缺点：可能因验证波动过早停止
+    - 缺点：可能因验证波动过早停止
-- **大patience（20-50）**：
+  - **大patience（20-50）**：
-  - 优点：容忍验证波动，捕获长期趋势
+    - 优点：容忍验证波动，捕获长期趋势
-  - 缺点：可能过拟合，浪费计算资源
+    - 缺点：可能过拟合，浪费计算资源
-- **自适应patience**：
+  - **自适应patience**：
-  - 初期使用小patience快速收敛
+    - 初期使用小patience快速收敛
-  - 后期使用大patience精细调整
+    - 后期使用大patience精细调整
 **关键因素4：模型恢复机制**
 实现方式：
-```
 . 保存验证性能最佳时的模型状态
 . 包括权重、优化器状态、轮次等
 . 停止训练后恢复最佳状态
 . 避免使用最终（可能过拟合）的模型
-```
 **关键因素5：与其他正则化的配合**
 早停法与其他技术的交互：
-- **与L2正则化**：两者都限制模型复杂度，可能产生叠加效果
+  - **与L2正则化**：两者都限制模型复杂度，可能产生叠加效果
-- **与Dropout**：早停法可补偿Dropout的训练-测试差异
+  - **与Dropout**：早停法可补偿Dropout的训练-测试差异
-- **与学习率调度**：应协调patience与学习率衰减周期
+  - **与学习率调度**：应协调patience与学习率衰减周期
-- **与数据增强**：数据增强延长训练时间，需要更大的patience
+  - **与数据增强**：数据增强延长训练时间，需要更大的patience
 ===== 3. 训练题 =====
@@ 行 470: / 行 473: @@
 . **答案：C**
-   解析：L1正则化由于其绝对值函数的几何特性，会产生稀疏解，许多参数会被压缩到精确的零值。
+解析：L1正则化由于其绝对值函数的几何特性，会产生稀疏解，许多参数会被压缩到精确的零值。
 . **答案：B**
-   解析：保留概率$p$直接表示期望保留的比例，因此$p=0.7$表示70%的神经元被保留。
+解析：保留概率$p$直接表示期望保留的比例，因此$p=0.7$表示70%的神经元被保留。
 . **答案：B**
-   解析：L2正则化在统计学中称为Ridge回归，L1正则化称为Lasso回归。
+解析：L2正则化在统计学中称为Ridge回归，L1正则化称为Lasso回归。
 . **答案：C**
-   解析：增加网络层数会增加模型复杂度，不属于正则化或数据增强方法。其他选项都是图像数据增强技术。
+解析：增加网络层数会增加模型复杂度，不属于正则化或数据增强方法。其他选项都是图像数据增强技术。
 . **答案：B**
-   解析：标签平滑将硬标签替换为软标签，防止模型对预测过于自信，从而提高泛化能力。
+解析：标签平滑将硬标签替换为软标签，防止模型对预测过于自信，从而提高泛化能力。
 **二、填空题答案：**
 . **答案：**$\theta_i^2$
-   解析：L2正则化使用参数的平方和作为惩罚项。
+解析：L2正则化使用参数的平方和作为惩罚项。
 . **答案：**$1/p$（或$1/0.5=2$）；不使用（或停止）
-   解析：Dropout在训练时需要缩放以保持一致期望值，测试时使用完整网络。
+解析：Dropout在训练时需要缩放以保持一致期望值，测试时使用完整网络。
 . **答案：**验证（或validation）
-   解析：早停法通过监控验证集性能来防止过拟合。
+解析：早停法通过监控验证集性能来防止过拟合。
 . **答案：**L1；L2（或Lasso；Ridge）
-   解析：弹性网络同时包含L1和L2惩罚项。
+解析：弹性网络同时包含L1和L2惩罚项。
 . **答案：**标准化（或减去均值除以标准差）
-    解析：批归一化的核心步骤包括：计算统计量、标准化、学习缩放和平移。
+解析：批归一化的核心步骤包括：计算统计量、标准化、学习缩放和平移。
 **三、计算题答案：**
@@ 行 505: / 行 518: @@
 . **解答：**
-    L2正则化后的损失函数：
-    $$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$
+L2正则化后的损失函数：
+$$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$
-    对$w_1$求偏导：
+对$w_1$求偏导：
-    $$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$
+$$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$
-    梯度下降更新：
+梯度下降更新：
-    $$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$
-    $$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$
+$$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$
+$$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$
-    其中$(1 - 2\eta\lambda)$体现了"权重衰减"的效果。
+其中$(1 - 2\eta\lambda)$体现了"权重衰减"的效果。
 . **解答：**
-    训练时：期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个
+训练时：期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个
-    测试时：使用所有神经元，不应用Dropout，因此100个神经元全部激活。
+测试时：使用所有神经元，不应用Dropout，因此100个神经元全部激活。
-    注意：如果使用Inverted Dropout，训练时保留的神经元输出会乘以$1/p=2$，测试时不做处理。
+注意：如果使用Inverted Dropout，训练时保留的神经元输出会乘以$1/p=2$，测试时不做处理。
 . **解答：**
-    正则化项 = $0.01(|\theta_1| + |\theta_2|)$
+正则化项 = $0.01(|\theta_1| + |\theta_2|)$
-    $= 0.01(|3| + |-4|)$
+$= 0.01(|3| + |-4|)$
-    $= 0.01(3 + 4)$
+$= 0.01(3 + 4)$
-    $= 0.01 \times 7$
+$= 0.01 \times 7$
-    $= 0.07$
+$= 0.07$
-    因此，正则化项的值为0.07。
+因此，正则化项的值为0.07。

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客