差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:正则化技术 [2026/03/02 21:58] – [例题3：早停法的实现细节] 张叶安
+++ 深度学习:正则化技术 [2026/03/02 22:00] (当前版本) – [4. 答案与解析] 张叶安
@@ 行 473: / 行 473: @@
 . **答案：C**
-   解析：L1正则化由于其绝对值函数的几何特性，会产生稀疏解，许多参数会被压缩到精确的零值。
+解析：L1正则化由于其绝对值函数的几何特性，会产生稀疏解，许多参数会被压缩到精确的零值。
 . **答案：B**
-   解析：保留概率$p$直接表示期望保留的比例，因此$p=0.7$表示70%的神经元被保留。
+解析：保留概率$p$直接表示期望保留的比例，因此$p=0.7$表示70%的神经元被保留。
 . **答案：B**
-   解析：L2正则化在统计学中称为Ridge回归，L1正则化称为Lasso回归。
+解析：L2正则化在统计学中称为Ridge回归，L1正则化称为Lasso回归。
 . **答案：C**
-   解析：增加网络层数会增加模型复杂度，不属于正则化或数据增强方法。其他选项都是图像数据增强技术。
+解析：增加网络层数会增加模型复杂度，不属于正则化或数据增强方法。其他选项都是图像数据增强技术。
 . **答案：B**
-   解析：标签平滑将硬标签替换为软标签，防止模型对预测过于自信，从而提高泛化能力。
+解析：标签平滑将硬标签替换为软标签，防止模型对预测过于自信，从而提高泛化能力。
 **二、填空题答案：**
 . **答案：**$\theta_i^2$
-   解析：L2正则化使用参数的平方和作为惩罚项。
+解析：L2正则化使用参数的平方和作为惩罚项。
 . **答案：**$1/p$（或$1/0.5=2$）；不使用（或停止）
-   解析：Dropout在训练时需要缩放以保持一致期望值，测试时使用完整网络。
+解析：Dropout在训练时需要缩放以保持一致期望值，测试时使用完整网络。
 . **答案：**验证（或validation）
-   解析：早停法通过监控验证集性能来防止过拟合。
+解析：早停法通过监控验证集性能来防止过拟合。
 . **答案：**L1；L2（或Lasso；Ridge）
-   解析：弹性网络同时包含L1和L2惩罚项。
+解析：弹性网络同时包含L1和L2惩罚项。
 . **答案：**标准化（或减去均值除以标准差）
-    解析：批归一化的核心步骤包括：计算统计量、标准化、学习缩放和平移。
+解析：批归一化的核心步骤包括：计算统计量、标准化、学习缩放和平移。
 **三、计算题答案：**
@@ 行 508: / 行 518: @@
 . **解答：**
-    L2正则化后的损失函数：
-    $$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$
+L2正则化后的损失函数：
+$$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$
-    对$w_1$求偏导：
+对$w_1$求偏导：
-    $$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$
+$$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$
-    梯度下降更新：
+梯度下降更新：
-    $$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$
-    $$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$
+$$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$
+$$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$
-    其中$(1 - 2\eta\lambda)$体现了"权重衰减"的效果。
+其中$(1 - 2\eta\lambda)$体现了"权重衰减"的效果。
 . **解答：**
-    训练时：期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个
+训练时：期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个
-    测试时：使用所有神经元，不应用Dropout，因此100个神经元全部激活。
+测试时：使用所有神经元，不应用Dropout，因此100个神经元全部激活。
-    注意：如果使用Inverted Dropout，训练时保留的神经元输出会乘以$1/p=2$，测试时不做处理。
+注意：如果使用Inverted Dropout，训练时保留的神经元输出会乘以$1/p=2$，测试时不做处理。
 . **解答：**
-    正则化项 = $0.01(|\theta_1| + |\theta_2|)$
+正则化项 = $0.01(|\theta_1| + |\theta_2|)$
-    $= 0.01(|3| + |-4|)$
+$= 0.01(|3| + |-4|)$
-    $= 0.01(3 + 4)$
+$= 0.01(3 + 4)$
-    $= 0.01 \times 7$
+$= 0.01 \times 7$
-    $= 0.07$
+$= 0.07$
-    因此，正则化项的值为0.07。
+因此，正则化项的值为0.07。

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客