差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 | |||
| 深度学习:正则化技术 [2026/03/02 21:58] – [例题3:早停法的实现细节] 张叶安 | 深度学习:正则化技术 [2026/03/02 22:00] (当前版本) – [4. 答案与解析] 张叶安 | ||
|---|---|---|---|
| 行 473: | 行 473: | ||
| 1. **答案:C** | 1. **答案:C** | ||
| - | 解析:L1正则化由于其绝对值函数的几何特性,会产生稀疏解,许多参数会被压缩到精确的零值。 | + | |
| + | 解析:L1正则化由于其绝对值函数的几何特性,会产生稀疏解,许多参数会被压缩到精确的零值。 | ||
| 2. **答案:B** | 2. **答案:B** | ||
| - | 解析:保留概率$p$直接表示期望保留的比例,因此$p=0.7$表示70%的神经元被保留。 | + | |
| + | 解析:保留概率$p$直接表示期望保留的比例,因此$p=0.7$表示70%的神经元被保留。 | ||
| 3. **答案:B** | 3. **答案:B** | ||
| - | 解析:L2正则化在统计学中称为Ridge回归,L1正则化称为Lasso回归。 | + | |
| + | 解析:L2正则化在统计学中称为Ridge回归,L1正则化称为Lasso回归。 | ||
| 4. **答案:C** | 4. **答案:C** | ||
| - | 解析:增加网络层数会增加模型复杂度,不属于正则化或数据增强方法。其他选项都是图像数据增强技术。 | + | |
| + | 解析:增加网络层数会增加模型复杂度,不属于正则化或数据增强方法。其他选项都是图像数据增强技术。 | ||
| 5. **答案:B** | 5. **答案:B** | ||
| - | 解析:标签平滑将硬标签替换为软标签,防止模型对预测过于自信,从而提高泛化能力。 | + | |
| + | 解析:标签平滑将硬标签替换为软标签,防止模型对预测过于自信,从而提高泛化能力。 | ||
| **二、填空题答案:** | **二、填空题答案:** | ||
| 6. **答案:**$\theta_i^2$ | 6. **答案:**$\theta_i^2$ | ||
| - | 解析:L2正则化使用参数的平方和作为惩罚项。 | + | |
| + | 解析:L2正则化使用参数的平方和作为惩罚项。 | ||
| 7. **答案:**$1/ | 7. **答案:**$1/ | ||
| - | 解析:Dropout在训练时需要缩放以保持一致期望值,测试时使用完整网络。 | + | |
| + | 解析:Dropout在训练时需要缩放以保持一致期望值,测试时使用完整网络。 | ||
| 8. **答案:**验证(或validation) | 8. **答案:**验证(或validation) | ||
| - | 解析:早停法通过监控验证集性能来防止过拟合。 | + | |
| + | 解析:早停法通过监控验证集性能来防止过拟合。 | ||
| 9. **答案:**L1;L2(或Lasso;Ridge) | 9. **答案:**L1;L2(或Lasso;Ridge) | ||
| - | 解析:弹性网络同时包含L1和L2惩罚项。 | + | |
| + | 解析:弹性网络同时包含L1和L2惩罚项。 | ||
| 10. **答案:**标准化(或减去均值除以标准差) | 10. **答案:**标准化(或减去均值除以标准差) | ||
| - | | + | |
| + | 解析:批归一化的核心步骤包括:计算统计量、标准化、学习缩放和平移。 | ||
| **三、计算题答案:** | **三、计算题答案:** | ||
| 行 508: | 行 518: | ||
| 11. **解答:** | 11. **解答:** | ||
| | | ||
| - | | + | |
| - | $$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$ | + | L2正则化后的损失函数: |
| + | |||
| + | $$\tilde{J} = \frac{1}{2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda(w_1^2 + w_2^2)$$ | ||
| | | ||
| - | | + | 对$w_1$求偏导: |
| - | $$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$ | + | |
| + | $$\frac{\partial \tilde{J}}{\partial w_1} = -\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1$$ | ||
| | | ||
| - | | + | 梯度下降更新: |
| - | $$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$ | + | |
| - | $$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$ | + | $$w_1^{new} = w_1^{old} - \eta\left[-\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1} + 2\lambda w_1^{old}\right]$$ |
| + | |||
| + | $$= w_1^{old}(1 - 2\eta\lambda) + \eta\sum_{i=1}^n (y_i - \hat{y}_i)x_{i1}$$ | ||
| | | ||
| - | | + | 其中$(1 - 2\eta\lambda)$体现了" |
| 12. **解答:** | 12. **解答:** | ||
| | | ||
| - | | + | 训练时:期望激活神经元数 = $100 \times p = 100 \times 0.5 = 50$个 |
| | | ||
| - | | + | 测试时:使用所有神经元,不应用Dropout,因此100个神经元全部激活。 |
| | | ||
| - | | + | 注意:如果使用Inverted Dropout,训练时保留的神经元输出会乘以$1/ |
| 13. **解答:** | 13. **解答:** | ||
| | | ||
| - | | + | 正则化项 = $0.01(|\theta_1| + |\theta_2|)$ |
| | | ||
| - | | + | $= 0.01(|3| + |-4|)$ |
| | | ||
| - | | + | $= 0.01(3 + 4)$ |
| | | ||
| - | | + | $= 0.01 \times 7$ |
| | | ||
| - | | + | $= 0.07$ |
| | | ||
| - | | + | 因此,正则化项的值为0.07。 |