差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:神经网络基础 [2026/03/02 21:05] – [2.2.2 ReLU及其变体] 张叶安
+++ 深度学习:神经网络基础 [2026/03/02 21:18] (当前版本) – [计算题答案] 张叶安
@@ 行 207: / 行 207: @@
 特性：
-- 输出范围：(0, 1)
+  - 输出范围：(0, 1)
-- 所有输出之和为1
+  - 所有输出之和为1
-- 放大差异：较大的输入值获得更大的概率份额
+  - 放大差异：较大的输入值获得更大的概率份额
 数值稳定性：
@@ 行 231: / 行 231: @@
 特性：
-- 对大的误差给予更大的惩罚
+  - 对大的误差给予更大的惩罚
-- 处处可导
+  - 处处可导
-- 假设误差服从高斯分布
+  - 假设误差服从高斯分布
 **平均绝对误差（Mean Absolute Error, MAE）**
 MAE使用L1范数：
 $$\mathcal{L}_{\text{MAE}} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$$
 特性：
-- 对异常值更鲁棒
+  - 对异常值更鲁棒
-- 在零点不可导
+  - 在零点不可导
-- 误差服从拉普拉斯分布时的最大似然估计
+  - 误差服从拉普拉斯分布时的最大似然估计
 **Huber损失**
 Huber损失结合了MSE和MAE的优点：
 $$\mathcal{L}_{\text{Huber}} = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\ \delta(|y - \hat{y}| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}$$
@@ 行 296: / 行 298: @@
 将所有权值初始化为零看似合理，但会导致严重问题：
-- 所有神经元计算相同的输出
+  - 所有神经元计算相同的输出
-- 反向传播时所有神经元获得相同的梯度
+  - 反向传播时所有神经元获得相同的梯度
-- 网络无法打破对称性，相当于单个神经元
+  - 网络无法打破对称性，相当于单个神经元
 ==== 2.4.2 随机初始化方法 ====
@@ 行 331: / 行 333: @@
 偏置通常初始化为零或小常数：
-- 对于ReLU，偏置初始化为小正值（如0.01）可确保初期有梯度流动
+  - 对于ReLU，偏置初始化为小正值（如0.01）可确保初期有梯度流动
-- 对于层归一化后的网络，偏置可初始化为零
+  - 对于层归一化后的网络，偏置可初始化为零
 ===== 2.5 例题分析 =====
@@ 行 339: / 行 341: @@
 **题目**：考虑一个具有以下结构的神经网络：
-- 输入层：2个神经元（输入$x_1=0.5$, $x_2=0.3$）
+  - 输入层：2个神经元（输入$x_1=0.5$, $x_2=0.3$）
-- 隐藏层：2个神经元，使用ReLU激活
+  - 隐藏层：2个神经元，使用ReLU激活
-- 输出层：1个神经元，使用Sigmoid激活
+  - 输出层：1个神经元，使用Sigmoid激活
 权重矩阵：
-- $W^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$（输入→隐藏）
+  - $W^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$（输入→隐藏）
-- $W^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix}$（隐藏→输出）
+  - $W^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix}$（隐藏→输出）
 偏置：$b^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$，$b^{(2)} = 0.1$
@@ 行 354: / 行 356: @@
 **隐藏层计算**：
 $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 0.5 \\ 0.3 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$
@@ 行 359: / 行 362: @@
 应用ReLU：
 $$\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix}$$
 **输出层计算**：
 $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix} + 0.1$$
 $$= 0.5 \times 0.21 + 0.6 \times 0.47 + 0.1 = 0.105 + 0.282 + 0.1 = 0.487$$
@@ 行 400: / 行 405: @@
 优点：
-- 输出范围(0,1)，可解释为神经元的激活程度
+  - 输出范围(0,1)，可解释为神经元的激活程度
-- 平滑可导，数学性质良好
+  - 平滑可导，数学性质良好
-- 可用于门控机制
+  - 可用于门控机制
 缺点：
-- **梯度消失**：当输入远离0时，导数趋近于0。在深层网络中，多次连乘导致梯度迅速衰减，使深层参数难以更新
+  - **梯度消失**：当输入远离0时，导数趋近于0。在深层网络中，多次连乘导致梯度迅速衰减，使深层参数难以更新
-- **非零中心化**：输出恒为正，导致权重更新总是同向，收敛速度较慢
+  - **非零中心化**：输出恒为正，导致权重更新总是同向，收敛速度较慢
-- 指数计算成本高
+  - 指数计算成本高
 **ReLU激活函数**：
 优点：
-- **缓解梯度消失**：正区间梯度恒为1，梯度可以直接反向传播到浅层
+  - **缓解梯度消失**：正区间梯度恒为1，梯度可以直接反向传播到浅层
-- **计算高效**：只需简单的阈值比较，无复杂运算
+  - **计算高效**：只需简单的阈值比较，无复杂运算
-- **稀疏激活**：约一半的神经元输出为零，提高计算效率和特征选择性
+  - **稀疏激活**：约一半的神经元输出为零，提高计算效率和特征选择性
 缺点：
-- **神经元死亡**：负区间梯度为0，如果神经元始终接收负输入，将无法更新（永久性失活）
+  - **神经元死亡**：负区间梯度为0，如果神经元始终接收负输入，将无法更新（永久性失活）
-- 非零中心化
+  - 非零中心化
 **深层网络中使用ReLU的原因**：
@@ 行 465: / 行 470: @@
 ==== 填空题 ====
+<code>
 . 前馈神经网络中，信息从输入层流向输出层，这种计算过程称为______传播。
@@ 行 476: / 行 481: @@
 . 在多分类问题中，交叉熵损失通常与______激活函数配合使用。
+</code>
 ==== 计算题 ====
 . 给定一个单层神经网络（无隐藏层），输入$\mathbf{x} = [2, -1, 3]$，权重$\mathbf{w} = [0.5, 0.3, -0.2]$，偏置$b = 0.1$。请计算：
-    (1) 使用Sigmoid激活的输出
-    (2) 若真实标签$y=1$，计算二分类交叉熵损失
+(1) 使用Sigmoid激活的输出
+(2) 若真实标签$y=1$，计算二分类交叉熵损失
 . 一个两层神经网络，结构如下：
-    - 输入层：3个神经元
+  - 输入层：3个神经元
-    - 隐藏层：2个神经元，ReLU激活
+  - 隐藏层：2个神经元，ReLU激活
-    - 输出层：1个神经元，Sigmoid激活
+  - 输出层：1个神经元，Sigmoid激活
-    给定输入$\mathbf{x} = [1, 0, -1]$，权重：
+给定输入$\mathbf{x} = [1, 0, -1]$，权重：
-    $$W^{(1)} = \begin{bmatrix} 0.2 & 0.1 & 0.3 \\ -0.1 & 0.2 & 0.1 \end{bmatrix}, \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$
-    $$W^{(2)} = \begin{bmatrix} 0.3 & 0.4 \end{bmatrix}, b^{(2)} = 0.1$$
+$$W^{(1)} = \begin{bmatrix} 0.2 & 0.1 & 0.3 \\ -0.1 & 0.2 & 0.1 \end{bmatrix}, \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$
+$$W^{(2)} = \begin{bmatrix} 0.3 & 0.4 \end{bmatrix}, b^{(2)} = 0.1$$
-    请计算网络输出$\hat{y}$。
+请计算网络输出$\hat{y}$。
 ===== 2.7 答案与解析 =====
@@ 行 528: / 行 538: @@
 . **解答**：
-    (1) 线性变换：
+(1) 线性变换：
-    $$z = \mathbf{w}^T \mathbf{x} + b = 0.5 \times 2 + 0.3 \times (-1) + (-0.2) \times 3 + 0.1$$
-    $$= 1.0 - 0.3 - 0.6 + 0.1 = 0.2$$
+$$z = \mathbf{w}^T \mathbf{x} + b = 0.5 \times 2 + 0.3 \times (-1) + (-0.2) \times 3 + 0.1$$
+$$= 1.0 - 0.3 - 0.6 + 0.1 = 0.2$$
-    Sigmoid输出：
+Sigmoid输出：
-    $$\hat{y} = \sigma(0.2) = \frac{1}{1 + e^{-0.2}} = \frac{1}{1 + 0.819} \approx 0.550$$
+$$\hat{y} = \sigma(0.2) = \frac{1}{1 + e^{-0.2}} = \frac{1}{1 + 0.819} \approx 0.550$$
-    (2) 二分类交叉熵损失：
+(2) 二分类交叉熵损失：
-    $$\mathcal{L} = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]$$
-    $$= -[1 \times \log(0.550) + 0 \times \log(0.450)]$$
+$$\mathcal{L} = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]$$
-    $$= -\log(0.550) \approx 0.598$$
+$$= -[1 \times \log(0.550) + 0 \times \log(0.450)]$$
+$$= -\log(0.550) \approx 0.598$$
 . **解答**：
-    **隐藏层**：
+**隐藏层**：
-    $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$$
-    $$= \begin{bmatrix} 0.2 \times 1 + 0.1 \times 0 + 0.3 \times (-1) + 0.1 \\ -0.1 \times 1 + 0.2 \times 0 + 0.1 \times (-1) + 0.2 \end{bmatrix}$$
+$$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$$
-    $$= \begin{bmatrix} 0.2 - 0.3 + 0.1 \\ -0.1 - 0.1 + 0.2 \end{bmatrix} = \begin{bmatrix} 0.0 \\ 0.0 \end{bmatrix}$$
+$$= \begin{bmatrix} 0.2 \times 1 + 0.1 \times 0 + 0.3 \times (-1) + 0.1 \\ -0.1 \times 1 + 0.2 \times 0 + 0.1 \times (-1) + 0.2 \end{bmatrix}$$
+$$= \begin{bmatrix} 0.2 - 0.3 + 0.1 \\ -0.1 - 0.1 + 0.2 \end{bmatrix} = \begin{bmatrix} 0.0 \\ 0.0 \end{bmatrix}$$
-    应用ReLU：
+应用ReLU：
-    $$\mathbf{a}^{(1)} = \text{ReLU}([0.0, 0.0]) = [0.0, 0.0]$$
+$$\mathbf{a}^{(1)} = \text{ReLU}([0.0, 0.0]) = [0.0, 0.0]$$
-    **输出层**：
+**输出层**：
-    $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = 0.3 \times 0 + 0.4 \times 0 + 0.1 = 0.1$$
+$$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = 0.3 \times 0 + 0.4 \times 0 + 0.1 = 0.1$$
-    应用Sigmoid：
+应用Sigmoid：
-    $$\hat{y} = \sigma(0.1) = \frac{1}{1 + e^{-0.1}} \approx \frac{1}{1 + 0.905} \approx 0.525$$
+$$\hat{y} = \sigma(0.1) = \frac{1}{1 + e^{-0.1}} \approx \frac{1}{1 + 0.905} \approx 0.525$$
----
-**本章完**

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客