差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
| 深度学习:神经网络基础 [2026/03/02 21:05] – [2.2.2 ReLU及其变体] 张叶安 | 深度学习:神经网络基础 [2026/03/02 21:18] (当前版本) – [计算题答案] 张叶安 | ||
|---|---|---|---|
| 行 207: | 行 207: | ||
| 特性: | 特性: | ||
| - | - 输出范围:(0, | + | |
| - | - 所有输出之和为1 | + | - 所有输出之和为1 |
| - | - 放大差异:较大的输入值获得更大的概率份额 | + | - 放大差异:较大的输入值获得更大的概率份额 |
| 数值稳定性: | 数值稳定性: | ||
| 行 231: | 行 231: | ||
| 特性: | 特性: | ||
| - | - 对大的误差给予更大的惩罚 | + | |
| - | - 处处可导 | + | - 处处可导 |
| - | - 假设误差服从高斯分布 | + | - 假设误差服从高斯分布 |
| **平均绝对误差(Mean Absolute Error, MAE)** | **平均绝对误差(Mean Absolute Error, MAE)** | ||
| MAE使用L1范数: | MAE使用L1范数: | ||
| + | |||
| $$\mathcal{L}_{\text{MAE}} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$$ | $$\mathcal{L}_{\text{MAE}} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$$ | ||
| 特性: | 特性: | ||
| - | - 对异常值更鲁棒 | + | |
| - | - 在零点不可导 | + | - 在零点不可导 |
| - | - 误差服从拉普拉斯分布时的最大似然估计 | + | - 误差服从拉普拉斯分布时的最大似然估计 |
| **Huber损失** | **Huber损失** | ||
| Huber损失结合了MSE和MAE的优点: | Huber损失结合了MSE和MAE的优点: | ||
| + | |||
| $$\mathcal{L}_{\text{Huber}} = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\ \delta(|y - \hat{y}| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}$$ | $$\mathcal{L}_{\text{Huber}} = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\ \delta(|y - \hat{y}| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}$$ | ||
| 行 296: | 行 298: | ||
| 将所有权值初始化为零看似合理,但会导致严重问题: | 将所有权值初始化为零看似合理,但会导致严重问题: | ||
| - | - 所有神经元计算相同的输出 | + | |
| - | - 反向传播时所有神经元获得相同的梯度 | + | - 反向传播时所有神经元获得相同的梯度 |
| - | - 网络无法打破对称性,相当于单个神经元 | + | - 网络无法打破对称性,相当于单个神经元 |
| ==== 2.4.2 随机初始化方法 ==== | ==== 2.4.2 随机初始化方法 ==== | ||
| 行 331: | 行 333: | ||
| 偏置通常初始化为零或小常数: | 偏置通常初始化为零或小常数: | ||
| - | - 对于ReLU,偏置初始化为小正值(如0.01)可确保初期有梯度流动 | + | |
| - | - 对于层归一化后的网络,偏置可初始化为零 | + | - 对于层归一化后的网络,偏置可初始化为零 |
| ===== 2.5 例题分析 ===== | ===== 2.5 例题分析 ===== | ||
| 行 339: | 行 341: | ||
| **题目**:考虑一个具有以下结构的神经网络: | **题目**:考虑一个具有以下结构的神经网络: | ||
| - | - 输入层:2个神经元(输入$x_1=0.5$, | + | |
| - | - 隐藏层:2个神经元,使用ReLU激活 | + | - 隐藏层:2个神经元,使用ReLU激活 |
| - | - 输出层:1个神经元,使用Sigmoid激活 | + | - 输出层:1个神经元,使用Sigmoid激活 |
| 权重矩阵: | 权重矩阵: | ||
| - | - $W^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$(输入→隐藏) | + | |
| - | - $W^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix}$(隐藏→输出) | + | - $W^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix}$(隐藏→输出) |
| 偏置:$b^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$,$b^{(2)} = 0.1$ | 偏置:$b^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$,$b^{(2)} = 0.1$ | ||
| 行 354: | 行 356: | ||
| **隐藏层计算**: | **隐藏层计算**: | ||
| + | |||
| $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 0.5 \\ 0.3 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$ | $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 0.5 \\ 0.3 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$ | ||
| 行 359: | 行 362: | ||
| 应用ReLU: | 应用ReLU: | ||
| + | |||
| $$\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix}$$ | $$\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix}$$ | ||
| **输出层计算**: | **输出层计算**: | ||
| $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix} + 0.1$$ | $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix} + 0.1$$ | ||
| + | |||
| $$= 0.5 \times 0.21 + 0.6 \times 0.47 + 0.1 = 0.105 + 0.282 + 0.1 = 0.487$$ | $$= 0.5 \times 0.21 + 0.6 \times 0.47 + 0.1 = 0.105 + 0.282 + 0.1 = 0.487$$ | ||
| 行 400: | 行 405: | ||
| 优点: | 优点: | ||
| - | - 输出范围(0, | + | |
| - | - 平滑可导,数学性质良好 | + | - 平滑可导,数学性质良好 |
| - | - 可用于门控机制 | + | - 可用于门控机制 |
| 缺点: | 缺点: | ||
| - | - **梯度消失**:当输入远离0时,导数趋近于0。在深层网络中,多次连乘导致梯度迅速衰减,使深层参数难以更新 | + | |
| - | - **非零中心化**:输出恒为正,导致权重更新总是同向,收敛速度较慢 | + | - **非零中心化**:输出恒为正,导致权重更新总是同向,收敛速度较慢 |
| - | - 指数计算成本高 | + | - 指数计算成本高 |
| **ReLU激活函数**: | **ReLU激活函数**: | ||
| 优点: | 优点: | ||
| - | - **缓解梯度消失**:正区间梯度恒为1,梯度可以直接反向传播到浅层 | + | |
| - | - **计算高效**:只需简单的阈值比较,无复杂运算 | + | - **计算高效**:只需简单的阈值比较,无复杂运算 |
| - | - **稀疏激活**:约一半的神经元输出为零,提高计算效率和特征选择性 | + | - **稀疏激活**:约一半的神经元输出为零,提高计算效率和特征选择性 |
| 缺点: | 缺点: | ||
| - | - **神经元死亡**:负区间梯度为0,如果神经元始终接收负输入,将无法更新(永久性失活) | + | |
| - | - 非零中心化 | + | - 非零中心化 |
| **深层网络中使用ReLU的原因**: | **深层网络中使用ReLU的原因**: | ||
| 行 465: | 行 470: | ||
| ==== 填空题 ==== | ==== 填空题 ==== | ||
| + | < | ||
| 6. 前馈神经网络中,信息从输入层流向输出层,这种计算过程称为______传播。 | 6. 前馈神经网络中,信息从输入层流向输出层,这种计算过程称为______传播。 | ||
| 行 476: | 行 481: | ||
| 10. 在多分类问题中,交叉熵损失通常与______激活函数配合使用。 | 10. 在多分类问题中,交叉熵损失通常与______激活函数配合使用。 | ||
| + | </ | ||
| ==== 计算题 ==== | ==== 计算题 ==== | ||
| 11. 给定一个单层神经网络(无隐藏层),输入$\mathbf{x} = [2, -1, 3]$,权重$\mathbf{w} = [0.5, 0.3, -0.2]$,偏置$b = 0.1$。请计算: | 11. 给定一个单层神经网络(无隐藏层),输入$\mathbf{x} = [2, -1, 3]$,权重$\mathbf{w} = [0.5, 0.3, -0.2]$,偏置$b = 0.1$。请计算: | ||
| - | | + | |
| - | (2) 若真实标签$y=1$,计算二分类交叉熵损失 | + | (1) 使用Sigmoid激活的输出 |
| + | |||
| + | (2) 若真实标签$y=1$,计算二分类交叉熵损失 | ||
| 12. 一个两层神经网络,结构如下: | 12. 一个两层神经网络,结构如下: | ||
| - | | + | |
| - | - 隐藏层:2个神经元,ReLU激活 | + | - 隐藏层:2个神经元,ReLU激活 |
| - | - 输出层:1个神经元,Sigmoid激活 | + | - 输出层:1个神经元,Sigmoid激活 |
| | | ||
| - | | + | 给定输入$\mathbf{x} = [1, 0, -1]$,权重: |
| - | $$W^{(1)} = \begin{bmatrix} 0.2 & 0.1 & 0.3 \\ -0.1 & 0.2 & 0.1 \end{bmatrix}, | + | |
| - | $$W^{(2)} = \begin{bmatrix} 0.3 & 0.4 \end{bmatrix}, | + | $$W^{(1)} = \begin{bmatrix} 0.2 & 0.1 & 0.3 \\ -0.1 & 0.2 & 0.1 \end{bmatrix}, |
| + | |||
| + | $$W^{(2)} = \begin{bmatrix} 0.3 & 0.4 \end{bmatrix}, | ||
| | | ||
| - | | + | 请计算网络输出$\hat{y}$。 |
| ===== 2.7 答案与解析 ===== | ===== 2.7 答案与解析 ===== | ||
| 行 528: | 行 538: | ||
| 11. **解答**: | 11. **解答**: | ||
| | | ||
| - | | + | (1) 线性变换: |
| - | $$z = \mathbf{w}^T \mathbf{x} + b = 0.5 \times 2 + 0.3 \times (-1) + (-0.2) \times 3 + 0.1$$ | + | |
| - | $$= 1.0 - 0.3 - 0.6 + 0.1 = 0.2$$ | + | $$z = \mathbf{w}^T \mathbf{x} + b = 0.5 \times 2 + 0.3 \times (-1) + (-0.2) \times 3 + 0.1$$ |
| + | |||
| + | $$= 1.0 - 0.3 - 0.6 + 0.1 = 0.2$$ | ||
| | | ||
| - | | + | Sigmoid输出: |
| - | $$\hat{y} = \sigma(0.2) = \frac{1}{1 + e^{-0.2}} = \frac{1}{1 + 0.819} \approx 0.550$$ | + | |
| + | $$\hat{y} = \sigma(0.2) = \frac{1}{1 + e^{-0.2}} = \frac{1}{1 + 0.819} \approx 0.550$$ | ||
| | | ||
| - | | + | (2) 二分类交叉熵损失: |
| - | $$\mathcal{L} = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]$$ | + | |
| - | $$= -[1 \times \log(0.550) + 0 \times \log(0.450)]$$ | + | $$\mathcal{L} = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]$$ |
| - | $$= -\log(0.550) \approx 0.598$$ | + | |
| + | $$= -[1 \times \log(0.550) + 0 \times \log(0.450)]$$ | ||
| + | |||
| + | $$= -\log(0.550) \approx 0.598$$ | ||
| 12. **解答**: | 12. **解答**: | ||
| | | ||
| - | | + | **隐藏层**: |
| - | $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$$ | + | |
| - | $$= \begin{bmatrix} 0.2 \times 1 + 0.1 \times 0 + 0.3 \times (-1) + 0.1 \\ -0.1 \times 1 + 0.2 \times 0 + 0.1 \times (-1) + 0.2 \end{bmatrix}$$ | + | $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$$ |
| - | $$= \begin{bmatrix} 0.2 - 0.3 + 0.1 \\ -0.1 - 0.1 + 0.2 \end{bmatrix} = \begin{bmatrix} 0.0 \\ 0.0 \end{bmatrix}$$ | + | |
| + | $$= \begin{bmatrix} 0.2 \times 1 + 0.1 \times 0 + 0.3 \times (-1) + 0.1 \\ -0.1 \times 1 + 0.2 \times 0 + 0.1 \times (-1) + 0.2 \end{bmatrix}$$ | ||
| + | |||
| + | $$= \begin{bmatrix} 0.2 - 0.3 + 0.1 \\ -0.1 - 0.1 + 0.2 \end{bmatrix} = \begin{bmatrix} 0.0 \\ 0.0 \end{bmatrix}$$ | ||
| | | ||
| - | | + | 应用ReLU: |
| - | $$\mathbf{a}^{(1)} = \text{ReLU}([0.0, | + | |
| + | $$\mathbf{a}^{(1)} = \text{ReLU}([0.0, | ||
| | | ||
| - | | + | **输出层**: |
| - | $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = 0.3 \times 0 + 0.4 \times 0 + 0.1 = 0.1$$ | + | |
| + | $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = 0.3 \times 0 + 0.4 \times 0 + 0.1 = 0.1$$ | ||
| | | ||
| - | | + | 应用Sigmoid: |
| - | $$\hat{y} = \sigma(0.1) = \frac{1}{1 + e^{-0.1}} \approx \frac{1}{1 + 0.905} \approx 0.525$$ | + | |
| + | $$\hat{y} = \sigma(0.1) = \frac{1}{1 + e^{-0.1}} \approx \frac{1}{1 + 0.905} \approx 0.525$$ | ||
| - | --- | ||
| - | **本章完** | ||