深度学习:神经网络基础

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:神经网络基础 [2026/03/02 21:09] – [2.4.1 零初始化的陷阱] 张叶安深度学习:神经网络基础 [2026/03/02 21:18] (当前版本) – [计算题答案] 张叶安
行 333: 行 333:
  
 偏置通常初始化为零或小常数: 偏置通常初始化为零或小常数:
-- 对于ReLU,偏置初始化为小正值(如0.01)可确保初期有梯度流动 +  - 对于ReLU,偏置初始化为小正值(如0.01)可确保初期有梯度流动 
-- 对于层归一化后的网络,偏置可初始化为零+  - 对于层归一化后的网络,偏置可初始化为零
  
 ===== 2.5 例题分析 ===== ===== 2.5 例题分析 =====
行 341: 行 341:
  
 **题目**:考虑一个具有以下结构的神经网络: **题目**:考虑一个具有以下结构的神经网络:
-- 输入层:2个神经元(输入$x_1=0.5$, $x_2=0.3$) +  - 输入层:2个神经元(输入$x_1=0.5$, $x_2=0.3$) 
-- 隐藏层:2个神经元,使用ReLU激活 +  - 隐藏层:2个神经元,使用ReLU激活 
-- 输出层:1个神经元,使用Sigmoid激活+  - 输出层:1个神经元,使用Sigmoid激活
  
 权重矩阵: 权重矩阵:
-- $W^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$(输入→隐藏) +  - $W^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$(输入→隐藏) 
-- $W^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix}$(隐藏→输出)+  - $W^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix}$(隐藏→输出)
  
 偏置:$b^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$,$b^{(2)} = 0.1$ 偏置:$b^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$,$b^{(2)} = 0.1$
行 356: 行 356:
  
 **隐藏层计算**: **隐藏层计算**:
 +
 $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 0.5 \\ 0.3 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$ $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 0.5 \\ 0.3 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$
  
行 361: 行 362:
  
 应用ReLU: 应用ReLU:
 +
 $$\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix}$$ $$\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix}$$
  
 **输出层计算**: **输出层计算**:
 $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix} + 0.1$$ $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = \begin{bmatrix} 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 0.21 \\ 0.47 \end{bmatrix} + 0.1$$
 +
 $$= 0.5 \times 0.21 + 0.6 \times 0.47 + 0.1 = 0.105 + 0.282 + 0.1 = 0.487$$ $$= 0.5 \times 0.21 + 0.6 \times 0.47 + 0.1 = 0.105 + 0.282 + 0.1 = 0.487$$
  
行 402: 行 405:
  
 优点: 优点:
-- 输出范围(0,1),可解释为神经元的激活程度 +  - 输出范围(0,1),可解释为神经元的激活程度 
-- 平滑可导,数学性质良好 +  - 平滑可导,数学性质良好 
-- 可用于门控机制+  - 可用于门控机制
  
 缺点: 缺点:
-- **梯度消失**:当输入远离0时,导数趋近于0。在深层网络中,多次连乘导致梯度迅速衰减,使深层参数难以更新 +  - **梯度消失**:当输入远离0时,导数趋近于0。在深层网络中,多次连乘导致梯度迅速衰减,使深层参数难以更新 
-- **非零中心化**:输出恒为正,导致权重更新总是同向,收敛速度较慢 +  - **非零中心化**:输出恒为正,导致权重更新总是同向,收敛速度较慢 
-- 指数计算成本高+  - 指数计算成本高
  
 **ReLU激活函数**: **ReLU激活函数**:
  
 优点: 优点:
-- **缓解梯度消失**:正区间梯度恒为1,梯度可以直接反向传播到浅层 +  - **缓解梯度消失**:正区间梯度恒为1,梯度可以直接反向传播到浅层 
-- **计算高效**:只需简单的阈值比较,无复杂运算 +  - **计算高效**:只需简单的阈值比较,无复杂运算 
-- **稀疏激活**:约一半的神经元输出为零,提高计算效率和特征选择性+  - **稀疏激活**:约一半的神经元输出为零,提高计算效率和特征选择性
  
 缺点: 缺点:
-- **神经元死亡**:负区间梯度为0,如果神经元始终接收负输入,将无法更新(永久性失活) +  - **神经元死亡**:负区间梯度为0,如果神经元始终接收负输入,将无法更新(永久性失活) 
-- 非零中心化+  - 非零中心化
  
 **深层网络中使用ReLU的原因**: **深层网络中使用ReLU的原因**:
行 467: 行 470:
  
 ==== 填空题 ==== ==== 填空题 ====
 +<code>
 6. 前馈神经网络中,信息从输入层流向输出层,这种计算过程称为______传播。 6. 前馈神经网络中,信息从输入层流向输出层,这种计算过程称为______传播。
  
行 478: 行 481:
 10. 在多分类问题中,交叉熵损失通常与______激活函数配合使用。 10. 在多分类问题中,交叉熵损失通常与______激活函数配合使用。
  
 +</code>
 ==== 计算题 ==== ==== 计算题 ====
  
 11. 给定一个单层神经网络(无隐藏层),输入$\mathbf{x} = [2, -1, 3]$,权重$\mathbf{w} = [0.5, 0.3, -0.2]$,偏置$b = 0.1$。请计算: 11. 给定一个单层神经网络(无隐藏层),输入$\mathbf{x} = [2, -1, 3]$,权重$\mathbf{w} = [0.5, 0.3, -0.2]$,偏置$b = 0.1$。请计算:
-    (1) 使用Sigmoid激活的输出 + 
-    (2) 若真实标签$y=1$,计算二分类交叉熵损失+(1) 使用Sigmoid激活的输出 
 + 
 +(2) 若真实标签$y=1$,计算二分类交叉熵损失
  
 12. 一个两层神经网络,结构如下: 12. 一个两层神经网络,结构如下:
-    - 输入层:3个神经元 +  - 输入层:3个神经元 
-    - 隐藏层:2个神经元,ReLU激活 +  - 隐藏层:2个神经元,ReLU激活 
-    - 输出层:1个神经元,Sigmoid激活+  - 输出层:1个神经元,Sigmoid激活
          
-    给定输入$\mathbf{x} = [1, 0, -1]$,权重: +给定输入$\mathbf{x} = [1, 0, -1]$,权重: 
-    $$W^{(1)} = \begin{bmatrix} 0.2 & 0.1 & 0.3 \\ -0.1 & 0.2 & 0.1 \end{bmatrix}, \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$ + 
-    $$W^{(2)} = \begin{bmatrix} 0.3 & 0.4 \end{bmatrix}, b^{(2)} = 0.1$$+$$W^{(1)} = \begin{bmatrix} 0.2 & 0.1 & 0.3 \\ -0.1 & 0.2 & 0.1 \end{bmatrix}, \mathbf{b}^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$$ 
 + 
 +$$W^{(2)} = \begin{bmatrix} 0.3 & 0.4 \end{bmatrix}, b^{(2)} = 0.1$$
          
-    请计算网络输出$\hat{y}$。+请计算网络输出$\hat{y}$。
  
 ===== 2.7 答案与解析 ===== ===== 2.7 答案与解析 =====
行 530: 行 538:
 11. **解答**: 11. **解答**:
          
-    (1) 线性变换: +(1) 线性变换: 
-    $$z = \mathbf{w}^T \mathbf{x} + b = 0.5 \times 2 + 0.3 \times (-1) + (-0.2) \times 3 + 0.1$$ + 
-    $$= 1.0 - 0.3 - 0.6 + 0.1 = 0.2$$+$$z = \mathbf{w}^T \mathbf{x} + b = 0.5 \times 2 + 0.3 \times (-1) + (-0.2) \times 3 + 0.1$$ 
 + 
 +$$= 1.0 - 0.3 - 0.6 + 0.1 = 0.2$$
          
-    Sigmoid输出: +Sigmoid输出: 
-    $$\hat{y} = \sigma(0.2) = \frac{1}{1 + e^{-0.2}} = \frac{1}{1 + 0.819} \approx 0.550$$+ 
 +$$\hat{y} = \sigma(0.2) = \frac{1}{1 + e^{-0.2}} = \frac{1}{1 + 0.819} \approx 0.550$$
          
-    (2) 二分类交叉熵损失: +(2) 二分类交叉熵损失: 
-    $$\mathcal{L} = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]$$ + 
-    $$= -[1 \times \log(0.550) + 0 \times \log(0.450)]$$ +$$\mathcal{L} = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]$$ 
-    $$= -\log(0.550) \approx 0.598$$+ 
 +$$= -[1 \times \log(0.550) + 0 \times \log(0.450)]$$ 
 + 
 +$$= -\log(0.550) \approx 0.598$$
  
 12. **解答**: 12. **解答**:
          
-    **隐藏层**: +**隐藏层**: 
-    $$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$$ + 
-    $$= \begin{bmatrix} 0.2 \times 1 + 0.1 \times 0 + 0.3 \times (-1) + 0.1 \\ -0.1 \times 1 + 0.2 \times 0 + 0.1 \times (-1) + 0.2 \end{bmatrix}$$ +$$\mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$$ 
-    $$= \begin{bmatrix} 0.2 - 0.3 + 0.1 \\ -0.1 - 0.1 + 0.2 \end{bmatrix} = \begin{bmatrix} 0.0 \\ 0.0 \end{bmatrix}$$+ 
 +$$= \begin{bmatrix} 0.2 \times 1 + 0.1 \times 0 + 0.3 \times (-1) + 0.1 \\ -0.1 \times 1 + 0.2 \times 0 + 0.1 \times (-1) + 0.2 \end{bmatrix}$$ 
 + 
 +$$= \begin{bmatrix} 0.2 - 0.3 + 0.1 \\ -0.1 - 0.1 + 0.2 \end{bmatrix} = \begin{bmatrix} 0.0 \\ 0.0 \end{bmatrix}$$
          
-    应用ReLU: +应用ReLU: 
-    $$\mathbf{a}^{(1)} = \text{ReLU}([0.0, 0.0]) = [0.0, 0.0]$$+ 
 +$$\mathbf{a}^{(1)} = \text{ReLU}([0.0, 0.0]) = [0.0, 0.0]$$
          
-    **输出层**: +**输出层**: 
-    $$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = 0.3 \times 0 + 0.4 \times 0 + 0.1 = 0.1$$+ 
 +$$z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)} = 0.3 \times 0 + 0.4 \times 0 + 0.1 = 0.1$$
          
-    应用Sigmoid: +应用Sigmoid: 
-    $$\hat{y} = \sigma(0.1) = \frac{1}{1 + e^{-0.1}} \approx \frac{1}{1 + 0.905} \approx 0.525$$+ 
 +$$\hat{y} = \sigma(0.1) = \frac{1}{1 + e^{-0.1}} \approx \frac{1}{1 + 0.905} \approx 0.525$$
  
---- 
-**本章完** 

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/神经网络基础.1772456985.txt.gz
  • 最后更改: 2026/03/02 21:09
  • 张叶安