差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
深度学习:强化学习 [2026/03/02 20:31] – 创建 张叶安深度学习:强化学习 [2026/03/03 13:15] (当前版本) – [13.7.3 计算题] 张叶安
行 59: 行 59:
 马尔可夫决策过程是强化学习的数学基础,为序列决策问题提供了一个严谨的建模框架。一个MDP由五元组$\langle S, A, P, R, \gamma \rangle$定义: 马尔可夫决策过程是强化学习的数学基础,为序列决策问题提供了一个严谨的建模框架。一个MDP由五元组$\langle S, A, P, R, \gamma \rangle$定义:
  
-- **状态空间$S$**:环境所有可能状态的集合。状态$s_t \in S$包含了智能体做决策所需的全部信息。 +  - **状态空间$S$**:环境所有可能状态的集合。状态$s_t \in S$包含了智能体做决策所需的全部信息。 
- +  - **动作空间$A$**:智能体所有可能动作的集合。动作可以是离散的(如"左移"、"右移")或连续的(如电机的扭矩值)。 
-- **动作空间$A$**:智能体所有可能动作的集合。动作可以是离散的(如"左移"、"右移")或连续的(如电机的扭矩值)。 +  - **状态转移概率$P$**:$P(s'|s,a)$表示在状态$s$执行动作$a$后转移到状态$s'$的概率。在确定性环境中,$P$退化为确定性函数。 
- +  - **奖励函数$R$**:$R(s,a,s')$或$R(s,a)$表示在状态$s$执行动作$a$(并转移到$s'$)后获得的即时奖励。 
-- **状态转移概率$P$**:$P(s'|s,a)$表示在状态$s$执行动作$a$后转移到状态$s'$的概率。在确定性环境中,$P$退化为确定性函数。 +  - **折扣因子$\gamma$**:$\gamma \in [0,1]$用于计算累积折扣奖励。
- +
-- **奖励函数$R$**:$R(s,a,s')$或$R(s,a)$表示在状态$s$执行动作$a$(并转移到$s'$)后获得的即时奖励。 +
- +
-- **折扣因子$\gamma$**:$\gamma \in [0,1]$用于计算累积折扣奖励。+
  
 **马尔可夫性质**是MDP的核心假设:给定当前状态,未来状态的条件概率分布与历史状态无关。数学表达为: **马尔可夫性质**是MDP的核心假设:给定当前状态,未来状态的条件概率分布与历史状态无关。数学表达为:
行 278: 行 274:
  
 **Actor-Critic架构**结合了值函数估计和策略梯度: **Actor-Critic架构**结合了值函数估计和策略梯度:
-- **Actor(演员)**:策略网络$\pi(a|s, \boldsymbol{\theta})$,决定动作 +  - **Actor(演员)**:策略网络$\pi(a|s, \boldsymbol{\theta})$,决定动作 
-- **Critic(评论家)**:值函数网络$\hat{V}(s, \mathbf{w})$,评估动作+  - **Critic(评论家)**:值函数网络$\hat{V}(s, \mathbf{w})$,评估动作
  
 使用TD误差代替累积回报: 使用TD误差代替累积回报:
行 308: 行 304:
  
 **问题**: **问题**:
 +
 1. 写出该MDP的五元组表示 1. 写出该MDP的五元组表示
 +
 2. 计算从(0,0)出发的最优路径及其累积奖励 2. 计算从(0,0)出发的最优路径及其累积奖励
 +
 3. 若采用随机策略(四个动作等概率),计算$V(0,0)$ 3. 若采用随机策略(四个动作等概率),计算$V(0,0)$
  
行 315: 行 314:
  
 1. **MDP五元组**: 1. **MDP五元组**:
-   - $S = \{(i,j) | i,j \in \{0,1,2\}\}$,共9个状态 + - $S = \{(i,j) | i,j \in \{0,1,2\}\}$,共9个状态 
-   - $A = \{\text{上}, \text{下}, \text{左}, \text{右}\}$ + - $A = \{\text{上}, \text{下}, \text{左}, \text{右}\}$ 
-   - $P$是确定性的:$P((i',j')|(i,j),a) = 1$如果移动有效,否则保持原状态 + - $P$是确定性的:$P((i',j')|(i,j),a) = 1$如果移动有效,否则保持原状态 
-   - $R((2,2), a) = +10$(终止),其他$R = -1$ + - $R((2,2), a) = +10$(终止),其他$R = -1$ 
-   - $\gamma = 0.9$+ - $\gamma = 0.9$
  
 2. **最优路径**: 2. **最优路径**:
-   最优路径是走最短路径,如:右→右→下→下,或下→下→右→右。+ 
 +最优路径是走最短路径,如:右→右→下→下,或下→下→右→右。
        
-   路径:(0,0)→(0,1)→(0,2)→(1,2)→(2,2)+路径:(0,0)→(0,1)→(0,2)→(1,2)→(2,2)
        
-   累积奖励:$(-1) + (-1) \times 0.9 + (-1) \times 0.9^2 + 10 \times 0.9^3$ +累积奖励:$(-1) + (-1) \times 0.9 + (-1) \times 0.9^2 + 10 \times 0.9^3$ 
-   $= -1 - 0.9 - 0.81 + 7.29 = 4.58$+ 
 +$= -1 - 0.9 - 0.81 + 7.29 = 4.58$
  
 3. **随机策略的价值**: 3. **随机策略的价值**:
-   设$V(i,j)$为状态$(i,j)$的价值。对于非目标状态,贝尔曼方程为:+ 
 +设$V(i,j)$为状态$(i,j)$的价值。对于非目标状态,贝尔曼方程为:
        
-   $$V(s) = -1 + \gamma \cdot \frac{1}{4}\sum_{s' \in \text{next}(s)} V(s')$$+$$V(s) = -1 + \gamma \cdot \frac{1}{4}\sum_{s' \in \text{next}(s)} V(s')$$
        
-   设$V(2,2)=0$(终止状态)。通过迭代求解方程组(或观察对称性),对于(0,0):+设$V(2,2)=0$(终止状态)。通过迭代求解方程组(或观察对称性),对于(0,0):
        
-   平均需要较多步才能到达目标。估算$V(0,0) \approx -5$(考虑多次撞墙和绕路)。+平均需要较多步才能到达目标。估算$V(0,0) \approx -5$(考虑多次撞墙和绕路)。
  
 **例题2:Q-Learning更新** **例题2:Q-Learning更新**
  
 智能体观察以下转移序列($\gamma=0.9$,$\alpha=0.1$,初始$Q(s,a)=0$): 智能体观察以下转移序列($\gamma=0.9$,$\alpha=0.1$,初始$Q(s,a)=0$):
-- $S_0=A, A_0=\text{右}, R_1=-1, S_1=B$ +  - $S_0=A, A_0=\text{右}, R_1=-1, S_1=B$ 
-- $S_1=B, A_1=\text{右}, R_2=+10, S_2=C$(终止)+  - $S_1=B, A_1=\text{右}, R_2=+10, S_2=C$(终止)
  
 **问题**:计算两次Q值更新后的$Q(A, \text{右})$和$Q(B, \text{右})$。 **问题**:计算两次Q值更新后的$Q(A, \text{右})$和$Q(B, \text{右})$。
行 372: 行 374:
 **问题**: **问题**:
 1. 使用$\epsilon$-贪婪($\epsilon=0.1$)策略,选择A的概率是多少? 1. 使用$\epsilon$-贪婪($\epsilon=0.1$)策略,选择A的概率是多少?
 +
 2. 使用UCB(Upper Confidence Bound)策略,$c=2$,应该选择哪个摇臂? 2. 使用UCB(Upper Confidence Bound)策略,$c=2$,应该选择哪个摇臂?
 +
 3. 讨论$\epsilon$-贪婪和UCB的优缺点 3. 讨论$\epsilon$-贪婪和UCB的优缺点
  
行 378: 行 382:
  
 1. **$\epsilon$-贪婪**: 1. **$\epsilon$-贪婪**:
-   - 以$1-\epsilon=0.9$概率选择当前最优(A,因为$\hat{\mu}_A > \hat{\mu}_B$) + - 以$1-\epsilon=0.9$概率选择当前最优(A,因为$\hat{\mu}_A > \hat{\mu}_B$) 
-   - 以$\epsilon=0.1$概率随机选择(A或B各0.05) + - 以$\epsilon=0.1$概率随机选择(A或B各0.05) 
-   - 选择A的总概率:$0.9 + 0.05 = 0.95$+ - 选择A的总概率:$0.9 + 0.05 = 0.95$
  
 2. **UCB**: 2. **UCB**:
        
-   总拉动次数$n = 10 + 5 = 15$+总拉动次数$n = 10 + 5 = 15$
        
-   $UCB_A = 0.7 + 2\sqrt{\frac{\ln 15}{10}} = 0.7 + 2\sqrt{0.27} = 0.7 + 1.04 = 1.74$+$UCB_A = 0.7 + 2\sqrt{\frac{\ln 15}{10}} = 0.7 + 2\sqrt{0.27} = 0.7 + 1.04 = 1.74$
        
-   $UCB_B = 0.3 + 2\sqrt{\frac{\ln 15}{5}} = 0.3 + 2\sqrt{0.54} = 0.3 + 1.47 = 1.77$+$UCB_B = 0.3 + 2\sqrt{\frac{\ln 15}{5}} = 0.3 + 2\sqrt{0.54} = 0.3 + 1.47 = 1.77$
        
-   选择B(UCB值更高)+选择B(UCB值更高)
  
 3. **优缺点分析**: 3. **优缺点分析**:
-   - **$\epsilon$-贪婪**: +  - **$\epsilon$-贪婪**: 
-     - 优点:简单易实现,计算开销小 +    - 优点:简单易实现,计算开销小 
-     - 缺点:探索是盲目的,持续以固定概率探索,不随知识增加而减少;对已充分探索的动作仍可能浪费探索+    - 缺点:探索是盲目的,持续以固定概率探索,不随知识增加而减少;对已充分探索的动作仍可能浪费探索
        
-   - **UCB**: +  - **UCB**: 
-     - 优点:探索是有目的的,优先探索不确定性高的动作;随着采样增加,探索自然减少;有理论保证(对数遗憾界) +    - 优点:探索是有目的的,优先探索不确定性高的动作;随着采样增加,探索自然减少;有理论保证(对数遗憾界) 
-     - 缺点:需要知道尝试次数;在复杂环境(如MDP)中计算困难+    - 缺点:需要知道尝试次数;在复杂环境(如MDP)中计算困难
  
 ===== 13.7 训练题 ===== ===== 13.7 训练题 =====
行 437: 行 441:
 ==== 13.7.2 填空题 ==== ==== 13.7.2 填空题 ====
  
-1. MDP的五元组是:状态空间S、动作空间A、________________、折扣因子$\gamma$。+1. MDP的五元组是:状态空间S、动作空间A、$\_\_\_\_$$\_\_\_\_$、折扣因子$\gamma$。
  
-2. 贝尔曼最优方程中,$V^*(s) = \max_a$________+2. 贝尔曼最优方程中,$V^*(s) = \max_a$$\_\_\_\_$
  
-3. TD学习中,$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$被称为________+3. TD学习中,$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$被称为$\_\_\_\_$
  
-4. Actor-Critic架构中,Actor负责________,Critic负责________+4. Actor-Critic架构中,Actor负责$\_\_\_\_$,Critic负责$\_\_\_\_$
  
-5. 折扣因子$\gamma=0$时,智能体只关注________;$\gamma=1$时,智能体关注________+5. 折扣因子$\gamma=0$时,智能体只关注$\_\_\_\_$;$\gamma=1$时,智能体关注$\_\_\_\_$
  
 ==== 13.7.3 计算题 ==== ==== 13.7.3 计算题 ====
  
 1. 考虑以下MDP:状态$A, B, C$,其中$C$是终止状态。转移如下: 1. 考虑以下MDP:状态$A, B, C$,其中$C$是终止状态。转移如下:
-   - 从$A$:动作1以概率1到$B$,奖励0;动作2以概率1到$C$,奖励+5 +  - 从$A$:动作1以概率1到$B$,奖励0;动作2以概率1到$C$,奖励+5 
-   - 从$B$:唯一动作以概率1到$C$,奖励+10 +  - 从$B$:唯一动作以概率1到$C$,奖励+10 
-   设$\gamma=0.9$,计算最优价值$V^*(A)$和$V^*(B)$。+设$\gamma=0.9$,计算最优价值$V^*(A)$和$V^*(B)$。
  
 2. 使用Q-Learning($\alpha=0.2$,$\gamma=0.9$),当前Q表如下: 2. 使用Q-Learning($\alpha=0.2$,$\gamma=0.9$),当前Q表如下:
 +| 状态 | 动作1 | 动作2  |
 +| S1   | 5.0   | 3.0   |
 +| S2   | 2.0   | 4.0   |
        
-   | 状态 | 动作1 | 动作2 | +观察到转移:$S_1 \xrightarrow{\text{动作2}} R=2 \rightarrow S_2$,更新$Q(S_1, \text{动作2})$。
-   |------|-------|-------| +
-   | S1   | 5.0   | 3.0   | +
-   | S2   | 2.0   | 4.0   | +
-    +
-   观察到转移:$S_1 \xrightarrow{\text{动作2}} R=2 \rightarrow S_2$,更新$Q(S_1, \text{动作2})$。+
  
 3. 在一个网格世界(4×4)中,从任意位置到目标的曼哈顿距离为$d$,每步奖励为-1,到达目标奖励为+10。设$\gamma=0.9$,写出最优策略下的价值函数表达式。 3. 在一个网格世界(4×4)中,从任意位置到目标的曼哈顿距离为$d$,每步奖励为-1,到达目标奖励为+10。设$\gamma=0.9$,写出最优策略下的价值函数表达式。
行 495: 行 497:
 1. **解答**: 1. **解答**:
        
-   从$B$:唯一选择到$C$,$V^*(B) = 10 + \gamma \cdot 0 = 10$+从$B$:唯一选择到$C$,$V^*(B) = 10 + \gamma \cdot 0 = 10$
        
-   从$A$有两个选择: +从$A$有两个选择: 
-   - 动作1:到$B$,价值为$0 + \gamma V^*(B) = 0.9 \times 10 = 9$ +  - 动作1:到$B$,价值为$0 + \gamma V^*(B) = 0.9 \times 10 = 9$ 
-   - 动作2:到$C$,价值为$5 + \gamma \cdot 0 = 5$+  - 动作2:到$C$,价值为$5 + \gamma \cdot 0 = 5$
        
-   因此$V^*(A) = \max(9, 5) = 9$+因此$V^*(A) = \max(9, 5) = 9$
        
-   **答案**:$V^*(A) = 9$,$V^*(B) = 10$+**答案**:$V^*(A) = 9$,$V^*(B) = 10$
  
 2. **解答**: 2. **解答**:
        
-   Q-Learning更新:$Q(S_1, \text{动作2}) \leftarrow Q(S_1, \text{动作2}) + \alpha [R + \gamma \max_a Q(S_2, a) - Q(S_1, \text{动作2})]$+Q-Learning更新:$Q(S_1, \text{动作2}) \leftarrow Q(S_1, \text{动作2}) + \alpha [R + \gamma \max_a Q(S_2, a) - Q(S_1, \text{动作2})]$
        
-   $\max_a Q(S_2, a) = \max(2.0, 4.0) = 4.0$+$\max_a Q(S_2, a) = \max(2.0, 4.0) = 4.0$
        
-   新值:$3.0 + 0.2 \times [2 + 0.9 \times 4.0 - 3.0]$ +新值:$3.0 + 0.2 \times [2 + 0.9 \times 4.0 - 3.0]$ 
-   $= 3.0 + 0.2 \times [2 + 3.6 - 3.0]$ + 
-   $= 3.0 + 0.2 \times 2.6$ +$= 3.0 + 0.2 \times [2 + 3.6 - 3.0]$ 
-   $= 3.0 + 0.52 = 3.52$+ 
 +$= 3.0 + 0.2 \times 2.6$ 
 + 
 +$= 3.0 + 0.52 = 3.52$
        
-   **答案**:更新后$Q(S_1, \text{动作2}) = 3.52$+**答案**:更新后$Q(S_1, \text{动作2}) = 3.52$
  
 3. **解答**: 3. **解答**:
        
-   设$d$为当前位置到目标的曼哈顿距离(最少步数)。+设$d$为当前位置到目标的曼哈顿距离(最少步数)。
        
-   最优策略下,每步向目标移动,实际经过$d$步到达目标。+最优策略下,每步向目标移动,实际经过$d$步到达目标。
        
-   价值函数为:$V^*(d) = (-1) + (-1)\gamma + (-1)\gamma^2 + ... + (-1)\gamma^{d-1} + 10\gamma^d$+价值函数为:$V^*(d) = (-1) + (-1)\gamma + (-1)\gamma^2 + ... + (-1)\gamma^{d-1} + 10\gamma^d$
        
-   前$d$项是等比数列:$-\frac{1-\gamma^d}{1-\gamma} = -\frac{1-0.9^d}{0.1} = -10(1-0.9^d) = -10 + 10 \times 0.9^d$+前$d$项是等比数列:$-\frac{1-\gamma^d}{1-\gamma} = -\frac{1-0.9^d}{0.1} = -10(1-0.9^d) = -10 + 10 \times 0.9^d$
        
-   加上终止奖励:$V^*(d) = -10 + 10 \times 0.9^d + 10 \times 0.9^d = -10 + 20 \times 0.9^d$+加上终止奖励:$V^*(d) = -10 + 10 \times 0.9^d + 10 \times 0.9^d = -10 + 20 \times 0.9^d$
        
-   简化:$V^*(d) = 20 \times 0.9^d - 10$+简化:$V^*(d) = 20 \times 0.9^d - 10$
        
-   **答案**:$V^*(d) = 20 \cdot \gamma^d - 10 = 20 \times 0.9^d - 10$+**答案**:$V^*(d) = 20 \cdot \gamma^d - 10 = 20 \times 0.9^d - 10$

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/强化学习.1772454698.txt.gz
  • 最后更改: 2026/03/02 20:31
  • 张叶安