差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:强化学习 [2026/03/02 20:31] – 创建张叶安
+++ 深度学习:强化学习 [2026/03/03 13:15] (当前版本) – [13.7.3 计算题] 张叶安
@@ 行 59: / 行 59: @@
 马尔可夫决策过程是强化学习的数学基础，为序列决策问题提供了一个严谨的建模框架。一个MDP由五元组$\langle S, A, P, R, \gamma \rangle$定义：
-- **状态空间$S$**：环境所有可能状态的集合。状态$s_t \in S$包含了智能体做决策所需的全部信息。
+  - **状态空间$S$**：环境所有可能状态的集合。状态$s_t \in S$包含了智能体做决策所需的全部信息。
+  - **动作空间$A$**：智能体所有可能动作的集合。动作可以是离散的（如"左移"、"右移"）或连续的（如电机的扭矩值）。
-- **动作空间$A$**：智能体所有可能动作的集合。动作可以是离散的（如"左移"、"右移"）或连续的（如电机的扭矩值）。
+  - **状态转移概率$P$**：$P(s'|s,a)$表示在状态$s$执行动作$a$后转移到状态$s'$的概率。在确定性环境中，$P$退化为确定性函数。
+  - **奖励函数$R$**：$R(s,a,s')$或$R(s,a)$表示在状态$s$执行动作$a$（并转移到$s'$）后获得的即时奖励。
-- **状态转移概率$P$**：$P(s'|s,a)$表示在状态$s$执行动作$a$后转移到状态$s'$的概率。在确定性环境中，$P$退化为确定性函数。
+  - **折扣因子$\gamma$**：$\gamma \in [0,1]$用于计算累积折扣奖励。
-- **奖励函数$R$**：$R(s,a,s')$或$R(s,a)$表示在状态$s$执行动作$a$（并转移到$s'$）后获得的即时奖励。
-- **折扣因子$\gamma$**：$\gamma \in [0,1]$用于计算累积折扣奖励。
 **马尔可夫性质**是MDP的核心假设：给定当前状态，未来状态的条件概率分布与历史状态无关。数学表达为：
@@ 行 278: / 行 274: @@
 **Actor-Critic架构**结合了值函数估计和策略梯度：
-- **Actor（演员）**：策略网络$\pi(a|s, \boldsymbol{\theta})$，决定动作
+  - **Actor（演员）**：策略网络$\pi(a|s, \boldsymbol{\theta})$，决定动作
-- **Critic（评论家）**：值函数网络$\hat{V}(s, \mathbf{w})$，评估动作
+  - **Critic（评论家）**：值函数网络$\hat{V}(s, \mathbf{w})$，评估动作
 使用TD误差代替累积回报：
@@ 行 308: / 行 304: @@
 **问题**：
 . 写出该MDP的五元组表示
 . 计算从(0,0)出发的最优路径及其累积奖励
 . 若采用随机策略（四个动作等概率），计算$V(0,0)$
@@ 行 315: / 行 314: @@
 . **MDP五元组**：
-   - $S = \{(i,j) | i,j \in \{0,1,2\}\}$，共9个状态
+ - $S = \{(i,j) | i,j \in \{0,1,2\}\}$，共9个状态
-   - $A = \{\text{上}, \text{下}, \text{左}, \text{右}\}$
+ - $A = \{\text{上}, \text{下}, \text{左}, \text{右}\}$
-   - $P$是确定性的：$P((i',j')|(i,j),a) = 1$如果移动有效，否则保持原状态
+ - $P$是确定性的：$P((i',j')|(i,j),a) = 1$如果移动有效，否则保持原状态
-   - $R((2,2), a) = +10$（终止），其他$R = -1$
+ - $R((2,2), a) = +10$（终止），其他$R = -1$
-   - $\gamma = 0.9$
+ - $\gamma = 0.9$
 . **最优路径**：
-   最优路径是走最短路径，如：右→右→下→下，或下→下→右→右。
+最优路径是走最短路径，如：右→右→下→下，或下→下→右→右。
-   路径：(0,0)→(0,1)→(0,2)→(1,2)→(2,2)
+路径：(0,0)→(0,1)→(0,2)→(1,2)→(2,2)
-   累积奖励：$(-1) + (-1) \times 0.9 + (-1) \times 0.9^2 + 10 \times 0.9^3$
+累积奖励：$(-1) + (-1) \times 0.9 + (-1) \times 0.9^2 + 10 \times 0.9^3$
-   $= -1 - 0.9 - 0.81 + 7.29 = 4.58$
+$= -1 - 0.9 - 0.81 + 7.29 = 4.58$
 . **随机策略的价值**：
-   设$V(i,j)$为状态$(i,j)$的价值。对于非目标状态，贝尔曼方程为：
+设$V(i,j)$为状态$(i,j)$的价值。对于非目标状态，贝尔曼方程为：
-   $$V(s) = -1 + \gamma \cdot \frac{1}{4}\sum_{s' \in \text{next}(s)} V(s')$$
+$$V(s) = -1 + \gamma \cdot \frac{1}{4}\sum_{s' \in \text{next}(s)} V(s')$$
-   设$V(2,2)=0$（终止状态）。通过迭代求解方程组（或观察对称性），对于(0,0)：
+设$V(2,2)=0$（终止状态）。通过迭代求解方程组（或观察对称性），对于(0,0)：
-   平均需要较多步才能到达目标。估算$V(0,0) \approx -5$（考虑多次撞墙和绕路）。
+平均需要较多步才能到达目标。估算$V(0,0) \approx -5$（考虑多次撞墙和绕路）。
 **例题2：Q-Learning更新**
 智能体观察以下转移序列（$\gamma=0.9$，$\alpha=0.1$，初始$Q(s,a)=0$）：
-- $S_0=A, A_0=\text{右}, R_1=-1, S_1=B$
+  - $S_0=A, A_0=\text{右}, R_1=-1, S_1=B$
-- $S_1=B, A_1=\text{右}, R_2=+10, S_2=C$（终止）
+  - $S_1=B, A_1=\text{右}, R_2=+10, S_2=C$（终止）
 **问题**：计算两次Q值更新后的$Q(A, \text{右})$和$Q(B, \text{右})$。
@@ 行 372: / 行 374: @@
 **问题**：
 . 使用$\epsilon$-贪婪（$\epsilon=0.1$）策略，选择A的概率是多少？
 . 使用UCB（Upper Confidence Bound）策略，$c=2$，应该选择哪个摇臂？
 . 讨论$\epsilon$-贪婪和UCB的优缺点
@@ 行 378: / 行 382: @@
 . **$\epsilon$-贪婪**：
-   - 以$1-\epsilon=0.9$概率选择当前最优（A，因为$\hat{\mu}_A > \hat{\mu}_B$）
+ - 以$1-\epsilon=0.9$概率选择当前最优（A，因为$\hat{\mu}_A > \hat{\mu}_B$）
-   - 以$\epsilon=0.1$概率随机选择（A或B各0.05）
+ - 以$\epsilon=0.1$概率随机选择（A或B各0.05）
-   - 选择A的总概率：$0.9 + 0.05 = 0.95$
+ - 选择A的总概率：$0.9 + 0.05 = 0.95$
 . **UCB**：
-   总拉动次数$n = 10 + 5 = 15$
+总拉动次数$n = 10 + 5 = 15$
-   $UCB_A = 0.7 + 2\sqrt{\frac{\ln 15}{10}} = 0.7 + 2\sqrt{0.27} = 0.7 + 1.04 = 1.74$
+$UCB_A = 0.7 + 2\sqrt{\frac{\ln 15}{10}} = 0.7 + 2\sqrt{0.27} = 0.7 + 1.04 = 1.74$
-   $UCB_B = 0.3 + 2\sqrt{\frac{\ln 15}{5}} = 0.3 + 2\sqrt{0.54} = 0.3 + 1.47 = 1.77$
+$UCB_B = 0.3 + 2\sqrt{\frac{\ln 15}{5}} = 0.3 + 2\sqrt{0.54} = 0.3 + 1.47 = 1.77$
-   选择B（UCB值更高）
+选择B（UCB值更高）
 . **优缺点分析**：
-   - **$\epsilon$-贪婪**：
+  - **$\epsilon$-贪婪**：
-     - 优点：简单易实现，计算开销小
+    - 优点：简单易实现，计算开销小
-     - 缺点：探索是盲目的，持续以固定概率探索，不随知识增加而减少；对已充分探索的动作仍可能浪费探索
+    - 缺点：探索是盲目的，持续以固定概率探索，不随知识增加而减少；对已充分探索的动作仍可能浪费探索
-   - **UCB**：
+  - **UCB**：
-     - 优点：探索是有目的的，优先探索不确定性高的动作；随着采样增加，探索自然减少；有理论保证（对数遗憾界）
+    - 优点：探索是有目的的，优先探索不确定性高的动作；随着采样增加，探索自然减少；有理论保证（对数遗憾界）
-     - 缺点：需要知道尝试次数；在复杂环境（如MDP）中计算困难
+    - 缺点：需要知道尝试次数；在复杂环境（如MDP）中计算困难
 ===== 13.7 训练题 =====
@@ 行 437: / 行 441: @@
 ==== 13.7.2 填空题 ====
-. MDP的五元组是：状态空间S、动作空间A、________、________、折扣因子$\gamma$。
+. MDP的五元组是：状态空间S、动作空间A、$\_\_\_\_$、$\_\_\_\_$、折扣因子$\gamma$。
-. 贝尔曼最优方程中，$V^*(s) = \max_a$________。
+. 贝尔曼最优方程中，$V^*(s) = \max_a$$\_\_\_\_$。
-. TD学习中，$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$被称为________。
+. TD学习中，$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$被称为$\_\_\_\_$。
-. Actor-Critic架构中，Actor负责________，Critic负责________。
+. Actor-Critic架构中，Actor负责$\_\_\_\_$，Critic负责$\_\_\_\_$。
-. 折扣因子$\gamma=0$时，智能体只关注________；$\gamma=1$时，智能体关注________。
+. 折扣因子$\gamma=0$时，智能体只关注$\_\_\_\_$；$\gamma=1$时，智能体关注$\_\_\_\_$。
 ==== 13.7.3 计算题 ====
 . 考虑以下MDP：状态$A, B, C$，其中$C$是终止状态。转移如下：
-   - 从$A$：动作1以概率1到$B$，奖励0；动作2以概率1到$C$，奖励+5
+  - 从$A$：动作1以概率1到$B$，奖励0；动作2以概率1到$C$，奖励+5
-   - 从$B$：唯一动作以概率1到$C$，奖励+10
+  - 从$B$：唯一动作以概率1到$C$，奖励+10
-   设$\gamma=0.9$，计算最优价值$V^*(A)$和$V^*(B)$。
+设$\gamma=0.9$，计算最优价值$V^*(A)$和$V^*(B)$。
 . 使用Q-Learning（$\alpha=0.2$，$\gamma=0.9$），当前Q表如下：
+| 状态 | 动作1 | 动作2  |
+| S1   | 5.0   | 3.0   |
+| S2   | 2.0   | 4.0   |
-   | 状态 | 动作1 | 动作2 |
+观察到转移：$S_1 \xrightarrow{\text{动作2}} R=2 \rightarrow S_2$，更新$Q(S_1, \text{动作2})$。
-   |------|-------|-------|
-   | S1   | 5.0   | 3.0   |
-   | S2   | 2.0   | 4.0   |
-   观察到转移：$S_1 \xrightarrow{\text{动作2}} R=2 \rightarrow S_2$，更新$Q(S_1, \text{动作2})$。
 . 在一个网格世界（4×4）中，从任意位置到目标的曼哈顿距离为$d$，每步奖励为-1，到达目标奖励为+10。设$\gamma=0.9$，写出最优策略下的价值函数表达式。
@@ 行 495: / 行 497: @@
 . **解答**：
-   从$B$：唯一选择到$C$，$V^*(B) = 10 + \gamma \cdot 0 = 10$
+从$B$：唯一选择到$C$，$V^*(B) = 10 + \gamma \cdot 0 = 10$
-   从$A$有两个选择：
+从$A$有两个选择：
-   - 动作1：到$B$，价值为$0 + \gamma V^*(B) = 0.9 \times 10 = 9$
+  - 动作1：到$B$，价值为$0 + \gamma V^*(B) = 0.9 \times 10 = 9$
-   - 动作2：到$C$，价值为$5 + \gamma \cdot 0 = 5$
+  - 动作2：到$C$，价值为$5 + \gamma \cdot 0 = 5$
-   因此$V^*(A) = \max(9, 5) = 9$
+因此$V^*(A) = \max(9, 5) = 9$
-   **答案**：$V^*(A) = 9$，$V^*(B) = 10$
+**答案**：$V^*(A) = 9$，$V^*(B) = 10$
 . **解答**：
-   Q-Learning更新：$Q(S_1, \text{动作2}) \leftarrow Q(S_1, \text{动作2}) + \alpha [R + \gamma \max_a Q(S_2, a) - Q(S_1, \text{动作2})]$
+Q-Learning更新：$Q(S_1, \text{动作2}) \leftarrow Q(S_1, \text{动作2}) + \alpha [R + \gamma \max_a Q(S_2, a) - Q(S_1, \text{动作2})]$
-   $\max_a Q(S_2, a) = \max(2.0, 4.0) = 4.0$
+$\max_a Q(S_2, a) = \max(2.0, 4.0) = 4.0$
-   新值：$3.0 + 0.2 \times [2 + 0.9 \times 4.0 - 3.0]$
+新值：$3.0 + 0.2 \times [2 + 0.9 \times 4.0 - 3.0]$
-   $= 3.0 + 0.2 \times [2 + 3.6 - 3.0]$
-   $= 3.0 + 0.2 \times 2.6$
+$= 3.0 + 0.2 \times [2 + 3.6 - 3.0]$
-   $= 3.0 + 0.52 = 3.52$
+$= 3.0 + 0.2 \times 2.6$
+$= 3.0 + 0.52 = 3.52$
-   **答案**：更新后$Q(S_1, \text{动作2}) = 3.52$
+**答案**：更新后$Q(S_1, \text{动作2}) = 3.52$
 . **解答**：
-   设$d$为当前位置到目标的曼哈顿距离（最少步数）。
+设$d$为当前位置到目标的曼哈顿距离（最少步数）。
-   最优策略下，每步向目标移动，实际经过$d$步到达目标。
+最优策略下，每步向目标移动，实际经过$d$步到达目标。
-   价值函数为：$V^*(d) = (-1) + (-1)\gamma + (-1)\gamma^2 + ... + (-1)\gamma^{d-1} + 10\gamma^d$
+价值函数为：$V^*(d) = (-1) + (-1)\gamma + (-1)\gamma^2 + ... + (-1)\gamma^{d-1} + 10\gamma^d$
-   前$d$项是等比数列：$-\frac{1-\gamma^d}{1-\gamma} = -\frac{1-0.9^d}{0.1} = -10(1-0.9^d) = -10 + 10 \times 0.9^d$
+前$d$项是等比数列：$-\frac{1-\gamma^d}{1-\gamma} = -\frac{1-0.9^d}{0.1} = -10(1-0.9^d) = -10 + 10 \times 0.9^d$
-   加上终止奖励：$V^*(d) = -10 + 10 \times 0.9^d + 10 \times 0.9^d = -10 + 20 \times 0.9^d$
+加上终止奖励：$V^*(d) = -10 + 10 \times 0.9^d + 10 \times 0.9^d = -10 + 20 \times 0.9^d$
-   简化：$V^*(d) = 20 \times 0.9^d - 10$
+简化：$V^*(d) = 20 \times 0.9^d - 10$
-   **答案**：$V^*(d) = 20 \cdot \gamma^d - 10 = 20 \times 0.9^d - 10$
+**答案**：$V^*(d) = 20 \cdot \gamma^d - 10 = 20 \times 0.9^d - 10$

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客