差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
| 深度学习:强化学习 [2026/03/03 13:13] – 张叶安 | 深度学习:强化学习 [2026/03/03 13:15] (当前版本) – [13.7.3 计算题] 张叶安 | ||
|---|---|---|---|
| 行 459: | 行 459: | ||
| 2. 使用Q-Learning($\alpha=0.2$,$\gamma=0.9$),当前Q表如下: | 2. 使用Q-Learning($\alpha=0.2$,$\gamma=0.9$),当前Q表如下: | ||
| - | + | | 状态 | 动作1 | 动作2 | |
| - | | 状态 | 动作1 | 动作2 | | + | |
| | S1 | 5.0 | 3.0 | | | S1 | 5.0 | 3.0 | | ||
| | S2 | 2.0 | 4.0 | | | S2 | 2.0 | 4.0 | | ||