差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 | |||
| 深度学习:强化学习 [2026/03/03 13:14] – [13.7.3 计算题] 张叶安 | 深度学习:强化学习 [2026/03/03 13:15] (当前版本) – [13.7.3 计算题] 张叶安 | ||
|---|---|---|---|
| 行 459: | 行 459: | ||
| 2. 使用Q-Learning($\alpha=0.2$,$\gamma=0.9$),当前Q表如下: | 2. 使用Q-Learning($\alpha=0.2$,$\gamma=0.9$),当前Q表如下: | ||
| - | |||
| | 状态 | 动作1 | 动作2 | | 状态 | 动作1 | 动作2 | ||
| | S1 | 5.0 | 3.0 | | | S1 | 5.0 | 3.0 | | ||