第 4 章动态编程算法_未完成

最编程 2024-10-17 07:23:34

...

文章目录

前言
一、策略迭代
- - 1. **状态值函数的贝尔曼期望方程**
  - 2. **动作值函数的贝尔曼期望方程**
  - **贝尔曼期望方程的直观理解**
  - **总结**
二、例子：Cliff Walking 环境
- 2.读入数据
总结

前言

第 4 章动态规划算法

一、策略迭代

贝尔曼期望方程（Bellman Expectation Equation是强化学习（Reinforcement Learning）和动态规划（Dynamic Programming）中的核心概念之一，用来描述在给定策略下，某个状态或状态-动作对的期望回报值。它反映了问题的递归性质，即未来的期望回报可以通过当前的回报和下一步的期望回报来表示。

贝尔曼期望方程的形式分为两种：状态值函数的贝尔曼期望方程和动作值函数的贝尔曼期望方程。我们分别解释这两种方程。

1. 状态值函数的贝尔曼期望方程

状态值函数 $V^\pi(s)$ 表示在策略 $\pi$ 下，智能体从状态 $s$ 开始的期望总回报。这个期望回报可以通过考虑两个部分来分解：

从状态 $s$ 开始，采取某个动作后得到的即时回报。
之后从新状态 $s^{'}$ 开始，继续按策略 $\pi$ 行动的期望回报。

状态值函数的贝尔曼期望方程可以写为：

$V^\pi(s) = \mathbb{E}_\pi \left[ R_{t+1} + \gamma V^\pi(s_{t+1}) \mid s_t = s \right]$

其中：

$V^\pi(s)$ ：状态 $s$ 的值函数。
$\mathbb{E}_\pi[\cdot]$ ：期望，表示根据策略 $\pi$ 的选择。
$R_{t+1}$ ：从状态 $s_t$ 到状态 $s_{t+1}$ 的即时奖励。
$\gamma$ ：折扣因子，用来折扣未来的奖励（0 ≤ $\gamma$ ≤ 1）。
$s_{t+1}$ ：下一个状态。

这个方程的含义是：状态 $s$ 的期望回报等于即时奖励 $R_{t+1}$ 加上从新状态 $s_{t+1}$ 开始按照策略 $\pi$ 的期望未来回报的折扣和。

2. 动作值函数的贝尔曼期望方程

动作值函数 $Q^\pi(s, a)$ 表示在策略 $\pi$ 下，从状态 $s$ 采取动作 $a$ 后的期望总回报。它同样可以分为两部分：

执行动作 $a$ 后获得的即时回报。
转移到新状态 $s^{'}$ 后，按策略 $\pi$ 继续行动的期望回报。

动作值函数的贝尔曼期望方程写作：

$Q^\pi(s, a) = \mathbb{E} \left[ R_{t+1} + \gamma \mathbb{E}_{\pi}[Q^\pi(s_{t+1}, a_{t+1})] \mid s_t = s, a_t = a \right]$

其中：

$Q^\pi(s, a)$ ：在策略 $\pi$ 下，从状态 $s$ 采取动作 $a$ 的值函数。
$a_{t+1}$ ：下一步策略选择的动作。

这个方程的含义是：在状态 $s$ 下选择动作 $a$ ，其期望回报等于即时奖励加上从新状态 $s_{t+1}$ 开始，按策略 $\pi$ 行动的期望未来回报的折扣和。

贝尔曼期望方程的直观理解

贝尔曼期望方程之所以重要，是因为它揭示了强化学习问题的递归结构。它表明当前状态的期望值可以通过后续状态的期望值表示。通过这种递归方式，可以构建出从状态到回报的价值评估。

贝尔曼期望方程的递归特性也为算法设计提供了基础，例如：

动态规划 方法（如策略迭代和值迭代）通过反复求解贝尔曼方程来寻找最优策略。
蒙特卡洛方法 和 时序差分（Temporal Difference, TD）方法 也是基于贝尔曼方程的更新规则，用以估计策略下的状态值或动作值。

总结

贝尔曼期望方程在强化学习中用于计算给定策略下的状态或动作的期望回报。它利用了问题的递归结构，将当前回报和未来的期望回报联系起来，是求解策略优化和路径规划的基础工具。

二、例子：Cliff Walking 环境

2.读入数据

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

上一篇：反应项目中 img 标记 src 的路径问题直接引入无效

下一篇： JVM] - 深入了解 G1 回收器 - 回收流程详解