欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

深度强化学习入门:了解 Q-Learning-5 走迷宫时的优缺点

最编程 2024-03-22 07:49:50
...

与其他传统的机器学习算法相比,Q-Learning 有很多优点:

  • 该算法是完全通用的。这个例子中算法并没有什么方面是与迷宫紧紧联系在一起的,你可以很容易地将该算法重用在其他应用中。
  • 没有关于环境 (迷宫)的先验假设。
  • 不需要训练数据 — 算法是有组织地自我学习的。
  • 在训练之后,每个状态的最优动作是可知的。
  • 该算法在数学上保证了收敛性。

当然,这种方法也有一些缺点:

  • 该算法会花费大量时间遍历随机状态来搜索终端状态。
  • 存储 矩阵所需的内存数量增长为 (number_of_states^2)。对于迷宫来说,状态的数量相对较少 (例如数百个)。但是试着训练一个 Q-Learning 算法来操作推土机。有大量的状态变量需要追踪,每个状态变量都有许多值。因此,状态的数量呈指数级增长,需要大量的训练时间和内存。
  • 假设奖励矩阵是静态的。如果迷宫发生变化,或者目标发生变化,则需要从头开始重新训练智能体。
  • 智能体总是会选择最优路径。这使得它不能适应或学习新的策略。在这个例子中,适应能力是不必要的,因为迷宫是静态的。但是如果迷宫不是静态的,智能体总是试图在两点之间采用相同的路径。该算法的一个变体称为 epsilon-greedy 算法,它要求用户以概率 随机选择一个动作 的,而最优动作被选中的概率为 。通常, 很小 (例如 ,但这允许算法偶尔探索并找到新的、更优的解决方案。
  • 有时, 值会在不同的值之间振荡。为了解决这个问题,有时算法会引入一个学习率参数 alpha,该参数的取值范围为 [0,1]。与直接赋值 不同,新值将如下式计算,这使得算法收敛更慢,但会更稳定。
  • 另一种正在流行的 Q-Learning 变体算法,是通过深度卷积神经网络来预测矩阵 的值。这种被称为 Deep Q Learning 的方法,结合了深度学习和强化学习算法的优点,显示出了巨大的潜力。有关更多信息,可以在 这里 [2]找到一个很好的概述。