深度强化学习入门:了解 Q-Learning-5 走迷宫时的优缺点
最编程
2024-03-22 07:49:50
...
与其他传统的机器学习算法相比,Q-Learning 有很多优点:
-
该算法是完全通用的。这个例子中算法并没有什么方面是与迷宫紧紧联系在一起的,你可以很容易地将该算法重用在其他应用中。 -
没有关于环境 (迷宫)的先验假设。 -
不需要训练数据 — 算法是有组织地自我学习的。 -
在训练之后,每个状态的最优动作是可知的。 -
该算法在数学上保证了收敛性。
当然,这种方法也有一些缺点:
-
该算法会花费大量时间遍历随机状态来搜索终端状态。 -
存储 矩阵所需的内存数量增长为 (number_of_states^2)。对于迷宫来说,状态的数量相对较少 (例如数百个)。但是试着训练一个 Q-Learning 算法来操作推土机。有大量的状态变量需要追踪,每个状态变量都有许多值。因此,状态的数量呈指数级增长,需要大量的训练时间和内存。 -
假设奖励矩阵是静态的。如果迷宫发生变化,或者目标发生变化,则需要从头开始重新训练智能体。 -
智能体总是会选择最优路径。这使得它不能适应或学习新的策略。在这个例子中,适应能力是不必要的,因为迷宫是静态的。但是如果迷宫不是静态的,智能体总是试图在两点之间采用相同的路径。该算法的一个变体称为 epsilon-greedy 算法,它要求用户以概率 随机选择一个动作 的,而最优动作被选中的概率为 。通常, 很小 (例如 ),但这允许算法偶尔探索并找到新的、更优的解决方案。 -
有时, 值会在不同的值之间振荡。为了解决这个问题,有时算法会引入一个学习率参数 alpha,该参数的取值范围为 [0,1]。与直接赋值 不同,新值将如下式计算,这使得算法收敛更慢,但会更稳定。
-
另一种正在流行的 Q-Learning 变体算法,是通过深度卷积神经网络来预测矩阵 的值。这种被称为 Deep Q Learning
的方法,结合了深度学习和强化学习算法的优点,显示出了巨大的潜力。有关更多信息,可以在 这里 [2]找到一个很好的概述。
上一篇: 51Nod2495 小明的墙
下一篇: 智能小屋全屋演示