深度强化学习入门：了解 Q-Learning-5 走迷宫时的优缺点

最编程 2024-03-22 07:49:50

...

与其他传统的机器学习算法相比，Q-Learning 有很多优点:

当然，这种方法也有一些缺点:

该算法会花费大量时间遍历随机状态来搜索终端状态。
存储矩阵所需的内存数量增长为（number_of_states^2）。对于迷宫来说，状态的数量相对较少（例如数百个）。但是试着训练一个 Q-Learning 算法来操作推土机。有大量的状态变量需要追踪，每个状态变量都有许多值。因此，状态的数量呈指数级增长，需要大量的训练时间和内存。
假设奖励矩阵是静态的。如果迷宫发生变化，或者目标发生变化，则需要从头开始重新训练智能体。
智能体总是会选择最优路径。这使得它不能适应或学习新的策略。在这个例子中，适应能力是不必要的，因为迷宫是静态的。但是如果迷宫不是静态的，智能体总是试图在两点之间采用相同的路径。该算法的一个变体称为 epsilon-greedy 算法，它要求用户以概率随机选择一个动作的，而最优动作被选中的概率为。通常，很小（例如），但这允许算法偶尔探索并找到新的、更优的解决方案。
有时，值会在不同的值之间振荡。为了解决这个问题，有时算法会引入一个学习率参数 alpha，该参数的取值范围为 [0,1]。与直接赋值不同，新值将如下式计算，这使得算法收敛更慢，但会更稳定。

Q(A(s,s')) = Q(A(s, s'))|_{old} + alpha \times Q(A(s,s'))|_{new}

另一种正在流行的 Q-Learning 变体算法，是通过深度卷积神经网络来预测矩阵的值。这种被称为 Deep Q Learning 的方法，结合了深度学习和强化学习算法的优点，显示出了巨大的潜力。有关更多信息，可以在这里 ^[2]找到一个很好的概述。