MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

最编程 2024-07-29 15:23:05

...

【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid

做什么

提出了一种MARL方法，该方法结合了多智能体深度确定性策略梯度**（MADDPG）和LSTM**
使用多步奖励函数代替实时奖励->适度截断可提高效果
提出在线启发式调度(OHD)方案制定分配策略->考虑到车辆需求、距离、充电站车辆约束等
调度问题分解为两个子问题（能源购买、能源分配）

区别

现有的一些研究只考虑了一个充电站的情况或忽略了多个充电站情况下电动汽车在能量分配过程中的意愿（如价格或与充电站的距离）
本文同时考虑购买和分配策略
现有研究存在维度诅咒问题，本文使用集中训练和分散执行解决

具体工作

建模
- 向量 $M$ 表示电厂； $V$ 表示充电的汽车，共 $m$ 辆； $S$ 表示充电站，共 $n$ 个，充电站的最大电量为 $C_i$ 。
- 运行步骤
  
  1.电站购电，计算总电量 $G_{t,i}=剩余电量+购得电量$
  
  2.车辆充电请求：发送信息包括 1)汽车的当前位置 $l_i$ 2)需求电量 $d_i$ 3)最大充电功率 $P^i_{max}$ 4)出发时间 $t^i_{de}$
  
  3.调度中心分配充电站信息给汽车，包括1)分配到哪个充电站 2)可获得的充电量
  
  4.车辆充电，计算 $新的剩余电量=总电量-售出电量=上一时间步剩余电量+购得电量-售出电量$
- 两个目标：
  
  1.分配问题：1）最小化车站距离 2）最大化充电量
  
  2.购电问题：1）最小化购电储电成本 2）最大化售电收益
能源购买MMADDPG方法
- 环境
  - agent $N$ 代表电站
  - 状态空间 $X=\{t,P_t,D_t,e_t\}$ ，分别表示时间步，预测的车辆流量， $D_t=\{D^1_t,D^2_t,...,D^n_t\}$ 表示不同电站可用充电桩数量，剩余电量
  - 观察空间 $O_i$ ：每个agent部分可观察， $o^i_t=\{t,P_t,D_t^i,e_t^i\}$
  - 动作空间 $A_i$ ：电站购电量 $a^i_t=q^g_{t,j}$
  - 奖励函数：
- 含有五个网络：**LSTM预测车辆流量，产生 $P_t$ 作为环境的状态；**actor；critic；target actor；target critic
  - actor网络（ $μ_i$ ）中使用到高斯噪声作为exploration：
    
    其中ζ=0.9995
    - 多步奖励函数：考虑对未来的影响
      
      t时刻的奖励会受到此后k个时间步内奖励的影响，k是超参数
      
      数据会进行采样放到buffer中，batch表示为 $(x_j,A_j,R_j^{(k)},x_{j+1})$
  - critic网络：输入状态行为 $(x_j, A_j)$ ，输出 $Q_i(x_j, A_j)$ 是对累计折扣奖励 $R_j^i$ 的估计（γ在实验中被设置为0.9）
  - target actor 与 target critic网络以一定的比例进行更新（软更新）（在实验中被设置为0.001）
能源分配OHD方法

此外，一旦车辆分配完成，将在数组I'中删除汽车i，防止被分到其他电站
- 建模
  - 汽车充电意愿
    
    其中 $α$ 表示衡量两部分在意愿中的重要程度的系数，第一部分为汽车充电的紧迫程度，第二部分为车辆与电站距离。 $d_i$ 表示汽车的充电需求电量， $t^i_{de}-t$ 表示车辆出发时间与当前时间的间隔， $p^i_{max}$ 表示最大充电功率
  - 约束：1)可用充电桩的数量 2)充电站可分配的可用电量
电力购买与车辆分配关系
- 时间顺序：时间步t执行购买，t+1执行分配，如此往复。
- 空间关系：电站电力的购买与车辆分配的数量或者说是交通密度有关，而车辆分配也会参考电站的剩余电力

实验

评价指标：所有时间所有agent奖励总和、车站距离总和、车辆充电量总和、满意度=充电总量/总距离
MMADDPG与其他RL方法对比：DDPG、DQN、DDPG-PER
- 奖励总和：单智能体强化学习的方法不适用于包含多个充电站的现实场景
- 车站距离总和、车辆充电量总和、满意度：分配的距离最近，虽然充电总和略低但是满意度高
OHD对比：1）随机方案 2）最大距离方案 3）最大充电量方案
分析k和α超参数的影响
- k=3或4最好，k=1时就是MADDPG方法
- 在车辆少时α的变化影响不大，车辆多时随着α的增大满意度降低：汽车数量增加且对紧迫度的关注加大，有限的充电资源不能完全满足充电需求

上一篇：从单个智能体到多个智能体：深度理解MADDPG多智能体强化学习算法(上篇)

下一篇：基础讲解：多Agent强化学习入门指南

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

做什么

区别

具体工作

建模

运行步骤

两个目标：

能源购买MMADDPG方法

环境

含有五个网络：**LSTM预测车辆流量，产生PtP_tPt​作为环境的状态；**actor；critic；target actor；target critic

能源分配OHD方法

电力购买与车辆分配关系

实验

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

含有五个网络：LSTM预测车辆流量，产生 $P_t$ 作为环境的状态；actor；critic；target actor；target critic