欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

最编程 2024-07-29 15:23:05
...

【应用】针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid


做什么

  • 提出了一种MARL方法,该方法结合了多智能体深度确定性策略梯度**(MADDPG)和LSTM**
  • 使用多步奖励函数代替实时奖励->适度截断可提高效果
  • 提出在线启发式调度(OHD)方案制定分配策略->考虑到车辆需求、距离、充电站车辆约束等
  • 调度问题分解为两个子问题(能源购买、能源分配)

区别

  • 现有的一些研究只考虑了一个充电站的情况或忽略了多个充电站情况下电动汽车在能量分配过程中的意愿(如价格或与充电站的距离)

  • 本文同时考虑购买和分配策略

  • 现有研究存在维度诅咒问题,本文使用集中训练和分散执行解决


具体工作

  • 建模

    image-20230712164031018

    • 向量MM表示电厂;VV表示充电的汽车,共mm辆;SS表示充电站,共nn个,充电站的最大电量为CiC_i

    • 运行步骤

      1.电站购电,计算总电量Gt,i=剩余电量+购得电量G_{t,i}=剩余电量+购得电量

      2.车辆充电请求:发送信息包括 1)汽车的当前位置lil_i 2)需求电量did_i 3)最大充电功率PmaxiP^i_{max} 4)出发时间tdeit^i_{de}

      3.调度中心分配充电站信息给汽车,包括1)分配到哪个充电站 2)可获得的充电量

      4.车辆充电,计算新的剩余电量=总电量售出电量=上一时间步剩余电量+购得电量售出电量新的剩余电量=总电量-售出电量=上一时间步剩余电量+购得电量-售出电量

    • 两个目标:

      1.分配问题:1)最小化车站距离 2)最大化充电量

      image-20230712161928978

      2.购电问题:1)最小化购电储电成本 2)最大化售电收益

      image-20230712163724420

  • 能源购买MMADDPG方法

    image-20230712184006218

    • 环境
      • agent NN代表电站

      • 状态空间X={t,Pt,Dt,et}X=\{t,P_t,D_t,e_t\},分别表示时间步,预测的车辆流量,Dt={Dt1,Dt2,...,Dtn}D_t=\{D^1_t,D^2_t,...,D^n_t\}表示不同电站可用充电桩数量,剩余电量

      • 观察空间OiO_i:每个agent部分可观察,oti={t,Pt,Dti,eti}o^i_t=\{t,P_t,D_t^i,e_t^i\}

      • 动作空间AiA_i:电站购电量 ati=qt,jga^i_t=q^g_{t,j}

      • 奖励函数:

        image-20230712172758558

    • 含有五个网络:**LSTM预测车辆流量,产生PtP_t作为环境的状态;**actor;critic;target actor;target critic

      image-20230713161708839.png

      • actor网络μiμ_i)中使用到高斯噪声作为exploration:

        image-20230712191033173

        其中ζ=0.9995

        image-20230713155538757

        • 多步奖励函数:考虑对未来的影响

          image-20230713153814662

          t时刻的奖励会受到此后k个时间步内奖励的影响,k是超参数

          数据会进行采样放到buffer中,batch表示为(xj,Aj,Rj(k),xj+1)(x_j,A_j,R_j^{(k)},x_{j+1})

      • critic网络:输入状态行为(xj,Aj)(x_j, A_j),输出Qi(xj,Aj)Q_i(x_j, A_j)是对累计折扣奖励RjiR_j^i的估计(γ在实验中被设置为0.9)

        image-20230713155902489

      • target actor 与 target critic网络以一定的比例进行更新(软更新)(在实验中被设置为0.001)

        image-20230713160100878

  • 能源分配OHD方法

    image-20230713165010753

    此外,一旦车辆分配完成,将在数组I'中删除汽车i,防止被分到其他电站

    • 建模

      • 汽车充电意愿

        image-20230713162403478

        其中αα表示衡量两部分在意愿中的重要程度的系数,第一部分为汽车充电的紧迫程度,第二部分为车辆与电站距离。did_i表示汽车的充电需求电量,tdeitt^i_{de}-t表示车辆出发时间与当前时间的间隔,pmaxip^i_{max}表示最大充电功率

      • 约束:1)可用充电桩的数量 2)充电站可分配的可用电量

  • 电力购买与车辆分配关系

    image-20230713170049684

    image-20230713170414506

    • 时间顺序:时间步t执行购买,t+1执行分配,如此往复。
    • 空间关系:电站电力的购买与车辆分配的数量或者说是交通密度有关,而车辆分配也会参考电站的剩余电力

实验

  • 评价指标:所有时间所有agent奖励总和、车站距离总和、车辆充电量总和、满意度=充电总量/总距离

  • MMADDPG与其他RL方法对比:DDPG、DQN、DDPG-PER

    • 奖励总和:单智能体强化学习的方法不适用于包含多个充电站的现实场景
    • 车站距离总和、车辆充电量总和、满意度:分配的距离最近,虽然充电总和略低但是满意度高
  • OHD对比:1)随机方案 2)最大距离方案 3)最大充电量方案

  • 分析k和α超参数的影响

    • k=3或4最好,k=1时就是MADDPG方法
    • 在车辆少时α的变化影响不大,车辆多时随着α的增大满意度降低:汽车数量增加且对紧迫度的关注加大,有限的充电资源不能完全满足充电需求