每周文章分享
2022.11.07-2022.11.13
标题: Deep Reinforcement Learning Based MAC Protocol for Underwater Acoustic Networks
期刊: IEEE Transactions on Mobile Computing, vol. 21, no. 5, pp. 1625-1638, 1 May 2022.
作者: Xiaowen Ye, Yiding Yu, and Liqun Fu.
分享人: 河海大学——郭依萍
壹
背景介绍
近年来,由于水下监测、辅助导航、无人探测或监视等多种应用,水声网络得到了广泛的研究关注。尤其是对网络吞吐量至关重要的媒体访问控制(MAC)协议设计,在具有长传播延迟的UWANs面前仍然是一个巨大的挑战。长传播延迟是导致水声网络吞吐量下降的一个关键问题,是水声网络中媒体接入控制(MAC)协议设计的关键。最近,深度强化学习技术已经应用于地面无线网络的MAC设计。基于DRL的MAC的一个显著特点是,它将节点视为DRL智能体,智能体可以学习寻找最优的传输策略,而不需要直接获得外部环境的详细信息。然而,基于DRL的TWNs的MAC层设计的协议不能应用于UWANs。这主要是因为TWNs的反馈/传播延迟很小,通常可以忽略不计,这与传统DRL框架中的隐含假设相一致: 奖励可以立即提供给智能体。然而,UWANs中的节点之间的传播延迟要大得多,在向接收端发送数据包之后,节点必须等待很长时间才能收到相应的奖励,这违反了传统DRL框架中的基本即时反馈假设。
为了提高网络吞吐量,本文提出了一种基于深度强化学习(DRL)的水声网络MAC协议,称为延迟奖励深度强化学习多址接入协议(DR-DLMA)。在DR-DLMA 设计中,本文首次提出了一种新的DRL算法,称为延迟奖励深度Q网络(DR-DQN)。然后,本文通过定义状态、动作和奖励,将UWANs中的多址接入问题表示为一个强化学习问题,从而实现DR-DLMA协议。
贰
关键技术
本文提出了一种基于深度强化学习(DRL)的水声网络MAC协议,称为延迟奖励深度强化学习多址接入协议(DR-DLMA)。在DR-DLMA设计中,本文首次提出了一种新的DRL算法,称为延迟奖励深度Q网络(DR-DQN)。另外,为了降低在线训练深层神经网络(DNN)的成本,本文为DR-DQN提供了一种灵活的训练机制。
该方法的创新和贡献如下:
1)本文提出了一种新的DRL技术,称为DR-DQN。与原来的DQN算法不同,通过集成长传播延迟,DR-DQN算法打破了即时反馈机制的限制,因此适合于长时延环境。
2)本文提出了一种基于DR-DQN的UWANs的MAC协议DR-DLMA。重要的是,DR-DLMA可以在不知道其他节点的传播延迟和传输策略的情况下最大化网络的总吞吐量。为了评估所提出的DR-DLMA协议的系统性能,本文提供了在不同场景下的最优网络吞吐量作为基准。
3)本文提出了一种灵活的DNN训练机制,使DR-DQN智能体通过监测系统指标的变化来决定是否对DNN进行训练,从而节省能源成本,减少DNN训练的运行时间。
叁
算法介绍
1. 系统模型
本文考虑一个水声网络(UWANs)模型,其中N个节点通过共享上行信道向浮标传输数据包,如图1所示。浮标可视为接入点(AP) 。N个节点分别执行它们自己的MAC协议,以时隙方式向AP传输数据包。
图1 一种由多台发射机和单台接收机组成的三维水声网络
在时隙系统中,本文假设不同节点的数据包具有相同的分组长度,AP到不同节点的ACK分组也具有相同的分组长度。此外,每个时隙对应于数据分组传输的持续期间加上ACK分组传输的持续期间。即每个时隙可以分为两部分: 第一部分用于数据包,第二部分用于ACK包。具体地说,在每个时隙内,在第一部分中,如果节点的MAC层的决定是“传输”,那么节点可以向AP传输一个数据包,而AP则等待来自所有节点的数据包;在第二部分中,节点等待来自AP的ACK分组,如果AP在第一部分时隙中刚刚接收到一个数据包,那么AP就向所有节点广播一个ACK分组。假设AP只能在每个时隙的第一部分成功地接收一个数据包,如果在同一时隙有多个数据包到达AP,就会发生数据包冲突。系统的目标是设计一个基于DRL的MAC协议,以最大化整个UWANs的总吞吐量,也就是说,本文所提出的协议的目标是最小化AP端的分组冲突。考虑一个普遍的情况,在这个情况下,一些网络节点采用我们的基于DRL的MAC协议,一些可能使用其他的MAC协议,例如TDMA协议和ALOHA协议。图2给出了两个节点(即一个TDMA节点和一个ALOHA节点)与AP之间的时隙操作的示例。
图2 两个节点(即一个TDMA节点和一个ALOHA节点)与AP之间的时隙操作
2. 延迟奖励深度Q网络DQN(DR-DQN)
与传统DRL框架中的一个隐含的假设不同的是,由于UWANs中的长传播延迟,agent必须等待两倍的单向传播延迟才能采取新的行动。为了避免在采取新的行动之前浪费时间等待环境的回报,在延迟回报深Q网络(DR-DQN)算法中,本文假设agent可以在任何时隙内采取行动。注意,奖励rt+1是针对处于t-2D时段的行动,即at-2D,而不是at,因为上面提到的“等待时间”是传播延迟的两倍。在与时隙t中的环境进行交互之后,agent可以构造一个时间经验e^t = (st,at,rt + 1,st + 1),并将其存储到经验池中以供以后使用。
图3 经验重放机制:经验重组产生真实的经验
为了有效训练DNN,需要构造与时隙t相对应的实际经验,即et= (st,at,rt + 2D + 1,st + 2D + 1)。本文提出了一种新的经验回放机制,可以在每个时隙内发现agent的真实经验。如图3所示,为了采样实际经验et = (st,at,rt + 2 D + 1,st + 2D + 1)(这种采样操作只能在时隙t + 2D之后进行) ,agent首先定位时间经验e^t,然后从e^t解出st,at。然后,agent定位时间经验e^t + 2D,提取rt + 2D + 1,st + 2D + 1。通过合理的经验回放机制,对于DNN训练,agent可以从经验池中抽取NE的实际经验来计算出损失函数。DR-DQN算法的总体运算如图4所示。
图4 UWAN通信的延迟奖励深度Q网络
3. 灵活训练机制
UWANs的MAC协议应该是节能的。在原有的DQN算法中,每次agent采取行动时都要对DNN进行训练,造成了巨大的能量消耗和长时间的模拟运行时间。agent在每个时间段t的短期平均回报额定义为:
在短期平均回报达到稳定状态后,agent将停止训练DNN。然后,在接下来的时间段内,agent利用训练好的DNN生成Q值。然而,由于多种因素的影响,网络参数可能会发生变化。一旦任何网络参数发生变化,agent在以前训练的策略下所采取的行动可能不是最优的,这将导致Ut的变化。当Ut增加或减少一个给定的阈值u时,为了获得一个新的最佳传输策略,agent将与AP交换声信标以获得一个更新的传播延迟。之后,agent将重新训练DNN,直到Ut再次稳定。
4. DR-DLMA协议使用DRL
利用DR-DQN算法和灵活的训练机制来设计DR-DLMA协议。具体给出了 DR-DQN算法中agent、action、state和奖励函数的定义。
agent:使用DR-DLMA协议的每个节点都是DR-DQN智能体。
action:在每个时隙t中,DR-DLMA节点决定是否访问信道。本文将DR-DLMA节点的操作集定义为:
如果在at=Transmit时,DR-DLMA节点在时隙t向AP发送一个数据包。然后在时隙t + 2D中得到相应的观测信号。特别是当DR-DLMA节点接收到时隙t + 2D的ACK信号时,其观测值Ot + 2D是成功的,这表明DR-DLMA节点在时隙t发送的数据包被AP成功接收,否则观测值Ot + 2D是碰撞,这表明DR-DLMA节点在时隙t发送的数据包与其他节点发送的数据包发生碰撞。如果at=Wait时,DR-DLMA节点什么也不做,只是在时隙t中接收ACK信号。因此,DR-DLMA节点的相应观测值Ot + 2D将为Successful或Vacant。特别是Ot + 2D= Successful表示AP在时隙t + D中接收由其他节点发送的数据包;Ot + 2D= Vacant表示信道在时隙t中空闲。
State: 在时隙t执行动作后,DR-DLMA节点将在时隙t + 1处于新的系统状态st + 1。本文根据行为和相应的观察来定义系统的状态。特别是在时隙t中,当接收到观测值Ot时,DR-DLMA节点将at-2D与Ot组成动作观测对,DR-DLMA节点在时隙t + 1中的状态st + 1可以由Ot定义,即:
奖励函数: 奖励取决于系统目标。由于agent的目标是最大化网络的总吞吐量,本文将奖励的定义与AP的接收结果联系起来。即:
肆
实验结果
为了验证本文所提协议的性能,本文提供了在不同共存场景下的最佳网络吞吐量分析,以便对DR-DLMA协议的性能进行基准测试。为了获得最优的网络吞吐量,本文将DR-DLMA节点替换为模型感知节点,该节点知道所有节点的传播延迟和传输策略,从而在每个时隙采取最优的动作。
1. 仿真设置
本文所有的仿真都是在Python上进行的,用于深度学习实现的软件框架是Keras库。本文为DR-DLMA协议构造了一个八层DNN,它由一个输入层、两个完全连接层、两个ResNet块和一个输出层组成。每个完全连接的层包含64个神经元,所有神经元采用激活函数ReLU。奖励折扣因子γ为0.95,状态历史长度M为30。在开始选择ε= 0.1,然后每个时间段将其衰减0.996,直到ε达到0.001。经验池容量设置为500,NE是从经验缓冲区中随机抽取的样本数。使用RMSProp算法来最小化损失函数,并将RMSProp中使用的学习率α设置为0.01。目标网络参数θ-的更新频率f设置为200。在训练机制中,平滑窗口大小Nr设置为2000,阈值u设置为5% 。表1总结了关于超参数设置的详细信息。
表1 DR-DLMA超参数
2. DR-DLMA的吞吐量评估
1) 一个DR-DLMA节点与一个TDMA和/或ALOHA节点共存:DR-DLMA 节点和另一个节点到AP的传播延迟分别设置为5和8。当另一个节点采用TDMA协议时,一帧内10个时隙中TDMA节点使用的时隙数从0变为10。图5a显示了此共存场景的总网络吞吐量。可以看到DR-DLMA节点可以充分利用TDMA 节点没有使用的可用时隙,从而达到最佳网络吞吐量。当另一个节点采用ALOHA协议时,其传输概率为0到1,步长为0.1。如图5b所示,DR-DLMA节点可以自主学习ALOHA节点的传输时间表,然后使用最优策略实现最优网络吞吐量。本文进一步考虑一个DR-DLMA节点与一个TDMA节点和一个ALOHA节点共存的情形。DR-DLMA节点、TDMA节点和ALOHA节点到AP的传播延迟分别设置为5、8和6。设x和q分别表示TDMA节点在一帧内10个时隙中使用的时隙数和ALOHA节点的传输概率。考虑两种特殊情况。在第一种情况下,x被设置为2,q值从0.1到0.9,步长为0.2。在第二种情况下,q被设置为0.1,x从1增加到9,步长为2。两种情况下的总网络吞吐量如图5c所示。可以看出,无论x或q的值如何,DR-DLMA节点总是可以选择访问信道的最优策略,从而实现最优网络吞吐量。
图5 一个DR-DLMA节点与使用不同MAC协议的节点共存时的总吞吐量
2) DR-DLMA节点、TDMA节点和ALOHA节点共存:本文考虑一个更复杂的网络,包括五个DR-DLMA节点、两个TDMA节点和两个ALOHA节点。两个ALOHA节点的传输概率分别设置为0.4和0.2。每个TDMA节点在一个帧的10个时隙中使用3个时隙。5个DR-DLMA节点、2个ALOHA节点和2个TDMA 节点的传播时延分别设置为1、2、3、4、5、1、4、2和3。从图6可以看出,即使没有信息交互或协作机制,DR-DLMA节点也可以通过协作学习接近最优的策略,利用可用的时隙进行分布式传输。此外,通过短期互动,DR-DLMA在学习最优策略的过程中收敛很快。
图6 5个DR-DLMA节点与2个TDMA节点和2个ALOHA节点共存时的总吞吐量
3)DR-DLMA与时隙FAMA及DOTS的比较:本文考虑同一网络中的所有节点使用相同的MAC协议的同构网络。特别地,本文考虑最大传播延迟为4的四个发送节点和一个接收节点AP的网络。本文比较了DR-DLMA协议和两个最先进的 MAC协议对UWANs的性能: 时隙FAMA和DOTS。这三种MAC协议的网络吞吐量如图7所示。可以看到DR-DLMA的性能优于时隙FAMA和DOTS。与时隙FAMA 和DOTS相比,DR-DLMA协议的吞吐量增益分别为470%和190%。
图7 四个发送节点和一个接收节点AP的网络的总吞吐量
4)DR-DLMA 的鲁棒性评价:本文评估了DR-DLMA对不同传播延迟的学习结果。考虑一个三个发送节点和一个接收节点AP的网络,其中一个节点使用DR-DLMA协议,另外两个节点使用从TDMA或ALOHA中选择的相同协议。图8a和8b分别显示了DR-DLMA节点与TDMA节点或ALOHA节点共存时的网络吞吐量。可以看到,与最优性能相比,DR-DLMA总是能够在所有不同的传播延迟下获得接近最优的网络吞吐量。它还表明,虽然DR-DLMA的设计取决于其自身的传播延迟,它的自主学习能力不受这个传播延迟的影响。
图8 DR-DLMA节点与具有不同传播延迟的其他节点共存时的吞吐量
5)DR-DLMA传播延迟的适应性:
节点移动:本文考虑一个DR-DLMA节点和两个TDMA节点的共存。实时吞吐量结果如图9a所示。可以看出,DR-DLMA协议能够适应节点移动引起的传播延迟的变化。当DR-DLMA节点学习到最优接入策略时,它停止训练DNN。D1或D2改变后,原先训练的DNN不再适用,导致Ut减少。一旦DR-DLMA节点检测到Ut降低且低于u值(即图9a中的再训练点) ,它就与AP交换声信标以获得更新的传播延迟,然后在线再训练DNN。在DNN再训练开始时,DR-DLMA节点通过试错与环境交互,导致网络吞吐量进一步降低。此外,可以看出,与D2相比,D1的变化对DR-DLMA节点采取的策略有更大的影响。这是因为DR-DLMA协议的设计与其自身的传播延迟D1有关。然而,由于DR-DLMA的快速收敛,网络总吞吐量在短时间内再次达到最大值。
AP移动:本文考虑一个DR-DLMA节点、一个TDMA节点和一个ALOHA节点的共存。在第25000次时隙中,AP移动,因此传播延迟D1、D2和D3变成2、4和5。实时吞吐量结果如图9b所示。可以看到,DR-DLMA协议也可以适应AP移动引起的传播延迟变化。
传输时间表变化:本文考虑一个DR-DLMA节点、一个TDMA节点和一个ALOHA节点的共存。为了观察DR-DLMA协议是否能够适应其他节点传输时隙的动态变化,在5万个时隙的仿真中,ALOHA节点的传输概率从2万个时隙时增加到0.6,TDMA节点的时隙数从35万个时隙时减少到2个。实时吞吐量结果如图9c所示。可以看到,DR-DLMA协议可以跟踪其他节点的传输时间表的变化。在时隙20000中,当传输概率q从0.1变化到0.6时,DR-DLMA节点的最优策略应相应调整,这样导致了Ut降低。达到再训练点后,DR-DLMA节点开始对DNN进行再训练,直到得到新的最优传输策略。另一方面,虽然TDMA节点使用的时隙数从7个减少到2个后,网络总吞吐量有所提高,但DR-DLMA节点仍然对DNN进行重新训练。这是为了确保DR-DLMA节点即使检测到网络参数变化引起的吞吐量增加,也能够达到新的最优传输策略。
网络拓扑变化:在50000时隙的仿真中,传输概率为0.6的ALOHA节点在20000次时隙开始时离开网络。在第35000次时隙开始时,一个新的TDMA节点进入网络。它可以传输帧中10个时隙中的2个时隙,它的传播延迟是6。图9d 给出了实时吞吐量结果。可以看到,当ALOHA节点离开或TDMA节点加入当前网络时,DR-DLMA节点的最优接入策略受到影响。特别是,当ALOHA节点在第20000次时隙离开网络后,Ut 迅速减少至低于u,从而触发DR-DLMA节点重新训练DNN并学习新的传输策略。由于DR-DLMA协议具有很强的适应性,可以看出,DR-DLMA 节点可以很快地获得新的最优策略,与其他节点共存,最大化整个网络的吞吐量。
图9 DR-DLMA 节点在各种时变场景中与使用其他协议的节点共存时的总吞吐量
6)训练机制对比:为了更深入地了解本文提出的训练机制相对于传统训练机制的优势,本文分别评估了当 DR-DLMA节点采用这两种机制时,上述四个场景的能量消耗和模拟运行时间。本文假设每个DNN训练消耗1个单位能量,然后计算这两个机制在50000个时隙内消耗的能量。同时,在相同的硬件条件下,比较了这两种机制在50000个时隙上的仿真运行时间。
如图10所示,与传统的训练机制相比,本文提出的训练机制在所有模拟场景中降低了超过74% 的能量消耗。这是因为本文提出的训练机制的DR-DLMA节点在获得最优策略时停止训练DNN,而不是像传统的训练机制那样在每个时间段训练DNN。此外,与传统的训练机制不同的是,本文提出的训练机制不需要计算每个时间段的损耗。因此,仿真运行时间大大减少。
图10 灵活训练机制和传统训练机制在上述四个场景中的的能耗和模拟运行时间
伍
总结
本文提出了一种新的DRL算法DR-DQN,将传播时延纳入DRL框架。然后,本文利用DR-DQN技术开发了一种称为DR-DLMA的MAC协议。DR-DLMA的一个显著特点是,它在只有有限的网络信息的情况下解决了长传播延迟导致的吞吐量下降问题。实验结果表明,DR-DLMA算法不仅在异构和同构网络中都能达到接近最优的性能,而且对于不同传播时延具有较强的鲁棒性,对动态水下环境具有较好的适应性。虽然我们的DR-DQN算法是针对水声通信场景开发的,但是我们可以相信,这种新的深度强化学习算法DR-DQN可以很容易地应用到其他具有长传播延迟的领域。
本文还提出了一种灵活的训练机制来降低DNN的训练成本。尤其是与传统的训练机制相比,灵活的训练机制具有能量消耗少、运行时间快的优势,这是在UWANs中实际部署MAC协议的两个关键点。
-END-
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇