每周文章分享
2023.01.23-2023.01.29
标题: Learning-based Data Gathering for Information Freshness in UAV-assisted IoT Networks
期刊: IEEE Internet of Things Journal, vol. 10, no. 3, pp. 2557-2573, 1 Feb.1, 2023.
作者: Zhiming Li, Peng Tong, Juan Liu, Xijun Wang, Lingfu Xie, and Huaiyu Dai.
分享人: 河海大学——申娅
壹
背景介绍
无人机(UAV)已被广泛应用在物联网(IoT)网络中用于高效的数据收集。调度多个能量受限的无人机来收集一些用于实时监控或控制的物联网应用程序中的数据时,数据的新鲜度是十分重要的,因为过时的数据可能会降低决策的准确性和可靠性,并造成巨大的风险。数据的新鲜度通常可以通过信息的年龄(AoI)来描述。对于AoI最小化,可以通过优化采样过程和/或调度策略来实现。在讨论面向AoI的传输时,一般假设源节点应用任意生成规则,然后在传输之前就可以生成更新,从而使AoI最小化。然而,很少有工作考虑到信息采样模式或传感器节点的样本间间隔,同时,结合强化学习(RL)方法设计无人机飞行轨迹和更新包对最优AoI无人机辅助数据收集的影响。
贰
关键技术
考虑到上述因素,我们研究了两种多无人机场景下的面向区域的数据采集问题,每个传感器节点(SN)根据其采样模式以固定或随机间隔的环境状态进行采样,并将包含最新采样信息的更新包存储在其缓冲区中。传感器节点的更新数据包由多个能源受限的无人机交付。在第一种情况下,部署一个代理(例如,基站(BS))来收集实时的全球网络信息,并根据收集到的信息对无人机的飞行方向和数据收集做出适当的决策。在第二种情况下,每架无人机都充当一个代理,并根据局部观测结果独立地做出自己的决策。本文采用学习方法研究了多无人机辅助数据采集问题,并在每个时隙的系统状态下根据最优策略选择无人机的飞行方向。主要贡献:
1)本文分别研究了基于全局观测和部分观测的两种多无人机辅助物联网场景中面向AoI的数据收集问题,在考虑的系统中,每个传感器节点定期或随机生成更新包,并由其中一架无人机收集;
2)多无人机辅助数据收集问题被表述为一个马尔可夫决策过程(MDP),目的是在考虑无人机的能量容量和避免碰撞约束下使无人机的平均AoI和能耗的加权和最小化;
3)本文提出了一种基于SARSA的算法,该算法可以在一定条件下找到一个基于全观测的渐近最优策略。为了处理部分观测到的情况,并设计了一种基于深度值分解网络(VDN)的高效算法,该算法使每个无人机能够作为一个代理,并根据其局部观测结果做出自己的飞行和数据收集决策。
叁
算法介绍
1. 系统模型
图1 无人机辅助的物联网网络模型
如图1所示,K个传感器节点共享M个无人机提供的数据收集服务。数据包到达和传递过程合并到多源队列系统中。在多源队列系统中定义了ok(n)来表示一个更新包的生成,如有数据更新包的生成则ok (n) = 1,否则有ok (n) = 0。若节点通过固定采样,则更新数据包周期性地到达每个传感器节点的缓冲区;若通过随机抽样,样本间的间隔是随机的,可以遵循一定的分布。通过应用采样-替换策略,每个传感器节点的数据更新包等待被一架无人机采集或被一个新的包替换。设Sk (n)表示时隙n中的SN k的服务进程。Sk (n) = 1是指在时隙n中SNk的更新包被一些无人机成功地传送到BS。根据上述描述,每个传感器节点的更新数据包可以在队列中随机等待一段时间,直到它被替换或成功交付,因此本文使用 Uk(n) 来跟踪最新更新包的生存时间。
在每个时隙n中,无人机m的离散轨迹在水平面上的投影用qm(n)=(xm(n),ym(n))∈W表示,为避免碰撞,在每个时隙n中任何两架无人机都不允许飞到同一网格,即qm(n)≠qm’(n)(n),∀m≠m’。为了有效地利用无人机和传感器节点之间的LoS链路,每架无人机被分配整个带宽,并在每个时间段最多服务一个传感器节点。当每架无人机m有足够的能量时,如果节点中存在更新的数据包,无人机就可以从相应的传感器节点中收集数据,并立即将其中继给BS。如果节点中没有生成新的数据包或节点的缓冲区是空的,无人机直接飞到其相邻的一个网格。如果无人机达到最低能量水平,它必须直接飞到BS来补充能量。Ψm(n)表示无人机m是否在时隙n中进行数据采集的二进制变量。若ψm (n) = 1,无人机m悬停在特定的位置收集数据,并以Vm,1(n)的速度直接飞到相邻的网格;若ψm (n) = 0表示无人机m不在这个时隙n中收集数据,在无人机将以Vm,2(n)的速度直接飞到下一个网格。因此,一个时隙可以分为两个子时隙:一个用于无人机辅助数据收集,另一个用于无人机的飞行。
2. 基于SARSA的策略
A. 算法描述
SARSA通过直接从环境中学习,可以实现无模型控制,而不知道状态转换分布。同时,它会根据现有的学习估计来更新估计。在状态sn下采取动作an并在此后遵循策略π的预期收益被定义为动作-价值函数:
Qn+1(sn,an)可通过以下式子进行估计:
其中,αn∈[0,1]为时间步长n处的学习速率。本文的算法试图通过交互和环境学习来找到最优策略,并以取得最大Q值的策略作为最优策略,即:
本文提出的基于SARSA的无人机辅助数据收集算法来寻找一个渐近最优解,该算法采用ε贪婪策略选择探索概率ε的随机动作,ε的初始值为min(β1,β2),并以ϵ速率衰减。
B.培训和执行
收集无人机和传感器节点的信息对于训练和执行基于SARSA的算法是很重要的。每架无人机都能够通过控制通道可靠地将其位置和当前的能量状态发送到BS。当成功接收到带有时间戳的更新数据包时,BS总是具有每个传感器节点的AoI值。一旦由数据更新包生成,BS可以直接从信道网络或通过小型物联网无人机的帮助收集更新数据包的信息。BS并不需要知道更新数据包的生命周期,因为它可以从接收到的带有时间戳的更新包中推断出这些信息。所提出的基于SARSA的算法应该由BS集中式地进行训练和执行。在训练阶段,BS可以作为一个协调代理,收集全球网络信息,并从收集到的信息中学习,从而决定无人机的飞行方向,即观察状态sn,选择动作an。BS向无人机发送一个信息,告诉每架无人机飞行的方向。无人机接收到信息后,并沿选定的方向飞行进行数据采集,即采取行动。然后,每架无人机向BS报告其新的位置和能量状态。一旦有新的更新数据包到达,每个传感器节点需要直接或通过无人机的帮助通知BS。在BS侧,它收集每个无人机的新位置和能量状态的信息,并更新每个节点的AoI值和更新数据包的生存时间,即观察状态sn+1。同时,BS计算成本rn作为传感器节点的平均AoI、无人机的平均能耗和潜在损失的函数,同时它还针对当前的动作值函数Q(sn,an)贪婪地更新策略π。重复这个过程直到收敛。因此,该算法渐近地接近于最优策略π∗。收敛后,基于SARSA的算法仍在BS上执行,负责收集网络信息,并按照最优策略π∗选择无人机的飞行方向。然后,无人机根据BS发送的信息进行数据采集。
3. 基于VDN的多UAV辅助数据采集
M个无人机协同从地面传感器节点中收集更新数据包并将其中继给BS。从这个角度来看,多无人机辅助的数据收集问题可以看作是一个协作的多智能体强化学习(MARL)问题。每架无人机充当一个代理,从其覆盖范围内的传感器节点中收集AoI值和更新数据包的寿命。在MARL算法中,集中式训练分散执行(CTDE)算法在训练过程中在代理之间共享信息,从而优于独立学习算法。在CTDE类别中,本文基于VDN设计多无人机辅助数据采集算法:(1)VDN作为典型的值分解方法,适用于处理离散状态和动作空间。而在连续空间域,策略梯度方法优于值分解方法;(2) VDN的目标是学习局部动作价值函数的线性组合,这适用于本文提出的问题。因此,每个代理只需维护一个代理网络来近似其局部局部动作值函数,如图2所示。VDN体系结构由M个代理网络组成,可以集中训练,但可以分散执行。
图2 VDN体系结构
1)代理网络:如图2所示,使用每个代理网络估计局部动作值函数。它由一个输入的多层感知器(MLP)、一个门控递归单元(GRU)和一个输出的MLP组成。输入层使用多层感知器表示每个无人机m的当前观测动作对,并将其输入到GRU。为了减轻严重的部分可观察性,GRU层用于捕获对观测-动作历史τm (n)的长期和短期依赖,这是由隐藏状态表示的历史和当前观测组合形成的。它输出下一个隐藏状态,并将其提供给输出层,输出层使用MLP产生估计的局部动作值函数Qm(zm(n)、fm (n);θm)。将所有代理的动作价值函数求和,近似于全局动作值函数.
2)DQN结构:本文基于VDN的学习算法是基于DQN结构,如图2所示,它包括两种有效的技术:目标网络和体验重放。与DQN一样,本文使用了两个相同结构的神经网络来稳定训练过程。一个是参数为θ1的当前网络,用来评估当前的动作价值函数Q(zn,an;θ1)。另一个是参数为θ2的目标网络,用于评估下一个观测状态zn+1下的目标动作价值函数Q(zn+1,an+1;θ2)。目标网络的参数更新速度比当前网络的参数更新速度要慢。对当前的网络进行训练,使损失函数最小化。经验回放是用来从观察行动的历史中学习。为了遵循DQN的随机抽样策略,本文采用了随机更新的经验。从回放内存中随机选择一小批片段。GRU的初始隐藏状态在每次更新开始时都为零。每次更新都从这一集中的一个随机时间步长开始,并持续到一定数量的时间步长。利用随机梯度在每个时间步长上更新当前网络的参数。
基于VDN的算法是由BS训练的,并由无人机以分散的方式独立执行的。在训练阶段,无人机通过控制通道将其局部观测发送到BS来训练代理网络,而在执行阶段,每个无人机根据其局部观测做出自己的决策。每架无人机的局部观测包括其自身的位置和能量状态,以及其覆盖范围内每个传感器节点的更新包的AoI值和生存时间。
肆
实验结果
A. 算法收敛性
图3 基于学习的算法的收敛性
图3显示了三种基于学习的数据收集算法:SARSA、VDN和DQN的收敛性能。本实验采用固定采样。随着训练次数的增加,这三种算法都会逐渐波动并收敛。与DQN和VDN两种DRL策略相比,当一架无人机进行数据采集时,SARSA策略收敛速度更慢,收敛后获得的平均回报更小。当算法运行约8000次时,DQN获得了几乎与SARSA相同的平均回报,这可以渐近地接近最优解。相比之下,VDN比DQN表现出更剧烈的波动,并获得了更高的平均回报,因为它只利用了部分观测结果,并以分布式的方式执行。当更多的无人机作为代理时,VDN的收敛速度更快,并获得了更低的回报。如图4所示,当使用三架无人机时,经过1000次训练后,VDN几乎收敛。这意味着,当更多的代理参与协作学习环境时,该算法呈现出相当快的收敛性。因此,每个传感器节点可以更频繁地收集,每架无人机的平均AoI和能耗都降低了,导致平均回报更小。
B. 无人机的运动轨迹
图4 从6个传感器节点采集数据时无人机的运动轨迹
如图4(a)和图4(b)所示,本文在采用基于VDN的算法进行固定采样时,分别绘制了单无人机和多无人机场景的示例无人机飞行轨迹。6个传感器节点位于矩形区域,从图4(a)中,一架无人机从6个传感器节点中收集数据。可以看出,无人机在每一步中选择四个方向中的一个,并垂直或水平地飞到下一个目标传感器节点。因此,无人机在6个传感器节点周围飞行,并收集它们定期产生的更新数据包。在多无人机场景中,三架无人机被派去执行数据收集。标记为无人机1、无人机2和无人机3的三架无人机的飞行轨迹分别用红点虚线、蓝色实线和绿色虚线表示。通过从环境中学习,这三架无人机应该协同进行数据收集。如图5(b)所示,每架无人机只负责该区域的一小部分。具体来说,无人机1在传感器节点 2和传感器节点 5周围飞行,无人机2在传感器节点 3和传感器节点 6之间来回飞行。传感器节点 1和传感器节点 4由无人机3采集。
C. 数据采集性能
图5 基于VDN的算法的数据采集性能
如图5(a)和图5(b)所示分别为基于VDN的算法在单无人机和多无人机场景下的数据收集性能。在本实验中,我们仍然采用固定抽样策略。数据收集性能的特征是预期回报,这是传感器节点平均AoI和无人机平均能耗的加权总和。当采样率λ小于或等于0.05时,传感器节点的平均AoI急剧下降,然后逐渐下降至平坦,同时,当λ≤0.05时无人机的平均能量消耗急剧上升,当λ>为0.05时消费继续上升。其原因如下。随着采样率的提高,更新包在每个信号产生,并由无人机更频繁地传输。因此,当更新数据包能够及时交付时,更新的样本间间隔减少,平均AoI变小。同时,无人机在传输上消耗的能量越来越多。在单无人机场景中,当采样率大于0.14时,由于无人机的飞行和中继能力都受到限制,AoI和能耗的降低率减慢并接近于零。在这种情况下,即使每个传感器节点的采样过程都是可预测的,也不可能任意降低传感器节点的平均AoI。与单列无人机场景相比,在多无人机场景中使用三架无人机时,每个传感器节点实现的平均AoI要小得多。当采样率小于0.143时,三架无人机花费的能量都更少,因为每架无人机只需要执行部分数据收集任务。当采样率达到0.2时,每架无人机比单无人机场景消耗更多的能量,因为它提供更多更频繁的新包产生,当3个无人机参与数据收集,传感器节点的平均AoI降低了70%,代价是在每架无人机上花费稍微更多的能量。此外,每架无人机的平均能耗几乎随着采样率的增加而呈线性增加。这是因为更新包的产生更频繁,每架无人机在包传输上按比例增加能量。在单无人机和多无人机的情况下,预期回报随着采样率的增加而单调下降,因为当权重系数为δ = 0.002时,传感器节点的平均影响范围对预期回报的影响大于每架无人机的平均能耗。
D.平均AOI与采样率的关系
图6 单无人机条件下传感器节点的平均AoI与采样率的比较
本文比较了所提出的学习算法SARSA和VDN与基线策略DQN、贪婪和最近邻在不同采样率下的AoI性能。具体来说,本文分别在图6(a)和图6(b)中绘制了上述算法对固定采样策略和随机采样策略的AoI曲线。从图6中可以看出,无论采用哪种算法,每个传感器节点的平均AoI都随采样率的增加而单调地减小。这些算法中,SARSA的表现最好,因为它可以大近似地实现最小解,通过集中的训练和执行,DQN实现的AoI值略小于SARSA。由于部分观察结果,VDN的表现明显低于DQN。基于学习的策略:SARSA、VDN和DQN,优于两种非基于学习的策略,即贪婪策略和最近邻策略,因为它们可以通过不断地从环境中收集信息来学习做出更好的选择。与学习策略不同的是,贪婪策略和最近邻策略在决策过程中分别只利用所有传感器节点的AoI值和位置。控制无人机飞到最大传感器节点的贪婪策略存在轻微的性能下降。最近邻策略根据传感器节点之间的相对距离来选择无人机的飞行方向,并达到了最差的AoI性能。通过对比图6(a)和图6(b)这两个子图,我们可以看到,无论使用哪种算法,随机采样都会降低平均AoI。通过随机抽样,更新数据包的生成实例是不可预测的。在这种情况下,三种基于学习的算法:SARSA,VDN和DQN,利用每个传感器节点的采样历史来做出决策,因此它们的AoI性能略有不同。
图7 三架无人机条件下传感器节点平均AoI与采样率的比较
在图7中,本文绘制了多无人机场景中随采样率变化的AoI曲线,其中3架无人机被派从6个传感器节点收集数据。与单无人机场景类似,对于任何给定算法,无论固定或随机采样,传感器节点的平均AoI随着采样率的增加而随机下降。通过集中训练,基于VDN的算法获得的平均AoI比两种非学习的策略要小得多,因为无人机从环境中学习可以做出更好的选择。与图6中所示的单无人机场景不同,随着采样率的增加,基于VDN的算法与任何基于非学习的策略之间的性能差距越来越大。
伍
总结
本文研究了多无人机支持的物联网中面向AoI的数据收集问题,其中每个传感器节点应用固定或随机采样模式,并由一个能量约束的无人机在不可靠的无线信道上收集。在多源队列模型的帮助下,建立了MDP和Dec-POMDP编队,以最小化长期回报,其特征是传感器节点的平均AoI、无人机的能源消耗和对不当行为的惩罚的加权和。假设全局网络信息可用,本文提出了基于SARSA的算法来寻找渐近最优策略。同时还设计了一个基于多代理强化学习算法VDN来处理每架无人机作为一个代理的场景,并根据其部分和时变观测结果对无人机的飞行和数据收集做出独立决策的情况。仿真结果验证了所提出的基于学习的算法与DQN、贪婪和最近邻策略等基线算法的有效性。结果表明,SARSA比DQN和VDN具有更好的性能,但由于大量的计算,其收敛速度较慢。当涉及到更多的无人机时,VDN会表现得更好。传感器节点的平均AoI随采样率的增加而单调降低,而在采用随机抽样代替固定抽样时则显著降低。
-END-
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇