每周文章分享-102
2023-4-8 07:2:27 Author: 网络与安全实验室(查看原文) 阅读量:15 收藏

每周文章分享

2023.04.03-2023.04.09

标题: Semi-Distributed Resource Management in UAV-Aided MEC Systems: A Multi-Agent Federated Reinforcement Learning Approach

期刊: IEEE Transactions on Vehicular Technology, vol. 70, no. 12, pp. 13162-13173, Dec. 2021.

作者: Yiwen Nie, Junhui Zhao, Feifei Gao, F. Richard Yu.

分享人: 河海大学——时文静

背景介绍

随着用户设备的通信和计算需求的不断增长,多址接入技术应运而生计算(MEC)理论和技术正引起全球的广泛关注。作为未来通信的范例,MEC使终端能够将任务分配给部署在网络边缘的MEC服务器。最近的研究成果为MEC系统中的资源分配和用户关联问题提出了有效的解决方案。然而,大多数工作只考虑位置固定的MEC服务器,难以适应复杂的动态环境。近年来,基于无人机(UAV)的多接入边缘计算(MEC)作为一种很有前途的边缘计算模式被引入到未来的空-空-地综合通信中。由于无人机具有较高的可操作性,这种灵活的模式可以提高多用户设备的通信和计算性能。本文首先构建了一个具有计算任务卸载和资源管理功能的多无人机MEC模型。目标是最小化UAV-MEC系统的总功耗。然后,我们提出了基于DRL的算法,在两种不同的框架下解决优化问题。

关键技术

本文研究了多无人机协同控制系统中,通过联合优化资源分配、用户关联和功率控制的总和功率最小化问题。由于该问题是非凸性的,本文提出了一种集中的多智能体强化学习(MARL)算法来解决该问题。然而,集中式方法忽略了诸如分布式框架和隐私问题等基本问题。然后,提出了一个半分布式框架下的多智能体联合强化学习(MAFRL)算法。

该方法的创新和贡献如下:

1)提出了一个混合整数优化问题,共同优化卸载决策、频率资源和传输功率。由于卸载决策的非凸性和组合性质,该问题具有挑战性。

2)为了有效地解决这一问题,本文将其重新表述为马尔可夫决策过程(MDP),并提出了一种基于马尔可夫决策过程的算法,称为多智能体RL (MARL)。MARL算法使UAV-MEC系统中大量终端可以根据附近状态进行卸载决策。

3)由于所提出的MARL算法是集中式的,因此需要将大量数据从终端传输到参数中心。由于相应的通信时延,算法的实际部署和操作都具有挑战性。本文提出了一种融合FL和DRL的半分布式多智能体联邦强化学习(MAFRL)算法。MAFRL算法使UEs能够通过在本地保持数据训练来快速学习模型。

算法介绍

1. 系统模型

图1 多UAVs启辅助的MEC系统模型

本文考虑一个UAV辅助的MEC系统,有N个UAV和K个UE,如图1所示。UAV以编队巡逻的形式飞行,从鸟瞰角度沿着半径为R的圆形轨迹围绕参数服务器飞行。在操作时间内,相邻UAV的间隔、每个UAV到服务器的距离、飞行高度H保持不变。每个地面终端都有一个计算任务在每个时隙执行。对于这种计算资源受限的场景,每个UE可以将其AI任务卸载到一个UAV。

本文设置UAV的卸载决策变量为:

其中,dij(t) = 0表示第i个UE在本地执行任务,而dij(t) = 1, j = 0表示本地决策。dij(t) = 1, j ≠ 0,表示第i个终端决定在t时点将任务卸载给第j个UAV。

2. 问题描述

综合考虑时间成本和功耗,构建卸货决策系统。每个任务所需的总时间为:

总能耗为:

功耗最小化问题表述为:

上式受到以下约束:

1)规定每个终端可以将其任务卸载给一架无人机或在本地执行。

2)无论一个任务是在空中还是在地面执行,包括传输和计算时间在内的整体处理时间必须小于时延限制Tc

3)UAVs的最大资源容量、可接受的ue数和ue的传输功率限制

3. 马尔可夫决策过程

本文将问题重新描述为MDP问题,并使用基于DRL的算法求解。

在DRL框架中,每个UE首先充当一个代理,通过从环境中收集附近的状态信息来接收观察结果。此外,UE在每个时隙做出行动决策并计算相应的奖励来评估决策的有效性。在RL方法的帮助下,每个UE逐渐学习将观察结果映射为最佳操作的无模型策略。典型的MDP是一个元组{S, a, R,γ},它包含DRL框架中必要的元素:

状态空间:

动作空间:

奖励:


4. 半分布式MAFRL算法

为了解决延迟和隐私问题,本文引入了FL,以半分布式DRL方式解决优化问题。本文提出的MAFRL算法允许设备分布式地训练它们的本地模型,并与参数服务器通信以建立一个全局网络。与集中式MARL算法不同,这种通信只需要上传每个设备的参数和下载策略,大大降低了通信负载和延迟。此外,这些设备不能窃取他人参数的任何信息,保护了系统的私密性。

MAFRL的框架如图2所示。每个UE不使用状态信息聚合,而是通过输入自己的状态信息并向服务器更新参数来训练本地模型。同时,本文采用高斯差分加密对上传消息进行加密。考虑到传统的隐私感知算法牺牲了神经网络的性能,高斯微分加密已经被证明可以实现FL的出色的隐私性能折衷。参数服务器接收所有终端的加密参数,训练全局Q网络。具体来说,上传的参数通过联邦平均来拟合全局Q网络。接下来,参数服务器将全局Q网络的参数分配给每个UE。每个终端更新自己的网络,并根据最优策略进行决策。在MAFRL算法中,所有终端都共享相同的网络结构。他们的模型是通过联邦平均的过程聚合的。

系统首先初始化全局网络,每个智能体在UE位置构建其网络。然后每个智能体通过观察周围的状态并做出个人决策,开始训练自己的网络。与集中式MARL算法相比,半分布式MAFRL算法有两个突出的优势:通信高效的环境和隐私感知的数据传输。为了减少通信开销,MAFRL只需要从智能体端传输网络参数。此外,终端使用MARL进行集中决策时,数据安全也得不到很好的保护。在半分布式部署中,窃听者无法从任何进程获取原始数据。

图2 MAFRL算法框架

实验结果

1. 仿真环境设置

本节评估了所提出的MAFRL算法的功率性能,同时考虑了卸载决策、资源分配和功率控制。组网由K = 100个UE和N = 10个UAV组成,T = 100000个时隙。UE随机分布在边长比为2000m的矩形区域内。通常情况下,UE的迁移率遵循角度约束[0,2π]和速度约束[0,1]m/s的随机游走模型。UAV保持R = 300 m, H = 50 m, v = 4 m/s的圆形格局。每个时隙的时间间隔为1s,最大时延约束Tc = 1s;Fi(t)和Di(t)随机生成,D = 100kbits, F = 107CPU周期。此外,本文将每个UAV的最大连接UE数限制为Cmax = 30,将每个UAV的最大计算能力限制为fmax = 109CPU周期/s。每个UE fi0的计算能力从[104,105]个周期/s的间隔中随机选取。其他仿真参数值见表1。

表1 仿真参数

2. 终端以及UAV数量对总功耗的影响

图3 终端数量对总功耗的影响

图4 UAV数量对总功耗的影响

本文提出的MAFRL算法与MARL算法的性能差距很小,达到了如图3所示的良好性能。这证明了在不同的终端数量下,MAFRL和MARL可以达到相似的功耗水平。产生次优性能的一个可能原因是,与MARL训练相比,联邦平均可能会失去模型的准确性。相比之下,贪婪卸载、局部执行和随机执行方法逐渐落后于上层。复杂的环境和更多的终端极大地限制了这些传统方法的性能。图4显示了总功耗与UA数量的关系。与图3类似,两种基于drl的算法性能相近,并且比其他方案好得多。更多UA Vs意味着更多可能的卸载选择。因此,两种基于drl的算法都能在更大的训练空间下做出更好的决策。我们还可以观察到,各方法之间的性能差距随着UA V数的增加而增大。

3. 总功耗与最大延迟Tc以及最大计算能力的关系

图5总功耗与最大延迟的关系


图6 总功耗与最大计算能力的关系 

从图5可以看出,总功耗随时延Tc的增大而减小。这是因为系统更有可能违反时间限制C3和C4,最大延迟很小。研究还发现,基于drl的算法性能优于传统算法,因为时间空间的增加使得终端能够找到最优的无人机来卸载任务。然而,延迟限制使这些方法收敛在1000毫秒左右,其中所有候选方法都实现了相似的性能。这是因为如果最大延迟Tc持续增加,一旦Tc达到阈值,性能差距就会被套利。从图6我可以观察到,随着UA Vs最大计算能力的增加,系统性能略有下降。一个可能的原因是,在整个系统的总功耗中,UA Vs P P R的推进功率远远大于ue P TR的传输功率。因此,ue P TR的传输功率随f max的增大而相应降低的幅度相对较小。因此,部署功能强大、容量更大的UA v并不能显著提升系统性能。

4. 总功耗与最大计算能力以及数据量的关系

图7总功耗与数据量的关系


图8总功耗与CPU周期的关系

对于图7随着任务D的数据量的增加,总功耗增加。这是因为有更多的数据要传输和执行。因此,它加重了系统的负担。此外,的增加任务D的数据量增加了违反时间约束C3和C4的可能性,从而影响系统性能。很明显,所有任务F的总功耗随着CPU周期的增加而增加。这是因为当F增加时,延迟约束随着分配的计算能力的增长而敏感。因此,我们可以在图8中观察到更高的功耗。此外,当F不断增大时,所有的方法都不能收敛。这是因为资源敏感任务需要更多的计算资源,这会使系统严重过载。

5. 40000个episode以上的采样累积奖励,并比较了不同算法的性能

图9 累计奖励性能

从图9可以看到,当我们采用基于drl的算法时,累积奖励随时间单调增加。相比之下,其他三种常规方法由于不能从复杂环境中学习动态策略而始终保持着良好的性能。具体来说,这两种基于drl的算法在开始时工作得很糟糕,因为代理经常违反约束。然后,两种算法在累积奖励上都取得了显著的提高。当算法经过30000集时,增长速度会减慢。这是因为UEs学会了如何以节能的方式做出卸载决策。

总结

本文针对UA V辅助MEC系统,提出了一种计算资源管理和用户关联的功耗最小化方案。首先开发了一个集中的MARL算法来解决MINLP优化问题。在此基础上,结合分布式框架和终端隐私,提出了一种基于FL联邦学习的DRL算法。采用无模型算法,可有效地将计算敏感任务转移到最优UA V上。具体而言,所提出的MAFRL算法可以达到与集中式MARL算法相似的性能,并优于其他基线方案,同时保护所有终端的隐私。进一步分析了算法的收敛性以及系统因素对功率性能的影响。

-END-

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247496395&idx=1&sn=f172025714ad86f9eaa801e8171c64bf&chksm=e9f132c8de86bbdeccc9abe9953f1d3fd1bd9257c3e32a4b5dd5c9d56f42ee683a5ed3ba9a6f#rd
如有侵权请联系:admin#unsafe.sh