无人机辅助车联网NOMA协同缓存优化

doi:10.3785/j.issn.1008-973X.2026.06.016

无人机辅助车联网NOMA协同缓存优化

张艺炜^,, 崔鑫^,, 赵庆慧, 陈燕

山东理工大学计算机科学与技术学院，山东淄博 255049

Collaborative content caching optimization in UAV-assisted internet of vehicle based on NOMA

ZHANG Yiwei^,, CUI Xin^,, ZHAO Qinghui, CHEN Yan

School of Computer Science and Technology, Shandong University of Technology, Zibo 255049, China

通讯作者: 崔鑫，女，副教授. orcid.org/0000-0002-4520-562X. E-mail：cx@sdut.edu.cn

收稿日期: 2025-06-9

基金资助:

科技博士项目基金资助项目（4041422007）.

Received: 2025-06-9

Fund supported:

科技博士项目基金资助项目（4041422007）.

作者简介 About authors

张艺炜（2001—），男，硕士生，从事智能交通系统、车联网、边缘计算技术的研究.orcid.org/0009-0006-6767-022X.E-mail：zhangyiwei1014@163.com , E-mail：zhangyiwei1014@163.com

摘要

针对车联网（IoV）高动态场景下计算密集与延迟敏感型业务的通信需求，提出基于非正交多址接入（NOMA）的无人机集群协作内容缓存方案. 引入无人机集群作为边缘节点，结合NOMA技术实现多车辆频谱共享，设计基于K-Means++的动态分簇机制以周期性划分车辆集群，优化无人机簇头的部署位置. 对无人机集群网构建图卷积网络（GCN），通过动态邻接矩阵聚合无人机集群的拓扑关系、缓存状态及内容流行度特征，增强跨节点信息共享能力. 将协同缓存问题建模为分散式部分可观测马尔可夫决策过程（Dec-POMDP），把注意力机制引入Qmix深度强化学习算法，利用注意力机制加权融合邻域无人机状态，实现长期缓存命中率最大化. 仿真结果表明，与传统正交多址接入（OMA）相比，NOMA在时延和吞吐量性能上提高了近60%，所提方案相较于其他缓存方案，在不同车辆密度场景下，缓存命中率、平均内容检索时延及能耗等性能指标均有所提高，验证了所提方案在动态车联网环境下的高效性与鲁棒性.

关键词： 内容缓存 ; 非正交多址接入（NOMA） ; 车联网 ; 移动边缘计算 ; 深度强化学习算法 ; 图卷积网络

Abstract

A UAV-swarm-enabled collaborative content caching scheme based on non-orthogonal multiple access (NOMA) was proposed in order to address the communication requirement of computation-intensive and latency-sensitive service in highly dynamic internet of vehicle (IoV) scenario. NOMA technology was integrated to achieve spectrum sharing among multiple vehicle by deploying UAV swarm as edge node. A K-Means++ based dynamic clustering mechanism was designed to periodically partition vehicle cluster and optimize the deployment location of UAV cluster head. A graph convolutional network (GCN) was constructed for the UAV swarm network in order to aggregate the topological relationship, caching status and content popularity feature through a dynamic adjacency matrix. Then the capability of cross-node information sharing was enhanced. The cooperative caching problem was formulated as a decentralized partially observable Markov decision process (Dec-POMDP). An attention mechanism was introduced into the Qmix deep reinforcement learning algorithm. The attention mechanism was utilized to perform weighted fusion of neighboring UAV state in order to maximize the long-term cache hit rate. The simulation results showed that NOMA achieved nearly 60% improvement in latency and throughput performance compared with traditional orthogonal multiple access (OMA). The proposed scheme outperformed other caching schemes across various vehicle density scenario, showing enhancement in key performance metrics such as cache hit rate, average content retrieval latency and energy consumption. The efficiency and robustness of the proposed scheme in dynamic IoV environment were validated.

Keywords： content caching ; non-orthogonal multiple access (NOMA) ; internet of vehicle ; mobile edge computing ; deep reinforcement learning algorithm ; graph convolutional network

PDF (1088KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张艺炜, 崔鑫, 赵庆慧, 陈燕. 无人机辅助车联网NOMA协同缓存优化. 浙江大学学报(工学版)[J], 2026, 60(6): 1289-1298 doi:10.3785/j.issn.1008-973X.2026.06.016

ZHANG Yiwei, CUI Xin, ZHAO Qinghui, CHEN Yan. Collaborative content caching optimization in UAV-assisted internet of vehicle based on NOMA. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1289-1298 doi:10.3785/j.issn.1008-973X.2026.06.016

智能交通系统（intelligent traffic system，ITS）和网联汽车的发展给人们的生活带来了许多便利^[1]. 各种新兴智能应用和技术不断扩展，导致车联网（internet of vehicles，IoV）场景中出现了许多计算密集型和延迟敏感型的车辆应用数据，如导航通信服务、娱乐资源和自动驾驶等^[2].

车载边缘计算（vehicular edge computing，VEC）是分布式计算架构，通过协同路侧基站、边缘设备和云服务器^[3]，将计算任务下沉至网络边缘，从而缩短车辆与服务器之间的传输路径，提高计算效率，满足车载网络的计算需求. Wu等^[4]构建协同缓存方案（consistent hash for federated learning，CMCF），采用深度强化学习优化缓存策略，提高缓存命中率，减少内容传输时延. 余意等^[5]对车辆社交关系下的内容获取成本最小化问题进行建模，引入博弈论分析纳什均衡，提出基于社交关系的协作缓存算法，降低内容获取成本. Xu等^[6]利用数字孪生和区块链技术，提出智能安全任务卸载与缓存方案（intelligent secure task offloading and caching，ISTOC），采用多智能体双演员评论家算法，提高交易吞吐量并减少任务处理时延. 雒江涛等^[7]通过参数化深度Q网络，提出联合优化内容缓存和功率分配的算法，提升本地缓存命中率. 崔亚平等^[8]通过多智能体强化学习算法优化缓存分发决策，提高车联网内容的新鲜度，减少车辆时延，有效地降低宏基站负载.

动态车联网环境VEC面临资源受限^[9]、运动不可预测及基础设施部署成本高等挑战. 近年来，无人机（unmanned aerial vehicle，UAV）凭借其机动性和不受地理限制的特性，被广泛应用于灾后救援、智慧农业、智能交通等多个领域^[10]. 无人机可以作为移动边缘计算节点，为地面车辆提供计算资源，降低时延，并减少能耗^[11]. 通过将无人机辅助移动边缘计算引入车联网^[12]，实现计算资源的动态调度，提高系统在复杂交通环境中的适应性和计算效率. 目前，已有研究采用多智能体演员-评论家算法^[13]、流行度预测结合区块坐标下降^[14]、Lyapunov优化框架^[15]以及二部图神经网络预测^[16]等方法，优化缓存、轨迹及任务卸载. 传统的UAV框架多依赖正交多址接入（orthogonal multiple access，OMA），在大规模车辆场景下的频谱效率较低. 非正交多址接入（non-orthogonal multiple access，NOMA）^[17]允许多用户频谱共享，可以提升数据速率并优化资源调度，满足高吞吐量的需求.

本文研究基于NOMA的无人机集群，对车辆任务和内容进行预缓存. 结合NOMA技术提高内容可用性，降低数据传输时延，优化动态车联网环境下的整体网络性能. 设计基于NOMA的内容协作缓存框架，融合动态K-Means++对车辆周期性分簇，利用图卷积网络（graph convolutional network，GCN）实现跨无人机信息聚合，采用注意力增强QMIX强化学习方法优化分布式缓存决策，实现无人机集群缓存策略的智能化动态调控. 通过GCN邻域聚合与注意力机制，显著降低跨无人机通信开销，提升协作效率.

1. 系统模型

1.1. 系统分析

在城市交通场景中，构建支持NOMA的无人机集群辅助车联网系统. 如图1所示，高空平台（high altitude platform，HAP）集中管理多架无人机. 无人机与地面基站（base station，BS）均具备缓存与计算能力，当BS受限时，无人机作为补充节点，提供内容交付与任务卸载. 在该系统中，车辆根据空间分布动态聚类并关联无人机. 无人机通过保持间距抑制簇间干扰，利用NOMA频谱共享与连续干扰消除（successive interference cancellation，SIC）技术，提升频谱效率并抑制簇内干扰. 该框架旨在通过协作提升通信可靠性，降低时延并优化系统性能.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于NOMA的无人机集群协同缓存示意图

Fig.1 Schematic diagram of cooperative caching in NOMA-based UAV cluster

1.2. 移动模型

无人机和车辆的集合分别表示为$ U=\{1,\,\cdots ,u, \cdots, u_{\max}\} $和$ V=\{1,\,\cdots ,v,\,\cdots,v_{\max}\} $. 所有车辆会被划分为$ U $个簇. 系统基于双时间尺度进行建模，定义小时间尺度的索引为$ c\in \{1,~\cdots ,C\} $，用$ {t}_{c} $表示第$ c $个缓存周期（时长为$ {T}_{c} $），每周期末无人机会根据新的空间分布重新组织车辆簇. 在任何周期内，每架无人机都与一个车辆集群相关联，每辆车仅与一架无人机连接. 定义大时间尺度作为无人机部署周期$ {T}_{{\mathrm{B}}} $，用于更新位置. 若重构后目标用户超出服务范围，则无人机根据内容热度决定删除缓存或通过U2U链路迁移.

为了还原复杂的城市交通场景，考虑2种车辆移动模型. 随机漫游模型的车辆移动角度和速度分别在变量范围内均匀分布. 定向移动模型车辆的移动遵循固定方向，速度保持与随机漫游模型相同的分布. 车辆$ v $的坐标表示为$ {{\varphi}}_{v}\left({t}_{c}\right)=\left({x}_{v}\left({t}_{c}\right),{y}_{v}\left({t}_{c}\right),0\right) $.

无人机以固定高度$ h $水平飞行，无人机u的三维坐标表示为$ {\boldsymbol{\omega }}_{u}\left({t}_{c}\right)=\left({x}_{u}\left({t}_{c}\right),{y}_{u}\left({t}_{c}\right),h\right) $，$ {t}_{c+1} $时速度和航向角的变化由高斯-马尔可夫移动模型表述如下：

(1)$ {{\boldsymbol{v}}}_{u}\left({t}_{c+1}\right)=\alpha \cdot {{\boldsymbol{v}}}_{u}\left({t}_{c}\right)+\left(1-\alpha \right)\cdot {{\boldsymbol{\mu}} }_{{{v}_{u}}}+{\boldsymbol{\epsilon}} \left({t}_{c}\right), $

(2)$ {{\boldsymbol{\theta}} }_{u}\left({t}_{c+1}\right)=\alpha \cdot {{\boldsymbol{\theta }}}_{u}\left({t}_{c}\right)+\left(1-\alpha \right)\cdot {{\boldsymbol{\mu}} }_{{{\theta }_{u}}}+{\boldsymbol{\epsilon}} \left({t}_{c}\right). $

式中：$ \alpha $为惯性系数，${{\boldsymbol{v}}}_{u}\left({t}_{c}\right) $、${{\boldsymbol{\theta }}}_{u}\left({t}_{c}\right) $分别为$t_c $时的无人机速度和角度，$ {{\boldsymbol{\mu}} }_{{{v}_{u}}} $为目标速度，$ {{\boldsymbol{\mu}} }_{{{\theta }_{u}}} $为目标航向，$ {\boldsymbol{\epsilon}} $为高斯噪声.

无人机u在$ {t}_{c+1} $时的三维坐标表示为$ {\boldsymbol{\omega }}_{u}({t}_{c+1})= ({x}_{u}({t}_{c})\;+\;|{{\boldsymbol{v}}}_{u}({t}_{c})|\cdot \cos\;{\theta }_{u}({t}_{c})\cdot {T}_{c}\;+\;{\epsilon }_{x}({t}_{c}) $，${y}_{u}({t}_{c})\;+\;|{{\boldsymbol{v}}}_{u}({t}_{c})|\cdot \sin\;{\theta }_{u}({t}_{c})\cdot {T}_{c}+ {\epsilon }_{y}({t}_{c}),h)$. 在每个缓存期$ {t}_{c} $内，车辆集群被分为$ u_{\max} $个簇，表示为$ \{{C}_{1}^{{t}_{c}},\cdots ,{C}_{u}^{{t}_{c}},\cdots ,{C}_{u_{\max}}^{{t}_c}\} $，其中$ {C}_{u}^{{t}_{c}} $表示$ {t}_{c} $时刻由无人机u服务的车辆簇.

1.3. 无人机协同内容缓存模型

假定有$ w_{\max} $个热门预缓存内容，表示为$ {W}= \{1,\cdots ,w,\cdots ,w_{\max}\} $，其中项目$ w $的数据大小为$ {\lambda }_{w} $. 设定每辆车在每个缓存周期最多可以请求一个内容项，对于由无人机$ u $在$ {t}_{c} $缓存周期内服务的集群$ {C}_{u}^{{t}_{c}} $，请求的内容项集合表示为$ \{R_{v,u}^{c}\colon \forall v\in {C}_{u}^{{t}_{c}}\} $.

无人机$ u $缓存容量为$ {\psi }_{u} $. 无人机$ u $在缓存周期$ {t}_{c} $期间的内容缓存状态记为$ {E}_{W}^{u}({t}_{c}) $，为了表示无人机$ u $在缓存周期$ {t}_{c} $内对任务$ w $的缓存决策，设定决策变量$ r_{w}^{u}({t}_{c})\in {E}_{W}^{u}({t}_{c}) $，其中$ r_{w}^{u}\left({t}_{c}\right)=1 $表示无人机$ u $缓存了内容$ w $，否则$ r_{w}^{u}\left({t}_{c}\right)=0 $. 无人机u的缓存决策满足容量约束$ \displaystyle \sum \nolimits_{w\in W}r_{w}^{u}\left({t}_{c}\right){\lambda }_{w} \leqslant {\psi }_{u} $，在缓存周期$ {t}_{c} $的初始阶段，无人机需要评估所接收到请求的内容受欢迎程度，可以计算为

(3)$ P_{u,w}^{c}=\frac{\kappa _{u,w}^{c}}{ \displaystyle \sum \nolimits_{w\in W}\,\kappa _{u,w}^{c}}. $

式中：$ \kappa _{u,w}^{c} $为时间段$ {t}_{c} $内对内容$ w $的请求次数.

内容请求概率遵循Zipf分布，即请求内容$ w $的概率为

(4)$ f\left(w\right)=\frac{1}{{w}^{\alpha } \displaystyle \sum \nolimits_{w=1}^{w_{\max}}\,{\left(\dfrac{1}{w}\right)}^{\alpha }}. $

式中：$ \alpha $为分布的参数，本文设为1.

内容交付分为以下3种方式.

1）边缘内容检索（$ {\chi }^{1} $）：由所属无人机$ u $直接通过UAV-Vehicle（U2V）链路传输.

2）协作内容检索（$ {\chi }^{2} $）：无人机$ u $未缓存但其邻居$ u{'} $已缓存，则经UAV-UAV（U2U）链路进行中转再通过U2V传输.

3) HAP内容检索（$ {\chi }^{3} $）：如果无人机$ u $及邻居$ u{'} $均未缓存，则须通过HAP-UAV(H2U)链路和U2V链路传输.

当车辆$ v $在时间$ {t}_{c} $请求获取缓存内容$ w $时，选择上述一种方式，即满足$ \displaystyle \sum \nolimits_{i=1}^{3}{\chi }^{i}=1 $.

1.4. 通信模式

1）H2U传输.

H2U链路可以看作是威布尔信道模型，功率衰减可以通过下式计算：

(5)$ H_{u}^{\mathrm{H}}=\frac{{G}_{\text{TH}}{G}_{\text{RU}}{\lambda }^{2}}{{\left(4{\text{π}} {H}_{\text{HAP}}\right)}^{2}}{10}^{-{{F}_{{\mathrm{at}}}}/{10}}. $

式中：$ {G}_{\text{TH}} $为HAP的传输天线增益，$ {G}_{\text{RU}} $为无人机接收天线增益，$ {H}_{\text{HAP}} $为HAP高度，$ {F}_{{\mathrm{at}}} $为衰减因子. 将HAP到无人机的距离近似为HAP的高度. H2U传输速率可以表示为

(6)$ R_{{\mathrm{HAP}}\rightarrow u}^{t}=\frac{{B}_{\mathrm{H}}}{{\rho }^{{{t}_{c}}}(H_{\mathrm{HAP}})}{\log }_{2} \left(1+\frac{{P}_{\mathrm{H}}H_{u}^{\mathrm{H}}}{{B}_{\mathrm{H}}\sigma _{\mathrm{H}}^{2}}\right). $

式中：$ {B}_{\mathrm{H}} $和$ {P}_{\mathrm{H}} $分别为HAP的带宽和传输功率，$ \sigma _{\mathrm{H}}^{2} $为HAP空间噪声功率，$ {\rho }^{{{t}_{c}}}(H_\mathrm{HAP}) $为HAP覆盖范围内的无人机服务密度.

2）U2U传输.

采用自由空间传播模型通信，功率衰减为

(7)$ H_{u}^{{u}{'}}=\frac{{G}_{\text{TU}}{G}_{\text{RU}}{\lambda }^{2}}{{\left(4{\text{π}} {d}_{u,u\mathrm{'}}({t}_{c})\right)}^{2}}. $

式中：$ {G}_{\text{TU}} $为无人机发射天线增益，λ为载波波长，$ {d}_{u,u\mathrm{'}}({t}_{c}) $为$ {t}_{c} $时无人机$ u $与无人机$ u' $之间的距离. U2U链路的传输速率可由下式计算得出：

(8)$ R_{u\mathrm{'}\rightarrow u}^{{t}_{c}}=\frac{{B}_{u}}{{\rho }^{{{t}_{c}}}(u\mathrm{'})}{\log }_{2} \left(1+\frac{{P}_{{\mathrm{S}}}H_{u}^{{u}'}}{{B}_{u}\epsilon _{u}^{2}}\right). $

式中：$ {B}_{u} $和$ {P}_{{\mathrm{S}}} $分别为无人机带宽和发射功率，$ \epsilon _{u}^{2} $为无人机空间噪声功率，$ {\rho }^{{{t}_{c}}}(u\mathrm{'}) $为无人机u′覆盖范围内车辆的服务密度.

3）U2V传输.

3GPP Release-15规范^[18]定义了每个无人机及其关联用户的U2V链路模型. 路径损耗取决于链路是视距LoS还是非视距NLoS，车辆$ v $和无人机$ u $的路径损耗可以表示为

(9)$ \begin{split} & {L_{{\text{LoS}}/{\text{NLoS}}}}({t_c}) = \\ & \left\{ {\begin{array}{*{20}{l}} \begin{gathered} 30.9 + \left( {22.25 - 0.5{\text{l}}{{\text{g}}}\;{h_u}({t_c})} \right) \cdot {\text{l}}{{\text{g}}}\;{d_{u,v}}({t_c}) + 20{\text{l}}{{\text{g}}}\;{f_{\mathrm{c}}} ,\; {\text{LoS}}; \\ \end{gathered} \\ \begin{array}{l} \max\,\{ {L_{{\text{LoS}}}},32.4 + (43.2 - 7.6{\text{l}}{{\text{g}}}\;{h_u}({t_c})) \cdot {\text{l}}{{\text{g}}}\;{d_{u,v}}({t_c}) + \\ 20{\text{l}}{{\text{g}}}\;{f_{\mathrm{c}}}\} ,{{\text{NLoS}}.}\end{array} \end{array}} \right. \end{split} $

式中：$ {f}_{{\mathrm{c}}} $为载波频率，$ {h}_{u} $为无人机$ u $的飞行高度，$ {d}_{u,v} $为无人机$ u $与车辆$ v $之间的距离.

LoS的概率$ {P}_{\text{LoS}} $表示为

(10)$ {P_{{\text{LOS}}}}({t_c}) = \left\{ {\begin{array}{*{20}{l}} {1,\;\sqrt {{{ {{d_{u,v}^2}({t_c})} }} - {h_u^2}} \leqslant {d_0};} \\ \begin{gathered} \exp \left\{ {\dfrac{{ - \sqrt {{{ {{d_{u,v}^2}({t_c})} }} - {h_u^2}} }}{{{p_1}}} + \dfrac{{{d_0}}}{{{p_1}}}} \right\} + \\ \dfrac{{{d_0}}}{{\sqrt {{{ {{d_{u,v}^2}({t_c})} }} - {h_u^2}} }},\;其他. \\ \end{gathered} \end{array}} \right. $

式中：$ {d}_{0} = \mathrm{max}\left\{294.05{\lg}\;h_u-432.94,~18\right\} $，$ {p}_{1} = 233.98\times \mathrm{\lg }\;h_u-0.95 $.

NLoS的概率$ {P}_{\text{NLoS}} $为$ 1-{P}_{\text{LoS}} $,因此无人机$ u $和车辆$ v $之间的平均路径损耗为

(11)$ L_{v}^{u}\left({t}_{c}\right)={P}_{\text{LoS}} {L}_{\text{LoS}}+{P}_{\text{NLoS}} {L}_{\text{NLoS}}. $

考虑小规模衰落，时刻$ {t}_{c} $从无人机$ u $到车辆$ v $的信道增益为

(12)$ g_{v}^{u}\left({t}_{c}\right)=H_{v}^{u}({t}_{c})\cdot {10}^{-{L_{v}^{u}\left({t}_{c}\right)}/{10}}. $

式中：$ H_{v}^{u}({t}_{c}) $为无人机$ u $和车辆$ v $之间的衰落系数^[19].

引入服务指标$ {\alpha }_{u,v}\left({t}_{c}\right) $的定义：$ {\alpha }_{u,v}\left({t}_{c}\right)=1 $表示无人机$ u $和车辆$ v $在时隙$ {t}_{c} $进行服务，否则$ {\alpha }_{u,v}\left({t}_{c}\right)=0 $. 无人机$ u $的叠加发射信号$ {d}^{u}({t}_{c}) $为

(13)$ {d}^{u}\left({t}_{c}\right)=\sum \limits_{v=1}^{{m}}\,{\alpha }_{u,v}\left(t_{c}\right)\sqrt{P_{v}^{u}\left(t_{c}\right)}d_{v}^{u}(t_{c}). $

式中：${m} $为分配给无人机$ u $的车辆数，$ d_{v}^{u} $为无人机$ u $向车辆v的发射信号，$ P_{v}^{u} $为无人机$ u $分配给车辆$ v $的功率.

车辆$ v $的接收信号为

(14)$ \begin{split} e_{v}^{u}\left({t}_{c}\right)=g_{v}^{u}\left({t}_{c}\right)d_{v}^{u}\left({t}_{c}\right)+I_{u,v}^{\text{inter}}\left({t}_{c}\right)+I_{v}^{\text{intra}}\left({t}_{c}\right)+\sigma \left({t}_{c}\right).\end{split} $

式中：$ g_{v}^{u}\left({t}_{c}\right)d_{v}^{u}\left({t}_{c}\right) $为有用信号；$ \sigma $为附加高斯噪声；$I_{v}^{\text{intra}} $为车辆v所属簇内其他车辆对车辆v的累积簇内干扰；$ I_{u,v}^{\text{inter}} $为除无人机$ u $外的其他无人机对车辆 v的累积簇间、簇内干扰，

(15)$ I_{u,v}^{\text{inter}}\left({t}_{c}\right)=\sum \limits_{j=1,j\neq u}^{U}\,g_{v}^{j}({t}_{c})\sqrt{{P}^{j}({t}_{c})}{d}^{j}\left({t}_{c}\right). $

其中，$ {P}^{j}\left({t}_{c}\right) $为除当前服务无人机u以外的任意一架无人机j的总发射功率，该功率等于无人机j分配给它所服务的各车辆的功率之和.

在具有SIC的下行NOMA链路中，无人机作为发射端，掌握所有服务车辆的信道状态信息，集中调度功率分配与解码顺序. 由于车载网络场景的动态变化，与无人机u连接的车辆$ v $的等效信道增益$ G_{v}^{u}({t}_{c}) $表示为

(16)$ G_{v}^{u}\left({t}_{c}\right)=\frac{{\alpha }_{u,v}\left({t}_{c}\right)g_{v}^{u}\left({t}_{c}\right)}{\displaystyle \sum \limits_{j=1,j\neq u}^{u_{\max}}\,g_{v}^{j}\left({t}_{c}\right)\sqrt{{P}^{j}\left({t}_{c}\right)}+\sigma ({t}_{c})^{2}}. $

对于与车辆$ v $处于同一NOMA簇的另一车辆o，SIC的实施条件为$ G_{v}^{u}\left({t}_{c}\right)\geqslant G_{o}^{u}\left({t}_{c}\right) $. 将上述原则扩展到具有$ {V}^{u} $辆车的NOMA集群$ {C}_{u}^{c} $，根据等效信道增益确定解码顺序，记为$ G_{\varepsilon \left(1\right)}^{u}\left({t}_{c}\right) \leqslant G_{\varepsilon \left(2\right)}^{u}\left({t}_{c}\right) \leqslant \cdots \leqslant G_{\varepsilon \left({V}^{u}\right)}^{u}\left({t}_{c}\right) $. 其中，$ \varepsilon \left(v\right) $表示在解码顺序中排在第v位的车辆编号. 用户$ \varepsilon (v) $首先解码并逐步减去来自$ \varepsilon \left(v-1\right) $个用户的信号，再解码自己的所需信号. 簇内干扰$ I_{\varepsilon \left(v\right)}^{\text{intra}}({t}_{c}) $和车辆ε(v)的所需信号可以计算为

(17)$ I_{\varepsilon \left(v\right)}^{{\mathrm{intra}}}\left({t}_{c}\right)=\sum \limits_{i=v+1}^{{V}^{u}}\,{\alpha }_{u,\varepsilon \left(i\right)}\left({t}_{c}\right)g_{\varepsilon \left(i\right)}^{u}\left({t}_{c}\right)\sqrt{P_{\varepsilon \left(i\right)}^{u}\left({t}_{c}\right)}d_{\varepsilon \left(i\right)}^{u}\left({t}_{c}\right). $

第v个被解码用户的信干噪比（SINR）定义为

(18)$ \gamma _{\varepsilon \left(v\right)}^{u}\left({t}_{c}\right)=\frac{{\alpha }_{u,\varepsilon \left(v\right)}\left({t}_{c}\right)P_{\varepsilon \left(v\right)}^{u}\left({t}_{c}\right)|g_{\varepsilon \left(v\right)}^{u}\left({t}_{c}\right){|}^{2}}{I_{\varepsilon \left(v\right)}^{\text{intra}}\left({t}_{c}\right)+I_{u,\varepsilon \left(v\right)}^{\text{inter}}\left({t}_{c}\right)+\sigma ({t}_{c}{)}^{2}}. $

无人机u连接的车辆v的数据速率可以计算为

(19)$ {R}^{u,v}\left({t}_{c}\right)=B\log_2\left[1+\left(\gamma _{\varepsilon \left(v\right)}^{u}({t}_{c}{)}\right)^{2}\right]. $

式中：$ B $为无人机$ u $的带宽.

在第$ c $个缓存周期中，无人机$ u $直接将请求的内容传递给车辆$ v $，检索延迟为$ {{\lambda }_{w}}/{R_{u\rightarrow v}^{{t}_{{c}}}} $. 在缓存周期$ {t}_{{c}} $中，无人机$ u $的数据速率可以表示为

(20)$ {R}_{u}\left({t}_{\mathrm{c}}\right)=\sum \limits_{v=1}^{{V}^{u}}\,{R}^{u,v}\left({t}_{{c}}\right). $

式中：$ {V}^{u} $为在$ {t}_{{c}} $缓存周期中无人机u连接的车辆最大编号.

综上所述，3种不同缓存方式的内容w检索延迟可以表示为

(21)$ \tau _{u,v,w}^{1}\left({t}_{c}\right)=\frac{{\lambda }_{w}}{R_{u\rightarrow v}^{{t}_{c}}}, $

(22)$ \tau _{u,v,w}^{2}\left({t}_{c}\right)=\frac{{\lambda }_{w}}{R_{{u}^{\mathrm{'}}\rightarrow u}^{{t}_{c}}}+\frac{{\lambda }_{w}}{R_{u\rightarrow v}^{{t}_{c}}}, $

(23)$ \tau _{u,v,w}^{3}\left({t}_{c}\right)=\frac{{\lambda }_{w}}{R_{{\mathrm{HAP}}\rightarrow u}^{t}}+\frac{{\lambda }_{w}}{R_{u\rightarrow v}^{{t}_{c}}}. $

2. 问题描述

优化目标是最小化总体内容检索延迟. 优化问题表示如下.

(24)$\left. \begin{aligned} & \min \sum \limits_{c=1}^{C}\sum \limits_{u\in U}\sum \limits_{v\in V}\sum \limits_{w\in W}\sum \limits_{i=1}^{3}{\chi }^{i}\tau _{u,v,w}^{i}\left({t}_{c}\right).\\&{\mathrm{s.t.}}\\&\sum \limits_{v=1}^{v_{\max}}\,{\alpha }_{u,v}=1;\\&\sum \limits_{v\in {C}_{u}^{t_c}}\,{\alpha }_{u,v}\left({t}_{c}\right)P_{v}^{u} \leqslant {P}_{u}; \\ & G_{\varepsilon \left(v\right)}^{u}\left(t_{c}\right) \leqslant G_{\varepsilon \left(o\right)}^{u}\left(t_{c}\right),\;o> v; \\ & r_{w}^{u}\left({t}_{c}\right)\in \left\{0{,}1\right\}; \\ & \sum \limits_{w\in W}r_{w}^{u}\left({t}_{c}\right){\lambda }_{w} \leqslant {\psi }_{u}; \\ & \sum \limits_{i=1}^{3}{\chi }^{i}=1; \\ & {\chi }^{i}\in \left\{0{,}1\right\},\;i\in \left\{1{,}2,3\right\} ; \\ &0< \tau _{u,v,w}^{1}\left({t}_{c}\right)< \tau _{u,v,w}^{2}\left({t}_{c}\right)< \tau _{u,v,w}^{3}\left({t}_{c}\right)< {T}_{c}; \\ &{R}_{u}\left({t}_{c}\right)< B. \end{aligned}\right\} $

3. 解决方案

3.1. 基于K-Means++的车辆聚类和无人机部署算法设计

设定聚类数量等于无人机数量，车辆位置集$ {\bf\textit{φ}}=\{{\varphi }_{1},\cdots ,{\varphi }_{v},\cdots ,{\varphi }_{v_{\max}}\} $作为输入，通过K-Means++算法优化无人机部署. 具体流程如下. 首先进行质心初始化，随机选择首个质心（记为$ {\mu }_{1} $），随后按车辆到已选质心最小距离的平方比例$ P(v)\propto {{{d}_{m}}\left(v\right)}^{2} $概率化选取后续质心，直至选定U个质心$ \{{\mu }_{1},\cdots, {{\mu }_{u}},\cdots , \mu _{U}\} $. 之后进入迭代优化阶段：依据欧氏距离将每辆车分配至最近的质心所属簇$ {{C}}_{u} $，并按簇内车辆位置均值$ {\mu }_{k}$更新质心位置. 重复该分配与更新过程，直至质心坐标收敛. 最终输出车辆的分簇结果$ \left\{{{C}}_{1},\cdots ,{{C}}_{u},\cdots ,{{C}}_{u_{\max}}\right\} $及对应的无人机部署位置.

3.2. GCQM无人机协同内容缓存策略

基于聚类结果，无人机须完成内容缓存任务. 由于无人机的感知能力有限，将内容缓存决策建模为分散式部分可观测马尔可夫决策过程（Dec-POMDP）. 无人机代理通过与环境迭代交互学习个体策略，最大化系统缓存命中率. 为了应对拓扑的动态变化，引入图卷积网络（GCN）构建邻域图，通过信息交换探索节点间的协作关系. 提出基于QMix的多智能体协同缓存算法GCQM，采用集中训练与分散执行框架，增强无人机间的动态协调性.

1）Dec-POMDP.

观察：无人机代理$ u $仅观察自己的内容缓存状态${{{E}}}_{W}^{u}({t}_{c}) $、对应车辆集群$ {T}_{\mathrm{h}} $个历史窗口各内容的流行度之和矩阵$ {{\boldsymbol{P}}}_{W}^{u}({t}_{c}) $、当前剩余缓存容量$ \psi _{\mathrm{c}\text{ap}}^{u}({t}_{c}) $以及邻近无人机的内容缓存状态$ {{{{N}}}}^{u}\left({t}_{c}\right)=\{{{{E}}}_{W}^{j}({t}_{c})\mid j\in \mathrm{neighbors}(u)\} $.

无人机代理$ u $在$ {t}_{c} $内的观测可以定义为

(25)$ {\boldsymbol{o}}_{{t}_{c}}^{u}=\left[{{{E}}}_{W}^{u}\left({t}_{c}\right),{{\boldsymbol{P}}}_{W}^{u}\left({t}_{c}\right),\psi _{\text{cap}}^{u}\left({t}_{c}\right),{{{{N}}}}^{u}\left({t}_{c}\right)\right]. $

全局状态空间$ {\boldsymbol{s}}_{{{{t}}_{{c}}}} $是所有无人机观测的集合.

动作：根据学习到的策略及观察结果，无人机$ u $更新$ r_{w}^{u}({t}_{c}) $以确定是否缓存内容$ w $. 无人机代理$ u $在$ {t}_{c} $内的观察结果可以定义为

(26)$ {\boldsymbol{a}}_{{t}_{c}}^{u}=\left[r_{1}^{u}\left({t}_{c}\right),\cdots ,r_{w}^{u}\left({t}_{c}\right),\cdots ,r_{w_{\max}}^{u}\left({t}_{c}\right)\right]. $

类似地，将全局动作空间定义为$ {\boldsymbol{a}}_{{{{t}}_{{c}}}} $.

奖励函数：由于缓存命中率的提高意味着内容检索延迟的减少，将奖励函数定义为每个代理的缓存命中率. 该函数由本地命中率和邻居协作命中率组成. 奖励函数表示为

(27)$ r_{{t}_{c}}^{u}={\omega }_{1}\cdot r_{{\text{self},t}_{c}}^{u}+{\omega }_{2}\cdot r_{{\text{neig},t}_{c}}^{u}. $

式中：$ r_{{\text{self},t}_{c}}^{u} $为用户请求中由无人机$ u $命中的缓存内容的比例；$ r_{{\text{neig},t}_{c}}^{u} $为无人机u的邻近无人机的缓存内容命中比例；$ {\omega }_{1} $和$ {\omega }_{2} $分别为本地命中率和邻居协作命中率的加权系数，满足$ {\omega }_{1}、{\omega }_{2}\in (0{,}\;1.0) $且$ {\omega }_{1}+{\omega }_{2}=1.0 $. 全局奖励为所有无人机奖励的总和，即$ r\left({t}_{c}\right)=\displaystyle \sum \nolimits_{u=1}^{u_{\max}}r_{{t}_{c}}^{u} $.

2）图卷积网络设计.

无人机集群网络可以看作是图$ {G}=\{{n},{e}\} $，其中节点集$ {n} $为$ u $架无人机的集合，边集$ {e} $由无人机之间的距离决定. 为了适应无人机集群网络的动态拓扑和协作需求，定义无人机$ u $在时隙$ {t}_{c} $的邻接矩阵为$ {{\boldsymbol{A}}}_{{t}_{c}}^{u} $，并对其进行归一化. 邻居选择综合考虑以下2个关键因素.

a）物理邻近性：无人机$ u $与潜在邻居$ j $的欧氏距离$ {d}_{u,j}({t}_{c}) $. 距离越近，通信链路稳定性越高.

b）采用Jaccard差异度作为两无人机缓存内容互补性的度量：

(28)$ {D}\left(u,j,{t}_{c}\right)=1-\frac{\left| {E}_{W}^{u}\left({t}_{c}\right)\cap {E}_{W}^{j}\left({t}_{c}\right)\right| }{\left| {E}_{W}^{u}\left({t}_{c}\right)\cup {E}_{W}^{j}\left({t}_{c}\right)\right| }. $

为每个潜在邻居$ j\neq u $计算综合协作评分:

(29)$ {S}_{u,j}\left({t}_{c}\right)={\omega }_{{\mathrm{d}}}\cdot \frac{1}{{d}_{u,j}\left({t}_{c}\right)}+{\omega }_{{\mathrm{c}}}\cdot {D}\left(u,j,{t}_{c}\right). $

式中：$ {\omega }_{{\mathrm{d}}} $和$ {\omega }_{{\mathrm{c}}} $为欧氏距离及内容协作的缓存权重系数，分别设置为0.5.

每个节点将局部观测状态$ {\boldsymbol{o}}_{{t}_{c}}^{u} $输入全连接层，生成维度为F的相关特征$ {\boldsymbol{h}}_{{t}_{c}}^{u} $. $ {\boldsymbol{h}}_{{t}_{c}}^{u} $被输入到2个连续的卷积层，以整合节点u局部区域中的节点特征. 每个卷积层中的特征表示更新如下：

(30)$ {{\boldsymbol{H}}}^{(l+1)}=\sigma \left({\widetilde{\boldsymbol{A}_{{t}_{c}}^{u}}{\boldsymbol{H}}}^{(l)}{{\boldsymbol{W}}}^{(l)}\right);\;l\in \left\{0{,}1\right\}. $

式中：$ {{\boldsymbol{H}}}^{(l+1)}\in {\mathbf{R}}^{U\times {{F}^{\left(l\right)}}} $为第$ l+1 $层的特征矩阵，初始特征矩阵$ {{\boldsymbol{H}}}^{(0)}=[{\boldsymbol{h}}_{{t}_{c}}^{1},{\boldsymbol{h}}_{{t}_{c}}^{2},\cdots ,{\boldsymbol{h}}_{{t}_{c}}^{u},\cdots ,{\boldsymbol{h}}_{{t}_{c}}^{u_{\max}}{]}^{\mathrm{T}} $；$ {{\boldsymbol{W}}}^{(l)}\in {\mathbf{R}}^{{{F}^{(l)}}\times {{F}^{(l+1)}}} $为第$ l $层的可学习权重矩阵；σ为激活函数；$ {{\boldsymbol{H}}}^{(l+1)} $表示下一层的输出特征. 经过2层卷积后的特征矩阵表示为$ {\boldsymbol{H}}^{(2)}=[{{{\boldsymbol{h}}_{{t}_{c}}^{1}}}^{\mathrm{''}},\;{{{\boldsymbol{h}}_{{t}_{c}}^{2}}}^{\mathrm{''}},\cdots ,\;{{{\boldsymbol{h}}_{{t}_{c}}^{u}}}^{\mathrm{''}},\cdots , \;{{{\boldsymbol{h}}_{{t}_{c}}^{u_{\max}}}^{\mathrm{''}}{]}^{\mathrm{T}} $.

为了捕捉节点之间的关系，利用多头注意力机制作为卷积核，生成潜在特征向量. 对于每个注意力头$ {\boldsymbol{h}} $，$ {\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{Q}}} $、$ {\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{K}}} $和$ {\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{V}}} $分别为注意力头$ {\boldsymbol{h}} $中查询、键和值表示的参数矩阵. 在时间步$ {t}_{c} $，节点i与邻居$ j$之间的关系计算如下：

(31)$ \alpha _{i,j,{t}_{c}}^{u}=\frac{\exp \left(\tau \cdot \left({\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{Q}}}{{{\boldsymbol{h}}_{{t}_{c}}^{i}}}^{\mathrm{''}}\right)^{\mathrm{T}}\times \left({\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{K}}}{{{\boldsymbol{h}}_{{t}_{c}}^{j}}}^{\mathrm{''}}\right)^{\mathrm{T}}\right)}{\displaystyle \sum \limits_{k\in {{\boldsymbol{A}}}_{{t}_{c}}^{u}}\,\mathrm{exp} \left(\tau \cdot \left({\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{Q}}}{{{\boldsymbol{h}}_{{t}_{c}}^{i}}}^{\mathrm{''}}\right)^{\mathrm{T}}\times \left({\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{K}}}{{{\boldsymbol{h}}_{{t}_{c}}^{k}}}^{\mathrm{''}}\right)\right)}. $

式中：$ \alpha _{i,j,{t}_{c}}^{u} $为时刻$ {t}_{c} $时节点$ i $与其邻居$ j $之间的注意力得分，$ \tau $为缩放因子.

在计算注意力得分后，节点$ i $的$ \boldsymbol{h} $注意力头的输出被连接，通过激活函数$ \sigma $产生节点i的最终输出特征向量$ {{{\boldsymbol{h}}_{{t}_{c}}^{i{\mathrm{'''}} }}} $.

(32)$ {{{\boldsymbol{h}}_{{t}_{c}}^{i{\mathrm{'''}}}}}=\sigma \left(\text{con} \left[\sum \limits_{j\in {{\boldsymbol{A}}}_{{t}_{c}}^{u}}\,\alpha _{i,j,{t}_{c}}^{\mathrm{h}}{\boldsymbol{W}}_{\boldsymbol{h}}^{{\mathrm{V}}}{{{\boldsymbol{h}}_{{t}_{c}}^{j}}}^{\mathrm{''}}\right]\right). $

综合特征$ {{{\boldsymbol{h}}_{{t}_{c}}^{i{\mathrm{'''}}}}} $被输入到QMix算法局部$Q $网络的循环神经网络层中进行处理. 引入多头注意力机制，增强了模型捕捉复杂依赖的能力，但增加了计算开销. 无人机数量为$ U $，特征维度为$ {F} $，注意力头数为$ {H} $. 标准多头注意力的计算复杂度约为$ O({H}{ U}^{2} {F}) $，车联网中无人机集群${U} $规模较小，且GCN特征聚合和图结构在每个相对较长的缓存周期内更新，因此该复杂度在当前场景下是可接受的.

3）GCQM无人机协同缓存算法.

设计的无人机协同缓存算法过程如下：状态$ {\boldsymbol{s}}_{{{{t}}_{{c}}}} $被输入到各无人机代理的GCN模块中，以提取无人机通信网络的结构特征. 在得到特征$ {{{\boldsymbol{h}}_{{t}_{c}}^{i{\mathrm{'''}}}}} $后，通过局部Q网络来计算所有可能动作$ {\boldsymbol{a}}_{{t}_{c}}^{u} $的Q值. 这些动作受无人机资源和任务卸载能力的约束，每个无人机代理根据$ \epsilon $贪婪策略选择动作$ {\boldsymbol{a}}_{{t}_{c}}^{u} $. 随后进行环境交互，无人机在执行动作$ {\boldsymbol{a}}_{{t}_{c}}^{u} $后获得奖励$ r_{{t}_{c}}^{u} $，环境转换到下一个状态$ {\boldsymbol{s}}_{{{{t}}_{{c}+{1}}}} $. 对于T个训练步骤，所有无人机在交互过程中收集的元组$ ({\boldsymbol{s}}_{{{{t}}_{{c}}}},{\boldsymbol{a}}_{{{{t}}_{{c}}}},{{r}}_{{{{t}}_{{c}}}},{\boldsymbol{s}}_{{{{t}}_{{c}+{1}}}}) $都存储在重放缓冲区中. 在每个训练周期，从重放缓冲区中采样大小为$ {N}_{{\rm{b}}} $的小批量样本. 计算局部Q值：

(33)$ {Q}_{u}\left({\boldsymbol{o}}_{{t}_{c}}^{u},{\boldsymbol{a}}_{{t}_{c}}^{u}|{{\boldsymbol{\theta}} }_{\text{local}}\right)={f}_{\text{local}}\left({{{\boldsymbol{h}}_{{t}_{c}}^{i{\mathrm{'''}}}}},{\boldsymbol{a}}_{{t}_{c}}^{u}\right). $

式中：${{\boldsymbol{\theta}} }_{\text{local}} $为局部Q网络的参数，$ {f}_{\text{local}} $为局部特征提取模块.

QMix使用混合网络将各个代理的局部值函数组合，通过集中学习得到分布式策略. 混合网络集成局部Q值，计算全局Q值：

(34)$ {Q}_{\text{tot}}\left({\boldsymbol{s}}_{{{{t}}_{{c}}}},{\boldsymbol{a}}_{{{{t}}_{{c}}}}|{{\boldsymbol{\theta}} }_{\text{mix}}\right)={f}_{\text{mix}}\left({Q}_{1},{Q}_{2},\cdots ,{Q}_{u},\cdots ,{Q}_{u_{\max}}\right). $

式中：${{\boldsymbol{\theta}} }_{\text{mix}} $为全局Q网络的参数，$ {f}_{\text{mix}} $为超网络，它以全局状态$ {\boldsymbol{s}}_{{{{t}}_{{c}}}} $为条件，输出混合过程的权重和偏差. 满足单调性约束${\partial {Q}_{\text{tot}}}/{\partial {Q}_{u}}\geqslant 0 $.

最终成本函数的目标为最小化TD误差：

(35)$ L=\frac{1}{{N}_{{\mathrm{b}}}}\sum \limits_{j=1}^{{N}_{{\mathrm{b}}}}\,{\left({Q}_{\text{tot}}({\boldsymbol{s}}_{{j}},{\boldsymbol{a}}_{{j}}|{{\boldsymbol{\theta}} }_{\text{mix}})-{{y}}_{{j}}\right)}^{2}. $

TD目标$ {{y}}_{{j}} $的定义如下：

(36)$ {{y}}_{{j}}={{y}}_{{j}}+\gamma \underset{{{a}}^{\mathrm{'}}}{\max}\,Q_{\text{tot}}^{\mathrm{'}}\left({\boldsymbol{s}}_{{j}+{1}},{\boldsymbol{a}}^{\mathrm{'}}|{\boldsymbol{\theta }}_{\text{mix}}^-\right). $

式中：$ \gamma $为折扣因子，$ Q_{\text{tot}}^{\mathrm{'}} $为目标QMix网络的全局Q值，${\boldsymbol{\theta }}_{\text{mix}}^- $为上一轮的全局Q网络参数.

采用贪婪策略选择$ {\boldsymbol{a}}^{\mathrm{'}} $，以保证下一状态下的最优动作被用于目标值计算，提高策略学习的稳定性.

(37)$ {{\boldsymbol{a}}}^{\mathrm{'}}=\arg \underset{{{\boldsymbol{a}}}^{\mathrm{'}}}{\max}\,{\boldsymbol{Q}}_{\text{tot}}^{\mathrm{'}}\left({{\boldsymbol{s}}}_{j+1},{{\boldsymbol{a}}}^{\mathrm{'}}|{\boldsymbol{\theta}} _{\text{mix}}^-\right). $

在梯度传播的过程中，损失$ L $通过全局Q网络传播到局部Q网络，并最终更新GCN和局部Q网络的参数. 局部Q网络的梯度计算如下：

(38)$ {\nabla }_{{{{\boldsymbol{\theta}} }_{\text{local}}}}L=\frac{\partial {L}}{\partial {Q}_{\text{tot}}}\cdot \frac{\partial {Q}_{\text{tot}}}{\partial {Q}_{u}}\cdot \frac{\partial {Q}_{u}}{\partial {{\boldsymbol{\theta}} }_{\text{local}}}. $

GCN参数根据局部Q值损失相对于GCN权重的梯度进行更新：

(39)$ {\nabla }_{{{{\boldsymbol{W}}}^{\left(l\right)}}}{f}_{\text{local}}=\frac{\partial {f}_{\text{local}}}{\partial {{\boldsymbol{W}}}^{\left(l\right)}}. $

GCN的优化使用Adam优化器，损失函数与局部Q网络共享.

全局Q网络在每个代理选择最优动作时，将其视为联合行动，并评估整体效用. 整体训练过程交替执行经验采集与参数优化，基于重放缓冲区，无人机代理持续优化GCN、局部Q网络和目标Q网络，以最大化全局内容缓存的命中率. 提出的GCQM内容缓存算法的具体流程见算法1.

算法1　GCQM无人机协同缓存算法

1) 初始化：定义图

${G} $

、初始全局状态

$ {\boldsymbol{S}} $

、每个无人机的局部观测状态

$ {\boldsymbol{o}} $

和邻接矩阵集

$ \boldsymbol{A} $

. 初始化GCN参数

$ {{\boldsymbol{W}}}^{\left(l\right)} $

、局部Q网络参数

$ {{\boldsymbol{\theta}} }_{\text{local}} $

和全局Q网络参数

$ {{\boldsymbol{\theta}} }_{\text{mix}} $

、批量大小

$ {N}_{{\mathrm{b}}} $

2) For each iteration do

Step1: 图卷积网络特征提取和Q网络输入

3) For each UAV agent do

4) 　　使用式（30）～（32）提取最终特征并输入局部Q网络

5) 　　使用式（33）计算每个无人机的局部Q值

6) 　end

7) 将所有局部Q值输入全局混合网络

$ {f}_{\text{mix}} $

中，以计算全局Q值

Step 2: 损失计算和参数更新

8) 　使用式（35）计算全局 Q 网络的损失值

9) 　更新GCN参数

$ {\nabla }_{{\boldsymbol{W}}(l)}{L}_{\text{local}}={\partial {L}_{\text{local}}}/{\partial {{\boldsymbol{W}}}^{(l)}} $

10) 更新局部Q网络参数

$ {{\boldsymbol{\theta}} }_{\text{local}}\leftarrow {{\boldsymbol{\theta}} }_{\text{local}}-\eta {\nabla }_{{{{\boldsymbol{\theta }}}_{\text{local}}}}{L}_{\text{local}} $

11) 更新全局Q网络参数

$ {{\boldsymbol{\theta}} }_{\text{mix}}\leftarrow {{\boldsymbol{\theta }}}_{\text{mix}}-\eta {\nabla }_{{{{\boldsymbol{\theta}} }_{\text{mix}}}}{L}_{\text{local}} $

Step 3: 动作选择与经验回放

12) 每驾无人机选择动作

$ {\boldsymbol{a}}_{{t}_{c}}^{u} $

13) 存储

$ ({\boldsymbol{s}}_{{{{t}}_{{c}}}},{\boldsymbol{a}}_{{{{t}}_{{c}}}},{\boldsymbol{r}}_{{{{t}}_{{c}}}},{\boldsymbol{s}}_{{{{t}}_{{c}+1}}}) $

到经验回放池中

14) 选择一个小批量样本并重复损失计算和参数更新过程

15) End

16) 输出：优化后的全局Q值和无人机行动策略

4. 仿真分析

4.1. 仿真环境的设置

仿真环境遵循3GPP TR 36.885标准中描述的曼哈顿场景设置，采用Python3.8和Tensorflow2.6构建1 km×1 km的仿真环境，车辆位置被建模为空间泊松分布，车辆数设定为20~100，最大速度为60 km/h，无人机5架（高度为100 m），邻居节点数为3，缓存容量为200 MB，高斯-马尔可夫移动模型的惯性系数为0.7，目标速度为10 m/s. 缓存周期时长为10 s，考虑30个大小为[8, 20] MB的内容，zipf分布参数$ \alpha =1 $. 实验的主要参数如表1所示.

表 1 基于无人机缓存的网络仿真参数

Tab.1 Simulation parameter for UAV-assisted caching network

参数	数值	参数	数值
HAP高度	20 km	噪声功率	−174 dBm/Hz
HAP发射功率	40 dBm	仿真时长	1080 s
HAP带宽	100 MHz	GCN学习率	0.005
H2U链路频率	3.5 GHz	Qmix学习率	0.001
U2V载波频率	2 GHz	折扣因子	0.9
UAV带宽	20 MHz	经验回放区	10000
无人机发射功率	30 dBm	小批量样本	64
本地与协作命中率权重	0.67, 0.33	训练轮次	5000

新窗口打开| 下载CSV

4.2. 对比方法

将提出的GCQM算法与以下缓存机制进行对比.

Random随机算法：将内容随机缓存到无人机.

LFU最不常用更新算法^[20]：基于频率机制的算法. 该机制在缓存已满时更新请求次数最少的内容，计数窗口设定为50.

FIFO首先出局算法^[21]：基于到达机制的算法. 在缓存已满后，使用检索内容更新最早的缓存内容.

DDQN算法^[22]：强化学习算法. 无人机根据本地观察独立执行缓存决策，设定学习率为10⁻⁴，探索率为0.1，经验回放缓冲区大小为5×10⁴.

GT-SSA^[23]：基于博弈论的无人机云服务协同算法.

MADDPG^[24]：基于分层多智能体强化学习的多无人机联合优化算法.

4.3. 实验分析

如表2所示为K-Means++聚类质量（轮廓系数）随车辆规模的变化趋势. 在20~100辆车的场景下，K-Means++轮廓系数均稳定大于0.54，验证了动态分簇机制对高密度车联网的适应性. 该算法通过概率化选择远距离质心，有效地捕捉车流聚集特征，为无人机部署提供了最优解.

表 2 不同车辆规模下K-Means++动态分簇轮廓系数表

Tab.2 Silhouette coefficient of K-Means++ dynamic clustering under different vehicle fleet size

车辆数	轮廓系数	车辆数	轮廓系数
20	0.68	80	0.55
40	0.64	100	0.54
60	0.63	—	—

新窗口打开| 下载CSV

从表3可知，与OMA相比，NOMA在系统吞吐量和时延控制方面均展现出显著优势. 通过允许多用户共享同一频段，并基于信道条件动态分配功率，NOMA显著提高了频谱效率. 在时延方面，NOMA通过动态分簇和功率优化，减少了用户间的资源竞争，避免了OMA因固定资源块分配导致的排队等待，有效降低了系统时延，为高密度车联网场景提供了低时延、高吞吐量的通信保障.

表 3 NOMA与OMA的吞吐量及时延性能对比

Tab.3 Comparison of throughput and delay performance between NOMA and OMA

车辆数	吞吐量/(Gb·s⁻¹)		时延/ms
车辆数	NOMA	OMA	NOMA	OMA
20	8.1	6.2	120	181
60	12.3	7.5	145	382
100	15.6	8.9	195	620

新窗口打开| 下载CSV

如图2所示缓存命中率C、平均时延t、系统回程负载b和平均能耗W随不同车辆规模N_v变化的性能对比. 随着车辆数从20增至100，受资源竞争加剧的影响，各策略的缓存命中率均呈下降趋势，其中传统策略（random、FIFO、LFU）表现较差. 所提GCQM策略在100辆车的高密度场景下仍能保持35.2%的高命中率，展现出极强的扩展性与环境适应性. 这主要是因为GCQM引入图卷积网络（GCN）感知邻域状态与内容流行度，结合注意力QMIX优化了多智能体协作决策. 高命中率显著降低了对远程服务器的内容请求，使得GCQM的系统回程负载仅从1.13 GB上升至2.26 GB，远低于Random策略的4.12 GB，有效缓解了核心网的压力. 在时延与能耗方面，GCQM始终保持最优水平，100辆车时的平均时延仅为275 ms，能耗仅为46.6 mJ. 所提GCQM策略的性能优势源于动态分簇机制使通信距离最小化，且NOMA频谱共享提升了接入速率，配合多智能体协同决策进一步减少了冗余通信与能量浪费，验证了所提联合优化框架在高密度环境下的高效性与鲁棒性.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 不同车辆规模下的命中率、时延、系统回程负载及能耗性能评估

Fig.2 Performance evaluation of hit rate, delay, backhaul load and energy consumption under different vehicle scale

如图3所示为缓存命中率、平均时延、系统回程负载和平均能耗随不同无人机缓存容量K变化的趋势. 当缓存容量由100 MB增至300 MB时，GCQM的缓存命中率大幅提升了60.2%，涨幅显著优于DDQN的44.3%. 这证明GCN特征融合机制能够通过动态聚合邻域无人机的缓存状态，实现对高流行度内容的精准预缓存. 由于LFU算法仅依赖历史请求频率，当容量达到300 MB时命中率不足GCQM的40%，显示了本文方案在流行度动态预测方面的核心价值. 随着缓存容量的扩大，GCQM的平均时延表现出持续下降的态势. 这一性能的提升源于命中率提高大幅减少了对高延迟H2U链路的内容请求与传输依赖，K-Means++分簇对通信距离进行持续优化以及NOMA功率分配对U2V链路信号质量的改善. 在回程负载与能效方面，GCQM展现出显著优势. 注意力机制通过精准加权邻居状态提升了U2U内容共享比例，使得回程负载仅约为DDQN的58.8%，系统能效随着容量增加而显著提升，总能耗降幅达到58.2%，远高于未整合信道增益与SIC解码模型的GT-SSA策略，验证了所提联合优化框架在资源调度与绿色通信方面的优越性.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 不同无人机缓存容量下的命中率、时延、系统回程负载及能耗性能评估

Fig.3 Performance evaluation of hit rate, delay, backhaul load and energy consumption under different UAV cache capacity

如图4所示为GCQM完整模型、GCQM-MeanPool（均值池化替代GCN）及GCQM-NoGCN（移除GCN）的平均奖励r随训练轮次e变化的收敛性能对比图，验证了图卷积网络在无人机协作缓存决策中的关键作用. GCQM的全局平均奖励显著高于GCQM-MeanPool和GCQM-NoGCN. 在动态车联网场景中，无人机的邻域拓扑关系复杂且频繁变化，GCN通过多层图卷积与注意力机制，有效捕捉节点间非线性的协作依赖关系. MeanPool虽然能够聚合邻居信息，但简单的均值操作无法区分不同邻居的特征信息，导致特征表达能力受限. NoGCN因完全依赖本地观测，策略学习陷入局部最优，无法实现跨无人机的协同优化.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 GCN在无人机协作缓存收敛性能中的关键作用验证

Fig.4 Validation of GCN's critical role in UAV cooperative caching convergence

5. 结　语

提出基于NOMA的无人机集群协作内容缓存方案. 通过改进的K-Means++动态分簇优化车辆-无人机关联，结合图卷积网络与注意力QMIX算法，实现分布式协作缓存决策的长期优化. 仿真结果表明，所提方案在提升缓存命中率的同时显著降低了时延，NOMA技术进一步优化了系统吞吐量与能效性能. 该研究为动态车联网环境下的高效资源调度提供了理论支持. 未来将进一步探索多无人机协同轨迹规划、异构网络融合及无人机数量的动态调整策略，优化复杂场景下的资源利用率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GARCIA M H C, MOLINA-GALAN A, BOBAN M, et al

A tutorial on 5G NR V2X communications

[J]. IEEE Communications Surveys and Tutorials, 2021, 23 (3): 1972- 2026

DOI:10.1109/COMST.2021.3057017 [本文引用: 1]

[2]

SHI J, DU J, SHEN Y, et al

DRL-based V2V computation offloading for blockchain-enabled vehicular networks

[J]. IEEE Transactions on Mobile Computing, 2023, 22 (7): 3882- 3897

DOI:10.1109/TMC.2022.3153346 [本文引用: 1]

[3]

JIANG H, DAI X, XIAO Z, et al

Joint task offloading and resource allocation for energy-constrained mobile edge computing

[J]. IEEE Transactions on Mobile Computing, 2023, 22 (7): 4000- 4015

DOI:10.1109/TMC.2022.3150432 [本文引用: 1]

[4]

WU H, JIN J, MA H, et al

Federation-based deep reinforcement learning cooperative cache in vehicular edge networks

[J]. IEEE Internet of Things Journal, 2024, 11 (2): 2550- 2560

DOI:10.1109/JIOT.2023.3292374 [本文引用: 1]

[5]

余意, 李松, 王艳芬

车联网场景联合缓存及内容请求策略

[J]. 高技术通讯, 2022, 32 (5): 502- 510

DOI:10.3772/j.issn.1002-0470.2022.05.007 [本文引用: 1]

YU Yi, LI Song, WANG Yanfen

Joint caching and content request strategy for Internet of vehicle

[J]. Chinese High Technology Letters, 2022, 32 (5): 502- 510

DOI:10.3772/j.issn.1002-0470.2022.05.007 [本文引用: 1]

[6]

XU C, ZHANG P, XIA X, et al

Digital-twin-assisted intelligent secure task offloading and caching in blockchain-based vehicular edge computing networks

[J]. IEEE Internet of Things Journal, 2025, 12 (4): 4128- 4143

DOI:10.1109/JIOT.2024.3482870 [本文引用: 1]

[7]

雒江涛, 杨和平, 冉泳屹

基于参数化强化学习的车联网内容缓存和功率分配联合优化

[J]. 电子与信息学报, 2023, 45 (7): 2476- 2483

DOI:10.11999/JEIT220857 [本文引用: 1]

LUO Jiangtao, YANG Heping, RAN Yongyi

Joint optimization of content caching and power distribution for Internet of vehicles based on parametric reinforcement learning

[J]. Journal of Electronics and Information Technology, 2023, 45 (7): 2476- 2483

DOI:10.11999/JEIT220857 [本文引用: 1]

[8]

崔亚平, 石宏吉, 吴大鹏, 等

内容新鲜度保障的车联网多智能体缓存分发策略

[J]. 通信学报, 2025, 46 (1): 52- 66

DOI:10.11959/j.issn.1000-436x.2025013 [本文引用: 1]

CUI Yaping, SHI Hongji, WU Dapeng, et al

Multi-agent caching distribution strategy for content freshness guarantee in IoV

[J]. Journal on Communications, 2025, 46 (1): 52- 66

DOI:10.11959/j.issn.1000-436x.2025013 [本文引用: 1]

[9]

YU S, DAS A K, PARK Y

RLBA-UAV: a robust and lightweight blockchain-based authentication and key agreement scheme for PUF-enabled UAVs

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (12): 21697- 21708

DOI:10.1109/TITS.2024.3480029 [本文引用: 1]

[10]

VAEZI M, AZARI A, KHOSRAVIRAD S R, et al

Cellular, wide-area, and non-terrestrial IoT: a survey on 5G advances and the road toward 6G

[J]. IEEE Communications Surveys and Tutorials, 2022, 24 (2): 1117- 1174

DOI:10.1109/COMST.2022.3151028 [本文引用: 1]

[11]

LIN Z, LIN M, DE COLA T, et al

Supporting IoT with rate-splitting multiple access in satellite and aerial-integrated networks

[J]. IEEE Internet of Things Journal, 2021, 8 (14): 11123- 11134

DOI:10.1109/JIOT.2021.3051603 [本文引用: 1]

[12]

张天魁, 徐瑜, 刘元玮, 等

无人机辅助MEC系统: 架构、关键技术与未来挑战

[J]. 电信科学, 2022, 38 (8): 3- 16

DOI:10.11959/j.issn.1000-0801.2022237 [本文引用: 1]

ZHANG Tiankui, XU Yu, LIU Yuanwei, et al

UAV-assisted MEC systems: architecture, key technology, and future challenges

[J]. Telecommunications Science, 2022, 38 (8): 3- 16

DOI:10.11959/j.issn.1000-0801.2022237 [本文引用: 1]

[13]

ARAF S, SAHA A S, KAZI S H, et al

UAV assisted cooperative caching on network edge using multi-agent actor-critic reinforcement learning

[J]. IEEE Transactions on Vehicular Technology, 2023, 72 (2): 2322- 2337

DOI:10.1109/TVT.2022.3209079 [本文引用: 1]

[14]

BAI J, ZHU S, CHEN Y, et al

Joint optimization of caching and content delivery in air–ground cooperation environment

[J]. IEEE Internet of Things Journal, 2025, 12 (5): 6029- 6045

DOI:10.1109/JIOT.2024.3490612 [本文引用: 1]

[15]

ZHAO M, ZHANG R, HE Z, et al

Joint optimization of trajectory, offloading, caching, and migration for UAV-assisted MEC

[J]. IEEE Transactions on Mobile Computing, 2025, 24 (3): 1981- 1998

DOI:10.1109/TMC.2024.3486995 [本文引用: 1]

[16]

YU G, WU J, LIU R, et al

Joint cooperative caching and UAV trajectory optimization based on mobility prediction in the Internet of connected vehicles

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (11): 17392- 17406

DOI:10.1109/TITS.2024.3429305 [本文引用: 1]

[17]

ISLAM S R, AVAZOV N, DOBRE O A, et al

Power-domain non-orthogonal multiple access (NOMA) in 5G systems: potentials and challenges

[J]. IEEE Communications Surveys and Tutorials, 2017, 19 (2): 721- 742

DOI:10.1109/COMST.2016.2621116 [本文引用: 1]

[18]

MURUGANATHAN S D, LIN X Q, MÄÄTTÄNEN H, et al

An overview of 3GPP release-15 study on enhanced LTE support for connected drones

[J]. IEEE Communications Standards Magazine, 2021, 5 (4): 140- 146

[本文引用: 1]

[19]

ZHANG H, HAN M, LIU X, et al

Joint resource allocation and trajectory optimization in multi-cell UAV and sidelink heterogeneous networks

[J]. IEEE Transactions on Wireless Communications, 2024, 23 (11): 16635- 16647

DOI:10.1109/TWC.2024.3445149 [本文引用: 1]

[20]

MAHANANDA I G E, YOVITA L V, NEGARA R M. Performance of homogeneous and heterogeneous cache policy for named data network [C]//Proceedings of the 10th International Conference on Information and Communication Technology. Bandung: IEEE, 2022: 120–123.

[本文引用: 1]

[21]

ROSSI D, ROSSINI G. Caching performance of content centric networks under multi-path routing (and more) [R]. Paris: Telecom ParisTech, 2011: 1-6.

[本文引用: 1]

[22]

VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double Q-learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2016: 2094-2100.

[本文引用: 1]

[23]

BEN BEZZIANE M, HASAN S, BRIK B, et al

Game theory-based UAV-cloud for service selection architecture in flying ad hoc networks

[J]. IEEE Open Journal of Vehicular Technology, 2024, 5: 1692- 1711

DOI:10.1109/OJVT.2024.3430818 [本文引用: 1]

[24]

LIU Y, YANG C, TANG Y, et al

Cost-efficient deployment optimization for multi-UAV-assisted vehicular edge computing networks

[J]. IEEE Internet of Things Journal, 2025, 12 (6): 6158- 6170

DOI:10.1109/JIOT.2024.3515107 [本文引用: 1]

A tutorial on 5G NR V2X communications

2021

... 智能交通系统（intelligent traffic system，ITS）和网联汽车的发展给人们的生活带来了许多便利^[1]. 各种新兴智能应用和技术不断扩展，导致车联网（internet of vehicles，IoV）场景中出现了许多计算密集型和延迟敏感型的车辆应用数据，如导航通信服务、娱乐资源和自动驾驶等^[2]. ...

DRL-based V2V computation offloading for blockchain-enabled vehicular networks

2023

Joint task offloading and resource allocation for energy-constrained mobile edge computing

2023

... 车载边缘计算（vehicular edge computing，VEC）是分布式计算架构，通过协同路侧基站、边缘设备和云服务器^[3]，将计算任务下沉至网络边缘，从而缩短车辆与服务器之间的传输路径，提高计算效率，满足车载网络的计算需求. Wu等^[4]构建协同缓存方案（consistent hash for federated learning，CMCF），采用深度强化学习优化缓存策略，提高缓存命中率，减少内容传输时延. 余意等^[5]对车辆社交关系下的内容获取成本最小化问题进行建模，引入博弈论分析纳什均衡，提出基于社交关系的协作缓存算法，降低内容获取成本. Xu等^[6]利用数字孪生和区块链技术，提出智能安全任务卸载与缓存方案（intelligent secure task offloading and caching，ISTOC），采用多智能体双演员评论家算法，提高交易吞吐量并减少任务处理时延. 雒江涛等^[7]通过参数化深度Q网络，提出联合优化内容缓存和功率分配的算法，提升本地缓存命中率. 崔亚平等^[8]通过多智能体强化学习算法优化缓存分发决策，提高车联网内容的新鲜度，减少车辆时延，有效地降低宏基站负载. ...

Federation-based deep reinforcement learning cooperative cache in vehicular edge networks

2024

车联网场景联合缓存及内容请求策略

2022

车联网场景联合缓存及内容请求策略

2022

Digital-twin-assisted intelligent secure task offloading and caching in blockchain-based vehicular edge computing networks

2025

基于参数化强化学习的车联网内容缓存和功率分配联合优化

2023

基于参数化强化学习的车联网内容缓存和功率分配联合优化

2023

内容新鲜度保障的车联网多智能体缓存分发策略

2025

内容新鲜度保障的车联网多智能体缓存分发策略

2025

RLBA-UAV: a robust and lightweight blockchain-based authentication and key agreement scheme for PUF-enabled UAVs

2024

... 动态车联网环境VEC面临资源受限^[9]、运动不可预测及基础设施部署成本高等挑战. 近年来，无人机（unmanned aerial vehicle，UAV）凭借其机动性和不受地理限制的特性，被广泛应用于灾后救援、智慧农业、智能交通等多个领域^[10]. 无人机可以作为移动边缘计算节点，为地面车辆提供计算资源，降低时延，并减少能耗^[11]. 通过将无人机辅助移动边缘计算引入车联网^[12]，实现计算资源的动态调度，提高系统在复杂交通环境中的适应性和计算效率. 目前，已有研究采用多智能体演员-评论家算法^[13]、流行度预测结合区块坐标下降^[14]、Lyapunov优化框架^[15]以及二部图神经网络预测^[16]等方法，优化缓存、轨迹及任务卸载. 传统的UAV框架多依赖正交多址接入（orthogonal multiple access，OMA），在大规模车辆场景下的频谱效率较低. 非正交多址接入（non-orthogonal multiple access，NOMA）^[17]允许多用户频谱共享，可以提升数据速率并优化资源调度，满足高吞吐量的需求. ...

Cellular, wide-area, and non-terrestrial IoT: a survey on 5G advances and the road toward 6G

2022

Supporting IoT with rate-splitting multiple access in satellite and aerial-integrated networks

2021

无人机辅助MEC系统: 架构、关键技术与未来挑战

2022

无人机辅助MEC系统: 架构、关键技术与未来挑战

2022

UAV assisted cooperative caching on network edge using multi-agent actor-critic reinforcement learning

2023

Joint optimization of caching and content delivery in air–ground cooperation environment

2025

Joint optimization of trajectory, offloading, caching, and migration for UAV-assisted MEC

2025

Joint cooperative caching and UAV trajectory optimization based on mobility prediction in the Internet of connected vehicles

2024

Power-domain non-orthogonal multiple access (NOMA) in 5G systems: potentials and challenges

2017

An overview of 3GPP release-15 study on enhanced LTE support for connected drones

2021

... 3GPP Release-15规范^[18]定义了每个无人机及其关联用户的U2V链路模型. 路径损耗取决于链路是视距LoS还是非视距NLoS，车辆

$ v $

和无人机

$ u $

的路径损耗可以表示为 ...

Joint resource allocation and trajectory optimization in multi-cell UAV and sidelink heterogeneous networks

2024

... 式中：

$ H_{v}^{u}({t}_{c}) $

为无人机

$ u $

和车辆

$ v $

之间的衰落系数^[19]. ...

... LFU最不常用更新算法^[20]：基于频率机制的算法. 该机制在缓存已满时更新请求次数最少的内容，计数窗口设定为50. ...

... FIFO首先出局算法^[21]：基于到达机制的算法. 在缓存已满后，使用检索内容更新最早的缓存内容. ...

... DDQN算法^[22]：强化学习算法. 无人机根据本地观察独立执行缓存决策，设定学习率为10⁻⁴，探索率为0.1，经验回放缓冲区大小为5×10⁴. ...

Game theory-based UAV-cloud for service selection architecture in flying ad hoc networks

2024

... GT-SSA^[23]：基于博弈论的无人机云服务协同算法. ...

Cost-efficient deployment optimization for multi-UAV-assisted vehicular edge computing networks

2025

... MADDPG^[24]：基于分层多智能体强化学习的多无人机联合优化算法. ...

〈

〉