通信感知一体化系统中的联合波形与相移设计

doi:10.3785/j.issn.1008-973X.2026.04.022

通信感知一体化系统中的联合波形与相移设计

杨青青^,, 唐润朋, 彭艺^,

1. 昆明理工大学信息工程与自动化学院，云南昆明 650500

2. 昆明理工大学云南省计算机重点实验室，云南昆明 650500

Joint waveform and phase shift design in integrated sensing and communication systems

YANG Qingqing^,, TANG Runpeng, PENG Yi^,

1. School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

2. Yunnan Provincial Key Laboratory of Computer Science, Kunming University of Science and Technology, Kunming 650500, China

通讯作者: 彭艺，女，教授. orcid.org/0009-0004-3389-0254. E-mail：12309214@kust.edu.cn

收稿日期: 2025-05-14

基金资助:

国家自然科学基金资助项目 (62461030)；云南省基础研究重点项目 (202401AS070105).

Received: 2025-05-14

Fund supported:

国家自然科学基金资助项目(62461030)；云南省基础研究重点项目(202401AS070105).

作者简介 About authors

杨青青（1981—），女，博士，从事无人机路径规划、智能反射面辅助通信研究.orcid.org/0009-0004-4584-6381.E-mail：20090119@kust.edu.cn , E-mail：20090119@kust.edu.cn

摘要

针对如何在可重构智能表面(RIS)辅助通信感知一体化(ISAC)系统中有效提升系统容量的问题，提出RIS单元的不规则拓扑结构以及深度强化学习(DRL)算法. 采用模拟退火算法用于解决不规则RIS的拓扑优化问题，以提高在有限元件数量下的最优空间利用效率. 在感知波束图增益约束下，分别采用Adam优化器结合传统的梯度下降法与基于DRL的方法来解决最小化用户间干扰(MUI)的问题. 具体而言，DRL方案通过深度Q网络(DQN)与近端策略优化(PPO)这2种算法分别处理RIS的离散相移控制和ISAC的恒模波形设计. 仿真结果表明，基于DRL算法的不规则RIS辅助通感一体化系统的加权和速率(WSR)相较传统RIS方案提升了13.3%. DRL算法在抑制恒模波束能量泄漏方面具有更显著的优势，进一步验证了不规则RIS的拓扑设计和DRL算法在通感一体化系统中协同优化的可行性.

关键词： 通信感知一体化(ISAC) ; 不规则可重构智能表面(RIS) ; 联合波形设计 ; 相移矩阵 ; 深度强化学习(DRL)

Abstract

An irregular topology of reconfigurable intelligent surface (RIS) elements, combined with deep reinforcement learning (DRL) algorithms, was proposed to enhance the capacity of integrated sensing and communication (ISAC) systems. A simulated annealing algorithm was employed to solve the topological structure optimization problem of irregular RIS, ensuring optimal spatial utilization efficiency under a limited number of elements. Under the constraint of sensing beam pattern gain, multi-user interference (MUI) was minimized by two approaches. The first combined the Adam optimizer with traditional gradient descent. The second relied on DRL, where discrete RIS phase shifts and constant-modulus ISAC waveform design were managed by deep Q-network (DQN) and proximal policy optimization (PPO), respectively. Simulation results indicated that the weighted sum rate (WSR) of the irregular RIS-assisted system optimized by DRL increased by 13.3% compared with the conventional RIS scheme. The DRL algorithm also showed stronger capability in suppressing constant-modulus beam energy leakage. These results confirmed the feasibility of jointly optimizing irregular RIS topology and DRL algorithms in integrated sensing and communication systems.

Keywords： integrated sensing and communication (ISAC) ; irregular reconfigurable intelligent surface (RIS) ; joint waveform design ; phase shift matrix ; deep reinforcement learning (DRL)

PDF (2125KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

杨青青, 唐润朋, 彭艺. 通信感知一体化系统中的联合波形与相移设计. 浙江大学学报(工学版)[J], 2026, 60(4): 906-914 doi:10.3785/j.issn.1008-973X.2026.04.022

YANG Qingqing, TANG Runpeng, PENG Yi. Joint waveform and phase shift design in integrated sensing and communication systems. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 906-914 doi:10.3785/j.issn.1008-973X.2026.04.022

随着5G技术的成熟和6G时代的到来，现代无线通信系统的需求正在不断增长^[1]. 这意味着不仅要传输数据，还要在复杂、多变的环境中实时感知和分析周围环境信息^[2]. 在此背景下，通信感知一体化（integrated sensing and communication， ISAC）技术成为无线通信领域的前沿研究方向.

可重构智能表面(reconfigurable intelligent surface, RIS)是一种可编程的人工表面，由大量低功耗、可调相的元件组成^[3-5]. 目前已经有大量关于RIS在通感一体化系统中的应用研究. Nassar等^[6]提出针对支持反向散射的混合RIS辅助非正交多址(non-orthogonal multiple access, NOMA)网络的稳健波束成形设计. Chen等^[7]在通信服务质量（quality of service， QoS）的约束下，分别构建了不同的优化问题. Zhang等^[8]设计联合波束成形方法，优化RIS反射和信号发射性能. Chen等^[9]研究RIS辅助ISAC系统，并提出同时波束训练与目标感知方案.

单纯的无源RIS由于乘性衰落较大或在信号弱的环境下，可能无法充分发挥其作用^[10]，因此有源RIS的研究越来越受到关注. Zhu等^[11]研究主动RIS增强的ISAC系统并以Cramér-Rao界来衡量感知性能. Zhu等^[12]结合分块坐标下降、Dinkelbach变换和最大化-最小化技术，研究主动RIS辅助的ISAC系统. Zhang等^[13]研究具备有源可重构智能表面和潜在窃听者的双功能雷达和通信系统. 褚宏云等^[14]提出基于级联深度学习网络的求解算法，以RIS辅助ISAC网络能量效率最大化为目标，探究数据传输速率与能耗之间的内在关联.

上述研究都在探讨有源RIS对通感一体化系统性能的影响，但无论是混合RIS还是有源RIS，当基站传输功率过高时，在放大信号的同时，不仅会引起功耗提高，还会使系统能效降低. 不规则RIS在反射单元部署可行的情况下，给系统带来额外的空间自由度. Su等^[15]提出的不规则RIS在反射面元件数量一定的情况下能够提高系统容量. El-Meadawy等^[16]提出新的多层不规则RIS(multi-layer irregular reconfigurable intelligent surface, MLI-RIS)架构，并针对其设计优化框架. 此外，由于传统优化算法在高维空间中易于陷入局部最优，深度强化学习(deep reinforcement learning , DRL)能更好地探索和开发更优解. Liu等^[17]采用DRL算法，研究在RIS辅助的ISAC系统中的物理层安全性的问题. Zhu等^[18]提出应用2种DRL算法，解决复杂的非凸问题，最大化系统的长期效益.

本研究引入不规则智能反射面辅助通感一体化系统，以处理在感知波束图增益约束以及不规则RIS拓扑矩阵约束下的最小化多用户间干扰问题. 1)首先采用模拟退火算法计算不规则RIS拓扑矩阵部署问题，保证在一定RIS元件数量下的最优空间利用. 2)分别采用Adam优化器结合传统的梯度下降法与基于DRL的算法联合优化处理基站恒模波形与反射面离散相移设计问题. 3)从多用户干扰、加权和速率、感知波束强度等方面进行实验对比分析.

1. 系统模型

考虑不规则RIS辅助多用户的通感一体化通信系统模型如图1所示. 通过一个双功能基站，同时实现通信与感知功能. 该基站配备$ M $条天线，采用均匀线性阵列(uniform linear array， ULA)服务于$ K $个单天线用户以及Q个感知目标. 不规则RIS中$ N_\mathrm{t} $个反射单元稀疏地分布在反射表面的$ N_\mathrm{s} $个网格点上. 不失一般性，相邻网格点之间的间距定义为信号波长的一半. 令$ \boldsymbol{Z}=\mathrm{diag}\;(\boldsymbol{z}) $表示RIS拓扑选择矩阵，$ \boldsymbol{z}={\left[{z}_{1},{z}_{2},\cdots ,{z}_{N_\mathrm{s}}\right]}^{\mathrm{T}},\;{{z}}_{i}\in \left\{1,0\right\} $，其中1代表选择，0代表相反，分别对应RIS元素是否部署在第$ i $个网格点上. 记b为用于均匀量化每个RIS元素相移的比特数，$ F=\left\{0,\dfrac{2{\text{π}} }{{2}^{b}},\cdots ,\dfrac{2{\text{π}} }{{2}^{b}}({2}^{b}-1)\right\} $为反射系数的可行相位集.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 不规则RIS辅助通信感知一体化系统模型

Fig.1 Model of irregular RIS-assisted integrated sensing and communication system

1.1. 通信模型

下行通信链路用户收到的信号可以表示为

(1)$ \boldsymbol{Y}=({\boldsymbol{H}}_{\mathrm{bu}}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{\textit{Θ}}}\boldsymbol{G})\boldsymbol{X}+\boldsymbol{N}\triangleq {{{\boldsymbol{H}}^{\prime}}}_{\mathrm{bu}}\boldsymbol{X}+\boldsymbol{N}. $

式中：$ \boldsymbol{Y}\in {\mathbf{C}}^{K\times L} $、$ {\boldsymbol{H}}_{\mathrm{bu}}={\left[{\boldsymbol{h}}_{\mathrm{bu},1},\;\cdots ,\;{\boldsymbol{h}}_{\mathrm{bu},K}\right]}^{\mathrm{T}}\;\in {\mathbf{C}}^{K\times M} $、$ {\boldsymbol{H}}_{\mathrm{ru}}= {\left[{\boldsymbol{h}}_{\mathrm{ru},1},\cdots ,{\boldsymbol{h}}_{\mathrm{ru},K}\right]}^{\mathrm{T}}\in {\mathbf{C}}^{K\times N_{\mathrm{s}}} $、$ \boldsymbol{G}\in {\mathbf{C}}^{N_{\mathrm{s}}\times M} $，分别表示基站到用户、不规则RIS到用户以及基站到RIS的基带等效信道；$ {{\textit{Θ}}}=\mathrm{diag}\left(\left[{\beta }_{1}{{\mathrm{e}}}^{j{{\theta}_{1}}},{\beta }_{2}{{\mathrm{e}}}^{j{{\theta}_{2}}},\cdots , {\beta }_{N_{\mathrm{s}}}{{\mathrm{e}}}^{j{{\theta}_{N_{\mathrm{s}}}}}\right]\right) $，表示不规则RIS的$ N_{\mathrm{s}} $个网格点的反射系数，且$ \theta_{n}\in F,\;\forall n=1,2,\;\cdots ,\;N_\text{s} $；$ \boldsymbol{X}=[{{\boldsymbol{x}}}_{1},\;\cdots ,\;{{\boldsymbol{x}}}_{L}]\;\in {\mathbf{C}}^{M\times L} $，为基站发送的信号矩阵，$ L $为基站天线发射的波形编码序列长度；$ \boldsymbol{N}={[{{{\boldsymbol{n}}}_{1}},\cdots ,{{{\boldsymbol{n}}}_{K}}]}^{\mathrm{T}}\in {\mathbf{C}}^{K\times L} $，为用户处的噪声矩阵，$ {{\boldsymbol{n}}}_{i} $表示方差为$ {\sigma }^{2} $的加性高斯白噪声.

已知下行通信用户期望的星座符号矩阵为$ \boldsymbol{S}\in {\mathbf{C}}^{K\times L} $,则接收的信号矩阵可以重新定义为

(2)$ \boldsymbol{Y}=\boldsymbol{S}+({{{\boldsymbol{H}}^{\prime}}}_{\mathrm{bu}}\boldsymbol{X}-\boldsymbol{S})+\boldsymbol{N}. $

通过引入期望信号将多用户干扰(multi-user interference, MUI)能量分离为可优化部分，则式 (2)第2项MUI总能量可以表示为

(3)$ {P}_{\mathrm{MUI}}=\left|\left|{{{\boldsymbol{H}}^{\prime}}}_{\mathrm{bu}}\boldsymbol{X}-\boldsymbol{S}\right|\right|_{\mathrm{F}}^{2}. $

MUI能量直接影响用户的可达和速率，第$ k $个用户的信干噪比(signal to interference plus noise ratio, SINR)^[19]为

(4)$ {\gamma }_{k}=\frac{E\left({\left| {s}_{k,j}\right| }^{2}\right)}{E\left({\left| {{{\boldsymbol{h}}^{\prime}}}_{\mathrm{bu},k}{}^{\mathrm{T}}{\boldsymbol{x}}_{j}-{s}_{k,j}\right| }^{2}\right)+{\sigma }^{2}}. $

式中：$ {s}_{k,j} $表示$ \boldsymbol{S} $的第$ k $行第$ j $项元素，$ {{{\boldsymbol{h}}^{\prime}}}_{\mathrm{bu},k} $表示$ {{{\boldsymbol{H}}^{\prime}}}_{\mathrm{bu}} $的第$ k $行向量. 通过最小化接收的干扰来最大化用户的可达数据速率. 用户的可达和速率为

(5)$ R=\sum\limits_{k=1}^{K}{\log }_{2}\;(1+{\gamma }_{k}). $

当星座符号的能量固定时，最小化MUI能量与最大化和速率密切相关^[19]，根据文献[20]，本研究将MUI能量作为衡量通信性能的指标.

1.2. 感知模型

期望的雷达波束协方差矩阵表达式^[21] 如下：

(6)$ {\boldsymbol{R}}_{\mathrm{w}}=\frac{1}{L}\boldsymbol{X}{\boldsymbol{X}}^{\mathrm{H}}. $

式中：$ {\boldsymbol{X}}^{\mathrm{H}} $为$ \boldsymbol{X} $的共轭转置，采用正交线性调频波形$ {\boldsymbol{X}}^{\ast } $作为参考波形.

(7)$ X^*(m, l)=\dfrac{1}{\sqrt{M P_{\mathrm{t}}}} \exp \left\{\dfrac{2 m j {\text{π}}(l-1)}{L}\right\} \exp \left\{\dfrac{j {\text{π}}(l-1)^2}{L}\right\} . $

式中：$ {{\boldsymbol{X}}}^{\ast } $在$ (m,l) $个采样点记作$ {X}^{\ast }(m,l) $，$ m\in [1,M],\;l\in [1,L], {P}_{\mathrm{t}} $为总发射功率.

感知波束图增益定义为^[21]

(8)$ P({\bar{\theta }}_{{{q}}})={\boldsymbol{a}}^{\mathrm{H}}({\bar{\theta }}_{{{q}}})\boldsymbol{X}{\boldsymbol{X}}^{\mathrm{H}}\boldsymbol{a}({\bar{\theta }}_{{{q}}}). $

式中：$ \boldsymbol{a}({\bar{\theta }}_{{{q}}})=\dfrac{1}{\sqrt{M}}{\left[1,{{{\mathrm{e}}}^{j\tfrac{2{\text{π}} }{\lambda }d\sin\; {{\bar{\theta }}_{{{q}}}}}},\cdots ,{{{\mathrm{e}}}^{j\tfrac{2{\text{π}} }{\lambda }(M-1)d\sin \;{{\bar{\theta }}_{{{q}}}}}}\right]}^{\mathrm{T}} $，为目标探测方向上$ {\bar{\theta }}_{{{q}}} $的导向矢量，$ d $表示天线间距，$ \lambda $为基站发射信号的波长.

2. 问题描述

本研究目标是联合优化通感一体化波形与RIS相移设计,在感知波束图增益约束以及不规则RIS的拓扑矩阵约束下最小化多用户间干扰，该问题可以描述为

(9)$ \left.\begin{array}{ll}\mathrm{F} 1: & \min _{\boldsymbol{Z}, \boldsymbol{\varTheta}, \boldsymbol{X}}\left\|\boldsymbol{H}_{\mathrm{bu}}^{\prime} \boldsymbol{X}-\boldsymbol{S}\right\|_{\mathrm{F}}^2 \cdot \\\text { s.t. } & \mathrm{C} 1: \left\|\boldsymbol{X}-\boldsymbol{X}^*\right\|_{\mathrm{F}}^2 \leqslant \eta ; \\& \mathrm{C} 2: \quad P\left(\bar{\theta}_q\right) \geqslant \varGamma,\; \forall q \in\{1,2, \cdots, Q\} ; \\& \mathrm{C} 3: \quad \|\boldsymbol{X}\|_{\mathrm{F}}^2=P_{\mathrm{t}} ; \\& \mathrm{C} 4: \quad {\theta}_n \in F,\; \forall n=1,2, \cdots, N_{\mathrm{s}} ; \\& \mathrm{C} 5: \quad z_i\left(z_i-1\right)=0,\; \forall i=1,2, \cdots, N_{\mathrm{s}} ; \\& \mathrm{C} 6: \quad {\bf 1}^{\mathrm{T}} {\boldsymbol z}=N_\mathrm{t} .\end{array} \right\}$

式中：$ \text{C1} $为相似性约束，确保实际的波束成形设计结果与期望的雷达波形在一定的差异范围内；$ \text{C2} $是限制感知波束图增益的最小阈值为$ \varGamma $；$ \text{C3} $是基站发射功率约束；$ \text{C4} $是不规则RIS的反射振幅与有限相移约束；$ \text{C5} $和$ \text{C6} $共同限制了不规则RIS反射单元部署问题，具体拓扑矩阵中有$ N_{\mathrm{t}} $个对角元素设置为1，$ N_{\mathrm{s}}-N_{\mathrm{t}} $个元素设置为0.

3. 不规则RIS的稀疏部署与波束成形设计方案

根据文献[22]，求解$ \mathrm{F}1 $需要RIS所有网格点的完整通道状态信息(channel state information， CSI)，获取CSI的传统方法会带来较高的导频开销. 然而，由于BS-RIS信道协方差矩阵长时间不变，RIS拓扑可暂时固定. 本研究先采取模拟退火算法^[23]来处理不规则RIS的拓扑矩阵，将原问题转换为具有给定拓扑$ {\boldsymbol{Z}}_{0} $的问题$ \mathrm{F}2 $:

(10)$ \left.\begin{array}{ll}\mathrm{F} 2: & \min _{\boldsymbol{\varTheta}, \boldsymbol{X}}\left\|\boldsymbol{H}_{\mathrm{bu}}^{\prime} \boldsymbol{X}-\boldsymbol{S}\right\|_{\mathrm{F}}^2 . \\\text { s.t. } & \mathrm{C} 1: \quad \left\|\boldsymbol{X}-\boldsymbol{X}^*\right\|_{\mathrm{F}}^2 \leqslant \eta ; \\& \mathrm{C} 2: \quad P\left(\bar{\theta}_q\right) \geqslant \varGamma,\; \forall q \in\{1,2, \cdots, Q\} ; \\& \mathrm{C} 3: \quad\|\boldsymbol{X}\|_{\mathrm{F}}^2=P_{\mathrm{t}} ; \\& \mathrm{C} 4: \quad {\theta}_n \in F, \forall n=1,2, \cdots, N_{\mathrm{s}} ; \\& \mathrm{C} 7: \quad \boldsymbol{Z}=\boldsymbol{Z}_0 .\end{array}\right\} $

关于问题$ \mathrm{F}2 $，可以采取交替优化的方法，将优化问题分解成2个子问题求解.

3.1. 基于模拟退火算法的不规则RIS拓扑结构优化

求解$ \mathrm{F}1 $的模拟退火算法(simulated annealing, SA)^[24]流程如下.

定义拓扑矩阵状态：采用$ \boldsymbol{z}={\left[{z}_{1},{z}_{2},\cdots ,{z}_{N_{\mathrm{s}}}\right]}^{\mathrm{T}},{{z}}_{i}\in \left\{1,0\right\} $表示不规则RIS的拓扑结构，随机选择$ k $个位置，将这些位置上的二进制值进行反转，即$ {z}_{i}\leftarrow 1-{z}_{i} $，生成邻域拓扑 $ {{\boldsymbol{z}}}^{\prime} $. 计算目标函数值$ \mathrm{MUI}=\left|\left|{{{\boldsymbol{H}}^{\prime}}}_{\mathrm{bu}}\boldsymbol{X}-\boldsymbol{S}\right|\right|_{\mathrm{F}}^{2} $，其中$ {{\textit{Θ}}}=\mathrm{diag}\big(\big[{\beta }_{1}{{\mathrm{e}}}^{j{{\theta}_{1}}},{\beta }_{2}{{\mathrm{e}}}^{j{{\theta}_{2}}},\cdots , {\beta }_{N_{\mathrm{s}}}{{\mathrm{e}}}^{j{{\theta}_{N_{\mathrm{t}}}}}\big]\big) $，$ N_{\mathrm{s}}=\displaystyle\sum\limits_{i=1}^{N_{\mathrm{t}}}{z}_{i} $为RIS中被选中的元素数量，$ {\theta}_{n} $为被选中元素的相位偏移.

初始化：初始温度$ {T}_{0} $,温度下降速率$ {a}_{0} $，最大迭代次数$ {{\mathrm{iter}}}_{\mathrm{SA}} $以及初始拓扑矩阵$ {\boldsymbol{z}}_{0} $.

重复：计算邻域拓扑$ {{\boldsymbol{z}}}^{\prime} $,邻域拓扑的目标函数值$ \mathrm{MU}{\mathrm{I}}^{\prime} $以及其变化量$ \Delta \mathrm{MUI}=\mathrm{MU}{\mathrm{I}}^{\prime}-\mathrm{MUI} $.

根据Metropolis 准则决定是否接受邻域拓扑作为当前拓扑：

(11)$ \rho=\left\{\begin{array}{ll}1, & \Delta \mathrm{MUI} \leqslant 0; \\{\mathrm{e}}^{-{\Delta \mathrm{MUI}}/{T}}, & \Delta \mathrm{MUI}> 0.\end{array} \right. $

为了使算法不容易陷入局部最优解，生成一个随机数$ r\in [0,1.0] $，如果$ r \lt \rho $，则接受邻域拓扑，将多用户干扰能量和温度分别更新为$ \mathrm{MU}{\mathrm{I}}^{\prime} $与$ aT $，重复以上步骤直到算法达到最大迭代次数或最低阈值温度$ {T}_{\min } $. 最后输出最佳拓扑矩阵$ {\boldsymbol{z}}_{\mathrm{out}} $.

3.2. 基于梯度下降算法的波形矩阵优化

对于给定的离散相移矩阵$ {{\textit{Θ}}} $，目标函数可以重构为

(12)$ \left.\begin{array}{ll}\mathrm{F2}{ }^{\prime}: & \min _{\boldsymbol{X}}\left\|\boldsymbol{H}_{\mathrm{bu}}^{\prime} \boldsymbol{X}-\boldsymbol{S}\right\|_{\mathrm{F}}^2 . \\\text { s.t. } & \mathrm{C} 1: \quad \left\|\boldsymbol{X}-\boldsymbol{X}^*\right\|_{\mathrm{F}}^2 \leqslant \eta ; \\& \mathrm{C} 2: \quad P\left(\bar{\theta}_q\right) \geqslant \varGamma,\; \forall q \in\{1,2, \cdots, Q\} ; \\& \mathrm{C} 3: \quad \|\boldsymbol{X}\|_{\mathrm{F}}^2=P_{\mathrm{t}} ; \\& \mathrm{C} 7: \quad \boldsymbol{Z}=\boldsymbol{Z}_0 .\end{array}\right\} $

在本研究复杂的优化场景下，首先采用梯度下降法^[25]结合Adam优化器^[26]来处理上述子问题. 将目标函数改写成

(13)$ f(\boldsymbol{X})=\left|\left|{\boldsymbol{H}}_{\mathrm{bu}}\boldsymbol{X}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{\textit{Θ}}}\boldsymbol{G}\boldsymbol{X}-\boldsymbol{S}\right|\right|_{\mathrm{F}}^{2}. $

计算其梯度：

(14)$ \begin{split}\nabla _{\boldsymbol{X}}f(\boldsymbol{X})=&2\boldsymbol{H}_{\mathrm{bu}}^{\mathrm{H}}({\boldsymbol{H}}_{\mathrm{bu}}\boldsymbol{X}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{\textit{Θ}}}\boldsymbol{G}\boldsymbol{X}-\boldsymbol{S})+ \\&2{\boldsymbol{G}}^{\mathrm{H}}{{{\textit{Θ}}}}^{\mathrm{H}}{\boldsymbol{Z}}^{\mathrm{H}}\boldsymbol{H}_{\mathrm{ru}}^{\mathrm{H}}({\boldsymbol{H}}_{\mathrm{bu}}\boldsymbol{X}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{\textit{Θ}}}\boldsymbol{G}\boldsymbol{X}-\boldsymbol{S}). \end{split}$

初始化一阶矩估计$ {\boldsymbol{m}}_{\boldsymbol{X}}^{t} $和二阶矩估计$ {\boldsymbol{v}}_{\boldsymbol{X}}^{t} $，以及时间步$ t=0 $，在每次迭代中将公式更新如下：

(15)$ {\boldsymbol{m}}_{\boldsymbol{X}}^{t}={\lambda }_{1}{\boldsymbol{m}}_{\boldsymbol{X}}^{t-1}+(1-{\lambda }_{1})\nabla _{\boldsymbol{X}}f({\boldsymbol{X}}_{t}),$

(16)$ {{\boldsymbol{v}}}_{\boldsymbol{X}}^t={\lambda }_{2}{\boldsymbol{v}}_{\boldsymbol{X}}^{t-1}+(1-{\lambda }_{2}){\left(\nabla _{\boldsymbol{X}}f({\boldsymbol{X}}_{t})\right)}^{2}. $

式中：$ {\lambda }_{1}、{\lambda }_{2} $为动量参数. 进行偏差校正后更新为

(17)$ \hat{{\boldsymbol{m}}}_{\boldsymbol{X}}^{t}=\frac{{\boldsymbol{m}}_{\boldsymbol{X}}^{t}}{1-\lambda _{1}^{t}},\;\hat{{\boldsymbol{v}}}_{\boldsymbol{X}}^{t-1}=\frac{{\boldsymbol{v}}_{\boldsymbol{X}}^{t}}{1-\lambda _{2}^{t}}, $

(18)$ {\boldsymbol{X}}_{t+1}={\boldsymbol{X}}_{t}-{\alpha }_{\mathrm{Ada}{\mathrm{m}}}\frac{\hat{\boldsymbol{m}}_{\boldsymbol{X}}^{t}}{\sqrt{\hat{{\boldsymbol{v}}}_{\boldsymbol{X}}^{t}+{\boldsymbol{\varepsilon}} }}. $

式中：$ {\alpha }_{\mathrm{Adam}} $为学习率，$ \varepsilon $限制分母不为0，表示校正后数值.

在每次更新$ \boldsymbol{X} $后，如果$ \boldsymbol{X} $满足$ \text{C1} $则$\boldsymbol{X} $不做调整，否则将新的信号矩阵更新为

(19)$ {\boldsymbol{X}}^{\prime}={\boldsymbol{X}}_{0}+\frac{\sqrt{\eta }}{{\left|\left|\boldsymbol{X}-{\boldsymbol{X}}^{\ast }\right|\right|}_{\mathrm{F}}}(\boldsymbol{X}-{\boldsymbol{X}}^{\ast }). $

3.3. 基于梯度下降算法的离散相移矩阵优化

对于给定的信号矩阵$ \boldsymbol{X} $,可以将目标函数重构为

(20)$ \left.\begin{array}{ll}\mathrm{F} 2^{\prime \prime}: & \min _{{{\textit{Θ}}}}\left\|\boldsymbol{H}_{\mathrm{bu}}^{\prime} \boldsymbol{X}-\boldsymbol{S}\right\|_{\mathrm{F}}^2 . \\\text { s.t. } & \mathrm{C} 4: \quad {\theta}_n \in F,\; \forall n=1,2, \cdots, N_{\mathrm{s}} ; \\& \mathrm{C} 7: \quad \boldsymbol{Z}= \boldsymbol{Z}_0 .\end{array}\right\} $

重新定义目标函数为

(21)$ f({{\textit{Θ}}})=\left|\left|{\boldsymbol{H}}_{\mathrm{bu}}\boldsymbol{X}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{\textit{Θ}}}\boldsymbol{G}\boldsymbol{X}-\boldsymbol{S}\right|\right|_{\mathrm{F}}^{2}. $

梯度为

(22)$ \nabla _{{\textit{Θ}}}f({{\textit{Θ}}})=2{\boldsymbol{Z}}^{\mathrm{H}}\boldsymbol{H}_{\mathrm{ru}}^{\mathrm{H}}({\boldsymbol{H}}_{\mathrm{bu}}\boldsymbol{X}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{\textit{Θ}}}\boldsymbol{G}\boldsymbol{X}-\boldsymbol{S}){\boldsymbol{X}}^{\mathrm{H}}{\boldsymbol{G}}^{\mathrm{H}}. $

同理，计算动量估计与梯度平方估计，然后进行偏差校正，最后更新$ {{\textit{Θ}}} $：

(23)$ {{{\textit{Θ}}}}^{t+1}={{{\textit{Θ}}}}^{t}-{\alpha }_{\text{Adam}}\frac{\hat{\boldsymbol{m}}_{{{\textit{Θ}}} }^{t}}{\sqrt{\hat{{\boldsymbol{v}}}_{{{\textit{Θ}}} }^{t}+{\boldsymbol{\varepsilon}} }}. $

须注意的是，在每次更新完相移矩阵后，须将结果投影到离散相移集合上，即

(24)$ \theta_{n}^{\ast }=\arg \min \left| {\theta}-{\hat{{\theta}}}_{n}\right| . $

依次采用Adam优化器来更新波形矩阵与相移矩阵，直到算法收敛.

4. 基于深度强化学习(DRL)联合波形与相移矩阵设计

为了更高效地处理本研究的优化问题，提出DRL算法解决$ \mathrm{F}2 $. 首先采用深度Q网络(deep Q-Network, DQN)算法来处理RIS的离散相移优化问题，如图2所示. 在此算法中，对于给定状态选取某个动作所能获得的值是用深度神经网络来计算的. 同时，采取近端策略优化(proximal policy optimization, PPO)处理信号矩阵的连续优化问题，采用策略梯度，无须求解值函数，能够应对高维、连续动作空间的复杂状态.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 深度神经网络(DNN)

Fig.2 Deep neural network (DNN)

4.1. 基于DRL的联合优化算法

首先将状态空间定义为

(25)$ s=\{{{\textit{Θ}}},{\boldsymbol{H}}_{\mathrm{bu}},{\boldsymbol{H}}_{\mathrm{ru}},\boldsymbol{G},\boldsymbol{X}\}. $

在本研究DRL算法中，DQN用于优化不规则RIS的相移矩阵$ {{\textit{Θ}}} $,每个RIS单元的相位只能从有限的离散集合$ F $中选择，动作空间定义为

(26)$ {A}_{\mathrm{DQN}}^{t}=\left\{{{\boldsymbol{a}}}_{n}=({l}_{n},{\theta}_{n})\left| {l}_{n}\in \{1,2,\cdots ,N_{\mathrm{s}}\},\theta_{n}\in F\right.\right\}. $

式中：$ {{\boldsymbol{a}}}_{n} $表示第$ n $个动作，$ {l}_{n} $为目标单元索引.

PPO算法用于优化基站发射的信号矩阵，首先将$ \boldsymbol{X}\in {\mathbf{C}}^{M\times L} $拼接为实向量$ {\boldsymbol{X}}_{\mathrm{real}}=\left[\begin{array}{l}\mathrm{Re}(\boldsymbol{X})\\\text{Lm}(\boldsymbol{X})\end{array}\right]\in {\mathbf{R}}^{2\times M\times L} $. 而PPO智能体的动作$ {\boldsymbol{a}}_{\mathrm{PPO}}^{t} $定义为对当前信号矩阵的增量调整：$ {\boldsymbol{a}}_{\mathrm{PPO}}^{t}=\Delta {\boldsymbol{X}}_{t}\in {\mathbf{R}}^{2\times M\times L} $，$ \Delta {\boldsymbol{X}}_{t+1}= {\boldsymbol{X}}_{t}+\Delta {\boldsymbol{X}}_{t} $. 动作空间定义为

(27)$ {{A}}_{\mathrm{PPO}}=\{\Delta {\boldsymbol{X}}_{t}\}. $

式中：$ \Delta {\boldsymbol{X}}_{t}={\alpha }_{\mathrm{DQN}}{\nabla }_{\boldsymbol{X}}{L}(\boldsymbol{X},{\boldsymbol{H}}_{\mathrm{bu}},{\boldsymbol{H}}_{\text{ru}},\boldsymbol{G}) $，$ {\alpha }_{\mathrm{DQN}} $为学习率，$ {\nabla }_{\boldsymbol{X}}{L}(\boldsymbol{X},{\boldsymbol{H}}_{\mathrm{bu}},{\boldsymbol{H}}_{\text{ru}},\boldsymbol{G}) $表示当前信号矩阵相对于目标函数的梯度. PPO算法不直接输出动作本身，其动作生成模型是一个多维独立高斯分布：

(28)$ \Delta \boldsymbol{X}\sim {N}\left(\mu ({{\boldsymbol{s}}}_{t}),\text{diag}\left(\left.{\sigma }^{2}({{\boldsymbol{s}}}_{t})\right)\right.\right). $

式中：$ \mu ({{\boldsymbol{s}}}_{t})\in {\mathbf{R}}^{2\times M\times L} $为动作的中心，$ \sigma ({{\boldsymbol{s}}}_{t}) $为标准差.

DQN网络与PPO网络的奖励函数分别为

(29)$ {r}_{\mathrm{DQN}}=-\left|\left|{{{\boldsymbol{H}}^{\prime}}}_{\mathrm{bu}}\boldsymbol{X}-\boldsymbol{S}\right|\right|_{\mathrm{F}}^{2}, $

(30)$ \begin{split}r_{\mathrm{PPO}}=&-\left\|\boldsymbol{H}_{\mathrm{bu}}^{\prime} \boldsymbol{X}-\boldsymbol{S}\right\|_{\mathrm{F}}^2+\partial_1 {I}\left(\left\|\boldsymbol{X}-\boldsymbol{X}^*\right\|_{\mathrm{F}}^2 \leqslant \eta\right)+ \\&\partial_2 {I}\left(P\left(\bar{\theta}_q\right) \geqslant \varGamma\right)+\partial_3 {I}\left(\|\boldsymbol{X}\|_{\mathrm{F}}^2 \leqslant P_{\mathrm{t}}\right) .\end{split} $

式中：$ {I}(\cdot ) $为指示函数；$ {\partial }_{1}、{\partial }_{2}、{\partial }_{3} $为权重系数，用于平衡不同的优化目标.

在DQN中，策略是基于$ Q $值选择动作的，$ Q $函数可以表示为

(31)$ \begin{split}Q({{\boldsymbol{s}}}_{t},{{\boldsymbol{a}}}_{t})= &E\bigg[\sum\limits_{i}^{\mathrm{\infty }}\gamma \cdot \big(-\left|\left|({\boldsymbol{H}}_{\mathrm{bu}}+{\boldsymbol{H}}_{\mathrm{ru}}\boldsymbol{Z}{{{\textit{Θ}}}}_{t+i}\boldsymbol{G}){\boldsymbol{X}}_{t+i}-\right.\right.\\&\left.\left.\boldsymbol{S}\right|\right|_{\mathrm{F}}^{2}\big)\left| {{\boldsymbol{s}}}_{t},{{\boldsymbol{a}}}_{t}\right.\bigg]. \end{split}$

式中：$ {\boldsymbol{a}}_{t} $表示在时间步t时，对相移矩阵的调整.

DQN是一种基于值的算法，即通过$ Q $值来推导最优策略，本研究深度神经网络训练采用$ \varepsilon $-贪婪策略：

(32)$ \begin{split}&{\text{π}}_{\mathrm{DQN}}\left({\textit{Θ}}_t \mid {\boldsymbol{s}}_t\right)=\\&\left\{\begin{array}{ll}1-\varepsilon+\dfrac{\varepsilon}{\left|{A}_{\mathrm{DQN}}\right|}, & {\textit{Θ}}_t=\arg \max _{{\textit{Θ}}} Q\left({\boldsymbol{s}}_t, {\textit{Θ}}\right); \\\dfrac{\varepsilon}{\left|{A}_{\mathrm{DQN}}\right|}, & \text { 其他. }\end{array} \right. \end{split}$

式中：$ \left| {{A}}_{\text{DQN}}\right| $表示动作空间的大小，包含每个RIS单元的相移集合;$ \arg {\text{max}}_{{\textit{Θ}} }Q({{\boldsymbol{s}}}_{t},{{\textit{Θ}}}) $为当前$ Q $函数估计中最优的动作.

在PPO中，策略函数为

(33)$ \begin{split}& {\text{π}}_{\boldsymbol{X}}\left(\Delta \boldsymbol{X}_t \mid {\boldsymbol{s}}_t\right)={P}\left({\boldsymbol{a}}_{\rm{PPO}}^t \mid {\boldsymbol{s}}_t ; \varpi_{\text{π}}\right)= \\& \quad \prod_{i=1}^M \prod_{j=1}^L {N}\left(\Delta \boldsymbol{X}_t^{(i, j)} \mid \mu_{i, j}\left({\boldsymbol{s}}_t\right), \sigma_{i, j}^2\left({\boldsymbol{s}}_t\right)\right) .\end{split} $

式中：$ {\mu }_{i,j} $、$\sigma_{i, j}^2 $分别为策略网络输出的每个元素的均值、方差，$\varpi_{\text{π}} $表示策略网络参数. 这是一个联合高斯策略网络，用于描述在给定状态$ {{\boldsymbol{s}}}_{t} $下，动作$ \Delta {\boldsymbol{X}}_{t} $出现的概率.

DQN中价值函数是通过最大化$ Q $函数得到的，表示在状态$ {{\boldsymbol{s}}}_{t} $下采取最优动作$ {{\boldsymbol{a}}}_{t} $能获得的最大期望累计奖励. 而在PPO中，价值函数$ V({{\boldsymbol{s}}}_{t};{\varpi }_{\mathrm{v}})=$E$ {}_{{{\pi }_{\mathrm{\varpi }}}}\left[\displaystyle\sum\limits_{i=0}^{\mathrm{\infty }}{\gamma }^{i}{r}_{t+i}|{{\boldsymbol{s}}}_{t}\right] $，其中${\varpi }_{\mathrm{v}} $表示价值网络参数.

在本研究中，DQN采用的神经网络模型是近似于$ Q $学习算法中的深度神经网络，该网络结构分别由输入层、3层隐藏层、输出层构成. PPO有2种网络结构，分别为用于生成动作$ {\boldsymbol{a}} $的策略网络和用于评价当前策略下的状态值$ V({\boldsymbol{s}}) $的价值网络. 具体网络结构流程如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 深度强化学习网络架构示意图

Fig.3 Schematic diagram of deep reinforcement learning network architecture

DQN算法流程如下.

1）初始化网络参数$ \varpi $和目标网络参数$ {\varpi }^{-}=\varpi $以及经验回放池$ {D} $.

2）输入当前信道状态信息与信号矩阵$ \boldsymbol{X} $以及不规则RIS相移矩阵$ {{\textit{Θ}}} $到$ Q $网络.

3）根据$ \varepsilon $-贪婪策略，从动作空间中选取动作$ {{\boldsymbol{a}}}_{t}=({l}_{t},{{{\textit{Θ}}}}_{t}) $.

4）执行相应的动作，计算奖励$ {r}_{t} $并获取下一个状态$ {{\boldsymbol{s}}}_{t+1} $.

5）将状态转移$ ({{\boldsymbol{s}}}_{t},{\boldsymbol{a}}_{\mathrm{RIS}}^{t},{r}_{t},{{\boldsymbol{s}}}_{t+1}) $存储到经验回放池$ {D} $中.

6）从经验回放池中随机抽取小批量数据，通过最小化$ Q $值的均方误差更新$ Q $网络参数：

(34)$ \begin{split}L({\varpi }_{{Q}})=& {E}_{{\boldsymbol{s}},{\boldsymbol{a}},{r},{{\boldsymbol{s}}_{t+1}}\colon \mathrm{D}}\Bigg[\bigg({r}_{t}+\gamma \underset{{{\boldsymbol{a}}}^{\prime}}{\max }\;Q({{\boldsymbol{s}}}_{t+1},{{\boldsymbol{a}}}^{\prime};\varpi _{{Q}}^-)-\\& Q({{\boldsymbol{s}}}_{t},{{\boldsymbol{a}}}_{t};{\varpi }_{{Q}})\bigg)^{2}\Bigg]. \end{split}$

7）定期将目标网络参数$ {\varpi }^{-} $设为$ Q $网络的当前参数.

PPO算法流程如下.

1）初始化策略网络参数$ {\varpi }_{\text{π} } $和价值网络参数$ {\varpi }_{\mathrm{v}} $.

2）将当前信道状态$ {\boldsymbol{H}}_{\mathrm{bu}}、{\boldsymbol{H}}_{\text{ru}}、\boldsymbol{G} $和RIS相移矩阵$ {{\textit{Θ}}} $输入到策略网络.

3）策略网络输出一个连续的动作，即信号矩阵$ \boldsymbol{X} $的调整值. 调整信号矩阵$ {\boldsymbol{X}}_{t+1}={\boldsymbol{X}}_{t}+\Delta {\boldsymbol{X}}_{t} $，计算奖励$ {r}_{t} $并记录状态转移.

4）通过以下目标函数优化策略网络：

(35)$ \begin{split}L({\varpi }_{\text{π} })= &{\hat{E}}_{t}\Bigg[\min \Bigg(\frac{{{\text{π}} }_{{{\mathrm{\varpi }}_{\text{π} }}}({{\boldsymbol{s}}}_{t}|{{\boldsymbol{a}}}_{t})}{{{\text{π}} }_{{{\mathrm{\varpi }}_{\text{π} }}\mathrm{old}}({{\boldsymbol{s}}}_{t}|{{\boldsymbol{a}}}_{t})}{A}_{t},\mathrm{clip}\Bigg(\frac{{{\text{π}} }_{{{\mathrm{\varpi }}_{\text{π} }}}({{\boldsymbol{s}}}_{t}|{{\boldsymbol{a}}}_{t})}{{{\text{π}} }_{{{\mathrm{\varpi }}_{\text{π} }}\mathrm{old}}({{\boldsymbol{s}}}_{t}|{{\boldsymbol{a}}}_{t})},\\&{1}-\varepsilon {,1+}\varepsilon \Bigg){A}_{t}\Bigg)\Bigg].\\[-5pt]\end{split} $

5）通过最小化以下损失函数更新价值网络：

(36)$ {L}^{\mathrm{VF}}({\varpi }_{\mathrm{v}})={\hat{E}}_{t}\left[{\left({V}_{{{\varpi }_{\mathrm{v}}}}({{\boldsymbol{s}}}_{t})-{R}_{t}\right)}^{2}\right] .$

5. 实验仿真

为了验证所提算法及方案的有效性，对不同算法(Adam优化器结合梯度下降法(算法2)与基于DRL的算法(算法3))下的ISAC系统性能进行仿真. 通信用户随机分布在一个$ 100\times 100 $ $ {{\mathrm{m}}}^{2} $的通信区域，感知目标Q位于$ \left(-{30}^{\circ },{30}^{\circ }\right) $边缘位置上. 在基站与用户的LoS链路上，信道被建模为莱斯衰落信道，而包含不规则RIS的NLoS链路信道被建模为瑞利衰落信道，其路损模型分别为$ 32+36 \times \mathrm{\lg }\;d $与$ 32+24 \times \mathrm{\lg }\;d $，其余仿真参数设置如表1所示.

表 1 不规则RIS辅助通感一体化系统仿真参数设置

Tab.1 Simulation parameter settings of irregular RIS-assisted integrated sensing and communication system

仿真参数	取值
用户数量$ K $	3
感知目标数量Q	2
基站天线数量$ M $/根	8
系统带宽$ B/\text{MHz} $	10
总发射功率$ {P}_{\mathrm{t}}/\text{dBm} $	25
噪声功率$ {\sigma }^{2}/\text{dBm} $	−170
不规则RIS元件总数$ N_{\mathrm{s}} $	128
最小波束图增益$ \varGamma /\mathrm{dBm} $	10
误差范围$ \eta $	0.01
初始温度$ {T}_{0} $	100
温度衰减因子$ a $	0.9
一阶矩估计指数衰减$ {\beta }_{1} $	0.9
二阶矩估计指数衰减$ {\beta }_{2} $	0.999
迭代次数$ {{\mathrm{iter}}}_{\mathrm{Adam}} $	400
数值稳定因子$ \varepsilon $	0.00 000 001
学习率$ {\alpha }_{\mathrm{SA}}/{\alpha }_{\mathrm{DQN}}/{\alpha }_{\mathrm{PPO}} $	0.001/0.001/0.0003
折扣因子$ \gamma $	0.99
经验回放池容量$ {D} $	100 000
探索率$ {\varepsilon }_{\mathrm{DQN}} $	1.00~0.01
裁剪范围$ {\varepsilon }_{\mathrm{PPO}} $	0.2
训练回合数	100
每回合步骤数	8 000

新窗口打开| 下载CSV

为了得到不规则RIS的拓扑结构，设置固定的基站发射功率为20 dBm. 考虑一个小型通信系统，其中$ M=4,\;N_{\mathrm{s}}=16,\;N_{\mathrm{t}}=8 $. 通过穷举算法计算不同不规则RIS元件稀疏度下的用户WSR，实验结果表明，当不规则RIS稀疏度约为50%时，得到的WSR是优于其他方案的，所以在正式实验中设置$ N_{\mathrm{t}}=64 $. 但穷举算法的复杂度极高，采用SA算法计算不同拓扑结构下对应用户的WSR，从而找到次优的不规则拓扑结构. 如图4所示，展示了4种不同拓扑结构下对应的用户WSR，其中黑色代表选中(即不规则RIS反射单元开启)；白色代表未选中(即不规则RIS反射单元关闭). 可以看出，图4 (c)部署方案得到的WSR是高于其他方案的，所以采用图4 (c)的拓扑结构作为本研究不规则RIS的拓扑结构部署方案.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 不同RIS拓扑部署结构下对应的加权和速率图

Fig.4 Weighted sum rate under different RIS topology deployment structures

为了理解所提算法的可行性，在不同批量大小情况下进行仿真研究，结果如图5所示. 其中，E为训练回合数，$ {R}_{\mathrm{I}} $为即时奖励. 当批量大小为3 000时，即时奖励整体较高，且曲线波动相对较小，表明在较大的批量下，智能体的梯度更新较准确，奖励增长稳定. 当批量大小为1 000时，即时奖励整体较低且波动幅度较大，表明在小批量的情况下，由于样本数较少，智能体在更新策略时，梯度估计的随机性增加，学习过程中的噪声更大，导致奖励表现不稳定.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 不同批量大小下的即时奖励曲线图

Fig.5 Instantaneous reward curves for different batch sizes

为了更好地理解算法3，研究不同发射功率（10、20、30 dBm）对即时奖励的影响，结果如图6、7所示，展示了不同功率条件下，即时奖励与平均奖励随步长的变化情况. 其中，S为每回合步骤数，$ {R}_{\mathrm{A}} $为平均奖励. 可以看出，基站功率越大，2种奖励总体上呈现上升趋势. 由于智能体在环境中可以获得更好的信号质量和覆盖，尤其是功率为30 dBm时，其奖励整体高于其余2种功率方案，说明该算法对发射功率的敏感性较高. 图6中，在步长4 000后，3条曲线波动幅度大幅减低，但低功率方案下的曲线波动较大且奖励值相对较低，这表明随着训练的进行，智能体能逐渐学习如何得到更高的即时奖励，但在功率较低时，其难以获得一致的高奖励，因而表现出较大波动.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同传输功率下的即时奖励曲线图

Fig.6 Instantaneous reward curves under different transmission powers

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同基站传输功率下的平均奖励曲线图

Fig.7 Average reward curves under different base station transmission powers

为了验证所提算法的可行性，假设CSI是完全已知的，如图8所示，展示算法2、3在不同量化级别数量情况下的收敛情况. 其中，M为目标函数值，I为迭代次数. 当b=1时，不规则RIS由于在更大的表面上选择了最佳的单元布局，可以更灵活地控制信道的空间自由度，这种布局的灵活性允许不规则RIS在用户之间形成更清晰的信号分离，从而有效降低MUI. 当b=4时，2种算法的MUI大幅降低，但不规则RIS与传统RIS之间的差异在进一步缩小，这是由于量化比特数的增加使得传统RIS的相移控制精度提升，使得它在MUI抑制方面也有所改善. 但由于规则RIS仍然受到单元布局的限制，相较不规则RIS，其MUI抑制效果会略差一些. 此外，不论何种量化比特数，算法2、3总能在迭代4至5次时达到收敛，且可以看出算法3在降低用户间干扰的效果上是略高于算法2的，这也说明了本研究所提算法的有效性.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 所提算法在不同量化级别下的多用户干扰变化情况图

Fig.8 Multi-user interference variation plot of proposed algorithm under different quantization levels

本研究的目标函数是最小化MUI，为了展示算法在ISAC通信模型中的优越性，将算法2和算法3与文献[9]中的半正定松弛(semidefinite relaxation, SDR)方案进行对比. 如图9所示，展示了所提算法在不同RIS辅助下系统加权和速率随基站功率的变化图. 其中，$ {R}_{\mathrm{S}} $为系统加权和速率，$ {P}_{\mathrm{t}} $为基站功率. DRL算法(算法3)具有更强的全局搜索能力，与算法2比较，能够更智能地在动态环境中对相移和信号矩阵进行优化. 并且，算法3可以更高效地学习和适应不同状态下的信道变化及干扰，进而达到更高的加权和速率. SDR适合联合优化连续变量，但须同时处理预编码矩阵、离散相移以及常数模约束，并且松弛后通过随机化映射到离散值，导致性能损失显著. 在给定功率为10 dBm的条件下，算法3方案的WSR较传统方案的提高了近13.3%.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 所提算法在不同RIS辅助下的系统加权和速率随基站功率$ {P}_{\mathrm{t}} $变化图

Fig.9 Graph of system weighted sum rate versus base station power $ {P}_{\mathrm{t}} $ under different RIS-assisted scenarios using proposed algorithm

此外，还研究了当b=4时，不同RIS类型下的和速率随传输信噪比SNR的变化情况，如图10所示. 其中，$ R $为系统和速率，$ {S}_{\mathrm{N}} $为基站信噪比. 可以看出，当SNR逐渐增大时，不规则RIS与传统RIS方案相比更具优势. $ N_{\mathrm{t}} $个单元的不规则RIS能够实现$ N_{\mathrm{s}} $个元件数量的空间分集优势. 通过精准地对不规则RIS进行稀疏部署，增加了接收信号功率，从而提高了系统容量. 验证了DRL算法策略能够更有效地适应信道环境的变化，在高信噪比情况下仍能持续提升用户和速率.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 所提算法在不同RIS辅助下的系统和速率随基站信噪比变化图

Fig.10 Graph of system sum rate versus base station signal-to-noise ratio under different RIS-assisted scenarios using proposed algorithm

为了比较传统RIS与不规则RIS的性能差异，假设2种结构均部署在同一尺寸、网格划分相同($ N_{\mathrm{s}}=128 $)的RIS面板上，激活单元数量一致. 传统RIS采用规则密集排列方式，而不规则RIS通过SA算法选择稀疏分布位置. 当量化比特数b=1时，RIS元件数量与系统加权和速率之间的关系如图11所示. 其中，$ N $为RIS元件数量. 随着$ N $增大，系统容量也逐渐上升，而不规则RIS的总体速率是远高于传统RIS方案的. 此外，在RIS元件数量高于80时，2种方案的差距逐渐减小并都趋于$ N_{\mathrm{s}}=128 $的传统RIS策略. 因此进一步增加元件数量可能带来边际效益递减，在实际应用中应考虑元件数量增加带来的成本问题，并且不规则RIS带来的额外自由度可以增加硬件设计时的可拓展性.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 所提算法在不同RIS辅助下的系统加权和速率随RIS元件数量变化图

Fig.11 Graph of system weighted sum rate versus RIS element number under different RIS assistance using proposed algorithm

如图12所示，展示了在笛卡尔坐标系下，不同方案下的波束强度图. 其中，$ {\mathit{\Phi }}_{\mathrm{Q}} $为角度，B为基站波束强度. 感知目标位于$ -{30}^{\circ } $与$ {30}^{\circ } $边缘位置上. 可以看出，由于通信功能的加入，2种算法的波束主瓣都略低于只有感知部分的方案，但算法2的主瓣强度显然更低. 此外，与算法3方案相比，算法2方案对旁瓣的抑制能力较弱，出现了严重的能量泄露，这不仅会干扰非目标方向上的其他信号，还会使目标方向的信号强度减弱. 因此，本研究算法（算法3）更容易获得较强的主瓣波束，在通感一体化系统中具有可行性.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 不同方案下的基站波束强度图

Fig.12 Base station beam intensity maps under different schemes

6. 结　语

引入不规则RIS来提高通感一体化系统的性能. 采用模拟退火算法解决拓扑矩阵的稀疏部署问题，然后分别使用Adam优化器结合梯度下降法以及DRL算法联合处理恒模波形及RIS相移设计，解决了在感知波束图增益约束以及不规则RIS拓扑矩阵约束下的最小化多用户间干扰问题. 仿真结果显示，相较于传统方案，所提方案有效提高了ISAC系统性能. 本研究考虑的通信用户是处于静止或缓慢移动状态的，并未考虑用户处于快速移动时的场景，因此，所提算法能否适用于用户移动场景，有待进一步研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CUI Z, HU J, CHENG J, et al

Multi-domain NOMA for ISAC: utilizing the DOF in the delay-Doppler domain

[J]. IEEE Communications Letters, 2022, 27 (2): 726- 730

DOI:10.1109/lcomm.2022.3228873 [本文引用: 1]

[2]

PIN TAN D K, HE J, LI Y, et al. Integrated sensing and communication in 6G: motivations, use cases, requirements, challenges and future directions [C]// 1st IEEE International Online Symposium on Joint Communications and Sensing. Dresden: IEEE, 2021: 1–6.

[本文引用: 1]

[3]

WU Q, ZHANG R

Beamforming optimization for wireless network aided by intelligent reflecting surface with discrete phase shifts

[J]. IEEE Transactions on Communications, 2020, 68 (3): 1838- 1851

DOI:10.1109/TCOMM.2019.2958916 [本文引用: 1]

[4]

虞湘宾, 于凯, 钱盼盼

面向6G移动通信的可重构智能反射表面技术研究综述

[J]. 南京航空航天大学学报, 2023, 55 (5): 745- 756

DOI:10.16356/j.1005-2615.2023.05.001

YU Xiangbin, YU Kai, QIAN Panpan

Overview of reconfigurable intelligent surface for 6G mobile communication

[J]. Journal of Nanjing University of Aeronautics and Astronautics, 2023, 55 (5): 745- 756

DOI:10.16356/j.1005-2615.2023.05.001

[5]

DI B, ZHANG H, SONG L, et al

Hybrid beamforming for reconfigurable intelligent surface based multi-user communications: achievable rates with limited discrete phase shifts

[J]. IEEE Journal on Selected Areas in Communications, 2020, 38 (8): 1809- 1822

DOI:10.1109/JSAC.2020.3000813 [本文引用: 1]

[6]

NASSAR F, SINGH K, PRAKRIYA S, et al. Robust beamformer design for backscatter-enabled RIS-assisted NOMA ISAC [C]// IEEE International Conference on Communications Workshops. Denver: IEEE, 2024: 608–613.

[本文引用: 1]

[7]

CHEN J, WU K, NIU J, et al

Spectral and energy efficient waveform design for RIS-assisted ISAC

[J]. IEEE Transactions on Communications, 2025, 73 (1): 158- 172

DOI:10.1109/TCOMM.2024.3435030 [本文引用: 1]

[8]

ZHANG S, XIAO Z, LIU R, et al

Multipath exploitation for fluctuating target detection in RIS-assisted ISAC systems

[J]. IEEE Wireless Communications Letters, 2024, 13 (9): 2392- 2396

DOI:10.1109/LWC.2024.3416453 [本文引用: 1]

[9]

CHEN K, QI C, DOBRE O A, et al

Simultaneous beam training and target sensing in ISAC systems with RIS

[J]. IEEE Transactions on Wireless Communications, 2024, 23 (4): 2696- 2710

DOI:10.1109/TWC.2023.3302319 [本文引用: 2]

[10]

LYU W, XIU Y, YANG S, et al

Energy-efficient cell-free network assisted by hybrid RISs

[J]. IEEE Wireless Communications Letters, 2023, 12 (4): 718- 722

DOI:10.1109/LWC.2023.3241644 [本文引用: 1]

[11]

ZHU Q, LI M, LIU R, et al

Cramér-Rao bound optimization for active RIS-empowered ISAC systems

[J]. IEEE Transactions on Wireless Communications, 2024, 23 (9): 11723- 11736

DOI:10.1109/TWC.2024.3384501 [本文引用: 1]

[12]

ZHU Q, LI M, LIU R, et al

Joint transceiver beamforming and reflecting design for active RIS-aided ISAC systems

[J]. IEEE Transactions on Vehicular Technology, 2023, 72 (7): 9636- 9640

DOI:10.1109/TVT.2023.3249752 [本文引用: 1]

[13]

ZHANG Y, REN H, PAN C, et al

Secure wireless communication in active RIS-assisted DFRC systems

[J]. IEEE Transactions on Vehicular Technology, 2025, 74 (1): 626- 640

DOI:10.1109/TVT.2024.3438151 [本文引用: 1]

[14]

褚宏云, 杨梦瑶, 黄航, 等

混合智能反射面辅助的通信感知一体化: 高能效波束成形设计

[J]. 电子与信息学报, 2024, 46 (6): 2462- 2469

DOI:10.11999/JEIT230699 [本文引用: 1]

CHU Hongyun, YANG Mengyao, HUANG Hang, et al

Hybrid reconfigurable intelligent surface assisted integrated sensing and communication: energy efficient beamforming design

[J]. Journal of Electronics and Information Technology, 2024, 46 (6): 2462- 2469

DOI:10.11999/JEIT230699 [本文引用: 1]

[15]

SU R, DAI L, TAN J, et al

Capacity enhancement for reconfigurable intelligent surface-aided wireless network: from regular array to irregular array

[J]. IEEE Transactions on Vehicular Technology, 2023, 72 (5): 6392- 6403

DOI:10.1109/TVT.2023.3236179 [本文引用: 1]

[16]

EL-MEADAWY S A, ZHU P, KHALLAF H S

Multilayer irregular RIS-assisted wireless communication system performance optimization

[J]. IEEE Internet of Things Journal, 2025, 12 (1): 931- 949

[本文引用: 1]

[17]

LIU Q, ZHU Y, LI M, et al

DRL-based secrecy rate optimization for RIS-assisted secure ISAC systems

[J]. IEEE Transactions on Vehicular Technology, 2023, 72 (12): 16871- 16875

DOI:10.1109/TVT.2023.3297602 [本文引用: 1]

[18]

ZHU Z, GONG M, CHU Z, et al. DRL-based STAR-RIS-assisted ISAC secure communications [C]// International Conference on Ubiquitous Communication. Xi’an: IEEE, 2023: 127–132.

[本文引用: 1]

[19]

MOHAMMED S K, LARSSON E G

Per-antenna constant envelope precoding for large multi-user MIMO systems

[J]. IEEE Transactions on Communications, 2013, 61 (3): 1059- 1071

DOI:10.1109/TCOMM.2013.012913.110827 [本文引用: 2]

[20]

LIU F, ZHOU L, MASOUROS C, et al

Toward dual-functional radar-communication systems: optimal waveform design

[J]. IEEE Transactions on Signal Processing, 2018, 66 (16): 4264- 4279

DOI:10.1109/TSP.2018.2847648 [本文引用: 1]

[21]

STOICA P, LI J, XIE Y

On probing signal design for MIMO radar

[J]. IEEE Transactions on Signal Processing, 2007, 55 (8): 4151- 4161

DOI:10.1109/TSP.2007.894398 [本文引用: 2]

[22]

HU C, DAI L, HAN S, et al

Two-timescale channel estimation for reconfigurable intelligent surface aided wireless communications

[J]. IEEE Transactions on Communications, 2021, 69 (11): 7736- 7747

DOI:10.1109/TCOMM.2021.3072729 [本文引用: 1]

[23]

KIRKPATRICK S, GELATT C D Jr, VECCHI M P

Optimization by simulated annealing

[J]. Science, 1983, 220 (4598): 671- 680

DOI:10.1126/science.220.4598.671 [本文引用: 1]

[24]

HAJEK B

Cooling schedules for optimal annealing

[J]. Mathematics of Operations Research, 1988, 13 (2): 311- 329

DOI:10.1007/978-1-4612-4808-8_42 [本文引用: 1]

[25]

SHI Y, YANG K, JIANG T, et al

Communication-efficient edge AI: algorithms and systems

[J]. IEEE Communications Surveys and Tutorials, 2020, 22 (4): 2167- 2191

DOI:10.1109/COMST.2020.3007787 [本文引用: 1]

[26]

SURYAWAN F F, KISTIJANTORO A I. Enhancing communication efficiency in Adam optimizer for distributed deep learning [C]// 10th International Conference on Advanced Informatics: Concept, Theory and Application. Lombok: IEEE, 2023: 1–5.

[本文引用: 1]

Multi-domain NOMA for ISAC: utilizing the DOF in the delay-Doppler domain

2022

... 随着5G技术的成熟和6G时代的到来，现代无线通信系统的需求正在不断增长^[1]. 这意味着不仅要传输数据，还要在复杂、多变的环境中实时感知和分析周围环境信息^[2]. 在此背景下，通信感知一体化（integrated sensing and communication， ISAC）技术成为无线通信领域的前沿研究方向. ...

Beamforming optimization for wireless network aided by intelligent reflecting surface with discrete phase shifts

2020

... 可重构智能表面(reconfigurable intelligent surface, RIS)是一种可编程的人工表面，由大量低功耗、可调相的元件组成^[3-5]. 目前已经有大量关于RIS在通感一体化系统中的应用研究. Nassar等^[6]提出针对支持反向散射的混合RIS辅助非正交多址(non-orthogonal multiple access, NOMA)网络的稳健波束成形设计. Chen等^[7]在通信服务质量（quality of service， QoS）的约束下，分别构建了不同的优化问题. Zhang等^[8]设计联合波束成形方法，优化RIS反射和信号发射性能. Chen等^[9]研究RIS辅助ISAC系统，并提出同时波束训练与目标感知方案. ...

面向6G移动通信的可重构智能反射表面技术研究综述

2023

面向6G移动通信的可重构智能反射表面技术研究综述

2023

Hybrid beamforming for reconfigurable intelligent surface based multi-user communications: achievable rates with limited discrete phase shifts

2020

Spectral and energy efficient waveform design for RIS-assisted ISAC

2025

Multipath exploitation for fluctuating target detection in RIS-assisted ISAC systems

2024

Simultaneous beam training and target sensing in ISAC systems with RIS

2024

... 本研究的目标函数是最小化MUI，为了展示算法在ISAC通信模型中的优越性，将算法2和算法3与文献[9]中的半正定松弛(semidefinite relaxation, SDR)方案进行对比. 如图9所示，展示了所提算法在不同RIS辅助下系统加权和速率随基站功率的变化图. 其中，

$ {R}_{\mathrm{S}} $

为系统加权和速率，

$ {P}_{\mathrm{t}} $

为基站功率. DRL算法(算法3)具有更强的全局搜索能力，与算法2比较，能够更智能地在动态环境中对相移和信号矩阵进行优化. 并且，算法3可以更高效地学习和适应不同状态下的信道变化及干扰，进而达到更高的加权和速率. SDR适合联合优化连续变量，但须同时处理预编码矩阵、离散相移以及常数模约束，并且松弛后通过随机化映射到离散值，导致性能损失显著. 在给定功率为10 dBm的条件下，算法3方案的WSR较传统方案的提高了近13.3%. ...

Energy-efficient cell-free network assisted by hybrid RISs

2023

... 单纯的无源RIS由于乘性衰落较大或在信号弱的环境下，可能无法充分发挥其作用^[10]，因此有源RIS的研究越来越受到关注. Zhu等^[11]研究主动RIS增强的ISAC系统并以Cramér-Rao界来衡量感知性能. Zhu等^[12]结合分块坐标下降、Dinkelbach变换和最大化-最小化技术，研究主动RIS辅助的ISAC系统. Zhang等^[13]研究具备有源可重构智能表面和潜在窃听者的双功能雷达和通信系统. 褚宏云等^[14]提出基于级联深度学习网络的求解算法，以RIS辅助ISAC网络能量效率最大化为目标，探究数据传输速率与能耗之间的内在关联. ...

Cramér-Rao bound optimization for active RIS-empowered ISAC systems

2024

Joint transceiver beamforming and reflecting design for active RIS-aided ISAC systems

2023

Secure wireless communication in active RIS-assisted DFRC systems

2025

混合智能反射面辅助的通信感知一体化: 高能效波束成形设计

2024

混合智能反射面辅助的通信感知一体化: 高能效波束成形设计

2024

Capacity enhancement for reconfigurable intelligent surface-aided wireless network: from regular array to irregular array

2023

... 上述研究都在探讨有源RIS对通感一体化系统性能的影响，但无论是混合RIS还是有源RIS，当基站传输功率过高时，在放大信号的同时，不仅会引起功耗提高，还会使系统能效降低. 不规则RIS在反射单元部署可行的情况下，给系统带来额外的空间自由度. Su等^[15]提出的不规则RIS在反射面元件数量一定的情况下能够提高系统容量. El-Meadawy等^[16]提出新的多层不规则RIS(multi-layer irregular reconfigurable intelligent surface, MLI-RIS)架构，并针对其设计优化框架. 此外，由于传统优化算法在高维空间中易于陷入局部最优，深度强化学习(deep reinforcement learning , DRL)能更好地探索和开发更优解. Liu等^[17]采用DRL算法，研究在RIS辅助的ISAC系统中的物理层安全性的问题. Zhu等^[18]提出应用2种DRL算法，解决复杂的非凸问题，最大化系统的长期效益. ...

Multilayer irregular RIS-assisted wireless communication system performance optimization

2025

DRL-based secrecy rate optimization for RIS-assisted secure ISAC systems

2023

Per-antenna constant envelope precoding for large multi-user MIMO systems

2013

... MUI能量直接影响用户的可达和速率，第

$ k $

个用户的信干噪比(signal to interference plus noise ratio, SINR)^[19]为 ...

... 当星座符号的能量固定时，最小化MUI能量与最大化和速率密切相关^[19]，根据文献[20]，本研究将MUI能量作为衡量通信性能的指标. ...

Toward dual-functional radar-communication systems: optimal waveform design

2018

... 当星座符号的能量固定时，最小化MUI能量与最大化和速率密切相关^[19]，根据文献[20]，本研究将MUI能量作为衡量通信性能的指标. ...

On probing signal design for MIMO radar

2007

... 期望的雷达波束协方差矩阵表达式^[21] 如下： ...

... 感知波束图增益定义为^[21] ...

Two-timescale channel estimation for reconfigurable intelligent surface aided wireless communications

2021

... 根据文献[22]，求解

$ \mathrm{F}1 $

需要RIS所有网格点的完整通道状态信息(channel state information， CSI)，获取CSI的传统方法会带来较高的导频开销. 然而，由于BS-RIS信道协方差矩阵长时间不变，RIS拓扑可暂时固定. 本研究先采取模拟退火算法^[23]来处理不规则RIS的拓扑矩阵，将原问题转换为具有给定拓扑

$ {\boldsymbol{Z}}_{0} $

的问题

$ \mathrm{F}2 $

: ...

Optimization by simulated annealing

1983

... 根据文献[22]，求解

$ \mathrm{F}1 $

$ {\boldsymbol{Z}}_{0} $

的问题

$ \mathrm{F}2 $

: ...

Cooling schedules for optimal annealing

1988

... 求解

$ \mathrm{F}1 $

的模拟退火算法(simulated annealing, SA)^[24]流程如下. ...

Communication-efficient edge AI: algorithms and systems

2020

... 在本研究复杂的优化场景下，首先采用梯度下降法^[25]结合Adam优化器^[26]来处理上述子问题. 将目标函数改写成 ...

〈

〉