| 用户数量$ K $ | 3 |
| 感知目标数量Q | 2 |
| 基站天线数量$ M $/根 | 8 |
| 系统带宽$ B/\text{MHz} $ | 10 |
| 总发射功率$ {P}_{\mathrm{t}}/\text{dBm} $ | 25 |
| 噪声功率$ {\sigma }^{2}/\text{dBm} $ | −170 |
| 不规则RIS元件总数$ N_{\mathrm{s}} $ | 128 |
| 最小波束图增益$ \varGamma /\mathrm{dBm} $ | 10 |
| 误差范围$ \eta $ | 0.01 |
| 初始温度$ {T}_{0} $ | 100 |
| 温度衰减因子$ a $ | 0.9 |
| 一阶矩估计指数衰减$ {\beta }_{1} $ | 0.9 |
| 二阶矩估计指数衰减$ {\beta }_{2} $ | 0.999 |
| 迭代次数$ {{\mathrm{iter}}}_{\mathrm{Adam}} $ | 400 |
| 数值稳定因子$ \varepsilon $ | 0.00 000 001 |
| 学习率$ {\alpha }_{\mathrm{SA}}/{\alpha }_{\mathrm{DQN}}/{\alpha }_{\mathrm{PPO}} $ | 0.001/0.001/0.0003 |
| 折扣因子$ \gamma $ | 0.99 |
| 经验回放池容量$ {D} $ | 100 000 |
| 探索率$ {\varepsilon }_{\mathrm{DQN}} $ | 1.00~0.01 |
| 裁剪范围$ {\varepsilon }_{\mathrm{PPO}} $ | 0.2 |
| 训练回合数 | 100 |
| 每回合步骤数 | 8 000 |