浙江大学学报(工学版), 2024, 58(9): 1781-1789 doi: 10.3785/j.issn.1008-973X.2024.09.003

计算机与控制工程

车联网中基于三方Stackelberg博弈的动态多媒体定价方案

张海波,, 王新月, 王冬宇, 刘富

1. 重庆邮电大学 通信与信息工程学院,重庆 400065

2. 北京邮电大学 人工智能学院,北京 100876

3. 重庆市城市照明中心,重庆 400023

Dynamic multimedia pricing scheme based on three-party Stackelberg game in Internet of vehicles

ZHANG Haibo,, WANG Xinyue, WANG Dongyu, LIU Fu

1. School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

2. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China

3. Chongqing Urban Lighting Center, Chongqing 400023, China

收稿日期: 2023-05-24  

基金资助: 国家自然科学基金资助项目(62271094);长江学者和创新团队发展计划基金资助项目(IRT16R72);重庆市留创计划创新类资助项目(cx2020059).

Received: 2023-05-24  

Fund supported: 国家自然科学基金资助项目(62271094);长江学者和创新团队发展计划基金资助项目(IRT16R72);重庆市留创计划创新类资助项目(cx2020059).

作者简介 About authors

张海波(1979—),男,副教授,博士,从事车联网研究.orcid.org/0000-0003-2719-9956.E-mail:zhanghb@cqupt.edu.cn , E-mail:zhanghb@cqupt.edu.cn

摘要

在当前车联网的应用场景下,中继车辆数据转发的积极性低下与存储空间有限,导致用户体验质量(QoE)降低,为此提出基于三方Stackelberg博弈的动态多媒体定价方案. 为了激励中继车辆参与转发多媒体内容,提出多媒体内容定价框架,其中中继车辆获得全额佣金后向路侧单元(RSU)支付部分佣金. 设计基于Stackelberg博弈的动态定价模型,根据中继车辆、用户车辆与RSU三方的存储空间利用率、内容数据大小和成本因素,建立各自的效用函数,并将其转化为三方四阶段Stackelberg定价模型. 通过反向归纳法证明纳什均衡的存在,实现三方之间的动态定价以得到各自最优策略. 仿真结果表明,所提方案有效解决了中继车辆存储空间过载问题,并提高了中继车辆积极性,且在提升用户QoE方面较传统方案具有优势.

关键词: 车联网(IoV) ; 动态定价 ; Stackelberg博弈 ; QoE ; 反向归纳法

Abstract

The user quality of experience (QoE) is reduced due to the low enthusiasm of the relay vehicle data forwarding and the limited storage space in the current Internet of vehicles (IoV) application scenarios. Thus, a dynamic multimedia pricing scheme based on the three-party Stackelberg game was proposed. Aiming at incentivizing relay vehicles to participate in forwarding multimedia content, a new multimedia content pricing framework was proposed, in which the relay vehicle received a full commission and then paid a partial commission to the roadside unit (RSU). A dynamic pricing model based on Stackelberg game was designed to establish a utility function, which was based on the storage space utilization, the content data size and the cost of the relay vehicle, the user vehicle and the RSU. The utility function was transformed into a three-party, four-stage Stackelberg pricing model. The existence of the Nash equilibrium solution was proved using backward induction technique, and the dynamic pricing process among the three parties was finally realized to achieve their respective optimal strategies. The simulation results showed that the proposed scheme effectively solved the problem of overloaded storage space in the relay vehicle and improved the enthusiasm of the relay vehicle, and it had advantages over the traditional scheme in improving user QoE.

Keywords: Internet of vehicles (IoV) ; dynamic pricing ; Stackelberg game ; QoE ; backward induction technique

PDF (1519KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张海波, 王新月, 王冬宇, 刘富. 车联网中基于三方Stackelberg博弈的动态多媒体定价方案. 浙江大学学报(工学版)[J], 2024, 58(9): 1781-1789 doi:10.3785/j.issn.1008-973X.2024.09.003

ZHANG Haibo, WANG Xinyue, WANG Dongyu, LIU Fu. Dynamic multimedia pricing scheme based on three-party Stackelberg game in Internet of vehicles. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(9): 1781-1789 doi:10.3785/j.issn.1008-973X.2024.09.003

随着车辆通信网络飞速发展,智能交通系统[1](intelligent transportation systems, ITS)通过车联网(Internet of vehicles, IoV)中的车辆与基础设施(vehicle to infrastructure, V2I)和车与车(vehicle to vehicle, V2V)的通信机制[2],实现了车辆和路边接入点(access point, AP)之间的自主数据交换[3]. 在此网络上,用户车辆对体验质量(quality of experience, QoE)[4]的要求的提高,如何均衡车辆和基础设施间的利益,以满足更高的计算和存储需求,成为研究的关键.

目前,国际电信联盟[5]将用户的QoE视为用户主观感知的服务满意度. Mustafa等[6-8]提出基于机器学习的模型,制定相应的目标函数最大化QoE,以满足更多用户的需求. Zhang等[9]通过考虑相邻接入点信息和可变比特率,有效减少了切换延迟和服务中断. Li等[10]通过优化边缘服务器缓存来减轻基站负载,同时保持高质量的用户QoE. 但现有研究多从用户角度出发,未全面考虑系统模型对QoE的影响,且缺乏定价机制可能导致资源滥用.

为了更好地均衡系统模型中的效益,已有研究结合QoE和经济定价提出智能定价模型,旨在避免车辆过度追求高于实际所需的服务,选择最佳满足需求的服务[11]. Mitra等[12]为了解决系统效益最大化的问题,提出智能市场定价、预期容量定价和有效带宽定价等方案. Ramamooryhy等[13]提出用户偏好感知多媒体定价模型,显著提升了用户效用. Ramamooryhy[14]提出智能媒体定价方案,采用QoE而非传统二进制数据流量定价,通过Stackelberg博弈确定最优质量分配价格,以满足用户的QoE需求. 以上方案仅考虑了基础设施与用户间的信息交互,忽略了车辆与基础设施间的通信盲区问题.

针对上述问题,Deng等[15-17]提出基于博弈的合作激励方案,为每个参与者达到最佳定价策略,不过,上述方案均未考虑数据包的大小以及自身存储空间受限因素,导致结果存有一定偏差. Hui等[18] 提出的合作博弈中继选择定价方案提升了吞吐量和传输性能,但未考虑中继车辆存储空间有限的实际问题. Xiong等[19-20]提出的方案使得节点的收益根据其剩余存储空间进行调整,缓解存储压力,但对用户QoE提升有限. Ramamooryhy等[21]提出QoE驱动的车间通信定价方案,该方案采用三方Stackelberg博弈模型,引入中继车辆帮助基础设施转发多媒体内容给远程用户车辆,中继车辆较基础设施更接近用户车辆,能解决通信盲区问题,但因收益有限,中继车辆的数据转发积极性并不高,进而一定程度上影响了用户的QoE.

针对未考虑中继车辆存储空间有限与数据转发积极性低下而导致用户车辆QoE降低的问题,本研究提出基于三方Stackelberg博弈的动态多媒体定价方案(dynamic multimedia pricing scheme, DMPS). 构建基于路侧单元(roadside unit, RSU)、中继车辆和用户车辆三方之间的多媒体内容定价框架,激励中继车辆参与转发内容. 设计基于Stackelberg博弈的动态定价模型,建立三方实体的效用函数并将其转化为四阶段Stackelberg博弈定价模型,采用反向归纳法达到纳什均衡得到各自最优策略.

1. 系统模型

1.1. 通信模型

假设车辆进入RSU的通信范围的数量遵循泊松分布. 如图1所示,车辆以速度$v$进入RSU的通信范围内进行内容共享,RSU覆盖范围内的车辆被视为处于稳定状态,其中每辆车的速度保持相同且稳定,这种情况下车辆相对静止,且速度未发生改变,因而不考虑车辆的速度与车间距离.

图 1

图 1   IoV通信模型

Fig.1   IoV communication model


在进行V2I和V2V通信时,无线信号在传输过程中可能会存在阴影衰落、多径衰落、路径损失等问题,因此上、下行链路的传输速率会受到影响,故无线数据传输速率表达式如下:

$ r = B\;{\log _2}\;\left( {1+{{Ph}}/{{{N_0}}}} \right). $

式中:$B$表示信道带宽,$P$表示信道内传输信号的平均功率,${N_0}$表示信道内部的高斯噪声功率,$h$表示信道增益.

1.2. 网络模型

图2所示,在一个RSU通信覆盖范围内,RSU、中继车辆与用户车辆之间通过定价关系进行三方交互. 若用户车辆想要购买多媒体内容${d_f}$(其中下标$f$表示不同的多媒体内容),须向RSU发送相应请求;RSU接收到用户车辆的请求后将${d_f}$发送给中继车辆;中继车辆利用自己的储存空间缓存${d_f}$并与其附近发送请求的用户车辆进行数据共享. 由于与用户车辆共享须消耗成本,用户车辆得到${d_f}$后须给中继车辆支付佣金,同时中继车辆在收到佣金之后须向RSU支付相应比例$\varepsilon $的服务费用.

图 2

图 2   三方博弈模型

Fig.2   Three-party game model


2. 基于三方的DMPS设计

本研究所提出的系统模型中有3个实体,分别为RSU、中继车辆和用户车辆. 通过引入DMPS,系统中的参与者动态调整自己策略的过程被描述为三方博弈. 对于用户车辆,为了最大化满足用户车辆需要的内容,须建立一个用户效用函数,通过数学模型表现用户车辆体验的满意度;对于中继车辆,为了得到更多的奖励,其目标是最大化自身收益函数,须制定合适的佣金比例$\varepsilon $与存储空间利用率$\theta $(佣金比例与空间利用率不能过高或过低,否则会影响中继车辆的收入进而影响转发积极性);对于RSU,基于中继车辆所支付佣金与其传输功率所消耗成本建立效用函数,设定适当的收费价格,以达到RSU的收益最大化. 在三方模型中,作为理性的参与者们,其目标是找到稳定的平衡状态. 在这种状态下,各方参与者均不会单方面偏离其当前策略,即在各自阶段决策出纳什均衡.

2.1. 用户车辆的效用

用户车辆在行驶过程中有着不同的多媒体内容需求以增强娱乐性,并且用户希望获得高质量的多媒体内容体验. 将用户车辆对于购买内容的满意度问题转化为基于RSU的内容定价、中继车辆发送内容消耗的成本以及选择合适数量${d_f}$的问题. 因此,对于用户车辆的满意度,可以依据传输速率和内容数据大小来设定QoE的评价标准. 这些标准能够衡量用户在使用服务时的体验感受,确保服务能够满足用户的实际需求. 表达式如下:

$ {{\mathrm{QoE}}} = a\;{\log _2}\; {\left(1+ {\displaystyle \sum\limits_{j = 1}^J {{l_j}/r} }\right)} . $

式中:$a$为可调正参数,lj表示单个数据帧,J为最大帧序列,$r$表示无线信道数据传输速率,$ \displaystyle \sum\nolimits_{j = 1}^J {{l_j}} /r $表示用户车辆获得内容时所需的时间.

假设各个用户车辆之间是相互独立的,用户车辆向中继车辆支付的全额佣金的表达式如下:

$ {C_{\mathrm{u}}} = \displaystyle \sum\limits_{j = 1}^J {{y_j}} {l_j}. $

式中: ${y_j}$为传输一个数据帧所需的单位成本.

因此,用户车辆的效用函数${U_{\rm{User} }}$可以定义为用户车辆的满意度与中继车辆的佣金之间的差额:

$ \begin{split} {U_{\rm{User} }} =& a\;{\log _2}\; {\left(1+ {\displaystyle \sum\limits_{j = 1}^J {{l_j}/r} } \right)} - \displaystyle \sum\limits_{j = 1}^J {{y_j}{l_j}};\\&{\text{ s}}{\text{.t}}{\text{. }}{U_{\rm{User} }} \geqslant 0.\end{split} $

2.2. 中继车辆的效用

中继车辆的选择采用Sennan等[22]所提出的方法,选择的最佳中继车辆相比于用户车辆距离RSU更近,可以通过V2V通信为用户车辆提供高质量的多媒体内容. 为了激励更多的中继车辆利用自己储存空间参与到内容转发的行为中,中继车辆只须向RSU支付少量的服务费,而自身获取来自用户车辆的全额佣金. 中继车辆在RSU通信覆盖范围内移动,将接收的内容转发给距离RSU较远的用户车辆,在获得来自用户车辆的全额佣金后,向RSU支付一定比例$\varepsilon $的佣金,佣金是中继车辆根据自身存储情况定价的. 中继车辆的利润主要来自于用户车辆支付的价格,成本消耗包括支付RSU的佣金和传输能量消耗. 中继车辆的整体效用${U_{\rm{R} }}$可以建模为如下形式:

$ {U_{{\text{R}}}} = {C_{\mathrm{u}}} - {P_{\mathrm{R}}} - {E_{\mathrm{r}}}. $

式中:${P_{\mathrm{R}}}$表示中继车辆向RSU所支付的佣金,${E_{\mathrm{r}}}$表示无线信道传输内容所需的能量成本.

中继车辆支付的佣金表达式如下:

$ {P_{\mathrm{R}}} = \varepsilon \displaystyle \sum\limits_{j = 1}^J {{y_j}{\;{\log }_2}\;\left( {1{\text+}\sigma - \theta \displaystyle \sum\limits_{j = 1}^J {{l_j}} } \right)} ,\;\; 0\leqslant \theta \leqslant1.0. $

式中:$\sigma $为可调正参数,用于将佣金归一化为非负;$\theta $表征中继车辆的存储空间利用率,$\theta $越接近于1.0,表示存储空间越满. 本研究限定剩余存储空间越小,中继车辆的效用越低,以此缓解中继车辆存储空间过载的问题.

假设车辆的存储容量相同,接收的最大内容数据$\theta \displaystyle \sum\nolimits_{j = 1}^J {{l_j}} $应不大于中继车辆的存储容量SJ,约束条件表达式如下:

$ {\text{ }}\theta \displaystyle \sum\limits_{j = 1}^J {{l_j}} \leqslant {S_{ J}}\;. $

无线信道传输内容所需的能量成本${E_{\mathrm{r}}}$是基于传输储存内容下的单位能耗成本、传输功率以及传输速率进行建模的,表达式如下:

$ {E_{\mathrm{r}}} = {{\lambda {\omega _{\mathrm{m}}}\theta \displaystyle \sum\limits_{j = 1}^J {{l_j}} }}/{r}. $

式中:$\lambda $表示传输数据产生的单位能耗成本,${\omega _{\mathrm{m}}}$表示中继车辆的传输功率.

中继车辆的效用方程表达式如下:

$ \begin{split} {U_{{\text{R}}}} = & \displaystyle \sum\limits_{j = 1}^J {{y_j}} {l_j} - \varepsilon \displaystyle \sum\limits_{j = 1}^J {y_j}{\;{\log }_2}\; \left( {1 {\text+} \sigma - }{\theta \displaystyle \sum\limits_{j = 1}^J {{l_j}} } \right) - \\ &{{\lambda {\omega _{\mathrm{m}}}\theta \displaystyle \sum\limits_{j = 1}^J {{l_j}} }}/{r}; \;\;{\text{s}}{\text{.t}}{\text{. 0}} \leqslant \varepsilon \leqslant 1.0,{\text{ }}{U_{{\text{R}}}} \geqslant 0 .\end{split}$

2.3. RSU的效用

RSU通过中继车辆帮助转发内容,减轻了RSU的通信负担,降低了运营成本. RSU的效用方程表达式如下:

$ {U_{\rm{RSU} }} = {P_{\mathrm{R}}} - {\psi _{\mathrm{r}}}. $

式中:${\psi _{\mathrm{r}}}$表示传输功率成本.

RSU传输多媒体内容产生的费用可以建模为分配频谱[23]的函数,并给出${\psi _{\mathrm{r}}}$频谱. 其中,分配频谱成本函数成单调递增的凸函数,表达式如下:

$ {\psi _{\mathrm{r}}} = \gamma +\xi {\left( {\displaystyle \sum\limits_{j = 1}^J {{l_j}} } \right)^{{1}/{\tau }}}. $

式中:$\gamma $表示固定成本,$\xi $表示定价函数,$\tau $为成本系数.

因此,RSU的效用方程表达式如下:

$ \begin{split} {U_{\rm{RSU} }}=&\varepsilon \displaystyle \sum\limits_{j = 1}^J {y_j}{\;{\log }_2}\;\left( {1 {\text+} \sigma - }{\theta \displaystyle \sum\limits_{j = 1}^J {{l_j}} } \right) - \\& \gamma - \xi {\left( {\displaystyle \sum\limits_{j = 1}^J {{l_j}} } \right)^{{1}/{\tau }}}; \;\;{\text{s}}{\text{.t}}{\text{. }}{U_{\rm{RSU} }} > 0. \end{split} $

3. 三方四阶段Stackelberg博弈分析

为了系统内各方都能实现利润最大化,将RSU、中继车辆与用户车辆之间的交流互动建模为非合作Stackelberg博弈模型. RSU充当中继车辆和用户车辆的领导者,而中继车辆又是用户车辆的领导者. 领导者通过预测跟随者的策略调整自己的策略,跟随者根据领导者的策略来最大优化自己的利益. 通过反向归纳法先预测跟随者的最优策略,最后推导出领导者的最优策略. 三方的最优策略用$\{ {y^ * },{\theta ^ * },{l^ * }\} $来表示.

3.1. 用户车辆的优化(第1阶段)

给定中继车辆的佣金比例$\varepsilon $和RSU的成本,以便于最大化其效用. 引入定理证明用户车辆存在唯一的纳什均衡解.

${U_{\mathrm{User} }}$$\displaystyle \sum\nolimits_{j = 1}^J {{l_j}} $进行一阶求导,可以得到

$ \frac{{\partial {U_{\mathrm{User} }}}}{{\partial {\displaystyle \sum\limits_{j = 1}^J {{l_j}} } }} = \frac{a}{{(\ln\; 2) \times r {\left(1 + {\displaystyle \sum\limits_{j = 1}^J {{l_j}/r} } \right)} }} - \displaystyle \sum\limits_{j = 1}^J {{y_j}}. $

对用户车辆的效用进行二阶求导:

$ \frac{{{\partial ^2}{U_{\mathrm{User} }}}}{{\partial {{\left( {\displaystyle \sum\limits_{j = 1}^J {{l_j}} } \right)}^2}}} = - \frac{a}{{(\ln\; 2) \times {r^2}{\left({ {1 + {\displaystyle \sum\limits_{j = 1}^J {{l_j}/r} } }}\right)^2}}} < 0. $

通过一阶导数$\partial {U_{\mathrm{User} }}/\partial \left( {\displaystyle \sum\nolimits_{j = 1}^J {{y_j}} } \right) = 0$求解方程以获得最优策略${l^*}$,第一阶段博弈完成.

$ {l^*} = \frac{a}{{(\ln\; 2) \times \displaystyle \sum\limits_{j = 1}^J {{y_j}} }} - r. $

定理1 存在性. 用户车辆在博弈中存在纳什均衡点.

证明:由式(13)可知,数据传输速率不为负且$\left[ {1+ {\displaystyle \sum\limits_{j = 1}^J {{l_j}/r} } } \right]$始终为正,传输内容的总成本也非负,则用户车辆的效用函数是单调的. 式(14)的分母是平方,分子是非负的正参数,这使得二阶导数整体为负. 综上,可以得出用户车辆的效用函数是凸函数,根据凸优化理论,纳什均衡是存在的.

定理2 唯一性. 用户车辆博弈的纳什均衡解是唯一的.

证明:从定理1可以得出用户博弈存在纳什均衡. 设定$ l^{*} $为用户车辆的最优策略,当给定RSU成本策略时,用户的最佳响应函数表达式如下:

$ {l^*} = B({y^*}). $

要证明最佳响应函数是一个标准函数,其必须满足以下性质.

1) 正性. 传输内容大小${l^*} = B({y^*}) > 0$,满足.

2) 单调性. 若给定${y^*} \geqslant ({y^*})'$,用户的最佳响应函数$B({y^*})$关于${y^*}$的一阶导数如下:

$ \frac{{\partial B({y^*})}}{{\partial {y^*}}} = - \frac{a}{{(\ln\; 2) \times {{\left( {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } \right)}^2}}} < 0. $

$B({y^*})$随着${y^*}$增加而减少,则$B(({y^*})') \geqslant B({y^*})$$B({y^*})$为单调递减函数.

3) 可测量性. $\forall \delta > 1$,若$B({y^*}) = {y_{\max }}$,由单调性可得$B(\delta {y^*}) \geqslant B({y^*})$. RSU的成本满足y*$\leqslant $ymax,则B(δy*)=ymaxδB(y*)−B(δy*)=δymaxymax=(δ−1)ymax>0成立;若$B({y^*}) < {y_{\max }}$,那么就可以得出如下结果:$\delta B({y^*}) - B(\delta {y^*}) = (\delta - 1)\left[ {\dfrac{{(\delta +1)a}}{{(\ln\; 2) \times \delta \displaystyle \sum\nolimits_{j = 1}^J {{y_j}} }} - r} \right]$. 由正性条件可得$\dfrac{{(\delta +1)a}}{{(\ln\; 2) \times \delta \displaystyle \sum\nolimits_{j = 1}^J {{y_j}} }} - r>0 $, 最终可得$\delta B({y^*}) - B(\delta {y^*}) > 0$. 综上所述,对于给定的$\forall \delta > 1$, 都有$\delta B({y^*}) - B(\delta {y^*}) > 0$. 因此响应函数具有可测量性.

综上,用户的响应函数是标准函数,证毕.

3.2. 中继车辆的优化(第2、3阶段)

中继车辆会根据用户车辆的策略相应调整自己的策略,将第1阶段得出的$ l^{*} $代入式(9)化简后,得到如下表达式:

$ \begin{split} {U_{{\text{R}}}} =& \displaystyle \sum\limits_{j = 1}^J {y_j}\left[ {\varGamma - r - \varepsilon {\;{\log }_2}\;(1{\text+}\sigma - } {\theta (\varGamma - r))} \right] - \frac{{\lambda {\omega _{\mathrm{m}}}\theta (\varGamma - r)}}{r}\;; \\& {\text{s}}{\text{.t}}{\text{. 0}} \leqslant \varepsilon \leqslant 1.0,\;\;{U_{{\text{R}}}} \geqslant 0 .\end{split} $

式中:$\varGamma= {a}\Bigg/\left[{{(\ln\; 2) \times \displaystyle \sum\limits_{j = 1}^J {{y_j}} }}\right] $. 第2阶段博弈概括为替换变量. 假设给定RSU的成本, 中继车辆根据用户车辆的最优策略在第3阶段决定出自己的最优策略${\theta ^*}$.

定理3 当给定RSU的成本时,连续凸函数在闭区间上有唯一的最大值,并由一阶导数等于零确定.

证明:观察其一阶导数、二阶导数的结果. 二阶导数的分母是平方关系,所以分母总是正的. 分子$(\varGamma - r)$${l^*}$的变形,不能为负,因此二阶导数始终为负,这意味着中继车辆效用函数是凸函数. 因此,函数存在唯一的纳什均衡${\theta ^*}$. 通过一阶导数等于零可以得出中继车辆最优空间利用率${\theta ^*}$,表达式如下:

$ \frac{{\partial {U_{{\text{R}}}}}}{{\partial \theta }} = \varepsilon \displaystyle \sum\limits_{j = 1}^J {{y_j}} \frac{{\varGamma - r}}{{(\ln\; 2) \times \left[ {1{\text+}\sigma - \theta \varGamma - r} \right]}} - \frac{{\lambda {\omega _{\mathrm{m}}}(\varGamma - r)}}{r} , $

$ \frac{{{\partial ^2}{U_{{\text{R}}}}}}{{\partial {\theta ^2}}} = - \frac{{\varepsilon \displaystyle \sum\limits_{j = 1}^J {{y_j}(\varGamma - r)} }}{{(\ln\; 2) \times {{\left[ {1{\text+}\sigma - \theta (\varGamma - r)} \right]}^2}}} < 0, $

$ {\theta ^*} = \frac{{r\varepsilon \displaystyle \sum\limits_{j = 1}^J {{y_j}} }}{{(\ln\; 2) \times \lambda {\omega _{\mathrm{m}}}(\varGamma - r)}} - \frac{{1{\text+}\sigma }}{{\varGamma - r}}. $

3.3. RSU的优化(第4阶段)

RSU作为三方的领导者,基于跟随者的最优策略来决定自己的最优策略. 将上述两方的最优策略分别为${l^*}$${\theta ^*}$代入式(12),化简后得到

$ \begin{split} {U_{{\rm{RSU}}}} =& \varepsilon \sum\limits_{j = 1}^J {{y_j}} {\log _2}\;\left[ {1 + \sigma - } \left( {\varGamma - r} \right)\right.\left. {{\theta ^*} {\sum\limits_{j = 1}^J {{y_j}} } } \right] -\\& \gamma - \xi {(\varGamma - r)^{{1}/{\tau }}};\quad {\rm{s}}{\rm{.t}}{\rm{. }}\;{U_{{\rm{RSU}}}} > 0.\end{split} $

式(22)是多元非线性函数方程,计算二阶导数证明其是凸函数较困难. 因此,先引用定理4和定理5证明RSU存在唯一纳什均衡,再运用全局搜索算法来求解纳什均衡${y^*}$,第4阶段博弈结束.

定理4 可微的函数一定连续.

定理5 在闭区间上的连续函数一定存在最大值和最小值.

证明:验证式(22)是否可微以便确定效用方程是连续函数,分别对${U_{\rm{RSU} }}$${\theta ^*}\displaystyle \sum\nolimits_{j = 1}^J {{y_j}} $关于$\displaystyle \sum\nolimits_{j = 1}^J {{y_j}} $进行一阶求导,求导结果如下:

$ \begin{split} \frac{{\partial {U_{\rm{RSU} }}}}{{\partial {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } }} = & \varepsilon \;{\log _2}\;\left[ {{\text{1}} + \sigma - (\varGamma - r)\theta {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } } \right] + \\& \frac{{a\varepsilon }}{{2(\ln\; 2) \times \displaystyle \sum\limits_{j = 1}^J {{y_j}} \left[ {{\text{1}} + \sigma - (\varGamma - r)\theta {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } } \right]}} \times \\&\frac{{\partial \theta {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } }}{{\partial {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } }} - \frac{\varGamma }{{y\tau }}\xi {(\varGamma - r)^{\tfrac{1}{\tau } - 1}} - r ,\end{split} $

$ \frac{{\partial {\theta ^*} {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } }}{{\partial {\displaystyle \sum\limits_{j = 1}^J {{y_j}} } }} = \frac{{r\varepsilon \left[ {y(\varGamma - r){\text+}a} \right]}}{{y(\ln\; 2) \times {{(\varGamma - r)}^2}}}, $

由式(23)、(24)可以确定式(21)、(22)均是连续可微函数,则函数存在唯一的纳什均衡${y^*}$. 又因最优策略${y^*}$的结果受${\theta ^*}$的约束,RSU的${y^*}$存在于闭区间$[{y_{\min }},\;{y_{\max }}]$,表达式如下:

$ {\left.\begin{array}{l}{y_{\min }}=\left[{{(\ln\; 2) \times \lambda {\omega _{\mathrm{m}}}(1+\sigma )}}\right] /\left({{r\varepsilon }}\right), \\ {y_{\max }}=\Big\{ \left(\ln\; 2\right) \times \lambda {\omega _{\mathrm{m}}}(1+\sigma - r)+\\\sqrt {{{\left[ {(\ln\; 2) \times \lambda {\omega _{\mathrm{m}}}(1+\sigma - r)} \right]}^2}+4a\lambda {\omega _{\mathrm{m}}}r\varepsilon } \Big\}/\left({{2r\varepsilon }}\right) .\end{array}\right\} } $

3.4. 方案设计算法流程

对于上述三方四阶段Stackelberg博弈过程,本研究提出全局搜索迭代算法决策出三方各自的最优策略. 该算法为RSU、用户车辆和中继车辆找到相互响应的最佳成本、最优空间率以及最优内容数据大小. 具体算法如下.

算法1.  三方-四阶段Stackelberg博弈迭代算法

输入: 参数初始化$ a $, $ \varepsilon $, $\tau $, $\gamma $, $r$, $\lambda $, $ {\omega _{\text{m}}} $

输出: 区间${\text{[}}{y_{{\text{min}}}},{y_{{\text{max}}}}{\text{]}}$; 三方最优策略$\{ {y^*},{\theta ^*},{l^*}\} $; 三方效用$ {U}_{\text{RSU}}、{U}_{\text{R}}、{U}_{\text{User}} $

1. for $\zeta = {y_{\min }}:M:{y_{\max }}$;

2. for $i = 1:M$

3. 设置${y^ * } = \zeta (i)$;

4. 计算${U_{{\text{RSU}}}}$的一阶导数在$M$处所对应的零点;

5. if ${U_{{{\mathrm{RSU}}} }}({y_i}) - {U_{{{\mathrm{RSU}}} }}({y_{i - 1}}) > 0$

6. 更新${U_{{{\mathrm{RSU}}} }} = {U_{{{\mathrm{RSU}}} }}({y_i})$;

7. 设置${y^ * } = {y_i}$;

8. end if

9. end for

10. end for

11. 根据式(21)计算中继车辆最优空间利用率${\theta ^*}$;

12. 根据式(15)计算用户车辆最优内容数据量${l^*}$;

13. 分别将$\{ {y^*},{\theta ^*},{l^*}\} $代入式(4)、(18)、(22)计算UUserURURSU

4. 仿真分析

4.1. 仿真参数分析

为了验证本研究所提方案的有效性,基于MATLAB 2022a软件平台对其部分仿真数值进行分析,相关参数设定如表1所示. 表中,Pmax为车辆最大发射功率.

表 1   三方-四阶段Stackelberg博弈迭代算法的仿真参数表

Tab.1  Simulation parameter settings for three-party, four-stage Stackelberg game iterative algorithm

参数数值参数数值
Pmax/dBm27$\xi $[23]1
$\varepsilon $0.17$\tau $1.6
$\gamma $[21]0.1$\lambda $1/1024

新窗口打开| 下载CSV


图3所示,展示了不同佣金比例$\varepsilon $对于所提方案的中继车辆效用与RSU效用的影响. 图中,$\overline U _{{\mathrm{R}}} $$\overline U_{{\mathrm{RSU}}} $分别为URURSU的归一化值. 设置不同的$\varepsilon $,中继车辆与RSU的整体效用均呈现线性变化. 因此,引入不同数值的$\varepsilon $不会影响最终导出解的平衡,这也进一步证明了Stackelberg博弈的纳什均衡存在. 线性响应表明,所提模型可以灵活地适应不同的情况,并且可以对其进行适当的调整以提高性能和效果. 此外,从图中也可分析得到,$\varepsilon $越大,中继车辆效用越低,而RSU的效用与之相反. 因此,为了有效提高中继车辆积极性,并权衡RSU的效用,最终将$\varepsilon $取值设定为0.17.

图 3

图 3   佣金比例变化对中继车辆效用与RSU效用的影响

Fig.3   Impact of commission ratio changes on relay vehicle utility and RSU utility


图4所示为不同传输内容大小下车辆的传输速率对用户效用的影响. 可见传输内容更大,用户可获得的效用也更高,但随着传输速率的增加,用户效用略微减少,这是因为本研究设定的效用受传输内容大小、车载存储空间利用率以及成本等因素共同影响,设定决策方式的特殊性使得速率增大后效用会略微降低. 传输速率非决定性因素,其发生变化对效用的影响较少,因此只须采用固定的传输速率,通过本研究所设定的博弈策略,即可以获得三方各自的最优效用.

图 4

图 4   不同传输速率对用户效用的影响

Fig.4   Effect of different transmission rates on user utility


图5所示,中继车辆的不同空间利用率$\theta $随内容数据增大呈现先上升后逐渐平缓的趋势. 随着内容数据增加,中继车辆$\theta $越大,其获得来自用户车辆的金额增多,效用提高. 然而,当$\theta = 0.9$时,曲线较其他2种情况先有下降趋势,说明转发过多的内容会影响自身的效益. $\theta $越大,须交付给RSU的佣金数额也会越大,最终导致中继车辆的效用受到影响,因此当存储空间利用率较高时,效用反而会降低. 为了获得最佳中继车辆效用,须将空间利用率限制在一定范围内,以此避免中继车辆存储过载的问题.

图 5

图 5   不同空间利用率下中继车辆效用

Fig.5   Utility of relay vehicle under different space utilization values


4.2. RSU的效用对比

将本研究所提方案与文献[13]、[14]和[21]方法进行比对,得出不同方案下RSU的效用,结果如图6所示. 可以看出,本研究方案的RSU效用弱于文献[21]方案的效用,这是因为本研究方案为提高中继车辆积极性而选择部分佣金支付模式,而文献[21]方案中RSU的收益来自用户所交付的全部佣金,使得本研究的RSU收益较文献[21]的更低,在文献[13]和[14]的方案中,RSU的收益来自用户所支付的全部佣金,但其还须额外支付多种运营成本相关费用,致使RSU的效用降低,文献[13]和[14]方案的RSU效用不及本研究所提方案的.

图 6

图 6   不同方案的RSU效用对比

Fig.6   Comparison of RSU utility under different schemes


4.3. 中继车辆的效用对比

图7所示,将本研究所提方案与文献[21]的进行对比,得出不同方案下中继车辆的效用(文献[13]和[14]方案没有考虑中继车辆,因此不参与本节的效用对比). 可以看出,本研究方案在中继车辆传输内容数量为1×106~11×106 bit时拥有更高的效用,这是因为中继车辆传输给用户的内容增加,获得佣金也随之增多,激励了中继车辆更积极地参与转发内容. 文献[21]方案中RSU支付中继车辆的佣金是采用传统支付方法,中继车辆得到的佣金不及本研究方案的,即表现出了较低的效用. 虽然文献[21]方案的效用整体呈上升趋势,但其在传输内容数量较少时与本研究方案有较大差距,即当用户想要获取的内容数量偏低时,中继车辆的效用不高,进而影响了中继车辆参与转发的积极性. 当传输内容数量持续增大时,本研究方案的效用会逐渐低于文献[21]方案的,这是因为本研究引入了存储空间利用率来限制中继车辆的整体效用,即本研究考虑到了传输内容过多会使中继车辆整体效用降低(内容过多时会造成中继车辆存储过载),而文献[21]方案没有考虑到中继车辆的存储空间问题,效用才会持续呈上升趋势.

图 7

图 7   不同方案的中继车辆效用对比

Fig.7   Comparison of utility of relay vehicle under different schemes


4.4. 用户车辆的效用对比

图8所示,将本研究所提方案与文献[13]、[14]和[21]方案进行比对,得出不同方案下用户车辆的效用. 随着内容数据的增加,各方案用户车辆的效用不断增加,而采用本研究方案能够获得整体最佳效用. 文献[13]、[14]方案不借由中继转发,使得远程服务造成了更大的成本开销,从而导致用户效用最低. 当传输内容数量在一定范围时(1×106~8×106 bit),由于本研究方案的中继车辆拥有用户的全额佣金,其数据转发积极性较高,用户效用更高,而文献[21]方案的中继车辆积极性不如本研究的,用户支付同等价格时能够获得的收益较低,因而其效用低于本研究方案的. 当数量继续增大时,由于文献[13]、[14]与[21]方案均理想化了车辆存储空间,效用会持续增长. 然而传输内容数量不断增长,会提高成本定价,导致用户车辆的开销超过QoE,所有方案的效用最终均会呈现下降趋势.

图 8

图 8   不同方案的用户车辆效用对比

Fig.8   Comparison of utility of user vehicle under different schemes


5. 结 语

提出IoV中基于三方Stackelberg博弈的DMPS. 该方案同时考虑中继车辆、用户车辆和RSU三方之间的相互作用,根据存储空间利用率、内容数据大小和成本建立效用函数,利用反向归纳法得到最佳内容数据大小、最优空间利用率和最佳成本. 仿真结果表明,本研究所提方案不仅提高了QoE与中继车辆积极性,还解决了中继车辆的有限存储空间问题,较传统方案有一定优势. 未来计划研究在5G-IoV的实际广播或转发的应用场景,将多个车辆的密度、车间距离,以及卸载和存储转发的文件大小等因素作为策略集,建立数学模型制定更符合实际应用环境的定价机制.

参考文献

VOROBYEV A I, KOVESHNIKOV A A, GAVRILYUK M V, et al. Classification of integration platforms of intelligent transport systems [C]// 2023 Systems of Signals Generating and Processing in the Field of on Board Communications . Moscow: IEEE, 2023: 1−5.

[本文引用: 1]

WANG J, ZHU K, HOSSAIN E

Green Internet of vehicles (IoV) in the 6G era: toward sustainable vehicular communications and networking

[J]. IEEE Transactions on Green Communications and Networking, 2022, 6 (1): 391- 423

DOI:10.1109/TGCN.2021.3127923      [本文引用: 1]

XU W, GUO S, MA S, et al

Augmenting drive-thru internet via reinforcement learning-based rate adaptation

[J]. IEEE Internet of Things Journal, 2020, 7 (4): 3114- 3123

DOI:10.1109/JIOT.2020.2965148      [本文引用: 1]

ZHANG H, XU R, LI Z, et al

Resource-aware video delivery in fog radio access networks: a joint QoE and QoS perspective

[J]. IEEE Transactions on Vehicular Technology, 2023, 72 (5): 6669- 6682

DOI:10.1109/TVT.2023.3234141      [本文引用: 1]

叶进, 肖庆宇, 陈梓晗, 等

以用户QoE预测值为奖励的视频自适应比特率算法

[J]. 电子科技大学学报, 2021, 50 (2): 236- 242

DOI:10.12178/1001-0548.2020325      [本文引用: 1]

YE Jin, XIAO Qingyu, CHEN Zihan, et al

A video adaptive bitrate algorithm with user QoE prediction as reward

[J]. Journal of University of Electronic Science and Technology of China, 2021, 50 (2): 236- 242

DOI:10.12178/1001-0548.2020325      [本文引用: 1]

MUSTAFA R U, MOURA D, ROTHENBERG C E. Machine learning approach to estimate video QoE of encrypted dash traffic in 5G networks [C]// 2021 IEEE Statistical Signal Processing Workshop . Brazil: IEEE, 2021: 586−589.

[本文引用: 1]

ROTHENBERG C E, PEREZ D A L, SOUSA N F S, et al. Intent-based control loop for dash video service assurance using ML-based edge QoE estimation [C]// 2020 6th IEEE Conference on Network Softwarization . Belgium: IEEE, 2020: 353−355.

AMOUR L, MUSHTAQ M S, SOUIHI S, et al. QoE-based framework to optimize user perceived video quality [C]// 2017 IEEE 42nd Conference on Local Computer Networks . Singapore: IEEE, 2017: 599−602.

[本文引用: 1]

ZHANG H, LU Z M, WEN X M, et al

QoE-based reduction of handover delay for multimedia application in IEEE 802.11 networks

[J]. IEEE Communications Letters, 2015, 19 (11): 1873- 1876

DOI:10.1109/LCOMM.2015.2459048      [本文引用: 1]

LI C, TONI L, ZOU J H, et al

QoE-driven mobile edge caching placement for adaptive video streaming

[J]. IEEE Transactions on Multimedia, 2018, 20 (4): 965- 984

DOI:10.1109/TMM.2017.2757761      [本文引用: 1]

BAEK B, LEE J, PENG Y, et al

Three dynamic pricing schemes for resource allocation of edge computing for IoT environment

[J]. IEEE Internet of Things Journal, 2020, 7 (5): 4292- 4303

DOI:10.1109/JIOT.2020.2966627      [本文引用: 1]

MITRA D, SRIDHAR A. Consortiums of ISP-content providers formed by nash bargaining for Internet content delivery [C]// IEEE Conference on Computer Communications . Paris: IEEE, 2019: 631−639.

[本文引用: 1]

RAMAMOORYHY K M K, WANG W. QoE-sensitive economic pricing model for wireless multimedia communications using Stackelberg game [C]// IEEE Global Communications Conference . Waikoloa: IEEE, 2019: 1−6.

[本文引用: 8]

RAMAMOORYHY K M K. User preference aware multimedia pricing model using game theory and prospect theory for wireless communications [C]// 34th IEEE/ACM International Conference on Automated Software Engineering . San Diego: IEEE, 2019: 1265−1267.

[本文引用: 8]

DENG G, LI F C, WANG L W. Cooperative downloading in VANETs-LTE heterogeneous network based on named data [C]// IEEE Conference on Computer Communications Workshops . San Francisco: IEEE, 2016: 233−238.

[本文引用: 1]

CHAI R, LV Y, YANG B, et al. Cooperative game based relay vehicle selection algorithm for VANETs [C]// 14th International Symposium on Communications and Information Technologies . Incheon: IEEE, 2014: 30−34.

MA X, WANG L. Game theory based cooperation incentive mechanism in vehicular ad hoc networks [C]// International Conference on Management of e-Commerce and e-Government . Beijing: IEEE, 2012: 127−132.

[本文引用: 1]

HUI Y, SU Z, LUAN T H, et al

Reservation service: trusted relay selection for edge computing services in vehicular networks

[J]. IEEE Journal on Selected Areas in Communications, 2020, 38 (12): 2734- 2746

DOI:10.1109/JSAC.2020.3005468      [本文引用: 1]

XIONG Z G, XIAO N, XU F, et al

An equivalent exchange based data forwarding incentive scheme for socially aware networks

[J]. Journal of Signal Processing Systems, 2021, 93: 249- 263

DOI:10.1007/s11265-020-01610-6      [本文引用: 1]

XIA Z, MAO X, GU K, et al

Two-dimensional behavior-marker-based data forwarding incentive scheme for fog-computing-based SIoVs

[J]. IEEE Transactions on Computational Social Systems, 2022, 9 (5): 1406- 1418

DOI:10.1109/TCSS.2021.3129898      [本文引用: 1]

RAMAMOORYHY K M K, WANG W

A QoE-driven pricing scheme for inter-vehicular communications with four-stage Stackelberg game

[J]. IEEE Transactions on Vehicular Technology, 2022, 71 (3): 3121- 3130

DOI:10.1109/TVT.2021.3138328      [本文引用: 14]

SENNAN S, RAMASUBBAREDDY S, BALAASUBR- AMANIVAM S, et al

MADCR: mobility aware dynamic clustering-based routing protocol in Internet of Vehicles

[J]. China Communications, 2021, 18 (7): 69- 85

DOI:10.23919/JCC.2021.07.007      [本文引用: 1]

NIYATO D, HOSSAIN E

Competitive spectrum sharing in cognitive radio networks: a dynamic game approach

[J]. IEEE Transactions on Wireless Communications, 2008, 7 (7): 2651- 2660

DOI:10.1109/TWC.2008.070073      [本文引用: 2]

/