<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于卷积和门控注意的两阶段视听语音增强算法的框架图

Fig.1 Framework diagram of two-stage audio-visual speech enhancement algorithm based on convolution and gated attention

在时域语音增强中，带噪语音通常可以表示为

(1)$ x(t) = y(t)+n(t). $

式中：$x(t)$为带噪语音，$ y(t) $为干净语音，$ n(t) $为噪声. 语音增强的目标是基于深度学习模型学习掩码，从带噪语音中提取干净音频. 编码器、解码器用来提取特征和波形重建，特征融合网络用来对特征进行建模并输出掩码.

1.1. 音频编码器

音频编码器使用一维卷积和整流线性单元，对带噪语音$x(t)$进行特征提取^[13]. 卷积核大小为$ {{L}} $，步长为$ {{{{L}}/}}2 $，具体为

(2)$ {\boldsymbol{X}} = {\text{ReLU }}({\text{Conv1D }}(x(t),{{L}},{{L/}}2)) \in {{\bf{R}}^{N \times K}}. $

式中：$ {\boldsymbol{X}} $为音频特征，$N$为音频特征维数，$K$为帧数. 一维卷积的操作可以用来捕捉输入音频序列中的局部特征. 此外，为了使音频特征和视频特征对齐，对音频特征${\boldsymbol{ X}} $进行分块（chunk）操作，以匹配视频特征的帧率.

(3)$ {\boldsymbol{X}}' = {\text{chunk (}}{\boldsymbol{X}}{\text{)}} \in {{\bf{R}}^{N \times P \times H}}. $

式中：$ {\boldsymbol{X}}' $为分块音频特征；$ P $为块长度；$H$为块的个数，即视频帧的个数. chunk操作将音频特征分为$H$个大小为$ P $的互不重叠的块.

1.2. 视频编码器

视频编码器由三维卷积层、ResNet-18模块^[14]、视频时间卷积模块（video time convolution module，VTCN）组成. 三维卷积层和ResNet-18模块是从唇读任务中预训练出来的，权值在训练过程中是固定的. VTCN由5个残差连接的激活函数、批归一化、深度可分离卷积组成. VTCN的输出被上采样，以匹配音频特征的分辨率.

视频编码器的输入是以嘴唇区域为中心的灰度图像序列（该图像是原始视频通过人脸关键点检测获得的），每个图像被编码为一个$N$维的向量嵌入，即经视频编码器输出的视频特征${\boldsymbol{V}} \in {{\bf{R}}^{N \times H}}$.

1.3. 特征融合网络

将音视频编码器提取的音视频特征分别作为特征融合网络的输入，网络的输出为目标音频的掩码. 在两阶段CNN-GAU模块中，音视频特征由卷积模块和门控注意机制处理^[15]. 卷积模块使用点卷积和逐深度卷积提取局部特征. 门控注意机制执行块内和块间的联合注意，捕获全局上下文依赖关系. 将两阶段CNN-GAU模块的输出和视频特征作为下一个两阶段CNN-GAU模块的输入，过程重复R次. 通过归一化、激活函数、点卷积操作、Overlap（chunk的逆操作）、一个输出门控，最后通过点卷积和激活函数得到掩码${\boldsymbol{M}}$.

1.3.1. 复杂度分析

Transformer^[16]作为最先进的深度学习模型，在语言处理任务上取得了很大的成功. 由于参数量高，需要大量的计算资源，这一限制导致Transformer模型在处理大规模数据时效率很低. 如何使用更有效的模型来代替Transformer成为关键问题.

标准的Transformer是多头注意力机制，由多头注意力层（multi-head attention）和前馈层（FFN）组成，参数量为权重矩阵的大小，即12d²(其中d为隐藏层维度).

GAU^[12]的计算公式如下.

(4)$ {\boldsymbol{U}} = {\phi _{\text{u}}}({\boldsymbol{X}}{{\boldsymbol{W}}_{\text{u}}})\;, $

(5)$ {\boldsymbol{I}} = {\phi _{\text{i}}}({\boldsymbol{X}}{{\boldsymbol{W}}_{\text{i}}})\;, $

(6)$ {\boldsymbol{Z}} = {\phi _{\text{z}}}({\boldsymbol{X}}{{\boldsymbol{W}}_{\text{z}}})\;, $

(7)$ {\boldsymbol{A}}=\frac{1}{{n}^{2}}{\mathrm{ReLU}}({{Q}}({\boldsymbol{Z}}){{K}}{({\boldsymbol{Z}})}^{{\rm T}})\;, $

(8)$ {\boldsymbol{O}} = ({\boldsymbol{U}} \otimes {\boldsymbol{AI}}){{\boldsymbol{W}}_{\text{o}}}. $

式中：$ \otimes $为逐元素乘法；$ {{Q}} $、$ {{K}} $为简单的仿射变换；$ {\boldsymbol{U}} $、$ {\boldsymbol{I}} $、$ {\boldsymbol{Z}} $为输入$ {\boldsymbol{X}} $的非线性表示；$ {\boldsymbol{A}} $为注意力矩阵；$ {\boldsymbol{O}} $为GAU的输出；$ {{\boldsymbol{W}}}_{\text{u}}、{{\boldsymbol{W}}}_{\text{i}}、{{\boldsymbol{W}}}_{\text{o}}\in {{\bf{R}}}^{d\times m}(m=2d) $、$ {{\boldsymbol{W}}_{\text{z}}} \in {{\bf{R}}^{d \times s}}(s \ll d) $为4个权重矩阵，GAU只使用一个简化的单头注意力，$ {{\boldsymbol{W}}_{\text{z}}} $的参数量很小，可以忽略. GAU的参数量为权重矩阵的大小，即6d².

GAU是新的Transformer变体，本质是融入了注意力的门控线性单元（GLU）^[17]，可以在有效减少参数量的同时提升质量. 选择使用GAU作为特征融合网络的主体结构.

1.3.2. 分块混合多模态GAU

提出GAU以代替自注意（self-attention），将GAU应用在视听模态上，验证GAU在跨模态任务中的有效性. 本文证明了GAU可以应用于交叉注意（cross-attention）.

将分块音频特征$ {\boldsymbol{X}}' $、视频特征${\boldsymbol{V}}$（维度扩充以匹配音频特征）分别通过式(4)~(6)得到音视频特征的非线性表示${{\boldsymbol{X}}'_{\text{U}}}$、${{\boldsymbol{X}}'_{\text{I}}}$、${{\boldsymbol{X}}'_{\text{Z}}}$、${{\boldsymbol{V}}_{\text{U}}}$、${{\boldsymbol{V}}_{\text{Z}}}$. 其中$ {{{\boldsymbol{X}}}^{\prime }}_{\text{U}}、 {{{\boldsymbol{X}}}^{\prime }}_{\text{I}}、{{\boldsymbol{V}}}_{\text{U}}\in {{\bf{R}}}^{H\times P\times M} $，$ {{{\boldsymbol{X}}}^{\prime }}_{\text{Z}}、{{\boldsymbol{V}}}_{\text{Z}}\in {{\bf{R}}}^{H\times P\times D} $.

选择块内-块间联合注意的方式，对音视频特征进行高效的远程建模. 在语音增强任务中，主要关注的特征集中在短上下文，远程关联虽然存在，但不是主导地位. 对块内执行能学习复杂关联的二次注意，对块间执行简单的线性注意. 在保证模型对短上下文特征重点关注的同时，有效降低了远程建模的复杂度，提升整体的建模效率. 对${{\boldsymbol{X}}'_{\text{Z}}}$、${{\boldsymbol{V}}_{\text{Z}}}$应用低成本仿射变换和ROPE^[18]，得到局部和全局键${{\boldsymbol{K}}^{{\mathrm{local}}}}$、${{\boldsymbol{K}}^{{\mathrm{global}}}}$、局部和全局查询${{\boldsymbol{Q}}^{{\mathrm{local}}}}$、${{\boldsymbol{Q}}^{{\mathrm{global}}}}$.

将局部键和查询及${{\boldsymbol{X}}'_{\text{I}}}$按块进行分割，得到每个块的键${\boldsymbol{K}}_g^{{\mathrm{local}}}(g = 1,2, \cdots, H)$、查询${\boldsymbol{Q}}_g^{{\mathrm{local}}}$、值${{\boldsymbol{X}}'_{{\text{I}},g}}$.

每个块的局部注意为

(9)$ {\boldsymbol{A}}_g^{{\mathrm{local}}} = {\mathrm{ReL}}{{\mathrm{U}}^2}(\alpha {\boldsymbol{Q}}_g^{{\mathrm{local}}}{({\boldsymbol{K}}_g^{{\mathrm{local}}})^{\rm T}}){{\boldsymbol{X}}'_{{\text{I}},g}}. $

跨块的全局注意为

(10)$ {{\boldsymbol{A}}^{{\mathrm{global}}}} = {{\boldsymbol{Q}}^{{\mathrm{global}}}}(\beta {({{\boldsymbol{K}}^{{\mathrm{global}}}})^{\rm T}}{{\boldsymbol{X}}'_{\text{I}}}). $

式中：$\alpha ={P}^{-1}$；$\beta $为归一化因子，$\beta = {({H \times P})}^{-1}$. 将$ {\boldsymbol{A}}_g^{{\mathrm{local}}} $沿时间维度按块进行拼接，得到完整的局部注意：

(11)$ {{\boldsymbol{A}}^{{\mathrm{local}}}} = [{\boldsymbol{A}}_1^{{\mathrm{local}}},{\boldsymbol{A}}_2^{{\mathrm{local}}}, \cdots, {\boldsymbol{A}}_H^{{\mathrm{local}}}]. $

将整个序列的注意$ {\boldsymbol{A}}' $与音视频融合特征${\boldsymbol{U}}'$相乘，通过线性层得到输出序列${\boldsymbol{O}}'$.

(12)$ {\boldsymbol{A}}' = {{\boldsymbol{A}}^{{\mathrm{local}}}}+{{\boldsymbol{A}}^{{\mathrm{global}}}}. $

(13)$ {\boldsymbol{U}}' = {\mathrm{concat}}\;({{\boldsymbol{X}}'_{\text{U}}},{{\boldsymbol{V}}_{\text{U}}}). $

(14)$ {\boldsymbol{O}}' = ({\boldsymbol{U}}' \otimes {\boldsymbol{A}}'){{\boldsymbol{W}}'_{\text{o}}}. $

1.3.3. CNN-GAU模块

提出卷积模块，对音视频序列的局部特征进行建模. 将卷积模块有效集成到GAU中，充分发挥卷积和注意力提取特征的优势，提升模型性能.

卷积和注意力机制是提取特征的2种不同方法. 卷积操作在局部区域上进行权重计算，可以捕捉到局部上下文信息. 注意力机制可以根据输入来自适应地对不同位置的特征进行加权，捕获全局上下文信息. 将卷积模块和GAU有机地结合起来，通过注意力机制捕获音视频序列的全局依赖关系，利用卷积捕获局部相关性. 卷积模块的结构如图2所示.

图 2

图 2 卷积模块的结构图

Fig.2 Structure diagram of convolutional module

将输入通过线性层进行投影，按特征维度平分，得到${{\boldsymbol{L}}_1}$和${{\boldsymbol{L}}_2}$. 对${{\boldsymbol{L}}_2}$进行归一化处理，分别通过逐深度卷积和点卷积提取块内和块间局部特征，之后将二者相加并与${{\boldsymbol{L}}_1}$相乘. 从整体上看，卷积模块是线性门控^[19].

GAU通过局部-全局注意力对远程全局上下文进行建模，本文通过卷积模块来增强GAU中的一路特征，为GAU提供局部特征建模. 式(14)转变为

(15)$ {\boldsymbol{O}}' = ({\mathrm{ConvM}}({\boldsymbol{U}}') \otimes {\boldsymbol{A}}'){{\boldsymbol{W}}'_{\text{o}}}. $

1.3.4. 两阶段CNN-GAU模块

现有的AVSE模型都忽视了视频模态的重要性^[20]. 视频特征一般是从说话人的嘴唇图像帧提取出来的，感知者可以通过观察说话人的嘴唇运动来推断语音内容，且视频信息不受噪声环境的干扰，因此视频模态包含丰富的纯净语音信息，在视听语音增强任务中必须充分利用. 为了平衡2种模态，采用两阶段算法，第1阶段音频作为主导模态，视频作为条件模态. 第2阶段视频作为主导模态，第1阶段提取的音频作为条件模态.

在跨模态注意力机制中，通常由一个模态提供查询（query），另一个模态提供键（key）和值（value）. 查询模态的主要作用是指导注意力机制去关注另一个模态中的信息. 通过查询向量与键向量之间的相似性计算生成注意力权重，对值向量进行加权以生成最终输出. 在语音增强任务中，通常由音频模态提供键和值，为注意力机制提供权重计算和生成输出所需的核心信息，作为主导模态. 视频模态提供查询向量，指导了如何从音频模态中提取信息，作为条件模态. 在本文中增加将视频作为主导模态，音频作为条件模态的阶段.

将${\boldsymbol{V}}$、$ {\boldsymbol{O}}' $分别替换$ {\boldsymbol{X}}' $、${\boldsymbol{V}}$的位置进行相同的运算得到${\boldsymbol{A}}''$（局部和全局注意之和），即相当于用视频特征作为主导，经过第1阶段增强的音频特征作为条件计算局部和全局注意，最终计算得到

(16)$ {\boldsymbol{O}}'' = ({\mathrm{ConvM}}\,\,({\boldsymbol{U}}') \otimes {\boldsymbol{A}}''){{\boldsymbol{W}}''_{\text{o}}}. $

将$ {\boldsymbol{O}}' $和$ {\boldsymbol{O}}'' $以特征维度拼接，通过线性层得到两阶段CNN-GAU模块的最终输出：

(17)$ {\boldsymbol{M}}' = {\mathrm{concat}}\,\,({\boldsymbol{O}}',{\boldsymbol{O}}''){\boldsymbol{W}}. $

两阶段CNN-GAU模块的整体框架如图3所示.

图 3

图 3 两阶段CNN-GAU模块的结构图

Fig.3 Structure diagram of two-stage CNN-GAU module

1.4. 解码器

解码器采用一维转置卷积层重建目标语音，它和音频编码器具有相同的核大小和步幅. 解码器的输入是掩码${\boldsymbol{M}}$和音频特征$ {\boldsymbol{X}} $，输出是目标语音$\hat y(t)$.

(18)$ \hat y(t) = {\mathrm{ConvTranspose1D}}\,\,({\boldsymbol{M}} \otimes {\boldsymbol{X}}). $

2. 实验验证

2.1. 实验设置

选用GRID视听数据集评估模型. 训练集、验证集、测试集语音没有重叠，所有语音和视频时长均为3 s，训练集、验证集、测试集分别包含4 000、500、500条干净语音和视频. 噪声为生活中常见的一些噪声，如闹钟、马路鸣笛、风雨、救护车、煮水等10种噪声. 将噪声以随机的信噪比（SNR）与干净语音混合，训练集的信噪比设置为−10~10 dB的整数值. 测试集在5个典型信噪比（−10、−5、0、5、10 dB）下生成.

在本文模型中，音频采样率为16 kHz. 视频采样率为25 帧/s. 使用尺度不变信噪比（SI-SNR）作为损失函数^[21],模型参数如表1所示. 模型使用Adam优化器进行训练，学习率为1.0×10⁻⁴. 若验证集上5个轮次的损失不减少，则整个训练过程停止. 在统一的实验环境中开展模型的训练及测试，如表2所示为实验环境.

表 1 基于卷积和门控注意的两阶段视听语音增强算法的实验参数设置

Tab.1 Experimental parameter setting for two-stage audio-visual speech enhancement algorithm based on convolution and gated attention

参数	数值
Conv1D卷积核大小L	16
块长度P	80
双阶段CNN-GAU模块个数R	8
${{\boldsymbol{X}}'_{\text{U}}}$、${{\boldsymbol{X}}'_{\text{I}}}$、${{\boldsymbol{V}}_{\text{U}}}$特征维度M	512
${{\boldsymbol{X}}'_{\text{Z}}}$、${{\boldsymbol{V}}_{\text{Z}}}$特征维度D	128

表 2 基于卷积和门控注意的两阶段视听语音增强算法的实验环境

Tab.2 Experimental environment for two-stage audio-visual speech enhancement algorithm based on convolution and gated attention

环境	配置参数	环境	配置参数
CPU	AMD Ryzen 7 3800X	显存	10 GB
主频	3.89 GHz	IDE环境	Pycharm
内存	48 GB	编译语言	Python 3.8
GPU	NVIDIA GeForce RTX 3080	—	—

在评价指标中，分别采用信噪比和语音感知质量测评（PESQ）来评估语音增强的效果. 其中SNR是信号功率与噪声功率的比值，较直观地表现出信号中噪声的抑制程度. SNR越高，说明信号中的噪声越少. PESQ通过比较增强语音与干净语音之间的感知差异，对语音质量进行打分，得分为−0.5~4.5，分值越高说明被测试语音的听觉感知质量越好.

2.2. 实验结果

将提出的基于卷积和门控注意的两阶段视听语音增强算法与AV-ConvTasnet^[9]、MuSE^[10]、AV-Sepformer^[11]进行增强性能的比较，Noisy表示增强前的带噪语音. 为了保证实验的有效性，实验中使用的训练集、验证集、测试集及学习率、批次大小等参数均保持一致. 测试集的实验结果如表3~5所示.

表 3 风雨噪声5种信噪比下各模型的语音增强效果对比

Tab.3 Comparison of speech enhancement effect of various model under five signal-to-noise ratios of wind and rain noise

模型	PESQ					SNR/dB
模型	−10 dB	−5 dB	0 dB	5 dB	10 dB	−10 dB	−5 dB	0 dB	5 dB	10 dB
Noisy	1.54	1.67	1.86	2.15	2.47	−10	−5	0	5	10
AV-ConvTasnet	2.13	2.17	2.32	2.36	2.40	3.98	4.26	4.44	4.42	4.31
MuSE	2.19	2.25	2.37	2.42	2.46	4.57	5.76	6.35	6.41	6.29
AV-Sepformer	2.53	2.59	2.75	2.82	2.88	6.47	6.58	6.83	6.89	6.78
本文模型	2.77	2.79	3.01	3.16	3.25	12.29	13.09	14.11	14.54	14.55

表 4 救护车噪声5种信噪比下各模型的语音增强效果对比

Tab.4 Comparison of speech enhancement effect of various model under five signal-to-noise ratios of ambulance noise

模型	PESQ					SNR/dB
模型	−10 dB	−5 dB	0 dB	5 dB	10 dB	−10 dB	−5 dB	0 dB	5 dB	10 dB
Noisy	1.76	2.09	2.28	2.37	2.55	−10	−5	0	5	10
AV-ConvTasnet	2.27	2.33	2.42	2.47	2.52	3.97	3.96	4.20	4.04	4.06
MuSE	2.32	2.42	2.54	2.62	2.67	5.92	6.13	6.47	6.24	6.17
AV-Sepformer	2.69	2.74	2.84	2.90	2.93	6.75	6.58	6.89	6.77	6.81
本文模型	2.96	3.10	3.28	3.39	3.47	13.93	14.07	14.80	14.58	14.68

表 5 闹钟噪声5种信噪比下各模型的语音增强效果对比

Tab.5 Comparison of speech enhancement effect of various model under five signal-to-noise ratios of alarm noise

模型	PESQ					SNR/dB
模型	−10 dB	−5 dB	0 dB	5 dB	10 dB	−10 dB	−5 dB	0 dB	5 dB	10 dB
Noisy	1.70	1.92	2.25	2.42	2.64	−10	−5	0	5	10
AV-ConvTasnet	2.35	2.32	2.55	2.60	2.65	4.39	4.50	4.50	4.29	4.32
MuSE	2.35	2.55	2.65	2.69	2.73	6.27	6.80	6.91	6.47	6.38
AV-Sepformer	2.67	2.81	2.86	2.92	2.93	6.77	6.79	6.82	6.62	6.76
本文模型	2.88	3.08	3.25	3.35	3.45	12.89	13.57	14.33	14.12	14.39

如表3~5所示为不同干扰噪声的5种信噪比（−10、−5、0、5、10 dB）下各个模型的语音增强效果比较. 可以看出，AV-ConvTasnet和MuSE使用卷积作为网络的主体结构，长期信息捕捉能力较弱，整体的增强效果有限. AV-Sepformer利用交叉和自注意对音视频特征进行融合和建模，由于具有学习长期依赖的能力，取得了相对出色的性能. 相较于上述所有方法，本文方法在5种信噪比下均表现出优于其他方法的效果.

在风雨噪声下，相较于次优的AV-Sepformer基线，本文方法在PESQ指标上最高提升了0.37，在SNR指标上最高提升了7.77 dB. 在救护车噪声下，本文方法在PESQ上较AV-Sepformer最高提升了0.54，在SNR指标上最高提升了7.91 dB. 在闹钟噪声下，本文方法在PESQ上较AV-Sepformer最高提升了0.52，在SNR指标上最高提升了7.63 dB. 实验表明，本文方法在不同噪声、不同信噪比干扰下均保持最优的性能.

为了研究所提模型的不同模块对增强效果的影响，开展如下消融实验.

实验1：基于双尺度Transformer的模型（AV-Sepformer）.

实验2：基于GAU的视听语音增强算法，在AV-Sepformer的基础上用分块混合的GAU替换分块的Transformer.

实验3：基于CNN-GAU的视听语音增强算法，在实验2的基础上添加了卷积模块.

实验4：基于卷积和门控注意的两阶段视听语音增强算法，在实验3的基础上增加了以视频模态为主导的阶段.

如表6~8所示为不同干扰噪声的5种信噪比下4个消融实验的语音增强效果比较. 测试集的实验结果表明，各个模块在不同程度上提升了对语音增强的效果. 从表6~8可知，AV-Sepformer由于局部特征建模的缺乏，PESQ和SI-SNR相对较低. 基于GAU的视听语音增强算法采用分块混合的门控注意单元以提供高效的远程建模，逐步提升了增强效果. 基于CNN-GAU的视听语音增强模型包含有效的远程建模和局部特征建模，进一步改善了增强效果. 基于卷积和门控注意的两阶段视听语音增强算法充分利用了音视频模态，PESQ达到最优. SNR相较于实验3略有下降，这是由于加入了视频模态为主导的阶段可能会引入一些伪影，导致信噪比略有下降，但语音的感知质量有所提高.

表 6 风雨噪声下不同模块对增强语音PESQ和SNR的影响

Tab.6 Influence of different modules on enhancing speech PESQ and SNR under wind and rain noise

模型	PESQ					SNR/dB
模型	−10 dB	−5 dB	0 dB	5 dB	10 dB	−10 dB	−5 dB	0 dB	5 dB	10 dB
实验1	2.53	2.59	2.75	2.82	2.88	6.47	6.58	6.83	6.89	6.78
实验2	2.56	2.63	2.78	2.93	2.98	10.52	11.73	12.33	13.33	13.80
实验3	2.70	2.75	2.97	3.13	3.22	11.84	12.95	14.03	14.64	14.68
实验4	2.77	2.79	3.01	3.16	3.25	12.29	13.09	14.11	14.54	14.55

表 7 救护车噪声下不同模块对增强语音PESQ和SNR的影响

Tab.7 Influence of different modules on enhancing speech PESQ and SNR under ambulance noise

模型	PESQ					SNR/dB
模型	−10 dB	−5 dB	0 dB	5 dB	10 dB	−10 dB	−5 dB	0 dB	5 dB	10 dB
实验1	2.69	2.74	2.84	2.90	2.93	6.75	6.58	6.89	6.77	6.81
实验2	2.88	2.98	3.18	3.27	3.39	13.77	13.68	14.77	14.66	14.81
实验3	2.94	3.06	3.26	3.38	3.47	14.06	14.23	14.97	14.76	14.89
实验4	2.96	3.10	3.28	3.39	3.47	13.93	14.07	14.80	14.58	14.68

表 8 闹钟噪声下不同模块对增强语音PESQ和SNR的影响

Tab.8 Influence of different modules on enhancing speech PESQ and SNR under alarm noise

模型	PESQ					SNR/dB
模型	−10 dB	−5 dB	0 dB	5 dB	10 dB	−10 dB	−5 dB	0 dB	5 dB	10 dB
实验1	2.67	2.81	2.86	2.92	2.93	6.77	6.79	6.82	6.62	6.76
实验2	2.81	2.99	3.15	3.24	3.29	12.88	13.39	13.99	13.99	14.27
实验3	2.85	3.05	3.22	3.31	3.42	12.83	13.67	14.48	14.27	14.54
实验4	2.88	3.08	3.25	3.35	3.45	12.89	13.57	14.33	14.12	14.39

如表9所示为各个模型的复杂度，包含参数量、计算量. 可以看出，AV-Sepformer的复杂度最高，基于卷积和门控注意的两阶段视听语音增强算法（实验4）的效果最优，与次优的AV-Sepformer相比，复杂度较低.

表 9 各个模型的复杂度对比

Tab.9 Comparison of complexity of various models

模型	参数量/10⁶	计算量/10⁹
AV-ConvTasnet	11.03	22.08
MuSE	15.01	25.88
AV-Sepformer	29.63	141.83
实验2	5.22	36.71
实验3	10.52	68.27
实验4	13.16	78.63

分析各个方法在语音增强方面的效果. 如图4所示为信噪比为−5 dB的带噪语音（风雨噪声）经过不同方法增强后的语谱图.

图 4

DOI:10.11959/j.issn.1000-436x.2024018 [本文引用: 1]

图 4 不同模型在−5 dB风雨噪声上的增强语音语谱图对比

Fig.4 Comparison of enhanced speech spectrogram of different models on −5 dB wind and rain noise

从图4可以看出，AV-ConvTasnet和MuSE语音增强效果较差，无法还原原本的语谱信息，噪声残留很多. 相比而言，AV-Sepformer基本还原了语音的语谱信息，但噪声残留仍旧很多. 与AV-Sepformer相比，基于GAU的视听语音增强算法的噪声残留少，但语谱信息有所丢失. 利用基于CNN-GAU的视听语音增强算法，还原了语音的语谱信息且残留的噪声少. 基于卷积和门控注意的两阶段视听语音增强算法残留的噪声最少，语音增强效果显著.

综上所述，利用本文方法，较大幅度地提升了PESQ和SNR，减小了复杂度，证明利用所提方法能够更有效地抑制噪声干扰，提升增强效果.

3. 结　语

为了解决视听语音增强模型复杂度高、性能不佳的问题，本文提出基于卷积和门控注意的两阶段视听语音增强算法. 使用分块混合GAU解决复杂度的问题，通过块内二次注意和块间线性注意捕获全局依赖关系. 在GAU的基础上添加卷积模块，对局部特征进行建模，捕获局部依赖关系. 分别将音频模态和视频模态作为主导模态，充分利用音视频模态包含的语音信息. 为了验证所提方法的有效性，在GRID数据集上进行评估对比实验. 结果表明，相较于现有方法，所提方法在增强效果方面表现更优，复杂度较低，各项评价指标的得分均有显著提升，证明了本文算法的有效性. 此外，所提方法还有待改进，如何增强模型的泛化性，使其能够自适应地处理不同的语音增强子任务，例如不同采样率的带噪语音，推进面向更真实场景的语音增强模型的研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张睿, 张鹏云, 孙超利

基于多域融合及神经架构搜索的语音增强方法

[J]. 通信学报, 2024, 45 (2): 225- 239

ZHANG Rui, ZHANG Pengyun, SUN Chaoli

Speech enhancement method based on multidomain fusion and neural architecture search

[J]. Journal on Communications, 2024, 45 (2): 225- 239

DOI:10.11959/j.issn.1000-436x.2024018 [本文引用: 1]

[2]

纪鹏威, 全海燕

基于双生成器与频域判别器GAN语音增强算法

[J]. 云南大学学报: 自然科学版, 2024, 46 (5): 871- 880

JI Pengwei, QUAN Haiyan

GAN speech enhancement algorithm based on twin synthesizer and frequency domain discriminator

[J]. Journal of Yunnan University: Natural Sciences Edition, 2024, 46 (5): 871- 880

[3]

AFOURAS T, CHUNG J S, ZISSERMAN A. The conversation: deep audio-visual speech enhancement [C]// Interspeech. Hyderabad: Curran Associates, 2018: 3244-3248.

[4]

AFOURAS T, CHUNG J S, ZISSERMAN A. My lips are concealed: audio-visual speech enhancement through obstructions [C]// Interspeech. Hyderabad: Curran Associates, 2019: 4295-4299.

[5]

MICHELSANTI D, TAN Z H, SIGURDSSON S, et al

Deep-learning-based audio-visual speech enhancement in presence of Lombard effect

[J]. Speech Communication, 2019, 115: 38- 50

DOI:10.1016/j.specom.2019.10.006

[6]

GOGATE M, DASHTIPOUR K, ADEEL A, et al

CochleaNet: a robust language-independent audio-visual model for real-time speech enhancement

[J]. Information Fusion, 2020, 63 (1): 273- 285

[7]

HOU J C, WANG S S, LAI Y H, et al

Audio-visual speech enhancement using multimodal deep convolutional neural networks

[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2 (2): 117- 128

DOI:10.1109/TETCI.2017.2784878 [本文引用: 1]

[8]

GABBAY A, SHAMIR A, PELEG S. Visual speech enhancement [C]// Interspeech. Hyderabad: Curran Associates, 2018: 1170-1174.

[9]

WU J, XU Y, ZHANG S X, et al. Time domain audio visual speech separation [C]//IEEE Automatic Speech Recognition and Understanding Workshop. Singapore: IEEE, 2019: 667-673.

[10]

PAN Z, TAO R, XU C, et al. Muse: multi-modal target speaker extraction with visual cues [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 6678-6682.

[11]

LIN J, CAI X, DINKEL H, et al. Av-Sepformer: cross-attention Sepformer for audio-visual target speaker extraction [C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1-5.

[12]

HUA W, DAI Z, LIU H, et al. Transformer quality in linear time [C]// International Conference on Machine Learning. Baltimore: [s. n. ], 2022: 9099-9117.

[13]

LUO Y, CHEN Z, YOSHIOKA T. Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona: IEEE, 2020: 46-50.

[14]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[15]

ZHAO S, MA B. Mossformer: pushing the performance limit of monaural speech separation using gated single-head transformer with convolution-augmented joint self-attentions [C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1-5.

[16]

VASWANI A, SHAZEER N, PARMAR N, et al

Attention is all you need

[J]. Advances in Neural Information Processing System, 2017, 30 (1): 261- 272

[17]

SHAZEER N. Glu variants improve transformer [EB/OL]. (2020-02-12)[2024-07-15]. https://arxiv.org/pdf/2002.05202.

DOI:10.1016/j.neucom.2023.127063 [本文引用: 1]

[18]

SU J, AHMED M, LU Y, et al

Roformer: enhanced transformer with rotary position embedding

[J]. Neurocomputing, 2024, 568: 127063

[19]

PENG Y, DALMIA S, LANE I, et al. Branchformer: parallel mlp-attention architectures to capture local and global context for speech recognition and understanding [C]// International Conference on Machine Learning. Baltimore: [s. n. ], 2022: 17627-17643.

[20]

MU Z, YANG X. Separate in the speech chain: cross-modal conditional audio-visual target speech extraction [EB/OL]. (2024-05-05)[2024-07-15]. https://arxiv.org/pdf/2404.12725.

[21]

LE ROUX J, WISDOM S, ERDOGAN H, et al. SDR–half-baked or well done? [C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton: IEEE, 2019: 626-630.