<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于对比学习的声源定位引导视听分割模型结构

Fig.1 Structure of contrastive learning-based SSL-guided AVS model

1.2. 特征提取

遵循文献方法^{[9,10,19,20,23]}的特征提取方式，图像编码器采用基于卷积的ResNet-50模型^[24]和基于视觉Transformer的PVT v2模型^[25]，音频编码器采用VGGish模型^[26]. 不同的是，为了使用对比学习方法，需要重新组织输入，让不同视频的帧之间构成对比项. 给定一批包含B个视频、每个视频有T帧的视觉信息，该信息可以表示为$ {\boldsymbol{V}} \in {{\bf{R}}^{B \times T \times 3 \times H \times W}} $，其中H和W表示帧的大小；重新组织视觉信息为$ {\boldsymbol{V}} \in {{\bf{R}}^{T \times B \times 3 \times H \times W}} $. 将每批数据分T次输入到模型中，每次的输入为$ {{{\boldsymbol{V}}}_{{\text{input}}}} \in {{\bf{R}}^{B \times {\text{3}} \times H \times W}} $，此时B个视频的帧之间构成对比项. 音频信息的组织方式同理.

给定视觉输入$ {{\boldsymbol{V}}_{{\text{input}}}} $，收集编码过程中生成的4个尺度的视觉特征，表示为$ {{\boldsymbol{F}}_{{\text{v}}}} = \left\{ {{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2},{{\boldsymbol{F}}_3},{{\boldsymbol{F}}_4}} \right\} $，$ {{\boldsymbol{F}}_i} \in {{\bf{R}}^{B \times {C_i} \times {H_i} \times {{\boldsymbol{W}}_i}}} $，其中$ {C_i} $表示视觉编码器在第i阶段输出特征的维度. 对于4个尺度的视觉特征，可以在特征增强模块中进行多尺度特征融合，并且利用Transformer编码器充分挖掘对象的语义信息.

对于音频编码，给定输入帧对应的音频片段A，对音频片段进行重新采样以产生16 kHz单声道输出$ {{{\boldsymbol{A}}}_{{\text{mono}}}} \in {{\bf{R}}^{{N} \times 96 \times 64}} $，其中$ {N} $与音频的持续时间有关. 因为让每个视频帧与1秒的音频片段构建对比学习，所以在这里将$ {N} $固定为1. 然后通过短时傅里叶变换将其处理为频谱图，传递给预训练的音频编码器VGGish，得到音频特征$ {{{\boldsymbol{F}}}_{{\text{a}}}} \in {{\bf{R}}^{B \times D}} $（D=128）.

1.3. 声源定位

1.3.1. 目标定位

对比学习在声源定位领域中已展现出显著成效^[3-5],其核心思想是通过最小化跨模态对比学习损失，使音频表示与视觉表示在至少1个空间位置上对齐，而这个位置对应于目标物体所在区域. SSL2AVS将对比学习引入视听分割任务中，来获取反映物体视觉特征激活情况的视听相似性图$ {{\boldsymbol{S}}_{{\text{avl}}}} $. 将$ {{\boldsymbol{S}}_{{\text{avl}}}} $应用于特征增强模块，以引导模型强化目标区域的特征表达，并抑制无关的背景干扰.

跨模态对比学习要求在统一的空间中缩小不同模态之间的差距. 在每批数据中任取音视频对，取其音频特征和第4个尺度的视觉特征$ \left( {{\boldsymbol{F}}_{\mathrm{a}}^x,{\boldsymbol{F}}_4^y} \right) $. 选择$ {{\boldsymbol{F}}_4} $是因为其体现了物体的高级抽象特征，包含物体的空间位置信息. 如图1所示，为了实现模态对齐，分别使用线性层$ {{\boldsymbol{W}}_1} \in {{\bf{R}}^{D \times c}} $和$ 1 \times 1 $卷积层$ {{\boldsymbol{W}}_2} \in {{\bf{R}}^{{C_4} \times c}} $，将特征$ {\boldsymbol{F}}_{\mathrm{a}}^x $和$ {\boldsymbol{F}}_4^y $投影到c维共享特征空间中：

(1)$ \widehat {{\boldsymbol{F}}_{\mathrm{a}}^x} = {{\boldsymbol{W}}_1}{\boldsymbol{F}}_{\mathrm{a}}^x+{{{\boldsymbol{b}}}_1} , $

(2)$ \widehat {{\boldsymbol{F}}_4^y} = {{\boldsymbol{W}}_2}{\boldsymbol{F}}_4^y+{{{\boldsymbol{b}}}_2} . $

式中：x、y表示特征$ {\boldsymbol{F}}_{{\mathrm{a}}}^{x}、{\boldsymbol{F}}_{4}^{y} $所在的数据批次，且$ \text{1}\leqslant x,y\leqslant B $；$ {{\boldsymbol{b}}} $为偏置项. 采用余弦相似度的值来衡量每个像素点的视觉特征与音频特征之间的相关性，视听相似性图$ {{\boldsymbol{S}}_{{\text{avl}}}} $的计算公式为

(3)$ {{\boldsymbol{S}}_{{\text{avl}}}} = \cos \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right) . $

接下来定义视听模态相似性度量$ \phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right) = \max \left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right) $，即用$ {{\boldsymbol{S}}_{{\text{avl}}}} $的最大值来衡量该音视频对的相似程度. 对比学习的优化目标是最大化同一视频中视听表示之间的相似性，同时最小化不同视频中特征之间的相似性. 数学上模态对称的方式表示为

(4)$ {L_{{\mathrm{cts}}}} = {L_{{\mathrm{a}} \to {\mathrm{v}}}}+{L_{{\mathrm{v}} \to {\mathrm{a}}}} , $

(5)$ {L_{{\mathrm{a}} \to {\mathrm{v}}}} = - \ln \frac{{\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right)} \right)}}{{\sum\limits_{k = 1}^B {\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^k}} \right)} \right)} }} , $

(6)$ {L_{{\mathrm{v}} \to {\mathrm{a}}}} = - \ln \frac{{\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right)} \right)}}{{\sum\limits_{k = 1}^B {\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^k},\widehat {{\boldsymbol{F}}_4^y}} \right)} \right)} }} . $

式中：$ {L_{{\mathrm{a}} \to {\mathrm{v}}}} $表示$ \widehat {{\boldsymbol{F}}_{\mathrm{a}}^x} $在当前数据批次中与视觉特征之间的相似性损失，目标是使之与相匹配的视觉特征$ \widehat {{\boldsymbol{F}}_4^y} $具有高相似度. $ {L_{{\mathrm{v}} \to {\mathrm{a}}}} $同理.

这一学习目标保证音频特征至少在1个位置上与视觉表示保持一致，该位置即为声源物体所在区域. 通过最小化不同视频样本间的特征相似性，模型能够促使同类物体的视觉特征聚类. 同时抑制无关物体或背景区域与音频信号的关联性，使这些区域在$ {{\boldsymbol{S}}_{{\text{avl}}}} $中呈现较低的响应值. 在后续特征处理过程中，将$ {{\boldsymbol{S}}_{{\text{avl}}}} $视为一种注意力图，使模型聚焦于高响应区域，实现对声源物体的特征强化.

1.3.2. 特征增强

特征增强策略因其融合多尺度特征、利用上下文信息中丰富的区域或通道特征的能力被广泛应用于目标分割领域. 原始视觉特征$ {{\boldsymbol{F}}_{{\text{v}}}} = \left\{ {{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2},{{\boldsymbol{F}}_3},{{\boldsymbol{F}}_4}} \right\} $包含图片全方面的特征，有较多无关的背景信息，增加了后续分割的复杂性和困难性，因此设计特征增强模块来过滤无关的背景信息. 如图2所示，该模块包含一系列的上采样过程，生成优化后的视觉特征$ {\boldsymbol{P}}_{{\mathrm{v}}}=\{{\boldsymbol{P}}_{1},{\boldsymbol{P}}_{2},{\boldsymbol{P}}_{3},{\boldsymbol{P}}_{4}\} $和定位特征$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $，其中$ {{{\boldsymbol{P}}}_i} \in {{\bf{R}}^{B \times {C_i} \times {H_i} \times {{\boldsymbol{W}}_i}}} $，且$ {{{\boldsymbol{P}}}_4} = {{\boldsymbol{F}}_4} $. 不同于U-Net模型^[27]直接使用跳跃连接进行融合，本研究开发引导式特征融合（guided feature fusion, GFF）方法. 该方法具体包含3个步骤：区域引导、空间融合^[28-29]和通道聚合^[30].

图 2

图 2 特征增强模块结构

Fig.2 Structure of feature enhancement module

首先，在区域引导步骤中，定位结果$ {\boldsymbol{S}}_{\mathrm{a}\mathrm{v}\mathrm{l}} $被用于指导高级特征$ {{{\boldsymbol{P}}}_{i+1}} $. 为了让模型观察到完整的对象区域，设计激活函数$ {\text{ACT}} $，表示为

(7)$ {\text{ACT}}\left( x \right) = \sin \left(\frac{{\text{π}}}{2}x\right);\;x \in \left[ { - 1.0,1.0} \right] . $

不同于Sigmoid激活函数，$ {\text{ACT}}\left( x \right) $具有中心对称的性质. 当$ x \in \left[ {0,1.0} \right] $时，由于$ \text{ACT}\left(x\right)\geqslant x $，经过激活后注意力分数变大，意味着注意权重增强且观察区域扩大，这样的情况常出现在物体边界. 当$ x \in \left[ { - 1.0,0} \right] $时，由于$ \text{ACT}\left(x\right)\leqslant x $，经过激活后注意力分数变小，表示对背景区域的注意被削弱.

对$ {{\boldsymbol{S}}_{{\text{avl}}}} $进行上采样（upsample, UP）和$ {\text{ACT}} $激活操作，使$ {{\boldsymbol{S}}_{{\text{avl}}}} $大小和$ {{{\boldsymbol{P}}}_{i+1}} $一致. 将$ {{\boldsymbol{S}}_{{\text{avl}}}} $作为注意力图来表示高级特征的区域重要性，并使用残差连接得到加权特征：

(8)$ {{\boldsymbol{S}}'_{{\text{avl}}}} = {\text{ACT}}\left( {{\text{UP}}\left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right)} \right) , $

(9)$ {{\boldsymbol{P}}'_{i+1}} = {{{\boldsymbol{P}}}_{i+1}}+{{{\boldsymbol{P}}}_{i+1}} \times {{\boldsymbol{S}}'_{{\text{avl}}}} . $

区域引导过程旨在增强目标物体的视觉特征，同时削弱背景细节的影响. 在上采样过程中，对$ {{\boldsymbol{S}}_{{\text{avl}}}} $多次使用$ {\text{ACT}} $，从而逐渐扩散物体的感知区域，这符合人类先定位再扩散式地观察整个物体的习惯.

其次，在空间融合步骤，通过双线性插值将$ {{\boldsymbol{P}}'_{i+1}} $放大以匹配$ {{\boldsymbol{F}}_i} $的大小. 随后，分别使用卷积层处理$ {{\boldsymbol{P}}'_{i+1}} $和$ {{\boldsymbol{F}}_i} $，目的是将$ {{\boldsymbol{P}}'_{i+1}} $的输出通道设为1，作为空间注意权重，并减少$ {{\boldsymbol{F}}_i} $中的不相关噪声. 为了有效地抑制外来信息并提高目标物体的定位精度，将逐元素乘法应用于这些特征的融合，得到空间特征$ {{\boldsymbol{S}}} $：

(10)$ {{\boldsymbol{S}}} = {\text{Con}}{{\text{v}}_{{c_{i+1}} \to 1}}\left( {{{\boldsymbol{P}}'_{i+1}}} \right) \times {\text{Con}}{{\text{v}}_{{c_i} \to {c_i}}}\left( {{{\boldsymbol{F}}_i}} \right) . $

式中：$ {\text{Conv}} $表示卷积操作，下标中的$ {c_{i+1}} $和1分别表示卷积层的输入和输出通道.

最后，通道聚合步骤的目的是放大具有更高响应的通道. 每个通道的权重与相应的空间特征相互作用，增强或抑制特定的通道特征. 最终得到特征$ {{{\boldsymbol{P}}}_i} $：

(11)$ {{{\boldsymbol{P}}}_i} = {{\boldsymbol{S}}}+{{\boldsymbol{S}}} \times {\text{Linea}}{{\text{r}}_{{c_i} \to {c_i}}}\left( {{\text{GAP}}\left( {{\boldsymbol{S}}} \right)} \right) . $

式中：$ {\text{Linear}} $表示线性层，GAP表示平均池化操作. 使用$ {{{\boldsymbol{P}}}_1} $作为GFF的输入，获取定位特征$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $，特征增强过程表示为

(12)$ {{{\boldsymbol{P}}}_i} = {\text{GFF}}\left( {{{{\boldsymbol{P}}}_{i+1}}+{{{\boldsymbol{P}}}_{i+1}} \times {\text{ACT}}\left( {{\text{UP}}\left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right)} \right),{{\boldsymbol{F}}_i}} \right);\;i = 1,2,3 .$

(13)$ {{{\boldsymbol{P}}}_{{\text{loc}}}} = {\text{GFF}}\left( {{{{\boldsymbol{P}}}_1}+{{{\boldsymbol{P}}}_1} \times {\text{ACT}}\left( {{\text{UP}}\left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right)} \right),{{{\boldsymbol{P}}}_1}} \right) . $

在上采样过程中，模型不仅由局部到整体地逐步加深了对物体的理解，而且逐渐过滤了背景噪声. 比起原始特征$ {{\boldsymbol{F}}_{{\text{v}}}} $，优化后的$ {{{\boldsymbol{P}}}_{{\text{v}}}} $更简洁，更能直观反映物体，因此更有利于模型辨明物体类别，从而提高分割的准确性.

1.4. 视听分割

1.4.1. Transformer编码器

AVSegFormer模型将原始图像编码器输出的特征$ \left\{ {{{\boldsymbol{F}}_2},\;{{\boldsymbol{F}}_3},\;{{\boldsymbol{F}}_4}} \right\} $作为Transformer编码器的输入来构建掩码特征. 与之不同的是，SSL2AVS使用特征$ \left\{ {{{{\boldsymbol{P}}}_2},\;{{{\boldsymbol{P}}}_3},\;{{{\boldsymbol{P}}}_4}} \right\} $. 因为经过增强的特征去除了噪声和多余细节，只保留核心的特征信息，所以构建出的掩码特征更简洁，有利于解码器解码物体，从而有助于提高模型的性能. 之后，取出编码器的输出$ {{\boldsymbol{P}}'_2} $以用于多阶段视觉特征融合.

1.4.2. 音视觉双向融合

在以往的研究中，音频查询通常由音频特征独立获得，但这忽略了视觉信息对音频特征的重要作用^[14-15]. 特别是当场景中存在外形与声源物体相似的干扰物体时，仅依靠原始音频特征，模型难以准确建立查询与物体视觉特征之间的对应关系. 为了应对这一问题，采用COMBO框架^[10]中的双向注意力融合模块（bilateral-fusion module, BFM）. 通过4个线性层将$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $和$ {{\boldsymbol{F}}_{{\text{a}}}} $映射到相同维度，以获得查询 $ {{\boldsymbol{Q}}} = {{{\boldsymbol{P}}}_{{\text{loc}}}}{{\boldsymbol{W}}_{\boldsymbol{Q}}} $，键$ {{\boldsymbol{K}}} = {{\boldsymbol{F}}_{{\text{a}}}}{{\boldsymbol{W}}_K} $，视觉值$ {{{\boldsymbol{V}}}_{\text{v}}} = {{{\boldsymbol{P}}}_{{\text{loc}}}}{\boldsymbol{W}}_{\boldsymbol{V}}^{\text{v}} $和音频值${{{\boldsymbol{V}}}_{\text{a}}}{\text{ = }} $$ {{\boldsymbol{F}}_{{\text{a}}}}{\boldsymbol{W}}_{\boldsymbol{V}}^{\text{a}} $. 双向注意力的操作为

(14)$ {{{\boldsymbol{P}}}_{{\text{fuse}}}}{\text{ = Softmax(}}{{\boldsymbol{Q}{\boldsymbol{K}}}^{\text{T}}}{\text{/}}\sqrt d {\text{)}}{{{\boldsymbol{V}}}_{\text{v}}}{\text+}{{{\boldsymbol{P}}}_{{\text{loc}}}} , $

(15)$ {\boldsymbol{F}}'_{{\text{a}}}{\text{ = Softmax(}}{{\boldsymbol{Q}{\boldsymbol{K}}}^{\text{T}}}{\text{/}}\sqrt d {\text{)}}{{{{{\boldsymbol{V}}}_{\text{a}}}}}{\text+}{{\boldsymbol{F}}_{{\text{a}}}} . $

式中：$ {{{\boldsymbol{P}}}_{{\text{fuse}}}} $、$ {\boldsymbol{F}}'_{{\text{a}}} $为BFM的输出，表示融合后的视觉、音频特征；d为缩放因子. 在BFM之后，将$ {{\boldsymbol{F}}'_{{\text{a}}}} $与可学习的嵌入相加，作为Transformer解码器的对象查询. 比起$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $，$ {{{\boldsymbol{P}}}_{{\text{fuse}}}} $具有更鲜明的物体边界，在多阶段视觉特征融合中起到了补全物体边缘细节的作用.

1.4.3. 多阶段视觉-音频特征融合

多阶段特征融合器融合多个来源的视觉特征，并利用注意力机制将融合后的视觉特征与$ {{\boldsymbol{F}}'_{{\text{a}}}} $选择性地放大. 具体来说，先通过1个可学习的权重参数α将$ {{{\boldsymbol{P}}}_{{\text{fuse}}}} $加权到$ {{{\boldsymbol{P}}}_1} $上以丰富$ {{{\boldsymbol{P}}}_1} $的纹理细节，这是从空间角度对视觉特征的增强. 然后通过1个1×1卷积层整合通道信息，得到$ {{\boldsymbol{P}}'_1} $. 接着，将$ {{\boldsymbol{P}}'_1} $与$ {{\boldsymbol{P}}'_2} $相加并通过1个3×3卷积层，得到掩码特征$ {{\boldsymbol{F}}_{{\text{mask}}}} $. 最后，利用通道注意力（channel attention, CHA）^[20]选择性地缩放不同的视觉通道，提高模型捕捉复杂视听关系的能力，这是从通道角度对视觉特征的增强. 整个过程可以表示为

(16)$ {{\boldsymbol{P}}'_1} = {\text{Con}}{{\text{v}}}\left( {\alpha {{{\boldsymbol{P}}}_{{\text{fuse}}}}+{{{\boldsymbol{P}}}_1}} \right) , $

(17)$ {{\boldsymbol{F}}_{{\text{mask}}}} = {\text{Con}}{{\text{v}}}\left( {{{\boldsymbol{P}}'_1}+{\text{UP}}\left( {{{\boldsymbol{P}}'_2}} \right)} \right) , $

(18)$ {{\boldsymbol{F}}'_{{\text{mask}}}}{\text{ = }}{{\boldsymbol{F}}_{{\text{mask}}}}{\text{+CHA}}\left( {{{\boldsymbol{F}}_{{\text{mask}}}}{\text{,}}{{\boldsymbol{F}}'_{{\text{a}}}}} \right) . $

1.4.4. Transformer解码器

利用Transformer解码器构建潜在的稀疏查询，并将视觉特征与相应的查询进行最佳匹配. 在$ {{\boldsymbol{F}}'_{{\text{a}}}} $基础上添加可学习的嵌入作为对象查询，使用多尺度视觉特征作为键和值. 随着解码过程的进行，对象查询不断地与视觉特征聚合，最终将听觉和视觉模式结合起来，生成包含多种目标信息的结果. 将Transformer解码器的输出查询$ {{{\boldsymbol{Q}}}_{{\text{output}}}} $与掩码特征$ {{\boldsymbol{F}}'_{{\text{mask}}}} $相乘，再使用通道上的多层感知机（multi-layer perceptron, MLP）对不同通道进行集成，最后通过全连接层（full connection layer, FC）预测掩码$ {\boldsymbol{M}} $：

(19)$ {{\boldsymbol{M}}}{\text{ = FC}}\left[ {{{\boldsymbol{F}}'_{{\text{mask}}}}{\text{+MLP}}\left( {{{\boldsymbol{F}}'_{{\text{mask}}}} \times {{{\boldsymbol{Q}}}_{{\text{output}}}}} \right)} \right] . $

1.5. 损失函数

随着定位生成和特征增强过程的引入，模型在初步对齐音视频语义和定位声源物体方面取得了良好的效果，但是在面对复杂场景时，存在语义混淆问题，导致鲁棒性不足. 因此采用定位损失$ {L_{{\text{loc}}}} $来监督定位引导的特征增强产物$ {{\boldsymbol{P}}_{{\text{loc}}}} $. 将$ {{\boldsymbol{P}}_{{\text{loc}}}} $与真实标签$ {{\boldsymbol{T}}} $相比，使用Dice损失^[31]，以确保声源物体所在区域拥有更高的响应值而背景区域有较低的响应值. 定位损失$ {L_{{\text{loc}}}} $的计算方式如下：

(20)$ {L_{{\text{loc}}}}{\text{ = Dice\;(}}{{{\boldsymbol{P}}}_{{\text{loc}}}}{\text{,}}{{\boldsymbol{T}}}{{) = 1 - }}\frac{{{\text{2}} \times \left| {{{{\boldsymbol{P}}}_{{\text{loc}}}} \cap {{\boldsymbol{T}}}} \right|}}{{\left| {{{{\boldsymbol{P}}}_{{\text{loc}}}}} \right|{\text+}\left| {{\boldsymbol{T}}} \right|}}. $

综合训练损失包括4个部分：分割损失$ {L_{{\text{IoU}}}} $、对比损失$ {L_{{\text{cts}}}} $、定位损失$ {L_{{\text{loc}}}} $和混合损失$ {L_{{\text{mix}}}} $. 其中，$ {L_{{\text{IoU}}}} $和$ {L_{{\text{mix}}}} $分别用来计算预测掩码$ {{\boldsymbol{M}}} $和掩码特征$ {{\boldsymbol{F}}'_{{\text{mask}}}} $与真实标签之间的差异，计算方式为$ {\text{Dice(}}{{\boldsymbol{M}}}{\text{,}}{{\boldsymbol{T}}}{\text{)}} $、$ {\text{Dice(}}{{\boldsymbol{F}}'_{{\text{mask}}}}{\text{,}}{{\boldsymbol{T}}}{\text{)}} $. 在AVS任务中，分割物体的面积占图像总面积的比例相对较小，使用Dice损失可以使模型更专注于前景，从而最大限度地减少对背景的干扰. 总的训练损失表示为

(21)$ L = {L_{{\text{IoU}}}}+{\lambda _1}{L_{{\text{cts}}}}+{\lambda _2}{L_{{\text{loc}}}}+{\lambda _3}{L_{{\text{mix}}}}. $

式中：$ {\lambda _{\text{1}}} $、$ {\lambda _2} $和$ {\lambda _3} $为损失系数.

2. 实验与结果

2.1. 数据集和指标

AVSBench-Object^[9]是专门为视听分割任务设计的视听数据集，包含像素级注释. 根据场景中声源物体的数量，将数据集划分为2个子集：用于单个声源分割的单声源子集（S4）和用于多个声源分割的多声源子集（MS3）. S4子集包含4 932个视频，其中3 452个视频用于训练，740个用于验证，740个用于测试. 其目标对象涵盖23个类别，包括人、动物、车辆和乐器. MS3子集有424个视频，包括296个训练视频、64个验证视频和 64个测试视频，涵盖类别与S4子集相同.

和文献[9]、[20]、[32]一样，本研究使用均交并比（mean Intersection-over-Union, mIoU)和F1分数（F-score）作为评价指标，分别用$ {M_{\text{J}}} $、$ {M_{\mathrm{F}}} $表示. 对于这2种指标，更高的值表示更好的分割性能.

2.2. 实验环境与参数设置

实验使用的GPU型号为NVIDIA 3090，深度学习框架为PyTorch 1.10.0版本，CUDA运行环境为11.1版. SSL2AVS模型在S4和MS3子集上训练时的迭代次数分别为30和60，批次大小为4，使用的优化器为AdamW^[33]，初始学习率为$ 2 \times {10^{ - 5}} $（每15次迭代，学习率衰减一半）. 和AVSegFormer一致，使用在ImageNet-1K^[34]上预训练的ResNet-50或PVT v2图像编码器提取视觉特征，使用在AudioSet^[35]上预训练的VGGish^[26]音频编码器提取音频特征. Transformer编码器和解码器的层数为6，嵌入维度为256. 损失系数$ {\lambda _1} $设置为0.01，$ {\lambda _2} $和 $ {\lambda _3} $设置为0.1.

2.3. 实验结果

在AVSBench-Object数据集上，采取的输入帧大小分别为224×224和512×512，获得SSL2AVS模型和AVSegFormer模型的性能比较结果如表1所示. 表中，输入帧大小为512×512的方法由*标出，去除ResNet池化层的方法由+标出，FPS为每秒显示的帧数. 当输入帧大小为224×224时，SSL2AVS和现有的视听分割方法的性能比较结果如表2所示.

表 1 SSL2AVS与基线模型的性能比较

Tab.1 Performance comparison between SSL2AVS and baseline model

方法	图像编码器	FPS/(帧·s⁻¹)	S4		MS3
方法	图像编码器	FPS/(帧·s⁻¹)	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%
AVSegFormer-R50	ResNet-50	114.97	85.9	76.45	62.8	49.53
SSL2AVS-R50	ResNet-50	96.39	86.5	76.87	63.3	52.49
AVSegFormer-R50+	ResNet-50	42.53	86.4	76.11	58.0	43.41
SSL2AVS-R50+	ResNet-50	36.33	86.8	77.16	66.9	56.18
AVSegFormer-R50*	ResNet-50	30.96	86.7	76.38	65.6	53.81
SSL2AVS-R50*	ResNet-50	26.11	88.0	78.68	69.8	59.50
AVSegFormer-PVT	PVT v2	81.83	89.9	82.06	69.3	58.36
SSL2AVS-PVT	PVT v2	80.06	90.3	82.42	72.3	62.15
AVSegFormer-PVT*	PVT v2	22.79	90.5	83.06	73.0	61.33
SSL2AVS-PVT*	PVT v2	21.20	91.6	84.43	75.6	65.16

表 2 SSL2AVS与现有视听分割方法的性能比较

Tab.2 Performance comparison of SSL2AVS and existing AVS methods

方法	图像编码器	S4		MS3
方法	图像编码器	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%
AVSBench^[9]	ResNet-50	84.8	72.80	57.8	47.90
AVSBench^[9]	PVT v2	87.9	78.70	64.5	54.00
ECMVAE^[23]	ResNet-50	86.5	76.33	60.7	48.69
ECMVAE^[23]	PVT v2	90.1	81.74	70.8	57.84
CATR^[19]	ResNet-50	86.6	74.80	65.3	52.80
CATR^[19]	PVT v2	89.6	81.40	70.0	59.00
AVSC^[36]	ResNet-50	85.2	77.02	61.5	49.58
AVSC^[36]	PVT v2	88.2	80.57	65.1	58.22
AVS-UFE^[32]	ResNet-50	87.5	78.96	64.5	55.88
AVS-UFE^[32]	PVT v2	90.4	83.15	70.9	61.95
COMBO^[10]	ResNet-50	90.1	81.70	66.6	54.50
COMBO^[10]	PVT v2	91.9	84.70	71.2	59.20
AVSegFormer^[20]	ResNet-50	85.9	76.45	62.8	49.53
AVSegFormer^[20]	PVT v2	89.9	82.06	69.3	58.36
SSL2AVS	ResNet-50	86.8	77.16	66.9	56.18
SSL2AVS	PVT v2	90.3	82.42	72.3	62.15

由表1可知，当以512×512的图像作为输入时，与AVSegFormer模型相比，SSL2AVS-R50*和SSL2AVS-PVTv2*的$ {M_{\text{J}}} $指标在 MS3子集上提高了5.69和3.83个百分点，在S4子集上提高了2.30和1.37个百分点. 这些结果表明，SSL2AVS模型在分割方面的性能优于AVSegFormer模型. 但由于SSL2AVS涉及声源定位过程，其FPS值低于AVSegFormer模型. SSL2AVS-PVT的FPS值比AVSegFormer-PVT下降了2.2%，但在MS3子集上，SSL2AVS-PVT的$ {M_{\text{J}}} $值提升了6.5%，说明此时牺牲部分帧率以换取分割性能的提升是可以接受的. 然而，SSL2AVS-R50的FPS值比AVSegFormer-R50下降了16.2%，在MS3子集上的$ {M_{\text{J}}} $值却只提升了6.0%. 如何设计效率更高的声源定位模块仍值得研究.

从表2可以看出，SSL2AVS在MS3子集上表现出不俗的竞争力. 当分别使用ResNet-50模型和PVT v2模型作为图像编码器时，SSL2AVS的$ {M_{\text{J}}} $指标为56.18%、62.15%，$ {M_{\text{F}}} $为66.9%、72.3%，性能达到先进水平. 对比结果表明，与众多视听分割方法相比，SSL2AVS具有较强的竞争力.

2.4. 扩展实验

2.4.1. 视听相似性图尺寸的影响

由于不同尺度的特征会生成不同尺寸的$ {{\boldsymbol{S}}_{{\text{avl}}}} $，为了探究不同尺寸$ {{\boldsymbol{S}}_{{\text{avl}}}} $对特征及分割结果的影响，通过去除ResNet-50模型中的最大池化层来放大特征. 去除池化层后，特征尺寸放大1倍，相应的$ {{\boldsymbol{S}}_{{\text{avl}}}} $也放大1倍. 如表3所示，与基线模型相比，SSL2AVS在扩大特征尺寸后取得了明显的改进，特别是在MS3子集上$ {M_{\text{J}}} $有3.69个百分点的提升. 这是因为在较大尺寸下，$ {{\boldsymbol{S}}_{{\text{avl}}}} $反映出更为精细的物体形状，可以对特征实现更精细的指导. 如图3所示，$ {{\boldsymbol{S}}_{{\text{avl}}}} $显著地影响了$ {{{\boldsymbol{P}}}_1} $的结果. 在较大尺寸$ {{\boldsymbol{S}}_{{\text{avl}}}} $的作用下，$ {{{\boldsymbol{P}}}_1} $勾勒出更为准确的人形，从而改善分割结果.

表 3 去除池化层引起的特征尺寸变化对实验结果的影响

Tab.3 Effect of characteristic size change caused by removal of pool layer on experimental results

去除/保留最大池化层	AVSegFormer				SSL2AVS
	S4		MS3		S4		MS3
	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
去除	76.11	86.4	43.41	58.0	77.16	86.8	56.18	66.9
保留	76.45	85.9	49.53	62.8	76.87	86.5	52.49	63.3

图 3

图 3 是否去除池化层、经过预训练和使用$ {\text{ACT}} $激活的视听分割结果比较

Fig.3 Comparison of AVS results with and without pool layer, pretraining and ACT activation

2.4.2. 预训练权重对MS3子集的影响

由于S4和MS3具有相同的目标对象类别，可以设想在S4权重上微调过的模型能够在MS3上生成更精确的$ {{\boldsymbol{S}}_{{\text{avl}}}} $，从而正确地指导特征增强. 由表4可以看出，S4子集上的预训练确实提高了模型在MS3子集上的性能. 在所有使用S4预训练权值的方法中，SSL2AVS在MS3子集上的$ {{{M}}_{\text{J}}} $值高于近年先进模型. 如图3所示，经过预训练的模型在物体边缘细节上具有更高的敏感度，生成了更完整精细的$ {{\boldsymbol{S}}_{{\text{avl}}}} $和$ {{{\boldsymbol{P}}}_1} $，从而验证了设想.

表 4 MS3子集上不同初始化策略的性能比较

Tab.4 Performance comparison of different initialization strategies on MS3 sub-dataset

帧尺寸	方法	从头训练				S4预训练
		ResNet-50		PVT v2		ResNet-50		PVT v2
		$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
224×224	AVSBench	47.88	57.8	54.00	64.5	54.33	—	57.34	—
	ECMVAE	48.69	60.7	57.84	70.8	57.56	67.4	60.81	72.9
	AuTR	49.41	61.2	56.21	67.2	56.00	66.0	60.95	72.5
	AVS-UFE	55.88	64.5	61.95	70.9	59.32	—	64.47	—
	AVSegFormer	49.53	62.8	58.36	69.3	53.73	64.3	60.92	72.0
	SSL2AVS	52.49	63.3	62.15	72.3	59.84	69.4	64.16	74.7
	SSL2AVS+	56.18	66.9	—	—	62.49	72.5	—	—
512×512	AVSegFormer	53.81	65.6	61.33	73.0	54.49	63.7	61.37	73.1
512×512	SSL2AVS	59.50	69.8	65.16	75.6	64.27	74.3	68.44	77.8

2.4.3. $ {\text{ACT}} $激活的影响

为了验证在$ {{\boldsymbol{S}}_{{\text{avl}}}} $上使用$ {\text{ACT}} $激活函数对于引导模型进行物体观察的积极作用，分别在3种情况下进行实验：使用$ {\text{ACT}} $函数激活、使用$ {\text{Sigmoid}} $函数激活和不使用函数激活. 如表5所示，使用$ {\text{ACT}} $激活函数在所有情况下都取得了更好的结果. 如图3所示，经过$ {\text{ACT}} $激活后，由于物体边界的激活值变大，$ {{\boldsymbol{S}}_{{\text{avl}}}} $会引导模型对细微的物体边界进行观察，生成更完整的分割结果，从而验证了对$ {{\boldsymbol{S}}_{{\text{avl}}}} $使用$ {\text{ACT}} $激活的有效性.

表 5 ACT激活对实验结果的影响

Tab.5 Effect of ACT activation on experimental results

激活函数	图像编码器	S4		MS3
激活函数	图像编码器	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
ACT	ResNet-50	78.68	88.0	59.50	69.8
ACT	PVT v2	84.43	91.6	65.16	75.6
Sigmoid	ResNet-50	78.19	87.8	55.40	66.1
Sigmoid	PVT v2	84.15	91.3	61.69	72.9
—	ResNet-50	77.76	87.2	58.76	69.3
—	PVT v2	84.33	91.5	63.30	74.3

2.4.4. 使用少量训练数据的影响

在2个子集上，当图像大小为512×512时，使用不同比例（10%和30%）的训练数据测试模型性能. 如表6所示，在更为复杂的MS3子集上，SSL2AVS无论采取10%或30%的数据比例，基于ResNet-50或PVT v2图像编码器的模型都展现出积极的改进效果. 例如，当采用ResNet-50编码器且仅使用30%的标记数据时，SSL2AVS的$ {M_{\text{J}}} $值提高了10.36个百分点，表明SSL2AVS在标注数据有限的情况下比AVSegFormer模型更有效. 这可以归因于处理后的特征含有更少的背景噪声，有利于模型学习到物体的真实语义.

表 6 SSL2AVS与基线模型使用少量训练数据的性能比较

Tab.6 Performance comparison of SSL2AVS and baseline model using a small amount of training data

方法	图像编码器	$N_{\mathrm{p}} / 10^6 $	MS3				S4
			10%		30%		10%		30%
			$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
AVSegFormer	ResNet-50	126.74	44.58	56.9	47.40	60.7	70.13	84.3	74.81	85.7
AVSegFormer	PVT v2	183.95	52.75	64.8	55.16	67.9	79.68	88.8	81.55	89.7
SSL2AVS	ResNet-50	136.45	53.90	66.0	57.76	69.2	71.80	84.3	76.67	87.1
SSL2AVS	PVT v2	179.72	59.57	69.2	62.58	72.6	80.94	89.8	82.75	90.8

2.5. 消融实验

利用消融实验来验证SSL2AVS中每个关键设计的有效性. 实验中，采取的帧大小为512×512.

2.5.1. 特征增强模块的影响

为了分析引导式特征增强策略对后续分割任务的影响，分别以原始视觉特征$ {{\boldsymbol{F}}_{{\text{v}}}} $和增强后的特征$ {{{\boldsymbol{P}}}_{{\text{v}}}} $为分割依据进行对比试验，结果如表7显示. 表中，N_p为模型参数量. 在S4子集上，引导式特征增强策略带来的改善作用相对较小，而在MS3子集上，引导式特征增强策略带来明显的改善. 分别将ResNet-50模型和PVT v2模型作为图像编码器，引入13.0%和1.0%的参数，获得的$ {M_{\text{J}}} $值有11.5%和8.7%的提升，说明了在复杂场景下进行特征增强的必要性. 图4可视化了特征增强带来的影响. 图中，2个带有9通道的例子均包含真实标签和预测掩码. 真实标签（狮子和手枪）的特征被突出显示，而非发声物体（汽车和人）的特征被抑制，这种特征处理方式导致了不同的分割掩码结果. 值得注意的是，处理后的特征包含的背景噪声明显较少，这无疑有利于后续分割.

表 7 特征增强模块对模型性能的影响

Tab.7 Impact of feature enhancement module on model performance

特征增强	图像编码器	$N_{\mathrm{p}} / 10^6 $	S4		MS3
特征增强	图像编码器	$N_{\mathrm{p}} / 10^6 $	$ {M_{\mathrm{J}}} $/%	$ {M_{\mathrm{F}}} $/%	$ {M_{\mathrm{J}}} $/%	$ {M_{\mathrm{F}}} $/%
无	ResNet-50	120.75	77.59	87.5	53.37	64.0
无	PVT v2	177.98	84.24	91.4	59.96	71.6
有	ResNet-50	136.45	78.68	88.0	59.50	69.8
有	PVT v2	179.72	84.43	91.6	65.16	75.6

图 4

图 4 是否经过特征增强的特征比较

Fig.4 Comparison of features with or without feature enhancement

2.5.2. 对比损失和定位损失的影响

为了了解定位损失和对比损失的影响，分别在有或没有定位损失和对比损失的情况下训练SSL2AVS模型. 表8结果表明，定位损失和对比损失对最终的预测具有积极作用.

表 8 对比损失和定位损失对模型性能的影响

Tab.8 Impact of contrastive loss and location loss on model performance

$ {L_{{\text{loc}}}} $	$ {L_{{\text{cts}}}} $	S4		MS3
$ {L_{{\text{loc}}}} $	$ {L_{{\text{cts}}}} $	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
无	无	78.42	87.9	57.62	68.1
有	无	78.34	87.9	59.11	69.8
有	有	78.68	88.0	59.50	69.8

2.5.3. 双向注意力融合模块的影响

为了研究双向融合模块的影响，使用融合模块的不同变体进行对比实验，包括不进行任何融合、仅视觉融合（将音频特征注入视觉）、仅音频融合（将视觉特征注入音频）和完整的双向融合. 如表9所示，与未进行融合的模型相比，双向融合的$ {M_{\text{J}}} $值在S4和MS3子集上分别提高了1.39和3.52个百分点. 值得注意的是，无论是仅视频融合还是仅音频融合，都在不进行任何融合的基础上有了一定的提升，这说明了深度交融视听觉特征对视听分割任务的重要性.

表 9 双向注意力融合模块对模型性能的影响

Tab.9 Impact of bidirectional attention fusion module on model performance

融合方式	S4		MS3
融合方式	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
不进行任何融合	77.29	86.9	55.98	66.9
仅视觉融合	77.66	87.3	58.84	69.0
仅音频融合	77.84	87.2	57.57	68.6
双向融合	78.68	88.0	59.50	69.8

2.5.4. 查询数量的影响

为了分析查询数量对模型性能的影响，将查询数量分别设置为100、200、300和500进行实验. 根据表10中的结果，合适的查询数量可以提高模型的性能；当查询数量设置为300时，模型获得最佳性能.

表 10 查询数量对模型性能的影响

Tab.10 Impact of query quantity on model performance

查询数量	S4		MS3
查询数量	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
100	77.87	87.2	58.51	68.6
200	77.84	87.4	58.88	69.0
300	78.68	88.0	59.50	69.8
500	77.75	87.3	58.89	69.0

2.5.5. 可学习查询的影响

研究在$ {\boldsymbol{F}}'_{{\text{a}}} $基础上添加可学习的嵌入作为对象查询对模型性能的影响. 实验结果如表11所示，添加可学习嵌入有利于提升分割性能，表明额外的参数使模型能够更有效地学习对象在不同场景中的复杂变化.

表 11 可学习查询对模型性能的影响

Tab.11 Impact of learnable queries on model performance

可学习嵌入	S4		MS3
可学习嵌入	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
不添加	77.43	87.3	57.47	68.0
添加	78.68	88.0	59.50	69.8

2.5.6. 损失系数的影响

为了分析式(21)中3个不同的$ \lambda $超参数对模型性能的影响，通过设置不同的参数值进行比较分析. 由于S4数据集场景简单，只存在单个目标，系数的变化对其影响不大. 而MS3数据集场景复杂，更接近实际情况，因此在不同系数下，MS3数据集的结果有明显差异. 如表12所示，设置合适的$ {\lambda _{\text{2}}} $和$ {\lambda _{\text{3}}} $有利于提升性能. 值得注意的是，在编号为6和8的实验中，$ {\lambda _{\text{1}}} $和$ {\lambda _{\text{2}}} $取值偏大，均对实验结果造成不利影响. 通过对比模型收敛后各部分损失值的大小，发现过大的$ {\lambda _{\text{2}}} $系数会影响$ {L_{{\text{mix}}}} $的收敛，而过大的$ {\lambda _{\text{1}}} $系数容易造成$ {\lambda _{\text{2}}} $不收敛. 因此，为了达到最佳优化目标，需要追求3个损失系数之间的数值平衡.

表 12 损失系数对模型性能的影响

Tab.12 Impact of loss coefficients on model performance

编号	$ {\lambda _{\text{1}}} $	$ {\lambda _{\text{2}}} $	$ {\lambda _{\text{3}}} $	MS3
编号	$ {\lambda _{\text{1}}} $	$ {\lambda _{\text{2}}} $	$ {\lambda _{\text{3}}} $	$ {M_{\text{J}}} $/%	$ {M_{\text{F}}} $/%
0	0.00	0.00	0.00	56.67	67.4
1	0.00	0.00	0.05	56.86	68.1
2	0.00	0.00	0.10	57.62	68.1
3	0.00	0.00	0.50	56.88	67.1
4	0.00	0.05	0.10	59.07	69.5
5	0.00	0.10	0.10	59.11	69.8
6	0.00	0.50	0.10	57.72	68.2
7	0.01	0.10	0.10	59.50	69.8
8	0.05	0.10	0.10	55.43	66.6
9	0.10	0.10	0.10	57.55	68.1

2.6. 定性分析

图5展示了SSL2AVS与AVSegFormer模型的部分分割结果. 可视化结果清楚地证明了SSL2AVS的优势，即具有较强的目标定位能力和语义理解能力，能够在多个声源场景中有效识别正确的声源，并准确分割出目标物体. 在图5(a)中的第1个视频中，由于背景干扰，AVSegFormer不能准确地将小目标物体（枪）从其背景（手）中分离出来；在第2个视频中，由于马的形状并不完整，AVSegFormer对其没有全局的认识，只分割出部分内容. 在图5(b)中的第1个视频中，SSL2AVS为2种乐器生成的分割结果具有细粒度的细节；在第2个视频中，SSL2AVS准确定位了狗，并将其完整地分割出来，而没有生成多余的噪声. 这些结果突出了SSL2AVS的有效性和鲁棒性.

图 5

图 5 SSL2AVS与AVSegFormer在S4和MS3子集上的模型性能定性比较

Fig.5 Qualitative comparison of model performance between SSL2AVS and AVSegFormer on S4 and MS3 subsets

3. 结　论

（1）通过两阶段策略，从声源定位到视听分割，从粗到精地实现目标分割，可以有效地处理复杂的视觉和听觉信息，从而提高了目标分割的精度. 尤其在复杂场景中，模型具有更强的鲁棒性.

（2）在声源定位阶段，使用对比学习方法实现视听模态对齐，可以获得声源物体的潜在空间位置. 通过设计特征增强模块，利用定位结果增强了目标物体的视觉特征，并降低了背景噪声的干扰.

（3）在音视觉的跨模态融合方面，使用双向注意力机制可以有效捕捉并增强视觉与听觉信息之间的关联. 此外，多阶段视觉特征融合有效整合了视觉的多层次信息，使视觉特征更加丰富和细致. 在音视觉的融合过程中，音频信息可以用于选择性地增强相关视觉区域，并调节不同视觉通道的权重，从而实现视觉特征的增强. 基于Transformer结构，可以利用音频特征构建目标查询，以视觉特征为键和值聚合包含多种目标信息的结果，作为最终的分割依据.

（4）对AVSBench-Object数据集的实验结果表明，SSL2AVS优于AVSegFormer模型，特别是在较为复杂的MS3子集上，其mIoU值达到了62.15. 此外，粗定位引导特征增强的策略可以获取简洁的物体特征，有利于模型拟合.

综上所述，SSL2AVS模型在复杂的多声源环境下展现出了卓越的性能. 但由于粗定位结果不够精准，模型对物体的整体感知能力仍有待提高. 在未来的研究中，将优化定位方法，以获取物体的全面区域. 同时，开发新的特征增强方法以及设计有效的视听融合模块，也将是下一步的工作重点.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ARANDJELOVIĆ R, ZISSERMAN A. Look, listen and learn [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 609–617.

[2]

ARANDJELOVIĆ R, ZISSERMAN A. Objects that sound [C]// Proceedings of the European Conference on Computer Vision. Murich: ECVA, 2018: 451–466.

[3]

QIAN R, HU D, DINKEL H, et al. Multiple sound sources localization from coarse to fine [C]// Proceedings of the European Conference on Computer Vision. Glasgow: ECVA, 2020: 292–308.

[本文引用: 4]

[4]

MO S, MORGADO P. Localizing visual sounds the easy way [C]// Proceedings of the European Conference on Computer Vision. Tel Aviv: ECVA, 2022: 218–234.

[5]

HU X, CHEN Z, OWENS A. Mix and localize: localizing sound sources in mixtures [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 10473–10482.

[本文引用: 3]

[6]

HU D, WEI Y, QIAN R, et al

Class-aware sounding objects localization via audiovisual correspondence

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (12): 9844- 9859

[7]

MO S, TIAN Y. Audio-visual grouping network for sound localization from mixtures [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 10565–10574.

[8]

MINAEE S, BOYKOV Y, PORIKLI F, et al

Image segmentation using deep learning: a survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (7): 3523- 3542

[9]

ZHOU J, WANG J, ZHANG J, et al. Audio–visual segmentation [C]// Proceedings of the European Conference on Computer Vision. Tel Aviv: ECVA, 2022: 386–403.

[本文引用: 5]

[10]

YANG Q, NIE X, LI T, et al. Cooperation does matter: exploring multi-order bilateral relations for audio-visual segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 27124–27133.

[本文引用: 4]

[11]

LIU J, WANG Y, JU C, et al. Annotation-free audio-visual segmentation [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2024: 5592–5602.

[12]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22) [2025-01-10]. https://arxiv.org/abs/2010.11929.

[13]

WANG R, TANG D, DUAN N, et al. K-adapter: infusing knowledge into pre-trained models with adapters [EB/OL]. (2020-02-05) [2025-01-10]. https://arxiv.org/abs/2002.01808.

[14]

KIRILLOV A, MINTUN E, RAVI N, et al. Segment anything [C]// Proceedings of the IEEE International Conference on Computer Vision. Paris: IEEE, 2023: 3992–4003.

[15]

WANG Y, LIU W, LI G, et al. Prompting segmentation with sound is generalizable audio-visual source localizer [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2024: 5669–5677.

[16]

MA J, SUN P, WANG Y, et al. Stepping stones: a progressive training strategy for audio-visual semantic segmentation [C]// Proceedings of the European Conference on Computer Vision. Milan: ECVA, 2024: 311–327.

[17]

CHENG B, MISRA I, SCHWING A G, et al. Masked-attention mask Transformer for universal image segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1280–1289.

[18]

LIU J, JU C, MA C, et al. Audio-aware query-enhanced Transformer for audio-visual segmentation [EB/OL]. (2023-07-25) [2025-01-10]. https://arxiv.org/abs/2307.13236.

[19]

LI K, YANG Z, CHEN L, et al. CATR: combinatorial-dependence audio-queried Transformer for audio-visual video segmentation [C]// Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023: 1485–1494.

[20]

GAO S, CHEN Z, CHEN G, et al. AVSegFormer: audio-visual segmentation with Transformer [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2024: 12155–12163.

[本文引用: 6]

[21]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Long Beach: NeurIPS Foundation, 2017: 6000–6010.

[22]

XU B, LIANG H, LIANG R, et al. Locate globally, segment locally: a progressive architecture with knowledge review network for salient object detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2021: 3004–3012.

[23]

MAO Y, ZHANG J, XIANG M, et al. Multimodal variational auto-encoder based audio-visual segmentation [C]// Proceedings of the IEEE International Conference on Computer Vision. Paris: IEEE, 2023: 954–965.

[24]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.

[25]

WANG W, XIE E, LI X, et al

PVT v2: improved baselines with pyramid vision Transformer

[J]. Computational Visual Media, 2022, 8 (3): 415- 424

DOI:10.1007/s41095-022-0274-8 [本文引用: 1]

[26]

HERSHEY S, CHAUDHURI S, ELLIS D P W, et al. CNN architectures for large-scale audio classification [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans: IEEE, 2017: 131–135.

[27]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// Proceedings of the Medical Image Computing and Computer-Assisted Intervention. Munich: Springer, 2015: 234–241.

[28]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: ECVA, 2018: 3–19.

[29]

ZHAO X, LIANG H, LI P, et al

Motion-aware memory network for fast video salient object detection

[J]. IEEE Transactions on Image Processing, 2024, 33: 709- 721

[30]

WANG Q, WU B, ZHU P, et al. ECA-net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531–11539.

[31]

MILLETARI F, NAVAB N, AHMADI S A. V-net: fully convolutional neural networks for volumetric medical image segmentation [C]// Fourth International Conference on 3D Vision. Stanford: IEEE, 2016: 565–571.

[32]

LIU J, LIU Y, ZHANG F, et al. Audio-visual segmentation via unlabeled frame exploitation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 26318–26329.

[33]

LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. (2017-11-14) [2025-01-10]. https://arxiv.org/abs/1711.05101.

[34]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248–255.

[35]

GEMMEKE J F, ELLIS D P W, FREEDMAN D, et al. Audio set: an ontology and human-labeled dataset for audio events [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans: IEEE, 2017: 776–780.

[36]

LIU C, LI P P, QI X, et al. Audio-visual segmentation by exploring cross-modal mutual semantics [C]// Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023: 7590–7598.