浙江大学学报(工学版), 2025, 59(9): 1803-1813 doi: 10.3785/j.issn.1008-973X.2025.09.004

计算机技术

基于对比学习的声源定位引导视听分割模型

黄文湖,, 赵邢,, 谢亮, 梁浩然, 梁荣华

浙江工业大学 计算机科学与技术学院,浙江 杭州 310023

Contrastive learning-based sound source localization-guided audio-visual segmentation model

HUANG Wenhu,, ZHAO Xing,, XIE Liang, LIANG Haoran, LIANG Ronghua

College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China

通讯作者: 赵邢,男,助理研究员,博士. orcid.org/0000-0003-0870-8524. E-mail:xing@zjut.edu.cn

收稿日期: 2024-12-4  

基金资助: 国家自然科学基金资助项目(62402441, 62432014, 62176235); 浙江省自然科学基金资助项目(LDT23F0202, LDT23F02021F02).

Received: 2024-12-4  

Fund supported: 国家自然科学基金资助项目(62402441,62432014,62176235);浙江省自然科学基金资助项目(LDT23F0202,LDT23F02021F02).

作者简介 About authors

黄文湖(2001—),男,硕士生,从事目标检测研究.orcid.org/0009-0000-4908-1487.E-mail:211123120094@zjut.edu.cn , E-mail:211123120094@zjut.edu.cn

摘要

针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS). 采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视听分割. 在分割前引入目标定位模块,利用对比学习方法对齐视听模态并生成声源热力图,实现发声物体粗定位;引入特征增强模块,构建多尺度特征金字塔网络,利用定位结果动态地加权融合浅层空间细节特征与深层语义特征,在引导增强目标物体视觉特征的同时抑制背景噪声. 2个模块协同作用,增强物体的视觉表示,使模型专注于物体辨识. 为了优化定位结果,提出辅助定位损失函数,促使模型关注与音频特征匹配的图像区域. 实验结果表明,模型在MS3数据集上的mIoU为62.15,高于基线AVSegFormer模型.

关键词: 视听分割 ; 跨模态交互 ; 声源定位 ; 对比学习 ; 特征增强

Abstract

A sound source localization-guided audio-visual segmentation (SSL2AVS) model based on contrastive learning was proposed to address the problem that background noise hindered effective information exchange and object discrimination in audio-visual segmentation (AVS) tasks. A two-stage localization-to-segmentation progressive strategy was adopted, where visual features were refined through sound source localization to suppress background interference, making the model suitable for audio-visual segmentation in complex scenes. Prior to segmentation, a target localization module was introduced to align audio-visual modalities via the contrastive learning method, generating sound source heatmaps to achieve preliminary sound source localization. A multi-scale feature pyramid network incorporating a feature enhancement module was constructed to dynamically weight and fuse the shallow spatial detail features and the deep semantic features based on the localization results, effectively amplifying the visual features of target objects while suppressing background noise. The synergistic operation of the two modules improved visual representations of objects and enabled the model to focus on object identification. An auxiliary localization loss function was proposed to optimize localization results by encouraging the model to focus on the image regions that matched audio features. Experimental results on the MS3 dataset demonstrated that the model achieved a mean Intersection over Union (mIoU) of 62.15, surpassing the baseline AVSegFormer model.

Keywords: audio-visual segmentation ; cross-modal interaction ; sound source localization ; contrastive learning ; feature enhancement

PDF (2271KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

黄文湖, 赵邢, 谢亮, 梁浩然, 梁荣华. 基于对比学习的声源定位引导视听分割模型. 浙江大学学报(工学版)[J], 2025, 59(9): 1803-1813 doi:10.3785/j.issn.1008-973X.2025.09.004

HUANG Wenhu, ZHAO Xing, XIE Liang, LIANG Haoran, LIANG Ronghua. Contrastive learning-based sound source localization-guided audio-visual segmentation model. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1803-1813 doi:10.3785/j.issn.1008-973X.2025.09.004

人类能够根据声音识别物体,表明声音信号与视觉物体之间存在强对应关系. 这种关联性为多种视听任务奠定了基础,例如视听对应[1-2],旨在判断视觉图像与音频信号是否匹配;还有声源定位[3-5],其任务是寻找声源物体的位置. 鉴于声音信号与视觉物体之间的强关联性,视听任务在多个领域展现出广泛的应用前景. 例如,在医疗领域中,视听技术可以协助医护人员监测患者的健康状况;在视频监控系统中,音频信号可以协助系统定位可疑声源;在自动驾驶领域,通过识别紧急车辆的警报声,车辆可以更好地理解周围环境以做出避让选择.

以声源定位(sound source localization, SSL)和视听分割(audio-visual segmentation, AVS)为代表的视听任务要求对输入图像的每个区域或每个像素进行预测,其难点在于声音与视觉线索的精准匹配. 为此,可以从2个维度推进:一是视听模态对齐,聚焦于声音与视觉区域的特征级匹配;二是对象类别感知,强调语义知识对定位的引导作用. 二者共同构成需要细粒度感知的视听任务的认知基础.

在SSL领域,关于视听模态对齐的研究大多采用多实例对比学习方法[3-5],通过匹配音频与图像区域实现特征对齐. 在类别感知方面,一些研究采用两阶段策略[3,6],将在简单场景中学到的物体类别知识应用于复杂场景中的物体识别. Mo等[7] 提出视听分组网络(audio-visual grouping network, AVGN),利用可学习的视听类别令牌来聚合类感知的声源特征,并将聚合的语义特征用于指导相应视觉区域的定位,使AVGN能够灵活定位多个声源. 这些视听模态对齐和对象类别表示学习方法极大地启发了AVS研究.

相较于SSL的区域级定位,AVS通常需要实现像素级定位,要求模型能够精确分割出发声物体的轮廓,因此在自动驾驶碰撞预警、视频内容理解等场景中展现出更直接的应用价值. 这种高精度要求使AVS面临比SSL更复杂的挑战. 1)AVS涉及图像分割[8]. 与一维音频信号相比,二维图像信号包含更多复杂信息,容易受到背景噪声的干扰,因此需要精确提取出物体特征. 2)AVS涉及音频和视觉模态. 和仅寻找声源位置的SSL任务不同,AVS需要将音频特征与更加精细的像素级特征进行对齐和融合. 3)音频信号是信息密集的,通常同时包含多个来源的声音,例如音乐会中的乐器声和人声常常交织在一起. 这要求将每个时间点的音频信号解耦为多种潜在成分,以便有效捕捉每个声源的独特声音特征.

为了解决上述问题,Zhou等[9]提出时间像素级视听交互模块,注入音频语义来指导视觉分割过程. 一些方法基于基础模型实现视听分割. 例如,Yang等[10]利用基础模型生成语义掩码,将其融入视觉特征中. Liu等[11]使用冻结的ViT-H模型[12]提取图像特征,并通过Adapter策略[13]将音频信息注入到预训练的SAM模型[14]中,以实现视听融合. Wang等[15]基于SAM模型,通过构建音频提示,并且调优参与跨模态注意力模块的上下文来构建视听相关性;Ma等[16]基于Mask2Former架构[17],将视听分割结果用于辅助语义分割中的物体定位. 另外,许多方法[18-20] 基于Transformer架构[21],通过将音频解耦为音频查询来实现实例级感知和识别. 例如,在AVSegFormer模型[20]中,编码器负责挖掘对象的语义信息,查询生成器利用音频特征生成音频查询,解码器通过交叉注意力机制,利用音频查询来分离潜在对象.

以上方法存在一些问题. 一方面,在基础模型的使用上,利用基础模型生成语义掩码的处理方式增强了物体之间的语义区分,但是这种增强依赖于外在辅助,而非模型自身的能力. 基于基础模型的方法在性能提升上主要依赖于高分辨率的图像输入和模型堆叠的深度,导致此类方法推理速度较慢且占用空间较大. 此外,将分割任务的结果用于定位语义分割任务中的物体的策略不是端到端训练的,其在视听分割上的性能在很大程度上依赖于Mask2Former的能力. 另一方面,在Transformer架构中,直接使用视觉特征进行解码会引入背景噪声,不利于有效信息的跨模态交互,最终导致分割结果不准确. 因此,如何在复杂背景下分割出目标物体并保留精细的边界细节,仍然是一个巨大挑战.

考虑到声源定位结果有助于聚焦潜在的声源物体,将声源定位结果用于引导视听分割,以解决AVS任务中由背景噪声干扰导致的分割不明确的问题. 提出的基于对比学习的声源定位引导视听分割(sound source localization-guided audio-visual segmentation, SSL2AVS)模型包含2个阶段[22]:先进行声源粗定位,优化视觉特征,再进行视听分割. 第1阶段包含目标定位和特征增强2个模块,其中目标定位模块生成定位结果,特征增强模块利用定位结果优化视觉特征;2个模块共同作用以减少背景噪声干扰. 提出辅助定位损失函数以监督第1阶段产生的视觉特征,鼓励模型关注与音频特征更相似的图像区域,从而优化粗定位结果. 在解码分割前,利用双向注意力模块实现进一步的跨模态交互,以提高音视觉信号之间的交互敏感性. 定位引导特征增强的策略仅引入少量参数,却显著提升了分割效果,有助于模型更好地拟合.

1. SSL2AVS模型

1.1. 总体框架

SSL2AVS的整体架构包含声源定位和视听分割2个阶段,如图1所示. 声源定位阶段旨在为下游分割提供仅包含潜在对象的视觉特征,包括目标定位和特征增强模块. 目标定位模块通过对比学习实现模态对齐,从而获得潜在声源的空间位置信息; 特征增强模块基于空间位置信息引导多尺度特征融合,从而获得优化后的视觉特征. 在视听分割阶段,对目标的分割采用Transformer结构,其中编码器负责挖掘视觉特征中的对象语义信息,解码器建立音频查询与视觉特征的匹配关系. 此外,音视觉双向融合和多阶段视觉-音频特征融合模块被用来增强音视觉特征之间的联系. 融合得到的掩码特征和解码器输出相结合,从而得到预测掩码.

图 1

图 1   基于对比学习的声源定位引导视听分割模型结构

Fig.1   Structure of contrastive learning-based SSL-guided AVS model


1.2. 特征提取

遵循文献方法[9,10,19,20,23]的特征提取方式,图像编码器采用基于卷积的ResNet-50模型[24]和基于视觉Transformer的PVT v2模型[25],音频编码器采用VGGish模型[26]. 不同的是,为了使用对比学习方法,需要重新组织输入,让不同视频的帧之间构成对比项. 给定一批包含B个视频、每个视频有T帧的视觉信息,该信息可以表示为$ {\boldsymbol{V}} \in {{\bf{R}}^{B \times T \times 3 \times H \times W}} $,其中HW表示帧的大小;重新组织视觉信息为$ {\boldsymbol{V}} \in {{\bf{R}}^{T \times B \times 3 \times H \times W}} $. 将每批数据分T次输入到模型中,每次的输入为$ {{{\boldsymbol{V}}}_{{\text{input}}}} \in {{\bf{R}}^{B \times {\text{3}} \times H \times W}} $,此时B个视频的帧之间构成对比项. 音频信息的组织方式同理.

给定视觉输入$ {{\boldsymbol{V}}_{{\text{input}}}} $,收集编码过程中生成的4个尺度的视觉特征,表示为$ {{\boldsymbol{F}}_{{\text{v}}}} = \left\{ {{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2},{{\boldsymbol{F}}_3},{{\boldsymbol{F}}_4}} \right\} $$ {{\boldsymbol{F}}_i} \in {{\bf{R}}^{B \times {C_i} \times {H_i} \times {{\boldsymbol{W}}_i}}} $,其中$ {C_i} $表示视觉编码器在第i阶段输出特征的维度. 对于4个尺度的视觉特征,可以在特征增强模块中进行多尺度特征融合,并且利用Transformer编码器充分挖掘对象的语义信息.

对于音频编码,给定输入帧对应的音频片段A,对音频片段进行重新采样以产生16 kHz单声道输出$ {{{\boldsymbol{A}}}_{{\text{mono}}}} \in {{\bf{R}}^{{N} \times 96 \times 64}} $,其中$ {N} $与音频的持续时间有关. 因为让每个视频帧与1秒的音频片段构建对比学习,所以在这里将$ {N} $固定为1. 然后通过短时傅里叶变换将其处理为频谱图,传递给预训练的音频编码器VGGish,得到音频特征$ {{{\boldsymbol{F}}}_{{\text{a}}}} \in {{\bf{R}}^{B \times D}} $D=128).

1.3. 声源定位

1.3.1. 目标定位

对比学习在声源定位领域中已展现出显著成效[3-5],其核心思想是通过最小化跨模态对比学习损失,使音频表示与视觉表示在至少1个空间位置上对齐,而这个位置对应于目标物体所在区域. SSL2AVS将对比学习引入视听分割任务中,来获取反映物体视觉特征激活情况的视听相似性图$ {{\boldsymbol{S}}_{{\text{avl}}}} $.$ {{\boldsymbol{S}}_{{\text{avl}}}} $应用于特征增强模块,以引导模型强化目标区域的特征表达,并抑制无关的背景干扰.

跨模态对比学习要求在统一的空间中缩小不同模态之间的差距. 在每批数据中任取音视频对,取其音频特征和第4个尺度的视觉特征$ \left( {{\boldsymbol{F}}_{\mathrm{a}}^x,{\boldsymbol{F}}_4^y} \right) $. 选择$ {{\boldsymbol{F}}_4} $是因为其体现了物体的高级抽象特征,包含物体的空间位置信息. 如图1所示,为了实现模态对齐,分别使用线性层$ {{\boldsymbol{W}}_1} \in {{\bf{R}}^{D \times c}} $$ 1 \times 1 $卷积层$ {{\boldsymbol{W}}_2} \in {{\bf{R}}^{{C_4} \times c}} $,将特征$ {\boldsymbol{F}}_{\mathrm{a}}^x $$ {\boldsymbol{F}}_4^y $投影到c维共享特征空间中:

$ \widehat {{\boldsymbol{F}}_{\mathrm{a}}^x} = {{\boldsymbol{W}}_1}{\boldsymbol{F}}_{\mathrm{a}}^x+{{{\boldsymbol{b}}}_1} , $

$ \widehat {{\boldsymbol{F}}_4^y} = {{\boldsymbol{W}}_2}{\boldsymbol{F}}_4^y+{{{\boldsymbol{b}}}_2} . $

式中:xy表示特征$ {\boldsymbol{F}}_{{\mathrm{a}}}^{x}、{\boldsymbol{F}}_{4}^{y} $所在的数据批次,且$ \text{1}\leqslant x,y\leqslant B $$ {{\boldsymbol{b}}} $为偏置项. 采用余弦相似度的值来衡量每个像素点的视觉特征与音频特征之间的相关性,视听相似性图$ {{\boldsymbol{S}}_{{\text{avl}}}} $的计算公式为

$ {{\boldsymbol{S}}_{{\text{avl}}}} = \cos \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right) . $

接下来定义视听模态相似性度量$ \phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right) = \max \left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right) $,即用$ {{\boldsymbol{S}}_{{\text{avl}}}} $的最大值来衡量该音视频对的相似程度. 对比学习的优化目标是最大化同一视频中视听表示之间的相似性,同时最小化不同视频中特征之间的相似性. 数学上模态对称的方式表示为

$ {L_{{\mathrm{cts}}}} = {L_{{\mathrm{a}} \to {\mathrm{v}}}}+{L_{{\mathrm{v}} \to {\mathrm{a}}}} , $

$ {L_{{\mathrm{a}} \to {\mathrm{v}}}} = - \ln \frac{{\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right)} \right)}}{{\sum\limits_{k = 1}^B {\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^k}} \right)} \right)} }} , $

$ {L_{{\mathrm{v}} \to {\mathrm{a}}}} = - \ln \frac{{\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^x},\widehat {{\boldsymbol{F}}_4^y}} \right)} \right)}}{{\sum\limits_{k = 1}^B {\exp \left( {\phi \left( {\widehat {{\boldsymbol{F}}_{\mathrm{a}}^k},\widehat {{\boldsymbol{F}}_4^y}} \right)} \right)} }} . $

式中:$ {L_{{\mathrm{a}} \to {\mathrm{v}}}} $表示$ \widehat {{\boldsymbol{F}}_{\mathrm{a}}^x} $在当前数据批次中与视觉特征之间的相似性损失,目标是使之与相匹配的视觉特征$ \widehat {{\boldsymbol{F}}_4^y} $具有高相似度. $ {L_{{\mathrm{v}} \to {\mathrm{a}}}} $同理.

这一学习目标保证音频特征至少在1个位置上与视觉表示保持一致,该位置即为声源物体所在区域. 通过最小化不同视频样本间的特征相似性,模型能够促使同类物体的视觉特征聚类. 同时抑制无关物体或背景区域与音频信号的关联性,使这些区域在$ {{\boldsymbol{S}}_{{\text{avl}}}} $中呈现较低的响应值. 在后续特征处理过程中,将$ {{\boldsymbol{S}}_{{\text{avl}}}} $视为一种注意力图,使模型聚焦于高响应区域,实现对声源物体的特征强化.

1.3.2. 特征增强

特征增强策略因其融合多尺度特征、利用上下文信息中丰富的区域或通道特征的能力被广泛应用于目标分割领域. 原始视觉特征$ {{\boldsymbol{F}}_{{\text{v}}}} = \left\{ {{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2},{{\boldsymbol{F}}_3},{{\boldsymbol{F}}_4}} \right\} $包含图片全方面的特征,有较多无关的背景信息,增加了后续分割的复杂性和困难性,因此设计特征增强模块来过滤无关的背景信息. 如图2所示,该模块包含一系列的上采样过程,生成优化后的视觉特征$ {\boldsymbol{P}}_{{\mathrm{v}}}=\{{\boldsymbol{P}}_{1},{\boldsymbol{P}}_{2},{\boldsymbol{P}}_{3},{\boldsymbol{P}}_{4}\} $和定位特征$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $,其中$ {{{\boldsymbol{P}}}_i} \in {{\bf{R}}^{B \times {C_i} \times {H_i} \times {{\boldsymbol{W}}_i}}} $,且$ {{{\boldsymbol{P}}}_4} = {{\boldsymbol{F}}_4} $. 不同于U-Net模型[27]直接使用跳跃连接进行融合,本研究开发引导式特征融合(guided feature fusion, GFF)方法. 该方法具体包含3个步骤:区域引导、空间融合[28-29]和通道聚合[30].

图 2

图 2   特征增强模块结构

Fig.2   Structure of feature enhancement module


首先,在区域引导步骤中,定位结果$ {\boldsymbol{S}}_{\mathrm{a}\mathrm{v}\mathrm{l}} $被用于指导高级特征$ {{{\boldsymbol{P}}}_{i+1}} $. 为了让模型观察到完整的对象区域,设计激活函数$ {\text{ACT}} $,表示为

$ {\text{ACT}}\left( x \right) = \sin \left(\frac{{\text{π}}}{2}x\right);\;x \in \left[ { - 1.0,1.0} \right] . $

不同于Sigmoid激活函数,$ {\text{ACT}}\left( x \right) $具有中心对称的性质. 当$ x \in \left[ {0,1.0} \right] $时,由于$ \text{ACT}\left(x\right)\geqslant x $,经过激活后注意力分数变大,意味着注意权重增强且观察区域扩大,这样的情况常出现在物体边界. 当$ x \in \left[ { - 1.0,0} \right] $时,由于$ \text{ACT}\left(x\right)\leqslant x $,经过激活后注意力分数变小,表示对背景区域的注意被削弱.

$ {{\boldsymbol{S}}_{{\text{avl}}}} $进行上采样(upsample, UP)和$ {\text{ACT}} $激活操作,使$ {{\boldsymbol{S}}_{{\text{avl}}}} $大小和$ {{{\boldsymbol{P}}}_{i+1}} $一致. 将$ {{\boldsymbol{S}}_{{\text{avl}}}} $作为注意力图来表示高级特征的区域重要性,并使用残差连接得到加权特征:

$ {{\boldsymbol{S}}'_{{\text{avl}}}} = {\text{ACT}}\left( {{\text{UP}}\left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right)} \right) , $

$ {{\boldsymbol{P}}'_{i+1}} = {{{\boldsymbol{P}}}_{i+1}}+{{{\boldsymbol{P}}}_{i+1}} \times {{\boldsymbol{S}}'_{{\text{avl}}}} . $

区域引导过程旨在增强目标物体的视觉特征,同时削弱背景细节的影响. 在上采样过程中,对$ {{\boldsymbol{S}}_{{\text{avl}}}} $多次使用$ {\text{ACT}} $,从而逐渐扩散物体的感知区域,这符合人类先定位再扩散式地观察整个物体的习惯.

其次,在空间融合步骤,通过双线性插值将$ {{\boldsymbol{P}}'_{i+1}} $放大以匹配$ {{\boldsymbol{F}}_i} $的大小. 随后,分别使用卷积层处理$ {{\boldsymbol{P}}'_{i+1}} $$ {{\boldsymbol{F}}_i} $,目的是将$ {{\boldsymbol{P}}'_{i+1}} $的输出通道设为1,作为空间注意权重,并减少$ {{\boldsymbol{F}}_i} $中的不相关噪声. 为了有效地抑制外来信息并提高目标物体的定位精度,将逐元素乘法应用于这些特征的融合,得到空间特征$ {{\boldsymbol{S}}} $

$ {{\boldsymbol{S}}} = {\text{Con}}{{\text{v}}_{{c_{i+1}} \to 1}}\left( {{{\boldsymbol{P}}'_{i+1}}} \right) \times {\text{Con}}{{\text{v}}_{{c_i} \to {c_i}}}\left( {{{\boldsymbol{F}}_i}} \right) . $

式中:$ {\text{Conv}} $表示卷积操作,下标中的$ {c_{i+1}} $和1分别表示卷积层的输入和输出通道.

最后,通道聚合步骤的目的是放大具有更高响应的通道. 每个通道的权重与相应的空间特征相互作用,增强或抑制特定的通道特征. 最终得到特征$ {{{\boldsymbol{P}}}_i} $

$ {{{\boldsymbol{P}}}_i} = {{\boldsymbol{S}}}+{{\boldsymbol{S}}} \times {\text{Linea}}{{\text{r}}_{{c_i} \to {c_i}}}\left( {{\text{GAP}}\left( {{\boldsymbol{S}}} \right)} \right) . $

式中:$ {\text{Linear}} $表示线性层,GAP表示平均池化操作. 使用$ {{{\boldsymbol{P}}}_1} $作为GFF的输入,获取定位特征$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $,特征增强过程表示为

$ {{{\boldsymbol{P}}}_i} = {\text{GFF}}\left( {{{{\boldsymbol{P}}}_{i+1}}+{{{\boldsymbol{P}}}_{i+1}} \times {\text{ACT}}\left( {{\text{UP}}\left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right)} \right),{{\boldsymbol{F}}_i}} \right);\;i = 1,2,3 .$

$ {{{\boldsymbol{P}}}_{{\text{loc}}}} = {\text{GFF}}\left( {{{{\boldsymbol{P}}}_1}+{{{\boldsymbol{P}}}_1} \times {\text{ACT}}\left( {{\text{UP}}\left( {{{\boldsymbol{S}}_{{\text{avl}}}}} \right)} \right),{{{\boldsymbol{P}}}_1}} \right) . $

在上采样过程中,模型不仅由局部到整体地逐步加深了对物体的理解,而且逐渐过滤了背景噪声. 比起原始特征$ {{\boldsymbol{F}}_{{\text{v}}}} $,优化后的$ {{{\boldsymbol{P}}}_{{\text{v}}}} $更简洁,更能直观反映物体,因此更有利于模型辨明物体类别,从而提高分割的准确性.

1.4. 视听分割
1.4.1. Transformer编码器

AVSegFormer模型将原始图像编码器输出的特征$ \left\{ {{{\boldsymbol{F}}_2},\;{{\boldsymbol{F}}_3},\;{{\boldsymbol{F}}_4}} \right\} $作为Transformer编码器的输入来构建掩码特征. 与之不同的是,SSL2AVS使用特征$ \left\{ {{{{\boldsymbol{P}}}_2},\;{{{\boldsymbol{P}}}_3},\;{{{\boldsymbol{P}}}_4}} \right\} $. 因为经过增强的特征去除了噪声和多余细节,只保留核心的特征信息,所以构建出的掩码特征更简洁,有利于解码器解码物体,从而有助于提高模型的性能. 之后,取出编码器的输出$ {{\boldsymbol{P}}'_2} $以用于多阶段视觉特征融合.

1.4.2. 音视觉双向融合

在以往的研究中,音频查询通常由音频特征独立获得,但这忽略了视觉信息对音频特征的重要作用[14-15]. 特别是当场景中存在外形与声源物体相似的干扰物体时,仅依靠原始音频特征,模型难以准确建立查询与物体视觉特征之间的对应关系. 为了应对这一问题,采用COMBO框架[10]中的双向注意力融合模块(bilateral-fusion module, BFM). 通过4个线性层将$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $$ {{\boldsymbol{F}}_{{\text{a}}}} $映射到相同维度,以获得查询 $ {{\boldsymbol{Q}}} = {{{\boldsymbol{P}}}_{{\text{loc}}}}{{\boldsymbol{W}}_{\boldsymbol{Q}}} $,键$ {{\boldsymbol{K}}} = {{\boldsymbol{F}}_{{\text{a}}}}{{\boldsymbol{W}}_K} $,视觉值$ {{{\boldsymbol{V}}}_{\text{v}}} = {{{\boldsymbol{P}}}_{{\text{loc}}}}{\boldsymbol{W}}_{\boldsymbol{V}}^{\text{v}} $和音频值${{{\boldsymbol{V}}}_{\text{a}}}{\text{ = }} $$ {{\boldsymbol{F}}_{{\text{a}}}}{\boldsymbol{W}}_{\boldsymbol{V}}^{\text{a}} $. 双向注意力的操作为

$ {{{\boldsymbol{P}}}_{{\text{fuse}}}}{\text{ = Softmax(}}{{\boldsymbol{Q}{\boldsymbol{K}}}^{\text{T}}}{\text{/}}\sqrt d {\text{)}}{{{\boldsymbol{V}}}_{\text{v}}}{\text+}{{{\boldsymbol{P}}}_{{\text{loc}}}} , $

$ {\boldsymbol{F}}'_{{\text{a}}}{\text{ = Softmax(}}{{\boldsymbol{Q}{\boldsymbol{K}}}^{\text{T}}}{\text{/}}\sqrt d {\text{)}}{{{{{\boldsymbol{V}}}_{\text{a}}}}}{\text+}{{\boldsymbol{F}}_{{\text{a}}}} . $

式中:$ {{{\boldsymbol{P}}}_{{\text{fuse}}}} $$ {\boldsymbol{F}}'_{{\text{a}}} $为BFM的输出,表示融合后的视觉、音频特征;d为缩放因子. 在BFM之后,将$ {{\boldsymbol{F}}'_{{\text{a}}}} $与可学习的嵌入相加,作为Transformer解码器的对象查询. 比起$ {{{\boldsymbol{P}}}_{{\text{loc}}}} $$ {{{\boldsymbol{P}}}_{{\text{fuse}}}} $具有更鲜明的物体边界,在多阶段视觉特征融合中起到了补全物体边缘细节的作用.

1.4.3. 多阶段视觉-音频特征融合

多阶段特征融合器融合多个来源的视觉特征,并利用注意力机制将融合后的视觉特征与$ {{\boldsymbol{F}}'_{{\text{a}}}} $选择性地放大. 具体来说,先通过1个可学习的权重参数α$ {{{\boldsymbol{P}}}_{{\text{fuse}}}} $加权到$ {{{\boldsymbol{P}}}_1} $上以丰富$ {{{\boldsymbol{P}}}_1} $的纹理细节,这是从空间角度对视觉特征的增强. 然后通过1个1×1卷积层整合通道信息,得到$ {{\boldsymbol{P}}'_1} $. 接着,将$ {{\boldsymbol{P}}'_1} $$ {{\boldsymbol{P}}'_2} $相加并通过1个3×3卷积层,得到掩码特征$ {{\boldsymbol{F}}_{{\text{mask}}}} $. 最后,利用通道注意力(channel attention, CHA)[20]选择性地缩放不同的视觉通道,提高模型捕捉复杂视听关系的能力,这是从通道角度对视觉特征的增强. 整个过程可以表示为

$ {{\boldsymbol{P}}'_1} = {\text{Con}}{{\text{v}}}\left( {\alpha {{{\boldsymbol{P}}}_{{\text{fuse}}}}+{{{\boldsymbol{P}}}_1}} \right) , $

$ {{\boldsymbol{F}}_{{\text{mask}}}} = {\text{Con}}{{\text{v}}}\left( {{{\boldsymbol{P}}'_1}+{\text{UP}}\left( {{{\boldsymbol{P}}'_2}} \right)} \right) , $

$ {{\boldsymbol{F}}'_{{\text{mask}}}}{\text{ = }}{{\boldsymbol{F}}_{{\text{mask}}}}{\text{+CHA}}\left( {{{\boldsymbol{F}}_{{\text{mask}}}}{\text{,}}{{\boldsymbol{F}}'_{{\text{a}}}}} \right) . $

1.4.4. Transformer解码器

利用Transformer解码器构建潜在的稀疏查询,并将视觉特征与相应的查询进行最佳匹配. 在$ {{\boldsymbol{F}}'_{{\text{a}}}} $基础上添加可学习的嵌入作为对象查询,使用多尺度视觉特征作为键和值. 随着解码过程的进行,对象查询不断地与视觉特征聚合,最终将听觉和视觉模式结合起来,生成包含多种目标信息的结果. 将Transformer解码器的输出查询$ {{{\boldsymbol{Q}}}_{{\text{output}}}} $与掩码特征$ {{\boldsymbol{F}}'_{{\text{mask}}}} $相乘,再使用通道上的多层感知机(multi-layer perceptron, MLP)对不同通道进行集成,最后通过全连接层(full connection layer, FC)预测掩码$ {\boldsymbol{M}} $

$ {{\boldsymbol{M}}}{\text{ = FC}}\left[ {{{\boldsymbol{F}}'_{{\text{mask}}}}{\text{+MLP}}\left( {{{\boldsymbol{F}}'_{{\text{mask}}}} \times {{{\boldsymbol{Q}}}_{{\text{output}}}}} \right)} \right] . $

1.5. 损失函数

随着定位生成和特征增强过程的引入,模型在初步对齐音视频语义和定位声源物体方面取得了良好的效果,但是在面对复杂场景时,存在语义混淆问题,导致鲁棒性不足. 因此采用定位损失$ {L_{{\text{loc}}}} $来监督定位引导的特征增强产物$ {{\boldsymbol{P}}_{{\text{loc}}}} $.$ {{\boldsymbol{P}}_{{\text{loc}}}} $与真实标签$ {{\boldsymbol{T}}} $相比,使用Dice损失[31],以确保声源物体所在区域拥有更高的响应值而背景区域有较低的响应值. 定位损失$ {L_{{\text{loc}}}} $的计算方式如下:

$ {L_{{\text{loc}}}}{\text{ = Dice\;(}}{{{\boldsymbol{P}}}_{{\text{loc}}}}{\text{,}}{{\boldsymbol{T}}}{{) = 1 - }}\frac{{{\text{2}} \times \left| {{{{\boldsymbol{P}}}_{{\text{loc}}}} \cap {{\boldsymbol{T}}}} \right|}}{{\left| {{{{\boldsymbol{P}}}_{{\text{loc}}}}} \right|{\text+}\left| {{\boldsymbol{T}}} \right|}}. $

综合训练损失包括4个部分:分割损失$ {L_{{\text{IoU}}}} $、对比损失$ {L_{{\text{cts}}}} $、定位损失$ {L_{{\text{loc}}}} $和混合损失$ {L_{{\text{mix}}}} $. 其中,$ {L_{{\text{IoU}}}} $$ {L_{{\text{mix}}}} $分别用来计算预测掩码$ {{\boldsymbol{M}}} $和掩码特征$ {{\boldsymbol{F}}'_{{\text{mask}}}} $与真实标签之间的差异,计算方式为$ {\text{Dice(}}{{\boldsymbol{M}}}{\text{,}}{{\boldsymbol{T}}}{\text{)}} $$ {\text{Dice(}}{{\boldsymbol{F}}'_{{\text{mask}}}}{\text{,}}{{\boldsymbol{T}}}{\text{)}} $. 在AVS任务中,分割物体的面积占图像总面积的比例相对较小,使用Dice损失可以使模型更专注于前景,从而最大限度地减少对背景的干扰. 总的训练损失表示为

$ L = {L_{{\text{IoU}}}}+{\lambda _1}{L_{{\text{cts}}}}+{\lambda _2}{L_{{\text{loc}}}}+{\lambda _3}{L_{{\text{mix}}}}. $

式中:$ {\lambda _{\text{1}}} $$ {\lambda _2} $$ {\lambda _3} $为损失系数.

2. 实验与结果

2.1. 数据集和指标

AVSBench-Object[9]是专门为视听分割任务设计的视听数据集,包含像素级注释. 根据场景中声源物体的数量,将数据集划分为2个子集:用于单个声源分割的单声源子集(S4)和用于多个声源分割的多声源子集(MS3). S4子集包含4 932个视频,其中3 452个视频用于训练,740个用于验证,740个用于测试. 其目标对象涵盖23个类别,包括人、动物、车辆和乐器. MS3子集有424个视频,包括296个训练视频、64个验证视频和 64个测试视频,涵盖类别与S4子集相同.

和文献[9]、[20]、[32]一样,本研究使用均交并比(mean Intersection-over-Union, mIoU)和F1分数(F-score)作为评价指标,分别用$ {M_{\text{J}}} $$ {M_{\mathrm{F}}} $表示. 对于这2种指标,更高的值表示更好的分割性能.

2.2. 实验环境与参数设置

实验使用的GPU型号为NVIDIA 3090,深度学习框架为PyTorch 1.10.0版本,CUDA运行环境为11.1版. SSL2AVS模型在S4和MS3子集上训练时的迭代次数分别为30和60,批次大小为4,使用的优化器为AdamW[33],初始学习率为$ 2 \times {10^{ - 5}} $(每15次迭代,学习率衰减一半). 和AVSegFormer一致,使用在ImageNet-1K[34]上预训练的ResNet-50或PVT v2图像编码器提取视觉特征,使用在AudioSet[35]上预训练的VGGish[26]音频编码器提取音频特征. Transformer编码器和解码器的层数为6,嵌入维度为256. 损失系数$ {\lambda _1} $设置为0.01,$ {\lambda _2} $$ {\lambda _3} $设置为0.1.

2.3. 实验结果

在AVSBench-Object数据集上,采取的输入帧大小分别为224×224和512×512,获得SSL2AVS模型和AVSegFormer模型的性能比较结果如表1所示. 表中,输入帧大小为512×512的方法由*标出,去除ResNet池化层的方法由+标出,FPS为每秒显示的帧数. 当输入帧大小为224×224时,SSL2AVS和现有的视听分割方法的性能比较结果如表2所示.

表 1   SSL2AVS与基线模型的性能比较

Tab.1  Performance comparison between SSL2AVS and baseline model

方法图像编码器FPS/(帧·s−1)S4MS3
$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%
AVSegFormer-R50ResNet-50114.9785.976.4562.849.53
SSL2AVS-R50ResNet-5096.3986.576.8763.352.49
AVSegFormer-R50+ResNet-5042.5386.476.1158.043.41
SSL2AVS-R50+ResNet-5036.3386.877.1666.956.18
AVSegFormer-R50*ResNet-5030.9686.776.3865.653.81
SSL2AVS-R50*ResNet-5026.1188.078.6869.859.50
AVSegFormer-PVTPVT v281.8389.982.0669.358.36
SSL2AVS-PVTPVT v280.0690.382.4272.362.15
AVSegFormer-PVT*PVT v222.7990.583.0673.061.33
SSL2AVS-PVT*PVT v221.2091.684.4375.665.16

新窗口打开| 下载CSV


表 2   SSL2AVS与现有视听分割方法的性能比较

Tab.2  Performance comparison of SSL2AVS and existing AVS methods

方法图像编码器S4MS3
$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%
AVSBench[9]ResNet-5084.872.8057.847.90
PVT v287.978.7064.554.00
ECMVAE[23]ResNet-5086.576.3360.748.69
PVT v290.181.7470.857.84
CATR[19]ResNet-5086.674.8065.352.80
PVT v289.681.4070.059.00
AVSC[36]ResNet-5085.277.0261.549.58
PVT v288.280.5765.158.22
AVS-UFE[32]ResNet-5087.578.9664.555.88
PVT v290.483.1570.961.95
COMBO[10]ResNet-5090.181.7066.654.50
PVT v291.984.7071.259.20
AVSegFormer[20]ResNet-5085.976.4562.849.53
PVT v289.982.0669.358.36
SSL2AVSResNet-5086.877.1666.956.18
PVT v290.382.4272.362.15

新窗口打开| 下载CSV


表1可知,当以512×512的图像作为输入时,与AVSegFormer模型相比,SSL2AVS-R50*和SSL2AVS-PVTv2*的$ {M_{\text{J}}} $指标在 MS3子集上提高了5.69和3.83个百分点,在S4子集上提高了2.30和1.37个百分点. 这些结果表明,SSL2AVS模型在分割方面的性能优于AVSegFormer模型. 但由于SSL2AVS涉及声源定位过程,其FPS值低于AVSegFormer模型. SSL2AVS-PVT的FPS值比AVSegFormer-PVT下降了2.2%,但在MS3子集上,SSL2AVS-PVT的$ {M_{\text{J}}} $值提升了6.5%,说明此时牺牲部分帧率以换取分割性能的提升是可以接受的. 然而,SSL2AVS-R50的FPS值比AVSegFormer-R50下降了16.2%,在MS3子集上的$ {M_{\text{J}}} $值却只提升了6.0%. 如何设计效率更高的声源定位模块仍值得研究.

表2可以看出,SSL2AVS在MS3子集上表现出不俗的竞争力. 当分别使用ResNet-50模型和PVT v2模型作为图像编码器时,SSL2AVS的$ {M_{\text{J}}} $指标为56.18%、62.15%,$ {M_{\text{F}}} $为66.9%、72.3%,性能达到先进水平. 对比结果表明,与众多视听分割方法相比,SSL2AVS具有较强的竞争力.

2.4. 扩展实验

2.4.1. 视听相似性图尺寸的影响

由于不同尺度的特征会生成不同尺寸的$ {{\boldsymbol{S}}_{{\text{avl}}}} $,为了探究不同尺寸$ {{\boldsymbol{S}}_{{\text{avl}}}} $对特征及分割结果的影响,通过去除ResNet-50模型中的最大池化层来放大特征. 去除池化层后,特征尺寸放大1倍,相应的$ {{\boldsymbol{S}}_{{\text{avl}}}} $也放大1倍. 如表3所示,与基线模型相比,SSL2AVS在扩大特征尺寸后取得了明显的改进,特别是在MS3子集上$ {M_{\text{J}}} $有3.69个百分点的提升. 这是因为在较大尺寸下,$ {{\boldsymbol{S}}_{{\text{avl}}}} $反映出更为精细的物体形状,可以对特征实现更精细的指导. 如图3所示,$ {{\boldsymbol{S}}_{{\text{avl}}}} $显著地影响了$ {{{\boldsymbol{P}}}_1} $的结果. 在较大尺寸$ {{\boldsymbol{S}}_{{\text{avl}}}} $的作用下,$ {{{\boldsymbol{P}}}_1} $勾勒出更为准确的人形,从而改善分割结果.

表 3   去除池化层引起的特征尺寸变化对实验结果的影响

Tab.3  Effect of characteristic size change caused by removal of pool layer on experimental results

去除/保留
最大池
化层
AVSegFormerSSL2AVS
S4MS3S4MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
去除76.1186.443.4158.077.1686.856.1866.9
保留76.4585.949.5362.876.8786.552.4963.3

新窗口打开| 下载CSV


图 3

图 3   是否去除池化层、经过预训练和使用$ {\text{ACT}} $激活的视听分割结果比较

Fig.3   Comparison of AVS results with and without pool layer, pretraining and ACT activation


2.4.2. 预训练权重对MS3子集的影响

由于S4和MS3具有相同的目标对象类别,可以设想在S4权重上微调过的模型能够在MS3上生成更精确的$ {{\boldsymbol{S}}_{{\text{avl}}}} $,从而正确地指导特征增强. 由表4可以看出,S4子集上的预训练确实提高了模型在MS3子集上的性能. 在所有使用S4预训练权值的方法中,SSL2AVS在MS3子集上的$ {{{M}}_{\text{J}}} $值高于近年先进模型. 如图3所示,经过预训练的模型在物体边缘细节上具有更高的敏感度,生成了更完整精细的$ {{\boldsymbol{S}}_{{\text{avl}}}} $$ {{{\boldsymbol{P}}}_1} $,从而验证了设想.

表 4   MS3子集上不同初始化策略的性能比较

Tab.4  Performance comparison of different initialization strategies on MS3 sub-dataset

帧尺寸方法从头训练S4预训练
ResNet-50PVT v2ResNet-50PVT v2
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
224×224AVSBench47.8857.854.0064.554.3357.34
ECMVAE48.6960.757.8470.857.5667.460.8172.9
AuTR49.4161.256.2167.256.0066.060.9572.5
AVS-UFE55.8864.561.9570.959.3264.47
AVSegFormer49.5362.858.3669.353.7364.360.9272.0
SSL2AVS52.4963.362.1572.359.8469.464.1674.7
SSL2AVS+56.1866.962.4972.5
512×512AVSegFormer53.8165.661.3373.054.4963.761.3773.1
SSL2AVS59.5069.865.1675.664.2774.368.4477.8

新窗口打开| 下载CSV


2.4.3. $ {\text{ACT}} $激活的影响

为了验证在$ {{\boldsymbol{S}}_{{\text{avl}}}} $上使用$ {\text{ACT}} $激活函数对于引导模型进行物体观察的积极作用,分别在3种情况下进行实验:使用$ {\text{ACT}} $函数激活、使用$ {\text{Sigmoid}} $函数激活和不使用函数激活. 如表5所示,使用$ {\text{ACT}} $激活函数在所有情况下都取得了更好的结果. 如图3所示,经过$ {\text{ACT}} $激活后,由于物体边界的激活值变大,$ {{\boldsymbol{S}}_{{\text{avl}}}} $会引导模型对细微的物体边界进行观察,生成更完整的分割结果,从而验证了对$ {{\boldsymbol{S}}_{{\text{avl}}}} $使用$ {\text{ACT}} $激活的有效性.

表 5   ACT激活对实验结果的影响

Tab.5  Effect of ACT activation on experimental results

激活函数图像编码器S4MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
ACTResNet-5078.6888.059.5069.8
PVT v284.4391.665.1675.6
SigmoidResNet-5078.1987.855.4066.1
PVT v284.1591.361.6972.9
ResNet-5077.7687.258.7669.3
PVT v284.3391.563.3074.3

新窗口打开| 下载CSV


2.4.4. 使用少量训练数据的影响

在2个子集上,当图像大小为512×512时,使用不同比例(10%和30%)的训练数据测试模型性能. 如表6所示,在更为复杂的MS3子集上,SSL2AVS无论采取10%或30%的数据比例,基于ResNet-50或PVT v2图像编码器的模型都展现出积极的改进效果. 例如,当采用ResNet-50编码器且仅使用30%的标记数据时,SSL2AVS的$ {M_{\text{J}}} $值提高了10.36个百分点,表明SSL2AVS在标注数据有限的情况下比AVSegFormer模型更有效. 这可以归因于处理后的特征含有更少的背景噪声,有利于模型学习到物体的真实语义.

表 6   SSL2AVS与基线模型使用少量训练数据的性能比较

Tab.6  Performance comparison of SSL2AVS and baseline model using a small amount of training data

方法图像
编码器
$N_{\mathrm{p}} / 10^6 $MS3S4
10%30%10%30%
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
AVSegFormerResNet-50126.7444.5856.947.4060.770.1384.374.8185.7
PVT v2183.9552.7564.855.1667.979.6888.881.5589.7
SSL2AVSResNet-50136.4553.9066.057.7669.271.8084.376.6787.1
PVT v2179.7259.5769.262.5872.680.9489.882.7590.8

新窗口打开| 下载CSV


2.5. 消融实验

利用消融实验来验证SSL2AVS中每个关键设计的有效性. 实验中,采取的帧大小为512×512.

2.5.1. 特征增强模块的影响

为了分析引导式特征增强策略对后续分割任务的影响,分别以原始视觉特征$ {{\boldsymbol{F}}_{{\text{v}}}} $和增强后的特征$ {{{\boldsymbol{P}}}_{{\text{v}}}} $为分割依据进行对比试验,结果如表7显示. 表中,Np为模型参数量. 在S4子集上,引导式特征增强策略带来的改善作用相对较小,而在MS3子集上,引导式特征增强策略带来明显的改善. 分别将ResNet-50模型和PVT v2模型作为图像编码器,引入13.0%和1.0%的参数,获得的$ {M_{\text{J}}} $值有11.5%和8.7%的提升,说明了在复杂场景下进行特征增强的必要性. 图4可视化了特征增强带来的影响. 图中,2个带有9通道的例子均包含真实标签和预测掩码. 真实标签(狮子和手枪)的特征被突出显示,而非发声物体(汽车和人)的特征被抑制,这种特征处理方式导致了不同的分割掩码结果. 值得注意的是,处理后的特征包含的背景噪声明显较少,这无疑有利于后续分割.

表 7   特征增强模块对模型性能的影响

Tab.7  Impact of feature enhancement module on model performance

特征增强图像编码器$N_{\mathrm{p}} / 10^6 $S4MS3
$ {M_{\mathrm{J}}} $/%$ {M_{\mathrm{F}}} $/%$ {M_{\mathrm{J}}} $/%$ {M_{\mathrm{F}}} $/%
ResNet-50120.7577.5987.553.3764.0
PVT v2177.9884.2491.459.9671.6
ResNet-50136.4578.6888.059.5069.8
PVT v2179.7284.4391.665.1675.6

新窗口打开| 下载CSV


图 4

图 4   是否经过特征增强的特征比较

Fig.4   Comparison of features with or without feature enhancement


2.5.2. 对比损失和定位损失的影响

为了了解定位损失和对比损失的影响,分别在有或没有定位损失和对比损失的情况下训练SSL2AVS模型. 表8结果表明,定位损失和对比损失对最终的预测具有积极作用.

表 8   对比损失和定位损失对模型性能的影响

Tab.8  Impact of contrastive loss and location loss on model performance

$ {L_{{\text{loc}}}} $$ {L_{{\text{cts}}}} $S4MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
78.4287.957.6268.1
78.3487.959.1169.8
78.6888.059.5069.8

新窗口打开| 下载CSV


2.5.3. 双向注意力融合模块的影响

为了研究双向融合模块的影响,使用融合模块的不同变体进行对比实验,包括不进行任何融合、仅视觉融合(将音频特征注入视觉)、仅音频融合(将视觉特征注入音频)和完整的双向融合. 如表9所示,与未进行融合的模型相比,双向融合的$ {M_{\text{J}}} $值在S4和MS3子集上分别提高了1.39和3.52个百分点. 值得注意的是,无论是仅视频融合还是仅音频融合,都在不进行任何融合的基础上有了一定的提升,这说明了深度交融视听觉特征对视听分割任务的重要性.

表 9   双向注意力融合模块对模型性能的影响

Tab.9  Impact of bidirectional attention fusion module on model performance

融合方式S4MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
不进行任何融合77.2986.955.9866.9
仅视觉融合77.6687.358.8469.0
仅音频融合77.8487.257.5768.6
双向融合78.6888.059.5069.8

新窗口打开| 下载CSV


2.5.4. 查询数量的影响

为了分析查询数量对模型性能的影响,将查询数量分别设置为100、200、300和500进行实验. 根据表10中的结果,合适的查询数量可以提高模型的性能;当查询数量设置为300时,模型获得最佳性能.

表 10   查询数量对模型性能的影响

Tab.10  Impact of query quantity on model performance

查询数量S4MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
10077.8787.258.5168.6
20077.8487.458.8869.0
30078.6888.059.5069.8
50077.7587.358.8969.0

新窗口打开| 下载CSV


2.5.5. 可学习查询的影响

研究在$ {\boldsymbol{F}}'_{{\text{a}}} $基础上添加可学习的嵌入作为对象查询对模型性能的影响. 实验结果如表11所示,添加可学习嵌入有利于提升分割性能,表明额外的参数使模型能够更有效地学习对象在不同场景中的复杂变化.

表 11   可学习查询对模型性能的影响

Tab.11  Impact of learnable queries on model performance

可学习嵌入S4MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
不添加77.4387.357.4768.0
添加78.6888.059.5069.8

新窗口打开| 下载CSV


2.5.6. 损失系数的影响

为了分析式(21)中3个不同的$ \lambda $超参数对模型性能的影响,通过设置不同的参数值进行比较分析. 由于S4数据集场景简单,只存在单个目标,系数的变化对其影响不大. 而MS3数据集场景复杂,更接近实际情况,因此在不同系数下,MS3数据集的结果有明显差异. 如表12所示,设置合适的$ {\lambda _{\text{2}}} $$ {\lambda _{\text{3}}} $有利于提升性能. 值得注意的是,在编号为6和8的实验中,$ {\lambda _{\text{1}}} $$ {\lambda _{\text{2}}} $取值偏大,均对实验结果造成不利影响. 通过对比模型收敛后各部分损失值的大小,发现过大的$ {\lambda _{\text{2}}} $系数会影响$ {L_{{\text{mix}}}} $的收敛,而过大的$ {\lambda _{\text{1}}} $系数容易造成$ {\lambda _{\text{2}}} $不收敛. 因此,为了达到最佳优化目标,需要追求3个损失系数之间的数值平衡.

表 12   损失系数对模型性能的影响

Tab.12  Impact of loss coefficients on model performance

编号$ {\lambda _{\text{1}}} $$ {\lambda _{\text{2}}} $$ {\lambda _{\text{3}}} $MS3
$ {M_{\text{J}}} $/%$ {M_{\text{F}}} $/%
00.000.000.0056.6767.4
10.000.000.0556.8668.1
20.000.000.1057.6268.1
30.000.000.5056.8867.1
40.000.050.1059.0769.5
50.000.100.1059.1169.8
60.000.500.1057.7268.2
70.010.100.1059.5069.8
80.050.100.1055.4366.6
90.100.100.1057.5568.1

新窗口打开| 下载CSV


2.6. 定性分析

图5展示了SSL2AVS与AVSegFormer模型的部分分割结果. 可视化结果清楚地证明了SSL2AVS的优势,即具有较强的目标定位能力和语义理解能力,能够在多个声源场景中有效识别正确的声源,并准确分割出目标物体. 在图5(a)中的第1个视频中,由于背景干扰,AVSegFormer不能准确地将小目标物体(枪)从其背景(手)中分离出来;在第2个视频中,由于马的形状并不完整,AVSegFormer对其没有全局的认识,只分割出部分内容. 在图5(b)中的第1个视频中,SSL2AVS为2种乐器生成的分割结果具有细粒度的细节;在第2个视频中,SSL2AVS准确定位了狗,并将其完整地分割出来,而没有生成多余的噪声. 这些结果突出了SSL2AVS的有效性和鲁棒性.

图 5

图 5   SSL2AVS与AVSegFormer在S4和MS3子集上的模型性能定性比较

Fig.5   Qualitative comparison of model performance between SSL2AVS and AVSegFormer on S4 and MS3 subsets


3. 结 论

(1)通过两阶段策略,从声源定位到视听分割,从粗到精地实现目标分割,可以有效地处理复杂的视觉和听觉信息,从而提高了目标分割的精度. 尤其在复杂场景中,模型具有更强的鲁棒性.

(2)在声源定位阶段,使用对比学习方法实现视听模态对齐,可以获得声源物体的潜在空间位置. 通过设计特征增强模块,利用定位结果增强了目标物体的视觉特征,并降低了背景噪声的干扰.

(3)在音视觉的跨模态融合方面,使用双向注意力机制可以有效捕捉并增强视觉与听觉信息之间的关联. 此外,多阶段视觉特征融合有效整合了视觉的多层次信息,使视觉特征更加丰富和细致. 在音视觉的融合过程中,音频信息可以用于选择性地增强相关视觉区域,并调节不同视觉通道的权重,从而实现视觉特征的增强. 基于Transformer结构,可以利用音频特征构建目标查询,以视觉特征为键和值聚合包含多种目标信息的结果,作为最终的分割依据.

(4)对AVSBench-Object数据集的实验结果表明,SSL2AVS优于AVSegFormer模型,特别是在较为复杂的MS3子集上,其mIoU值达到了62.15. 此外,粗定位引导特征增强的策略可以获取简洁的物体特征,有利于模型拟合.

综上所述,SSL2AVS模型在复杂的多声源环境下展现出了卓越的性能. 但由于粗定位结果不够精准,模型对物体的整体感知能力仍有待提高. 在未来的研究中,将优化定位方法,以获取物体的全面区域. 同时,开发新的特征增强方法以及设计有效的视听融合模块,也将是下一步的工作重点.

参考文献

ARANDJELOVIĆ R, ZISSERMAN A. Look, listen and learn [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 609–617.

[本文引用: 1]

ARANDJELOVIĆ R, ZISSERMAN A. Objects that sound [C]// Proceedings of the European Conference on Computer Vision. Murich: ECVA, 2018: 451–466.

[本文引用: 1]

QIAN R, HU D, DINKEL H, et al. Multiple sound sources localization from coarse to fine [C]// Proceedings of the European Conference on Computer Vision. Glasgow: ECVA, 2020: 292–308.

[本文引用: 4]

MO S, MORGADO P. Localizing visual sounds the easy way [C]// Proceedings of the European Conference on Computer Vision. Tel Aviv: ECVA, 2022: 218–234.

HU X, CHEN Z, OWENS A. Mix and localize: localizing sound sources in mixtures [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 10473–10482.

[本文引用: 3]

HU D, WEI Y, QIAN R, et al

Class-aware sounding objects localization via audiovisual correspondence

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (12): 9844- 9859

[本文引用: 1]

MO S, TIAN Y. Audio-visual grouping network for sound localization from mixtures [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 10565–10574.

[本文引用: 1]

MINAEE S, BOYKOV Y, PORIKLI F, et al

Image segmentation using deep learning: a survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (7): 3523- 3542

[本文引用: 1]

ZHOU J, WANG J, ZHANG J, et al. Audio–visual segmentation [C]// Proceedings of the European Conference on Computer Vision. Tel Aviv: ECVA, 2022: 386–403.

[本文引用: 5]

YANG Q, NIE X, LI T, et al. Cooperation does matter: exploring multi-order bilateral relations for audio-visual segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 27124–27133.

[本文引用: 4]

LIU J, WANG Y, JU C, et al. Annotation-free audio-visual segmentation [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2024: 5592–5602.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22) [2025-01-10]. https://arxiv.org/abs/2010.11929.

[本文引用: 1]

WANG R, TANG D, DUAN N, et al. K-adapter: infusing knowledge into pre-trained models with adapters [EB/OL]. (2020-02-05) [2025-01-10]. https://arxiv.org/abs/2002.01808.

[本文引用: 1]

KIRILLOV A, MINTUN E, RAVI N, et al. Segment anything [C]// Proceedings of the IEEE International Conference on Computer Vision. Paris: IEEE, 2023: 3992–4003.

[本文引用: 2]

WANG Y, LIU W, LI G, et al. Prompting segmentation with sound is generalizable audio-visual source localizer [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2024: 5669–5677.

[本文引用: 2]

MA J, SUN P, WANG Y, et al. Stepping stones: a progressive training strategy for audio-visual semantic segmentation [C]// Proceedings of the European Conference on Computer Vision. Milan: ECVA, 2024: 311–327.

[本文引用: 1]

CHENG B, MISRA I, SCHWING A G, et al. Masked-attention mask Transformer for universal image segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1280–1289.

[本文引用: 1]

LIU J, JU C, MA C, et al. Audio-aware query-enhanced Transformer for audio-visual segmentation [EB/OL]. (2023-07-25) [2025-01-10]. https://arxiv.org/abs/2307.13236.

[本文引用: 1]

LI K, YANG Z, CHEN L, et al. CATR: combinatorial-dependence audio-queried Transformer for audio-visual video segmentation [C]// Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023: 1485–1494.

[本文引用: 2]

GAO S, CHEN Z, CHEN G, et al. AVSegFormer: audio-visual segmentation with Transformer [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2024: 12155–12163.

[本文引用: 6]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Long Beach: NeurIPS Foundation, 2017: 6000–6010.

[本文引用: 1]

XU B, LIANG H, LIANG R, et al. Locate globally, segment locally: a progressive architecture with knowledge review network for salient object detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2021: 3004–3012.

[本文引用: 1]

MAO Y, ZHANG J, XIANG M, et al. Multimodal variational auto-encoder based audio-visual segmentation [C]// Proceedings of the IEEE International Conference on Computer Vision. Paris: IEEE, 2023: 954–965.

[本文引用: 2]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.

[本文引用: 1]

WANG W, XIE E, LI X, et al

PVT v2: improved baselines with pyramid vision Transformer

[J]. Computational Visual Media, 2022, 8 (3): 415- 424

DOI:10.1007/s41095-022-0274-8      [本文引用: 1]

HERSHEY S, CHAUDHURI S, ELLIS D P W, et al. CNN architectures for large-scale audio classification [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans: IEEE, 2017: 131–135.

[本文引用: 2]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// Proceedings of the Medical Image Computing and Computer-Assisted Intervention. Munich: Springer, 2015: 234–241.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: ECVA, 2018: 3–19.

[本文引用: 1]

ZHAO X, LIANG H, LI P, et al

Motion-aware memory network for fast video salient object detection

[J]. IEEE Transactions on Image Processing, 2024, 33: 709- 721

[本文引用: 1]

WANG Q, WU B, ZHU P, et al. ECA-net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531–11539.

[本文引用: 1]

MILLETARI F, NAVAB N, AHMADI S A. V-net: fully convolutional neural networks for volumetric medical image segmentation [C]// Fourth International Conference on 3D Vision. Stanford: IEEE, 2016: 565–571.

[本文引用: 1]

LIU J, LIU Y, ZHANG F, et al. Audio-visual segmentation via unlabeled frame exploitation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 26318–26329.

[本文引用: 2]

LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. (2017-11-14) [2025-01-10]. https://arxiv.org/abs/1711.05101.

[本文引用: 1]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248–255.

[本文引用: 1]

GEMMEKE J F, ELLIS D P W, FREEDMAN D, et al. Audio set: an ontology and human-labeled dataset for audio events [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans: IEEE, 2017: 776–780.

[本文引用: 1]

LIU C, LI P P, QI X, et al. Audio-visual segmentation by exploring cross-modal mutual semantics [C]// Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023: 7590–7598.

[本文引用: 1]

/