浙江大学学报(工学版), 2025, 59(8): 1718-1726 doi: 10.3785/j.issn.1008-973X.2025.08.019

计算机技术、控制工程、通信技术

基于Convnextv2与纹理边缘引导的伪装目标检测

付家瑞,, 李兆飞,, 周豪, 黄惟

1. 四川轻化工大学 自动化与信息工程学院,四川 宜宾 644000

2. 智能感知与控制四川省重点实验室,四川 宜宾 644000

3. 企业信息化与物联网测控技术四川省高校重点实验室,四川 宜宾 644000

Camouflaged object detection based on Convnextv2 and texture-edge guidance

FU Jiarui,, LI Zhaofei,, ZHOU Hao, HUANG Wei

1. College of Automation and Information Engineering, Sichuan University of Science and Engineering, Yibin 644000, China

2. Intelligent Perception and Control Key Laboratory of Sichuan Province, Yibin 644000, China

3. Key Laboratory of Higher Education of Sichuan Province for Enterprise Informationalization and Internet of Things, Yibin 644000, China

通讯作者: 李兆飞,男,副教授,硕导. orcid.org/0000-0002-0679-5954. E-mail: lizhaofei825@163.com

收稿日期: 2024-08-8  

基金资助: 企业信息化与物联测控技术四川省重点实验室资助项目(2022WZJ02);自贡市重点科技计划资助项目(2019YYJC15);四川轻化工大学科研基金资助项目(2020RC32);四川轻化工大学研究生课程建设项目(AL202213,SZ202310);四川轻化工大学教学改革项目(2024KCSZ-ZY03,2024KCSZ-KC09,JG-24064).

Received: 2024-08-8  

Fund supported: 企业信息化与物联测控技术四川省重点实验室资助项目(2022WZJ02);自贡市重点科技计划资助项目(2019YYJC15);四川轻化工大学科研基金资助项目(2020RC32);四川轻化工大学研究生课程建设项目(AL202213,SZ202310);四川轻化工大学教学改革项目(2024KCSZ-ZY03,2024KCSZ-KC09,JG-24064).

作者简介 About authors

付家瑞(1999—),男,硕士生,从事目标检测、伪装目标检测的研究.orcid.org/0009-0005-6799-6206.E-mail:izayoisakur_ray@163.com , E-mail:izayoisakur_ray@163.com

摘要

为了解决伪装目标检测中目标的边缘特征及对应场景下独特纹理特征信息表达处理不足的问题,提出基于Convnextv2与纹理边缘引导的伪装目标检测算法. 通过纹理编码模块在输入图片上提取纹理特征,与主干网络提取的边缘特征进行融合,生成图片的纹理-边缘特征. 通过设计的纹理边缘引导的注意力模块,将纹理-边缘特征融入主干特征以定位目标的真实位置. 利用特征融合模块进行多层次特征融合,采用多级监督的方式,设计总的损失函数. 在3个公开数据集CAMO、COD10K、NC4K和迷彩伪装混合数据集MICAI_TE上的实验表明,该算法的综合性能最优.

关键词: 伪装目标检测 ; 纹理边缘引导特征融合 ; Convnextv2 ; 特征提取 ; 纹理边缘注意力机制

Abstract

A camouflaged object detection method based on Convnextv2 and texture-edge guidance was proposed in order to address the issue of insufficient expression and processing of edge features of targets and unique texture feature information in corresponding scenarios in camouflaged object detection. The texture encoding module was used to extract texture features from input images, which were fused with the edge features extracted by the backbone network to generate texture-edge features of the images. The texture-edge features were integrated into the backbone features to locate the true position of the target through the designed texture-edge guided attention module. A feature fusion module was employed for multi-level feature fusion, and a multi-level supervision approach was adopted to design the overall loss function. Experiments on three public datasets (CAMO, COD10K, NC4K) and the camouflage mixed dataset MICAI_TE showed that the algorithm achieved optimal comprehensive performance.

Keywords: camouflage object detection ; texture-edge-guided feature fusion ; Convnextv2 ; feature extraction ; texture edge attention mechanism

PDF (1894KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

付家瑞, 李兆飞, 周豪, 黄惟. 基于Convnextv2与纹理边缘引导的伪装目标检测. 浙江大学学报(工学版)[J], 2025, 59(8): 1718-1726 doi:10.3785/j.issn.1008-973X.2025.08.019

FU Jiarui, LI Zhaofei, ZHOU Hao, HUANG Wei. Camouflaged object detection based on Convnextv2 and texture-edge guidance. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(8): 1718-1726 doi:10.3785/j.issn.1008-973X.2025.08.019

近年来,伪装目标检测(camouflage object detection, COD)与识别研究得到了飞速发展,该任务旨在识别视觉上“完美”嵌入周围环境的目标[1]. 当前该任务主要面临的挑战如下:如何在复杂环境中准确地识别伪装对象;当面临遮挡时,如何判断遮挡物是物体的一部分;如何处理多尺度、多视角、多模态的图像数据等.

针对这些问题,Sun等[2]利用注意力引导特征融合,设计C2F-Net模型,基于上下文感知跨层融合网络,用于伪装目标检测. Ren等[3]提出TANet,通过计算协方差矩阵来提取纹理信息,放大伪装目标与周围环境之间的纹理差异性,然而网络在学习的过程中忽略了上下文信息,网络的性能有待提高. Ji等[4]基于置信感知学习策略,提出DGNet深度梯度学习模型,可以在抑制背景噪声的同时检测纹理模式,进而检测伪装目标. 缺少边缘信息的引导会导致在边缘干扰或者目标轮廓处于伪装时,难以完整地识别目标的结构和细节,尤其是在小目标区域中难以提取到足够的纹理信息,导致预测出来的目标具有模糊的边界. Sun等[5]提出边界引导网络BGNet,该网络通过探索有价值和额外与目标边界相关的语义信息来指导COD表征学习,生成凸显目标结构的特征来定位伪装目标的边界. Chen等[6]通过研究SAM2[7](segment anything, SAM)在一些复杂的低层级分割任务中的表现,提出新的适配器SAM2-Adapter. 这种适配器通过在大模型训练时注入预先设计的Adapter的方式,提升其针对特定任务的性能. 由于Adapter需要在训练时单独设计,导致模型的复杂程度增加,还对模型的使用者提出了较高的要求.

Chen等[8]的研究表明,上下文信息对于提高小目标检测、外观模糊目标检测和遮挡目标检测的准确性具有重要意义,这同样适用于伪装目标检测问题. 在关注纹理信息的同时,要重视上下文和边缘信息. 在此背景下,结合Convnext能够通过具有不同尺度和深度的卷积层来捕获图像中的不同特征,更好地适应复杂图像场景,能够更准确地识别图像和背景的优势.

本文提出基于Convnextv2与边缘引导注意力特征融合(convnextv2 and texture-edge guide attention feature fusion network, CTEGAFNet)的伪装目标检测算法. 该算法采用纹理边缘特征提取模块,将目标纹理特征与边缘检测特征融合,增强对目标位置定位的边缘辅助信息提取能力. 与主干网络Convnext提取的多级特征通过边缘引导注意力模块进行融合,定位目标的真实区域. 开展多层次特征融合,减少特征的信息丢失,提升伪装目标预测的精度. 在CAMO、COD10K、NC4K及迷彩伪装混合数据集上,验证和对比了所提方法的性能.

1. 算法简介

提出基于Convnextv2与纹理边缘引导特征融合的伪装目标检测算法,整体结构如图1所示. 给定的输入为原始图像,图像采用3通道输入,高、宽分别为HW. 对于纹理-边缘特征的提取部分,受DGNet与MSCSF[9]算法的启发,设计融合边缘信息与图片纹理特征的纹理边缘编码器(texture-edge encoder). 将提取到的图片纹理特征与边缘特征进行融合,得到带有边缘增强后的图片特征. 将增强后的图片特征作为辅助特征融入到边缘注意力机制中,使得网络在目标所在区域具有更高的关注度. CTEGAFNet网络主要由4个部分组成,主干部分的多级特征提取采用Convnextv2[10]. Convnext网络是在CNN和transform结构的基础上,通过将ResNet[11]重新构建得到纯卷积神经网络. Convnext在取得与VisionTransformer[12]相当的准确性和可扩展性的同时,保持了标准卷积神经网络的简洁性和高效性. 对主干网络Convnextv2中特定层次的多级特征与纹理边缘编码器处理后,输出至纹理-边缘引导注意力融合模块(texture-edge guided attention,TEGA)进行预测区域的引导. 通过扩展联级解码器[13](extend cascaded partial decoder,ECPD),将ECPD得到的初步预测图与纹理-边缘引导注意力模块输出的特征相加进行多层次特征融合,输出最终的目标预测结果.

图 1

图 1   CTEGAFNet的网络结构

Fig.1   Network structure of CTEGAFNet


1.1. 纹理特征提取

纹理特征提取是通过纹理编码模块直接在图片上提取纹理特征. 参考DGNet的做法,采用不同大小的卷积核在原始图像上提取纹理信息,同时将目标纹理Pg作为被监督的对象. 包含纹理的上一层特征Xg将输入至TEGA模块. 监督的过程如下所示:

$ {P_{\text{g}}} = {F_{\mathrm{E}}}({\mathrm{Input}}) \otimes {\mathrm{Edge}}. $

式中:$ {F_{\mathrm{E}}} $表示标准的Canny边缘检测器,Edge为目标边缘真值,Input表示原始输入图像,$ \otimes $表示逐元素相乘. 纹理编码模块整体的结构如图2所示.

图 2

图 2   纹理编码模块的结构

Fig.2   Structure of texture encode module


1.2. 边缘特征提取

边缘特征提取是通过边缘编码模块,使用Convnextv2主干网络中的F1F4特征层来生成图片的边缘. 选择这两层的原因是第1层次的特征层中包含更多的边缘信息,第4层特征包含较高的语义信息[14]. 通过结合这2个层次的特征,能够更有效地捕捉与目标边界相关的边缘语义信息. 在融合了纹理特征后,能够帮助网络更好地定位和分割伪装目标,过程如下所示.

$ \left. \begin{aligned} {f_{{\mathrm{e}}1}}' = & \uparrow {\mathrm{Conv}}1 \times 1({F_1}) \times \\ & \{ 1 - {\mathrm{Sig}}[{\mathrm{Conv}}1 \times 1({\mathrm{PG}})]\} + \uparrow {\mathrm{Conv}}1 \times 1({F_1}), \\ {f_{{\mathrm{e}}4}}' =& \uparrow {\mathrm{Conv}}1 \times 1({F_4}) \times {\mathrm{Sig}}[{\mathrm{Conv}}1 \times 1({\mathrm{PG}})]+\\ & \uparrow {\mathrm{Conv}}1 \times 1({F_4}). \end{aligned} \right\} $

$ {E_{\mathrm{d}}} = {\mathrm{Conv}}1 \times 1({\mathrm{Conv}}3 \times 3([{\mathrm{Concat}}({f_{{\mathrm{e}}1}}',{f_{{\mathrm{e}}4}}')])). $

式中: ‘$ \uparrow $’表示上采样,Sig为Sigmoid操作. 边缘编码模块的结构如图3所示.

图 3

图 3   边缘编码模块的结构

Fig.3   Structure of edge encode module


1.3. 纹理边缘引导注意力模块

为了增强这些关键信息来辅助网络对识别伪装目标区域的定位和分割,引入新的纹理边缘引导注意力模块(texture-edge guide attention, TEGA). 该模块在纹理-边缘辅助模块和Convnext骨干网络所提取的特征路径间运行. 将Convnextv2主干网络的多级特征Xi、纹理编码模块学习到的纹理特征Xg与预测的边缘Ed作为该模块的输入. 采用双线性插值,将纹理特征和边缘特征的大小调整至主干网络对应特征的大小. 将边缘特征经过归一化处理后,分别与主干特征相乘得到一组前景、背景和边缘的注意力特征图. 纹理特征与主干特征进行逐元素相乘后,得到增强纹理的主干特征. 将这3个增强特征拼接起来得到注意力图,经过残差结构后进行融合增强操作,再将主干特征与注意力特征图求和. 使用卷积块注意力模块(convolutional block attention module, CBAM[15])处理输出,过程如下所示.

$ \left. {\begin{array}{*{20}{c}} {{X_{\mathrm{g}}}' = \uparrow {\mathrm{Conv}}1 \times 1(X_{\mathrm{g}}) \cdot {F_i},} \\ {{E_{\rm d}}' = \uparrow (1 - {\rm Sig}({E_{\rm d}})) \cdot {F_i}}, \\ {{E_{\rm d}}'' = \uparrow {\rm Sig}({E_{\rm d}}) \cdot {F_i},}\; i \in \{ 1,2,3,4\}.\end{array}} \right\} $

$ {\mathrm{CBAM}}\{ {F_i}+{\mathrm{ATT}}[({{X}_{\mathrm{g}}}' \oplus {\mathrm{Edge}}' \oplus {\mathrm{Edge}}'')]\} . $

CBAM的公式为

$ {\mathrm{CBAM}} = {M_{\mathrm{c}}}(F) \otimes F+{M_{\mathrm{s}}}({M_{\mathrm{c}}}(F) \otimes F) \otimes {M_{\mathrm{c}}}(F) \otimes F. $

式中:F表示输入的特征图,$ {M_{\mathrm{c}}} $为通道注意力机制,$ {M_{\mathrm{s}}} $为空间注意力机制,$ \oplus $表示Concat操作. 融合增强的公式如下所示.

$ {f_{\mathrm{m}}}^{j'} = {\mathrm{Conv}}3 \times {3_{d = j}}[({f_{\mathrm{m}}}^{j - 1'} !\oplus {f_{\mathrm{m}}}^j \oplus {f_{\mathrm{m}}}^{j+1})];j \in \{ 1,2,3,4\} . $

$ {F_{{\mathrm{out}}}} = {\mathrm{Conv}}1 \times 1({\mathrm{Conv}}1 \times 1([{f_{\mathrm{m}}}^{j'} \oplus {f_{\mathrm{m}}}])). $

式中:${f^1}_{\mathrm{m}}$${f^2}_{\mathrm{m}}$${f^3}_{\mathrm{m}}$${f^4}_{\mathrm{m}}$表示将输入沿通道维度均匀分为4个子块. 纹理边缘引导注意力模块的结构如图4所示.

图 4

图 4   纹理-边缘引导注意力模块的结构

Fig.4   Structure of texture-edge guided attention module


图4中的ATT-Fusion部分为融合模块,融合模块的结构图如图5所示. CBAM的结构图已在图4中箭头所指的虚线框中给出.

图 5

图 5   融合模块的结构

Fig.5   Structure of fusion module


1.4. 特征融合模块

将纹理边缘引导注意力模块输出的特征图作为输入,经过扩展级联解码模块得到初步的预测图. 对纹理边缘引导注意力模块输出的特征图进行逐层求和,最终将初步预测图恢复到输入图片大小,与逐层求和后的特征相加作为最终的预测输出. 最终的预测输出过程如下所示:

$ \left. {\begin{array}{*{20}{l}} {{f_4} = {\mathrm{TEG}}{{\mathrm{A}}_4}}, \\ {{f_3} = {\mathrm{TEG}}{{\mathrm{A}}_4}+{\mathrm{TEG}}{{\mathrm{A}}_3}}, \\ {{f_2} = {f_3}+{\mathrm{TEG}}{{\mathrm{A}}_2}}, \\ {{f_1} = {\mathrm{TEG}}{{\mathrm{A}}_1}+{f_2}+{\mathrm{ECPD}}}. \end{array}} \right\} $

式中:TEGA1~TEGA4为对应纹理边缘引导注意力模块的特征输出,ECPD表示扩展级联解码模块输出的初步预测图.

扩展级联解码模块的过程如下所示.

$ \left. {\begin{array}{*{20}{l}} {f{'_4} = {f_4}}, \\ {f{'_3} = {f_3} \otimes b[\delta _ \uparrow ^2(f{'_4});W_{{\mathrm{DI}}}^1]}, \\ {f{'_2} = {f_2} \otimes b[\delta _ \uparrow ^2(f{'_3});W_{{\mathrm{D}}{\mathrm{I}}}^2] \otimes b[\delta _ \uparrow ^2(f{'_3});W_{{\mathrm{DI}}}^3]}, \\ {f{'_1} = {f_1} \otimes b[\delta _ \uparrow ^2(f{'_2});W_{{\mathrm{DI}}}^4] \otimes b[\delta _ \uparrow ^2(f{'_2});W_{{\mathrm{DI}}}^5]}. \end{array}} \right\} $

$ \left. \begin{gathered} {f{'_4} = {f_4}} , \\ {f'{'_3} = [f{'_4} \oplus f{'_3};W{'_{{\mathrm{DI}}}}]} , \\ {f'{'_2} = [f'{'_3};W{'_{{\mathrm{DI}}}} \oplus f{'_2};W'{'_{{\mathrm{DI}}}}]} , \\ f'{'_1} = [f'{'_2};W'{'_{{\mathrm{DI}}}} \oplus f'_1;W''{'_{{\mathrm{DI}}}}], \\ {\mathrm{out}} = {\mathrm{conv1}} \times 1(f'{'_1}) . \\ \end{gathered} \right\} $

式中:f1~f4分别表示待融合的特征层,其中${W_{{\mathrm{DI}}}}$表示3×3的卷积批处理. 在处理前,使用上采样操作. 采用Concat的方式将其拼接,W表示3×3卷积,W的上标为输入通道的倍数. 最终通过1×1卷积调整通道数,从4×channel调整至1通道输出.

通过这种方式进行多层次特征融合,以减少特征信息的丢失,完整地识别目标的结构和细节.

1.5. 损失函数

由于伪装目标检测任务是像素级的视觉任务,对图像的结构、边缘信息的要求较高,采用多级监督的方式设计总的损失函数. 具体而言,在纹理预测部分,采用Canny边缘算子处理的训练图像进行监督,构成Lg. 采用MAE损失函数,如下所示:

$ {L_{\mathrm{g}}} = \frac{1}{n}{\sum\nolimits_{i = 1}^n {({y_i} - {{\hat y}_i})} ^2}. $

式中:${y_i}$为真实值,$ \hat y $为估计值,n为观测的数量.

在边缘检测部分,采用Dice损失函数,对Canny边缘算子处理得到的基准真实值(ground truth,GT)和边缘图像进行监督,构成Ld[16]

$ {L_{\mathrm{d}}}({P_i},{G_i}) = \frac{{2{\displaystyle \sum} {_{x,y}({P_{i,x,y}}{G_{i,x,y}})} }}{{{\displaystyle \sum} {_{x,y}P_{i,x,y}^2+{\displaystyle \sum} {_{x,y}G_{i,x,y}^2} } }}. $

式中:分子为预测分割区域$ {P_{i,x,y}} $和真实分割区域$ {G_{i,x,y}} $的交集,分母为图像间的像素总数.

在特征融合部分,对于TEGA模块的输出特征TEGA1~TEGA4,采用二元交叉熵损失与交并比损失得到结构损失函数,并对结构损失函数求和得到Ltega,如下所示:

$ {L_{{\mathrm{tega}}}} = {L_{{\mathrm{wBCE}}}}({\boldsymbol{P}},{\boldsymbol{G}})+\sum\limits_{i = 1}^4 {{L_{{\mathrm{wIOU}}}^{i}}} . $

式中:$ {L_{{\mathrm{wBCE}}}} $为目标检测算法中常用的BCE损失函数,LiwIOU为TEGA1~TEGA4的加权IOU损失函数.

最终的预测图像采用基准真实值图像进行监督,构成Lp. 损失函数采用二元交叉熵损失与交并比损失构成的结构损失函数. 预测结果的损失Lp

$ {L_{\mathrm{p}}} = {L_{{\mathrm{wBCE}}}}({\boldsymbol{P}},{\boldsymbol{G}})+{L_{{\mathrm{wIOU}}}}. $

总的损失函数为

$ {L_{{\mathrm{total}}}} = {L_{\mathrm{d}}}+{L_{\mathrm{p}}}+{L_{\mathrm{g}}}+{L_{{\mathrm{tega}}}}. $

2. 实验结果

2.1. 实验环境与训练参数、数据集与评价指标

算法基于Pytorch框架开发,所使用的环境为ubuntu20.04、python3.8、Cuda11.8,在单张显卡RTX4090 (24G)上进行训练. 学习率均采用0.1×10−5,训练的批处理大小设置为8,总共训练100轮. 采用在Image上预训练的Convnextv2作为预训练模型,使用Adam作为优化器. 在训练中,利用余弦退火策略调整学习率,delay参数为50,图像大小调整为384,启用4种数据增强:色彩增强、随机翻转、随机裁剪和随机旋转.

针对伪装目标检测,在以下3个常用的基准数据集上进行实验:CAMO[17]、COD10K[18]和NC4K[19]. 在试验中,将CAMO和COD10K的训练集组合作为训练样本,共4 040张图像. 将CAMO的测试集作为验证样本,图片数量为250张. 将CAMO、COD10K、NC4K的测试集作为测试样本. 在针对迷彩人员的目标检测实验中,将CPD1k数据集和Kaggle上的ACD1K数据集进行融合. 由于CPD1k没有进行数据集的划分,将CPD1K数据集图片按照7︰3的比例划分为训练集和验证集,并将其与ACD1K结合,得到MICAI数据集. MICAI训练集的图片数量为2 568张,验证集的图片数量为1 110张.

为了保证实验的公平性,在COD数据集上参与对比的11种算法(网络)[2,4,5,9,18,20-25]均采用笔者所提供的图像结果,在同一设备上进行对比,而缺少图像结果的算法将按照笔者提供的开源源码进行训练后再测试性能的结果. 对于缺少图像结果的网络,在重新训练后不作视觉结果的展示. 在迷彩伪装目标检测任务中,统一在MICAI数据集上进行训练,并在验证集上进行验证. 由于目前COD领域的研究没有考虑伪装对象的类别信息,该模型没有分类输出. 评价指标采用COD常用的4个指标:结构度量${S_\alpha }$、增强对齐性度量${E_\phi }$、加权度量${F_\beta ^{\omega}}$、平均绝对误差MAE. 4种评价指标的公式定义分别如下所示.

$ {S_\alpha } = \alpha {S_0}+(1 - \alpha ){S_{\mathrm{r}}}, $

$ {E_\phi } = \frac{1}{{{{w}}h}}\sum\limits_{x = 1}^w {\sum\limits_{y = 1}^h {\phi ({\boldsymbol{P}},{\boldsymbol{G}})} } , $

$ {F_\beta }^\omega = (1+{\beta ^2})\frac{{{P^\omega }{R^\omega }}}{{{\beta ^2}{P^\omega }+{R^\omega }}}, $

$ {\mathrm{MAE}} = \frac{1}{{wh}}\sum\limits_{x = 1}^w {\sum\limits_{y = 1}^h {\left| {P(x,y) - G(x,y)} \right|} } . $

式中:${S_\alpha }$${S_{\mathrm{r}}}$分别为对象级和区域级的结构相似性;根据先前研究者的经验,本文$\alpha $设置为0.5;$w$为图像宽度;${{{{h}}}}$为图像宽度;$\phi ({\boldsymbol{P}}, {\boldsymbol{G}})$为联合矩阵,用来计算图像级的统计信息和像素级的匹配信息;${P^\omega }$${R^\omega }$分别为加权精度和加权召回率,用来衡量预测的准确性和完整性; ${\beta ^2}$为平衡系数,本文设置为0.3.

2.2. 实验结果

挑选的11种主流的伪装目标检测分别是经典算法SINet[18]、SINetV2[20]、采用注意力系数丰富全局上下文信息的算法C2FNet[2]、采用交替关注前景与背景信息的算法SARNet[21]、采用多阶段迭代框架的算法SegMaR[22]、在预测区域捕捉结构细节的算法FSNet[23]、采用高分辨率迭代反馈的算法HitNet[24]、采用边缘引导的算法BGNet[5]、关注待测目标纹理的轻量化算法 DGNet[4]、采用三元联合学习策略的 ZoomNet[25]、关注纹理和上下文特征融合的算法 MSCAF[9]. 为了公平起见,所有数据均采用相同的评估代码进行评估. 最终的定量对比结果如表12所示. 其中,Np为参数量,黑色加粗字体表示最优结果. 为了能够说明算法之间结果的差异性,采用检测结果视觉比较的方式进行展示,如图6所示.

表 1   CTEGAFNet与其他11种算法在CAMO和COD10K上的对比结果

Tab.1  Comparison result of CTEGAFNet and other 11 methods in CAMO and COD10K

网络CAMO-TESTCOD10K-TESTNp/106
$ S_{\alpha} $$ {F_\beta ^{\omega}} $$ E_{\phi} $$ \mathrm{MAE} $$ S_{\alpha} $$ {F_\beta ^{\omega}} $$ E_{\phi} $$ \mathrm{MAE} $
MSCAF0.8730.8280.9290.0460.8650.7750.9270.02428.33
SARNet0.8680.8280.9270.0470.8640.8000.9310.02444.79
FSNet0.8800.8610.9330.0410.8700.8100.9380.023124.53
HitNet0.8440.8010.9020.0570.8680.7980.9320.02424.53
SegMaR0.8150.7420.8720.0710.8330.7240.8950.03368.04
SINet0.7450.6440.8290.0920.7760.6310.8640.04348.95
SINetV20.8200.7430.8820.0700.8150.6800.8870.03726.98
C2FNet0.7960.7190.8640.0800.8130.6860.8900.03626.30
BGNet0.8120.7490.8700.0730.8310.7220.9010.03374.20
DGNet0.8390.7690.9010.0570.8220.6930.8960.03321.02
ZoomNet0.8200.7520.8830.0660.8380.7290.8930.02932.38
CTEGAFNet0.8930.8580.9370.0370.8790.8010.9330.02192.94

新窗口打开| 下载CSV


表 2   CTEGAFNet与其他11种算法在NC4K和MICAI_TE上的对比结果

Tab.2  Comparison result of CTEGAFNet and other 11 methods in NC4K and MICAI_TE

网络NC4KMICAI_TENp/106
${S_\alpha } $${F_\beta ^{\omega}}$${E_\phi }$${\mathrm{MAE}}$${S_\alpha } $${F_\beta ^{\omega}} $${E_\phi } $${\mathrm{MAE}} $
MSCAF0.8870.8390.9350.0320.8900.8190.9460.01428.33
SARNet0.8860.8420.9370.0320.8880.8110.9440.01444.79
FSNet0.8910.8660.9400.0310.8870.8110.9430.014124.53
HitNet0.8700.8250.9210.0390.8860.8220.9550.01424.53
SegMaR0.8410.7810.9050.0460.8740.7820.9200.01968.04
SINet0.8080.7230.8710.0580.6780.3870.6240.05248.95
SINetV20.8470.7700.9030.0480.7330.5080.7390.03826.98
C2FNet0.8380.7620.8970.0490.8670.7760.9330.01926.30
BGNet0.8510.7880.9070.0440.7250.5200.7870.04374.20
DGNet0.8570.7840.9110.0420.8720.7790.9280.01821.02
ZoomNet0.8530.7840.9070.0430.8450.7250.8430.03032.38
CTEGAFNet0.9000.8590.9400.0280.8950.8270.9530.01392.94

新窗口打开| 下载CSV


图 6

图 6   与10种不同COD方法的检测结果视觉比较

Fig.6   Visual comparison of detection result obtained by other 10 different COD methods


表12可知,在结构性度量指标的结果中,本文算法在4个数据集上的性能最优,分别在CAMO、COD10K和NC4K中领先第2名的FSNet网络0.013、0.009和0.09,达到0.893、0.879与0.900;在MICAI_TE数据集中,领先MSCAF网络0.005,达到0.895.

在加权F-measure评价指标的结果中,在CAMO、COD10K和NC4K中落后第1名FSNet网络0.003、0.009和0.007,达到0.858、0.801和0.859;在MICAI_TE数据集中,领先第2名HitNet网络0.005,做到最优.

平均绝对误差在4个数据集上最小,为0.037、0.021、0.028和0.013,分别领先CAMO、COD10K和NC4K中第2名FSNet网络0.004、0.002和0.003,在MICAI_TE数据集中领先第2名0.001.

在增强对齐性度量指标的结果中,在CAMO数据集上结果最优,为0.939,在COD10K数据集上落后第1名FSNet网络0.005. 在NC4K数据集上的结果最优,为0.940,领先第2名FSNet网络0.001;在MICAI_TE数据集中,落后HitNet网络0.002.

图6所示为部分伪装目标的预测结果. 从1-Fish、2-lizard、3-bird、5-FrogFish、6-cat中能够体现出采用边缘引导后的结果拥有更加清晰的轮廓,特别是在6-cat的预测结果图中,由于采用纹理-边缘引导,定位出了胡须的位置,预测图结果更加精准. 关注纹理特征的DGNet在胡须下方出现了模糊的情况,采用边缘引导的BGNet下方的胡须没有分割完整. 将4-Octopus原图放大,如图7所示,其中框选出的位置为透明胶质,实际上为GT标注错误.

图 7

图 7   4-Octopus 原始图片

Fig.7   4-Octopus original image


在迷彩伪装目标识别的结果中,人体在嵌入环境时,会尝试各种方式掩盖自身轮廓,这明显增大了迷彩伪装目标的检测难度. 在7-micai_te_1图像中,所有的算法都未预测出接近的轮廓. 在8-micai_te_2图像的预测结果中,仅有CTEGAFNet、DGNet、MSCAF识别出相近的轮廓. 在9-micai_te_3中,CTEGAFNet的结果受到环境噪声的影响,定位缺失了一部分,导致最终结果有明显的漏检部位,FSNet存在边缘模糊的问题. 在10-micai_te_4中,CTEGAFNet的预测结果具有更加清晰的边缘. 综合以上实验结果可知,本文算法在CAMO和NC4K数据集上的增强对齐性度量指标最优,在MICAI_TE数据集上的加权度量指标最优. 与综合性能第2名的FSNet相比,参数量减少了31.59×106,性能得到了提升,综合性能结果基本做到了最优. 从最终的结果视觉图上可以看出,在边缘明显的场景下,利用本文算法,能够更加清晰地得到最终的预测结果图. 在迷彩场景下,虽然会出现误检的情况,但检测效果比其他算法好.

该算法的不足如下:与参数量最小的网络DGNet相比,参数量增加了71.92×106,这主要与主干网络本身的大小(89×106)有关. 在目标被遮挡后,容易出现在目标上分割出遮挡物边缘或将被遮挡部分的目标漏检的情况,这会导致算法在评测指标上的性能下降. 该算法更适用于嵌入环境、但不被环境遮挡的情况.

2.3. 消融实验

为了验证算法各模块的有效性,开展消融实验,验证各个模块的有效性. 每次实验仅有一个结构变化. 其中Base由主干网络的最后1层特征层经过1×1卷积减小通道数后,上采样至输出大小,且仅在最终网络中采用多级监督的损失. 其余实验采用式(14)所示的结构损失函数,将CAMO-TEST作为评价数据集. 其中的Fus表示特征融合模块,Att(Without T-Edge)表示没有纹理-边缘编码器引导下的注意力机制,结构如图8所示. 其中,Fi为主干网络的对应输出.

图 8

图 8   Att(Without T-Edge)模块的结构

Fig.8   Structure of Att (Without T-Edge) module


消融实验的结果和视觉效果图如表3图9所示. 消融实验中Base+Fus的网络结构如图10所示.

表 3   在CAMO数据集上开展消融实验的结果

Tab.3  Result of ablation study conducted on CAMO dataset

算法${S_\alpha } $${F_\beta ^{\omega}} $${E_\phi }$${\mathrm{MAE }} $
Base0.8770.8120.9170.046
Base+Fus0.8910.8560.9340.037
Base+Att(Without T-Edge)0.6280.3960.7360.173
Base+Att(with T-Edge)0.8900.8560.9370.037
Base+Fus+Att(Without T-Edge)0.8880.8550.9350.038
Base+Fus+Att(with T-Edge)0.8930.8580.9370.037

新窗口打开| 下载CSV


图 9

图 9   消融实验中不同模型的视觉结果对比

Fig.9   Comparison of visual result of different models in ablation study


图 10

图 10   Base+Fus网络的结构

Fig.10   Structure of Base+Fus


表3可知,在Base+Att(without T-Edge)中,缺少纹理边缘引导的网络处理后的环境噪声没有减少,最终几乎识别不出目标. 在增加边缘纹理引导后,与Base相比,结构度量指标提升了1.3%,加权F-measure提升了4.4%,增强对齐性度量指标提升了2.0%,MAE降低了0.9%. 在Base+Fus实验中,与Base相比,结构度量指标提升了1.4%,加权F-measure指标提升了4.4%,增强对齐性度量指标提升了1.7%,MAE指标降低了0.9%.

在Base+Att(without T-Edge)中,由于结构度量本身是边界和区域一致性的评价,在引入没有纹理-边缘引导的注意力机制后造成了性能的下降. 之后使用Att(with edge)定位了伪装目标的位置,提升了结构度量项指标. 对于加权F-measure度量指标,在添加注意力后增加了对信息的关注,但是缺少纹理边缘的引导,导致精确率降低. 增强对齐性度量指标反映了预测图和真实值之间的差异,缺少边缘引导导致预测边缘模糊,会覆盖更多的真值部分,导致指标上升.

所提算法的综合指标在参与对比的算法中是最优的. 从图9可知,在CAMO数据集中的消融实验视觉图的结果验证了部分引起性能变化的猜想. 例如,对于图片01078,当使用Fus+Att(without T-Edge)时,不能将伪装目标完整地识别出来。当只使用Fus或者带引导的Att时,会出现检测结果有毛刺的情况. 对于图片01068,在缺乏足够的引导与融合时,错误检测多余部分. 对于图片00600与图片00420,在缺少T-Edge时,产生边缘毛刺. 当使用Base+Fus时,会错误检测多余部分. 对于图片00124,当使用Base+ATT时,少分割了一部分手指,而单独使用Fus或者使用不带引导的注意力时出现了尾部模糊. 通过评价指标、视觉结果和消融实验结果,在添加纹理-边缘信息引导后,各评价指标均达到了目前最优的结果,所检测目标的视觉效果最好.

3. 结 语

本文提出基于Convnextv2与边缘引导特征融合的伪装目标检测算法. 通过将纹理-边缘信息经过边缘-纹理引导注意力模块与Convnextv2主干特征融合,对输出特征融合模块进行多层次融合,高效利用纹理差异与边缘特征带来的增强特征,优化预测结果. 实验结果表明,本文算法在CAMO、COD10K和NC4K测试集上的综合性能处于当前的较优水平,在迷彩伪装目标检测场景中达到领先性能. 下一步研究是针对不同任务不同场景下纹理-边缘的判断标准,对不同特征采用不同信息引导融合的方式,使得算法能够更高效地区分不同任务下的纹理边缘特征.

参考文献

张冬冬, 王春平, 付强

伪装目标检测研究进展

[J]. 激光杂志, 2024, 45 (3): 1- 13

[本文引用: 1]

ZHANG Dongdong, WANG Chunping, FU Qiang

Research developments in camouflage object detection

[J]. Laser Journal, 2024, 45 (3): 1- 13

[本文引用: 1]

SUN Y, CHEN G, ZHOU T, et al. Context-aware cross-level fusion network for camouflaged object detection [EB/OL]. [2025-05-29]. https://arxiv.org/abs/2105.12555.

[本文引用: 3]

REN J, HU X, ZHU L, et al

Deep texture-aware features for camouflaged object detection

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 33 (3): 1157- 1167

[本文引用: 1]

JI G P, FAN D P, CHOU Y C, et al

Deep gradient learning for efficient camouflaged object detection

[J]. Machine Intelligence Research, 2023, 20 (1): 92- 108

DOI:10.1007/s11633-022-1365-9      [本文引用: 3]

SUN Y, WANG S, CHEN C, et al. Boundary-guided camouflaged object detection [C]// International Joint Conference on Artificial Intelligence. Shenzhen: Morgan Kaufmann, 2022: 335-1341.

[本文引用: 3]

CHEN Tianrun, ZHU Lanyun, DENG Chaotao, et al. SAM2-Adapter: evaluating and adapting segment anything 2 in downstream tasks: camouflage, shadow, medical image segmentation, and more [EB/OL]. [2024-10-19]. https://arxiv.org/abs/2408.04579.

[本文引用: 1]

NIKHILA R, VALENTIN G, HU Y, et al. SAM 2: segment anything in images and videos [EB/OL]. [2024-10-19]. https://arxiv.org/abs/2408.00714.

[本文引用: 1]

CHEN G, WANG H, CHEN K, et al

A survey of the four pillars for small object detection: multiscale representation, contextual information, super-resolution, and region proposal

[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 52 (2): 936- 953

[本文引用: 1]

LIU Y, LI H, CHENG J, et al

MSCAF-net: a general framework for camouflaged object detection via learning multi-scale context-aware features

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33 (9): 4934- 4947

DOI:10.1109/TCSVT.2023.3245883      [本文引用: 3]

WOO S, DEBNATH S, HU R, et al. Convnext v2: co-designing and scaling convnets with masked autoencoders [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 16133-16142.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2025-05-29]. https://arxiv.org/abs/2010.11929.

[本文引用: 1]

WU Z, SU L, HUANG Q. Cascaded partial decoder for fast and accurate salient object detection [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3907-3916.

[本文引用: 1]

ZHAO J X, LIU J J, FAN D P, et al. EGNet: edge guidance network for salient object detection [C]// IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 8779-8788.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// European Conference on Computer Vision. Munich: Springer, 2018: 3-19.

[本文引用: 1]

MILLETARI F, NAVAB N, AHMADI S A. V-net: fully convolutional neural networks for volumetric medical image segmentation [C]// International Conference on 3D Vision. California: IEEE, 2016: 565-571.

[本文引用: 1]

LE T N, NGUYEN T V, NIE Z, et al

Anabranch network for camouflaged object segmentation

[J]. Computer Vision and Image Understanding, 2019, 184: 45- 56

DOI:10.1016/j.cviu.2019.04.006      [本文引用: 1]

FAN D P, JI G P, SUN G, et al. Camouflaged object detection [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2777-2787.

[本文引用: 3]

LV Y, ZHANG J, DAI Y, et al. Simultaneously localize, segment and rank the camouflaged objects [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 11591-11601.

[本文引用: 1]

FAN D P, JI G P, CHENG M M, et al

Concealed object detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44 (10): 6024- 6042

[本文引用: 2]

XING H, GAO S, WANG Y, et al

Go closer to see better: camouflaged object detection via object area amplification and figure-ground conversion

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33 (10): 5444- 5457

DOI:10.1109/TCSVT.2023.3255304      [本文引用: 1]

JIA Q, YAO S, LIU Y, et al. Segment, magnify and reiterate: detecting camouflaged objects the hard way [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 4713-4722.

[本文引用: 1]

SONG Z, KANG X, WEI X, et al

Fsnet: focus scanning network for camouflaged object detection

[J]. IEEE Transactions on Image Processing, 2023, 32: 2267- 2278

DOI:10.1109/TIP.2023.3266659      [本文引用: 1]

HU X, WANG S, QIN X, et al. High-resolution iterative feedback network for camouflaged object detection [C]// AAAI Conference on Artificial Intelligence. Washington: AAAI, 2023, 37(1): 881-889.

[本文引用: 1]

PANG Y, ZHAO X, XIANG T Z, et al. Zoom in and out: a mixed-scale triplet network for camouflaged object detection [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 2160-2170.

[本文引用: 2]

/