基于Convnextv2与纹理边缘引导的伪装目标检测

doi:10.3785/j.issn.1008-973X.2025.08.019

基于Convnextv2与纹理边缘引导的伪装目标检测

付家瑞^,, 李兆飞^,, 周豪, 黄惟

1. 四川轻化工大学自动化与信息工程学院，四川宜宾 644000

2. 智能感知与控制四川省重点实验室，四川宜宾 644000

3. 企业信息化与物联网测控技术四川省高校重点实验室，四川宜宾 644000

Camouflaged object detection based on Convnextv2 and texture-edge guidance

FU Jiarui^,, LI Zhaofei^,, ZHOU Hao, HUANG Wei

1. College of Automation and Information Engineering, Sichuan University of Science and Engineering, Yibin 644000, China

2. Intelligent Perception and Control Key Laboratory of Sichuan Province, Yibin 644000, China

3. Key Laboratory of Higher Education of Sichuan Province for Enterprise Informationalization and Internet of Things, Yibin 644000, China

通讯作者: 李兆飞，男，副教授，硕导. orcid.org/0000-0002-0679-5954. E-mail: lizhaofei825@163.com

收稿日期: 2024-08-8

基金资助:

企业信息化与物联测控技术四川省重点实验室资助项目（2022WZJ02）；自贡市重点科技计划资助项目（2019YYJC15）；四川轻化工大学科研基金资助项目（2020RC32）；四川轻化工大学研究生课程建设项目（AL202213，SZ202310）；四川轻化工大学教学改革项目（2024KCSZ-ZY03，2024KCSZ-KC09，JG-24064）.

Received: 2024-08-8

Fund supported:

作者简介 About authors

付家瑞（1999—），男，硕士生，从事目标检测、伪装目标检测的研究.orcid.org/0009-0005-6799-6206.E-mail：izayoisakur_ray@163.com , E-mail：izayoisakur_ray@163.com

摘要

为了解决伪装目标检测中目标的边缘特征及对应场景下独特纹理特征信息表达处理不足的问题，提出基于Convnextv2与纹理边缘引导的伪装目标检测算法. 通过纹理编码模块在输入图片上提取纹理特征，与主干网络提取的边缘特征进行融合，生成图片的纹理-边缘特征. 通过设计的纹理边缘引导的注意力模块，将纹理-边缘特征融入主干特征以定位目标的真实位置. 利用特征融合模块进行多层次特征融合，采用多级监督的方式，设计总的损失函数. 在3个公开数据集CAMO、COD10K、NC4K和迷彩伪装混合数据集MICAI_TE上的实验表明，该算法的综合性能最优.

关键词： 伪装目标检测 ; 纹理边缘引导特征融合 ; Convnextv2 ; 特征提取 ; 纹理边缘注意力机制

Abstract

A camouflaged object detection method based on Convnextv2 and texture-edge guidance was proposed in order to address the issue of insufficient expression and processing of edge features of targets and unique texture feature information in corresponding scenarios in camouflaged object detection. The texture encoding module was used to extract texture features from input images, which were fused with the edge features extracted by the backbone network to generate texture-edge features of the images. The texture-edge features were integrated into the backbone features to locate the true position of the target through the designed texture-edge guided attention module. A feature fusion module was employed for multi-level feature fusion, and a multi-level supervision approach was adopted to design the overall loss function. Experiments on three public datasets (CAMO, COD10K, NC4K) and the camouflage mixed dataset MICAI_TE showed that the algorithm achieved optimal comprehensive performance.

Keywords： camouflage object detection ; texture-edge-guided feature fusion ; Convnextv2 ; feature extraction ; texture edge attention mechanism

PDF (1894KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

付家瑞, 李兆飞, 周豪, 黄惟. 基于Convnextv2与纹理边缘引导的伪装目标检测. 浙江大学学报(工学版)[J], 2025, 59(8): 1718-1726 doi:10.3785/j.issn.1008-973X.2025.08.019

FU Jiarui, LI Zhaofei, ZHOU Hao, HUANG Wei. Camouflaged object detection based on Convnextv2 and texture-edge guidance. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(8): 1718-1726 doi:10.3785/j.issn.1008-973X.2025.08.019

近年来，伪装目标检测(camouflage object detection, COD)与识别研究得到了飞速发展，该任务旨在识别视觉上“完美”嵌入周围环境的目标^[1]. 当前该任务主要面临的挑战如下：如何在复杂环境中准确地识别伪装对象；当面临遮挡时，如何判断遮挡物是物体的一部分；如何处理多尺度、多视角、多模态的图像数据等.

针对这些问题，Sun等^[2]利用注意力引导特征融合，设计C2F-Net模型，基于上下文感知跨层融合网络，用于伪装目标检测. Ren等^[3]提出TANet，通过计算协方差矩阵来提取纹理信息，放大伪装目标与周围环境之间的纹理差异性，然而网络在学习的过程中忽略了上下文信息，网络的性能有待提高. Ji等^[4]基于置信感知学习策略，提出DGNet深度梯度学习模型，可以在抑制背景噪声的同时检测纹理模式，进而检测伪装目标. 缺少边缘信息的引导会导致在边缘干扰或者目标轮廓处于伪装时，难以完整地识别目标的结构和细节，尤其是在小目标区域中难以提取到足够的纹理信息，导致预测出来的目标具有模糊的边界. Sun等^[5]提出边界引导网络BGNet，该网络通过探索有价值和额外与目标边界相关的语义信息来指导COD表征学习，生成凸显目标结构的特征来定位伪装目标的边界. Chen等^[6]通过研究SAM2^[7](segment anything, SAM)在一些复杂的低层级分割任务中的表现，提出新的适配器SAM2-Adapter. 这种适配器通过在大模型训练时注入预先设计的Adapter的方式，提升其针对特定任务的性能. 由于Adapter需要在训练时单独设计，导致模型的复杂程度增加，还对模型的使用者提出了较高的要求.

Chen等^[8]的研究表明，上下文信息对于提高小目标检测、外观模糊目标检测和遮挡目标检测的准确性具有重要意义，这同样适用于伪装目标检测问题. 在关注纹理信息的同时，要重视上下文和边缘信息. 在此背景下，结合Convnext能够通过具有不同尺度和深度的卷积层来捕获图像中的不同特征，更好地适应复杂图像场景，能够更准确地识别图像和背景的优势.

本文提出基于Convnextv2与边缘引导注意力特征融合（convnextv2 and texture-edge guide attention feature fusion network, CTEGAFNet）的伪装目标检测算法. 该算法采用纹理边缘特征提取模块，将目标纹理特征与边缘检测特征融合，增强对目标位置定位的边缘辅助信息提取能力. 与主干网络Convnext提取的多级特征通过边缘引导注意力模块进行融合，定位目标的真实区域. 开展多层次特征融合，减少特征的信息丢失，提升伪装目标预测的精度. 在CAMO、COD10K、NC4K及迷彩伪装混合数据集上，验证和对比了所提方法的性能.

1. 算法简介

提出基于Convnextv2与纹理边缘引导特征融合的伪装目标检测算法，整体结构如图1所示. 给定的输入为原始图像，图像采用3通道输入，高、宽分别为H和W. 对于纹理-边缘特征的提取部分，受DGNet与MSCSF^[9]算法的启发，设计融合边缘信息与图片纹理特征的纹理边缘编码器（texture-edge encoder）. 将提取到的图片纹理特征与边缘特征进行融合，得到带有边缘增强后的图片特征. 将增强后的图片特征作为辅助特征融入到边缘注意力机制中，使得网络在目标所在区域具有更高的关注度. CTEGAFNet网络主要由4个部分组成，主干部分的多级特征提取采用Convnextv2^[10]. Convnext网络是在CNN和transform结构的基础上，通过将ResNet^[11]重新构建得到纯卷积神经网络. Convnext在取得与VisionTransformer^[12]相当的准确性和可扩展性的同时，保持了标准卷积神经网络的简洁性和高效性. 对主干网络Convnextv2中特定层次的多级特征与纹理边缘编码器处理后，输出至纹理-边缘引导注意力融合模块（texture-edge guided attention，TEGA）进行预测区域的引导. 通过扩展联级解码器^[13]（extend cascaded partial decoder，ECPD），将ECPD得到的初步预测图与纹理-边缘引导注意力模块输出的特征相加进行多层次特征融合，输出最终的目标预测结果.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 CTEGAFNet的网络结构

Fig.1 Network structure of CTEGAFNet

1.1. 纹理特征提取

纹理特征提取是通过纹理编码模块直接在图片上提取纹理特征. 参考DGNet的做法，采用不同大小的卷积核在原始图像上提取纹理信息，同时将目标纹理P_g作为被监督的对象. 包含纹理的上一层特征X_g将输入至TEGA模块. 监督的过程如下所示：

(1)$ {P_{\text{g}}} = {F_{\mathrm{E}}}({\mathrm{Input}}) \otimes {\mathrm{Edge}}. $

式中：$ {F_{\mathrm{E}}} $表示标准的Canny边缘检测器，Edge为目标边缘真值，Input表示原始输入图像，$ \otimes $表示逐元素相乘. 纹理编码模块整体的结构如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 纹理编码模块的结构

Fig.2 Structure of texture encode module

1.2. 边缘特征提取

边缘特征提取是通过边缘编码模块，使用Convnextv2主干网络中的F₁、F₄特征层来生成图片的边缘. 选择这两层的原因是第1层次的特征层中包含更多的边缘信息，第4层特征包含较高的语义信息^[14]. 通过结合这2个层次的特征，能够更有效地捕捉与目标边界相关的边缘语义信息. 在融合了纹理特征后，能够帮助网络更好地定位和分割伪装目标，过程如下所示.

(2)$ \left. \begin{aligned} {f_{{\mathrm{e}}1}}' = & \uparrow {\mathrm{Conv}}1 \times 1({F_1}) \times \\ & \{ 1 - {\mathrm{Sig}}[{\mathrm{Conv}}1 \times 1({\mathrm{PG}})]\} + \uparrow {\mathrm{Conv}}1 \times 1({F_1}), \\ {f_{{\mathrm{e}}4}}' =& \uparrow {\mathrm{Conv}}1 \times 1({F_4}) \times {\mathrm{Sig}}[{\mathrm{Conv}}1 \times 1({\mathrm{PG}})]+\\ & \uparrow {\mathrm{Conv}}1 \times 1({F_4}). \end{aligned} \right\} $

(3)$ {E_{\mathrm{d}}} = {\mathrm{Conv}}1 \times 1({\mathrm{Conv}}3 \times 3([{\mathrm{Concat}}({f_{{\mathrm{e}}1}}',{f_{{\mathrm{e}}4}}')])). $

式中： ‘$ \uparrow $’表示上采样，Sig为Sigmoid操作. 边缘编码模块的结构如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 边缘编码模块的结构

Fig.3 Structure of edge encode module

1.3. 纹理边缘引导注意力模块

为了增强这些关键信息来辅助网络对识别伪装目标区域的定位和分割，引入新的纹理边缘引导注意力模块(texture-edge guide attention, TEGA). 该模块在纹理-边缘辅助模块和Convnext骨干网络所提取的特征路径间运行. 将Convnextv2主干网络的多级特征X_i、纹理编码模块学习到的纹理特征X_g与预测的边缘E_d作为该模块的输入. 采用双线性插值，将纹理特征和边缘特征的大小调整至主干网络对应特征的大小. 将边缘特征经过归一化处理后，分别与主干特征相乘得到一组前景、背景和边缘的注意力特征图. 纹理特征与主干特征进行逐元素相乘后，得到增强纹理的主干特征. 将这3个增强特征拼接起来得到注意力图，经过残差结构后进行融合增强操作，再将主干特征与注意力特征图求和. 使用卷积块注意力模块（convolutional block attention module, CBAM^[15]）处理输出，过程如下所示.

(4)$ \left. {\begin{array}{*{20}{c}} {{X_{\mathrm{g}}}' = \uparrow {\mathrm{Conv}}1 \times 1(X_{\mathrm{g}}) \cdot {F_i},} \\ {{E_{\rm d}}' = \uparrow (1 - {\rm Sig}({E_{\rm d}})) \cdot {F_i}}, \\ {{E_{\rm d}}'' = \uparrow {\rm Sig}({E_{\rm d}}) \cdot {F_i},}\; i \in \{ 1,2,3,4\}.\end{array}} \right\} $

(5)$ {\mathrm{CBAM}}\{ {F_i}+{\mathrm{ATT}}[({{X}_{\mathrm{g}}}' \oplus {\mathrm{Edge}}' \oplus {\mathrm{Edge}}'')]\} . $

CBAM的公式为

(6)$ {\mathrm{CBAM}} = {M_{\mathrm{c}}}(F) \otimes F+{M_{\mathrm{s}}}({M_{\mathrm{c}}}(F) \otimes F) \otimes {M_{\mathrm{c}}}(F) \otimes F. $

式中：F表示输入的特征图，$ {M_{\mathrm{c}}} $为通道注意力机制，$ {M_{\mathrm{s}}} $为空间注意力机制，$ \oplus $表示Concat操作. 融合增强的公式如下所示.

(7)$ {f_{\mathrm{m}}}^{j'} = {\mathrm{Conv}}3 \times {3_{d = j}}[({f_{\mathrm{m}}}^{j - 1'} !\oplus {f_{\mathrm{m}}}^j \oplus {f_{\mathrm{m}}}^{j+1})];j \in \{ 1,2,3,4\} . $

(8)$ {F_{{\mathrm{out}}}} = {\mathrm{Conv}}1 \times 1({\mathrm{Conv}}1 \times 1([{f_{\mathrm{m}}}^{j'} \oplus {f_{\mathrm{m}}}])). $

式中：${f^1}_{\mathrm{m}}$、${f^2}_{\mathrm{m}}$、${f^3}_{\mathrm{m}}$、${f^4}_{\mathrm{m}}$表示将输入沿通道维度均匀分为4个子块. 纹理边缘引导注意力模块的结构如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 纹理-边缘引导注意力模块的结构

Fig.4 Structure of texture-edge guided attention module

图4中的ATT-Fusion部分为融合模块，融合模块的结构图如图5所示. CBAM的结构图已在图4中箭头所指的虚线框中给出.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 融合模块的结构

Fig.5 Structure of fusion module

1.4. 特征融合模块

将纹理边缘引导注意力模块输出的特征图作为输入，经过扩展级联解码模块得到初步的预测图. 对纹理边缘引导注意力模块输出的特征图进行逐层求和，最终将初步预测图恢复到输入图片大小，与逐层求和后的特征相加作为最终的预测输出. 最终的预测输出过程如下所示：

(9)$ \left. {\begin{array}{*{20}{l}} {{f_4} = {\mathrm{TEG}}{{\mathrm{A}}_4}}, \\ {{f_3} = {\mathrm{TEG}}{{\mathrm{A}}_4}+{\mathrm{TEG}}{{\mathrm{A}}_3}}, \\ {{f_2} = {f_3}+{\mathrm{TEG}}{{\mathrm{A}}_2}}, \\ {{f_1} = {\mathrm{TEG}}{{\mathrm{A}}_1}+{f_2}+{\mathrm{ECPD}}}. \end{array}} \right\} $

式中：TEGA₁~TEGA₄为对应纹理边缘引导注意力模块的特征输出，ECPD表示扩展级联解码模块输出的初步预测图.

扩展级联解码模块的过程如下所示.

(10)$ \left. {\begin{array}{*{20}{l}} {f{'_4} = {f_4}}, \\ {f{'_3} = {f_3} \otimes b[\delta _ \uparrow ^2(f{'_4});W_{{\mathrm{DI}}}^1]}, \\ {f{'_2} = {f_2} \otimes b[\delta _ \uparrow ^2(f{'_3});W_{{\mathrm{D}}{\mathrm{I}}}^2] \otimes b[\delta _ \uparrow ^2(f{'_3});W_{{\mathrm{DI}}}^3]}, \\ {f{'_1} = {f_1} \otimes b[\delta _ \uparrow ^2(f{'_2});W_{{\mathrm{DI}}}^4] \otimes b[\delta _ \uparrow ^2(f{'_2});W_{{\mathrm{DI}}}^5]}. \end{array}} \right\} $

(11)$ \left. \begin{gathered} {f{'_4} = {f_4}} , \\ {f'{'_3} = [f{'_4} \oplus f{'_3};W{'_{{\mathrm{DI}}}}]} , \\ {f'{'_2} = [f'{'_3};W{'_{{\mathrm{DI}}}} \oplus f{'_2};W'{'_{{\mathrm{DI}}}}]} , \\ f'{'_1} = [f'{'_2};W'{'_{{\mathrm{DI}}}} \oplus f'_1;W''{'_{{\mathrm{DI}}}}], \\ {\mathrm{out}} = {\mathrm{conv1}} \times 1(f'{'_1}) . \\ \end{gathered} \right\} $

式中：f₁~f₄分别表示待融合的特征层，其中${W_{{\mathrm{DI}}}}$表示3×3的卷积批处理. 在处理前，使用上采样操作. 采用Concat的方式将其拼接，W表示3×3卷积，W的上标为输入通道的倍数. 最终通过1×1卷积调整通道数，从4×channel调整至1通道输出.

通过这种方式进行多层次特征融合，以减少特征信息的丢失，完整地识别目标的结构和细节.

1.5. 损失函数

由于伪装目标检测任务是像素级的视觉任务，对图像的结构、边缘信息的要求较高，采用多级监督的方式设计总的损失函数. 具体而言，在纹理预测部分，采用Canny边缘算子处理的训练图像进行监督，构成L_g. 采用MAE损失函数，如下所示：

(12)$ {L_{\mathrm{g}}} = \frac{1}{n}{\sum\nolimits_{i = 1}^n {({y_i} - {{\hat y}_i})} ^2}. $

式中：${y_i}$为真实值，$ \hat y $为估计值，n为观测的数量.

在边缘检测部分，采用Dice损失函数，对Canny边缘算子处理得到的基准真实值（ground truth，GT）和边缘图像进行监督，构成L_d^[16]，

(13)$ {L_{\mathrm{d}}}({P_i},{G_i}) = \frac{{2{\displaystyle \sum} {_{x,y}({P_{i,x,y}}{G_{i,x,y}})} }}{{{\displaystyle \sum} {_{x,y}P_{i,x,y}^2+{\displaystyle \sum} {_{x,y}G_{i,x,y}^2} } }}. $

式中：分子为预测分割区域$ {P_{i,x,y}} $和真实分割区域$ {G_{i,x,y}} $的交集，分母为图像间的像素总数.

在特征融合部分，对于TEGA模块的输出特征TEGA₁~TEGA₄，采用二元交叉熵损失与交并比损失得到结构损失函数，并对结构损失函数求和得到L_tega，如下所示：

(14)$ {L_{{\mathrm{tega}}}} = {L_{{\mathrm{wBCE}}}}({\boldsymbol{P}},{\boldsymbol{G}})+\sum\limits_{i = 1}^4 {{L_{{\mathrm{wIOU}}}^{i}}} . $

式中：$ {L_{{\mathrm{wBCE}}}} $为目标检测算法中常用的BCE损失函数，Lⁱ_wIOU为TEGA₁~TEGA₄的加权IOU损失函数.

最终的预测图像采用基准真实值图像进行监督，构成L_p. 损失函数采用二元交叉熵损失与交并比损失构成的结构损失函数. 预测结果的损失L_p为

(15)$ {L_{\mathrm{p}}} = {L_{{\mathrm{wBCE}}}}({\boldsymbol{P}},{\boldsymbol{G}})+{L_{{\mathrm{wIOU}}}}. $

总的损失函数为

(16)$ {L_{{\mathrm{total}}}} = {L_{\mathrm{d}}}+{L_{\mathrm{p}}}+{L_{\mathrm{g}}}+{L_{{\mathrm{tega}}}}. $

2. 实验结果

2.1. 实验环境与训练参数、数据集与评价指标

算法基于Pytorch框架开发，所使用的环境为ubuntu20.04、python3.8、Cuda11.8，在单张显卡RTX4090 (24G)上进行训练. 学习率均采用0.1×10⁻⁵，训练的批处理大小设置为8，总共训练100轮. 采用在Image上预训练的Convnextv2作为预训练模型，使用Adam作为优化器. 在训练中，利用余弦退火策略调整学习率，delay参数为50，图像大小调整为384，启用4种数据增强：色彩增强、随机翻转、随机裁剪和随机旋转.

针对伪装目标检测，在以下3个常用的基准数据集上进行实验：CAMO^[17]、COD10K^[18]和NC4K^[19]. 在试验中，将CAMO和COD10K的训练集组合作为训练样本，共4 040张图像. 将CAMO的测试集作为验证样本，图片数量为250张. 将CAMO、COD10K、NC4K的测试集作为测试样本. 在针对迷彩人员的目标检测实验中，将CPD1k数据集和Kaggle上的ACD1K数据集进行融合. 由于CPD1k没有进行数据集的划分，将CPD1K数据集图片按照7︰3的比例划分为训练集和验证集，并将其与ACD1K结合，得到MICAI数据集. MICAI训练集的图片数量为2 568张，验证集的图片数量为1 110张.

为了保证实验的公平性，在COD数据集上参与对比的11种算法（网络）^{[2,4,5,9,18,20-25]}均采用笔者所提供的图像结果，在同一设备上进行对比，而缺少图像结果的算法将按照笔者提供的开源源码进行训练后再测试性能的结果. 对于缺少图像结果的网络，在重新训练后不作视觉结果的展示. 在迷彩伪装目标检测任务中，统一在MICAI数据集上进行训练，并在验证集上进行验证. 由于目前COD领域的研究没有考虑伪装对象的类别信息，该模型没有分类输出. 评价指标采用COD常用的4个指标：结构度量${S_\alpha }$、增强对齐性度量${E_\phi }$、加权度量${F_\beta ^{\omega}}$、平均绝对误差MAE. 4种评价指标的公式定义分别如下所示.

(17)$ {S_\alpha } = \alpha {S_0}+(1 - \alpha ){S_{\mathrm{r}}}, $

(18)$ {E_\phi } = \frac{1}{{{{w}}h}}\sum\limits_{x = 1}^w {\sum\limits_{y = 1}^h {\phi ({\boldsymbol{P}},{\boldsymbol{G}})} } , $

(19)$ {F_\beta }^\omega = (1+{\beta ^2})\frac{{{P^\omega }{R^\omega }}}{{{\beta ^2}{P^\omega }+{R^\omega }}}, $

(20)$ {\mathrm{MAE}} = \frac{1}{{wh}}\sum\limits_{x = 1}^w {\sum\limits_{y = 1}^h {\left| {P(x,y) - G(x,y)} \right|} } . $

式中：${S_\alpha }$和${S_{\mathrm{r}}}$分别为对象级和区域级的结构相似性；根据先前研究者的经验，本文$\alpha $设置为0.5；$w$为图像宽度；${{{{h}}}}$为图像宽度；$\phi ({\boldsymbol{P}}, {\boldsymbol{G}})$为联合矩阵，用来计算图像级的统计信息和像素级的匹配信息；${P^\omega }$和${R^\omega }$分别为加权精度和加权召回率，用来衡量预测的准确性和完整性； ${\beta ^2}$为平衡系数，本文设置为0.3.

2.2. 实验结果

挑选的11种主流的伪装目标检测分别是经典算法SINet^[18]、SINetV2^[20]、采用注意力系数丰富全局上下文信息的算法C2FNet^[2]、采用交替关注前景与背景信息的算法SARNet^[21]、采用多阶段迭代框架的算法SegMaR^[22]、在预测区域捕捉结构细节的算法FSNet^[23]、采用高分辨率迭代反馈的算法HitNet^[24]、采用边缘引导的算法BGNet^[5]、关注待测目标纹理的轻量化算法 DGNet^[4]、采用三元联合学习策略的 ZoomNet^[25]、关注纹理和上下文特征融合的算法 MSCAF^[9]. 为了公平起见，所有数据均采用相同的评估代码进行评估. 最终的定量对比结果如表1、2所示. 其中，N_p为参数量，黑色加粗字体表示最优结果. 为了能够说明算法之间结果的差异性，采用检测结果视觉比较的方式进行展示，如图6所示.

表 1 CTEGAFNet与其他11种算法在CAMO和COD10K上的对比结果

Tab.1 Comparison result of CTEGAFNet and other 11 methods in CAMO and COD10K

网络	CAMO-TEST				COD10K-TEST				N_p/10⁶
网络	$ S_{\alpha} $	$ {F_\beta ^{\omega}} $	$ E_{\phi} $	$ \mathrm{MAE} $	$ S_{\alpha} $	$ {F_\beta ^{\omega}} $	$ E_{\phi} $	$ \mathrm{MAE} $	N_p/10⁶
MSCAF	0.873	0.828	0.929	0.046	0.865	0.775	0.927	0.024	28.33
SARNet	0.868	0.828	0.927	0.047	0.864	0.800	0.931	0.024	44.79
FSNet	0.880	0.861	0.933	0.041	0.870	0.810	0.938	0.023	124.53
HitNet	0.844	0.801	0.902	0.057	0.868	0.798	0.932	0.024	24.53
SegMaR	0.815	0.742	0.872	0.071	0.833	0.724	0.895	0.033	68.04
SINet	0.745	0.644	0.829	0.092	0.776	0.631	0.864	0.043	48.95
SINetV2	0.820	0.743	0.882	0.070	0.815	0.680	0.887	0.037	26.98
C2FNet	0.796	0.719	0.864	0.080	0.813	0.686	0.890	0.036	26.30
BGNet	0.812	0.749	0.870	0.073	0.831	0.722	0.901	0.033	74.20
DGNet	0.839	0.769	0.901	0.057	0.822	0.693	0.896	0.033	21.02
ZoomNet	0.820	0.752	0.883	0.066	0.838	0.729	0.893	0.029	32.38
CTEGAFNet	0.893	0.858	0.937	0.037	0.879	0.801	0.933	0.021	92.94

新窗口打开| 下载CSV

表 2 CTEGAFNet与其他11种算法在NC4K和MICAI_TE上的对比结果

Tab.2 Comparison result of CTEGAFNet and other 11 methods in NC4K and MICAI_TE

网络	NC4K				MICAI_TE				N_p/10⁶
网络	${S_\alpha } $	${F_\beta ^{\omega}}$	${E_\phi }$	${\mathrm{MAE}}$	${S_\alpha } $	${F_\beta ^{\omega}} $	${E_\phi } $	${\mathrm{MAE}} $	N_p/10⁶
MSCAF	0.887	0.839	0.935	0.032	0.890	0.819	0.946	0.014	28.33
SARNet	0.886	0.842	0.937	0.032	0.888	0.811	0.944	0.014	44.79
FSNet	0.891	0.866	0.940	0.031	0.887	0.811	0.943	0.014	124.53
HitNet	0.870	0.825	0.921	0.039	0.886	0.822	0.955	0.014	24.53
SegMaR	0.841	0.781	0.905	0.046	0.874	0.782	0.920	0.019	68.04
SINet	0.808	0.723	0.871	0.058	0.678	0.387	0.624	0.052	48.95
SINetV2	0.847	0.770	0.903	0.048	0.733	0.508	0.739	0.038	26.98
C2FNet	0.838	0.762	0.897	0.049	0.867	0.776	0.933	0.019	26.30
BGNet	0.851	0.788	0.907	0.044	0.725	0.520	0.787	0.043	74.20
DGNet	0.857	0.784	0.911	0.042	0.872	0.779	0.928	0.018	21.02
ZoomNet	0.853	0.784	0.907	0.043	0.845	0.725	0.843	0.030	32.38
CTEGAFNet	0.900	0.859	0.940	0.028	0.895	0.827	0.953	0.013	92.94

新窗口打开| 下载CSV

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 与10种不同COD方法的检测结果视觉比较

Fig.6 Visual comparison of detection result obtained by other 10 different COD methods

从表1、2可知，在结构性度量指标的结果中，本文算法在4个数据集上的性能最优，分别在CAMO、COD10K和NC4K中领先第2名的FSNet网络0.013、0.009和0.09，达到0.893、0.879与0.900；在MICAI_TE数据集中，领先MSCAF网络0.005，达到0.895.

在加权F-measure评价指标的结果中，在CAMO、COD10K和NC4K中落后第1名FSNet网络0.003、0.009和0.007，达到0.858、0.801和0.859；在MICAI_TE数据集中，领先第2名HitNet网络0.005，做到最优.

平均绝对误差在4个数据集上最小，为0.037、0.021、0.028和0.013，分别领先CAMO、COD10K和NC4K中第2名FSNet网络0.004、0.002和0.003，在MICAI_TE数据集中领先第2名0.001.

在增强对齐性度量指标的结果中，在CAMO数据集上结果最优，为0.939，在COD10K数据集上落后第1名FSNet网络0.005. 在NC4K数据集上的结果最优，为0.940，领先第2名FSNet网络0.001；在MICAI_TE数据集中，落后HitNet网络0.002.

如图6所示为部分伪装目标的预测结果. 从1-Fish、2-lizard、3-bird、5-FrogFish、6-cat中能够体现出采用边缘引导后的结果拥有更加清晰的轮廓，特别是在6-cat的预测结果图中，由于采用纹理-边缘引导，定位出了胡须的位置，预测图结果更加精准. 关注纹理特征的DGNet在胡须下方出现了模糊的情况，采用边缘引导的BGNet下方的胡须没有分割完整. 将4-Octopus原图放大，如图7所示，其中框选出的位置为透明胶质，实际上为GT标注错误.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 4-Octopus 原始图片

Fig.7 4-Octopus original image

在迷彩伪装目标识别的结果中，人体在嵌入环境时，会尝试各种方式掩盖自身轮廓，这明显增大了迷彩伪装目标的检测难度. 在7-micai_te_1图像中，所有的算法都未预测出接近的轮廓. 在8-micai_te_2图像的预测结果中，仅有CTEGAFNet、DGNet、MSCAF识别出相近的轮廓. 在9-micai_te_3中，CTEGAFNet的结果受到环境噪声的影响，定位缺失了一部分，导致最终结果有明显的漏检部位，FSNet存在边缘模糊的问题. 在10-micai_te_4中，CTEGAFNet的预测结果具有更加清晰的边缘. 综合以上实验结果可知，本文算法在CAMO和NC4K数据集上的增强对齐性度量指标最优，在MICAI_TE数据集上的加权度量指标最优. 与综合性能第2名的FSNet相比，参数量减少了31.59×10⁶，性能得到了提升，综合性能结果基本做到了最优. 从最终的结果视觉图上可以看出，在边缘明显的场景下，利用本文算法，能够更加清晰地得到最终的预测结果图. 在迷彩场景下，虽然会出现误检的情况，但检测效果比其他算法好.

该算法的不足如下：与参数量最小的网络DGNet相比，参数量增加了71.92×10⁶，这主要与主干网络本身的大小(89×10⁶)有关. 在目标被遮挡后，容易出现在目标上分割出遮挡物边缘或将被遮挡部分的目标漏检的情况，这会导致算法在评测指标上的性能下降. 该算法更适用于嵌入环境、但不被环境遮挡的情况.

2.3. 消融实验

为了验证算法各模块的有效性，开展消融实验，验证各个模块的有效性. 每次实验仅有一个结构变化. 其中Base由主干网络的最后1层特征层经过1×1卷积减小通道数后，上采样至输出大小，且仅在最终网络中采用多级监督的损失. 其余实验采用式（14）所示的结构损失函数，将CAMO-TEST作为评价数据集. 其中的Fus表示特征融合模块，Att(Without T-Edge)表示没有纹理-边缘编码器引导下的注意力机制，结构如图8所示. 其中，F_i为主干网络的对应输出.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 Att(Without T-Edge)模块的结构

Fig.8 Structure of Att (Without T-Edge) module

消融实验的结果和视觉效果图如表3和图9所示. 消融实验中Base+Fus的网络结构如图10所示.

表 3 在CAMO数据集上开展消融实验的结果

Tab.3 Result of ablation study conducted on CAMO dataset

算法	${S_\alpha } $	${F_\beta ^{\omega}} $	${E_\phi }$	${\mathrm{MAE }} $
Base	0.877	0.812	0.917	0.046
Base+Fus	0.891	0.856	0.934	0.037
Base+Att(Without T-Edge)	0.628	0.396	0.736	0.173
Base+Att(with T-Edge)	0.890	0.856	0.937	0.037
Base+Fus+Att(Without T-Edge)	0.888	0.855	0.935	0.038
Base+Fus+Att(with T-Edge)	0.893	0.858	0.937	0.037

新窗口打开| 下载CSV

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 消融实验中不同模型的视觉结果对比

Fig.9 Comparison of visual result of different models in ablation study

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 Base+Fus网络的结构

Fig.10 Structure of Base+Fus

从表3可知，在Base+Att(without T-Edge)中，缺少纹理边缘引导的网络处理后的环境噪声没有减少，最终几乎识别不出目标. 在增加边缘纹理引导后，与Base相比，结构度量指标提升了1.3%，加权F-measure提升了4.4%，增强对齐性度量指标提升了2.0%，MAE降低了0.9%. 在Base+Fus实验中，与Base相比，结构度量指标提升了1.4%，加权F-measure指标提升了4.4%，增强对齐性度量指标提升了1.7%，MAE指标降低了0.9%.

在Base+Att(without T-Edge)中，由于结构度量本身是边界和区域一致性的评价，在引入没有纹理-边缘引导的注意力机制后造成了性能的下降. 之后使用Att(with edge)定位了伪装目标的位置，提升了结构度量项指标. 对于加权F-measure度量指标，在添加注意力后增加了对信息的关注，但是缺少纹理边缘的引导，导致精确率降低. 增强对齐性度量指标反映了预测图和真实值之间的差异，缺少边缘引导导致预测边缘模糊，会覆盖更多的真值部分，导致指标上升.

所提算法的综合指标在参与对比的算法中是最优的. 从图9可知，在CAMO数据集中的消融实验视觉图的结果验证了部分引起性能变化的猜想. 例如，对于图片01078，当使用Fus+Att（without T-Edge）时，不能将伪装目标完整地识别出来。当只使用Fus或者带引导的Att时，会出现检测结果有毛刺的情况. 对于图片01068，在缺乏足够的引导与融合时，错误检测多余部分. 对于图片00600与图片00420，在缺少T-Edge时，产生边缘毛刺. 当使用Base+Fus时，会错误检测多余部分. 对于图片00124，当使用Base+ATT时，少分割了一部分手指，而单独使用Fus或者使用不带引导的注意力时出现了尾部模糊. 通过评价指标、视觉结果和消融实验结果，在添加纹理-边缘信息引导后，各评价指标均达到了目前最优的结果，所检测目标的视觉效果最好.

3. 结　语

本文提出基于Convnextv2与边缘引导特征融合的伪装目标检测算法. 通过将纹理-边缘信息经过边缘-纹理引导注意力模块与Convnextv2主干特征融合，对输出特征融合模块进行多层次融合，高效利用纹理差异与边缘特征带来的增强特征，优化预测结果. 实验结果表明，本文算法在CAMO、COD10K和NC4K测试集上的综合性能处于当前的较优水平，在迷彩伪装目标检测场景中达到领先性能. 下一步研究是针对不同任务不同场景下纹理-边缘的判断标准，对不同特征采用不同信息引导融合的方式，使得算法能够更高效地区分不同任务下的纹理边缘特征.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张冬冬, 王春平, 付强

伪装目标检测研究进展

[J]. 激光杂志, 2024, 45 (3): 1- 13