<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 LFF-Net网络结构

Fig.1 Network structure of LFF-Net

1.2. 轻量高频Transformer

现有Transformer中的传统自注意力机制虽然能有效解决局部特征差异，但是忽视了纹理和边缘等高频信息，且自注意力机制具有二次计算复杂性，会产生冗余特征. Zhang等^[20]提出频率注意力机制，通过在频域内对不同频率成分进行分离处理，强化高频细节特征的表达. Karimijafarbigloo等^[21]提出高效注意力机制，在提供等效自注意力表示的同时，有效缓解了计算复杂性问题. 受文献[20]、[21]启发，结合ViT结构，提出轻量高频Transformer (ligh-tweight high-frequency Transformer, LHFT)，旨在提升网络对血管细节语义特征的识别和捕获能力，并降低计算复杂度，其结构如图2所示.

图 2

图 2 轻量高频Transformer模块

Fig.2 Lightweight high-frequency Transformer module

LHFT模块由层归一化(layer normalization, LN)、多层感知机(multilayer perceptron, MLP)和轻量高频注意力(lightweight high-frequency attention, LHFA)组成，其计算公式为

(1)$ \boldsymbol{X}_{\text {in }} =\operatorname{LHFA}\;(\mathrm{LN}\;(\boldsymbol{X}))+\boldsymbol{X}, $

(2)$ \boldsymbol{X}_{\text {out }} =\operatorname{MLP}\left(\mathrm{LN}\left(\boldsymbol{X}_{\text {in }}\right)\right)+\boldsymbol{X}_{\text {in }} . $

式中：$ {\boldsymbol{X}} $、$ {{\boldsymbol{X}}_{{\text{in}}}} $、$ {{\boldsymbol{X}}_{{\text{out}}}} $分别为原始输入特征、经LHFA处理后的中间特征及MLP处理后的最终输出特征.

LHFA由高效注意力和频率注意力构成，其结构如图3所示. 在高效注意力分支中，首先给定输入特征$ {\boldsymbol{X}} \in {{\bf{R}}^{H \times W \times C}} $，经过线性变换后得到查询矩阵Q、键矩阵K和值矩阵V；对矩阵Q和K分别应用Softmax归一化处理，得到矩阵$ {{\boldsymbol{\rho}} _{\text{q}}}\left( {\boldsymbol{Q}} \right) $和$ {{\boldsymbol{\rho}} _{\text{k}}}\left( {\boldsymbol{K}} \right) $；再次对矩阵$ {{\boldsymbol{\rho}} _{\text{k}}}\left( {\boldsymbol{K}} \right) $进行转置并与矩阵V相乘，得到全局上下文矩阵B；最后，通过矩阵Q对B进行映射，得到输出特征$ {{\boldsymbol{S}}_{{\text{EA}}}} $. 在此过程中，高效注意力机制首先在维度为$ {d_{\text{k}}} \times {d_{\text{v}}} $的低维空间内完成上下文聚合，然后利用查询矩阵对该上下文矩阵进行投影. 相比于传统点积注意力的$ {O\left( {{n^2}} \right)} $复杂度，其计算量降至${O\left( {n{d_{\text{k}}}{d_{\text{v}}}} \right)} $，并在$ {d_{\text{k}}},{d_{\text{v}}} \ll n $时近似呈线性增长. 高效注意力分支中各操作的具体表达式分别为

图 3

图 3 轻量高频注意力模块

Fig.3 Lightweight high-frequency attention module

(3)$ \boldsymbol{Q}=\boldsymbol{X} \boldsymbol{W}_{\mathrm{q}}, \;\;\boldsymbol{K}=\boldsymbol{X} \boldsymbol{W}_{\mathrm{k}}, \;\;\boldsymbol{V}=\boldsymbol{X} \boldsymbol{W}_{\mathrm{v}}, $

(4)$ \boldsymbol{\rho}_{\mathrm{q}}(\boldsymbol{Q})=\delta(\boldsymbol{Q}),\;\; \boldsymbol{\rho}_{\mathrm{k}}(\boldsymbol{K})=\delta(\boldsymbol{K}), $

(5)$ \boldsymbol{B}=\left[\boldsymbol{\rho}_{\mathrm{k}}(\boldsymbol{K})\right]^{\mathrm{T}} \boldsymbol{V}, $

(6)$ \boldsymbol{S}_{\mathrm{EA}}=\boldsymbol{\rho}_{\mathrm{q}}(\boldsymbol{Q}) \boldsymbol{B} . $

式中：$ \left\{\boldsymbol{W}_{\mathrm{q}},\boldsymbol{W}_{\mathrm{k}},\boldsymbol{W}_{\mathrm{v}}\right\} $为线性投影矩阵，$ \delta $表示Softmax函数.

在频率注意力分支中，首先对输入特征图A应用不同方差的高斯核进行卷积，得到不同尺度的高斯平滑输出$ {{\boldsymbol{G}}_l} $(l=1, 3, 5, 7). 然后，对上述结果在相邻尺度间进行差分操作，提取出各层对应的高频信息$ {{\boldsymbol{A}}_{(l+1)/2}} $. 计算不同频率层的注意力分数，并将结果进行加权融合，得到输出特征$ {{\boldsymbol{S}}_{{\text{FA}}}} $. 最后将特征$ {{\boldsymbol{S}}_{{\text{FA}}}} $与矩阵${{\boldsymbol{\rho}} }_{\text{q}}\left( {\boldsymbol{Q}} \right) $相乘，得到注意力权重$ {\boldsymbol{S}}_{{\text{FA}}}^1 $. 该过程的数学描述式为

(7)$ \boldsymbol{G}_l=\boldsymbol{A} * \frac{1}{\sigma_l \sqrt{2 {\text{π}}}} \exp \left(-\frac{i^2+j^2}{2 \sigma_l^2}\right), $

(8)$ \boldsymbol{A}_{(l+1)/2}=\boldsymbol{G}_l-\boldsymbol{G}_{l+2}, $

(9)$ \boldsymbol{S}_{\mathrm{FA}}=\sum\nolimits_{l} \boldsymbol{K}_{(l+1)/2}^{\mathrm{T}} \boldsymbol{V}_{(l+1)/2}, $

(10)$ \boldsymbol{S}_{\mathrm{FA}}^1=\boldsymbol{Q} \boldsymbol{S}_{\mathrm{FA}} . $

式中：(i, j)为特征图的空间位置，$ {\sigma _l} $为第l级高斯函数的方差，$ * $表示卷积操作.

为了兼顾计算效率和高频细节，将特征$ {{\boldsymbol{S}}_{{\text{EA}}}} $和$ {\boldsymbol{S}}_{{\text{FA}}}^1 $进行融合，并采用深度可分离卷积进一步校准特征图，得到最终的输出特征$ {{\boldsymbol{S}}_{\text{out}}} $. 相较于普通卷积同时处理空间与通道信息，深度可分离卷积将二者解耦为逐通道的空间特征提取与跨通道的信息融合，在保持模型表达能力的同时减少了参数量和计算量. 此外，模型在通道融合阶段对每个输入通道赋予不同的可训练权重，以选择性地强化血管相关特征，抑制背景噪声干扰，实现特征加权校准.

(11)$ \boldsymbol{S}_{\mathrm{out}}=\operatorname{DWConv}\left(\boldsymbol{S}_{\mathrm{FA}}^1+\boldsymbol{S}_{\mathrm{EA}}\right) . $

1.3. 细节增强注意力模块

眼底视网膜图像中血管边缘模糊，且存在噪声干扰等问题，导致血管前景与非血管背景之间的辨别难度较大. 为了解决这一问题，设计细节增强注意力模块(detail-enhanced attention module, DEAM)，旨在增强对血管细节信息的捕获和表达，提升血管分割精度. 其结构如图4所示.

图 4

图 4 细节增强注意力模块

Fig.4 Detail-enhanced attention module

DEAM由空间注意力(spatial attention, SA)和细节感知注意力(detail-aware attention, DAA) 2部分组成. 在DAA分支中，将输入特征$ {\boldsymbol{F}} \in {{\bf{R}}^{H \times W \times C}} $依次经过3×3卷积层和5×5卷积层进行处理，分别得到输出特征$ {{\boldsymbol{F}}_1} $和$ {{\boldsymbol{F}}_2} $. 对$ {{\boldsymbol{F}}_1} $和$ {{\boldsymbol{F}}_2} $进行拼接操作，得到输出特征$ {{\boldsymbol{F}}_3} $，并对$ {{\boldsymbol{F}}_3} $执行平均池化和最大池化操作，分别得到输出特征$ {{\boldsymbol{F}}_{{\text{avp}}}} $和$ {{\boldsymbol{F}}_{{\text{map}}}} $. 随后，利用7×7卷积层对特征$ {{\boldsymbol{F}}_{{\text{avp}}}} $和$ {{\boldsymbol{F}}_{{\text{map}}}} $进行交互融合，得到输出特征$ {\boldsymbol{F}}_{{\text{avp}}}^{\text{1}} $和$ {\boldsymbol{F}}_{{\text{map}}}^{\text{1}} $. 最后，利用特征$ {{\boldsymbol{F}}_1} $和$ {{\boldsymbol{F}}_2} $对上述结果进行加权融合，得到输出特征$ {{\boldsymbol{F}}^1} $. DAA分支的处理过程可以表述为

(12)$ \boldsymbol{F}_1=\operatorname{Conv}_{3 \times 3}(\boldsymbol{F}),\; \boldsymbol{F}_2=\operatorname{Conv}_{5 \times 5}\left(\boldsymbol{F}_1\right), $

(13)$ \boldsymbol{F}_3=\left[\boldsymbol{F}_1, \boldsymbol{F}_2\right], $

(14)$ \boldsymbol{F}_{\text {avp }}=\operatorname{AVP}\left(\boldsymbol{F}_3\right),\; \boldsymbol{F}_{\text {map }}=\operatorname{MAP}\left(\boldsymbol{F}_3\right), $

(15)$ \left.\begin{array}{l}\boldsymbol{F}_{\text {avp}}^1=\sigma\left(\operatorname{Conv}_{7 \times 7}\left(\boldsymbol{F}_{\text {avp}}\right)\right), \\\boldsymbol{F}_{\text {map}}^1=\sigma\left(\operatorname{Conv}_{7 \times 7}\left(\boldsymbol{F}_{\text {map}}\right)\right) ,\end{array}\right\} $

(16)$ \boldsymbol{F}^1=\left(\boldsymbol{F}_{\text {avp }}^1 \times \boldsymbol{F}_1\right)+\left(\boldsymbol{F}_{\text {map }}^1 \times \boldsymbol{F}_2\right) . $

式中：$ {\text{Con}}{{\text{v}}_{{k} \times {k}}} $表示核为k×k的卷积操作，$ {\text{AVP}} $为平均池化操作，$ {\text{MAP}} $为最大池化操作，$ \sigma $表示Sigmoid激活函数，$ \left[ \cdot \right] $为通道维度上的拼接操作.

在SA分支中，对于输入特征$ {\boldsymbol{F}} \in {{\bf{R}}^{H \times W \times C}} $，先通过空间注意力机制得到输出特征$ {{\boldsymbol{F}}_{{\text{SE}}}} $，再将特征$ {{\boldsymbol{F}}_{{\text{SE}}}} $与DAA分支中的特征$ {{\boldsymbol{F}}^1} $相加，得到输出特征$ {{\boldsymbol{F}}_{\text{out}}} $. 其数学表达式为

(17)$ \boldsymbol{F}_{\mathrm{SE}}=\sigma\left(\operatorname{Conv}_{7 \times 7}([\operatorname{AVP}\;(\boldsymbol{F}), \operatorname{MAP}\;(\boldsymbol{F})])\right) \times \boldsymbol{F}, $

(18)$ \boldsymbol{F}_{\mathrm{out}}=\boldsymbol{F}^1+\boldsymbol{F}_{\mathrm{SE}} . $

1.4. 特征互补融合模块

在U-Net结构中，跳跃连接机制虽然可以传递信息，但是难以解决低层特征与高层特征在感受野与信息表达上的不匹配问题. Chen等^[22]提出内容引导注意力(content-guided attention, CGA)模块，通过生成空间重要性图(spatial importance map, SIM)，对低层和高层特征进行自适应加权融合，在增强重要特征的同时，平衡了低层细节信息与高层语义信息. 受文献[22]和残差结构的启发，设计特征互补融合模块(feature complementary fusion module, FCFM)，其结构如图5所示.

图 5

图 5 特征互补融合模块

Fig.5 Feature complementary fusion module

FCFM通过对不同区域的特征进行自适应调节，使模型重点关注病灶区域的血管信息，从而抑制噪声干扰. 先将低层特征$ {{\boldsymbol{F}}_{\text{L}}} $和高层特征$ {{\boldsymbol{F}}_{\text{H}}} $相加，得到输出特征F. 通过CGA模块对特征F进行处理，获取特征$ {{\boldsymbol{F}}_1} $. 最后，将$ {{\boldsymbol{F}}_1} $经过1×1卷积层，并将其与特征F相加，得到输出特征$ {\boldsymbol{F}}_1^1 $. FCFM的处理过程表示为

(19)$ \boldsymbol{F}=\boldsymbol{F}_{\mathrm{L}}+\boldsymbol{F}_{\mathrm{H}}, $

(20)$ \boldsymbol{F}_1=\boldsymbol{F}+\boldsymbol{W} \otimes \boldsymbol{F}_{\mathrm{L}}+(\boldsymbol{1}-\boldsymbol{W}) \otimes \boldsymbol{F}_{\mathrm{H}}, $

(21)$ \boldsymbol{F}_1^1=\boldsymbol{F}+\operatorname{Conv}_{1 \times 1}\left(\boldsymbol{F}_1\right) . $

若权重W较大时，模型更多地关注低层特征$ {{\boldsymbol{F}}_{\text{L}}} $，有助于保留血管细节信息；若权重W较小时，模型能够更多地关注高层特征$ {{\boldsymbol{F}}_{\text{H}}} $，有助于强调全局信息，减少噪声干扰.

在FCFM中，CGA模块为每个通道分配独特的SIM，引导模型关注每个通道中的血管区域信息，提高血管分割性能. 使输入特征$ {\boldsymbol{F}} \in {{\bf{R}}^{C \times H \times W}} $分别经过空间注意力机制和通道注意力机制，得到输出特征$ {{\boldsymbol{F}}_{\text{S}}} $和$ {{\boldsymbol{F}}_{\text{C}}} $：

(22)$ \boldsymbol{F}_{\mathrm{S}}=\operatorname{Conv}_{7 \times 7}\left(\left[\operatorname{GAP}_{\mathrm{S}}(\boldsymbol{F}), \operatorname{GMP}_{\mathrm{S}}(\boldsymbol{F})\right]\right), $

(23)$ \boldsymbol{F}_{\mathrm{C}}=\operatorname{Conv}_{1 \times 1}\Big(\operatorname{ReLU}\big(\operatorname{Conv}_{1 \times 1}\left(\operatorname{GAP}_{\mathrm{C}}(\boldsymbol{F})\right)\big)\Big) . $

式中：$ {\text{GA}}{{\text{P}}_{\text{S}}} $表示在空间维度上的全局平均池化操作,$ {\text{GM}}{{\text{P}}_{\text{S}}} $表示在空间维度上的全局最大池化操作，$ {\text{GA}}{{\text{P}}_{\text{C}}} $表示在通道维度上的全局平均池化操作. 将特征$ {{\boldsymbol{F}}_{\text{S}}} $和$ {{\boldsymbol{F}}_{\text{C}}} $相加，得到输出特征$ {{\boldsymbol{F}}_{\text{P}}} $. 最后，采用通道混洗(channel shuffle, CS)操作^[23]，将特征$ {{\boldsymbol{F}}_{\text{P}}} $和输入特征F在通道维度上交错排列，以增强特征交互，生成输出权重W. 具体过程可以表述为

(24)$ \boldsymbol{F}_{\mathrm{P}}=\boldsymbol{F}_{\mathrm{C}}+\boldsymbol{F}_{\mathrm{S}}, $

(25)$ \boldsymbol{W}=\sigma\Big(\operatorname{GConv}_{7 \times 7}\big(\operatorname{CS}\left(\left[\boldsymbol{F}, \boldsymbol{F}_{\mathrm{P}}\right]\right)\big)\Big) . $

式中： CS为通道混洗操作，$ {\text{GCon}}{{\text{v}}_{7 \times 7}} $表示核为7×7的分组卷积处理.

2. 实验环境及参数设定

2.1. 实验环境与数据集

采用Pytorch框架构建网络模型，实验硬件平台采用16.0 GB内存的Intel(R) Core(TM) i7-13650HX 2.60 GHz CPU处理器，显卡为NVIDIA GeForce RTX 4060. 在实验过程中优化函数为Adam，损失函数为交叉熵损失函数，通道数依次设置为32、64、128和256，批量大小及总训练轮次固定为6和20，初始学习率设置为0.0005，并采用余弦退火法来调整学习率.

采用3个公共数据集DRIVE、STARE和CHASE_DB1检验模型的分割效果. 其中，DRIVE数据集包含40幅分辨率为565×584像素的彩色视网膜图像，每幅图像由专家手动标注血管结构，发布方将其划分为20幅训练图像和20幅测试图像；STARE数据集包含20幅分辨率为700×605像素的彩色视网膜图像，每幅图像配有双重专家标注，采用五折交叉验证法在该数据集上进行实验；CHASE_DB1包含28幅来自14名儿童的彩色视网膜图像，分辨率为999×960像素，前20幅图像用作训练集，后8幅图像用作测试集.

2.2. 图像预处理

为了提升血管与背景之间的对比度，降低噪声干扰并使数据分布更加一致，对输入图像进行一系列预处理操作，如图6所示. 先对原始彩色视网膜图像进行灰度转化操作，将RGB图像转换为灰度图像，在保留亮度信息的同时降低计算复杂度. 接着，对图像进行数据集归一化处理，减少因光照和设备差异带来的偏差. 然后，对每幅图像进行限制对比度自适应直方图均衡化(contrast limited adaptive histogram equalization, CLAHE)处理，以突出血管结构，同时避免对噪声过度放大. 最后，对预处理后的图像进行伽马调整，进一步优化整体亮度和对比度.

图 6

图 6 图像预处理流程

Fig.6 Image preprocessing workflow

2.3. 性能评价指标

在视网膜血管分割任务中，采用准确率ACC、灵敏度SE、特异性SP、F1分数和ROC曲线下面积(area under curve，AUC) 5种评价指标来衡量模型的分割性能. 其计算公式分别为

(26)$ {\text{ACC}} = \frac{{{\text{TP}}+{\text{TN}}}}{{{\text{TP}}+{\text{TN}}+{\text{FP}}+{\text{FN}}}}, $

(27)$ {\text{SE}} = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FN}}}}, $

(28)$ {\text{SP}} = \dfrac{{{\text{TN}}}}{{{\text{TN}}+{\text{FP}}}}, $

(29)$ {\text{F1}} = \dfrac{{2{\text{TP}}}}{{2{\text{TP}}+{\text{FP}}+{\text{FN}}}}. $

式中：TP、TN分别为被正确分类为血管、背景的像素数量，FP为被误分类为血管的背景像素数量，FN为被误分类为背景的血管像素数量.

3. 实验结果分析

3.1. 分割结果可视化对比

为了验证所提算法在视网膜血管分割任务中的有效性，在相同的实验环境下对LFF-Net与U-Net^[9]、Attention U-Net^[24]、FR-UNet^[25]和GT-DLA-dsHFF^[26]这4种模型进行对比实验. 其中，U-Net为所提算法的基准模型，Attention U-Net为在U-Net基础上引入注意力机制的变体模型，FR-UNet为视网膜血管分割任务中的经典模型，GT-DLA-dsHFF为在U-Net基础上引入Transformer的变体模型. 不同算法的可视化分割结果如图7所示. 其中真阳性表示真实的血管区域，假阴性为未被检测出的血管区域，假阳性为背景区域.

图 7

图 7 不同算法的视网膜血管分割结果

Fig.7 Results of retinal blood vessel segmentation by different algorithms

由图7可得，在DRIVE数据集上，与LFF-Net相比，其余算法均包含更多假阴性像素，表明这些算法在血管区域检测中存在较多漏检情况，而LFF-Net能够更有效地捕获微细血管信息；在STARE数据集上，对比算法均包含更多假阳性像素，而LFF-Net对病灶区域的干扰响应较弱，能够更准确地分割血管；在CHASE_DB1数据集上，LFF-Net在血管交叉连接处和微细血管区域的真阳性像素更多，说明LFF-Net能够更准确地捕捉和分割血管交汇区域，保留血管的连续性，而其余算法在这些区域对血管信息的检测能力不足，分割效果较差.

3.2. 局部细节可视化对比

为了进一步体现所提算法的先进性，图8展示了不同算法的分割结果的局部细节放大图，其中第1~3张原始图像及其检测结果分别对应于图7中的第2、3、6行. 由图8可知，在DRIVE数据集上，除FR-UNet和LFF-Net外，其余算法均未能有效抑制噪声干扰. FR-UNet通过交互式多分辨率卷积层和特征聚合模块学习全分辨率表征，虽然在一定程度上缓解了下采样过程中的空间信息损失问题，但是其特征聚合策略在捕捉微细血管结构时仍然不够精确；而LFF-Net在恢复血管细节信息方面表现得更为精准. 在STARE数据集上，LFF-Net和GT-DLA-dsHFF在血管边缘保留上均有较好表现，其中GT-DLA-dsHFF虽然通过引入Transformer模块增强了模型对长程依赖关系和全局上下文信息的捕捉能力，但是对局部血管细节的敏感性仍然存在不足，而LFF-Net更有效地避免了血管边缘过度分割和误检的问题. 在CHASE_DB1数据集上，U-Net、Attention U-Net和FR-UNe未能充分捕获血管细节信息，而LFF-Net和GT-DLA-dsHFF展现出了更全面的血管检测能力，其中LFF-Net较GT-DLA-dsHFF能够实现更平滑的血管连接，表明LFF-Net在捕捉微细血管结构、保持血管边缘分割连续性方面表现更为优异.

图 8

图 8 不同算法的视网膜血管分割局部图像

Fig.8 Local images of retinal blood vessel segmentation by different algorithms

3.3. 性能指标比较

为了验证所提算法在视网膜血管分割任务中的性能，在相同的实验环境下分别采用U-Net、Attention U-Net、FR-UNet和GT-DLA-dsHFF进行实验，以准确率、灵敏度、特异性、AUC值和F1分数作为评价指标进行定量评估，实验结果如表1所示.

表 1 不同算法在3个数据集上的血管分割结果对比

Tab.1 Comparison of vessel segmentation results by different algorithms on three datasets

数据集	模型	ACC/%	SE/%	SP/%	AUC/%	F1/%
DRIVE	U-Net	97.08	78.57	98.86	98.81	82.53
	Attention U-Net	97.10	79.42	98.80	98.82	82.78
	FR-UNet	97.06	80.10	98.69	98.78	82.69
	GT-DLA-dsHFF	97.10	80.15	98.73	98.80	82.91
	LFF-Net	97.12	80.23	98.74	98.83	82.99
STARE	U-Net	97.52	79.26	99.02	99.01	82.98
	Attention U-Net	97.55	78.88	99.01	99.05	83.08
	FR-UNet	97.49	80.36	98.90	99.03	83.01
	GT-DLA-dsHFF	97.56	79.98	99.01	99.09	83.37
	LFF-Net	97.62	80.48	99.02	99.12	83.73
CHASE_DB1	U-Net	97.46	80.90	98.57	98.86	80.09
	Attention U-Net	97.60	80.65	98.74	98.97	80.96
	FR-UNet	97.41	81.19	98.50	98.75	79.83
	GT-DLA-dsHFF	97.61	80.72	98.74	99.00	80.97
	LFF-Net	97.65	81.30	98.75	98.99	81.37

由表1可知，在DRIVE数据集上，U-Net及Attention U-Net算法的SP指标略高于所提算法，但是LFF-Net的SE指标较U-Net及Attention U-Net算法分别高了1.66和0.81个百分点，且其余指标均达到了最优值. 这表明U-Net虽然在区分背景像素方面表现较好，但是在捕捉血管细节信息上存在一定局限；Attention U-Net引入注意力机制后，虽然能够增强模型对血管区域信息的关注，但是在全局信息整合与微细血管恢复方面仍然存在不足；而LFF-Net在降低误分割率的同时，能够更准确地捕获微细血管结构. 在STARE数据集上，除SP指标外，LFF-Net的其余指标均优于对比算法，表明LFF-Net在对病灶区域中血管信息的恢复上表现出更高的性能，能够有效抑制背景噪声和伪影干扰. 在CHASE_DB1数据集上，除AUC指标外，LFF-Net的其余指标均达到最优值，F1指标较其余算法分别高出了1.28、0.41、1.54和0.40个百分点，表明LFF-Net能够更好地平衡精确率与召回率，并更准确地捕捉血管细节信息.

综上所述，所提算法能够更好地识别和捕获微细血管语义信息，有效辨别血管前景和非血管背景，在视网膜血管分割中具有较好的稳健性.

3.4. 与近年先进算法对比

为了进一步验证所提算法的可行性，在DRIVE、STARE和CHASE_DB1这3个公共数据集上对LFF-Net与近年先进算法进行定量评估，结果如表2所示.

表 2 所提算法与先进算法在3个数据集上的血管分割结果对比

Tab.2 Comparison of vessel segmentation results of proposed algorithm and state-of-the-art algorithms on three datasets

数据集	模型	ACC/%	SE/%	SP/%	AUC/%	F1/%
DRIVE	SFIT-Net^[27]	97.07	81.59	98.55	98.75	82.97
	PA-Net^[28]	95.82	82.84	98.07	98.33	83.93
	DAE-Former^[29]	95.92	79.28	98.46	97.80	83.73
	MSM-TDE^[30]	96.66	84.92	97.23	97.80	79.30
	BINet^[31]	96.06	86.92	97.37	—	84.25
	MSTP-Net^[32]	96.91	83.68	98.18	—	82.58
	DAU-Net^[33]	95.85	81.55	98.15	98.18	82.99
	LFF-Net	97.12	80.23	98.74	98.83	82.99
STARE	SFIT-Net^[27]	97.50	82.18	98.92	99.10	83.37
	PA-Net^[28]	97.09	88.13	98.05	99.08	85.61
	DAE-Former^[29]	97.06	82.66	98.66	98.97	84.78
	MSM-TDE^[30]	97.26	86.90	98.22	98.09	83.70
	BINet^[31]	96.16	82.76	97.76	—	81.33
	MSTP-Net^[32]	97.61	86.03	98.58	—	84.68
	DAU-Net^[33]	97.12	85.80	98.43	99.08	86.20
	LFF-Net	97.62	80.48	99.02	99.12	83.73
CHASE_DB1	SFIT-Net^[27]	97.53	82.19	98.56	98.81	80.76
	PA-Net^[28]	96.77	85.70	97.79	98.75	83.08
	DAE-Former^[29]	96.60	83.28	97.92	98.70	81.61
	MSM-TDE^[30]	96.67	86.02	97.53	96.45	78.05
	BINet^[31]	96.04	83.93	97.34	—	80.47
	MSTP-Net^[32]	97.45	84.85	98.30	—	80.74
	DAU-Net^[33]	97.00	83.64	98.35	98.94	84.99
	LFF-Net	97.65	81.30	98.75	98.99	81.37

BINet设计有特征增强网络，通过多方向卷积来强化低对比度区域中的血管细节，并采用双并行编码路径，充分利用各层特征，以实现高效的多级局部特征提取. 由表2可知，BINet在DRIVE数据集上的SE和F1指标达到了最优值，在STARE和CHASE_DB1数据集上，其SE指标高于LFF-Net，但是BINet的其余指标均低于LFF-Net，说明LFF-Net在保持较高灵敏度的同时，能够更好地平衡精确率和其余指标，整体分割性能较好. PA-Net采用轻量级并联Transformer结构，同时提取视网膜血管分割所需的长程依赖关系和局部细节信息，并利用自适应血管特征融合模块缓解采样层引起的血管信息损失问题，因而PA-Net在3个数据集上的SE和F1指标均高于LFF-Net，且其SE指标在STARE数据集上达到最优值，但是其余指标均低于LFF-Net，说明LFF-Net在视网膜血管分割中更为可靠. DAU-Net采用具有双重注意力的增强型U形网络，通过2个高效注意力模块突出血管区域特征，抑制伪影干扰，其SE指标在3个数据集上高于LFF-Net，且F1指标在STARE和CHASE_DB1数据集上达到了最优值，但是其余指标在3个数据集上均低于LFF-Net，说明LFF-Net能够实现更为准确和稳定的血管分割效果. MSM-TDE中设计有多尺度语义挖掘和细节增强网络，以更好地表征血管形态变化，使模型能够有效地捕获微细血管信息，其SE指标在3个数据集上高于LFF-Net，在CHASE_DB1数据集中达到了最优值，但是LFF-Net的其余指标均高于MSM-TDE，说明LFF-Net的整体分割精度更高，在视网膜血管分割任务中更稳健.

3.5. 消融实验

为了验证所提算法中轻量高频Transformer、细节增强注意力模块和特征互补融合模块的有效性，在3个公共数据集上进行消融实验，结果如表3所示.

表 3 采取不同模块时模型在不同数据集上的血管分割性能

Tab.3 Vessel segmentation performance of model with different modules on different datasets

数据集	FCFM	LHFT	DEAM	ACC/%	SE/%	SP/%	AUC/%	F1/%
DRIVE	—	—	—	97.08	78.57	98.86	98.80	82.53
	√	—	—	97.10	79.61	98.77	98.81	82.78
	—	√	—	97.09	79.92	98.75	98.82	82.79
	—	—	√	97.10	79.75	98.77	98.81	82.76
	√	√	—	97.10	79.79	98.77	98.84	82.86
	√	—	√	97.10	79.71	98.78	98.81	82.82
	—	√	√	97.11	79.78	98.80	98.82	82.87
	√	√	√	97.12	80.23	98.74	98.83	82.99
STARE	—	—	—	97.52	79.26	99.02	99.01	82.98
	√	—	—	97.57	79.62	99.04	99.08	83.30
	—	√	—	97.53	79.88	99.04	99.05	83.41
	—	—	√	97.54	79.18	99.07	99.01	83.20
	√	√	—	97.60	80.35	99.02	99.10	83.62
	√	—	√	97.59	80.33	99.01	99.10	83.57
	—	√	√	97.60	80.22	99.02	99.08	83.58
	√	√	√	97.62	80.48	99.02	99.12	83.73
CHASE_DB1	—	—	—	97.46	80.90	98.57	98.85	80.09
	√	—	—	97.59	81.05	98.71	98.99	80.97
	—	√	—	97.54	81.14	98.77	98.99	81.03
	—	—	√	97.57	80.35	98.78	98.95	80.86
	√	√	—	97.64	81.17	98.75	99.03	81.30
	√	—	√	97.61	80.52	98.76	98.98	80.97
	—	√	√	97.62	81.19	98.72	98.97	81.16
	√	√	√	97.65	81.30	98.75	98.99	81.37

分析表3可得，原始U-Net模型的SE和F1指标在3个数据集中均较低，说明U-Net对血管细节信息的捕获能力不足，其血管分割效果不够理想. 当构建双解码路径并单独加入FCFM或与其他模块组合时，其ACC指标在3个数据集上较原始U-Net均有所上升，说明FCFM能够在病灶区域中较好地提取微细血管特征，从而更精准地对血管进行分割. 当单独加入LHFT模块时，其SE指标在3个数据集上较基础模型均有所提升，且当LHFT与FCFM组合时，其AUC在DRIVE和CHASE_DB1数据集上达到最优值，说明LHFT模块能够增强血管细节语义特征的表达能力，改善低对比度区域中的血管分割效果. 当单独加入DEAM时，其SP指标在STARE和CHASE_DB1数据集上达到最优值，说明DEAM能增强模型对微细血管的捕获能力，从而提高血管分割精度. 在完整的LFF-Net网络中，AUC指标在DRIVE和CHASE_DB1数据集上未取得最优值，原因在于引入DEAM后，虽然利用3×3与5×5卷积分别捕捉了局部与全局特征，但是二者对同一血管区域的信息进行反复提取并加权融合，造成了特征冗余，从而导致模型区分真实血管信号与背景噪声的能力下降. 但是LFF-Net中SE、ACC和F1指标均达到了最优值，表明在各模块协同作用下，LFF-Net能够更精准地提取和分割微细血管信息，展现了LFF-Net在视网膜血管分割任务中的整体优势.

图9展示了不同改进网络的血管分割结果. 原始U-Net在血管分割中存在较多误分割与漏分割现象；在引入FCFM后，误分割率有所下降；在加入LHFT模块后，模型对微细血管的提取能力得到增强，但是误分割率略有上升；DEAM的嵌入改善了模型对微细血管的分割效果. 所提LFF-Net模型实现了最佳性能，能够有效捕获微细血管信息，且降低了误分割率，进一步验证了LFF-Net在血管分割任务中的优越性.

图 9

图 9 不同改进网络的血管分割结果

Fig.9 Vessel segmentation results of different improved networks

3.6. 模型参数

为了评估模型的复杂度，在同一实验环境下，对所提算法与U-Net、Attention U-Net、FR-UNet和GT-DLA-dsHFF算法的参数量以及在DRIVE数据集上的运行时间进行对比，如表4、5所示. 其中，N_p为参数量，FLOPs为每秒浮点运算次数，训练时间t_tr为模型在整个训练集上完成20轮训练所耗费的总时间，测试时间t_te为模型在整个测试集上进行推理所需的总时长. 在训练阶段，从20张原始训练图像中随机抽取共10 000个大小为64×64像素的图像块作为训练样本；在测试阶段，对20张原始测试图像采用大小为64×64像素、步长为8像素的滑动窗口进行切分，依次提取若干局部块作为测试样本.

表 4 参数量及每秒浮点运算次数对比

Tab.4 Comparison of parameter count and floating-point operations per second

模型	N_p/M	FLOPs/G
U-Net	34.52	4.09
Attention U-Net	34.87	4.16
FR-UNet	5.72	3.68
GT-DLA-dsHFF	26.09	7.40
LFF-Net	4.27	1.79

表 5 训练及测试时间对比

Tab.5 Comparison of training and testing time

模型	t_tr/s	t_te/s
U-Net	1400	90
Attention U-Net	1600	95
FR-UNet	2400	200
GT-DLA-dsHFF	5240	3120
LFF-Net	2040	180

由表4、5可知，LFF-Net在参数量和FLOPs上均优于其他算法，其训练和测试时间却高于U-Net和Attention U-Net，原因在于LHFT模块虽然通过高效注意力机制降低了参数量和浮点运算量，但是其频域注意力分支包含多层拉普拉斯金字塔卷积及全图矩阵乘法等操作，这些操作难以一次性对整张图像进行大规模并行计算，因而将计算任务拆分为大量小规模子任务，而每个子任务须单独调度GPU内核并执行显存读写操作，导致实际并行效率下降，整体运行时间增加.

4. 结　语

提出基于轻量高频Transformer与特征互补融合的视网膜血管分割算法LEE-Net. 利用轻量高频Transformer模块构建双边特征提取编码结构，以实现局部细节信息与全局上下文信息的有效融合，提高对血管结构的表达能力. 在编码端设计细节增强注意力模块，使模型能够更准确地捕捉和利用微细血管结构信息，从而提高血管分割性能. 构建双解码路径并引入特征互补融合模块，提高模型对微细血管和复杂病灶区域中血管信息的识别能力，有效抑制背景噪声的干扰. 实验结果表明，LFF-Net取得了较好的血管分割效果，优于诸多先进算法，但是LFF-Net在对低对比度区域进行分割时，仍然会出现血管未被分割的现象，原因在于：当采用由轻量高频Transformer模块构建的双边特征提取编码结构时，不能完全捕获所有的血管细节信息. 未来将进一步优化轻量高频Transformer模块，并结合细节增强注意力模块和特征互补融合模块，以实现更精确的血管分割.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

梁礼明, 詹涛, 雷坤, 等

多分辨率融合输入的U型视网膜血管分割算法

[J]. 电子与信息学报, 2023, 45 (5): 1795- 1806

DOI:10.11999/JEIT220470 [本文引用: 1]

LIANG Liming, ZHAN Tao, LEI Kun, et al

Multi-resolution fusion input U-shaped retinal vessel segmentation algorithm

[J]. Journal of Electronics & Information Technology, 2023, 45 (5): 1795- 1806

DOI:10.11999/JEIT220470 [本文引用: 1]

[2]

MAPAYI T, VIRIRI S, TAPAMO J R. Adaptive thresholding technique for retinal vessel segmentation based on GLCM-energy information [J]. Computational and Mathematical Methods in Medicine, 2015: 597475.

DOI:10.1016/j.compmedimag.2009.09.006 [本文引用: 1]

[3]

ODSTRCILIK J, KOLAR R, BUDAI A, et al

Retinal vessel segmentation by improved matched filtering: evaluation on a new high-resolution fundus image database

[J]. IET Image Processing, 2013, 7 (4): 373- 383

DOI:10.1049/iet-ipr.2012.0455 [本文引用: 1]

[4]

VLACHOS M, DERMATAS E

Multi-scale retinal vessel segmentation using line tracking

[J]. Computerized Medical Imaging and Graphics, 2010, 34 (3): 213- 227

[5]

ZHAO J, YANG J, AI D, et al

Automatic retinal vessel segmentation using multi-scale superpixel chain tracking

[J]. Digital Signal Processing, 2018, 81: 26- 42

DOI:10.1016/j.dsp.2018.06.006 [本文引用: 1]

[6]

RELAN D, MACGILLIVRAY T, BALLERINI L, et al. Automatic retinal vessel classification using a least square-support vector machine in VAMPIRE [C]// Proceedings of the 36th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Chicago: IEEE, 2014: 142–145.

DOI:10.11897/SP.J.1016.2018.02566 [本文引用: 1]

[7]

梁礼明, 刘博文, 杨海龙, 等

基于多特征融合的有监督视网膜血管提取

[J]. 计算机学报, 2018, 41 (11): 2566- 2580

LIANG Liming, LIU Bowen, YANG Hailong, et al

Supervised blood vessel extraction in retinal images based on multiple feature fusion

[J]. Chinese Journal of Computers, 2018, 41 (11): 2566- 2580

DOI:10.11897/SP.J.1016.2018.02566 [本文引用: 1]

[8]

王万良, 王铁军, 陈嘉诚, 等

融合多尺度和多头注意力的医疗图像分割方法

[J]. 浙江大学学报: 工学版, 2022, 56 (9): 1796- 1805

WANG Wanliang, WANG Tiejun, CHEN Jiacheng, et al

Medical image segmentation method combining multi-scale and multi-head attention

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (9): 1796- 1805

DOI:10.1016/j.measurement.2022.112316 [本文引用: 1]

[9]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [M]// Lecture notes in computer science. Cham: Springer, 2015: 234–241.

[本文引用: 2]

[10]

LI J, GAO G, LIU Y, et al

MAGF-Net: a multiscale attention-guided fusion network for retinal vessel segmentation

[J]. Measurement, 2023, 206: 112316

[11]

ZHANG H, FANG W, LI J

A microvascular segmentation network based on pyramidal attention mechanism

[J]. Sensors, 2024, 24 (12): 4014

DOI:10.3390/s24124014 [本文引用: 1]

[12]

LI J, LI A, LIU Y, et al

An adaptive fundus retinal vessel segmentation model capable of adapting to the complex structure of blood vessels

[J]. Biomedical Signal Processing and Control, 2025, 101: 107150

DOI:10.1016/j.bspc.2024.107150 [本文引用: 1]

[13]

PAN P, ZHANG C, SUN J, et al

Multi-scale conv-attention U-Net for medical image segmentation

[J]. Scientific Reports, 2025, 15: 12041

DOI:10.1038/s41598-025-96101-8 [本文引用: 1]

[14]

HUANG L, MIRON A, HONE K, et al. Segmenting medical images: from UNet to res-UNet and nnUNet [C]// Proceedings of the IEEE 37th International Symposium on Computer-Based Medical Systems. Guadalajara: IEEE, 2024: 483–489.

[15]

VASWANI A, SHAZEER N, PARAMAR N, et al. Attention is all you need [EB/OL]. (2023-08-02) [2025-02-26]. https://arxiv.org/abs/1706.03762.

[16]

CHEN J, LU Y, YU Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. (2021-02-08) [2025-03-12]. https://arxiv.org/abs/2102.04306.

DOI:10.1016/j.engappai.2024.109867 [本文引用: 1]

[17]

SHI Z, LI Y, ZOU H, et al

TCU-Net: Transformer embedded in convolutional U-shaped network for retinal vessel segmentation

[J]. Sensors, 2023, 23 (10): 4897

DOI:10.3390/s23104897 [本文引用: 1]

[18]

TANG W, DENG H, HUANG Z, et al

Medical image segmentation method based on full perceived dynamic network

[J]. Engineering Applications of Artificial Intelligence, 2025, 142: 109867

[19]

LI Y, XU L, JIN Y, et al

Diffusion probabilistic learning with gate-fusion Transformer and edge-frequency attention for retinal vessel segmentation

[J]. IEEE Transactions on Instrumentation and Measurement, 2024, 73: 2523513

[20]

ZHANG F, PANAHI A, GAO G

FsaNet: frequency self-attention for semantic segmentation

[J]. IEEE Transactions on Image Processing, 2023, 32: 4757- 4772

DOI:10.1109/TIP.2023.3305090 [本文引用: 2]

[21]

KARIMIJAFARBIGLOO S, AZAD R, KAZEROUNI A, et al. MS-Former: multi-scale self-guided Transformer for medical image segmentation [C]// Medical Imaging with Deep Learning. Paris: PMLR, 2024: 680–694.

[本文引用: 2]

[22]

CHEN Z, HE Z, LU Z

DEA-net: single image dehazing based on detail-enhanced convolution and content-guided attention

[J]. IEEE Transactions on Image Processing, 2024, 33: 1002- 1015

DOI:10.1109/TIP.2024.3354108 [本文引用: 2]

[23]

ZHANG X, ZHOU X, LIN M, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6848–6856.

[24]

OKTAY O, SCHLEMPER J, FOLGOC L, et al. Attention U-Net: learning where to look for the pancreas [EB/OL]. (2018-05-20) [2025-03-14]. https://arxiv.org/abs/1804.03999.