<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 CMD-YOLO模型的结构

Fig.1 Structure of CMD-YOLO model

1.3. 双分支卷积融合模块

针对传统卷积在特征提取中难以平衡计算效率与多尺度特征融合的问题，融合DualConv^[21]的并行分支设计与C2f的跨阶段特征交互结构，以提升特征提取能力和计算效率. 利用提出的C2f-DualConv模块，增强了多场景特征捕获能力.

Dualconv采用3×3组卷积提取局部特征，结合1×1点卷积实现跨通道信息交互，降低计算量并强化全局建模能力. 1×1点卷积有效保留了原始特征，为深层网络提供丰富的输入特征，结构如图2所示. 其中，M、N分别为输入特征图和输出特征图的通道数量，G为通道的分组组数.

图 2

图 2 Dualconv结构图

Fig.2 Diagram of DualConv structure

DualConv在降低计算量和增强全局建模方面具有优势，但跨阶段与多尺度特征融合能力不足. C2f虽然改善了特征交互和梯度流畅性，但全局信息建模和计算效率平衡存在局限. 为此，提出结合DualConv并行卷积分支与C2f跨阶段特征交互机制的融合方法，旨在兼顾多尺度特征提取与计算效率，充分发挥各自的优势. C2f-DualConv的结构如图3所示.

图 3

图 3 C2f-Dualconv结构图

Fig.3 Diagram of C2f-DualConv structure

将输入特征图沿通道分为两部分，各采用1×1点卷积核提取特征，强化梯度信息. 将中间特征图送入瓶颈网络，通过通道减半降低计算复杂度和参数量，引入DualConv模块以促进全局信息交互. 通过通道拼接融合两路特征.

标准卷积计算量为

(1)$ {F}_{\text{sc}}=D_{\mathrm{o}}^{2} {K}^{2} M N. $

组卷积计算量为

(2)$ {F}_{\text{cc}}=\frac{\left({K}^{2}+1\right) {D}^{2} M N}{G}. $

点卷积计算量为

(3)$ {F}_{\text{pc}}=\frac{\left(G-1\right) {D}^{2} M N}{G}. $

Dualconv计算量为

(4)$ {F}_{\text{dc}}={F}_{\text{cc}}+{F}_{\text{pc}}=\frac{\left({K}^{2}+G\right) {D}^{2} M N}{G}. $

Dualconv与标准卷积计算缩减比为

(5)$ {R}_{\text{dc}/\text{sc}}=\frac{{F}_{\text{dc}}}{{F}_{\text{sc}}}=\frac{1}{G}+\frac{1}{{K}^{2}}. $

式中：$ K $为卷积核大小，$ D $为输出特征图尺寸，$ {D}_{\text{o}} $为输出特征图在宽度和高度方向上的尺寸，$ {R}_{\text{dc}/\text{sc}} $为双卷积相较于标准卷积在计算成本上的缩减比例.

为了验证提出模块的有效性，比较常规卷积与DualConv的运算量. 推导结果显示，当C2f-DualConv模块中的卷积核参数K设定为3且分组数G设定为4时，模型FLOPs降低了8.6%，参数量减少了10%.

1.4. 多尺度空洞注意力

为了解决复杂场景下模型多尺度语义信息聚合不足、局部特征注意力有限的问题，在原有特征提取的基础上，引入基于滑动窗口扩张注意力(sliding window dilated attention，SWDA)的MSDA模块^[22]，应对跌倒检测任务中的多样化挑战. 该模块能够有效地应对特征提取不足及背景干扰显著的问题，通过聚焦关键区域的特征，显著提升模型在复杂场景下的检测性能.

MSDA采用SWDA构建多尺度语义融合路径，多头并行结构为各注意力头分配不同的膨胀率(r = 1、2、3)，在滑动窗口内以查询块为中心稀疏选取键值对，从而同时捕获长距离依赖和提取局部特征. 该模块通过多源域信息合成策略整合各感受野特征，显著增强局部纹理细节感知，整体结构如图4所示.

图 4

图 4 MSDA结构图

Fig.4 Diagram of MSDA structure

本文保留了MSDA模块的原始组成部分，并将MSDA嵌入到主干网络与颈部网络之间，同时采用残差并行融合策略以确保语义流水线的稳定性. 在不改变原始MSDA结构的前提下，借助多尺度上下文建模能力，增强了在跌倒检测场景中对关键人体纹理与局部姿态变化的特征表达.

1.5. 跨尺度特征融合模块

针对YOLOv8颈部网络在多尺度特征融合过程中存在结构复杂、参数冗余以及浅层与深层特征交互不足等问题，提出改进策略. 采用CCFM替代原有颈部网络，该方法不仅实现了多尺度特征融合的优化，而且在提升小目标检测性能的过程中，有效降低了计算复杂度.

RT-DETR^[23]提出的跨尺度特征融合模块显著提升了模型对尺度变化和小物体检测的鲁棒性. CCFM^[24]模块通过层卷积构建混合块融合路径，利用包含N个RepBlock的融合块，对相邻特征进行逐元素相加融合，CCFM的轻量化设计显著降低了计算复杂度. 该模块通过优化浅层细节特征与深层语义信息的交互路径，提升了多尺度特征的整合能力，CCFM原理图如图5所示.

图 5

图 5 CCFM结构图

Fig.5 Diagram of CCFM structure

CCFM采用轻量化融合模块设计，既降低计算复杂度，又优化浅层与深层特征交互. CCFM通过线性融合，在多尺度特征交互上存在深度不足，易丢失部分信息的问题. 模型在空间与通道特征建模方面的不足，成为制约其在复杂背景下小目标检测性能的重要因素.

改进网络在层次化特征金字塔的基础上，引入双向跨层连接策略，提高特征重用效率. 在融合阶段，CCFM模块采用多分支卷积和跨尺度连接，促使高低分辨率特征实现深度交互，既保留了细粒度空间细节，又补充了深层语义信息. 与原结构相比，该融合方式在多尺度特征传递中有效降低了信息损失和冗余，提高了特征表达效率. 借助上下采样路径的逐层交互，改进网络在保证计算效率的前提下，显著提升了对不同尺度目标的感知能力，尤其在小目标检测中展现出更高的精度和鲁棒性.

如图6所示为颈部网络优化前、后的检测对比. 其中未带有标签的框表示漏检区域，带有类别标签的框表示成功检测目标. 对比表明，优化后的网络显著提高了目标检测精度，实现了更精确的识别和定位.

图 6

图 6 颈部网络优化前、后的效果对比图

Fig.6 Effect comparison diagram of neck network before and after optimization

2. 实验环境与评价指标

2.1. 实验数据集

数据来源包括公开数据集UR Fall Detection Dataset、Fall Detection Dataset和Multiple Cameras Fall Dataset中筛选的1 241张代表性图片、通过网络获取的790张多人场景图片与实地拍摄的1198张照片. 这些数据共同构成光伏电站建设工地人员跌倒检测数据集，部分数据如图7所示. 其中，数据1为实地拍摄数据集，数据2为公开数据集.

图 7

图 7 跌倒检测数据集

Fig.7 Fall detection dataset

数据集的具体构建见表1. 其中，O_d为原始标签数量，E_d为增强标签数量. 表1中的参数均表示各类别的标签数，不是图片数量.

表 1 数据集各类别标签统计表

Tab.1 Statistical table of labels for each category in dataset

标签	O_d	E_d	总计
Fallen	1202	3606	4808
Falling	1067	3201	4268
Normal	2254	6762	9016

使用Labelimg对数据集进行标注，将人员状态划分为已跌倒(Fallen)、跌倒中(Falling)和正常状态(Normal)，并按8∶1∶1的比例分为训练、预测和验证集. 尽管“已跌倒”与“跌倒中”状态间的时间相近，及时救援仍能显著提升救助效果. 为了提高数据的可靠性，采用如图8所示的3种数据增强方法：利用高斯噪声提高模型鲁棒性；随机调整亮度和对比度模拟多光照条件. 综合这些方法，不仅增强了模型对噪声和光照变化的适应性，还提高了数据多样性，从而增强了跌倒检测任务的泛化能力，提高了检测精度.

图 8

图 8 数据增强图

Fig.8 Data augmentation diagram

2.2. 评价指标及其实验配置

采用公认的目标检测评估标准量化模型性能^[25]. 以精确率P、召回率R和平均精度均值mAP衡量检测效果，以内存占用、参数量N_P及浮点运算量FLOPs表示计算复杂度，以检测帧率F表示边缘实时处理能力. 相关公式如下：

(6)$ P=\frac{\text{TP}}{\text{TP+FP}}, $

(7)$ R=\frac{\text{TP}}{\text{TP+FN}}, $

(8)$ \text{AP}=\int\nolimits_{0}^{1}P(R){\mathrm{d}}R, $

(9)$ {\mathrm{mAP}}=\frac{1}{m}\sum\limits_{i=1}^{m}{\text{AP}}_{i}, $

(10)$ F={1}/{ t_{\mathrm{P}}}. $

式中：$ \mathrm{TP} $为预测和实际均为正类的样本数量；$ \mathrm{FN} $为实际为正类，但预测为负类的样本数量；$ \mathrm{FP} $为实际为负类，但预测为正类的样本数量；$ t_{\mathrm{P}} $为单张图片的推理时长.

硬件平台与计算环境^[26]详见表2. 训练时，输入图像的分辨率为640×640，批量大小为128，共进行150轮训练. 采用随机梯度下降(SGD)优化器，初始学习率为0.01，IoU阈值为0.7.

表 2 模型训练与部署平台信息

Tab.2 Training and deployment platform specification

类型	名称	配置
训练	系统	Windows 10
	CPU	Intel Core i9-12900K
	GPU	RTX-3090
	内存RAM	32 GB
部署	系统	Ubuntu20.04
	CPU	Cortex-A76，A55
	GPU	ARMMali-G610
	内存RAM	8 GB

3. 结果与分析

3.1. 模型训练与结果分析

为了验证改进模块的效能，设计并开展8组消融实验，针对光伏电站建设现场人员跌倒检测数据集，采用平均精度均值、精确度、召回率、参数量和浮点运算量作为评价指标. 实验结果如表3所示. 其中，mAP₅₀为交并比为50%时的平均精度均值，“√”表示使用了相应模块，“—”表示未使用相应模块.

表 3 消融实验的对比结果

Tab.3 Comparison result of ablation experiment

模块设置			mAP₅₀/ %	P/ %	R/ %	N_P/ 10⁶	FLOPs/ 10⁹
CCFM	MSDA	C2f-Dualconv	mAP₅₀/ %	P/ %	R/ %	N_P/ 10⁶	FLOPs/ 10⁹
—	—	—	85.7	86.9	80.8	3.00	8.1
√	—	—	86.0	82.3	82.7	1.96	6.6
—	√	—	86.3	86.6	81.6	3.30	8.4
—	—	√	86.3	87.4	81.9	2.70	7.4
√	√	—	86.6	86.7	83.0	2.24	6.8
—	√	√	86.7	85.9	82.1	3.00	7.7
√	—	√	86.6	86.4	81.8	1.78	6.1
√	√	√	88.6	87.8	84.5	2.06	6.3

如表3所示，采用CCFM模块，使得模型参数量和运算量分别减少了34.7%和18.5%，平均精度均值和召回率分别提升了0.3%和1.9%，但精确度略降. 在引入MSDA模块后，召回率和平均精度均值分别提高了0.8%和0.6%，证明该模型捕捉局部信息和纹理特征的能力有助于复杂场景下人体跌倒的准确检测. 在加入C2f-Dualconv模块后，平均精度均值、精确度和召回率分别提升了0.6%、0.5%和1.1%，参数量和运算量分别减少了10%和8.6%，表明利用该模型，显著增强了特征提取能力，提高了计算效率. 与YOLOv8n相比，综合三模块优势构建的CMD-YOLO模型在平均精度均值、精确度和召回率上分别提升了2.9%、0.9%和3.7%，参数量和运算量分别降低了31.3%和22.2%. 实验结果表明，该模型为移动端实时跌倒检测提供了兼具高精度与高效率的轻量级方案.

由于二阶段算法在移动端部署较少，选用一阶段算法作为对照. 为了全面评估模型的性能，将其与Nanodet、YOLOv5、YOLOv8n、YOLOv9t和YOLOv11n^[27]等主流算法进行对比，以平均精度均值为指标评估训练与测试过程，不同模型的平均精度均值曲线详见图9(a). 其中，N_i为训练轮次；YOLOv8-C、YOLOv8-D、YOLOv8-CM、YOLOv8-CD分别表示在YOLOv8基础上融合不同改进模块的模型，C表示引入CCFM模块，D表示引入C2f-Dualconv，CM表示同时引入CCFM与MSDA模块，CD表示同时引入CCFM与MSDA模块. 图9(a)显示，各模型在训练过程中的平均精度均值随着迭代次数稳步提升. 图9(b)进一步对比了各模型在精确度、召回率、参数量、计算量及帧率指标上的显著差异. 从图9(b)可知，CMD-YOLO模型在降低参数量和计算量的同时，实现了较高的检测精度与召回率，成为边缘计算场景中兼顾高精度与实时性的理想选择.

图 9

图 9 各模型的训练测试结果

Fig.9 Training test result of each model

从图9可知，提出的CMD-YOLO模型的综合性能优于其他模型，验证集的平均精度达到88.6%，Nanodet的精度仅为76.8%. 其他参数如表4所示.

表 4 各模型的整体性能测试结果

Tab.4 Overall performance test result of each model

模型	mAP₅₀/%	P/%	R/%	N_P/10⁶	FLOPs/10⁹	F/(帧·s⁻¹)
Nanodet	76.8	78.5	58.2	0.93	1.4	140.3
YOLOv5	85.5	87.8	79.3	2.50	7.1	82.1
YOLOv8n	85.7	86.9	80.8	3.00	8.1	88.0
YOLOv9t	85.7	86.3	78.1	1.73	6.4	59.2
YOLOv11n	85.1	87.7	81.4	2.58	6.3	86.2
YOLOv8-D	86.3	87.7	81.9	2.70	7.4	97.6
YOLOv8-C	86.0	82.3	82.7	1.96	6.6	100.7
YOLOv8-CD	86.6	86.4	81.8	1.78	6.1	98.6
YOLOv8-CM	86.6	86.7	83.0	2.24	6.8	91.6
CMD-YOLO	88.6	87.8	84.5	2.06	6.3	101.9

从表4可见，在比较的10种模型中，CMD-YOLO在平均精度均值、精确度和召回率上均表现突出. 与YOLOv8n相比，CMD-YOLO的平均精度均值、精确度和召回率分别提升了2.9%、0.9%和3.7%，参数量与运算量分别减少了31.3%和22.2%，既保证了高精度，又显著降低了计算成本，维持了良好的实时性. 尽管Nanodet在参数量与运算量上最优，但平均精度均值的明显下降难以满足高精度的要求. YOLOv9t虽然在轻量化方面具有优势，但检测性能不及CMD-YOLO. 总体而言，CMD-YOLO在相近的计算成本下实现了更高的检测性能，88.6%的平均精度均值、101.9帧/s的处理速度、2.06×10⁶的参数量及6.3×10⁹ FLOPs的计算需求使得CMD-YOLO模型成为边缘计算场景中兼顾高精度与实时性的理想选择.

3.2. 模型部署与部署结果分析

为了验证优化后模型在移动设备上的实际表现，选用Orange Pi5 Pro RK3588开发板作为硬件平台，实物如图10所示. 该开发板不仅具备较高的计算性能和丰富的外设接口，而且具有较低的功耗，因此非常适合作为边缘计算设备使用.

图 10

图 10 Orange Pi5 Pro RK3588的实物图

Fig.10 Physical picture of Orange Pi5 Pro RK3588

利用移动端NPU加速测试，评估模型在移动平台上的性能，通过在移动设备上部署模型并测量运算速度和功耗来实现.

部署后，对部分模型进行运算速度与功耗评估. 评测选用验证集中的1 296张图像进行推理，记录总体运行时长及功率消耗，计算运行时长和功耗消耗的平均值，获得运算速度均值和功耗均值. 用A、S和P分别表示模型大小、平均推理时间和平均功耗. 如表5所示为各模型在移动端环境下的具体测试结果.

表 5 各模型部署后的性能对比

Tab.5 Performance comparison of various model after deployment

模型	A/MB	S/s	P/W
YOLOv5	5.00	0.0286	2.4869
YOLOv8n	5.16	0.0267	2.5165
YOLOv9t	8.45	0.0589	2.1433
YOLOv11n	5.54	0.0587	2.4517
CMD-YOLO	5.08	0.0297	2.2647

从表5可知，YOLOv9t与YOLOv11n因结构复杂或优化不足，导致推理慢. YOLOv5与YOLOv8n推理快，但功耗高，不利于长期部署. 改进后的CMD-YOLO在基本保持推理速度的前提下，有效降低了功耗需求，实现了两者的平衡，因此适合资源有限的移动端设备应用.

3.3. 热力图可视化分析

如图11所示为在光伏电站建筑工地人员检测中YOLOv8n和CMD-YOLO的表现. 第1列中，利用这2个模型均检测到人员，但CMD-YOLO的热力图响应更聚焦于人体关键区域，目标定位精度较高. 第2、3列中，CMD-YOLO在不同位置和姿态下表现出更好的识别效果，尤其在复杂背景下优势明显. 第4、5列展示了CMD-YOLO在远距离和多人员检测中的优势，2个不同模型在不同场景下的热力图均衡分布验证了模型在多目标检测中的鲁棒性和背景抑制能力. 通过引入DualConv并行分支、MSDA模块和改进CCFM模块，增强了多尺度特征整合、关键特征聚焦及综合特征提取能力，大幅提升了在复杂背景与多目标检测任务中的准确性和鲁棒性.

图 11

图 11 热力图效果的对比图

Fig.11 Comparison chart of heat map effect

3.4. 不同模型可视化分析

通过光伏工地人员跌倒检测任务并结合图12的实际部署结果，对改进模型与其他模型进行可视化对比. 其中，未带有标签的框表示漏检区域，带有类别标签的框表示成功检测到的目标，类别标签分为Fallen、Falling和Normal 3种状态. 结果显示，在单人场景下各模型均无漏检. 在多人场景中虽然均有漏检，但改进模型的漏检率显著较低. 在远距离场景下，其他模型严重漏检，而改进模型仍能准确检测远处人员. 在局部遮挡场景中，改进模型能够精准识别关键跌倒情况，而其他模型存在漏检. 在复杂背景下，其他模型对正常状态与跌倒情形均存在漏检，而改进模型能够完成检测任务. 综上所述，改进模型在各场景下均表现优异，满足光伏电站施工现场的实际需求.

图 12

DOI:10.1080/01446193.2011.558104 [本文引用: 1]

图 12 不同模型的可视化效果对比

Fig.12 Comparison of visualization effect of different models

4. 结　语

为了在资源受限的移动设备上实现光伏电站工地人员跌倒状态的实时、准确检测，提出CMD-YOLO模型. 模型的主要改进如下. 采用新模块替换C2f模块，提升特征提取与计算效率. 在主干与颈部网络间引入MSDA注意力机制，增强跌倒动作识别的能力. 利用轻量化CCFM颈部网络替换原结构，降低计算负担，加快推理速度，改善复杂背景下的小目标检测能力.

经实验验证，CMD-YOLO模型的平均精度均值、精确度和召回率分别为88.6%、87.8%和84.5%，均优于Nanodet、YOLOv5、YOLOv8n、YOLOv9t和YOLOv11n模型. 与YOLOv8n相比，CMD-YOLO模型的平均精度均值、精确度和召回率分别提升了2.9%、0.9%和3.7%. 在Orange Pi5 Pro RK3588嵌入式设备上，单张图像的推理耗时为0.029 7 s，平均功耗为2.264 7 W，满足移动平台的实时检测需求，为跌倒检测提供了坚实的理论及技术支持.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CHOI S D, GUO L, KIM J, et al

Comparison of fatal occupational injuries in construction industry in the United States, South Korea, and China

[J]. International Journal of Industrial Ergonomics, 2019, 71: 64- 74

DOI:10.1016/j.ergon.2019.02.011 [本文引用: 1]

[2]

HU K, RAHMANDAD H, SMITH-JACKSON T, et al

Factors influencing the risk of falls in the construction industry: a review of the evidence

[J]. Construction Management and Economics, 2011, 29 (4): 397- 416

[3]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580–587.

[4]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031 [本文引用: 1]

[5]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980–2988.

[6]

CAI Z, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6154–6162.

[7]

DELGADO-ESCAÑO R, CASTRO F M, CÓZAR J R, et al

A cross-dataset deep learning-based classifier for people fall detection and identification

[J]. Computer Methods and Programs in Biomedicine, 2020, 184: 105265

DOI:10.1016/j.cmpb.2019.105265 [本文引用: 1]

[8]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[9]

REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517–6525.

[10]

REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2025-05-07]. https://arxiv.org/abs/1804.02767.

[11]

BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2025-05-21]. https://arxiv.org/abs/2004.10934.

[12]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]//European Conference on Computer Vision. Cham: Springer, 2016: 21–37.

[13]

HAN S, LIU X, MAO H, et al. EIE: efficient inference engine on compressed deep neural network [C]//Proceedings of the ACM/IEEE 43rd Annual International Symposium on Computer Architecture. Seoul: IEEE, 2016: 243–254.

DOI:10.3778/j.issn.1002-8331.2307-0190 [本文引用: 1]

[14]

赵俊杰, 周晓静, 李佳欣

改进YOLOV7的跌倒人员检测

[J]. 计算机科学, 2024, 51 (Suppl.1): 613- 618

DOI:10.11896/jsjkx.230800039 [本文引用: 1]

ZHAO Junjie, ZHOU Xiaojing, LI Jiaxin

Improving the detection of fallen persons in YOLOV7

[J]. Computer Science, 2024, 51 (Suppl.1): 613- 618

DOI:10.11896/jsjkx.230800039 [本文引用: 1]

[15]

朱胜豪, 钱承山, 阚希

改进YOLOv5的高精度跌倒检测算法

[J]. 计算机工程与应用, 2024, 60 (11): 105- 114

ZHU Shenghao, QIAN Chengshan, KAN Xi

High-precision fall detection algorithm with improved YOLOv5

[J]. Computer Engineering and Applications, 2024, 60 (11): 105- 114

DOI:10.3778/j.issn.1002-8331.2307-0190 [本文引用: 1]

[16]

ZHAO D, SONG T, GAO J, et al

YOLO-fall: a novel convolutional neural network model for fall detection in open spaces

[J]. IEEE Access, 2024, 12: 26137- 26149

DOI:10.1109/ACCESS.2024.3362958 [本文引用: 1]

[17]

WANG H, XU S, CHEN Y, et al

LFD-YOLO: a lightweight fall detection network with enhanced feature extraction and fusion

[J]. Scientific Reports, 2025, 15: 5069

DOI:10.1038/s41598-025-89214-7 [本文引用: 1]

[18]

HUANG X, LI X, YUAN L, et al

SDES-YOLO: a high-precision and lightweight model for fall detection in complex environments

[J]. Scientific Reports, 2025, 15: 2026

DOI:10.1038/s41598-025-86593-9 [本文引用: 1]

[19]

ZHANG X, BAI J, QIAO G, et al

YOLO-fall: a YOLO-based fall detection model with high precision, shrunk size, and low latency

[J]. The Computer Journal, 2025, 68 (7): 804- 812

DOI:10.1093/comjnl/bxaf005 [本文引用: 1]

[20]

PRIADANA A, NGUYEN D L, VO X T, et al

HFD-YOLO: improved YOLO network using efficient attention modules for real-time one-stage human fall detection

[J]. IEEE Access, 2025, 13: 41248- 41258

DOI:10.1109/ACCESS.2025.3547360 [本文引用: 1]

[21]

ZHONG J, CHEN J, MIAN A

DualConv: dual convolutional kernels for lightweight deep neural networks

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34 (11): 9528- 9535

DOI:10.1109/TNNLS.2022.3151138 [本文引用: 1]

[22]

JIAO J, TANG Y M, LIN K Y, et al

DilateFormer: multi-scale dilated transformer for visual recognition

[J]. IEEE Transactions on Multimedia, 2023, 25: 8906- 8919

DOI:10.1109/TMM.2023.3243616 [本文引用: 1]

[23]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

DOI:10.3778/j.issn.1002-8331.2411-0193 [本文引用: 1]

[24]

CHENG G, SI Y, HONG H, et al

Cross-scale feature fusion for object detection in optical remote sensing images

[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18 (3): 431- 435

DOI:10.1109/LGRS.2020.2975541 [本文引用: 1]

[25]

孙寿松, 李新凯, 张宏立, 等

嵌入式平台的番茄叶片病虫害检测模型

[J]. 计算机工程与应用, 2025, 61 (16): 305- 314

SUN Shousong, LI Xinkai, ZHANG Hongli, et al

Embedded platform for tomato leaf pest detection model

[J]. Computer Engineering and Applications, 2025, 61 (16): 305- 314

DOI:10.3778/j.issn.1002-8331.2411-0193 [本文引用: 1]

[26]

宋芝文, 李伟, 谭伟, 等

基于YOLO V4-TLite的移动端君子兰病虫害检测方法

[J]. 农业工程学报, 2025, 41 (5): 175- 181

DOI:10.11975/j.issn.1002-6819.202409169 [本文引用: 1]

SONG Zhiwen, LI Wei, TAN Wei, et al

Detection method for Clivia miniata pests and diseases on mobile terminal based on YOLO V4-TLite

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2025, 41 (5): 175- 181

DOI:10.11975/j.issn.1002-6819.202409169 [本文引用: 1]

[27]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. [2025-06-03]. https://arxiv.org/abs/2410.17725.