浙江大学学报(工学版), 2026, 60(3): 546-555 doi: 10.3785/j.issn.1008-973X.2026.03.010

计算机技术、控制工程

面向光伏电站建设的移动端人体跌倒检测方法

李彬彬,, 张超, 覃涛, 陈昌盛, 刘兴艳, 杨靖,

1. 贵州大学 电气工程学院,贵州 贵阳 550025

2. 中国电建集团贵州工程有限公司,贵州 贵阳 550025

3. 贵州电网有限责任公司电网规划研究中心,贵州 贵阳 550025

4. 贵州省互联网+协同智能制造重点实验室,贵州 贵阳 550025

Mobile-based human fall detection method for photovoltaic power plant construction

LI Binbin,, ZHANG Chao, QIN Tao, CHEN Changsheng, LIU Xingyan, YANG Jing,

1. Electrical Engineering College, Guizhou University, Guiyang 550025, China

2. China Power Construction Group Guizhou Engineering Limited Company, Guiyang 550025, China

3. Power Grid Planning and Research Center of Guizhou Power Grid Limited Company, Guiyang 550025, China

4. Guizhou Provincial Key Laboratory of Internet+Intelligent Manufacturing, Guiyang 550025, China

通讯作者: 杨靖,男,教授,博导. orcid.org/0000-0002-6407-1276. E-mail: jyang7@gzu.edu.cn

收稿日期: 2025-07-10  

基金资助: 国家自然科学基金资助项目(61640014,52267003);贵州省科技支撑计划资助项目(黔科合支撑[2023]一般411,黔科合支撑[2024]一般051,黔科合支撑[2025]一般008);贵州省基础研究计划资助项目(黔科合基础MS[2025]596);贵州省科技成果转化项目(黔科合成果-LH[2024]重大028,黔科合成果LH[2025]重点009);贵州省教育厅工程研究中心资助项目(黔教技[2022]040);中国电建集团科技资助项目(DJ-ZDXM-2022-44).

Received: 2025-07-10  

Fund supported: 国家自然科学基金资助项目(61640014,52267003);贵州省科技支撑计划资助项目(黔科合支撑[2023]一般411,黔科合支撑[2024]一般051,黔科合支撑[2025]一般008);贵州省基础研究计划资助项目(黔科合基础MS[2025]596);贵州省科技成果转化项目(黔科合成果-LH[2024]重大028,黔科合成果LH[2025]重点009);贵州省教育厅工程研究中心资助项目(黔教技[2022]040);中国电建集团科技资助项目(DJ-ZDXM-2022-44).

作者简介 About authors

李彬彬(2001—),男,硕士生,从事目标检测、嵌入式系统研究.orcid.org/0009-0004-7143-1913.E-mail:gs.libb24@gzu.edu.cn , E-mail:gs.libb24@gzu.edu.cn

摘要

针对光伏电站建设中背景复杂、人体跌倒检测困难及现场部署受限的问题,提出基于移动端的CMD-YOLO检测方法. 该方法以YOLOv8为基线,使用改进的双分支卷积融合模块(C2f-Dualconv)替换传统C2f模块,以提高特征提取和计算效率. 采用轻量化跨尺度特征融合模块(CCFM)替换原颈部网络,在主干与颈部间引入多尺度空洞注意力机制(MSDA). 实验部署在Orange Pi5 Pro RK3588平台上,结果显示平均精度达到88.6%,参数量和运算量分别降低了31.3%和22.2%,单张检测时间为0.029 7 s,平均功耗为2.264 7 W. CMD-YOLO以低参数量、低功耗和高实时性的优势,有效应对光伏电站跌倒检测中的关键挑战,并能在资源受限的现场稳定运行,为移动端的实时检测提供可靠的支持.

关键词: 人体跌倒检测 ; YOLOv8 ; 轻量化 ; 低功耗 ; 注意力机制 ; 移动端部署

Abstract

A mobile-based CMD-YOLO detection method was proposed in order to address the challenges of complex background, difficulty in detecting human fall, and limited on-site deployment in photovoltaic power plant construction. YOLOv8 was used as the baseline and the traditional C2f module was replaced with an improved dual-branch convolution fusion module (C2f-Dualconv) in order to enhance feature extraction and computational efficiency. The original neck network was replaced with a lightweight cross-scale feature fusion module (CCFM), introducing a multi-scale dilated Transformer attention (MSDA) between the backbone and the neck. The experiment was deployed on the Orange Pi5 Pro RK3588 platform. Results showed an average accuracy of 88.6%, with parameter count and computational load reduced by 31.3% and 22.2% respectively. Single-image detection time was 0.0297 s, and average power consumption was 2.2647 W. CMD-YOLO effectively addresses key challenges in fall detection at photovoltaic power plant through its advantage of low parameter count, low power consumption and high real-time performance. CMD-YOLO operates stably in resource-constrained field environment, providing reliable support for real-time detection on mobile device.

Keywords: human fall detection ; YOLOv8 ; lightweight ; low power consumption ; attention mechanism ; mobile deployment

PDF (7437KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李彬彬, 张超, 覃涛, 陈昌盛, 刘兴艳, 杨靖. 面向光伏电站建设的移动端人体跌倒检测方法. 浙江大学学报(工学版)[J], 2026, 60(3): 546-555 doi:10.3785/j.issn.1008-973X.2026.03.010

LI Binbin, ZHANG Chao, QIN Tao, CHEN Changsheng, LIU Xingyan, YANG Jing. Mobile-based human fall detection method for photovoltaic power plant construction. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 546-555 doi:10.3785/j.issn.1008-973X.2026.03.010

随着全球能源转型和光伏电站建设的快速推进,工地安全问题日益突出,跌倒成为主要的致伤因素[1-2]. 目前跌倒检测主要依赖可穿戴传感器、环境传感器以及监控视频分析3类方法. 贵州喀斯特地貌复杂,可穿戴设备易受干扰,环境传感器覆盖有限,且偏远地区难以部署高算力、高功耗设备,导致检测仍依赖人工监督,难以实现实时监测.

山地光伏电站场景下的深度学习跌倒检测研究仍处于初步阶段,缺乏针对贵州地区的跌倒数据集,限制了技术发展. 开发轻量化、低功耗跌倒检测系统,既可以提升安全保障,又能够提高施工效率,具有重要的工程应用价值与社会意义.

深度学习目标检测算法分为双阶段和单阶段. 双阶段方法(如R-CNN[3]、Faster R-CNN[4]、Mask R-CNN[5]和Cascade R-CNN[6]),精度高,但推理慢. 单阶段方法(如YOLO[7-11]系列、SSD[12]),实时性强,适合边缘部署. 鉴于YOLO的计算和内存密集特性,其对计算能力和存储资源的要求较高[13]. 轻量化深度学习模型在移动端检测研究中备受关注.

在跌倒检测研究方面,赵俊杰等[14]提出基于YOLOv7引入卷积块注意力机制,并以加权多跳网络替换路径聚合网络,提高信息传递效率,平均精度提升了7.1%. 朱胜豪等[15]通过在YOLOv5中引入C2D特征模块和滑动窗口变换器优化颈部网络,实现高精度检测. Zhao等[16]提出SDI注意力模块,结合分组可分离卷积与跨阶段连接结构,显著降低了参数量和计算量. Wang等[17]开发的轻量模型采用交叉拆分RepGhost模块和多尺度注意力模块,平均精度提升了1.5%. Huang等[18]基于YOLOv8融合多尺度特征提取金字塔、遮挡感知注意力机制及边缘空间信息融合模块,在低参数和计算量下平均精度达到85.1%.

近年来,改进YOLO系列模型的研究提升了跌倒检测的准确率,但大多仅在桌面端验证,尚未实现实际部署. Zhang等[19]设计轻量化网络,参数量仅为2.45×106, 每秒浮点运算次数FLOPs为12.2×109,在移动端实现了78.4%的精度. Priadana等[20]分别提出顺序高效注意力模块和残差瓶颈自注意力,并成功部署于NVIDIA Jetson Orin Nano GPU,实现实时检测. 当前模型部署的研究虽然提升了推理速度,但在低功耗与硬件模型兼容性方面仍存在挑战.

本研究构建贵州山区光伏电站工地人员跌倒数据集,通过数据增强提升鲁棒性. 针对轻量化与实时性的需求,提出CMD-YOLO模型,在Orange Pi5 Pro RK3588平台上验证该模型的实时检测能力.

1. YOLOv8原理及改进方法

1.1. YOLOv8相关原理

YOLOv8是Ultralytics团队基于YOLOv5改进的轻量化检测模型,检测精度和性能均显著提升. 模型由输入模块、轻量高效的主干网络、特征融合的颈部网络和检测头组成. 主干网络负责提取分层特征. 颈部网络进一步融合这些特征,为检测头提供支持. 检测头将融合特征转化为最终的检测结果. 在多尺度特征融合上,YOLOv8采用改进的特征金字塔网络(feature pyramid network, FPN)和路径聚合网络(path aggregation network, PANet),有效整合浅层与深层特征. 此外,快速空间金字塔池化模块(spatial pyramid pooling fast, SPPF)通过多尺度最大池化操作实现信息拼接,在保留不同感受野特征的同时,显著提升运算效率. 本文提出基于YOLOv8n改进的轻量化模型CMD-YOLO,该模型既对硬件友好,又保持较高的检测精度,适合在资源受限的移动端部署.

1.2. CMD-YOLO算法

为了满足光伏电站施工现场对人员跌倒实时检测的需求,提出基于YOLOv8n改进的模型. 该模型在预处理阶段保持640×640的输入尺寸,确保特征提取标准化. 主要改进如下. 将混合卷积DualConv的并行分支与C2f模块中的跨阶段特征交互融合,替换原C2f模块,以提升特征提取效果、计算效率及硬件兼容性. 在主干与颈部网络间引入多尺度空洞注意力机制(multi-scale dilated transformer attention, MSDA),增强对人体区域关键特征的捕捉,降低背景干扰. 在颈部网络中引入改进的跨尺度特征融合模块(cross-scale feature fusion module, CCFM),提升多尺度特征融合和小目标检测性能,实现模型轻量化,命名为CMD-YOLO. 总体架构如图1所示.

图 1

图 1   CMD-YOLO模型的结构

Fig.1   Structure of CMD-YOLO model


1.3. 双分支卷积融合模块

针对传统卷积在特征提取中难以平衡计算效率与多尺度特征融合的问题,融合DualConv[21]的并行分支设计与C2f的跨阶段特征交互结构,以提升特征提取能力和计算效率. 利用提出的C2f-DualConv模块,增强了多场景特征捕获能力.

Dualconv采用3×3组卷积提取局部特征,结合1×1点卷积实现跨通道信息交互,降低计算量并强化全局建模能力. 1×1点卷积有效保留了原始特征,为深层网络提供丰富的输入特征,结构如图2所示. 其中,MN分别为输入特征图和输出特征图的通道数量,G为通道的分组组数.

图 2

图 2   Dualconv结构图

Fig.2   Diagram of DualConv structure


DualConv在降低计算量和增强全局建模方面具有优势,但跨阶段与多尺度特征融合能力不足. C2f虽然改善了特征交互和梯度流畅性,但全局信息建模和计算效率平衡存在局限. 为此,提出结合DualConv并行卷积分支与C2f跨阶段特征交互机制的融合方法,旨在兼顾多尺度特征提取与计算效率,充分发挥各自的优势. C2f-DualConv的结构如图3所示.

图 3

图 3   C2f-Dualconv结构图

Fig.3   Diagram of C2f-DualConv structure


将输入特征图沿通道分为两部分,各采用1×1点卷积核提取特征,强化梯度信息. 将中间特征图送入瓶颈网络,通过通道减半降低计算复杂度和参数量,引入DualConv模块以促进全局信息交互. 通过通道拼接融合两路特征.

标准卷积计算量为

$ {F}_{\text{sc}}=D_{\mathrm{o}}^{2} {K}^{2} M N. $

组卷积计算量为

$ {F}_{\text{cc}}=\frac{\left({K}^{2}+1\right) {D}^{2} M N}{G}. $

点卷积计算量为

$ {F}_{\text{pc}}=\frac{\left(G-1\right) {D}^{2} M N}{G}. $

Dualconv计算量为

$ {F}_{\text{dc}}={F}_{\text{cc}}+{F}_{\text{pc}}=\frac{\left({K}^{2}+G\right) {D}^{2} M N}{G}. $

Dualconv与标准卷积计算缩减比为

$ {R}_{\text{dc}/\text{sc}}=\frac{{F}_{\text{dc}}}{{F}_{\text{sc}}}=\frac{1}{G}+\frac{1}{{K}^{2}}. $

式中:$ K $为卷积核大小,$ D $为输出特征图尺寸,$ {D}_{\text{o}} $为输出特征图在宽度和高度方向上的尺寸,$ {R}_{\text{dc}/\text{sc}} $为双卷积相较于标准卷积在计算成本上的缩减比例.

为了验证提出模块的有效性,比较常规卷积与DualConv的运算量. 推导结果显示,当C2f-DualConv模块中的卷积核参数K设定为3且分组数G设定为4时,模型FLOPs降低了8.6%,参数量减少了10%.

1.4. 多尺度空洞注意力

为了解决复杂场景下模型多尺度语义信息聚合不足、局部特征注意力有限的问题,在原有特征提取的基础上,引入基于滑动窗口扩张注意力(sliding window dilated attention,SWDA)的MSDA模块[22],应对跌倒检测任务中的多样化挑战. 该模块能够有效地应对特征提取不足及背景干扰显著的问题,通过聚焦关键区域的特征,显著提升模型在复杂场景下的检测性能.

MSDA采用SWDA构建多尺度语义融合路径,多头并行结构为各注意力头分配不同的膨胀率(r = 1、2、3),在滑动窗口内以查询块为中心稀疏选取键值对,从而同时捕获长距离依赖和提取局部特征. 该模块通过多源域信息合成策略整合各感受野特征,显著增强局部纹理细节感知,整体结构如图4所示.

图 4

图 4   MSDA结构图

Fig.4   Diagram of MSDA structure


本文保留了MSDA模块的原始组成部分,并将MSDA嵌入到主干网络与颈部网络之间,同时采用残差并行融合策略以确保语义流水线的稳定性. 在不改变原始MSDA结构的前提下,借助多尺度上下文建模能力,增强了在跌倒检测场景中对关键人体纹理与局部姿态变化的特征表达.

1.5. 跨尺度特征融合模块

针对YOLOv8颈部网络在多尺度特征融合过程中存在结构复杂、参数冗余以及浅层与深层特征交互不足等问题,提出改进策略. 采用CCFM替代原有颈部网络,该方法不仅实现了多尺度特征融合的优化,而且在提升小目标检测性能的过程中,有效降低了计算复杂度.

RT-DETR[23]提出的跨尺度特征融合模块显著提升了模型对尺度变化和小物体检测的鲁棒性. CCFM[24]模块通过层卷积构建混合块融合路径,利用包含N个RepBlock的融合块,对相邻特征进行逐元素相加融合,CCFM的轻量化设计显著降低了计算复杂度. 该模块通过优化浅层细节特征与深层语义信息的交互路径,提升了多尺度特征的整合能力,CCFM原理图如图5所示.

图 5

图 5   CCFM结构图

Fig.5   Diagram of CCFM structure


CCFM采用轻量化融合模块设计,既降低计算复杂度,又优化浅层与深层特征交互. CCFM通过线性融合,在多尺度特征交互上存在深度不足,易丢失部分信息的问题. 模型在空间与通道特征建模方面的不足,成为制约其在复杂背景下小目标检测性能的重要因素.

改进网络在层次化特征金字塔的基础上,引入双向跨层连接策略,提高特征重用效率. 在融合阶段,CCFM模块采用多分支卷积和跨尺度连接,促使高低分辨率特征实现深度交互,既保留了细粒度空间细节,又补充了深层语义信息. 与原结构相比,该融合方式在多尺度特征传递中有效降低了信息损失和冗余,提高了特征表达效率. 借助上下采样路径的逐层交互,改进网络在保证计算效率的前提下,显著提升了对不同尺度目标的感知能力,尤其在小目标检测中展现出更高的精度和鲁棒性.

图6所示为颈部网络优化前、后的检测对比. 其中未带有标签的框表示漏检区域,带有类别标签的框表示成功检测目标. 对比表明,优化后的网络显著提高了目标检测精度,实现了更精确的识别和定位.

图 6

图 6   颈部网络优化前、后的效果对比图

Fig.6   Effect comparison diagram of neck network before and after optimization


2. 实验环境与评价指标

2.1. 实验数据集

数据来源包括公开数据集UR Fall Detection Dataset、Fall Detection Dataset和Multiple Cameras Fall Dataset中筛选的1 241张代表性图片、通过网络获取的790张多人场景图片与实地拍摄的1198张照片. 这些数据共同构成光伏电站建设工地人员跌倒检测数据集,部分数据如图7所示. 其中,数据1为实地拍摄数据集,数据2为公开数据集.

图 7

图 7   跌倒检测数据集

Fig.7   Fall detection dataset


数据集的具体构建见表1. 其中,Od为原始标签数量,Ed为增强标签数量. 表1中的参数均表示各类别的标签数,不是图片数量.

表 1   数据集各类别标签统计表

Tab.1  Statistical table of labels for each category in dataset

标签OdEd总计
Fallen120236064808
Falling106732014268
Normal225467629016

新窗口打开| 下载CSV


使用Labelimg对数据集进行标注,将人员状态划分为已跌倒(Fallen)、跌倒中(Falling)和正常状态(Normal),并按8∶1∶1的比例分为训练、预测和验证集. 尽管“已跌倒”与“跌倒中”状态间的时间相近,及时救援仍能显著提升救助效果. 为了提高数据的可靠性,采用如图8所示的3种数据增强方法:利用高斯噪声提高模型鲁棒性;随机调整亮度和对比度模拟多光照条件. 综合这些方法,不仅增强了模型对噪声和光照变化的适应性,还提高了数据多样性,从而增强了跌倒检测任务的泛化能力,提高了检测精度.

图 8

图 8   数据增强图

Fig.8   Data augmentation diagram


2.2. 评价指标及其实验配置

采用公认的目标检测评估标准量化模型性能[25]. 以精确率P、召回率R和平均精度均值mAP衡量检测效果,以内存占用、参数量NP及浮点运算量FLOPs表示计算复杂度,以检测帧率F表示边缘实时处理能力. 相关公式如下:

$ P=\frac{\text{TP}}{\text{TP+FP}}, $

$ R=\frac{\text{TP}}{\text{TP+FN}}, $

$ \text{AP}=\int\nolimits_{0}^{1}P(R){\mathrm{d}}R, $

$ {\mathrm{mAP}}=\frac{1}{m}\sum\limits_{i=1}^{m}{\text{AP}}_{i}, $

$ F={1}/{ t_{\mathrm{P}}}. $

式中:$ \mathrm{TP} $为预测和实际均为正类的样本数量;$ \mathrm{FN} $为实际为正类,但预测为负类的样本数量;$ \mathrm{FP} $为实际为负类,但预测为正类的样本数量;$ t_{\mathrm{P}} $为单张图片的推理时长.

硬件平台与计算环境[26]详见表2. 训练时,输入图像的分辨率为640×640,批量大小为128,共进行150轮训练. 采用随机梯度下降(SGD)优化器,初始学习率为0.01,IoU阈值为0.7.

表 2   模型训练与部署平台信息

Tab.2  Training and deployment platform specification

类型名称配置
训练系统Windows 10
CPUIntel Core i9-12900K
GPURTX-3090
内存RAM32 GB
部署系统Ubuntu20.04
CPUCortex-A76,A55
GPUARMMali-G610
内存RAM8 GB

新窗口打开| 下载CSV


3. 结果与分析

3.1. 模型训练与结果分析

为了验证改进模块的效能,设计并开展8组消融实验,针对光伏电站建设现场人员跌倒检测数据集,采用平均精度均值、精确度、召回率、参数量和浮点运算量作为评价指标. 实验结果如表3所示. 其中,mAP50为交并比为50%时的平均精度均值,“√”表示使用了相应模块,“—”表示未使用相应模块.

表 3   消融实验的对比结果

Tab.3  Comparison result of ablation experiment

模块设置mAP50/
%
P/
%
R/
%
NP/
106
FLOPs/
109
CCFMMSDAC2f-Dualconv
85.786.980.83.008.1
86.082.382.71.966.6
86.386.681.63.308.4
86.387.481.92.707.4
86.686.783.02.246.8
86.785.982.13.007.7
86.686.481.81.786.1
88.687.884.52.066.3

新窗口打开| 下载CSV


表3所示,采用CCFM模块,使得模型参数量和运算量分别减少了34.7%和18.5%,平均精度均值和召回率分别提升了0.3%和1.9%,但精确度略降. 在引入MSDA模块后,召回率和平均精度均值分别提高了0.8%和0.6%,证明该模型捕捉局部信息和纹理特征的能力有助于复杂场景下人体跌倒的准确检测. 在加入C2f-Dualconv模块后,平均精度均值、精确度和召回率分别提升了0.6%、0.5%和1.1%,参数量和运算量分别减少了10%和8.6%,表明利用该模型,显著增强了特征提取能力,提高了计算效率. 与YOLOv8n相比,综合三模块优势构建的CMD-YOLO模型在平均精度均值、精确度和召回率上分别提升了2.9%、0.9%和3.7%,参数量和运算量分别降低了31.3%和22.2%. 实验结果表明,该模型为移动端实时跌倒检测提供了兼具高精度与高效率的轻量级方案.

由于二阶段算法在移动端部署较少,选用一阶段算法作为对照. 为了全面评估模型的性能,将其与Nanodet、YOLOv5、YOLOv8n、YOLOv9t和YOLOv11n[27]等主流算法进行对比,以平均精度均值为指标评估训练与测试过程,不同模型的平均精度均值曲线详见图9(a). 其中,Ni为训练轮次;YOLOv8-C、YOLOv8-D、YOLOv8-CM、YOLOv8-CD分别表示在YOLOv8基础上融合不同改进模块的模型,C表示引入CCFM模块,D表示引入C2f-Dualconv,CM表示同时引入CCFM与MSDA模块,CD表示同时引入CCFM与MSDA模块. 图9(a)显示,各模型在训练过程中的平均精度均值随着迭代次数稳步提升. 图9(b)进一步对比了各模型在精确度、召回率、参数量、计算量及帧率指标上的显著差异. 从图9(b)可知,CMD-YOLO模型在降低参数量和计算量的同时,实现了较高的检测精度与召回率,成为边缘计算场景中兼顾高精度与实时性的理想选择.

图 9

图 9   各模型的训练测试结果

Fig.9   Training test result of each model


图9可知,提出的CMD-YOLO模型的综合性能优于其他模型,验证集的平均精度达到88.6%,Nanodet的精度仅为76.8%. 其他参数如表4所示.

表 4   各模型的整体性能测试结果

Tab.4  Overall performance test result of each model

模型mAP50/%P/%R/%NP/106FLOPs/109F/(帧·s−1)
Nanodet76.878.558.20.931.4140.3
YOLOv585.587.879.32.507.182.1
YOLOv8n85.786.980.83.008.188.0
YOLOv9t85.786.378.11.736.459.2
YOLOv11n85.187.781.42.586.386.2
YOLOv8-D86.387.781.92.707.497.6
YOLOv8-C86.082.382.71.966.6100.7
YOLOv8-CD86.686.481.81.786.198.6
YOLOv8-CM86.686.783.02.246.891.6
CMD-YOLO88.687.884.52.066.3101.9

新窗口打开| 下载CSV


表4可见,在比较的10种模型中,CMD-YOLO在平均精度均值、精确度和召回率上均表现突出. 与YOLOv8n相比,CMD-YOLO的平均精度均值、精确度和召回率分别提升了2.9%、0.9%和3.7%,参数量与运算量分别减少了31.3%和22.2%,既保证了高精度,又显著降低了计算成本,维持了良好的实时性. 尽管Nanodet在参数量与运算量上最优,但平均精度均值的明显下降难以满足高精度的要求. YOLOv9t虽然在轻量化方面具有优势,但检测性能不及CMD-YOLO. 总体而言,CMD-YOLO在相近的计算成本下实现了更高的检测性能,88.6%的平均精度均值、101.9帧/s的处理速度、2.06×106的参数量及6.3×109 FLOPs的计算需求使得CMD-YOLO模型成为边缘计算场景中兼顾高精度与实时性的理想选择.

3.2. 模型部署与部署结果分析

为了验证优化后模型在移动设备上的实际表现,选用Orange Pi5 Pro RK3588开发板作为硬件平台,实物如图10所示. 该开发板不仅具备较高的计算性能和丰富的外设接口,而且具有较低的功耗,因此非常适合作为边缘计算设备使用.

图 10

图 10   Orange Pi5 Pro RK3588的实物图

Fig.10   Physical picture of Orange Pi5 Pro RK3588


利用移动端NPU加速测试,评估模型在移动平台上的性能,通过在移动设备上部署模型并测量运算速度和功耗来实现.

部署后,对部分模型进行运算速度与功耗评估. 评测选用验证集中的1 296张图像进行推理,记录总体运行时长及功率消耗,计算运行时长和功耗消耗的平均值,获得运算速度均值和功耗均值. 用ASP分别表示模型大小、平均推理时间和平均功耗. 如表5所示为各模型在移动端环境下的具体测试结果.

表 5   各模型部署后的性能对比

Tab.5  Performance comparison of various model after deployment

模型A/MBS/sP/W
YOLOv55.000.02862.4869
YOLOv8n5.160.02672.5165
YOLOv9t8.450.05892.1433
YOLOv11n5.540.05872.4517
CMD-YOLO5.080.02972.2647

新窗口打开| 下载CSV


表5可知,YOLOv9t与YOLOv11n因结构复杂或优化不足,导致推理慢. YOLOv5与YOLOv8n推理快,但功耗高,不利于长期部署. 改进后的CMD-YOLO在基本保持推理速度的前提下,有效降低了功耗需求,实现了两者的平衡,因此适合资源有限的移动端设备应用.

3.3. 热力图可视化分析

图11所示为在光伏电站建筑工地人员检测中YOLOv8n和CMD-YOLO的表现. 第1列中,利用这2个模型均检测到人员,但CMD-YOLO的热力图响应更聚焦于人体关键区域,目标定位精度较高. 第2、3列中,CMD-YOLO在不同位置和姿态下表现出更好的识别效果,尤其在复杂背景下优势明显. 第4、5列展示了CMD-YOLO在远距离和多人员检测中的优势,2个不同模型在不同场景下的热力图均衡分布验证了模型在多目标检测中的鲁棒性和背景抑制能力. 通过引入DualConv并行分支、MSDA模块和改进CCFM模块,增强了多尺度特征整合、关键特征聚焦及综合特征提取能力,大幅提升了在复杂背景与多目标检测任务中的准确性和鲁棒性.

图 11

图 11   热力图效果的对比图

Fig.11   Comparison chart of heat map effect


3.4. 不同模型可视化分析

通过光伏工地人员跌倒检测任务并结合图12的实际部署结果,对改进模型与其他模型进行可视化对比. 其中,未带有标签的框表示漏检区域,带有类别标签的框表示成功检测到的目标,类别标签分为Fallen、Falling和Normal 3种状态. 结果显示,在单人场景下各模型均无漏检. 在多人场景中虽然均有漏检,但改进模型的漏检率显著较低. 在远距离场景下,其他模型严重漏检,而改进模型仍能准确检测远处人员. 在局部遮挡场景中,改进模型能够精准识别关键跌倒情况,而其他模型存在漏检. 在复杂背景下,其他模型对正常状态与跌倒情形均存在漏检,而改进模型能够完成检测任务. 综上所述,改进模型在各场景下均表现优异,满足光伏电站施工现场的实际需求.

图 12

图 12   不同模型的可视化效果对比

Fig.12   Comparison of visualization effect of different models


4. 结 语

为了在资源受限的移动设备上实现光伏电站工地人员跌倒状态的实时、准确检测,提出CMD-YOLO模型. 模型的主要改进如下. 采用新模块替换C2f模块,提升特征提取与计算效率. 在主干与颈部网络间引入MSDA注意力机制,增强跌倒动作识别的能力. 利用轻量化CCFM颈部网络替换原结构,降低计算负担,加快推理速度,改善复杂背景下的小目标检测能力.

经实验验证,CMD-YOLO模型的平均精度均值、精确度和召回率分别为88.6%、87.8%和84.5%,均优于Nanodet、YOLOv5、YOLOv8n、YOLOv9t和YOLOv11n模型. 与YOLOv8n相比,CMD-YOLO模型的平均精度均值、精确度和召回率分别提升了2.9%、0.9%和3.7%. 在Orange Pi5 Pro RK3588嵌入式设备上,单张图像的推理耗时为0.029 7 s,平均功耗为2.264 7 W,满足移动平台的实时检测需求,为跌倒检测提供了坚实的理论及技术支持.

参考文献

CHOI S D, GUO L, KIM J, et al

Comparison of fatal occupational injuries in construction industry in the United States, South Korea, and China

[J]. International Journal of Industrial Ergonomics, 2019, 71: 64- 74

DOI:10.1016/j.ergon.2019.02.011      [本文引用: 1]

HU K, RAHMANDAD H, SMITH-JACKSON T, et al

Factors influencing the risk of falls in the construction industry: a review of the evidence

[J]. Construction Management and Economics, 2011, 29 (4): 397- 416

DOI:10.1080/01446193.2011.558104      [本文引用: 1]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580–587.

[本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 1]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980–2988.

[本文引用: 1]

CAI Z, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6154–6162.

[本文引用: 1]

DELGADO-ESCAÑO R, CASTRO F M, CÓZAR J R, et al

A cross-dataset deep learning-based classifier for people fall detection and identification

[J]. Computer Methods and Programs in Biomedicine, 2020, 184: 105265

DOI:10.1016/j.cmpb.2019.105265      [本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517–6525.

REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2025-05-07]. https://arxiv.org/abs/1804.02767.

BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2025-05-21]. https://arxiv.org/abs/2004.10934.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]//European Conference on Computer Vision. Cham: Springer, 2016: 21–37.

[本文引用: 1]

HAN S, LIU X, MAO H, et al. EIE: efficient inference engine on compressed deep neural network [C]//Proceedings of the ACM/IEEE 43rd Annual International Symposium on Computer Architecture. Seoul: IEEE, 2016: 243–254.

[本文引用: 1]

赵俊杰, 周晓静, 李佳欣

改进YOLOV7的跌倒人员检测

[J]. 计算机科学, 2024, 51 (Suppl.1): 613- 618

DOI:10.11896/jsjkx.230800039      [本文引用: 1]

ZHAO Junjie, ZHOU Xiaojing, LI Jiaxin

Improving the detection of fallen persons in YOLOV7

[J]. Computer Science, 2024, 51 (Suppl.1): 613- 618

DOI:10.11896/jsjkx.230800039      [本文引用: 1]

朱胜豪, 钱承山, 阚希

改进YOLOv5的高精度跌倒检测算法

[J]. 计算机工程与应用, 2024, 60 (11): 105- 114

DOI:10.3778/j.issn.1002-8331.2307-0190      [本文引用: 1]

ZHU Shenghao, QIAN Chengshan, KAN Xi

High-precision fall detection algorithm with improved YOLOv5

[J]. Computer Engineering and Applications, 2024, 60 (11): 105- 114

DOI:10.3778/j.issn.1002-8331.2307-0190      [本文引用: 1]

ZHAO D, SONG T, GAO J, et al

YOLO-fall: a novel convolutional neural network model for fall detection in open spaces

[J]. IEEE Access, 2024, 12: 26137- 26149

DOI:10.1109/ACCESS.2024.3362958      [本文引用: 1]

WANG H, XU S, CHEN Y, et al

LFD-YOLO: a lightweight fall detection network with enhanced feature extraction and fusion

[J]. Scientific Reports, 2025, 15: 5069

DOI:10.1038/s41598-025-89214-7      [本文引用: 1]

HUANG X, LI X, YUAN L, et al

SDES-YOLO: a high-precision and lightweight model for fall detection in complex environments

[J]. Scientific Reports, 2025, 15: 2026

DOI:10.1038/s41598-025-86593-9      [本文引用: 1]

ZHANG X, BAI J, QIAO G, et al

YOLO-fall: a YOLO-based fall detection model with high precision, shrunk size, and low latency

[J]. The Computer Journal, 2025, 68 (7): 804- 812

DOI:10.1093/comjnl/bxaf005      [本文引用: 1]

PRIADANA A, NGUYEN D L, VO X T, et al

HFD-YOLO: improved YOLO network using efficient attention modules for real-time one-stage human fall detection

[J]. IEEE Access, 2025, 13: 41248- 41258

DOI:10.1109/ACCESS.2025.3547360      [本文引用: 1]

ZHONG J, CHEN J, MIAN A

DualConv: dual convolutional kernels for lightweight deep neural networks

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34 (11): 9528- 9535

DOI:10.1109/TNNLS.2022.3151138      [本文引用: 1]

JIAO J, TANG Y M, LIN K Y, et al

DilateFormer: multi-scale dilated transformer for visual recognition

[J]. IEEE Transactions on Multimedia, 2023, 25: 8906- 8919

DOI:10.1109/TMM.2023.3243616      [本文引用: 1]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

[本文引用: 1]

CHENG G, SI Y, HONG H, et al

Cross-scale feature fusion for object detection in optical remote sensing images

[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18 (3): 431- 435

DOI:10.1109/LGRS.2020.2975541      [本文引用: 1]

孙寿松, 李新凯, 张宏立, 等

嵌入式平台的番茄叶片病虫害检测模型

[J]. 计算机工程与应用, 2025, 61 (16): 305- 314

DOI:10.3778/j.issn.1002-8331.2411-0193      [本文引用: 1]

SUN Shousong, LI Xinkai, ZHANG Hongli, et al

Embedded platform for tomato leaf pest detection model

[J]. Computer Engineering and Applications, 2025, 61 (16): 305- 314

DOI:10.3778/j.issn.1002-8331.2411-0193      [本文引用: 1]

宋芝文, 李伟, 谭伟, 等

基于YOLO V4-TLite的移动端君子兰病虫害检测方法

[J]. 农业工程学报, 2025, 41 (5): 175- 181

DOI:10.11975/j.issn.1002-6819.202409169      [本文引用: 1]

SONG Zhiwen, LI Wei, TAN Wei, et al

Detection method for Clivia miniata pests and diseases on mobile terminal based on YOLO V4-TLite

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2025, 41 (5): 175- 181

DOI:10.11975/j.issn.1002-6819.202409169      [本文引用: 1]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. [2025-06-03]. https://arxiv.org/abs/2410.17725.

[本文引用: 1]

/