浙江大学学报(工学版), 2026, 60(2): 332-340 doi: 10.3785/j.issn.1008-973X.2026.02.011

计算机技术与控制工程

井下轨道区域高精度实时分割网络

周华平,, 邓彬, 孙克雷, 张咏琪, 吴涛, 吴劲

1. 安徽理工大学 计算机科学与工程学院,安徽 淮南 232001

2. 安徽理工大学 电气与信息工程学院,安徽 淮南 232001

3. 安徽理工大学 工业粉尘防控与职业安全健康教育部重点实验室,安徽 淮南 232001

4. 安徽理工大学 安全科学与工程学院,安徽 淮南 232001

5. 安徽理工大学 经济与管理学院,安徽 淮南 232001

High-precision real-time segmentation network for underground track areas

ZHOU Huaping,, DENG Bin, SUN Kelei, ZHANG Yongqi, WU Tao, WU Jin

1. School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China

2. School of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China

3. Key Laboratory of Industrial Dust Prevention and Control & Occupational Health and Safety, Ministry of Education, Anhui University of Science and Technology, Huainan 232001, China

4. School of Safety Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China

5. School of Economics and Management, Anhui University of Science and Technology, Huainan 232001, China

收稿日期: 2025-01-22  

基金资助: 安徽高校自然科学研究项目(2024AH040065).

Received: 2025-01-22  

Fund supported: 安徽高校自然科学研究项目(2024AH040065).

作者简介 About authors

周华平(1979—),女,教授,从事计算机视觉研究.orcid.org/0000-0002-4419-0825.E-mail:hpzhou@aust.edu.cn , E-mail:hpzhou@aust.edu.cn

摘要

针对现有实时分割方法在低光照环境下对煤矿井下轨道区域边缘分割效果差、分割精度低的问题,提出高精度实时分割网络(HPRTSNet). 在浅层特征提取部分,设计基于Sobel算子的多尺度边缘增强模块(SMEEM),通过Sobel算子和多尺度自适应平均池化捕获轨道边缘特征,提升轨道区域的边缘表达能力. 在深层特征提取部分,提出双域融合增强模块(DFEM)融合时频域信息,有效增强对井下复杂背景的理解;构建感受野混合空洞空间金字塔池化(RHASPP)模块,扩大感受野并改善轨道特征表达. 为了优化模型性能,提出混合分割损失函数. 在自建的矿井轨道分割数据集上的实验结果表明,与现有的实时分割算法相比,HPRTSNet在分割精度与实时性方面的性能更优.

关键词: 实时分割 ; 矿井轨道 ; 无人驾驶电机车 ; 时域 ; 频域

Abstract

To address the problems of poor edge segmentation performance and low segmentation accuracy of existing real-time segmentation methods for underground coal mine rail regions under low-light conditions, a high-precision real-time segmentation network (HPRTSNet) was proposed. In the shallow feature extraction stage, a Sobel-based multi-scale edge enhancement module (SMEEM) was designed, in which Sobel operators and multi-scale adaptive average pooling were employed to capture rail edge features, thereby enhancing edge representation of rail regions. In the deep feature extraction stage, a dual-domain fusion enhancement module (DFEM) was introduced to fuse spatial and frequency-domain information, effectively improving the understanding of the complex underground backgrounds. In addition, a receptive-field hybrid atrous spatial pyramid pooling (RHASPP) module was constructed to expand the receptive field and enhance rail feature representation. To further optimize model performance, a hybrid segmentation loss function was adopted. Experimental results on a self-built mine-track segmentation dataset demonstrated that, compared with existing real-time segmentation algorithms, HPRTSNet achieved superior performance in both segmentation accuracy and real-time efficiency.

Keywords: real-time segmentation ; mine track ; unmanned electric locomotive ; time domain ; frequency domain

PDF (3465KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

周华平, 邓彬, 孙克雷, 张咏琪, 吴涛, 吴劲. 井下轨道区域高精度实时分割网络. 浙江大学学报(工学版)[J], 2026, 60(2): 332-340 doi:10.3785/j.issn.1008-973X.2026.02.011

ZHOU Huaping, DENG Bin, SUN Kelei, ZHANG Yongqi, WU Tao, WU Jin. High-precision real-time segmentation network for underground track areas. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(2): 332-340 doi:10.3785/j.issn.1008-973X.2026.02.011

为了提高矿山的安全性和生产效率,减少能源消耗和碳排放,持续推动采矿智能化建设的进步,智慧矿山逐渐成为矿业绿色发展的必然趋势. 建设智慧矿山的关键在于智能设备可以获得全面的环境信息,保证设备的稳定性与可靠性. 矿井电机车具有运行频繁、运输量大和运行距离长等特点[1],是煤矿井下重要运输设备. 中国大部分井下轨道电机车主要依靠人工驾驶,煤矿井下地质条件复杂、光照条件差、司机疲劳驾驶等都是诱发运输事故的原因. 煤矿井下无人驾驶电机车技术可以缓解司机繁重的井下工作,在一定程度上避免井下运输事故发生.

在电机车行驶过程中有效的检测出轨道区域,对井下无人驾驶技术的发展有重要的研究意义. 常用的煤矿井下轨道识别方法有激光雷达、红外摄像头、基于计算机视觉的图像分割等方法. 井下环境使用激光雷达和红外摄像头,存在设备成本高、易受粉尘与温度干扰等问题,使得此类方法难以在巷道内实现精确且稳定的轨道识别. 相比之下,构建针对井下环境的深度学习模型,基于计算机视觉的图像分割方法能够对复杂背景、弱光照和粉尘环境下的轨道目标进行精确分割,在不断积累的井下数据和多样化的场景训练下逐步提升模型的鲁棒性. 可见,基于计算机视觉的图像分割方法具有成本低、部署灵活、精度高且易于拓展的特点,适合作为井下无人运输系统轨道区域的识别方法,相关研究在降低人工成本与减少事故风险方面具有重要意义. 随着智慧矿山的提出与发展,基于计算机视觉的识别技术被广泛应用于矿山领域场景[2]. 卫星等[3]通过在双边网络中改进金字塔结构来获取更大感受野,提高井下轨道的检测精度. 周华平等[4]在实时语义分割网络中,通过增加能够细化特征的特征融合模块,让网络更适合井下轨道检测. 这2种方法都能够很好满足井下轨道检测的实时性要求,但在井下巷道低光照环境中误检率较高. Tong等[5]采用实例分割方法准确识别并分割出轨道上的危险物体(如杂物、岩块). Pirasteh等[6]通过全景分割的方法同时关注语义和实例信息,为障碍物识别提供了全面的场景理解. 上述2种方法虽然提升了网络的准确度,但无法满足环境实时性的需求. 杨豚等[2]基于改进YOLOv5[7]模型,实现对无人驾驶电机车障碍物精准实时检测. 马天等[8]基于改进非对称解码结构实现对井下轨道异物的分割,在保持精度的同时提升了计算效率. 越来越多应用在煤矿领域的深度学习算法偏向在矿井复杂环境中实现精度与速度的均衡,适用于井下边缘设备的检测方法有助于实现煤矿智能化与无人化的目标.

本研究提出井下轨道区域高精度实时分割网络(high-precision real-time segmentation network for underground track areas, HPRTSNet),构建涵盖多场景、多条件井下巷道图像的矿井轨道分割数据集. 在HPRTSNet的编码器部分,提出基于Sobel算子的多尺度边缘增强模块(Sobel-based multi-scale edge enhancement module, SMEEM),通过Sobel卷积算子捕获轨道区域的边缘特征,并结合多尺度自适应平均池化增强特征表达能力,显著提升对轨道边缘的处理精度. 双域融合增强模块(dual-domain fusion enhancement module, DFEM)通过融合时域和频域信息,增强复杂背景场景中的全局特征提取能力. 为了解决空洞空间金字塔池化模块(atrous spatial pyramid pooling, ASPP)存在的网格问题,提出感受野混合空洞空间金字塔池化(receptive-field hybrid atrous spatial pyramid pooling, RHASPP)模块. 该模块利用多组空洞卷积的交替设计,扩大感受野并增强上下文信息之间的相关性,从而适应井下复杂场景. 此外,HPRTSNet采用提出的混合分割损失,有效缓解数据不平衡问题,优化边缘细节分割性能.

1. 井下轨道区域高精度实时分割网络模型

1.1. 模型总体架构

图1所示,HPRTSNet由编码器-解码器结构组成. 在编码器部分,选择轻量级的MoblieNetv2作为主干特征提取网络并提取浅层和深层特征信息. 浅层特征是指从网络的前几层提取的特征,比深层特征包含更多的边缘和细节信息. 为了更好利用获得的浅层特征信息,由SMEEM通过Sobel算子和多尺度自适应平均池化来提取丰富的边缘信息并提升特征的表达能力. 深层特征是从网络的较深层提取的特征,比浅层特征包含更多的语义信息和全局信息. 深层特征信息通过DFEM,不仅保留了图像中重要局部信息,还增强了全局特征的捕捉能力,提升了对复杂场景的理解能力. DFEM的输出特征通过RHASPP模块,在进一步扩大感受野的同时强化提取局部特征,提升了模型的目标分割能力. 在解码器部分,浅层特征通过1×1卷积调整通道数,再与经过双线性插值上采样的深层特征进行融合. 融合后的特征通过3×3卷积以及4倍上采样后得到分割结果.

图 1

图 1   井下轨道区域高精度实时分割网络总体架构图

Fig.1   Overall architecture diagram of high-precision real-time segmentation network for underground track areas


1.2. 基于Sobel算子的多尺度边缘增强模块

在语义分割中,多尺度信息和边缘信息非常重要,利用好它们能够有效增强分割模型特征提取并提高模型泛化的能力. 在SMEEM结构中,从主干网络获取的浅层特征先分别通过4组不同尺度的自适应平均池化生成不同分辨率的特征图,再分别通过2组卷积提取跨尺度特征;每个尺度的特征随后通过基于Sobel算子的边缘信息提取模块(Sobel-based edge information extraction module, SEIEM)处理. SEIEM为双分支结构,用于提取和增强输入特征的边缘信息. Sobel卷积核在水平方向和垂直方向计算特征梯度,生成边缘增强的特征表示. 输入特征为$ \boldsymbol{X}\in {{R}}^{C\times H\times W} $,其中CHW分别为通道数、高度和宽度,水平梯度和垂直梯度分别表示为

$ {{\boldsymbol{G}}}_{\textit{x}}={\boldsymbol{X}}\ast {{\boldsymbol{K}}}_{\textit{x}},\;\;{{\boldsymbol{G}}}_{\textit{y}}={\boldsymbol{X}}\ast {{\boldsymbol{K}}}_{\textit{y}}. $

式中:$ {{\boldsymbol{G}}}_{\textit{x}} $$ {{\boldsymbol{G}}}_{\textit{y}} $分别为水平和垂直的梯度;$ {{\boldsymbol{K}}}_{x} $$ {{\boldsymbol{K}}}_{y} $分别为水平和垂直方向的Sobel卷积核,

$ {\boldsymbol{K}}_{{x}}=\left[\begin{matrix}{1} & {2} & {1}\\{0} & {0} & {0}\\-{1} & -{2} & -{1}\end{matrix}\right],\;\;{\boldsymbol{K}}_{{y}}=\boldsymbol{K}_{{x}}^{{{\mathrm{T}}}}. $

最终输出的特征G为水平梯度和垂直梯度的加权和:

$ {\boldsymbol{G}}={{\boldsymbol{G}}}_{x}+{{\boldsymbol{G}}}_{y}=\left({\boldsymbol{X}}\ast {{\boldsymbol{K}}}_{x}\right)+\left({\boldsymbol{X}}\ast {{\boldsymbol{K}}}_{y}\right). $

Sobel卷积采用3D卷积层完成梯度计算,并由groups参数实现多通道输入的逐通道处理,保证对高维特征的适配性. 池化分支采用池化核为1的最大池化捕获全局信息,补偿边缘提取分支在空间尺度上的局限性. 将2个分支的输出在通道维度拼接后,再通过卷积进行降维,生成丰富的特征表示. 原始输入特征由3×3卷积提取局部特征,再与经过SEIEM后的特征对齐,在通道维度拼接后,通过1×1卷积进一步融合,生成最终的输出.

1.3. 双域融合增强模块

DFEM能够更好地利用输入特征的时域空间结构信息与频域全局信息,Scharr算子的时域处理与傅里叶变换的频域操作使输入特征的表达能力增强,模型在复杂场景下的分割性能得到提升. 边缘信息是捕获局部细节的重要特征,能够有效描述图像的几何结构和纹理细节. 本研究采用Scharr算子提取边缘信息,增强特征对局部梯度变化的感知能力;采用Scharr算子的水平和垂直卷积核$ {{\boldsymbol{N}}}_{{x}} $$ {{\boldsymbol{N}}}_{{y}} $来分别计算水平和垂直梯度:

$ {{\boldsymbol{N}}_x} = \left[ {\begin{array}{*{20}{c}}3&0&{ - 3}\\{10}&0&{ - 10}\\3&0&{ - 3}\end{array}} \right],\;\;{{\boldsymbol{N}}_y} = {\boldsymbol{N}}_x^{\mathrm{T}}.$

水平和垂直梯度分别表示为

$ {{\boldsymbol{E}}_x} = {\boldsymbol{X}} * {{\boldsymbol{N}}_x},\;\;{{\boldsymbol{E}}_y} = {\boldsymbol{X}} * {{\boldsymbol{N}}_y}. $

结合水平和垂直梯度信息,最终的边缘增强特征表示为

${\boldsymbol{E}} = \alpha {{\boldsymbol{E}}_x} + \beta {{\boldsymbol{E}}_y}. $

式中:$ \alpha $$ \beta $为可调权重,取$ \alpha $$ \beta $=0.5. Scharr卷积输出的特征$ {\boldsymbol{E}} $与输入特征$ {\boldsymbol{X}} $通过跳跃连接进行融合,随后经过2次卷积操作生成时域特征$ {{\boldsymbol{F}}}_{\text{spa}} $. 该过程在保留原始特征结构信息的同时,进一步优化边缘特征的表达. 在频域特征提取部分,输入特征$ {\boldsymbol{X}} $由快速傅里叶变换转换到频域以捕获全局频率信息. 傅里叶变换公式为

$ F\left({\boldsymbol{X}}\right)\left(\mu ,\upsilon \right)=\sum\limits_{x=0}^{H-1}\sum\limits_{y=0}^{W-1}{\boldsymbol{X}}\left(x,y\right){\text{e}}^{-{\mathrm{j}}\text{2π}\left(\frac{\mu x}{H}+\frac{\upsilon y}{W}\right)}. $

式中:$ \mu $$ \upsilon $均为频域中的位置坐标. 对于输入$ {\boldsymbol{X}} $,傅里叶变换结果为复数矩阵:

$ {{\boldsymbol{X}}}_{\text{fft}}=F\left({\boldsymbol{X}}\right). $

将实部和虚部分离:

$ {{\boldsymbol{X}}}_{\text{rea}}=R\left({{\boldsymbol{X}}}_{\text{fft}}\right),\;\;{{\boldsymbol{X}}}_{\text{ima}}=S\left({{\boldsymbol{X}}}_{\text{fft}}\right). $

实部与虚部特征拼接后进行频域卷积操作:

$ {{\boldsymbol{F}}}_{\text{fre}}={\mathrm{Concat}}\left({{\boldsymbol{X}}}_{\text{rea}},{{\boldsymbol{X}}}_{\text{ima}}\right), $

$ {\boldsymbol{F}}_{\text{fre}}^{\prime}={\mathrm{Con}}{{\mathrm{v}}}_{\text{fft}}\left({{\boldsymbol{F}}}_{\text{fre}}\right). $

频域卷积后的特征再通过逆傅里叶变换返回时域,重构频域增强后的特征:

$ {F}^{-1}\left({\boldsymbol{F}}_{\text{fre}}^{\prime}\right)\left(x,y\right) =\frac{1}{HW}\sum\limits_{u=0}^{H-1}\sum\limits_{v=0}^{W-1}{\boldsymbol{F}}_{\text{fre}}^{\prime}\left(\mu ,\upsilon \right){\text{e}}^{{\mathrm{j}}\text{2π}\left(\frac{ux}{H}+\frac{vy}{W}\right)}, $

$ {{\boldsymbol{X}}}_{\text{iff}}={F}^{-1}\left({\boldsymbol{F}}_{\text{fre}}^{\prime}\right). $

时域特征$ {{\boldsymbol{F}}}_{\text{spa}} $和频域特征$ {{\boldsymbol{F}}}_{\text{iff}} $通过逐元素加以及1×1卷积进行融合,得到输出特征:

$ {{\boldsymbol{F}}}_{\text{out}}={\mathrm{Con}}{{\mathrm{v}}}_{\text{fin}}\left({{\boldsymbol{F}}}_{\text{spa}}+{{\boldsymbol{F}}}_{\text{iff}}\right). $

1.4. 感受野混合空洞空间金字塔池化模块

虽然ASPP通过空洞卷积将感受野扩展,但在煤矿井下复杂的场景下,空洞卷积的感受野可能不均衡,导致局部区域的信息提取不充分. 密集连接空洞空间金字塔池化(DenseASPP)引入稠密连接,有效提升了特征融合能力和多尺度上下文信息的捕获,但在感受野的扩展上存在冗余且计算复杂度较高的问题. RHASPP模块能够较好处理复杂结构的矿井轨道图像. 如图2所示,RHASPP模块采用混合空洞卷积(hybrid dilated convolution, HDC)策略对DenseASPP的稠密连接空洞卷积进行改进,将空洞卷积层数增加到6层,并设计2组叠加的HDC. 为了模拟人类视觉的感受野以加强网络的特征提取能力,设置卷积层中的空洞率$d\in ${1,3,5,1,3,5}. 如图3所示为RHASPP模块覆盖的感受野尺寸. 空洞卷积是基于卷积核$ K $和空洞率$ r $的操作,感受野计算式为

图 2

图 2   感受野混合空洞空间金字塔池化网络结构示意图

Fig.2   Network structure diagram of receptive-field hybrid atrous spatial pyramid pooling


图 3

图 3   感受野混合空洞空间金字塔池化的感受野大小示意图

Fig.3   Receptive field size diagram of receptive-field hybrid atrous spatial pyramid pooling


$ {R}_{\text{dil}}=K+\left(K-1\right)\times \left(r-1\right). $

设置$ r $∈{1,3,5,1,3,5},即采用6个不同的空洞率组合,感受野大小为37. $ r $=1的卷积操作能够保留较小的局部特征,适合捕捉图像中的细节信息;$ r $=3、5的卷积操作扩大了感受野,能够较好捕捉图像中的全局上下文信息. RHASPP模块的这种锯齿状的结构设计,使模块能够适应煤矿井下轨道图像中的各种复杂场景,加深网络对于矿井轨道图像的上下文理解能力.

1.5. 混合分割损失函数

在语义分割任务中,损失函数可以在训练过程中更好地优化模型的性能. 本研究提出混合分割损失,使网络能够在复杂环境中更好地学习特征并提升分割精度. 交叉熵损失函数是分割任务中常用的损失函数,通过计算每个像素预测类别与真实类别的差异来优化模型参数,表达式为

$\begin{split}{\psi }_{\text{CE}}= & -{\displaystyle\sum}_{m,n}\left(Y\left(m,n\right){\mathrm{lb}} \left(X\left(m,n\right)\right)+ \right.\\ & \left. \left(1-Y\left(m,n\right)\right){\mathrm{lb}} \left(1-X\left(m,n\right)\right)\right).\end{split} $

式中:$ X\left(m,n\right) $为模型在像素位置(m,n)处的预测概率,$ Y\left(m,n\right) $为该位置的真实标签. 交叉熵损失能够对每个像素进行分类训练,但当数据不平衡时,尤其是在背景较复杂的情况下,它的处理效果较差. 为此,将焦点损失与交叉熵损失相结合,以进一步优化模型对难分类像素的学习能力. 焦点损失引入调节因子来增加难分类样本的损失,抑制易分类样本的损失,表达式为

$ {\psi }_{\text{FL}}=-\alpha {\left(1-{p}_{t}\right)}^{\gamma }{\mathrm{lb}} \left({p}_{t}\right). $

式中:$ {p}_{t} $为预测的正确类别概率,$ \alpha $为平衡因子,$ \gamma $为焦点调节因子. 焦点损失能够减轻类别不平衡的影响,特别是在井下轨道图像中有背景噪声的情况下,能够聚焦难分类区域,提高模型的学习效果. Dice损失通过计算预测结果与真实标签的重叠度来优化模型,通常用于增强分割任务中的精度,表达式为

$ {\psi }_{\text{Dic}}=1-\frac{2{\displaystyle\sum}_{m,n}X\left(m,n\right)Y\left(m,n\right)+\varepsilon }{{\displaystyle\sum}_{m,n}X\left(m,n\right)+{\displaystyle\sum}_{m,n}Y\left(m,n\right)+\varepsilon }. $

式中:$ X\left(m,n\right) $$ Y\left(m,n\right) $分别为预测和真实标签在像素位置$ \left(m,n\right) $处的值,$ \varepsilon $为平滑项,用于避免除以零的情况. 将3个损失函数进行加权组合,形成混合分割损失函数,表达式为

$ \psi ={\lambda }_{1}{\psi }_{\text{CE}}+{\lambda }_{2}{\psi }_{\text{FL}}+{\lambda }_{3}{\psi }_{\text{Dic}}. $

式中:$ {\psi }_{\text{CE}} $$ {\psi }_{\text{FL}} $$ {\psi }_{\text{Dic}} $为对应损失函数的权重系数. 在训练时,通过cls_weights参数设置均衡的权重,保证模型学到的权重在推理时能够稳定地预测每个类别,避免某个类别由于权重过大或过小导致预测偏差,确保所有类别的预测准确性.

2. 实验与分析

2.1. 矿井轨道分割数据集

由于没有现成的矿井轨道数据集可以使用,本研究针对矿井下巷道环境构建名为矿井轨道分割数据集的语义分割数据集,以服务于矿井电机车的自动驾驶. 在收集数据之前,仔细选择收集数据的方法和地点;为了尽可能多地获取不同场景下的巷道环境图像,调研多个矿井并获取井下电机车车顶前部的大华摄像仪视频数据. 数据采集获得大量的地下环境图像,为了避免出现过多单一场景的图像数据导致的网络泛化能力差的问题,在截取轨道图像数据时,选择截取多场景下、差异性较大的轨道图像,并去除截取的光线过强或过弱以及模糊不清的图像. 自建数据集共包含1 500帧多场景、具有代表性、图像大小为960×720的图像数据,如图4所示为数据集中各类场景的占比情况. 在注释图像的过程中,利用图像处理软件对弱光图像进行亮度和对比度调整,以增强图像中的目标清晰度. 组织4名标注人员和3名智慧矿山领域专家共同完成数据集的标注工作. 每张图像由1名标注人员和2名专家进行标注和审查,确保标注类别的准确性;由1名专家检查所有标注的图像. 如图5所示,数据集的图像标注区域根据井下巷道环境分类,包括左安全区、轨道和右安全区.

图 4

图 4   矿井轨道分割数据集的数据分布统计图

Fig.4   Data distribution statistics figure for mine-track segmentation dataset


图 5

图 5   矿井轨道分割数据集的图像与标签

Fig.5   Image and label of mine-track segmentation dataset


2.2. 模型性能评价指标

采用实时分割网络中常用的评估指标进行所提模型的性能检测,包括平均交并比mIoU、帧率FPS和参数量np. mIoU为模型分割预测结果和真实结果的交集与并集的比值,表达式为

$ \text{MIoU}=\frac{1}{k+1}\sum\limits_{i=0}^{k}\frac{{p}_{ij}}{\displaystyle\sum\limits_{j=0}^{k}{p}_{ij}+\displaystyle\sum\limits_{j=0}^{k}{p}_{ii}}. $

式中:$ {p}_{ij} $为真实类别为${i} $被预测为$ {j} $的样本个数,k为不加背景的类别数,$ k+1 $为总的类别数,$ {p}_{ii} $为真实类别为$ {i} $且被正确预测的样本数. mIoU数值越大,代表该模型图像分割精度越高;帧率越大,表示该模型实时性越高.

2.3. 实验环境及相关参数设置

基于PyTorch框架构建HPRTSNet,所有实验均在24 GB内存的NVIDIA GeForce RTX3090 GPU上进行,软件环境为PyCharm2023、Pytorch1.11、Python3.8、CUDA11.3. 在HPRTSNet训练过程中,设置学习率为0.007,优化器为SGD,优化器内部使用的动量参数为0.9. 设置批量大小为8,训练总轮数为500.

2.4. 模块消融实验

开展消融实验验证所提模型各个模块的有效性. 模型的训练与验证在矿井轨道分割数据集上进行,基线网络为DeeplabV3+(主干网络为MobileNetV2),依次添加模块,实验结果如表1所示. 可以看出,在浅层特征后添加SMEEM,平均交并比提升了1.15个百分点,表明SMEEM能够充分学习目标的边缘信息以补充网络丢失的边缘信息. 在深层特征后添加DFEM,平均交并比提升了1.85个百分点,证实了DFEM可以在一定程度上解决基线网络忽略目标局部特征的问题. 将原有的ASPP结构替换为RHASPP模块后,mIoU提升了1.49个百分点,说明RHASPP可以更好地扩大感受野. 当仅采用改进后的损失函数时,mIoU由原来的89.07%提高至89.66%,证实了混合分割损失可以在矿井轨道分割数据集上提升模型在复杂井下环境中的分割性能. 对比添加不同模块的网络平均交并比可以看出,添加SMEEM和DFEM对网络性能的提升效果最好, mIoU比基线模型提升了2.72个百分点. HPRTSNet集合所有模块,mIoU最高,为92.44%.

表 1   矿井轨道分割数据集上的模块消融实验

Tab.1  Ablation results of proposed modules on mine-track segmentation dataset

基线模型SMEEMDFEMRHASPP
模块
混合分割
损失函数
mIoU/%
DeeplabV3+
(MobileNetV2)
89.07
90.22
90.92
90.56
89.66
91.79
91.55
91.13
92.04
92.44

新窗口打开| 下载CSV


图6所示为基线网络添加混合分割损失函数前后损失值随迭代轮次的变化情况,其中E为迭代次数,$ {L}_{\text{h}} $为混合分割损失,$ {L}_{\text{o}} $原分割损失. 可以看出,随着迭代次数的增加,采用混合分割损失的网络收敛速度更快,更为平缓,且较基线网络降低更为显著.

图 6

图 6   添加混合分割损失函数前后的模型分割损失对比

Fig.6   Segmentation loss comparison before and after incorporating hybrid segmentation loss function


2.5. 模型性能对比分析

对比所提模型与主流分割方法分割性能,其中所提模型在训练过程中使用在PASCAL VOC2012数据集上预训练的权重进行初始化,以加速收敛并提升模型性能,其他对比模型使用官方提供的预训练权重进行初始化,结果如表2所示. 可以看出,与ESPNet相比,HPRTSNet的mIoU大幅提升,FPS=23.5 帧/s,np=9.88×106,完全满足矿山设备实时性需求. 与ESPNet相比,HPRTSNet的mIoU提升了11.93个百分点;ESPNet以降低mIoU为代价,实现了最小的参数量. YOLOv10n的帧率最高,为44.4 帧/s,mIoU比HPRTSNet的降低了5.84个百分点. DFANet与HPRTSNet的参数量和帧率相近,相比之下,HPRTSNet的mIoU提升了7.94个百分点. 在非实时性分割方法方面,虽然HPRTSNet的mIoU略低于SegFormer-B2,但是参数量和帧率均优于SegFormer-B2;与U-Net、PSPNet和HRNet等方法相比,HPRTSNet的mIoU分别提升了13.55、8.98和3.15个百分点. 对比结果证明了HPRTSNet的可靠性和有效性,所提模型能够有效地平衡图像分割的速度和准确性.

表 2   不同模型在矿井轨道分割数据集上的性能参数对比

Tab.2  Performance metrics comparison of various models on mine-track segmentation dataset

模型骨干名称np/106mIoU/%FPS(帧·s−1
Fast-SCNN[9]1.4481.7521.7
DFANet[10]7.8084.5023.2
ESPNet[11]ESP2.7580.5129.6
BiSeNetv1[12]ResNet184.9086.2131.3
STDC[13]STDC18.2988.1819.2
SFNet[14]ResNet1813.8187.3315.2
PP-LiteSeg-B[15]STDC212.2590.3417.1
RTFormer-Base[16]16.8791.7117.3
YOLOv10n[17]CSPNet5.7086.6044.4
U-Net[18]Vgg24.8978.89
PSPNet[19]ResNet5046.7183.46
HRNet[20]HRNet_W3229.5489.29
DeeplabV3+[21]Xception54.7193.95
SegFormer-B2[22]MiT-B227.3584.20
HPRTSNetMobileNetV29.8892.4423.5

新窗口打开| 下载CSV


2.6. 模型性能定性分析

在测试集中对比不同模型在实际场景中的分割效果,结果如图7所示,其中框线标记的是分割效果欠佳的部分. 可以看出,HPRTSNet在自建矿井轨道分割数据集上比其他分割模型的分割结果好,并且边缘处理更加准确;BiseNetv1的分割掩码出现分割不完整的情况且边缘粗糙;PP-LiteSeg-B处理轨道边缘的效果欠佳,该模型的分割效果不如HPRTSNet. 此外,HPRTSNet在识别地下巷道的轨道区域及其周边环境的准确性比其他模型高,且边缘的处理效果较为理想. 对比实验结果证明了所提模型的有效性和鲁棒性.

图 7

图 7   不同模型在矿井轨道分割数据集上的分割效果对比

Fig.7   Segmentation effect comparison of various models on mine-track segmentation dataset


3. 结 语

为了解决复杂背景下煤矿井下轨道区域在低光照条件下分割精度不足、边缘区域分割不完整的问题,本研究提出高精度实时分割网络HPRTSNet. HPRTSNet以MobileNetV2为主干,通过SMEEM增强浅层特征对轨道边缘的表达能力;在网络深层特征部分,DFEM结合双域信息,增强对复杂背景的理解能力;RHASPP模块改进空洞卷积结构,更好捕获局部特征信息并优化特征融合,增强了上下文信息的相关性;设计混合分割损失优化边缘细节分割,解决了类别不平衡的问题. HPRTSNet在自建矿井轨道分割数据集上性能良好,在分割精度、推理速度及参数量等方面优于主流方法,为煤矿井下复杂场景中的无人驾驶轨道分割提供了高效、稳定的解决方案. HPRTSNet仍存在优化空间,尤其是在极端光照条件和更高效的嵌入式设备部署中. 未来的工作将专注于降低模型计算复杂度,并探索分割结果在井下轨道异常检测和自主分析中的应用价值.

参考文献

童佳乐. 基于改进实例分割的煤矿电机车障碍物检测技术研究 [D]. 淮南: 安徽理工大学, 2023: 1–102.

[本文引用: 1]

TONG Jiale. Research on obstacle detection technology of coal mine electric locomotive based on improved instance segmentation [D]. Huainan: Anhui University of Science and Technology, 2023: 1–102.

[本文引用: 1]

杨豚, 郭永存, 王爽, 等

煤矿井下无人驾驶轨道电机车障碍物识别

[J]. 浙江大学学报: 工学版, 2024, 58 (1): 29- 39

[本文引用: 2]

YANG Tun, GUO Yongcun, WANG Shuang, et al

Obstacle recognition of unmanned rail electric locomotive in underground coal mine

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (1): 29- 39

[本文引用: 2]

卫星, 刘邵凡, 杨国强, 等

基于改进双边分割网络的井下轨道检测算法

[J]. 计算机应用研究, 2020, 37 (Suppl.1): 348- 350

[本文引用: 1]

WEI Xing, LIU Shaofan, YANG Guoqiang, et al

An underground track detection algorithm based on improved bilateral segmentation network

[J]. Application Research of Computers, 2020, 37 (Suppl.1): 348- 350

[本文引用: 1]

周华平, 郑锐

基于改进BiSeNet的煤矿井下轨道检测算法

[J]. 湖北民族大学学报: 自然科学版, 2021, 39 (4): 398- 403

DOI:10.13501/j.cnki.42-1908/n.2021.12.007      [本文引用: 1]

ZHOU Huaping, ZHENG Rui

Underground rail detection algorithm based on improved BiSeNet

[J]. Journal of Hubei MinZu University: Natural Sciences Edition, 2021, 39 (4): 398- 403

DOI:10.13501/j.cnki.42-1908/n.2021.12.007      [本文引用: 1]

TONG J, WANG S, GUO Y, et al

Obstacle detection method of underground electric locomotive rail based on instance segmentation

[J]. Transportation Research Record: Journal of the Transportation Research Board, 2024, 2678 (6): 708- 723

DOI:10.1177/03611981231198842      [本文引用: 1]

PIRASTEH S, VARSHOSAZ M, BADRLOO S, et al

Developing an expansion-based obstacle detection using panoptic segmentation

[J]. Journal of Field Robotics, 2024, 41 (5): 1245- 1264

[本文引用: 1]

YANG T, GUO Y, LI D, et al

Vision-Based obstacle detection in dangerous region of coal mine driverless rail electric locomotives

[J]. Measurement, 2025, 239: 115514

DOI:10.1016/j.measurement.2024.115514      [本文引用: 1]

马天, 石妍, 石炜璐, 等

基于非对称编解码结构的井下轨道异物分割方法

[J]. 光电子·激光, 2026, 37 (1): 10- 20

DOI:10.16136/j.joel.2026.01.0453      [本文引用: 1]

MA Tian, SHI Yan, SHI Weilu, et al

Foreign object segmentation method of underground track based on asymmetric codec structure

[J]. Journal of Optoelectronics · Laser, 2026, 37 (1): 10- 20

DOI:10.16136/j.joel.2026.01.0453      [本文引用: 1]

POUDEL R P K, LIWICKI S, CIPOLLA R. Fast-SCNN: fast semantic segmentation network [EB/OL]. (2019–02–12)[2025–01–11]. https://arxiv.org/pdf/1902.04502.

[本文引用: 1]

LI H, XIONG P, FAN H, et al. DFANet: deep feature aggregation for real-time semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 9514–9523.

[本文引用: 1]

WATANABE S, HORI T, KARITA S, et al. ESPnet: end-to-end speech processing toolkit [C]// Proceedings of the Interspeech 2018. [S.l.]: ISCA, 2018: 2207–2211.

[本文引用: 1]

YU C, WANG J, PENG C, et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation [C]// Computer Vision – ECCV 2018. [S.l.]: Springer, 2018: 334–349.

[本文引用: 1]

FAN M, LAI S, HUANG J, et al. Rethinking BiSeNet for real-time semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 9711–9720.

[本文引用: 1]

LEE J, KIM D, PONCE J, et al. SFNet: learning object-aware semantic correspondence [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 2273–2282.

[本文引用: 1]

PENG J, LIU Y, TANG S, et al. PP-LiteSeg: a superior real-time semantic segmentation model [EB/OL]. (2022–04–06)[2025–01–11]. https://arxiv.org/pdf/2204.02681.

[本文引用: 1]

WANG J, GOU C, WU Q, et al. RTFormer: efficient design for real-time semantic segmentation with transformer [EB/OL]. (2022–10–13)[ 2025–01–11]. https://arxiv.org/pdf/2210.07124.

[本文引用: 1]

WANG A, CHEN H, LIU L, et al. YOLOv10: real-time end-to-end object detection [EB/OL]. (2024–10–30)[2025–01–11]. https://arxiv.org/pdf/2405.14458.

[本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention. [S.l.]: Springer, 2015: 234–241.

[本文引用: 1]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6230–6239.

[本文引用: 1]

WANG J, SUN K, CHENG T, et al

Deep high-resolution representation learning for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3349- 3364

DOI:10.1109/TPAMI.2020.2983686      [本文引用: 1]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Computer Vision – ECCV 2018. [S.l.]: Springer, 2018: 833–851.

[本文引用: 1]

XIE E, WANG W, YU Z, et al. SegFormer: simple and efficient design for semantic segmentation with transformers [EB/OL]. (2021–10–28) [ 2025–01–11]. https://arxiv.org/pdf/2105.15203.

[本文引用: 1]

/