浙江大学学报(工学版), 2022, 56(1): 16-25 doi: 10.3785/j.issn.1008-973X.2022.01.002

计算机技术、信息与电子工程

旋转框定位的多尺度再生物品目标检测算法

董红召,, 方浩杰, 张楠

浙江工业大学 智能交通系统联合研究所,浙江 杭州 310014

Multi-scale object detection algorithm for recycled objects based on rotating block positioning

DONG Hong-zhao,, FANG Hao-jie, ZHANG Nan

ITS Joint Research Institute, Zhejiang University of Technology, Hangzhou 310014, China

收稿日期: 2021-11-25  

基金资助: 国家自然科学基金资助项目(61773347);浙江公益技术研究项目(LGF19F030001)

Received: 2021-11-25  

Fund supported: 国家自然科学基金资助项目(61773347);浙江公益技术研究项目(LGF19F030001)

作者简介 About authors

董红召(1969—),男,教授,从事智能交通、智能机电系统的研究.orcid.org/0000-0001-5905-597X.E-mail:its@zjut.edu.cn , E-mail:its@zjut.edu.cn

摘要

针对传统目标检测算法未考虑实际分拣场景目标物形态尺度的多样性,无法获取旋转角度信息的问题,提出基于YOLOv5的改进算法MR2-YOLOv5. 通过添加角度预测分支,引入环形平滑标签(CSL)角度分类方法,完成旋转角度精准检测. 增加目标检测层用于提升模型不同尺度检测能力,在主干网络末端利用Transformer注意力机制对各通道赋予不同的权重,强化特征提取. 利用主干网络提取到的不同层次特征图输入BiFPN网络结构中,开展多尺度特征融合. 实验结果表明,MR2-YOLOv5在自制数据集上的均值平均精度(mAP)为90.56%,较仅添加角度预测分支的YOLOv5s基础网络提升5.36%;对于遮挡、透明、变形等目标物,均可以识别类别和旋转角度,图像单帧检测时间为0.02~0.03 s,满足分拣场景对目标检测算法的性能需求.

关键词: 再生物品检测 ; YOLOv5 ; 旋转框检测 ; 环形平滑标签 ; 特征金字塔 ; 注意力机制

Abstract

An improved algorithm MR2-YOLOV5 based on YOLOv5 was proposed aiming at the problem that the traditional target detection algorithm did not consider the diversity of the target shape scale in the actual sorting scene and could not obtain the rotation angle information. Precise rotation angle detection was completed by adding angle prediction branches and introducing angle classification method of ring smooth label (CSL). The target detection layer was added to improve the detection ability of different scales of the model. Transformer attention mechanism was used at the end of the backbone network to give different weights to each channel and strengthen feature extraction. The feature graphs of different levels extracted from the backbone network were input into the BiFPN network structure to conduct multi-scale feature fusion. The experimental results showed that the mean average precision (mAP) of MR2-YOLOV5 on the self-made data set was 90.56%, which was 5.36% higher than that of YOLOv5s with only angle prediction branch. Categories and rotation angles can be recognized for objects such as occlusion, transparent and deformation. The detection time of single frame is 0.02-0.03 s, which meets the performance requirements of target detection algorithm for sorting scenes.

Keywords: detection of recycled goods ; YOLOv5 ; rotating frame detection ; circular smooth label ; feature pyramid ; attentional mechanism

PDF (1360KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

董红召, 方浩杰, 张楠. 旋转框定位的多尺度再生物品目标检测算法. 浙江大学学报(工学版)[J], 2022, 56(1): 16-25 doi:10.3785/j.issn.1008-973X.2022.01.002

DONG Hong-zhao, FANG Hao-jie, ZHANG Nan. Multi-scale object detection algorithm for recycled objects based on rotating block positioning. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(1): 16-25 doi:10.3785/j.issn.1008-973X.2022.01.002

利用机器视觉与自动化设备协同配合代替人工流水线再生物品分拣成为发展趋势[1-2]. 瓶罐状物通常由塑料、玻璃、金属等材质制成,外形均是柱状体,分拣时易出现误检. 同种材质瓶罐状物具有多样化形态结构和多尺度的外形尺寸,易发生变形、遮挡的问题,透明度较高时易与分拣背景混淆,目标物外形特征提取难度加大. 统目标检测算法受特定参数约束条件,降低了分拣对象检测的准确性,易出现漏检、误检. 利用目标检测算法获取平面坐标、旋转角度等位姿信息,结合激光束、接触传感器等确定执行机构下降高度,在满足机械手精准抓取的前提下,降低传统识别旋转角度设备的成本.

在再生物品图像识别的问题上,诸多学者展开研究. Yang等[3]提出轻量级神经网络WasNet. 陈智超等[4-5]提出MobileNet垃圾图像分类改进算法. Nie等[6]结合Faster R-CNN和ResNet50,完成垃圾图像识别、检测. Liang等[7]提出整合高、低层次的特征图,设计复合层CNN网络. 上述模型无法获取目标物旋转角度信息,缺乏考虑同类物体多形态、多尺度问题,缺少单一图像中多类目标的检测. 周滢慜[8]改进Faster-RCNN目标检测模型,调整原始VGG16分类网络,实现瓶子位置和旋转角度的识别. 数据集中瓶子的形态和尺度单一,缺乏考虑目标物之间遮挡、易发生变形等情况. 综上所述,现有再生物品目标检测算法无法同时满足实际分拣场景下位姿信息获取以及多形态、多尺度目标物的检测.

YOLO(you only look once)算法由Redmon等[9]提出, YOLOv5利用Mosaic数据增强、自适应锚框计算和图像缩放等方法,提高模型整体鲁棒性. Liu等[10]比较YOLO系列模型后表明,YOLOv5在mAP和检测速度方面具有较大优势. YOLOv5多尺度自适应锚框计算实现多尺度检测,符合再生物品实际分拣场景的性能需求,但缺乏角度预测.

诸多学者提出解决目标物角度预测问题的方法. 朱煜等[11]提出粗调与细调两阶段旋转框检测网络R²-FRCNN. Ding等[12]提出ROI-Transformer检测模型. Xu等[13]提出学习水平框转换为旋转框后4个点的偏移. Chen等[14]引入两阶段NMS算法,降低密集对象漏检率. Yang等提出旋转检测器SCRDet[15]、R3Det[16]. 上述基于回归方法实现旋转框检测,存在角度周期性(PoA)和边缘的交换性(EoE)问题. 针对该问题,Yang等[17]提出将物体角度预测视为分类问题,且为限制预测结果,设计环形平滑标签(circular smooth label,CSL),但该方法多用于遥感图像检测,无法直接迁移至分拣场景下的再生物品目标物角度检测.

结合上述问题与方法,提出基于YOLOv5旋转框定位的多尺度目标检测算法MR2-YOLOv5(multi-scale refined rotated YOLOv5),用于再生物品图像检测. 从以下4个方面对模型进行改进:1)将角度预测作为分类问题,引入环形平滑标签(CSL)角度分类方法,用于对目标物角度的精准预测;2)将检测层增加到4层,提升对不同尺度目标尤其是小目标的检测性能;3)在主干网络末端利用Transformer模块替换YOLOv5的C3模块的模型,加强特征提取;4)将原始PANet网络结构改进为BiFPN,进行多尺度的特征融合,以解决再生物品分拣场景下物品结构、尺度多样而导致的高漏检率、误检率的问题. 在形态尺度多样化的瓶罐状物自制数据集下,验证模型的各项改进方法.

1. MR2-YOLOv5模型

YOLOv5模型可以通过修改配置文件中dmwm 2个参数直接影响整体模型通道数以及主干网络瓶颈层模块数量,在不改变整体模型结构的前提下,产生4个具有梯度化性能的模型,分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x. MR2-YOLOv5模型的整体结构如图1所示,各模块结构如图2所示. 图中,m为输出特征图通道数. MR2-YOLOv5由主干网络、加强特征提取网络、检测网络3部分组成. 其中Conv模块中激活函数选择Swish函数,将CIoU损失函数作为边界框回归损失,CIoU损失函数定义如下:

图 1

图 1   MR2-YOLOv5网络结构

Fig.1   MR2-YOLOv5 network structure


图 2

图 2   MR2-YOLOv5各模块结构

Fig.2   MR2-YOLOv5 structure of each module


$ \left. {\begin{split} & {\rm{IoU}} = \frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}} , \\ &{{L_{{\rm{CIoU}}}} = 1 - {\rm{IoU}} + \frac{{{\rho ^2}({\boldsymbol{b}},{\text{ }}{{\boldsymbol{b}}^{{{\rm{gt}}}}})}}{{{c^2}}} + \alpha v },\hfill \\ & v = \frac{4}{{{{\text{π}}} ^2}}{\left(\arctan\; \frac{{{w^{{{{{\rm{gt}}}}}}}}}{{{h^{{{{{\rm{gt}}}}}}}}} - {\rm{arctan}}\;\frac{w}{h}\right)^2} . \end{split} } \right\} $

式中:IoU为预测框与真实框相交区域与交并区域面积的比值,AB分别为2个边界框的面积, ${\boldsymbol{b}}、{{\boldsymbol{b}}^{{{{{\rm{gt}}}}}}}$分别为预测框中心点坐标向量和真实框中心点坐标向量, $\;\rho ({\boldsymbol{b}},{{\boldsymbol{b}}^{{{{\rm{gt}}}}})}$为2个边界框中心点的欧氏距离, $ c $为预测框与真实框形成最小矩形区域的对角线长度, $ \alpha $为权重函数,v为预测框和真实框长宽比的相似度,wh为框的宽与高,gt表示真实框(ground truth).

1.1. 增加角度预测分支

针对机器人分拣过程中对于位姿信息的需求,在原模型的基础上添加角度预测分支. 由于长宽比较大的目标对于角度变化十分敏感,目前主流的角度回归方法均存在不连续边界问题,使模型损失值在处于边界情况下出现突增,导致该类检测方法在边界条件下检测准确率低[15]. 将目标物角度预测视为分类问题,设计符合再生物品分拣物理场景的环形平滑标签(CSL),增加相邻角度之间的误差容忍度. 修改后的CSL可视化表达如图3所示,CSL的具体表达式为

图 3

图 3   CSL示意图

Fig.3   CSL schematic diagram


$ {\rm{CSL}}(x) = \left\{ \begin{gathered} g(x),{\text{ }}\theta - r < x < \theta + r; \hfill \\ 0,{\text{ }}其他. \hfill \\ \end{gathered} \right. $

式中: $ g(x) $为窗口函数(本次选择高斯函数),r为窗函数的半径, $ \theta $为当前边界框的角度.

本次CSL角度为 $ [0^\circ ,180^\circ ) $,由于角度呈环形分布, $ 0^\circ $$ 180^\circ $结果相同. 旋转框参数表示为(rxryLS$ \theta $),其中rxry为目标中心点的横、纵坐标,L为目标框的较长边,S为目标框的较短边. 检测图片左上角作为原点, $ \theta $定义为X轴顺时针旋转至与目标框长边平行所经过的角度, $ \theta $的定义如图4所示. 结合目前YOLOv5模型中置信度损失及类别损失的计算方法,采用二分类交叉熵损失函数BCEWithLogitsLoss对角度损失进行计算. 具体定义如下:

图 4

图 4   角度定义示意图

Fig.4   Angle definition diagram


$ \left. {\begin{gathered} {\rm{loss}}\;(z,y) = {\rm{mean}}\left\{ {{l_0}, \cdots ,{l_{N - 1}}} \right\}, \hfill \\ {l_n} = {\rm{sum}}\left\{ {{l_{n,0}},{l_{n,1}}, \cdots, {l_{n,179}}} \right\}, \hfill \\ {l_{n,i}} = - [{y_{n,i}}{\rm{ln}}\;(\delta ({z_{n,i}})) + (1 - {y_{n,i}}){\rm{ln}}\;(1 - \delta ({z_{n,i}}))], \hfill \\ {y_{n,i}}{\text{ = }}{\rm{CSL}}(x). \hfill \\ \end{gathered}} \right\} $

式中:N为样本数量; $ i \in [0,180) $,共计180个类别; $ \delta $为sigmoid函数; $ {z_{n,i}} $为预测第n个样本为第i个角度的概率, $ {z_{n,i}}$的最大值为1,即预测值; $ {y_{n,i}} $为第n个样本在CSL(x)表达式下第i个角度的标签值,即真实值, $ {{{y}}_{n,i}} $的最大值为1. 将第n个样本的各个角度预测值与真实值依次代入 $ {l_{n,i}} $计算,第n个样本180个角度结果求和得到 $ {l_n} $,将N个样本的计算结果求平均,即为此次角度损失.

检测网络参数m为输出特征图通道数,具体定义如下:

$ m = ({n_{\rm{c}}} + 5 + \omega ){n_{\rm{a}}} . $

式中: ${n_{\rm{c}}}$为检测类别数; ${n_{\rm{a}}}$为锚框数量;5表示5个参数,分别指旋转框参数中的rxryLS及置信度; $ \omega $为角度分类数量.

此次检测类别数为3,锚框数量为3,角度 $ \theta $共分为180个类别,则 $ \omega {\text{ = }}180 $,可知输出特征图通道数 $ m = (3 + 5 + 180) \times 3{\text{ = 564}} $.

1.2. Transformer模块

将Transformer模块融入YOLOv5模型,可以提升高密度遮挡目标物的检测性能[18]. Transformer特征提取结构由2部分组成,分别是编码器(encoder)和解码器(decoder),由于仅进行图像识别,只须利用编码器进行特征提取. 利用主干网络对于图像进行特征提取,结合位置编码将其转换为序列,作为Transformer编码器的输入. Transformer编码器主要包括2个主要模块:多头注意力机制模块(multi-head attention)和前馈神经网络(MLP). LN(LayerForm)层和DP(Dropout)层可以防止网络过拟合,提高特征融合[19].

Transformer网络结合多个缩放点积注意力机制,形成多头注意力机制. 利用缩放点积注意力机制可以批量处理数据,表达式[20]

$ {\rm{attention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\rm{softmax}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}}}{{\sqrt {{d_{\rm{k}}}} }}\right){\boldsymbol{V}} . $

式中:QKV分别为查询向量、键向量、值向量, ${d_{\rm{k}}}$为输入数据维度.

多头注意力机制具有更高的运算效率,可以从不同的特征空间中学习自适应注意力分布,表达式为

$\left. \begin{gathered} {{\boldsymbol{h}}_i} = {\rm{attention}}({\boldsymbol{QW}}_i^Q,{\boldsymbol{KW}}_i^K,{\boldsymbol{VW}}_i^V), \hfill \\ {\boldsymbol{H}} = {\text{Concat}}({{\boldsymbol{h}}_1},{{\boldsymbol{h}}_2}, \cdots ,{{\boldsymbol{h}}_n}). \end{gathered} \right\} $

式中:参数矩阵 ${\boldsymbol{W}}_i^Q \in {{\mathbf{R}}^{{d_{{\rm{mod}}}} \times {d_{\rm{q}}}}}$${\boldsymbol{W}}_i^K \in {{\mathbf{R}}^{{d_{{\rm{mod}}}} \times {d_{\rm{k}}}}}$${\boldsymbol{W}}_i^V \in $ $ {{\mathbf{R}}^{{d_{{\rm{mod}}}} \times {d_{\rm{v}}}}}$,其中 ${d_{{\rm{mod}}}}$为向量维度.

MR2-YOLOv5主干网络末端利用3次Transformer网络运算替换YOLOv5原始的C3模块,该运算次数与dm参数相关联.

1.3. 增加检测层

过多的下采样层会导致图像中的小目标特征消失,导致网络无法学习到相应的特征,出现漏检、误检的情况. 原始YOLOv5网络的检测层尺度分别为20×20、40×40、80×80, MR2-YOLOv5保留原始检测尺寸,不降低原始尺度特征的学习能力,通过增加Concat层、卷积层、C3模块的方法,多进行了一次上采样和下采样,将主干网络中保留较多小目标特征信息的同尺度特征层输入Concat层,进行特征融合操作. 新增检测层对于小目标特征更敏感,虽然计算成本增加,但是模型检测性能提高. YOLOv5具有自适应锚框计算,会采用k均值和遗传算法对自定义数据集进行分析计算,获得该数据集各尺度所需的预测锚框. 最终的检测层尺度为20×20、40×40、80×80、160×160.

1.4. 多尺度特征融合网络

随着网络层数的加深,每一层网络都会在一定程度上造成特征丢失,增加检测分支和融合多尺度特征融合网络可以提升检测精度[21]. 目前已有的特征融合网络FPN[22]、PANet[23]、NAS-FPN[24]、BiFPN[25]等. 为了增强不同尺度的特征信息融合,将原始加强特征提取网络PANet结构改进为BiFPN结构,将主干网络中的多尺度特征图多次输入BiFPN结构中,开展自上而下和自下而上的多尺度特征融合;对于同尺度大小的特征层,利用跳跃连接的方式进行特征融合. MR2-YOLOv5的BiFPN自下而上的部分对2个同尺度特征进行融合,自上而下的结构对3个同尺度特征进行融合,在经过C3模块以及Conv2d模块计算后,对于4个不同的尺度目标进行预测. 利用BiFPN网络,使得预测网络对不同大小的目标更敏感,提升了整体的模型检测能力,降低了漏检率与误检率.

2. 实验结果与分析

基于pytorch深度学习框架构建MR2-YOLOv5模型,硬件配置如下:i7-8700K CPU,GTX1080Ti,32 GB内存. 将YOLOv5s网络作为整体研究的基础网络(即dm = 0.33,wm = 0.50),可以大幅度减少后续消融实验的训练时间,提高计算效率. 在添加角度预测分支后,模型参数量为7.55×106,计算量为1.8×1010 FLOPs. 采用CSL角度分类方法, $ \theta $$ [0^\circ ,180^\circ ) $.

2.1. 实验数据集制作及训练参数设置

现有研究均由自身搭建实验平台利用工业相机进行拍摄,但未考虑不同材质物体具有相似特征以及同材质物体具有多形态结构和多尺度外形的特点. 在实际的流水线分拣过程中,分拣物在流水线上的状态多变,随机性强,密度较高时易导致复杂背景,检测难度加大. 复杂背景与单一背景相比而言,当单个目标物处于单色的输送带或平台时,可以认为该目标物处于单一背景;当多目标物处于单色的输送带或平台时,由于目标物均带有颜色与形状特征,目标检测时容易相互干扰,可以认为目标物处于复杂背景.

针对上述情况,以瓶状物、罐状物为研究对象,搜集不同材质物品及同材质多种形态结构物品,模拟实际分拣物的多种随机性状况(竖放、平放、遮挡、弯曲变形等),利用移动端设备进行拍摄. 目标物的拍摄角度尽可能与分拣场景相同(正上方拍摄),拍摄场景与拍摄距离多样化,单张图片内可以包含多个目标物,使得数据集中的目标角度覆盖 $ [0^\circ ,180^\circ ) $. 拍摄场景选择为生活场景,生活场景下的图片背景较输送带或平台背景更复杂. 数据集共计3类再生物品,分别是金属罐状物(Cs)、塑料制品瓶装物(Pb)、玻璃制品瓶装物(Gb). 这3类物体的长宽比较大,对角度检测更敏感;外形具有相似特征,较多都是柱状物,塑料制品和玻璃制品的透明度较高,易与背景混淆,更能体现模型的性能. 数据集样本分布如下:Cs、Pb、Gb的样本数分别为1785、2360、2589. 数据集共包含6 064幅分辨率为1 280×720至1 920×1 080的可见光图像,其中4 964张作为训练集、550张作为验证集、550张为测试集,且较多图片中包含多类物体.

利用rolabelimg对数据集图片进行旋转框标注,图片左上角为原点,将上述3类物品的瓶口或开口左侧作为标注起始点,可视化处理后如图5所示. 标签参数定义为(CrxryLS$ \theta $),即在旋转框参数定义的基础上增加类别ID参数C. 将标注文件(xml格式)转换为所需的标签文件(txt格式),将rxryLS基于图像自身宽高进行归一化处理,多尺度数据集标签的尺寸分布情况如图6所示. 可知,数据集标签中存在大量的小目标物体以及较多的大目标物体,外形尺度跨度大. 对于传入数据,采用Mosaic数据增强方法,即对于传入图像进行随机翻转、缩放、裁剪等处理,将得到的图像进行依次拼接,大幅度提高了训练时目标背景的复杂度,使用Mosaic数据增强方法后的输入图像如图7所示. 模型训练采用SGD优化算法,参数设置如下:批量大小为8;最大迭代次数为200;图片输入尺寸为640×640;采用余弦退火策略动态调整模型训练的学习率,初始学习率设置为0.01.

图 5

图 5   旋转框标注示意图(圆点为标注起始点)

Fig.5   Rotation frame annotation schematic diagram (dot is starting point of annotation)


图 6

图 6   数据集标签分布情况

Fig.6   Data set label statistics and distribution


图 7

图 7   Mosaic数据增强方法后的输入图像

Fig.7   Input image after Mosaic data enhancement method


2.2. 实验结果分析

基于YOLOv5模型添加角度预测分支,采用CSL法对角度进行分类,其中窗口半径是影响整体模型性能的重要参数之一. 当窗口半径过小时,窗口函数趋向于脉冲函数,无法学习方向及比例信息. 当窗口半径过大时,预测结果的区分度过小. 针对上述问题,选择0~8的合适半径,如表1所示为基于YOLOv5s模型在各半径尺寸下的检测性能. 表中,mAP为均值平均精度. 可知,基于自制数据集,当r = 4时,YOLOv5s模型的检测性能最佳.

表 1   不同窗口半径下的检测性能比较

Tab.1  Comparison of detection performance under different window radii

模型 mAP/%
r = 0 r = 2 r = 4 r = 6 r = 8
YOLOv5s 68.79 82.47 84.20 81.20 79.94

新窗口打开| 下载CSV


在YOLOv5s模型的基础上增加角度预测分支(r = 4)以及其余参数设置相同的情况下,对当前主流多尺度特征融合网络FPN、PANet、BiFPN进行检测精度和参数量M比较. 从表2可知,传统FPN结构由于只进行单方向的特征融合,预测精度偏低;PANet结构采用简单的双向融合,在FPN基础上增加了从下而上的融合路径,明显提升了预测精度; BiFPN双向特征金字塔网络结构更复杂,将不同的特征层进行反复叠加,且BiFPN网络更侧重于多尺度特征融合,检测精度优于其他网络.

表 2   多尺度特征融合网络性能的比较

Tab.2  Performance comparison of multi-scale feature fusion network

多尺度融合网络 mAP/% M/106
FPN 81.05 6.52
PANet 84.20 7.55
BiFPN 85.36 7.83

新窗口打开| 下载CSV


为了分析各模块在MR2-YOLOv5网络中的作用,开展消融实验(见表3),研究各改进方法对YOLOv5模型的影响. 表3中,“−”表示不使用,“√”表示使用. 各模型均采用基于COCO数据集训练的YOLOv5s预训练权重,可以利用预训练权重进行初始化,避免过拟合现象,加速模型收敛.

表 3   基于YOLOv5s模型的消融实验

Tab.3  Ablation experiment based on YOLOv5s model

角度预测分支(CSL) 检测层 Transformer 融合网络 M/106 FLOPs/109 AP mAP/%
Cs Gb Pb
3 PANet 7.28 17.1 91.7 90.1 85.4 89.05
4 PANet 8.17 28.2 94.5 92.4 87.6 91.34
4 PANet 8.17 28.0 95.4 94.1 90.2 93.23
4 BiFPN 9.25 29.6 95.2 94.7 93.4 94.46
3 PANet 7.55 18.0 90.5 82.5 79.1 85.20
4 PANet 8.73 33.4 92.1 85.3 82.2 86.53
4 PANet 9.91 32.6 93.8 87.5 83.9 88.44
4 BiFPN 10.99 34.2 96.5 91.2 84.2 90.56

新窗口打开| 下载CSV


与未添加角度预测分支网络相比,添加各改进方法后的模型整体参数量和计算量均有不同程度的提升,但检测精度大幅提高,mAP达到94.46%,较YOLOv5s初始网络提高5.41%. 可见,各改进方法可以提升模型检测多形态、多尺度目标物的性能. 其中模型对塑料制品瓶状物的检测性能提升最明显,AP提升了8.0%,金属罐状物与玻璃制品瓶状物的AP均提升了4.5%.

与添加角度预测分支网络相比,将检测层增加到4层后,增加了不同尺度的预测网络,与3层检测网络相比,mAP提高了2.33%,但计算量增加了85.6%. 主干网络末端将原来的C3模块替换为Transformer模块,利用注意力机制对输入数据进行并行特征提取,对各通道赋予不同的权重,强化特征提取,mAP提高了1.91%,参数量提高了13.5%,但计算量下降了2.4%. 将多尺度特征融合网络改进为BiFPN,利用跳跃连接的方式,连接底层、高层特征,将多个同尺度的特征进行融合,提高了模型整体的特征学习能力,虽然参数量和计算量都小幅增大,但mAP提高了2.12%,整体模型的mAP达到90.56%,与仅添加角度预测分支的YOLOv5s模型相比,mAP提高了5.36%. 在添加角度分支后,利用各改进方法可以提升模型的性能,且MR2-YOLOv5参数量为10.99×106,在实际测试中检测单帧图片时间仅需0.02~0.03 s,满足分拣场景下对目标检测算法的性能需求.

对比各网络下的3种目标物检测精度可知,塑料制品与玻璃制品的瓶状物的AP均较低,尤其是塑料制品瓶状物的检测精度过低,影响整体的mAP. 主要原因是两者的透明度均较高,易与背景色重叠,且外形相似,易发生混淆,塑料制品瓶状物易发生变形,从而导致检测精度下降. 在模型改进后,对三者的检测性能均有不同程度的提高.

图89所示分别为不含角度预测分支与含角度预测分支的各改进网络在瓶状物数据集上的训练结果曲线. 图中,E为训练的迭代次数,L为训练损失. 从训练曲线可知,在添加角度分支后,由于角度损失函数的加入,各个模型训练损失收敛更加缓慢,但随着模型的改进,模型的收敛性提高. 无角度预测分支的各模型收敛速度更快,改进后模型的mAP与损失函数基本迭代至40次左右就趋向于平稳. 如图10所示为添加角度预测分支后的各模型验证集角度损失曲线. 由于窗口函数的设置,模型可以衡量预测标签和真相标签之间的角度距离,即在一定范围内越靠近真实值的预测值损失越小. 从图10可知,利用各改进方法可以提升角度预测精度. 利用各改进方法,可以加快模型损失收敛,提升模型精度. 如图11~14所示为MR2-YOLOv5的检测效果图,显示参数(从左至右)分别为该目标物类别、置信度、旋转角度. 可知,该模型对于多尺度目标(小目标至大目标),目标物遮挡、透明度较高、发生变形等情况均有出色的识别效果,可以检测旋转角度. 目标物发生遮挡、透明度较高、变形等情况,外形特征不完整或提取难度加大. MR2-YOLOv5可以提升此类情况下的目标物特征提取能力,降低漏检率和误检率,提高检测精度,可以检测目标物旋转角度.

图 8

图 8   各模型训练曲线(无角度预测分支)

Fig.8   Training curves of each model(without angle prediction branch)


图 9

图 9   各模型训练曲线(含角度预测分支)

Fig.9   Training curves of each model(including angle prediction branch)


图 10

图 10   各模型验证集的角度损失曲线

Fig.10   Angle loss curves of each model validation set


图 11

图 11   不同尺度目标物检测效果

Fig.11   Detection effects of different scales


图 12

图 12   多目标物遮挡情况下的检测效果

Fig.12   Detection effect under occlusion of multiple objects


图 13

图 13   目标物透明度较高情况下的检测效果

Fig.13   Detection effect under high target transparency


图 14

图 14   目标物发生变形情况下的检测效果

Fig.14   Detection effect in case of deformation of target


3. 结 论

(1)通过增加角度检测分支,引入CSL角度分类方法,完成对角度的精准预测. 通过实验,比较在自制数据集及YOLOv5s模型时不同窗口半径下的模型检测性能. 实验结果表明,当窗口半径为4时,模型检测性能最佳.

(2)以添加角度预测分支的YOLOv5s为基础,比较各多尺度特征融合网络在自制数据集下的性能. 实验结果表明,BiFPN网络结构更侧重于多尺度特征融合,检测精度优于其他网络结构.

(3)对添加角度预测分支、未添加角度预测分支的网络进行对比实验. 可知,利用各改进方法均可以提升模型性能. 添加角度预测分支的MR2-YOLOv5在自制数据集下mAP达到90.56%,整体模型参数量为10.99×106,实际测试中检测单帧图片的时间仅为0.02~0.03 s,满足分拣场景下对目标检测算法检测图像的速度要求,降低传统识别旋转角度设备的成本,为再生物品分拣提供新的思路.

(4)MR2-YOLOv5在复杂场景下有较好的检测性能,但由于是二维图像检测,旋转角度检测仅针对平铺目标物,堆叠物品难以提供准确的位姿信息,可以结合三维图像提高位姿信息检测. 当多个目标物重叠度过高时,会出现漏检情况. 可以尝试融入边界多边形实例分割,提高模型多目标重叠时的检测性能,使模型更符合再生物品分拣的场景.

参考文献

康庄, 杨杰, 郭濠奇

基于机器视觉的垃圾自动分类系统设计

[J]. 浙江大学学报:工学版, 2020, 54 (7): 1272- 1280

URL     [本文引用: 1]

KANG Zhuang, YANG Jie, GUO Hao-qi

Automatic garbage classification system based on machine vision

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (7): 1272- 1280

URL     [本文引用: 1]

谢先武, 熊禾根, 陶永, 等

一种面向机器人分拣的杂乱工件视觉检测识别方法

[J]. 高技术通讯, 2018, 28 (4): 344- 353

DOI:10.3772/j.issn.1002-0470.2018.04.008      [本文引用: 1]

XIE Xian-wu, XIONG He-gen, TAO Yong, et al

A method for visual detection and recognition of clutter workpieces for robot sorting

[J]. Chinese High Technology Letters, 2018, 28 (4): 344- 353

DOI:10.3772/j.issn.1002-0470.2018.04.008      [本文引用: 1]

YANG Z, LI D

Wasnet: a neural network-based garbage collection management system

[J]. IEEE Access, 2020, 8: 103984- 103993

DOI:10.1109/ACCESS.2020.2999678      [本文引用: 1]

陈智超, 焦海宁, 杨杰, 等

基于改进 MobileNet v2 的垃圾图像分类算法

[J]. 浙江大学学报:工学版, 2021, 55 (8): 1490- 1499

URL     [本文引用: 1]

CHEN Zhi-chao, JIAO Hai-ning, YANG Jie, et al

Garbage image classification algorithm based on improved MobileNet v2

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (8): 1490- 1499

URL     [本文引用: 1]

袁建野, 南新元, 蔡鑫, 等

基于轻量级残差网路的垃圾图片分类方法

[J]. 环境工程, 2021, 39 (2): 6

URL     [本文引用: 1]

YUAN Jian-ye, NAN Xin-yuan, CAI Xin, et al

Garbage image classification by lightweight residual network

[J]. Environmental Engineering, 2021, 39 (2): 6

URL     [本文引用: 1]

NIE Z, DUAN W, LI X

Domestic garbage recognition and detection based on Faster R-CNN

[J]. Journal of Physics: Conference Series, 2021, 1738 (1): 012089

DOI:10.1088/1742-6596/1738/1/012089      [本文引用: 1]

LIANG B, WANG Y, WANG Y, et al

Garbage sorting system based on composite layer cnn and multi-robots

[J]. Journal of Physics: Conference Series, 2020, 1634 (1): 012083

DOI:10.1088/1742-6596/1634/1/012083      [本文引用: 1]

周滢慜. 基于机器视觉的生活垃圾智能分拣系统的设计与实现 [D]. 哈尔滨: 哈尔滨工业大学, 2018.

[本文引用: 1]

ZHOU Ying-min. Design and implementation of visionbased Sorting system for solid waste [D]. Harbin: Harbin Institute of Technology, 2018.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[本文引用: 1]

LIU K, TANG H, HE S, et al. Performance validation of Yolo variants for object detection [C]// Proceedings of the 2021 International Conference on Bioinformatics and Intelligent Computing. Vancouver: [s. n. ], 2021: 239-243.

[本文引用: 1]

朱煜, 方观寿, 郑兵兵, 等. 基于旋转框精细定位的遥感目标检测方法研究 [EB/OL]. [2021-10-01]. http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.C200261.

[本文引用: 1]

ZHU Yu, FANG Guan-shou, ZHENG Bing-bing, et al. Research on detection method of refined rotated boxes in remote sensing [EB/OL]. [2021-10-01]. http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.C200261.

[本文引用: 1]

DING J, XUE N, LONG Y, et al. Learning roi transformer for oriented object detection in aerial images [C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Bench: IEEE, 2019: 2849-2858.

[本文引用: 1]

XU Y, FU M, WANG Q, et al

Gliding vertex on the horizontal bounding box for multi-oriented object detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43 (4): 1452- 1459

[本文引用: 1]

CHEN Y , DING W , LI H , et al. Arbitrary-oriented dense object detection in remote sensing imagery [C]// 2018 IEEE 9th International Conference on Software Engineering and Service Science. Beijing: IEEE, 2019: 436-440.

[本文引用: 1]

YANG X, YANG J, YAN J, et al. Scrdet: towards more robust detection for small, cluttered and rotated objects [C]// 2019 IEEE/CVF International Conference on Computer Vision. South Korea: IEEE, 2019: 8232-8241.

[本文引用: 2]

YANG X, LIU Q, YAN J, et al. R3det: refined single-stage detector with feature refinement for rotating object [EB/OL]. [2021-10-01]. https://arxiv.org/abs/1908.05612.

[本文引用: 1]

YANG X, YAN J, HE T. On the arbitrary-oriented object detection: classification based approaches revisited [EB/OL]. [2021-10-01]. https://arxiv.org/abs/2003.05597v3.

[本文引用: 1]

ZHU X, LIU S, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 2778-2788.

[本文引用: 1]

FU L, GU W, LI W, et al

Bidirectional parallel multi-branch convolution feature pyramid network for target detection in aerial images of swarm UAVs

[J]. Defence Technology, 2021, 17 (4): 1531- 1541

DOI:10.1016/j.dt.2020.09.018      [本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. Long Beach: [s. n], 2017: 5998-6008.

[本文引用: 1]

鲁博, 瞿绍军

融合BiFPN和改进Yolov3-tiny网络的航拍图像车辆检测方法

[J]. 小型微型计算机系统, 2021, 42 (8): 1694- 1698

DOI:10.3969/j.issn.1000-1220.2021.08.020      [本文引用: 1]

LU bo, QU Shao-jun

Vehicle detection method in aerial images based on BiFPN and improved Yolov3-tiny Network

[J]. Journal of Chinese Computer Systems, 2021, 42 (8): 1694- 1698

DOI:10.3969/j.issn.1000-1220.2021.08.020      [本文引用: 1]

LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 2117-2125.

[本文引用: 1]

LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8759-8768.

[本文引用: 1]

GHIASI G, LIN T Y, LE Q V. Nas-fpn: Learning scalable feature pyramid architecture for object detection [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7036-7045.

[本文引用: 1]

TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10781-10790.

[本文引用: 1]

/