聚焦难样本的区分尺度的文字检测方法
Scale differentiated text detection method focusing on hard examples
收稿日期: 2018-09-7
Received: 2018-09-7
作者简介 About authors
林泓(1965—),女,副教授,从事深度学习、语言编译研究.orcid.org/0000-0001-5599-2877.E-mail:
针对卷积神经网络中间特征层信息利用不充分,以及不区分尺度和难易样本的学习所导致的文字检测精度难以提高的问题,提出基于多路精细化特征融合的聚焦难样本的区分尺度的自然场景文字检测方法. 构建多路精细化的卷积神经网络融合层提取高分辨率特征图;按照文字标注矩形框的较长边的尺寸,将文字实例划分为3种尺度范围,并分布到不同的候选框提取网络中提取相应的候选框;设计聚焦损失函数对难样本进行重点学习以提高模型的表达能力并得到目标文字框. 实验表明,所提出的多路精细化特征提取方法在COCO-Text数据集上的文字召回率较高,聚焦难样本的区分尺度的文字检测方法在ICDAR2013、ICDAR2015标准数据集上的检测精度分别为0.89、0.83,与CTPN、RRPN等方法相比,在多尺度多方向的自然场景图像中具有更强的鲁棒性.
关键词:
The accuracy of text detection is difficult to improve due to the inadequate utilization of the information in middle feature layers of convolutional neural networks and the learning without distinction of different scales and hard-easy examples. Aiming at this problem, a text detection method for natural scene images based on multi-channel refined feature fusion was proposed, which focused on hard examples and could distinguish different scales. The fusion layers of multi-channel refined convolutional neural network were constructed to extract high resolution feature maps. According to the size of the longer side of text label rectangle boxes, the text instances were divided into three scale ranges, and distributed to different proposal networks to extract corresponding proposals. The focal loss function was designed to focus on learning hard examples to improve the expressive ability of the model and obtain the target text bounding boxes. Experiments showed that the text recall of the proposed multi-channel refined feature extraction method on COCO-Text datasets was high. The detection accuracies of the differentiated-scale text detection method focusing on hard examples on ICDAR2013 and ICDAR2015 standard datasets were 0.89 and 0.83, respectively. Compared with CTPN and RRPN, the proposed method has stronger robustness in multi-scale and multi-orientation natural scene images.
Keywords:
本文引用格式
林泓, 卢瑶瑶.
LIN Hong, LU Yao-yao.
基于深度学习的文字检测方法通常采用自底向上(down-top)的卷积神经网络[5-6](convolutional neural network,CNN)进行特征提取,CNN通过逐层卷积和池化操作实现降维和局部特征的提取. Tian等[7-11]均采用down-top结构进行特征提取,并选取最顶层的特征图进行文字候选区域定位. 然而,随着卷积和池化的逐层传播,特征图的分辨率逐层下降,逐渐丢失底层边角等细节信息,导致这些采用单层特征图进行文字候选区域定位的检测方法的精度难以提高. Zhou等[12-15]针对down-top结构进行改进,采用在down-top基础上增加自顶向下(top-down)反向融合特征图的方式,构建具有更高分辨率的特征图,有效提高文字检测的精度. 然而,在自然场景图像中文字尺度变化范围较大,这些方法使用单一的特征融合层对文字进行不区分尺度的检测,没有充分利用中间层特征,不能较好地解决文字的多尺度问题. Shrivastava等[16]针对两阶段目标检测[17]随机选取正负样本导致样本学习不充分的问题,提出在线难样本挖掘算法(online hard example mining,OHEM)以实现自适应样本学习. Lin等[18]针对单阶段目标检测中正负样本不均衡和难样本问题,提出聚焦损失的思想,增大正样本和难分类样本在损失函数中的权重,取得了较好的实验效果. 不过,目前对难样本的研究主要局限于目标检测领域,大部分文字检测方法没有考虑难样本问题.
针对上述卷积特征层信息利用不充分以及不区分尺度和难易样本学习所导致的文字检测精度不高的问题,提出优化的自然场景图像文字检测方法,旨在实现更符合实际的多尺度多方向的文字检测,提高文字检测精度. 主要研究内容如下. 1)提出基于多路精细化特征融合的模型. 基本模型为特征金字塔网络[19](feature pyramid networks,FPN),down-top基础特征提取采用残差网络(residual network,ResNet)[20],top-down抽取3种尺度的特征图作为特征融合模块的输入,横向连接引入精细化融合网络(refined fusion network,RefineNet)[21],充分利用各中间层特征,最终得到3种尺度的高分辨率特征图. 2)提出区分文字尺度的检测策略. 根据不同文字对特征图的尺度敏感度不同,将文字标注框按照其较长边划分为3种尺度范围,将不同尺度范围的标注框分散到3个候选框提取网络(region proposal network,RPN)中进行训练,提高多尺度文字的检测精度. 3)设计聚焦难样本的损失函数. 将难样本问题扩展为难分类和难回归2个问题,分别设计聚焦难分类和难回归样本的损失函数,重点学习难样本特征以提高模型的表达能力,进一步提高文字检测的精度.
1. 聚焦难样本的区分尺度的文字检测方法
1.1. 改进的文字特征提取网络
在CNN中间特征层中,低层往往携带着对文字检测较有利的边角信息,高层经过多次卷积池化因而语义信息丰富. Lin等[21]在图像分割任务中提出精细化的特征融合网络RefineNet,构建高分辨率的特征图能有效提高图像分割的精度. 为了充分利用低特征层的细节信息和高特征层的语义信息,本研究引入RefineNet精细化特征融合模块,如图1所示. 自适应卷积模块由成对的残差卷积单元(residual convolution unit,RCU)组成,主要作用是对ResNet中间特征层的权重进行微调;多分辨率融合模块对不同阶段的特征图进行尺度和数量处理以保证不同分辨率的特征融合,即对尺度较大的特征图做1×1卷积以保证特征图数量一致,对尺度较小的特征图进行上采样从而得到相同的尺度,然后采用两路求和的方式进行特征融合;链式残差池(chained residual pooling)模块是由多个池块连接成的链,每个池块都由1个最大池化层和1个卷积层组成,后一个池块将前一个池块的输出作为输入,因此可以重新利用来自先前池化操作的结果;输出模块包含1个RCU,通过该模块保持特征维度不变.
图 1
在自适应卷积模块中增加2个RCU单元对特征层的权重进行微调,在多分辨率融合模块中增加前一层的平均池化的结果用于补充低层边角细节信息,最后采用三路求和的方式进行特征融合,得到更丰富的特征融合结果. 如图1所示,Stage(K−1)、StageK、Stage(K+1)分别表示3种尺寸的特征图. 不同尺度的文字,对特征图大小的敏感度不同,一般来说,当文字尺度较小时,特征图越大越能检测到文字;当文字尺度较大时,特征图越小越容易准确定位到文字. 因此,模型中包含3个RefineNet模块,得到3种尺度的特征图,既满足不同尺度的文字对于特征图大小的要求,又能保证不同大小的特征图均具有较高的分辨率,为后续检测网络提供方便.
1.2. 改进的适应多尺度的候选框提取网络
① anchor:特征图上以每个特征点为中心,产生一组大小固定的,具有不同面积比和宽高比的参考窗口,anchor具有尺度不变性.
提出改进的候选框提取网络,分别对不同尺度的文字进行检测. 将3个RPN网络分别连接到3种尺度的特征融合图,记为RPN1、RPN2、RPN3;针对文字形状特点,在特征图上设计7种anchor,宽高比分别为0.20、0.50、0.80、1.00、1.25、2.00、5.00. anchor在特征图上的面积为8像素×8像素,由于3种特征图的面积分别为原图的1/16、1/8、1/4,它们对应的原图面积分别为128像素×128像素,64像素×64像素,32像素×32像素. 为了实现更加密集的检测,在此基础上将每层anchor进一步划分为20、21/3、22/3这3种面积梯度,因此每个特征图对应21种(7×3)anchor,3种尺度的特征图共有63种(21×3)anchor. 特征图上最大anchor的面积为82×22/3,且宽高比对称分布在1∶1的两侧,因此宽高的长度范围一致. 根据宽高比计算可知,RPN1、RPN2、RPN3能检测的原图中的较长边分别为360、180、90像素. 为了避免遗漏尺度特大和特小的文字,这里不限制最大和最小边界,将RPN1、RPN2、RPN3能检测的候选框的尺度按较长边s划分为大(s>180像素)、中(180像素>s>90像素)、小(s<90像素)3种尺度范围.
标注文件内的标注框数量较少,若直接选择其作为目标,容易产生过拟合,而RPN中anchor数目多、密集且跨越尺度较大,因此通常选择anchor作为候选框提取网络的标注框. 须进行正负样本标注,具体做法如下:计算每个anchor与其最近的标注框的面积交并比(intersection over union,IoU),若标注框与anchor的水平方向角度差
1.3. 改进的聚焦难样本的损失函数
在候选框提取完成之后须对RPN网络的输出候选框进行精确定位,通常选择快速候选区域提取与卷积神经网络(fast region proposal and convolutional neural network,Fast RCNN)的全连接层作为精检测网络,包括候选框分类和候选框回归2个子网络,损失函数包括分类损失和回归损失. 在样本训练过程中,除了样本的分类有难易之分外,样本的角度回归在难度上也存在一定差异. 将文字检测的难样本分为难分类样本和难回归样本,采用聚焦损失的思想,增加难样本在损失函数中的权重以重点学习难样本特征.
1.3.1. 聚焦分类损失
损失函数包括分类损失和回归损失. 分类损失是指候选框二分类(文本或背景)误差;回归损失是指候选框相对于标注框的几何参数偏移量的误差. 考虑难分类样本问题,增加难分类样本在损失函数中的权重,分类损失函数表达式为
式中:
1.3.2. 聚焦回归损失
回归损失包括盒子损失和角度损失. 盒子损失是指计算候选框相对于标注框的几何参数偏移量的误差;角度损失是指候选框与标注框相对于水平方向倾斜角度的偏差. 回归损失函数Lreg表达式为
式中:
须注意的是,1)本研究只学习
1.3.3. 总体损失
总体损失L为分类损失与回归损失的加权之和:
式中:
2. 文字检测流程及总体模型
2.1. 文字检测流程
基于深度学习的文字检测流程通常包括特征提取、候选框提取、候选框的分类与回归. 分别对这3个模块中存在的不足提出改进策略,包括引入精细化特征融合方式得到高分辨率的特征图;根据文字标注框尺度划分范围,设计anchor;在分类和回归任务中引入聚焦难样本学习. 改进后的总体检测流程如图2所示. 具体处理过程如下:1)构建特征提取网络. 在down-top过程中利用CNN卷积和池化得到多个中间特征层,在top-down过程中依次抽取3种尺寸的特征图送入精细化特征融合模块,构建基于特征融合的特征提取网络,得到3种不同尺度的特征融合图. 2)构建候选框提取网络. 在不同特征融合层上进行区分尺度的候选框提取,即将文字标注框划分成3种尺度范围并分散到不同的RPN网络中,设计多种尺度比例的anchor,按照anchor与其相邻标注框的IoU进行正负样本标注,构建适应多尺度的候选框提取网络. 3)构建候选框分类与回归网络. 将难样本细分为难分类样本和难回归样本,设计新的聚焦损失函数,增大难样本的学习权重,构建更高精度的候选框分类与回归网络,最终输出检测结果.
图 2
2.2. 文字检测总体模型
文字检测模型结构如图3所示,基础特征提取网络将不同大小的卷积层划分为若干个阶段,记为StageK(K=1,2,3,4,5);top-down从down-top的最顶层特征图开始,抽取3个相邻阶段Stage3、Stage4、Stage5的特征图送入改进后的精细化特征融合模块1,经过平均池化、1×1卷积、上采样,三路求和得到融合的新特征图1;同理将Stage2、Stage3、融合的新特征图1作为精细化特征融合模块2的输入,得到融合的新特征图2;将Stage1、Stage2、融合的新特征图2作为精细化特征融合模块3 的输入,得到融合的新特征图3;将文字标注框划分为3种尺度范围,将融合后的不同尺度的新特征图1、2、3分别连接大、中、小3种不同尺度范围的RPN网络进行候选框提取;将3个RPN分别连接到对应的Fast RCNN的全连接层对不同尺度范围的文字候选框进行精确分类和回归.
图 3
图 3 区分尺度的文字检测网络结构图
Fig.3 Structure map of scale differentiated text detection network
3. 实验与分析
3.1. 数据集
COCO-Text[25]为目前最大的文字检测和文字识别数据集,包含63 686张图片、145 859个文本实例,其中43 686张图片、118 309个文本实例用于训练,10 000张图片、27 550个文本实例用于验证,10 000张图片、27 730个文本实例用于测试. ICDAR2013[26]在2013年国际鲁棒性阅读比赛挑战任务2中发布,包含462张图片,其中229张构成训练集,233张构成测试集,该数据集支持水平方向文字的检测. ICDAR2015[27]在2015年国际鲁棒性阅读比赛挑战任务5中发布,包含1 500张图片,其中1 000张构成训练集,其余的500张用于测试,该数据集支持多方向文字的检测.
3.2. 评价指标
评价检测方法性能的指标主要有准确率P、召回率R、综合值F. 计算P、R须统计真实正样本的数目,考虑到候选框与标注框之间可能存在一对多、多对一、一对一的关系,且每个候选框的得分为[0,1.0],而非0或1,采用Wolf标准[28]计算P、R、F,表达式分别为
式中:E为候选框集合;T为标注框集合;m(c,R)为矩形c与集合R的最大重叠率,m(r1,T)、m(r2,E)分别为集合E中的每个r1与集合T的最大重叠率、集合T中的每个r2与集合E的最大重叠率,保证每个候选框只对应一个标注框,反之亦然;
3.3. 实验环境与训练细节
本研究实验环境配置如下. 1)硬件环境:服务器为谷歌云服务器;CPU型号为n1-highmem-2 Vcpu CPU,12 GB;GPU型号为NVIDIA Tesla K80,13 GB;磁盘类型为SSD,60 GB. 2)软件环境:操作系统为Ubuntu 16.04 LTS;开发框架为Tensorflow-gpu 1.4.0,Python 2.7.
算法由Python语言实现,特征提取网络的初始权重使用预训练的ImageNet分类模型ResNet50的参数. 所选择的对比方法有基于特征金字塔网络的候选框提取方法FPN-RPN、基于单步多尺度包围盒检测器[29](single shot multibox detector,SSD)的候选框提取方法SSD-RPN、基于更快速的候选区域提取与卷积神经网络的候选框提取方法FasterRCNN-RPN、基于深度轻量实时网络(performance vs accuracy network,PVANet)的候选框提取方法PVANet-RPN. 以上方法及本研究的方法中新增层的权重使用均值为0,方差为0.01的高斯分布进行随机初始化. 误差反向传播采用随机梯度下降算法(stochastic gradient descent,SGD),动量为 0.9,权值衰减率为0.000 5,最小批尺寸为4,训练历时为82 h. 训练迭代次数和学习率根据不同数据集的大小进行调整. COCO-Text 数据集最大,设置初始学习率为0.001,最大迭代次数为25万,学习率在第10、20万次迭代时分别除以10. ICDAR2013、ICDAR2015数据集均较小,设置最大迭代次数为4万,初始学习率为0.000 5,学习率在第2万次迭代时除以5.
3.4. 实验结果
从候选框质量、文字检测精度以及测试集上输出的文字检测结果3个方面评估本研究所提方法的有效性. 候选框质量用于验证本研究所提出的特征融合模型以及区分尺度检测策略的有效性;文字检测精度评估为首先确定聚焦损失函数中难易因子的最优组合,然后在标准数据集上与同类方法进行对比以验证本研究所提方法的有效性;在测试集图像上输出文字框以观察本研究方法的有效性和不足.
3.4.1. 候选框质量评估
评估候选框质量的主要指标为标注框的召回率,召回率越高,候选框提取方法的性能越好. RPN网络通常只提取水平候选框,为了保证实验的可比性,在水平文字数据集COCO-Text上进行候选框质量评估. 在原RefineNet两路输入的基础上增加前一层的平均池化结果作为第3路输入,并采用区分尺度的候选框提取策略. 为了证明三路精细化特征融合模型和区分尺度策略的有效性,1)在其他参数设置均相同的情况下,对两路精细化特征融合但不区分尺度的方法Baseline1、两路精细化特征融合且区分尺度的方法Baseline2、三路精细化特征融合但不区分尺度的方法Baseline3、三路精细化特征融合且区分尺度的方法RefineScale-RPN(本研究所提出的方法)进行模型简化实验(ablation study);2)与其他相关的候选框提取方法:单个非融合特征层的Faster RCNN-RPN、多个非融合特征层的SSD-RPN、单个融合特征层的PVANet-RPN、多个非精细化特征融合层的FPN-RPN进行对比实验.
固定候选框数目为100、200、300个,比较单一阈值(IoU=0.5、0.7)情况下的召回率和多阈值(IoU∈[0.5,0.7],增量为0.05)情况下的平均召回率,如表1所示. 表中,
表 1 COCO-Text数据集上不同候选框提取网络的召回率
Tab.1
方法 | | | | | | | | | |
Faster RCNN-RPN | 70.8 | 28.3 | 38.7 | 76.1 | 30.8 | 39.0 | 83.6 | 33.8 | 41.7 |
SSD-RPN | 71.4 | 37.6 | 39.7 | 77.1 | 39.5 | 45.1 | 86.7 | 48.3 | 47.8 |
PVANet-RPN | 71.7 | 38.1 | 40.2 | 78.3 | 40.2 | 43.3 | 87.6 | 43.4 | 44.9 |
FPN-RPN | 68.1 | 39.9 | 41.6 | 80.3 | 40.9 | 45.2 | 88.6 | 48.8 | 49.2 |
Baseline1 | 72.3 | 37.3 | 43.2 | 81.0 | 45.0 | 45.5 | 88.9 | 47.0 | 48.9 |
Baseline2 | 81.5 | 40.0 | 43.5 | 82.7 | 45.1 | 45.8 | 88.9 | 49.0 | 49.2 |
Baseline3 | 81.8 | 40.2 | 43.6 | 83.0 | 45.3 | 46.1 | 89.3 | 49.2 | 49.3 |
RefineScale-RPN | 76.8 | 41.0 | 43.5 | 84.6 | 45.5 | 46.4 | 89.8 | 49.3 | 49.5 |
为了直观地对比本研究方法与其他候选框提取方法,在IoU=0.5时,候选框数目从50个开始,以50为增量,统计各个方法召回率随候选框数目的变化,如图4所示. 图中,N为候选框个数. 可以看出,RefineScale-RPN方法的召回率高于其他方法,且随着候选框数目增加,R明显提高,这是因为候选框越多找到的标注框就越多,当候选框数目约为300时,R达到最大值,之后候选框数目再增加对R的提升不明显.
图 4
图 4 数据集COCO-Text上不同候选框提取方法的召回率
Fig.4 Recall of different proposal methods on dataset COCO-Text
3.4.2. 文字检测精度评估
在RefineScale-RPN的基础上连接Fast RCNN全连接层,并加入角度训练分支,构成完整的文字检测模型. 首先以达到模型的最佳效果为基准,对聚焦损失函数中的难易指数
1)难易因子的确定.
图 5
图 5
难易因子
Fig.5
Effect of hard-easy factors
图 6
图 6
难易因子
Fig.6
Determination of optimal value of hard-easy factor
表 2 不同文字检测方法在ICDAR2013上的常用评价指标对比
Tab.2
表 3 不同文字检测方法在ICDAR2015上的常用评价指标对比
Tab.3
从ICDAR2013数据集的实验结果来看,本研究所提方法的召回率为0.88,准确率为0.90,相比于同类先进方法,召回率有明显提升,同时准确率也保持在较高水平;从ICDAR2015数据集的实验结果来看,本研究所提方法的召回率为0.85,准确率为0.81,召回率优于同类先进方法. 召回率明显提升的原因有以下2点:1)在精细化特征融合分层预测模型的基础上实施区分尺度的策略,提高了模型对多种尺度文字的召回率;2)增加难分类样本和难回归样本的学习,使得模型对关键难样本的特征学习更加充分,保证了模型学习的准确率.
3.4.3. 测试集文字检测结果
图 7
图 7 所提方法在典型测试图片上的文字检测结果
Fig.7 Text detection results of proposed method on typical test images
4. 结 语
针对卷积神经网络中间层信息利用不充分的问题,设计多路精细化特征融合模型;针对文字检测任务中不区分尺度和难易样本的学习导致检测精度难以提高的问题,提出对文字进行尺度范围划分并分散到不同网络进行检测的策略,同时设计聚焦难样本特征学习的损失函数;实现多方向多尺度的文字检测. 在不同数据集上的实验结果表明,本研究所提出方法具有较强的鲁棒性,相对于同类方法,检测精度有一定提升,召回率有较明显的提高. 不过,本研究所提出的方法仍然存在较大的改进空间,未来可开展的工作如下:1)文字检测中的分类和回归不完全独立,分类中往往包含位置信息,须消除两者的重复计算或者利用两者的关系辅助文字检测,以提高文字检测方法的效率;2)基于候选框的文字检测忽略了单个字符在图像中的位置信息,可结合长短期记忆网络得到字符序列,进一步推断出上下文信息,这对文字检测和文字识别具有重要意义.
参考文献
自然场景图像中的文字检测综述
[J].
Detecting text in natural scene images were reviewed
[J].
卷积神经网络研究综述
[J].DOI:10.11897/SP.J.1016.2017.01229 [本文引用: 1]
Review of convolution neural network
[J].DOI:10.11897/SP.J.1016.2017.01229 [本文引用: 1]
Robust text detection in natural scene images
[J].DOI:10.1109/TPAMI.2013.182 [本文引用: 1]
Real-time lexicon-free scene text localization and recognition
[J].DOI:10.1109/TPAMI.2015.2496234 [本文引用: 2]
A two-stage scheme for text detection in video images
[J].DOI:10.1016/j.imavis.2010.03.004 [本文引用: 1]
Focal loss for dense object detection
[J].
Selective search for object recognition
[J].DOI:10.1007/s11263-013-0620-5 [本文引用: 1]
Object count/area graphs for the evaluation of object detection and segmentation algorithms
[J].DOI:10.1007/s10032-006-0014-0 [本文引用: 1]
/
〈 |
|
〉 |
