浙江大学学报(工学版), 2019, 53(8): 1506-1516 doi: 10.3785/j.issn.1008-973X.2019.08.009

计算机与控制工程

聚焦难样本的区分尺度的文字检测方法

林泓,, 卢瑶瑶

Scale differentiated text detection method focusing on hard examples

LIN Hong,, LU Yao-yao

收稿日期: 2018-09-7  

Received: 2018-09-7  

作者简介 About authors

林泓(1965—),女,副教授,从事深度学习、语言编译研究.orcid.org/0000-0001-5599-2877.E-mail:linhong@whut.edu.cn , E-mail:linhong@whut.edu.cn

摘要

针对卷积神经网络中间特征层信息利用不充分,以及不区分尺度和难易样本的学习所导致的文字检测精度难以提高的问题,提出基于多路精细化特征融合的聚焦难样本的区分尺度的自然场景文字检测方法. 构建多路精细化的卷积神经网络融合层提取高分辨率特征图;按照文字标注矩形框的较长边的尺寸,将文字实例划分为3种尺度范围,并分布到不同的候选框提取网络中提取相应的候选框;设计聚焦损失函数对难样本进行重点学习以提高模型的表达能力并得到目标文字框. 实验表明,所提出的多路精细化特征提取方法在COCO-Text数据集上的文字召回率较高,聚焦难样本的区分尺度的文字检测方法在ICDAR2013、ICDAR2015标准数据集上的检测精度分别为0.89、0.83,与CTPN、RRPN等方法相比,在多尺度多方向的自然场景图像中具有更强的鲁棒性.

关键词: 深度学习 ; 自然场景 ; 文字检测 ; 特征融合 ; 难样本 ; 聚焦损失

Abstract

The accuracy of text detection is difficult to improve due to the inadequate utilization of the information in middle feature layers of convolutional neural networks and the learning without distinction of different scales and hard-easy examples. Aiming at this problem, a text detection method for natural scene images based on multi-channel refined feature fusion was proposed, which focused on hard examples and could distinguish different scales. The fusion layers of multi-channel refined convolutional neural network were constructed to extract high resolution feature maps. According to the size of the longer side of text label rectangle boxes, the text instances were divided into three scale ranges, and distributed to different proposal networks to extract corresponding proposals. The focal loss function was designed to focus on learning hard examples to improve the expressive ability of the model and obtain the target text bounding boxes. Experiments showed that the text recall of the proposed multi-channel refined feature extraction method on COCO-Text datasets was high. The detection accuracies of the differentiated-scale text detection method focusing on hard examples on ICDAR2013 and ICDAR2015 standard datasets were 0.89 and 0.83, respectively. Compared with CTPN and RRPN, the proposed method has stronger robustness in multi-scale and multi-orientation natural scene images.

Keywords: deep learning ; natural scene ; text detection ; feature fusion ; hard examples ; focal loss

PDF (1067KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

林泓, 卢瑶瑶. 聚焦难样本的区分尺度的文字检测方法. 浙江大学学报(工学版)[J], 2019, 53(8): 1506-1516 doi:10.3785/j.issn.1008-973X.2019.08.009

LIN Hong, LU Yao-yao. Scale differentiated text detection method focusing on hard examples. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(8): 1506-1516 doi:10.3785/j.issn.1008-973X.2019.08.009

自然场景图像文字提取技术被广泛应用于图像内容检索、盲人导航、外语翻译等领域[1]. 文字提取过程包括文字检测和文字识别,在自然场景图像中通过文字检测定位出文字区域位置,通过文字识别技术将获得的文字区域转换成可输出的自然语言. 文字检测是文字识别的重要前提,可以有效提高识别效率和准确率. 文字颜色、大小、字体、排布方向的多样性[2]和自然场景图像背景的复杂性,加上天气、光照强度等客观因素或者拍摄抖动等人为因素,导致自然场景图像中的文字检测难度较大.

传统的自然场景图像文字检测方法如最稳定极值区域算法[3](maximally stable extremal regions,MSER)、笔画宽度算法[4](stroke width transform,SWT)等处理流程复杂,对复杂背景图像的鲁棒性较差. 近年来,基于深度学习的方法取得了突破性进展,主要思路是将自然场景文字检测视为特殊的目标检测,检测过程包括特征提取和候选区域定位. 特征提取是目标检测与文字检测中必要且通用的部分;由于背景中可能存在大量形似文字的物体且文字呈现形式多样,文字候选区域定位比一般目标区域定位更加复杂.

基于深度学习的文字检测方法通常采用自底向上(down-top)的卷积神经网络[5-6](convolutional neural network,CNN)进行特征提取,CNN通过逐层卷积和池化操作实现降维和局部特征的提取. Tian等[7-11]均采用down-top结构进行特征提取,并选取最顶层的特征图进行文字候选区域定位. 然而,随着卷积和池化的逐层传播,特征图的分辨率逐层下降,逐渐丢失底层边角等细节信息,导致这些采用单层特征图进行文字候选区域定位的检测方法的精度难以提高. Zhou等[12-15]针对down-top结构进行改进,采用在down-top基础上增加自顶向下(top-down)反向融合特征图的方式,构建具有更高分辨率的特征图,有效提高文字检测的精度. 然而,在自然场景图像中文字尺度变化范围较大,这些方法使用单一的特征融合层对文字进行不区分尺度的检测,没有充分利用中间层特征,不能较好地解决文字的多尺度问题. Shrivastava等[16]针对两阶段目标检测[17]随机选取正负样本导致样本学习不充分的问题,提出在线难样本挖掘算法(online hard example mining,OHEM)以实现自适应样本学习. Lin等[18]针对单阶段目标检测中正负样本不均衡和难样本问题,提出聚焦损失的思想,增大正样本和难分类样本在损失函数中的权重,取得了较好的实验效果. 不过,目前对难样本的研究主要局限于目标检测领域,大部分文字检测方法没有考虑难样本问题.

针对上述卷积特征层信息利用不充分以及不区分尺度和难易样本学习所导致的文字检测精度不高的问题,提出优化的自然场景图像文字检测方法,旨在实现更符合实际的多尺度多方向的文字检测,提高文字检测精度. 主要研究内容如下. 1)提出基于多路精细化特征融合的模型. 基本模型为特征金字塔网络[19](feature pyramid networks,FPN),down-top基础特征提取采用残差网络(residual network,ResNet)[20],top-down抽取3种尺度的特征图作为特征融合模块的输入,横向连接引入精细化融合网络(refined fusion network,RefineNet)[21],充分利用各中间层特征,最终得到3种尺度的高分辨率特征图. 2)提出区分文字尺度的检测策略. 根据不同文字对特征图的尺度敏感度不同,将文字标注框按照其较长边划分为3种尺度范围,将不同尺度范围的标注框分散到3个候选框提取网络(region proposal network,RPN)中进行训练,提高多尺度文字的检测精度. 3)设计聚焦难样本的损失函数. 将难样本问题扩展为难分类和难回归2个问题,分别设计聚焦难分类和难回归样本的损失函数,重点学习难样本特征以提高模型的表达能力,进一步提高文字检测的精度.

1. 聚焦难样本的区分尺度的文字检测方法

1.1. 改进的文字特征提取网络

在CNN中间特征层中,低层往往携带着对文字检测较有利的边角信息,高层经过多次卷积池化因而语义信息丰富. Lin等[21]在图像分割任务中提出精细化的特征融合网络RefineNet,构建高分辨率的特征图能有效提高图像分割的精度. 为了充分利用低特征层的细节信息和高特征层的语义信息,本研究引入RefineNet精细化特征融合模块,如图1所示. 自适应卷积模块由成对的残差卷积单元(residual convolution unit,RCU)组成,主要作用是对ResNet中间特征层的权重进行微调;多分辨率融合模块对不同阶段的特征图进行尺度和数量处理以保证不同分辨率的特征融合,即对尺度较大的特征图做1×1卷积以保证特征图数量一致,对尺度较小的特征图进行上采样从而得到相同的尺度,然后采用两路求和的方式进行特征融合;链式残差池(chained residual pooling)模块是由多个池块连接成的链,每个池块都由1个最大池化层和1个卷积层组成,后一个池块将前一个池块的输出作为输入,因此可以重新利用来自先前池化操作的结果;输出模块包含1个RCU,通过该模块保持特征维度不变.

图 1

图 1   多尺度特征精细化融合模块

Fig.1   Module of refined fusion with multi-scale features


在自适应卷积模块中增加2个RCU单元对特征层的权重进行微调,在多分辨率融合模块中增加前一层的平均池化的结果用于补充低层边角细节信息,最后采用三路求和的方式进行特征融合,得到更丰富的特征融合结果. 如图1所示,Stage(K−1)、StageK、Stage(K+1)分别表示3种尺寸的特征图. 不同尺度的文字,对特征图大小的敏感度不同,一般来说,当文字尺度较小时,特征图越大越能检测到文字;当文字尺度较大时,特征图越小越容易准确定位到文字. 因此,模型中包含3个RefineNet模块,得到3种尺度的特征图,既满足不同尺度的文字对于特征图大小的要求,又能保证不同大小的特征图均具有较高的分辨率,为后续检测网络提供方便.

1.2. 改进的适应多尺度的候选框提取网络

候选框提取网络RPN[22]在CNN网络中采用共享卷积层和anchor机制快速生成候选框,解决了传统的方法如选择性搜索[23](selective search,SS)和EdgeBoxes[24]等在目标检测中单独进行候选框提取较耗时的问题. RPN通过在特征融合层进行3×3的窗口滑动和兴趣区域池化得到等长的特征,将特征输入全连接层,全连接层经过奇异值分解,得到分类层和回归层. 分类层采用softmax进行候选框的文本/非文本分类,回归层只对被判定为文字候选框的中心点坐标(xy)、宽度w、高度h、倾斜角度θ 5个几何参数的偏移量做回归.

① anchor:特征图上以每个特征点为中心,产生一组大小固定的,具有不同面积比和宽高比的参考窗口,anchor具有尺度不变性.

提出改进的候选框提取网络,分别对不同尺度的文字进行检测. 将3个RPN网络分别连接到3种尺度的特征融合图,记为RPN1、RPN2、RPN3;针对文字形状特点,在特征图上设计7种anchor,宽高比分别为0.20、0.50、0.80、1.00、1.25、2.00、5.00. anchor在特征图上的面积为8像素×8像素,由于3种特征图的面积分别为原图的1/16、1/8、1/4,它们对应的原图面积分别为128像素×128像素,64像素×64像素,32像素×32像素. 为了实现更加密集的检测,在此基础上将每层anchor进一步划分为20、21/3、22/3这3种面积梯度,因此每个特征图对应21种(7×3)anchor,3种尺度的特征图共有63种(21×3)anchor. 特征图上最大anchor的面积为82×22/3,且宽高比对称分布在1∶1的两侧,因此宽高的长度范围一致. 根据宽高比计算可知,RPN1、RPN2、RPN3能检测的原图中的较长边分别为360、180、90像素. 为了避免遗漏尺度特大和特小的文字,这里不限制最大和最小边界,将RPN1、RPN2、RPN3能检测的候选框的尺度按较长边s划分为大(s>180像素)、中(180像素>s>90像素)、小(s<90像素)3种尺度范围.

标注文件内的标注框数量较少,若直接选择其作为目标,容易产生过拟合,而RPN中anchor数目多、密集且跨越尺度较大,因此通常选择anchor作为候选框提取网络的标注框. 须进行正负样本标注,具体做法如下:计算每个anchor与其最近的标注框的面积交并比(intersection over union,IoU),若标注框与anchor的水平方向角度差 $\Delta \theta $< $\pi /12$且IoU>0.7,则将该anchor标记为正样本;若某个标注框与附近anchor的IoU均小于0.7,则将IoU最大的anchor标记为正样本;若IoU<0.3且 $\Delta \theta $> $\pi /12$,则将该anchor标记为负样本;其余为无用样本,不参与训练.

1.3. 改进的聚焦难样本的损失函数

在候选框提取完成之后须对RPN网络的输出候选框进行精确定位,通常选择快速候选区域提取与卷积神经网络(fast region proposal and convolutional neural network,Fast RCNN)的全连接层作为精检测网络,包括候选框分类和候选框回归2个子网络,损失函数包括分类损失和回归损失. 在样本训练过程中,除了样本的分类有难易之分外,样本的角度回归在难度上也存在一定差异. 将文字检测的难样本分为难分类样本和难回归样本,采用聚焦损失的思想,增加难样本在损失函数中的权重以重点学习难样本特征.

1.3.1. 聚焦分类损失

损失函数包括分类损失和回归损失. 分类损失是指候选框二分类(文本或背景)误差;回归损失是指候选框相对于标注框的几何参数偏移量的误差. 考虑难分类样本问题,增加难分类样本在损失函数中的权重,分类损失函数表达式为

${L_{\rm{cls}}} = - {(1 - p)^{{\gamma _1}}}\lg p.$

式中: $p$为候选框为正样本的概率, $p \in [0,1.0]$${\gamma _{\rm{1}}}$为分类难易因子, ${\gamma _1} > 0$.$p$越接近正样本阈值(0.7),分类难度越大, ${(1 - p)^{{\gamma _{\rm{1}}}}}$越大,对损失函数的贡献度也越大; $p$越接近1.0,分类难度越小, ${(1 - p)^{{\gamma _{\rm{1}}}}}$越接近于0,对损失函数的贡献度越小.

1.3.2. 聚焦回归损失

回归损失包括盒子损失和角度损失. 盒子损失是指计算候选框相对于标注框的几何参数偏移量的误差;角度损失是指候选框与标注框相对于水平方向倾斜角度的偏差. 回归损失函数Lreg表达式为

${L_{\rm{reg}}} = {L_{{\rm{box}}}}(v,{v^*}) + {L_\theta }(\theta ,{\theta ^*}),$

${L_{{\rm{box}}}}(v,{v^*}) = \sum\limits_{i \in \{ x,y,w,h\} } {{p_i}^*{\rm{smooth}}{_{L1}}(v_i^* - {v_i})} ,$

${\rm{smooth}}{_{L1}}(x) = \left\{ {\begin{array}{*{20}{l}} {0.5{x^2}},&{\left| x \right| < 1};\\ {\left| x \right| - 0.5},&{\text{其他}}, \end{array}} \right.{\kern 1pt} $

$\begin{array}{l} {v_x} = \displaystyle\frac{{x - {x_{\rm a}}}}{{{w_{\rm a}}}},\;{v_y} = \frac{{y - {y_{\rm a}}}}{{{h_{\rm a}}}},\;{v_w} = \lg \frac{w}{{{w_{\rm a}}}},\;{v_h} = \lg \frac{h}{{{h_{\rm a}}}},\\ {v_x}^* = \displaystyle\frac{{{x^*} - {x_{\rm a}}}}{{{w_{\rm a}}}},\;{\kern 1pt} {v_y}^* = \frac{{{y^*} - {y_{\rm a}}}}{{{h_{\rm a}}}},\;{v_w}^* = \lg \frac{{{w^*}}}{{{w_{\rm a}}}},{\kern 1pt} \;{v_h}^* = \lg \frac{{{h^*}}}{{{h_{\rm a}}}}, \end{array}$

${L_\theta }(\theta ,{\theta ^*}) = 1 - \cos\;{(\theta - {\theta ^*})^{{\gamma _{\rm{2}}}}}.$

式中: $ {L_{{\rm{box}}}}(v,{v^*}) $$ {L_\theta }(\theta ,{\theta ^*}) $分别为盒子损失、角度损失; ${v^*}$$v$分别为特征图上标注框和候选框的几何参数偏移量的集合; $\theta\text{、}\theta^* $分别为候选框倾斜角度和真实标注框倾斜角度; ${\rm{(}}{x^*},{y^*},{w^*},{h^*})$为真实标注框的几何参数, $(x,y,w,h) $为候选框的几何参数, $(x_{\rm a},y_{\rm a},w_{\rm a},h_{\rm a})$为anchor标注框的几何参数集合; $(v_x^*,v_y^*,v_w^*,v_h^*) \in v^*,\;(v_x,v_y,v_w,v_h)\in v, $ ${p_i}^*$为标注样本的实际类别,正样本为1,负样本为0,即只对正样本进行位置回归的学习; ${\rm{smoot}}{{\rm h}_{L1}}$为平滑L1损失函数; ${\gamma _{\rm{2}}}$为回归难易因子, ${\gamma _{\rm{2}}} > 0$.

须注意的是,1)本研究只学习 $\theta - {\theta ^*}$不大于阈值 $\pi {\rm{/12}}$的候选框, $\theta - {\theta ^*}$越接近 $\pi {\rm{/12}}$,回归难度越大, $1 - \cos\;{(\theta - {\theta ^*})^{{\gamma _{\rm{2}}}}}$越大,即增加了难回归样本对损失函数的贡献度; $\theta - {\theta ^*}$越接近0,回归难度越小, $1 - \cos\;{(\theta - {\theta ^*})^{{\gamma _{\rm{2}}}}}$越接近0,即减弱了易回归样本的贡献度. 2)选择 ${\rm{smoot}}{{\rm h}_{L1}}$用于计算几何偏移误差,与平滑L2损失函数 ${\rm{smoot}}{{\rm h}_{L2}}$相比, ${\rm{smoot}}{{\rm h}_{L1}}$对于离群点更不敏感,在预测值和目标值相差较大时,不会产生梯度爆炸.

1.3.3. 总体损失

总体损失L为分类损失与回归损失的加权之和:

$L = {\lambda _1}{L_{\rm{cls}}} + {\lambda _2}{L_{\rm{reg}}}.$

式中: ${\lambda _{\rm{1}}}{\text{、}}{\lambda _{\rm{2}}}$分别为分类和回归损失函数的权重,取 ${\lambda _{\rm{1}}}{\rm{ = }}{\lambda _{\rm{2}}}{\rm{ = 1}}$.

2. 文字检测流程及总体模型

2.1. 文字检测流程

基于深度学习的文字检测流程通常包括特征提取、候选框提取、候选框的分类与回归. 分别对这3个模块中存在的不足提出改进策略,包括引入精细化特征融合方式得到高分辨率的特征图;根据文字标注框尺度划分范围,设计anchor;在分类和回归任务中引入聚焦难样本学习. 改进后的总体检测流程如图2所示. 具体处理过程如下:1)构建特征提取网络. 在down-top过程中利用CNN卷积和池化得到多个中间特征层,在top-down过程中依次抽取3种尺寸的特征图送入精细化特征融合模块,构建基于特征融合的特征提取网络,得到3种不同尺度的特征融合图. 2)构建候选框提取网络. 在不同特征融合层上进行区分尺度的候选框提取,即将文字标注框划分成3种尺度范围并分散到不同的RPN网络中,设计多种尺度比例的anchor,按照anchor与其相邻标注框的IoU进行正负样本标注,构建适应多尺度的候选框提取网络. 3)构建候选框分类与回归网络. 将难样本细分为难分类样本和难回归样本,设计新的聚焦损失函数,增大难样本的学习权重,构建更高精度的候选框分类与回归网络,最终输出检测结果.

图 2

图 2   自然场景图像中的文字检测流程图

Fig.2   Flow chart of text detection in natural scene image


2.2. 文字检测总体模型

文字检测模型结构如图3所示,基础特征提取网络将不同大小的卷积层划分为若干个阶段,记为StageKK=1,2,3,4,5);top-down从down-top的最顶层特征图开始,抽取3个相邻阶段Stage3、Stage4、Stage5的特征图送入改进后的精细化特征融合模块1,经过平均池化、1×1卷积、上采样,三路求和得到融合的新特征图1;同理将Stage2、Stage3、融合的新特征图1作为精细化特征融合模块2的输入,得到融合的新特征图2;将Stage1、Stage2、融合的新特征图2作为精细化特征融合模块3 的输入,得到融合的新特征图3;将文字标注框划分为3种尺度范围,将融合后的不同尺度的新特征图123分别连接大、中、小3种不同尺度范围的RPN网络进行候选框提取;将3个RPN分别连接到对应的Fast RCNN的全连接层对不同尺度范围的文字候选框进行精确分类和回归.

图 3

图 3   区分尺度的文字检测网络结构图

Fig.3   Structure map of scale differentiated text detection network


3. 实验与分析

3.1. 数据集

COCO-Text[25]为目前最大的文字检测和文字识别数据集,包含63 686张图片、145 859个文本实例,其中43 686张图片、118 309个文本实例用于训练,10 000张图片、27 550个文本实例用于验证,10 000张图片、27 730个文本实例用于测试. ICDAR2013[26]在2013年国际鲁棒性阅读比赛挑战任务2中发布,包含462张图片,其中229张构成训练集,233张构成测试集,该数据集支持水平方向文字的检测. ICDAR2015[27]在2015年国际鲁棒性阅读比赛挑战任务5中发布,包含1 500张图片,其中1 000张构成训练集,其余的500张用于测试,该数据集支持多方向文字的检测.

3.2. 评价指标

评价检测方法性能的指标主要有准确率P、召回率R、综合值F. 计算PR须统计真实正样本的数目,考虑到候选框与标注框之间可能存在一对多、多对一、一对一的关系,且每个候选框的得分为[0,1.0],而非0或1,采用Wolf标准[28]计算PRF,表达式分别为

$P = \sum\limits_{{{\rm r}_{{}_1}} \in E} {m(r_{{}_1},T)} /\left| E \right|,$

$R = \sum\limits_{{\rm r}_{{}_2} \in T} {m(r_{{}_2},E)} /\left| T \right|,$

$F = {\left( {{\alpha /P} + {{\left( {1 - \alpha } \right)}/R}} \right)^{ - 1}},$

$ \left.\begin{aligned} m(c,R) = \max\;({m_{\rm p}}(c,{c'})|{c'} \in R),\\ {m_{\rm p}}({c_1},{c_2}) = \frac{{{\rm{area}}\;({c_1} \cap {c_2})}}{{{\rm{area}}\;({c_1} \cup {c_2})}}. \end{aligned} \right\} $

式中:E为候选框集合;T为标注框集合;mcR)为矩形c与集合R的最大重叠率,mr1T、mr2E)分别为集合E中的每个r1与集合T的最大重叠率集合T中的每个r2与集合E的最大重叠率,保证每个候选框只对应一个标注框,反之亦然; ${m_{\rm p}}( \cdot )$为候选框与标注框的重叠率; ${\rm{area}}( \cdot )$为候选框或标注框的面积;F综合P、R的结果;α通常取0.5.

3.3. 实验环境与训练细节

本研究实验环境配置如下. 1)硬件环境:服务器为谷歌云服务器;CPU型号为n1-highmem-2 Vcpu CPU,12 GB;GPU型号为NVIDIA Tesla K80,13 GB;磁盘类型为SSD,60 GB. 2)软件环境:操作系统为Ubuntu 16.04 LTS;开发框架为Tensorflow-gpu 1.4.0,Python 2.7.

算法由Python语言实现,特征提取网络的初始权重使用预训练的ImageNet分类模型ResNet50的参数. 所选择的对比方法有基于特征金字塔网络的候选框提取方法FPN-RPN、基于单步多尺度包围盒检测器[29](single shot multibox detector,SSD)的候选框提取方法SSD-RPN、基于更快速的候选区域提取与卷积神经网络的候选框提取方法FasterRCNN-RPN、基于深度轻量实时网络(performance vs accuracy network,PVANet)的候选框提取方法PVANet-RPN. 以上方法及本研究的方法中新增层的权重使用均值为0,方差为0.01的高斯分布进行随机初始化. 误差反向传播采用随机梯度下降算法(stochastic gradient descent,SGD),动量为 0.9,权值衰减率为0.000 5,最小批尺寸为4,训练历时为82 h. 训练迭代次数和学习率根据不同数据集的大小进行调整. COCO-Text 数据集最大,设置初始学习率为0.001,最大迭代次数为25万,学习率在第10、20万次迭代时分别除以10. ICDAR2013、ICDAR2015数据集均较小,设置最大迭代次数为4万,初始学习率为0.000 5,学习率在第2万次迭代时除以5.

3.4. 实验结果

从候选框质量、文字检测精度以及测试集上输出的文字检测结果3个方面评估本研究所提方法的有效性. 候选框质量用于验证本研究所提出的特征融合模型以及区分尺度检测策略的有效性;文字检测精度评估为首先确定聚焦损失函数中难易因子的最优组合,然后在标准数据集上与同类方法进行对比以验证本研究所提方法的有效性;在测试集图像上输出文字框以观察本研究方法的有效性和不足.

3.4.1. 候选框质量评估

评估候选框质量的主要指标为标注框的召回率,召回率越高,候选框提取方法的性能越好. RPN网络通常只提取水平候选框,为了保证实验的可比性,在水平文字数据集COCO-Text上进行候选框质量评估. 在原RefineNet两路输入的基础上增加前一层的平均池化结果作为第3路输入,并采用区分尺度的候选框提取策略. 为了证明三路精细化特征融合模型和区分尺度策略的有效性,1)在其他参数设置均相同的情况下,对两路精细化特征融合但不区分尺度的方法Baseline1、两路精细化特征融合且区分尺度的方法Baseline2、三路精细化特征融合但不区分尺度的方法Baseline3、三路精细化特征融合且区分尺度的方法RefineScale-RPN(本研究所提出的方法)进行模型简化实验(ablation study);2)与其他相关的候选框提取方法:单个非融合特征层的Faster RCNN-RPN、多个非融合特征层的SSD-RPN、单个融合特征层的PVANet-RPN、多个非精细化特征融合层的FPN-RPN进行对比实验.

固定候选框数目为100、200、300个,比较单一阈值(IoU=0.5、0.7)情况下的召回率和多阈值(IoU∈[0.5,0.7],增量为0.05)情况下的平均召回率,如表1所示. 表中, $R_{100}^{0.5}$为候选框为100、阈值为0.5时的召回率; $\overline R_{100} $为候选框为100、多阈值时的平均召回率;候选框为200、300时同理类推. 可以看出,Baseline2相对于Baseline1平均约提高0.3%,RefineScale-RPN相对于Baseline3平均约提高0.2%,证明了分尺度预测的正确性;Baseline3相对于Baseline1平均约提高0.5%,RefineScale-RPN相对于Baseline2平均约提高0.4%,说明加入第3路输入的有效性. 将本研究所提出的RefineScale-RPN方法与Faster-RCNN RPN、PVANet-RPN、SSD-RPN、FPN-RPN等方法进行比较,可以看出RefineScale-RPN方法的平均召回率最高,验证了本研究所提出的精细化特征融合模型的有效性.

表 1   COCO-Text数据集上不同候选框提取网络的召回率

Tab.1  Recall of different region proposal networks on dataset COCO-Text

方法 $R_{100}^{0.5}$ $R_{100}^{0.{\rm{7}}}$ $\bar R_{100}^{}$ $R_{{\rm{2}}00}^{0.5}$ $R_{{\rm{2}}00}^{0.{\rm{7}}}$ $\bar R_{{\rm{2}}00}^{}$ $R_{300}^{0.5}$ $R_{300}^{0.7}$ $\bar R_{300}^{}$
Faster RCNN-RPN 70.8 28.3 38.7 76.1 30.8 39.0 83.6 33.8 41.7
SSD-RPN 71.4 37.6 39.7 77.1 39.5 45.1 86.7 48.3 47.8
PVANet-RPN 71.7 38.1 40.2 78.3 40.2 43.3 87.6 43.4 44.9
FPN-RPN 68.1 39.9 41.6 80.3 40.9 45.2 88.6 48.8 49.2
Baseline1 72.3 37.3 43.2 81.0 45.0 45.5 88.9 47.0 48.9
Baseline2 81.5 40.0 43.5 82.7 45.1 45.8 88.9 49.0 49.2
Baseline3 81.8 40.2 43.6 83.0 45.3 46.1 89.3 49.2 49.3
RefineScale-RPN 76.8 41.0 43.5 84.6 45.5 46.4 89.8 49.3 49.5

新窗口打开| 下载CSV


为了直观地对比本研究方法与其他候选框提取方法,在IoU=0.5时,候选框数目从50个开始,以50为增量,统计各个方法召回率随候选框数目的变化,如图4所示. 图中,N为候选框个数. 可以看出,RefineScale-RPN方法的召回率高于其他方法,且随着候选框数目增加,R明显提高,这是因为候选框越多找到的标注框就越多,当候选框数目约为300时,R达到最大值,之后候选框数目再增加对R的提升不明显.

图 4

图 4   数据集COCO-Text上不同候选框提取方法的召回率

Fig.4   Recall of different proposal methods on dataset COCO-Text


3.4.2. 文字检测精度评估

在RefineScale-RPN的基础上连接Fast RCNN全连接层,并加入角度训练分支,构成完整的文字检测模型. 首先以达到模型的最佳效果为基准,对聚焦损失函数中的难易指数 ${\gamma _{\rm{1}}}\text{、}{\gamma _{\rm{2}}}$的取值进行确定,然后在标准数据集上与已有同类文字检测方法进行对比.

1)难易因子的确定. ${\gamma _{\rm{1}}}\text{、}{\gamma _{\rm{2}}}$相互独立,共同作用于损失函数. 为了探讨难易因子对文字检测精度的影响并得到最优的参数组合,将ICDAR2013和ICADR2015的全部训练集和测试集以及随机抽取的COCO-Text中5%的训练集和5%的测试集进行合并,得到包含3 413张训练图片和1 233张测试图片并且支持多尺度多方向的数据集,通过对该数据集进行预处理获得统一格式的标签文件. 分别对2个参数进行单独实验,评价指标均为F,如图5所示. 当 ${\gamma _{\rm{1}}}{\rm{ = 0,}}\;{\gamma _{\rm{2}}}{\rm{ = 0}}$时,损失函数为原始的未考虑难样本的;令 ${\gamma _{\rm{2}}}{\rm{ = 0}}$${\gamma _{\rm{1}}}$∈[0,5.0],即只考虑难分类样本,得到最优的 ${\gamma _{\rm{1}}}$约为2.0;令 ${\gamma _{\rm{1}}}{\rm{ = 0}},$ ${\gamma _{\rm{2}}}$∈[0,5.0],即只考虑难回归样本,得到 ${\gamma _{\rm{2}}}$最优值约为2.0. 可以看出,2种难易因子均对F有明显提升,在F达到一定的峰值之后提升效果开始下降;在F最优值附近, ${\gamma _{\rm{1}}}$F的影响曲线高于 ${\gamma _{\rm{2}}}$F的影响曲线,因此,固定 ${\gamma _2}{\rm{ = 2}}{\rm{.0}}$,进一步细调 ${\gamma _1}$,结果如图6所示,得到最佳参数组合 ${\gamma _{\rm{1}}}{\rm{ = 2}}{\rm{.2,}}\;$ ${\gamma _{\rm{2}}}{\rm{ = 2}}{\rm{.0}} $,在ICDAR2013和ICDAR2015数据集实验中均采用此组参数.

图 5

图 5   难易因子 ${\gamma _{\rm{1}}},{\gamma _{\rm{2}}}$F的影响

Fig.5   Effect of hard-easy factors ${\gamma _{\rm{1}}},{\gamma _{\rm{2}}}$ on F


图 6

图 6   难易因子 ${\gamma _1}$最优值的确定

Fig.6   Determination of optimal value of hard-easy factor ${\gamma _1}$


2)与同类方法在标准数据集上的对比. 为了证明本研究所提方法的有效性和鲁棒性,分别在标准的水平多尺度文字数据集ICDAR2013和多方向多尺度文字数据集ICDAR2015上做进一步实验,并与同类优秀的两阶段文字检测方法进行对比,结果如表23所示. 可以看出,本研究所提方法在2个数据集上的召回率不逊色于目前最好的两阶段检测方法RRPN、RRD[30]. 本研究所提方法在2个数据集上的F分别为0.89、0.83,较当前同类优秀方法有明显的提升,且在不同的数据集上均能达到较高的F,证明本研究所提方法在多方向、多尺度的自然场景图像上的鲁棒性.

表 2   不同文字检测方法在ICDAR2013上的常用评价指标对比

Tab.2  Comparison of common evaluation indexes for different text detection methods on dataset ICDAR2013

方法 R P F
RTD[8] 0.66 0.88 0.76
RTLF[9] 0.72 0.82 0.77
FASText[10] 0.69 0.84 0.77
CTPN[7] 0.83 0.93 0.88
RRD[30] 0.86 0.92 0.89
RRPN[11] 0.88 0.95 0.91
RefineScale-RPN 0.88 0.90 0.89

新窗口打开| 下载CSV


表 3   不同文字检测方法在ICDAR2015上的常用评价指标对比

Tab.3  Comparison of common evaluation indexes for different text detection methods on dataset ICDAR2015

方法 R P F
CTPN[7] 0.52 0.74 0.61
RTLF[9] 0.82 0.72 0.77
RRPN[11] 0.77 0.84 0.80
EAST[12] 0.78 0.83 0.81
RRD[30] 0.80 0.88 0.84
RefineScale-RPN 0.85 0.81 0.83

新窗口打开| 下载CSV


从ICDAR2013数据集的实验结果来看,本研究所提方法的召回率为0.88,准确率为0.90,相比于同类先进方法,召回率有明显提升,同时准确率也保持在较高水平;从ICDAR2015数据集的实验结果来看,本研究所提方法的召回率为0.85,准确率为0.81,召回率优于同类先进方法. 召回率明显提升的原因有以下2点:1)在精细化特征融合分层预测模型的基础上实施区分尺度的策略,提高了模型对多种尺度文字的召回率;2)增加难分类样本和难回归样本的学习,使得模型对关键难样本的特征学习更加充分,保证了模型学习的准确率.

3.4.3. 测试集文字检测结果

图7所示为本研究选取的几张具有挑战性的测试图片. 图7(a)为在背景复杂的、含有水平多尺度文字的自然场景图像上的文字检测结果;图7(b)为在背景复杂的、含有多方向多尺度文字的自然场景图像上的文字检测结果;图7(c)为在图片质量不佳的测试图片上的检测结果. 图中,黄色实线矩形框表示输出的文字检测框,可以看出本研究所提方法在这些具有挑战性的实例上的检测效果较好,能够有效支持多尺度和多方向的文字检测;红色虚线矩形框表示错误结果,可以看出存在误检、漏检等情况,主要是模糊、光线弱、艺术字等原因所造成的.

图 7

图 7   所提方法在典型测试图片上的文字检测结果

Fig.7   Text detection results of proposed method on typical test images


4. 结 语

针对卷积神经网络中间层信息利用不充分的问题,设计多路精细化特征融合模型;针对文字检测任务中不区分尺度和难易样本的学习导致检测精度难以提高的问题,提出对文字进行尺度范围划分并分散到不同网络进行检测的策略,同时设计聚焦难样本特征学习的损失函数;实现多方向多尺度的文字检测. 在不同数据集上的实验结果表明,本研究所提出方法具有较强的鲁棒性,相对于同类方法,检测精度有一定提升,召回率有较明显的提高. 不过,本研究所提出的方法仍然存在较大的改进空间,未来可开展的工作如下:1)文字检测中的分类和回归不完全独立,分类中往往包含位置信息,须消除两者的重复计算或者利用两者的关系辅助文字检测,以提高文字检测方法的效率;2)基于候选框的文字检测忽略了单个字符在图像中的位置信息,可结合长短期记忆网络得到字符序列,进一步推断出上下文信息,这对文字检测和文字识别具有重要意义.

参考文献

姚聪. 自然图像中文字检测与识别研究[D]. 武汉: 华中科技大学, 2014.

[本文引用: 1]

YAO Cong. Research on text detection and recognition in natural images [D]. Wuhan: Huazhong University of Science and Technology, 2014.

[本文引用: 1]

杨飞

自然场景图像中的文字检测综述

[J]. 电子设计工程, 2016, 24 (24): 165- 168

[本文引用: 1]

YANG Fei

Detecting text in natural scene images were reviewed

[J]. Electronic Design Engineering, 2016, 24 (24): 165- 168

[本文引用: 1]

DONOSER M, BISCHOF H. Efficient maximally stable extremal region (MSER) tracking [C]// Computer Vision and Pattern Recognition. New York: IEEE, 2006: 553-560.

[本文引用: 1]

EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform [C]// Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2963-2970.

[本文引用: 1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// International Conference on Neural Information Processing Systems. Lake Tahoe: ACM, 2012: 1097-1105.

[本文引用: 1]

周飞燕, 金林鹏, 董军

卷积神经网络研究综述

[J]. 计算机学报, 2017, 40 (6): 1229- 1251

DOI:10.11897/SP.J.1016.2017.01229      [本文引用: 1]

ZHOU Fei-yan, JIN Lin-peng, DONG Jun

Review of convolution neural network

[J]. Chinese Journal of Computers, 2017, 40 (6): 1229- 1251

DOI:10.11897/SP.J.1016.2017.01229      [本文引用: 1]

TIAN Z, HUANG W, HE T, et al. Detecting text in natural image with connectionist text proposal network [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 56-72.

[本文引用: 3]

YIN X C, YIN X, HUANG K, et al

Robust text detection in natural scene images

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36 (5): 970- 983

DOI:10.1109/TPAMI.2013.182      [本文引用: 1]

NEUMANN L, MATAS J

Real-time lexicon-free scene text localization and recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38 (9): 1872- 1885

DOI:10.1109/TPAMI.2015.2496234      [本文引用: 2]

BUTA M, NEUMANN L, MATAS J. Fastext: efficient unconstrained scene text detector [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1206-1214.

[本文引用: 1]

MA J, SHAO W, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals [J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

[本文引用: 3]

ZHOU X, YAO C, WEN H, et al. EAST: an efficient and accurate scene text detector [C]// Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2642-2651.

[本文引用: 2]

LIAO M, SHI B, BAI X, et al. TextBoxes: a fast text detector with a single deep neural network [C]// Thirty-First AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4161-4167.

HONG S, ROH B, KIM K H, et al. PVANet: lightweight deep neural networks for real-time object detection [C]// Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. arXiv: 1611.08588.

DENG D, LIU H, LI X, et al. PixelLink: detecting scene text via instance segmentation [C]// Thirty-Second AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2018: 6773-6780.

[本文引用: 1]

SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining [C]// Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 761-769.

[本文引用: 1]

ANTHIMOPOULOS M, GATOS B, PRATIKAKIS I

A two-stage scheme for text detection in video images

[J]. Image and Vision Computing, 2010, 28 (9): 1413- 1426

DOI:10.1016/j.imavis.2010.03.004      [本文引用: 1]

LIN T Y, GOYAL P, GIRSHICK R, et al

Focal loss for dense object detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, PP (99): 2999- 3007

[本文引用: 1]

LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936-944.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Computer Vision and Pattern Recognition. Amsterdam: IEEE, 2016: 770-778.

[本文引用: 1]

LIN G, MILAN A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation [C]// Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017, 1925-1934.

[本文引用: 2]

REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Advances in Neural Information Processing Systems. Montreal: ACM, 2015: 91-99.

[本文引用: 1]

UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al

Selective search for object recognition

[J]. International Journal of Computer Vision, 2013, 104 (2): 154- 171

DOI:10.1007/s11263-013-0620-5      [本文引用: 1]

ZITNICK C L, DOLLAR P. Edge boxes: locating object proposals from edges [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 391-405.

[本文引用: 1]

VEIT A, MATERA T, NEUMANN L, et al. Coco-text: dataset and benchmark for text detection and recognition in natural images [C]// Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. arXiv: 1601.07140.

[本文引用: 1]

KARATZAS D, SHAFAIT F, UCHIDA S, et al. Robust reading competition [C]// 12th International Conference on Document Analysis and Recognition. Washington: IEEE, 2013: 1484-1493.

[本文引用: 1]

KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. Competition on robust reading [C]// 13th International Conference on Document Analysis and Recognition. Nancy: IEEE, 2015: 1156-1160.

[本文引用: 1]

WOLF C, JOLION J M

Object count/area graphs for the evaluation of object detection and segmentation algorithms

[J]. International Journal of Document Analysis and Recognition, 2006, 8 (4): 280- 296

DOI:10.1007/s10032-006-0014-0      [本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 21-37.

[本文引用: 1]

LIAO M, ZHU Z, SHI B, et al. Rotation-sensitive regression for oriented scene text detection [C]// Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5909-5918.

[本文引用: 3]

/