基于注意力机制和编码-解码架构的施工场景图像描述方法
A image caption method of construction scene based on attention mechanism and encoding-decoding architecture
通讯作者:
收稿日期: 2021-04-9
Received: 2021-04-9
作者简介 About authors
农元君(1995—),男,硕士,从事深度学习、防灾减灾研究.orcid.org/0000-0002-0758-469X.E-mail:
为了实现在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下的图像描述,提出基于注意力机制和编码-解码架构的施工场景图像描述方法. 采用卷积神经网络构建编码器,提取施工图像中丰富的视觉特征;利用长短时记忆网络搭建解码器,捕捉句子内部单词之间的语义特征,学习图像特征与单词语义特征之间的映射关系;引入注意力机制,关注显著性强的特征,抑制非显著性特征,减少噪声信息的干扰. 为了验证所提方法的有效性,构建一个包含10种常见施工场景的图像描述数据集. 实验结果表明,所提方法取得了较高的精度,在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下具有良好的图像描述性能,且具有较强的泛化性和适应性.
关键词:
A construction scene image caption method based on attention mechanism and encoding-decoding architecture was proposed, in order to realize the image caption in the complex construction scenes such as poor light, night construction, long-distance dense small targets and so on. Convolutional neural network was used to construct encoder to extract rich visual features in construction images. Long short-term memory network was used to construct decoder to capture semantic features of words in sentences and learn mapping relationship between image features and semantic features of words. Attention mechanism was introduced to focus on significant features, suppress non-significant features and reduce interference of noise information. An image caption data set containing ten common construction scenes was constructed in order to verify the effectiveness of the proposed method. Experimental results show that the proposed method achieves high accuracy, has good image caption performance in complex construction scenes such as poor light, night construction, long-distance dense small targets and so on, and has strong generalization and adaptability.
Keywords:
本文引用格式
农元君, 王俊杰, 陈红, 孙文涵, 耿慧, 李书悦.
NONG Yuan-jun, WANG Jun-jie, CHEN Hong, SUN Wen-han, GENG Hui, LI Shu-yue.
图像描述是一个融合计算机视觉和自然语言处理的综合问题,其目标是针对给定的输入图像,理解图像中的内容并自动生成相应的文本描述,实现图像特征和文本特征的相互映射. 随着建筑信息化的快速普及,建筑项目在施工过程中产生的图像数据与日俱增. 通过对施工图像进行描述,可以生成与施工场景内容相关且语义通顺的文本描述,实现对施工场景的深度感知和理解,辅助施工管理者快速掌握施工活动信息并及时做出决策,提高施工现场自动化和智能化管理水平. 因此,实现施工场景下的图像描述具有重要的研究意义.
目前关于建筑施工场景的研究主要侧重于采用目标检测方法对施工场景中的目标进行检测和识别,如个人防护设备穿戴检测[1-2]、施工车辆检测[3]、钢筋检测和计数[4]等,而关于施工场景的图像描述的研究较为匮乏. 徐守坤等[5]提出一种规则和模板相结合的安全帽佩戴图像描述生成方法,可以生成施工场景中工人佩戴安全帽的描述语句,但其聚焦的施工场景较为单一,仅研究工人佩戴安全帽场景,未充分考虑工人绑钢筋、浇筑混凝土及砌砖等多个常见的施工场景,且所采用的规则和模板法存在描述语句结构相对固定、多样性不足、句子语义流畅性较差的缺陷. Bang等[6]采用密集描述网络对无人机收集的施工图像进行描述,可以生成施工图像中关于目标区域的文本描述,但该方法只关注施工图像中目标区域的局部信息,未能捕获和感知施工场景的全局信息,无法生成关于施工场景全局信息的文本描述. 此外,采用无人机以俯视的角度收集施工图像,存在施工场景细粒度信息难以挖掘、图像描述难度大的缺陷. Liu等[7]采用图像描述方法对建筑施工活动进行研究,可以生成与施工场景活动相关的文本描述,但其所研究的施工活动较少,仅限于5种施工活动,且未充分考虑光线不佳、夜间施工、远距离小目标、密集目标等复杂环境下的施工场景,存在一定的局限性.
施工现场环境复杂、人员密集、场地狭小、存在多种施工机械及施工用具,工人与施工机械及用具之间存在复杂的交互关系,并且施工条件复杂,如须在夜间光线不佳的情况下施工、施工期间运输混凝土及施工材料的运输车辆频繁出入施工现场,因此对施工场景进行描述极具难度和挑战性,对施工场景图像描述模型的性能具有较高的要求.
本研究针对上述施工场景图像描述研究中存在的不足与难点,提出基于注意力机制和编码-解码架构的施工场景图像描述方法. 采用卷积神经网络构建编码器,对输入图像进行特征提取;利用长短时记忆网络LSTM搭建解码器,提取句子内部单词之间的句法特征;引入注意力机制[8],重点关注显著性强的特征,抑制显著性弱的及其他冗余和噪声特征信息. 为了验证所提方法的有效性,构建了一个基于施工场景的图像描述数据集,该数据集数据量丰富,覆盖了10种常见的施工场景,并且包含远距离小目标、密集目标、夜间施工、光线不佳等多种复杂施工环境,能够较为完备地反映施工现场真实场景的情况.
1. 基于注意力机制和编码-解码架构的施工场景图像描述方法
为了实现施工场景下的图像描述任务,提出基于注意力机制和编码-解码架构的施工场景图像描述方法,其系统框架如图1所示. 该方法以编码-解码结构作为基础模型,首先采用具有强健空间感知性能的卷积神经网络构建编码器,以提取施工图像中的视觉特征及语义特征,实现视觉与语义的深度融合及传递. 其次采用长短时记忆网络搭建解码器,捕捉句子内部单词之间的句法特征、单词位置编码信息,通过学习图像特征与句法语义特征间的联系及映射关系,实现对施工场景的深度感知与理解,生成与施工场景内容相关且语义通顺的文本描述. 此外,为了提升描述结果的准确性,将注意力机制引入解码器,通过计算输入信息的重要性分布,协助模型重点关注显著性强的信息,抑制显著性弱的及其他冗余和噪声信息,增强模型对施工场景的感知与理解.
图 1
图 1 施工场景图像描述模型系统框架
Fig.1 System framework of construction scene image caption model
1.1. 编码器
施工图像中蕴涵丰富的颜色特征、区域特征、纹理特征等视觉特征,以及包含施工场景信息、环境信息、空间信息、不同目标对象间的交互关系及逻辑关系等更深层次的非视觉上的语义信息。这些视觉信息和语义信息是模型感知和理解施工场景的基础,通过捕捉和学习施工图像中大量的视觉信息和语义信息,实现视觉和语义信息的深度融合及传递,增强模型对施工场景的感知与理解,生成关于施工场景全局信息的文本描述.
卷积神经网络具有强大的空间感知能力,可以从图像中提取出大量的特征信息. 因此,采用卷积神经网络构建编码器,对施工图像进行特征提取. 施工现场环境复杂、人员密集、场地狭小、存在多种施工机械及施工用具,且工人与施工机械及用具之间存在复杂的交互关系,对神经网络的特征提取能力具有较高的要求. 为了充分提取复杂施工环境下施工图像的视觉特征和语义特征,本研究采用具有强健特征提取能力的ResNet-101网络对输入的施工图像进行特征提取.
以单个原始施工图像作为输入,采用one-hot编码方式对单词语句进行编码,生成一句由各个单词的one-hot编码所构成的描述:
式中:K为词汇表的大小,C为描述句子的长度.
采用卷积神经网络对输入图像进行特征提取,生成一个标注向量组(也称特征向量组)a:
该向量组a中的每一个向量ai均对应输入图像的一个区域的D维表示.
为了获取标注向量ai和输入图像之间的对应关系,模型从较浅的卷积层中提取特征,摒弃传统的从全连接层提取特征的方式. 从浅层特征层中提取特征,有利于解码器通过选择所有特征向量的子集来选择性地将注意力聚焦于图像的主要部分. 此外,浅层特征包含丰富的细节信息和位置信息,背景噪声信息小,对施工图像中的目标定位较准确.
1.2. 解码器
如图2所示,采用长短时记忆网络LSTM构建解码器,通过动态地选择图像特征,提取句子内部单词之间的句法特征、单词位置编码信息,学习图像特征与句法特征及单词特征之间的映射关系.
图 2
LSTM在每个时间步上根据上下文向量、上一时刻的隐藏状态和当前时刻生成的单词对下一个单词进行预测. LSTM中输入门it、遗忘门ft、输出门ot、记忆状态ct和隐藏状态ht的表达式如下:
式中:gt为被输入门控制的候选变量;
上下文向量zt动态地表示了不同时刻t下输入图像的相关区域. 为了从对应于不同图像位置特征的标注向量ai中计算上下文向量zt,引入一种机制
式中:eti为t时刻下i位置的特征,L为位置的长度.
在标注向量ai的正权值
为了消除波动的影响,LSTM对记忆状态c和隐藏状态h进行初始化处理,通过均值化标注向量ai,并输入2个独立的多层感知机finit,c与finit,h进行计算:
最后根据LSTM的状态、上下文向量和上一时刻输出的单词来计算当前时刻所输出单词的概率:
式中:L0∈RK×m, Lh∈Rm×n,Lz∈Rm×D;E为须学习的参数,随机初始化。
1.3. 注意力机制
施工现场环境复杂,存在多种噪声及冗余信息的干扰,为了增强模型对显著信息的关注,提升描述准确性,将注意力机制[8]引入解码器. 注意力是一种权重参数分配的机制,通过计算输入信息的重要性分布,协助模型重点关注显著性强的信息,抑制显著性弱的及其他冗余和噪声信息,在大量信息中快速捕捉到当前最需要的信息,减少无用信息的干扰,提升描述结果的准确性. 如图3所示为注意力机制的可视化效果图. 图中,深红色区域表示显著性强的特征区域. 由图3(a)可以看出,注意力机制通过对图像特征进行筛选,将注意力聚焦在2辆挖掘机的特征区域上,抑制其他无关的特征信息,增强模型对施工目标的捕获和感知能力. 由图3(b)可以看出,注意力机制将注意力聚焦在工人和手推车的特征区域上,增强模型对施工场景的感知与理解.
图 3
当模型在生成第t个单词时,注意力聚焦的位置表示为st(位置变量). 若模型从图像的i位置提取视觉特征,则将独热变量st,i设置为1. 通过将注意力位置st设为中间潜在变量,定义一个以
其次定义一个新的目标函数Ls,其下界为边缘对数似然函数lg P(Y|a),lg P(Y|a)表示在给定图像特征a的情况下,由各个单词的one-hot编码所构成的描述Y的概率分布. 通过对目标函数Ls进行求导和优化,可以求解出参数W的分布. 表达式分别为
为了便于求解出式(15)中的梯度,引入式(12)中的采样位置st,并采用n次蒙特卡洛采样进行近似:
为了减少蒙特卡洛方法估计梯度时的方差,采用移动平均算法进行计算,其中第k个批次的移动平均值bk被估计为先前对数似然函数与指数衰减的累积和:
为了进一步降低蒙特卡洛估计的方差,在范畴分布中引入了一个熵项H[s]. 同时,为了增强注意力机制的有效性和鲁棒性,将注意力采样位置
式中:
2. 实验与结果
2.1. 施工场景图像描述数据集
为了构建施工场景图像描述数据集,首先根据施工现场常见的施工活动,选择10种施工场景作为研究对象,如表1所示. 其次通过现场采集、从公共数据集中选取和网上爬取的方式共收集1200张施工图像,每种施工场景下的图像数量如表1所示. 同时编写Python脚本获取每张图像的名称及尺寸信息. 最后采用VIA标注软件[12]对收集到的施工图像进行标注,根据施工图像的场景内容赋予每张图像5个描述语句,描述语句的部分示例如图4所示. 在标注完成后以json的格式存储标注信息. 所构建的数据集数据量丰富,覆盖了10种常见的施工场景,并且包含远距离小目标、密集目标、夜间施工、光线不佳等多种复杂施工环境,能够较为完备地反映施工现场真实场景的情况. 随机选取数据集中60%的图像作为训练集,剩余的40%作为测试集.
表 1 10种常见的施工场景及相应的图像数量
Tab.1
施工场景 | 数量 | 施工场景 | 数量 | |
工人推/拉手推车 | 115 | 工人爬梯子作业 | 120 | |
挖掘机挖土 | 120 | 工人佩戴安全帽 | 120 | |
工人焊接铁制品 | 125 | 工人砌砖 | 130 | |
工人拿电钻机作业 | 120 | 工人绑钢筋 | 120 | |
工人在脚手架上作业 | 120 | 工人浇筑混凝土 | 110 |
图 4
图 4 施工场景图像描述数据集示例
Fig.4 Example of data set of construction scene image caption
2.2. 实验平台与参数设置
图像描述模型在训练中需要进行大量的运算,对硬件环境要求较高,因此选择在搭载有GPU图形处理器的工作站中对图像描述模型进行训练,工作站的配置如下:采用ubuntu 16.04操作系统,搭载有Intel Core i7-8700处理器以及GeForce RTX 2060图形处理器,显存6 GB,采用CUDA 10.1和CUDNN 7.6.3加速库进行加速和推理.
实验基于PyTorch深度学习框架进行,为了加快模型训练收敛的速度,编码部分使用在ImageNet数据集上预训练好的ResNet-101权重来初始化模型参数. 采用Adam作为优化器,训练次数(Epoch)设置为120次,batch_size设置为16,采用交叉熵函数作为模型的损失函数. 编码器和解码器的初始学习率分别设置为1×10−4和4×10−4,LSTM隐含层和词嵌入的维度均设置为512. 为了防止过拟合,提高模型的泛化能力,在训练中引入dropout机制. 此外,为了提高训练效率,采用Early Stopping的训练机制,若网络在训练中在连续10个Epoch内精度没有提升,则停止训练. 将提出的模型在构建的数据集中进行训练,共耗时32.4 h.
2.3. 评价指标
2.4. 实验结果
为了验证所提出模型的有效性,将训练好的模型在施工图像描述测试集中进行测试,并与当前图像描述性能较好的其他模型进行比较,结果如表2所示,其中本研究模型在单张图像中的检测时间为0.213 s.
由表2可知,所提出的模型在施工图像描述测试集中取得了较高的精度,其BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L、CIDEr指标得分分别为0.783、0.608、0.469、0.357、0.293、0.586、0.962,较NIC[17]、Adaptive[18]、Self-critic[19]、Up-down[20]模型均有提升,充分验证了本研究所提出模型的有效性. 究其原因,编码部分采用具有强大空间感知能力的ResNet-101对输入的施工图像进行特征提取,捕获了大量的区域特征、颜色特征、纹理特征等视觉特征,以及关于场景信息、目标交互关系信息、环境信息等更深层次的语义信息,使模型充分感知与理解视觉和语义的交叉特征. 同时,模型采用LSTM网络搭建解码器,动态地选择图像特征,提取句子内部单词之间的句法特征、单词位置编码信息,捕捉和学习图像特征与单词语义特征之间的联系及映射关系. 此外,为了提升描述结果的准确性,通过引入注意力机制使模型重点关注显著性强的特征,抑制显著性弱的特征,摒弃其他冗余和噪声特征,增强模型对施工场景的感知和理解,减少关键信息的丢失.
表 2 不同方法在施工图像描述数据集中的实验结果
Tab.2
方法 | 主干网络 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE_L | CIDEr |
NIC[17] | VGG-16 | 0.725 | 0.542 | 0.386 | 0.295 | 0.248 | 0.531 | 0.854 |
Adaptive[18] | VGG-16 | 0.738 | 0.556 | 0.403 | 0.319 | 0.259 | 0.545 | 0.887 |
Self-critic[19] | ResNet-101 | 0.751 | 0.573 | 0.437 | 0.332 | 0.266 | 0.558 | 0.913 |
Up-down[20] | ResNet-101 | 0.764 | 0.587 | 0.455 | 0.344 | 0.271 | 0.572 | 0.946 |
本研究方法 | ResNet-101 | 0.783 | 0.608 | 0.469 | 0.357 | 0.293 | 0.586 | 0.962 |
表 3 消融实验结果
Tab.3
注意力机制 | BLEU-1 | METEOR | ROUGE_L | CIDEr |
× | 0.758 | 0.264 | 0.562 | 0.921 |
√ | 0.783 | 0.293 | 0.586 | 0.962 |
2.5. 检测结果可视化
为了直观地展示模型的检测效果,将本研究所提出的模型在测试集中的部分检测结果进行可视化,如图5所示. 可以看出,所提出的模型具有良好的图像描述性能,可以准确地对施工图像进行描述,生成符合图像内容的文本描述. 如图5(f)所示,在夜间光线不佳的复杂环境下,模型依旧能描述出工人在夜间浇筑混凝土,表明模型具有良好的鲁棒性,对复杂施工场景具有较强的适应性;如图5(d)所示,在远距离密集小目标的情况下,模型也能描述出许多工人在工地上施工,表明模型对小目标具有较强的感知能力;如图5(e)所示,模型除了精准描述出工人在弯着腰绑钢筋,还识别出工人戴着红色的安全帽,表明模型对目标属性具有良好的感知能力,充分捕捉和学习到了目标区域特征、属性特征、细节特征等丰富的视觉信息;如图5(a)所示,模型能准确描述出6名工人在脚手架上施工,表明模型对目标数量具有强健的推理能力.
图 5
2.6. 泛化性实验
为了进一步验证所提出模型的泛化性,另采用在施工现场采集且不包含在所创建数据集中的施工图像对提出模型的描述性能进行检验,结果如图6所示. 可以看出,对于数据集以外的施工图像,提出的模型依旧准确地生成符合图像场景内容的文本描述,表明其具有良好的泛化性和适应性,可以胜任施工场景下的图像描述任务.
图 6
2.7. 注意力机制结果可视化
图 7
3. 结 语
本研究提出基于注意力机制和编码-解码架构的施工场景图像描述方法,并构建了一个基于施工场景的图像描述数据集. 实验结果表明,所提方法在构建的施工场景图像描述数据集上取得了较高的精度,具有良好施工场景图像描述性能,在远距离小目标、密集目标、夜间施工等复杂环境下可以生成与施工场景内容相关且语义通顺的文本描述,且具有较强的泛化性和适应性.
本研究所提出的方法实现了施工场景下的图像描述任务,具有良好的施工场景图像描述性能,但其准确率仍具有提升的空间. 因此,下一步将考虑引入强化学习策略,以进一步提升模型在复杂施工场景下的描述性能.
参考文献
Automatic detection of hardhats worn by construction personnel: a deep learning approach and benchmark dataset
[J].DOI:10.1016/j.autcon.2019.102894 [本文引用: 1]
Deep learning for site safety: real-time detection of personal protective equipment
[J].DOI:10.1016/j.autcon.2020.103085 [本文引用: 1]
Dense construction vehicle detection based on orientation-aware feature fusion convolutional neural network
[J].DOI:10.1016/j.autcon.2020.103124 [本文引用: 1]
A deep learning approach for real-time rebar counting on the construction site based on YOLOv3 detector
[J].DOI:10.1016/j.autcon.2021.103602 [本文引用: 1]
一种基于安全帽佩戴检测的图像描述方法研究
[J].DOI:10.3969/j.issn.1000-1220.2020.04.025 [本文引用: 1]
Research on image caption method based on safety helmet wearing detection
[J].DOI:10.3969/j.issn.1000-1220.2020.04.025 [本文引用: 1]
Context-based information generation for managing UAV-acquired data using image captioning
[J].DOI:10.1016/j.autcon.2020.103116 [本文引用: 1]
Manifesting construction activity scenes via image captioning
[J].DOI:10.1016/j.autcon.2020.103334 [本文引用: 1]
Framing image description as a ranking task: data, models and evaluation metrics
[J].DOI:10.1613/jair.3994 [本文引用: 1]
From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions
[J].DOI:10.1162/tacl_a_00166 [本文引用: 1]
/
〈 |
|
〉 |
