浙江大学学报(工学版), 2024, 58(2): 317-324 doi: 10.3785/j.issn.1008-973X.2024.02.010

计算机技术、通信技术

基于Transformer的多模态级联文档布局分析网络

温绍杰,, 吴瑞刚, 冯超文, 刘英莉,

1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500

2. 昆明理工大学 云南省计算机技术应用重点实验室,云南 昆明 650500

Multimodal cascaded document layout analysis network based on Transformer

WEN Shaojie,, WU Ruigang, FENG Chaowen, LIU Yingli,

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

2. Yunnan Key Laboratory of Computer Technologies Application, Kunming University of Science and Technology, Kunming 650500, China

通讯作者: 刘英莉,女,副教授. orcid.org/0000-0003-0298-9257. E-mail: lyl@kust.edu.cn

收稿日期: 2023-05-26  

基金资助: 国家自然科学基金资助项目(52061020,61971208); 云南计算机技术应用重点实验室开放基金资助项目(2020103); 云南省重大科技专项资助项目(202302AG050009)

Received: 2023-05-26  

Fund supported: 国家自然科学基金资助项目(52061020,61971208);云南计算机技术应用重点实验室开放基金资助项目(2020103);云南省重大科技专项资助项目(202302AG050009)

作者简介 About authors

温绍杰(1999—),男,硕士生,从事智能文档信息提取的研究.orcid.org/0009-0004-1100-2092.E-mail:wenshaojie@stu.kust.edu.cn , E-mail:wenshaojie@stu.kust.edu.cn

摘要

针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐, 文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net). 设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力. 直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量. 实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%. 相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优.

关键词: 文档布局分析 ; 词块对齐嵌入 ; Transformer ; MCOD-Net模型

Abstract

The multimodal cascaded document layout analysis network (MCOD-Net) based on Transformer was proposed in order to solve the issue of misalignment in the existing methods for pretraining objectives in both text and image modalities, which involve complex preprocessing of document images using convolutional neural network (CNN) structures leading to many model parameters. The word block alignment embedding module (WAEM) was introduced to achieve alignment embedding of the pretraining objectives for text and image modalities. Masked language modeling (MLM), masked image modeling (MIM) and word-patch alignment (WPA) were utilized for pretraining in order to enhance the model’s representation learning capabilities across text and image modalities. The model structure was simplified and the number of model parameters was reduced by directly using the original document images and representing them using linear projected features of image blocks. The experimental results demonstrate that the proposed model achieves an mean average precision (mAP) of 95.1% on the publicly available PubLayNet dataset. A 2.5% overall performance improvement was achieved with outstanding generalization ability and exhibiting the best comprehensive performance compared with other models.

Keywords: document layout analysis ; word-block alignment embedding ; Transformer ; MCOD-Net model

PDF (2183KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

温绍杰, 吴瑞刚, 冯超文, 刘英莉. 基于Transformer的多模态级联文档布局分析网络. 浙江大学学报(工学版)[J], 2024, 58(2): 317-324 doi:10.3785/j.issn.1008-973X.2024.02.010

WEN Shaojie, WU Ruigang, FENG Chaowen, LIU Yingli. Multimodal cascaded document layout analysis network based on Transformer. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(2): 317-324 doi:10.3785/j.issn.1008-973X.2024.02.010

随着数字化时代的到来,大量的文档数据被生成和存储,涵盖了广泛的学科领域,有着重要的学术和实用价值. 文档通常具有复杂的结构,为了从非结构化文档中提取有价值的信息,首要任务是对文档进行结构分析,以确定文档中每个元素的类型、位置和排列方式,从而更好地理解文档的内容. 识别非结构化数字文档布局是将文档解析为结构化、机器可读的格式,进而支持下游应用程序的重要步骤[1].

在早期的研究工作中,大多都基于图像处理和文本解析的方式对文档进行结构分析. Watanabe等[2]提出基于水平垂直线的方法来识别定位文档中的表格区域. Hirayama[3]将包含表格或图形的区域通过水平和垂直线的方式区分开来,使用DP匹配方法来分析区域结构. Fang等[4]提出利用视觉分隔符和几何内容布局信息的文档区域检测方法. Bunke等[5]提出图嵌入框架与最近邻分类器,对传统文档进行结构分析. 尽管这些方法取得了较好的成果,但对文档图像的质量要求较高,对文本复杂度较高的文档处理效果较差.

随着深度学习技术的迅速发展,该技术已被广泛应用到文档布局分析任务中[6]. 张真等[7]提出基于双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)的流式文档结构识别方法,取得了较好的成果. Saha等[8]使用Faster R-CNN[9]和Mask R-CNN[10]网络来提取各区域特征,精准识别出文档表格区域. Riba等[11]通过图神经网络(graph neural network, GNN)来识别文本和图片区域,构建一个图来判别表格区域. Xu等[12-13]提出基于Transformer的文档布局分析模型LayoutLM和基于视觉Transformer架构的DiT(Document Image Transformer)模型. 前者不仅可以处理文本和布局信息,还可以处理多语言文档. Appalaraju等[14]提出Docformer模型,将文档布局分析任务转化为序列标注问题.

基于深度学习的文档布局分析方法具有较好的泛化能力和鲁棒性,但存在以下几个挑战. 1)由于文本和图像不同类型数据具有不同的特征表示方式,在文本和图像模态预训练目标上存在嵌入不对齐的问题,导致模型在提取目标元素时丢失精度,限制了多模态任务的性能. 2)对文档图像预处理的流程复杂,大多采用基于卷积神经网络(convolutional neural networks, CNN)结构的模型(如ResNet)对文档图像进行区域特征提取,增大了模型的复杂度.

针对以上问题,本文提出基于Transformer的多模态级联文档布局分析网络(multimodal cascaded object detection network, MCOD-Net),实现文本和图像模态预训练目标的对齐嵌入. 使用图像块的线性投影特征表示文档图像,无需复杂的预处理流程,降低模型的参数量. 实验结果表明,所提出模型在文档布局分析任务上具有优异的性能.

1. 研究方法

1.1. 模型结构

Detectron2框架是Facebook AI研究院(Facebook AI Research, FAIR)于2018年初公开的目标检测平台,具有简洁高效、简单易用的特点,受到广泛关注[15]. 搭建Detectron2目标检测环境,基于Detectron2构建MCOD-Net模型,实现文档布局分析的任务. MCOD-Net模型是多级目标检测网络,该模型采用6层Transformer编码器进行特征提取,包含6个多头自注意力模块,隐藏层大小$D = 384$,表示前馈神经网络的隐藏层有1 536个神经元. 通过6层多模态Transformer模块进行编码. 使用Cascader R-CNN[16]作为目标检测模型的骨干网络进行解码. 模型从不同的Transformer层中提取单尺度特征,使用分辨率修正模块,将单尺度特征转换为多尺度的特征金字塔网络 (feature pyramid network, FPN)特征. 模型的整体结构如图1所示.

图 1

图 1   MCOD-NET模型的架构图

Fig.1   Architecture diagram of MCOD-NET model


1.2. 词块对齐嵌入模块

词块对齐嵌入模块如图1的词块嵌入所示,主要实现文档图片在文本模态和图像模态上对齐嵌入. 该模块主要分为文本嵌入和图像嵌入2个部分.

文本嵌入部分结合了单词嵌入和位置嵌入的方法. 如图1所示,使用OCR技术对文档图像进行预处理,获得文档图像中标题、文本、列表、表格元素包含的所有文本内容,图片元素在图像嵌入部分实现. 使用预训练模型RoBERTa来初始化词嵌入. 位置嵌入包含一维位置和二维布局位置嵌入. 其中,一维位置指的是文本序列中标记的索引,二维布局位置指的是文本序列的边界坐标. 根据文档图像的大小对所有坐标进行归一化处理,通过嵌入层分别嵌入X轴、Y轴、宽度和高度的特征. 由于文本存在上下文关系,采用段落级布局位置,即每一段落中的词共享相同的二维布局位置. 整体位置嵌入逻辑如下所示:

$ {\text{PE}}_{{(i,j)}}\text=\left\{\begin{array}{l}{\text{pos}}_{{i}},\;\; { j=1}\text{;}\\ {\text{pos}}_{{j}},\;\;{i=1}\text{;}\\ \dfrac{\left|{i/2}\right|}{{\text{10 000}}^{\text{2}\left({j/2}\right){{/d}}_{\text{model}}}},\;\;{ j 为偶数,\;i为奇数}\text{;}\\ \dfrac{\left|{i/2}\right|}{{\text{10 000}}^{\text{2}\lceil \left(j-1\right)/2\rceil {{/d}}_{\text{model}}}},\;\;{ i 为偶数,\;j为奇数,\;j \notin [w_{\rm{s}},\;w_{\rm{e}}]}\text{;}\\ \dfrac{\left|{i/2}\right|}{{\text{10 000}}^{\text{2}\left({j/2}\right){{/d}}_{\text{model}}}}·\dfrac{\left|{i/2}\right|}{{\text{10 000}}^{\text{2}\lceil \left(j-1\right)/2\rceil {{/d}}_{\text{model}}}},\;\;{i、j均为奇数或均为偶数}\text{;}\\ \dfrac{\left|{w/2}\right|}{{\text{10 000}}^{\text{2}\left({j/2}\right){{/d}}_{\text{model}}}}·\dfrac{\left|{j/2}\right|}{{\text{10 000}}^{\text{2}\lceil \left(w-1\right)/2\rceil {{/d}}_{\text{model}}}},\;\;{i为偶数,\;j为奇数,\;}j \in \left[{w}_{{\rm{s}}},{w}_{{\rm{e}}}\right].\end{array} \right.$

式中:${\rm{po}}{{\rm{s}}_i}$为输入序列中第$i$个单词的位置,${{{d}}_{{\text{model}}}}$为模型的嵌入维度,$i$${{j}}$分别为单词在输入序列中的位置索引和在单词级别位置编码中的维度,$w$为当前单词的长度,${w_{\rm{s}}}$${w_{\rm{e}}}$分别为当前单词的起始位置和结束位置. 式(1)的前2行分别将输入序列的位置信息嵌入到特征向量的第1维和第2维中. 后2行使用正弦和余弦函数,将相邻单词的相对位置编码为特征向量中的一维. 最后一行用来编码单词级别的位置信息.

对于图像嵌入部分,受到VIT[17]和VILT[18]的启发,使用图像块的线性投影特征来表示文档图像. 将图像块的线性嵌入序列作为多模态Transformer的输入. 给每个图像块添加可学习的一维位置嵌入. 具体来说,将整个文档图像大小调整为$H \times W$,使用$ {\boldsymbol{I}} \in {{\bf{R}}^{C \times H \times W}} $来表示图像,其中$C$$H$$W$分别为文档图像的通道大小、高度和宽度. 将整个文档图像切分成一串均匀$T \times T$大小的图像块,使用${\boldsymbol{v}} \in {{\bf{R}}^{N \times ({T^2} \times C)}}$表示将图像块线性投影到$D$维,并将其转换成一串向量,长度为$N = H W/{T^2}$.

表1中,Np为参数量. 如表1所示, 模型先将图像块展平,然后经过线性映射获得图像特征序列,不是依赖于传统基于CNN架构的网络模型抽取文档图像网格特征作为Transformer的输入. 采用该方式,可以大大减少模型的可训练参数.

表 1   不同图像处理方法的参数量对比

Tab.1  Comparison of parameter sizes for different image processing methods

模型主干网络Np/106
ResNet-50CNN25
ResNet-101CNN44
ResNet-152CNN60
线性嵌入(本文方法)Linear0.6

新窗口打开| 下载CSV


1.3. 特征编码

特征编码模块如图1的 Multimodel Transformer层所示,该模块包含6层Transformer编码器,包括6个多头自注意力块,其中5个自注意力块分别进行每一类元素的检测,另外一个自注意力块进行文本和图像位置对齐的检测. 每个Transformer层提取单尺度特征,利用分辨率校正模块将单尺度特征转换为多尺度的FPN特征. FPN模型的基本思想是通过跨层级连接来结合高层次语义信息与低层次的细节信息,构建金字塔式的特征层级结构[19]. 具体来说,FPN将下采样(池化)过程中的特征图上采样(插值)到原始分辨率,与原始特征图进行融合,生成高分辨率、高语义信息的特征图. 这些特征图可以用于不同尺度的目标检测任务. FPN的主要优点是能够在不引入额外参数的情况下,有效地提高目标检测模型的性能.

1.4. 特征解码

特征解码模块如图1的Cascader R-CNN层所示. 该模块对多模态Transformer模块中编码的数据进行层层解码,得到和原始图像相同像素的检测特征图. 它通过级联多个R-CNN模型,逐步提高检测性能. 在级联R-CNN中,第1个阶段使用较少的候选区域,以尽可能高的召回率生成更多的候选区域. 在之后的几个阶段中,通过对候选区域进行更加精细的筛选和分类,提高检测的精度. 具体来说,第2阶段将第1阶段中提取到的特征进一步加工,以提高准确性. 第3阶段和第4阶段分别通过增加更多的特征和使用更强的模型,更进一步提高准确性.

1.5. 数据预训练

模型使用掩码语言模型(masked language modeling, MLM)、掩码图像模型(masked image modeling, MIM)和词块对齐(word-patch alignment, WPA)3个预训练目标进行训练,以自监督学习的方式学习多模态表示. 其中MLM的目标是通过遮盖输入文本中的一些词语,使得模型根据上下文信息来预测被遮盖的词语,以提高模型理解上下文的能力[20]. MIM是使模型通过联合处理上下文文本和图像表征,更好地理解视觉内容. 这种训练策略可以激励模型从多个视觉表征中解释视觉信息,提高模型的视觉推理能力[21]. WPA是为了训练得到词块对齐而专门做的预训练[22]. 整体预训练目标为

$ L = {L_{_{{\rm{MLM}}}+{L_{{\rm{MIM}}}}+{L_{{\rm{WPA}}}}}} . $

1.5.1. MLM预训练

MLM预训练中借鉴了BERT中掩码语言建模和LayoutLM中掩码视觉语义建模的方法. 采用跨度屏蔽策略遮罩30%的文本标记,跨度长度采用泊松分布($\lambda = 3$). 预训练目标根据图像标记和文本标记的损坏序列上下文表示,使得正确遮罩文本标记的对数可能性最大化,交叉熵损失最小化,计算式为

$ {L_{{\rm{MLM}}}}(\theta ) = \sum\limits_{l = 1}^{L'} {\log_2 P_\theta ({y_{i}{|{X^{M'}},{Y^{L'}}}})} . $

式中:$ M' $$ L' $为掩盖的位置,$ {X^{M'}} $为图像标记,${Y^{L'}}$为文本标记,${y_i}$为正确遮罩文本标记,P为概率,$\theta $为Transformer模型的参数.

1.5.2. MIM预训练

为了提高模型对上下文文本和图像的理解和表征能力,将BEiT[23](bidiretional encoder representation from image transformers)中的MIM预训练目标改写为多模态Transformer模块. MIM采用顺时针遮盖策略,即在实验中随机对约40%的图像标记进行遮盖. 在MIM预训练中,利用交叉熵损失来引导模型学习文本和图像中被遮盖的部分,逐渐优化其预测能力. 对被掩盖的图像标记建模为

$ {L_{{\rm{MIM}}}}(\theta ) = - \sum\limits_{m = 1}^{M'} {\log_2 P_\theta ({x_m}|{X^{M'}},{Y^{L'}})} . $

式中:${x_m}$为被掩盖的图像标记.

图像标记的标签来自于图像标记器,它可以根据视觉词汇,将密集的图像像素转换成离散的标记. MIM有利于学习高层次的布局结构,而不是嘈杂的低层次细节.

1.5.3. WPA预训练

由于使用MLM和MIM预训练策略随机屏蔽了文本和图像标记,但是在文本和图像模态之间没有明确的对齐学习. 为了实现文本和图像的对齐,引入WPA预训练,使得模型能够更好地理解文本词和图像块之间的细粒度对应关系. WPA预训练目标是预测文本词对应的图像块是否被遮蔽. 具体来说,当未被遮蔽的文本标记的对应图像标记也没有被遮蔽时,为该文本标记分配一个对齐的标签. 否则,分配一个未对齐的标签. 在计算WPA损失时,排除了被掩盖的文本标记,以防止模型学习被掩盖的文本词和图像块之间的对应关系. 采用2层MLP头,输入上下文文本和图像,输出二进制对齐或未对齐标签. 二进制交叉熵损失的计算式为

$ {L_{{\rm{WPA}}}}(\theta ) = - \sum\limits_{\tau = 1}^N {\log_2 P_\theta ({z_\tau }|{X^{M'}},{Y^{L'}})} . $

式中:$N$为未被屏蔽的文本标记的数量,${z_\tau }$为位于$\tau $位置的语言标记的二进制标签.

2. 实验数据集及评价指标

2.1. 实验数据集

为了保证实验的可靠性和公平性,使用PubLayNet公开数据集进行实验,PubLayNet是大规模的文档布局分析数据集,通过自动解析PubMed XML文件来构建文档图像[24]. 生成的注释涵盖了典型的文档布局元素,具有丰富的布局结构和内容类型,如标题、正文、图片、表格、列表等. 该数据集包含335 703张训练集、11 245张验证集和11 405张测试集. 该数据集的目标是为基于机器学习的出版物智能化处理提供公开、可用的数据资源,促进出版物版面分析领域的研究和进展[24]. 该数据集及其标签如图2所示.

图 2

图 2   PubLayNet数据集及对应标签

Fig.2   PubLayNet dataset and corresponding labels


2.2. 评估指标

模型评估指标选取边界框的类别和平均精度均值mAP@IOU[0.50:0.95],即交并比(intersection over union,IOU)阈值为0.50~0.95时的平均精度来衡量模型性能.评估指标的计算式为

$ {\rm{mAP}} = \frac{{\displaystyle \sum\nolimits_{i = 1}^C {{\rm{A}}{{\rm{P}}_i}} }}{C} . $

式中:AP为精确率P(precision)和召回率R(recall)的平均精度,指的是所有图片内的某一具体类别的PR曲线下的面积;C为文档布局分析任务中的类别数量. 精确率的计算公式为

$ {\text{Precision}} = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}} . $

召回率的计算公式为

$ {\text{Recall}} = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}} . $

式中:TP、FP和FN分别为真阳性(true positive)、假阳性(false positive)和假阴性(false negative),是机器学习中常用的几个统计量.

3. 实验结果与分析

3.1. 实验环境

实验全部在Ubuntu 20.04系统,Pytorch框架下实现,硬件环境为GPU(NVIDIA Tesla V100),内存为16 GB.MDOC-Net模型使用随机梯度下降优化器进行模型训练,动量参数设置为0.99,初始学习率为0.000 2,采用批量大小为2的小批量随机梯度下降法进行训练,设置0.05的权重衰减防止过拟合,训练轮数设置为60 000.

3.2. 模型配置

MCOD-Net模型采用6层Transformer编码器,每一层都包含6个自注意力模块,隐藏层的大小为$D = 384$,前馈网络的中间大小为1 536. 其中5个自注意力块分别进行每一类文档元素检测,另外一个自注意力块进行文本和图像位置对齐检测. 为了对文本输入进行预处理,采用字节对编码(byte pair encoding, BPE)对文本序列进行标记,最大序列长度$L = 512$. 在输入的文本中加入一个[CLS]标记,每个文本序列的开头和结尾都添加一个[SEP]标记. 当文本序列短于L时,使用[PAD]标记进行填充,这些特殊标记的边界坐标都设置为0. 图像嵌入的设置为$C \times H \times W = 3 \times 224 \times 224$$T = 16$$N = 196$.

在模型训练的过程中,采用分布式和混合精度训练,以减少内存成本,提升训练速度. 使用梯度积累机制,将样本批处理分成多个小批量样本,以克服大批量处理的内存限制. 为了实现稳定训练,利用CogView将注意力的计算公式修改为

$ \begin{split} & {\text{softmax}}\left(\frac{{{{\boldsymbol{Q}}^{\rm{T}}}{\boldsymbol{K}}}}{{\sqrt d }}\right) = \\ &{\text{softmax}}\left(\alpha\left(\frac{{{{\boldsymbol{Q}}^{\rm{T}}}}}{{\alpha \sqrt d }}{\boldsymbol{K}} - {\text{max}}\left(\frac{{{{\boldsymbol{Q}}^{\rm{T}}}}}{{\alpha \sqrt d }}{\boldsymbol{K}}\right)\right) \right). \end{split} $

式中:QK分别为输入的查询矩阵和关键字矩阵,$\sqrt d$为向量维度,$\alpha = 32$.

3.3. 实验结果

为了验证MCOD-Net模型在文档布局分析任务中的有效性,在PublayNet公开数据集上比较分析DiT[13]、BEiT[23]、PublayNet[24]、UDoc[25]模型与提出MCOD-Net模型的性能差异.实验结果表明,MCOD-Net模型在文档布局分析任务中表现出优异性能,具有更高的准确性和鲁棒性,证明了其在解决实际问题上的有效性. 对比试验结果如表2所示. 表2表明,提出的MCOD-Net模型在PublayNet数据集上的整体性能指标达到了95.1%的最优效果,识别精度较基于Mask R-CNN骨干网络的BEiT[23]模型提升了2.5%.验证了MCOD-Net模型在文档分析任务中性能的有效性和可靠性.

表 2   所提模型与现有模型在PublayNet数据集上的整体性能

Tab.2  Overall performance of proposed model and existing models on PublayNet dataset

模型主干网络mAP/%
PublayNet[24]Mask R-CNN91.0
DiT[13]Mask R-CNN91.6
DiT[13]Cascader R-CNN92.5
UDoc[25]Faster R-CNN91.7
BEiT[23]Mask R-CNN92.6
MCOD-NetCascader R-CNN95.1

新窗口打开| 下载CSV


为了进一步体现所提出的MDOC-Net模型对文档图像中每类标签元素的识别能力,分别针对文档中的5类元素进行识别对比实验,实验结果如表3所示.表3图3表明,MDOC-Net模型在PubLayNet数据集上对文档中标题、文本、图片、列表和表格5类元素的总体平均精度都取得了较好的结果,特别在标题和列表元素识别上,所提模型的评估指标分别达到了90.5%和95.4%的最优效果,其中标题元素识别精度比UDoc[25]模型提升了4%,列表元素识别精度比BEiT[23]模型提升了2.3%.可知,所提模型较其他主流方法具有明显的优势.

表 3   所提模型与现有模型在PublayNet数据集上对各类元素识别的mAP值

Tab.3  mAP values of proposed model and existing models for identification of various elements in PublayNet dataset

模型mAP/%
文本标题列表表格图片
PublayNet[24]91.684.088.696.094.9
DiT[13](Mask R-CNN)92.884.586.897.596.5
DiT[13](Cascader R-CNN)93.685.989.797.696.9
UDoc[25]92.686.592.496.595.4
BEiT[23]92.586.293.197.395.7
MCOD-Net94.490.595.497.897.0

新窗口打开| 下载CSV


图 3

图 3   各类元素的识别结果

Fig.3   Recognition results of various elements


为了更直观地展现MCOD-Net模型在文档布局分析任务上的有效性,使用测试集对模型的泛化能力进行检验,并进行可视化,如图4所示. 可知,MCOD-Net模型在文档布局分析中可以精准地检测出文档中的每一类元素,具有较高的准确率.

图 4

图 4   MCON-Net模型对PublayNet数据集的可视化

Fig.4   Visualization of MCON-Net model on PublayNet dataset


为了验证MDOC-Net模型的实际应用能力,通过Engineering Village、Web of Science和中国知网等各类知名高水平期刊检索网站,使用Al-Si alloy和Aluminum-silicon alloy作为检索关键字下载了大量结构复杂的铝硅合金金英文科研文献,由于文献的内容对文档布局分析任务的影响较小,PubLayNet数据集中标注出文档结构的标题、文本、图片、表格及列表类别元素,这些类别与铝硅合金文献中的结构类别几乎一致. 使用PubLayNet公开数据集训练MCOD-Net模型,在铝硅合金文献中进行结构布局识别,并进行可视化,如图5所示.

图 5

图 5   MDOC-Net模型对铝硅合金文献的可视化

Fig.5   Visualization of MDOC-Net model on aluminum-silicon alloy literature


图5表明,即使在含有更多复杂图片和表格的铝硅合金文献中,MCOD-Net模型在文档布局分析任务中也可以准确地识别出文档图像中包含的各类元素. 这说明提出的方法完全可以适应目前的文档图像,不受文档结构复杂程度的约束,证明了模型对铝硅合金领域文献的结构布局分析具有可行性.

4. 结 语

提出基于Transformer的MCOD-Net模型,针对文本和图像模态预训练目标嵌入不对齐的问题,构建词块对齐嵌入模块,采用MLM、MIM和WPA为目标进行预训练,促进模型在文本和图像模态上的表征学习能力. 对于当前主流模型依赖于CNN网络来对文档图像进行预处理,导致模型参数量增大的问题,直接使用原始文档图像块的线性投影特征来表示文档图像,在降低模型复杂度的同时,提升了模型性能. 实验证明,该模型在PubLayNet公开数据集上的mAP 指标达到95.1%. 相较于目前最优模型,整体性能提升了2.5%. 在未来的工作中,将考虑针对多语言文档的场景,通过跨语言模型迁移技术实现对不同语言的文档布局分析,提高模型的通用性和可扩展性.

参考文献

SOTO C, YOO S. Visual detection with context for document layout analysis [C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: ACL, 2019: 3464-3470.

[本文引用: 1]

WATANABE T, LUO Q, SUGIE N

Structure recognition methods for various types of documents

[J]. Machine Vision and Applications, 1993, 6 (2/3): 163- 176

[本文引用: 1]

HIRAYAMA Y. A method for table structure analysis using DP matching[C]//Proceedings of 3rd International Conference on Document Analysis and Recognition. Montreal: IEEE, 1995: 583-586.

[本文引用: 1]

FANG J, GAO L, BAI K, et al. A table detection method for multipage pdf documents via visual seperators and tabular structures [C]//2011 International Conference on Document Analysis and Recognition. Beijing: IEEE, 2011: 779-783.

[本文引用: 1]

BUNKE H, RIESEN K

Recent advances in graph-based pattern recognition with applications in document analysis

[J]. Pattern Recognition, 2011, 44 (5): 1057- 1067

DOI:10.1016/j.patcog.2010.11.015      [本文引用: 1]

HINTON G E, SALAKHUTDINOV R R

Reducing the dimensionality of data with neural networks

[J]. Science, 2006, 313 (5786): 504- 507

DOI:10.1126/science.1127647      [本文引用: 1]

张真, 李宁, 田英爱

基于双向LSTM网络的流式文档结构识别

[J]. 计算机工程, 2020, 46 (1): 60- 66

DOI:10.19678/j.issn.1000-3428.0053702      [本文引用: 1]

ZHANG Zhen, LI Ning, TIAN Yingai

Stream document structure recognition based on bidirectional LSTM network

[J]. Computer Engineering, 2020, 46 (1): 60- 66

DOI:10.19678/j.issn.1000-3428.0053702      [本文引用: 1]

SAHA R, MONDAL A, JAWAHAR C V. Graphical object detection in document images [C]//International Conference on Document Analysis and Recognition. Sydney: IEEE, 2019: 51-58.

[本文引用: 1]

GIRSHICK R. Fast r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.

[本文引用: 1]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2961-2969.

[本文引用: 1]

RIBA P, DUTTA A, GOLDMANN L, et al. Table detection in invoice documents by graph neural networks [C]//2019 International Conference on Document Analysis and Recognition. Sydney: IEEE, 2019: 122-127.

[本文引用: 1]

XU Y, LI M, CUI L, et al. Layoutlm: pre-training of text and layout for document image understanding [C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego: ACM, 2020: 1192-1200.

[本文引用: 1]

LI J, XU Y, LV T, et al. Dit: self-supervised pre-training for document image transformer[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisson: ACM, 2022: 3530-3539.

[本文引用: 6]

APPALARAJU S, JASANI B, KOTA B U, et al. Docformer: end-to-end transformer for document understanding [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 993-1003.

[本文引用: 1]

PHAM V, PHAM C, DANG T. Road damage detection and classification with detectron2 and faster r-cnn [C]//2020 IEEE International Conference on Big Data. Atlanta: IEEE, 2020: 5592-5601.

[本文引用: 1]

CAI Z, VASCONCELOS N. Cascade r-cnn: delving into high quality object detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6154-6162.

[本文引用: 1]

RANFTL R, BOCHKOVSKIY A, KOLTUN V. Vision transformers for dense prediction [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 12179-12188.

[本文引用: 1]

KIM W, SON B, KIM I. Vilt: vision-and-language transformer without convolution or region supervision [C]// Proceedings of the 38th International Conference on Machine Learning. [S. l.]: PMLR, 2021: 5583-5594.

[本文引用: 1]

GHIASI G, LIN T Y, LE Q V. Nas-FPN: learning scalable feature pyramid architecture for object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE , 2019: 7036-7045.

[本文引用: 1]

KAWINTIRANON K, SINGH L. Knowledge enhanced masked language model for stance detection [C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Mexico: ACL, 2021: 4725-4735.

[本文引用: 1]

XIE Z, ZHANG Z, CAO Y, et al. Simmim: a simple framework for masked image modeling [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 9653-9663.

[本文引用: 1]

HUANG Y, LV T, CUI L, et al. Layoutlmv3: pre-training for document ai with unified text and image masking [C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisson: ACM, 2022: 4083-4091.

[本文引用: 1]

BAO H, DONG L, PIAO S, et al. Beit: Bert pre-training of image transformers [EB/OL]. [2022-09-03]. https://arxiv.org/abs/2106.08254.

[本文引用: 6]

ZHONG X, TANG J, YEPES A J. Publaynet: largest dataset ever for document layout analysis [C]//2019 International Conference on Document Analysis and Recognition. Sydney: IEEE, 2019: 1015-1022.

[本文引用: 5]

GU J, KUEN J, MORARIU V I, et al

Unidoc: unified pretraining framework for document understanding

[J]. Advances in Neural Information Processing Systems, 2021, 34: 39- 50

[本文引用: 4]

/