基于视觉行为与文本特征分析的阅读批注生成方法
Reading annotation generation method through analysis of visual behavior and text features
收稿日期: 2020-01-1
Received: 2020-01-1
作者简介 About authors
程时伟(1981—),男,教授,博导,从事人机交互及普适计算研究.orcid.org/0000-0003-4716-4179.E-mail:
提出一种阅读辅助方法,利用一种分级锚定方法确定目标文本,构造与用户视觉行为和目标文本特征相关的需求判定因子,根据这些因子计算用户对阅读辅助的需求度,从而判定用户对目标文本是否有单词翻译或长难句摘要方面的需求. 当判定用户有需求时,以批注的形式显示单词词义或长难句摘要. 实验结果表明,提出的用户需求判定方法平均精确率达到了80.6% ± 6.3%,自动批注提高了用户的阅读效率和主观体验,验证了该方法的可行性和有效性.
关键词:
A reading aid method was proposed. A hierarchical anchoring method was used to determine the target text, in order to construct the demand determination factors related to the user’s visual behavior and the features of the target text, and to calculate the user's demand degree for reading aid based on these factors, so as to determine whether the user had the demand for word translation or long sentence summary of the target text. When the demand of the user was determined, the word meaning or long difficult sentence summary was displayed in the form of annotation. The test results show that the average accuracy of this method reached 80.6% ± 6.3%, and the automatically generated annotation can improve the user’s reading efficiency and subjective experience. Thus, the feasibility and effectiveness of the proposed method are validated.
Keywords:
本文引用格式
程时伟, 郭炜.
CHENG Shi-wei, GUO Wei.
当人们在阅读用其第二语言撰写的文章时,要实现高效阅读存在两大阻碍:不理解的词汇和结构复杂的长难句. 当读者遇到不认识的单词时需要通过辞典或翻译软件来查询,而在遇到结构复杂的长难句时,即便理解了所有词汇也可能无法把握整段文字的准确含义. 为此,本文提出一种阅读辅助方法,其在获取用户注视点的同时,通过文本分析理解用户正在阅读的内容,再基于用户的注视行为和文本内容进行综合分析,判定用户是否有即时获取单词翻译或生成长难句摘要的需求. 如果判定用户有需求,则为其生成相关内容,并以批注的形式进行可视化展示. 在此基础上设计与开发原型系统,来完成阅读辅助任务,用户需要佩戴眼动仪使用该系统,以便获取眼动数据与文本内容,为后续的需求判定与批注生成等功能提供数据基础。本文将分别对这些功能进行详细介绍.
1. 相关工作
眼动行为是视觉过程的直接反应,眼动跟踪作为研究眼动行为的一种重要手段被广泛应用于阅读研究[1]. 眼动模式主要包括3种:注视、眼跳和回视,是用户在阅读过程中形成的特定眼动特征[2]. 研究人员对眼动特征的提取与分析进行了深入探讨[3]. 例如,通过训练模型对阅读过程中的注视点进行预测[4];通过条件随机场(conditional random field, CRF)的方法预测文章中哪些词将被读者注视[5];根据读者眼动数据预测阅读的文章字数和文档类型[6-7]以及评估读者的语言能力[8];基于眼动数据开发阅读辅助工具,进行文档导航[9];通过控制眼跳幅度和避免不必要的回视,使读者的注视点处于恰当的位置来提高阅读效率[10],以及通过眼动方法加快用户对网页的浏览速度[11].
为此,本文提出一种面向电子阅读和纸质阅读的辅助方法,根据眼动数据和用户正在阅读的文本进行综合分析,判定用户对单词翻译和长难句摘要的需求,并在必要时创建相应的批注内容来辅助阅读.
2. 面向阅读辅助的文本提取
2.1. 方法框架
该方法的总体框架如图1所示,主要分为眼动跟踪、文本提取、判定分析以及批注生成与可视化等. 眼动跟踪的输入由眼部图像和场景图像组成,通过特征提取、模型拟合等过程最终计算出注视点. 文本提取的输入为场景图像或设备显示图像,输出是图像中结构化的文本内容. 进而对眼动注视点和结构化的文本内容进行综合分析,实时判断用户是否有需求,为其生成并显示相关的批注信息.
图 1
图 1 阅读需求判定与批注生成方法总体框架
Fig.1 Overall framework of reading demand determination and annotation generation method
本文的方法适用于自然场景下的纸质文本阅读和电子设备上的阅读,经过具体分析来决定文本提取的源图像是场景图像(即纸质文本图像)还是设备显示图像(即显示器上显示的电子文本图像),分析流程如图2所示.
图 2
首先从场景图像中寻找目标设备,若找到设备,则通过截取设备的显示图像作为图像文本的输入;否则,先通过场景图像中的字符识别判断是否满足直接提取文本的条件. 由于自然场景下环境光和背景复杂多变,而且图像中的字体通常很小,可能会出现无法识别的情况,先截取连续的几帧场景图像,再利用帧间差分法选取最稳定、清晰的一帧图像进行文本提取.
2.2. 眼动跟踪
为了兼顾眼动跟踪的实时性和精确性,本文采用人眼图像特征映射的方法,在现有眼动跟踪方法的基础上进行优化[27]. 具体地,利用瞳孔-普尔钦斑向量(pupil center cornea reflection, PCCR)计算映射模型[28]. 在特征提取过程中,一方面对眼部图像提取PCCR向量,通过轮廓形态阈值和椭圆拟合方法获取瞳孔的中心点坐标
式中:a、b为映射模型参数,m为样本数,
2.3. 文本提取
图 3
图 3 纸质阅读时文本图像随设备与书面的相对位置变化示例
Fig.3 Example of text image changing with position of device relative to paper during paper reading
图 4
2.3.1. 迭代检测分词
图 5
图 5 固定参数在不同字符大小时的轮廓连通效果示例
Fig.5 Example of contour connection effect with fixed parameters in different character sizes
为了解决尺度变化导致的分词不稳定问题,提出一种基于“开”操作算子自适应迭代检测方法. 该方法将图像进行边长为1+2k(k=1,2,
1)定义参数集
2)对图像分别以边长为
3)轮廓量的一阶差分集为
4)若
图 6
2.3.2. 字符检测与识别
图 7
在检测字符轮廓时,对于内部轮廓不连通的字符,如“i”和“j”,需要进行r×1的形态学“开”操作(设r×r为最优开算子大小)使字符自身连通,再基于最大类间方差法进行阈值化与轮廓包围矩检测得到所有字符框,然后进行字符识别.
首先对基于字符框提取的图像感兴趣区(region of interest, ROI)进行重构. ROI指的是字符识别中单个字符的目标区域,为了提高识别的准确率,将所有从图像中裁剪出来的字符区域进行ROI重构,目的是统一训练样本与测试样本的输入尺度. ROI重构方法具体如下:对提取的字符图像按照不同的宽高比(rc)进行不同的重构(记宽高比为
对于字符图像分类,本文采用图像特征提取和分类器模型来实现. 具体地,利用梯度方向直方图(histogram of oriented gradient, HOG)提取特征,HOG特征是一种常用的物体检测特征描述子[41],通过计算和统计图像局部区域的梯度方向直方图来构成特征,其算法流程如下.
1)标准化Gamma空间和颜色空间,Gamma压缩公式为
2)计算图像横坐标和纵坐标方向梯度,并据此计算每个像素位置的梯度方向值,像素点的梯度为计算表达式为
式中:
3)对每个细胞单元(Cell)构建梯度直方图,为局部图像提供一个编码. 例如采用9个方向区间的直方图来统计6×6像素的Cell的梯度信息,将Cell的梯度方向角度(0°~360°)按照40°一个区间划分为9个区间,再对Cell内每个像素用梯度方向在直方图中进行加权投影,得到这个Cell的9 个方向区间的梯度直方图;
4)将Cell组合成大的块(Block),将一个Block内所有Cell的特征向量串联起来便得到该Block的HOG特征,再对其进行归一化得到Hog描述子;
5)将检测窗口中所有重叠的Block进行HOG特征收集,结合生成最终的HOG特征向量.
举例而言, 在字符分类任务中,要计算28×28像素ROI图像的HOG特征,可以设置算子的窗口大小为16×16,块大小为8×8,块步长为8×8,Cell的大小为4×4,特征编码为9比特,得到的描述子特征维度为1×324.
分类器采用支持向量机(supported vector machine, SVM),分类器模型的训练采用Chars74K数据集,Chars74K是一个经典的面向自然图像字符识别的开放数据集[42]. 英文手写字符数据集中包含62个类别:52个字符类别(A~Z, a~z)和10个数字类别(0~9),其中有62 992个样本为计算机合成的字体图像,7 705个样本为自然图像.
由于样本图像的像素规格与字符形式存在多种形式,为了更好地拟合模型,对样本图像同样要进行前、后景分离与ROI重构(28×28像素). 模型评估采用k-fold交叉验证,按照Ntra∶Ntes=6∶1进行评估实验,其中,
表 1 字符分类器性能测试结果
Tab.1
分类器 | Pc / % | Tc / s | 分类器 | Pc / % | Tc / s | |
KNN | 67.3 | 0.036 | CNN | 89.1 | 0.089 | |
RF | 78.6 | 0.025 | SVM | 84.7 | 0.013 |
2.3.3. 文本对象结构树
完成字符识别之后,按照文本方向的顺序将获得的一组分类结果组成字符序列. 但结果往往不是正确的单词,还需要进行单词校对. 本文采用基于贝叶斯推断的单词校对方法,设错误的组词序列为w,正确的组词为m,当输入错误的组词w时,正确的组词为m的概率为P(m|w),将单词m识别为错误的组词w的概率为P(w|m),单词m出现的概率为P(m),根据贝叶斯公式,当得到一个错误的组词m时,对应的正确组词是w的概率可表示为
由于在同一次校对任务中w不变,则P(w)是常量,
当
进一步地,基于文本方向检测中的中心点与偏移角度集实现像素级分行. 具体地, 将所有单词框的最小包围矩集合看作一个样本空间,每个样本包含3种特征(中心点横坐标x,中心点纵坐标y,单词框偏移角度d ),同一行的单词框大多都位于同一偏移轴线上,若单纯以欧氏距离无法正确地区分行,则还需要结合行的偏移方向. 因此,提出一种基于密度空间聚类(density-based spatial clustering of applications with noise, DBSCAN)[43]的行聚类算法. 与采用DBSCAN算法计算欧氏距离不同,提出的行聚类方法定义的距离计算公式为
式中:A和B表示样本空间中的2个样本点
进一步地,设定一个密度阈值e=5,最小类容量
图 8
3. 需求判定与自动批注
3.1. 基于目标锚定的需求判定
在英文阅读过程中,对于用户是否需要显示单词翻译或长难句摘要,可以通过单词需求判定机和语句需求判定机同时监听眼动注视点和注视文本来判断. 具体地,本文采取分级锚定模式,首先根据当前一定时间内的注视点序列锚定一个目标(单词或句子),随即开始计算目标的判定因子,并将因子代入需求函数计算目标的需求度,用于描述用户的需求程度. 设置一个阈值T,当需求度达到阈值时,为用户生成与显示所需要的单词词义和长难句摘要批注. 当锚定目标的持续关注条件不满足时,将终止当前目标的需求度计算;当实时注视产生了新的目标时,当前目标的需求度将被新目标的需求度所取代.
需求判定机在计算出实时需求度后对单词和长难句分别构造不同的判定因子:词性判定因子包括注视强度
句性判定因子包括注视时长tg、注视词逆序和
其中,ΔS为t−1到t时刻的注视点所对应的单词序号;Ls为当前语句的长度(单词数);Lmax为单个语句的最大长度,本文取50. 注视时长的计算表达式为
式中:
3.1.1. 词性需求判定
根据实时注视点序列锚定单词,具体方法如下:
1)确定开始点,若连续6个注视点坐标标准差小于10像素,则以6个注视点的中心点作为开始点;
2)确定锚定词,若连续2×
3)确定锚定词之后,根据实时注视点计算该锚定词的需求度,若期间连续出现6个与单词轮廓距离大于20像素的采样点,则中断需求度的计算并释放该锚定词(不满足持续关注条件).
此外,当某个单词一旦被需求度触发之后,在一段时间内(预设为6 s)将这个单词的需求度保持为0,表示不对该单词作需求度计算,防止重复生成批注,对用户形成阅读干扰.
3.1.2. 句性需求判定
根据实时注视点序列锚定句子,具体方法如下:若连续2×
3.1.3. 需求函数
由于词性判定因子
设默认需求阈值
3.2. 批注生成与显示
本研究针对单词与长难句分别生成不同的批注内容:单词的批注为翻译,通过coca①语料库建立索引查询翻译结果;长难句的批注为摘要,通过训练深度自动摘要模型来生成摘要内容. 自动摘要的目的是将难以理解的长难句缩简为简短句子,需要采用生成式单文档自动摘要模型,而这种模型的效果通常与文本篇幅有关,有研究表明,当文章篇幅超过50词之后效果开始明显下降. 由于人们日常阅读的文章篇幅不一,短则一两百字,长则上千字,显然对长难句作摘要比直接对整篇文章作摘要的可靠性更高.
表 2 长难句自动摘要评估结果
Tab.2
深度模型 | 预训练模型 | R2 |
Seq2seq-Attention | Word2vec | 0.129 4 |
GloVe | 0.137 4 | |
BERT | 0.154 7 |
表 1
Tab.1
② https://www-nlpir.nist.gov/projects/duc/data.html ③ https://catalog.ldc.upenn.edu/LDC2012T21 |
4. 实验与分析
实验过程包括图像采集、眼动跟踪标定、阅读材料选择、参数设置、开始阅读、生成批注记录、用户审查等环节. 其中图像采集主要保证眼动跟踪设备上的相机能正确和稳定地捕捉到眼部图像特征和场景图像中的目标设备;眼动跟踪标定则采取九点标定法;阅读材料选择则让用户自行从3种规格的电子文档中选择测试材料进行阅读(事先准备好的pdf文档图像);参数设置是用户根据自己的英语水平或阅读习惯设置一系列参数,参数说明和默认值情况如表3所示,其中,所有参数取值范围为[0, 1.0].
表 3 需求判定的可调参数设置说明
Tab.3
参数 | 符号 | 默认值 |
单词强度系数 | | 0.36 |
句子强度系数 | | 0.36 |
各项因子系数 | | 1.00 |
图 9
图 9 原型系统界面与阅读批注示例
Fig.9 Example of prototype system interface and reading annotation
4.1. 实验说明
本实验一共招募6名受试用户(4名男性,2名女性,平均年龄24岁),所有受试用户均有阅读英文文献的经历,其中有3名用户通过大学英语考试CET六级测试,3名通过CET四级测试. 实验所用文献材料均采用Times New Roman字体,包括3种材料:第一种材料是一段36号字体、包含60~80个单词的英文歌词,第二种材料是一篇24号字体、包含180~300个单词的新闻短文,第三种材料是一篇12号字体、包含380~520个单词的英文短篇论文. 3种材料都有电子版,其中第一种和第二种材料还有A4篇幅、单页打印的纸质版.
图 10
图 10 不同阅读模式下的用户测试示例
Fig.10 Examples of user testing in different reading modes
考虑到阅读行为的复杂性,为降低误判带来的不良用户体验,本文为系统设置2种状态:“阅读状态”与“非阅读状态”. 当采集的注视点在主界面的文本区范围内时,判定为阅读状态;若注视点离开了文本区则判定为非阅读状态. 系统在非阅读状态下采集的注视点数据将不参与需求度计算.
4.2. 实验结果
通过精确率P和平衡F分数F1来评估需求判定方法,可以定义如表4所示的混淆矩阵.
表 4 需求判定混淆矩阵的定义
Tab.4
混淆矩阵 | 0:统判定无需求 | 1:系统判定有需求 |
0:用户没有需求 | TN | FN |
1:用户有需求 | FP | TP |
精确率P的计算表达式如下:
平衡F分数F1的计算表达式如下:
图11显示了不同材料类型和阅读模式下对单词和长难句需求判定的平衡F分数,其中,“电子”和“纸质”表示阅读模式,“1”和“2”分别表示第一轮实验(默认参数)和第二轮实验(手动调节参数).
图 11
图 11 单词和长难句需求判定的F分数
Fig.11 F score of demand determination for word and long difficult sentence
通过需求判定的平均精确率P与批注功能的平均时延T对本文的方法进行整体评估,实验数据如表5所示. 以单词样本为例,在电子阅读情况下,需求判定的平均精确率达到了86.3%,自动批注的平均时延为1.3 s;在纸质阅读情况下的精确率为79%,自动批注的平均时延为1.5 s. 长难句样本的时延基本在2~3 s,相较于单词批注时延较大,这是因为自动摘要模型需要花费较多的时间计算句子的批注内容. 总体而言,需求判定在电子阅读模式下的精确率更高,自动批注的时延更小,具有较好的实时性.
表 5 需求判定的平均精确率与批注生成的平均时延
Tab.5
阅读模式 | 样本类型 | P/% | T/s |
电子阅读 | 单词 | 86.3 | 1.3 |
句子 | 72.6 | 2.7 | |
纸质阅读 | 单词 | 80.4 | 1.5 |
句子 | 63.9 | 2.9 |
对实验数据进一步分析,发现:
1)由于不同的材料使用了不同大小的字体,较大字体的材料具有较高的需求判定精确率;
2)整体而言,在保证眼动跟踪精度和文本识别性能的情况下,需求判定的平均精确率为80.6% ± 6.3%,表明本文的用户需求判定方法在一定条件下表现良好,能够帮助读者提高英文文献的阅读效率.
此外,对被试用户进行访谈,并记录用户的主观体验反馈. 其中一些被试用户反映,“自动需求判定的功能比较新颖,识别率也在可接受范围内”;“翻译批注大大节省了平时手动查阅辞典的时间”;“系统界面和批注形式都比较直观,很实用”. 也有一些用户反映,“需求判定整体上比较准确,但是少数由于系统误判显示的批注有一点干扰阅读”;“在纸质阅读模式下,眼睛注视在书面上,但批注显示在设备上,有一点操作不流畅的感觉”.
5. 结 语
针对阅读过程中的理解困难问题,本文提出了一种融合眼动数据特征和文本内容特征的批注需求判定方法. 在判定用户有需求时,针对性地为用户生成和显示相关单词翻译或长难句摘要等内容. 原型系统实验结果和用户反馈表明,本文的需求判定方法具有较高的精确率,自动批注具有较好的实时性,能帮助用户提高英文阅读效率,为进一步开展眼动辅助阅读应用提供了一条有效途径.
下一步的研究工作将从以下几个方面展开:1)进一步提高眼动跟踪和文本提取的性能;2)通过建立困难单词词库减少单词翻译时延;3)通过统计机器学习方法面向不同用户进行需求参数的自适应设置,解决用户个体差异导致的需求判定精确率低的问题;4)进行更多批注可视化形式的探索.
参考文献
Eye movements in reading and information processing: 20 years of research
[J].DOI:10.1037/0033-2909.124.3.372 [本文引用: 1]
阅读理解过程的眼动研究
[J].
A study on eye movement in reading comprehension
[J].
Activity recognition for the mind: toward a cognitive "Quantified Self"
[J].DOI:10.1109/MC.2013.339 [本文引用: 1]
Uses of eye-tracking data in second language sentence processing research
[J].DOI:10.1017/S026719051000005X [本文引用: 1]
Using variable dwell time to accelerate gaze-based web browsing with two-step selection
[J].DOI:10.1080/10447318.2018.1452351 [本文引用: 1]
面向阅读教学的眼动数据可视化批注方法
[J].DOI:10.3969/j.issn.1006-4303.2017.06.004 [本文引用: 1]
Eye movement data visualization based annotation for reading teaching
[J].DOI:10.3969/j.issn.1006-4303.2017.06.004 [本文引用: 1]
A review and analysis of eye-gaze estimation systems, algorithms and performance evaluation methods in consumer platforms
[J].DOI:10.1109/ACCESS.2017.2735633 [本文引用: 1]
Gaze estimation in a gaze tracking system
[J].
基于3D人眼模型的视线跟踪技术综述
[J].DOI:10.3969/j.issn.1003-9775.2017.09.001 [本文引用: 1]
A survey of 3D eye model based gaze tracking
[J].DOI:10.3969/j.issn.1003-9775.2017.09.001 [本文引用: 1]
视线追踪系统中注视点估计方法研究
[J].
Estimation method of the fixation point in gaze tracking system
[J].
Mpiigaze: real-world dataset and deep appearance-based gaze estimation
[J].
Guiding intelligent surveillance system by learning-by-synthesis gaze estimation
[J].DOI:10.1016/j.patrec.2019.02.008 [本文引用: 1]
用于移动设备人机交互的眼动跟踪方法
[J].
An approach to eye tracking for mobile device based interaction
[J].
A novel gaze estimation system with one calibration point
[J].DOI:10.1109/TSMCB.2008.926606 [本文引用: 1]
Eye and gaze tracking for interactive graphic display
[J].
General theory of remote gaze estimation using the pupil center and corneal reflections
[J].
An extraction method of pupil and corneal reflection centers based on image processing technology
[J].
Eye gaze tracking techniques for interactive applications
[J].DOI:10.1016/j.cviu.2004.07.010 [本文引用: 1]
Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography
[J].DOI:10.1145/358669.358692 [本文引用: 1]
自然场景图像中的文本检测综述
[J].
Text detection in natural scene image: a survey
[J].
A threshold selection method from gray-histogram
[J].DOI:10.1109/TSMC.1979.4310076 [本文引用: 1]
Character recognition in natural images
[J].
/
〈 |
|
〉 |
