基于视觉行为与文本特征分析的阅读批注生成方法

doi:10.3785/j.issn.1008-973X.2020.06.008

基于视觉行为与文本特征分析的阅读批注生成方法

程时伟^,, 郭炜

Reading annotation generation method through analysis of visual behavior and text features

CHENG Shi-wei^,, GUO Wei

收稿日期: 2020-01-1

Received: 2020-01-1

作者简介 About authors

程时伟（1981—），男，教授，博导，从事人机交互及普适计算研究.orcid.org/0000-0003-4716-4179.E-mail：swc@zjut.edu.cn , E-mail：swc@zjut.edu.cn

摘要

提出一种阅读辅助方法，利用一种分级锚定方法确定目标文本，构造与用户视觉行为和目标文本特征相关的需求判定因子，根据这些因子计算用户对阅读辅助的需求度，从而判定用户对目标文本是否有单词翻译或长难句摘要方面的需求. 当判定用户有需求时，以批注的形式显示单词词义或长难句摘要. 实验结果表明，提出的用户需求判定方法平均精确率达到了80.6% ± 6.3%，自动批注提高了用户的阅读效率和主观体验，验证了该方法的可行性和有效性.

关键词： 眼动跟踪 ; 文本识别 ; 需求判定 ; 自动批注 ; 人机交互

Abstract

A reading aid method was proposed. A hierarchical anchoring method was used to determine the target text, in order to construct the demand determination factors related to the user’s visual behavior and the features of the target text, and to calculate the user's demand degree for reading aid based on these factors, so as to determine whether the user had the demand for word translation or long sentence summary of the target text. When the demand of the user was determined, the word meaning or long difficult sentence summary was displayed in the form of annotation. The test results show that the average accuracy of this method reached 80.6% ± 6.3%, and the automatically generated annotation can improve the user’s reading efficiency and subjective experience. Thus, the feasibility and effectiveness of the proposed method are validated.

Keywords： eye tracking ; text recognition ; demand determination ; automatic annotation ; human-computer interaction

PDF (1245KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

程时伟, 郭炜. 基于视觉行为与文本特征分析的阅读批注生成方法. 浙江大学学报(工学版)[J], 2020, 54(6): 1115-1125 doi:10.3785/j.issn.1008-973X.2020.06.008

CHENG Shi-wei, GUO Wei. Reading annotation generation method through analysis of visual behavior and text features. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(6): 1115-1125 doi:10.3785/j.issn.1008-973X.2020.06.008

当人们在阅读用其第二语言撰写的文章时，要实现高效阅读存在两大阻碍：不理解的词汇和结构复杂的长难句. 当读者遇到不认识的单词时需要通过辞典或翻译软件来查询，而在遇到结构复杂的长难句时，即便理解了所有词汇也可能无法把握整段文字的准确含义. 为此，本文提出一种阅读辅助方法，其在获取用户注视点的同时，通过文本分析理解用户正在阅读的内容，再基于用户的注视行为和文本内容进行综合分析，判定用户是否有即时获取单词翻译或生成长难句摘要的需求. 如果判定用户有需求，则为其生成相关内容，并以批注的形式进行可视化展示. 在此基础上设计与开发原型系统，来完成阅读辅助任务，用户需要佩戴眼动仪使用该系统，以便获取眼动数据与文本内容，为后续的需求判定与批注生成等功能提供数据基础。本文将分别对这些功能进行详细介绍.

1. 相关工作

眼动行为是视觉过程的直接反应，眼动跟踪作为研究眼动行为的一种重要手段被广泛应用于阅读研究^[1]. 眼动模式主要包括3种：注视、眼跳和回视，是用户在阅读过程中形成的特定眼动特征^[2]. 研究人员对眼动特征的提取与分析进行了深入探讨^[3]. 例如，通过训练模型对阅读过程中的注视点进行预测^[4]；通过条件随机场(conditional random field, CRF)的方法预测文章中哪些词将被读者注视^[5]；根据读者眼动数据预测阅读的文章字数和文档类型^[6-7]以及评估读者的语言能力^[8]；基于眼动数据开发阅读辅助工具，进行文档导航^[9]；通过控制眼跳幅度和避免不必要的回视，使读者的注视点处于恰当的位置来提高阅读效率^[10]，以及通过眼动方法加快用户对网页的浏览速度^[11].

批注能帮助人们标记关键的、难以理解的内容，提高阅读理解程度^[12-13]. 例如，Text2.0系统基于眼动行为为相关文本内容创建实时批注^[14]或显示阅读时间^[15]；利用专家读者的眼动数据可视化批注来提高新手读者的阅读能力^[16]. 然而这些批注方法和工具在应用场景上存在一些局限性，例如，多适用于电子阅读，不适用于纸质书籍或文档的阅读，便捷性和实用性不足；没有对用户的实际需求进行判定，影响用户体验.

为此，本文提出一种面向电子阅读和纸质阅读的辅助方法，根据眼动数据和用户正在阅读的文本进行综合分析，判定用户对单词翻译和长难句摘要的需求，并在必要时创建相应的批注内容来辅助阅读.

2. 面向阅读辅助的文本提取

2.1. 方法框架

该方法的总体框架如图1所示，主要分为眼动跟踪、文本提取、判定分析以及批注生成与可视化等. 眼动跟踪的输入由眼部图像和场景图像组成，通过特征提取、模型拟合等过程最终计算出注视点. 文本提取的输入为场景图像或设备显示图像，输出是图像中结构化的文本内容. 进而对眼动注视点和结构化的文本内容进行综合分析，实时判断用户是否有需求，为其生成并显示相关的批注信息.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 阅读需求判定与批注生成方法总体框架

Fig.1 Overall framework of reading demand determination and annotation generation method

本文的方法适用于自然场景下的纸质文本阅读和电子设备上的阅读，经过具体分析来决定文本提取的源图像是场景图像(即纸质文本图像)还是设备显示图像(即显示器上显示的电子文本图像)，分析流程如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 阅读模式分析流程图

Fig.2 Flow chart of reading mode’s analysis

首先从场景图像中寻找目标设备，若找到设备，则通过截取设备的显示图像作为图像文本的输入；否则，先通过场景图像中的字符识别判断是否满足直接提取文本的条件. 由于自然场景下环境光和背景复杂多变，而且图像中的字体通常很小，可能会出现无法识别的情况，先截取连续的几帧场景图像，再利用帧间差分法选取最稳定、清晰的一帧图像进行文本提取.

2.2. 眼动跟踪

通过眼动跟踪系统进行眼动数据的获取与计算，例如注视点坐标等. 目前研究学者已经提出了多种眼动跟踪方法和计算模型^[17-21]：1)从采集的图像中提取人眼特征参数，并结合采集图像时用户眼睛的注视方向或注视点来建立映射模型^[21]；2)对眼球建立3D几何模型来估计视轴方向^[19]；3)采集大量的眼球外观图像，同时对图像进行标注，然后通过训练深度神经网络模型对用户的视线方向进行估算^[22-26].

为了兼顾眼动跟踪的实时性和精确性，本文采用人眼图像特征映射的方法，在现有眼动跟踪方法的基础上进行优化^[27]. 具体地，利用瞳孔-普尔钦斑向量(pupil center cornea reflection, PCCR)计算映射模型^[28]. 在特征提取过程中，一方面对眼部图像提取PCCR向量，通过轮廓形态阈值和椭圆拟合方法获取瞳孔的中心点坐标 $p\;({x_{{p}}},{y_{{p}}})$，再通过轮廓形态阈值和卡尔曼滤波获取普洱钦斑的中心点坐标 $s\;({x_{{s}}},{y_{{s}}})$，则提取到的PCCR向量 ${ v}\;({v_x},{v_y})$的2个分量为 ${{ v}_{{x}}} = {x_{{s}}} - {x_{{p}}}{\text{和}}{{ v}_{{y}}} = {y_{{s}}} - {y_{{p}}}$. 另一方面寻找场景图像中的屏幕区域，通过Canny算子检测图像边缘信息，由于纸质文档或显示屏幕轮廓类似矩形，通过内、外接矩形面积比和D-P多边形逼近算法即可得到轮廓角点的精确位置.

面向PCCR的多项式回归是目前最常用的注视点映射模型^[29-32]，其通过最小二乘法求解模型参数的目标函数表达式：

(1) $ \begin{split} \mathop {\arg \min\; }\limits_{{{a,\,b}}} L(a,b) = & \sum\limits_{i = 1}^m {\left\{ {{{\left[ {{f_{{a}}}(v_{{x}}^i,v_{{y}}^i) - p_{{x}}^i} \right]}^2}} \right. + }\\ & \left. {{{\left[ {{f_{{b}}}(v_{{x}}^i,v_{{y}}^i) - p_{{y}}^i} \right]}^2}} \right\}. \end{split} $

式中：a、b为映射模型参数，m为样本数， $({p_{{x}}},{p_{{y}}})$为标定注视点坐标，经过用户标定求解参数. 考虑到样本采集时会包含噪声数据，采用RANSAC算法^[33]排除噪声数据后再进行拟合计算. 测试结果表明，在采样率为28帧/s、视距为45 cm的情况下，眼动跟踪的平均精度为0.8°(视角).

2.3. 文本提取

提取文本需要采用光学字符识别技术(optical character recognition, OCR). 通常在阅读纸质英文文档时，图像中的文本量较大，字体段落格式相对统一，且用户头部和文档的相对运动会造成文本图像的变化，图3(a)表明文本图像方向会跟随用户与文档的旋转发生相对变化，图3(b)表明文本的像素尺度会随视距发生相对变化.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 纸质阅读时文本图像随设备与书面的相对位置变化示例

Fig.3 Example of text image changing with position of device relative to paper during paper reading

文本提取可分为文本检测和文本识别2个步骤. 文本检测主要包括传统文本检测方法和基于深度学习的文本检测方法^[34]. 近年来，虽然基于深度学习的文本检测方法的性能得到了大幅提升，但仍然存在一些不足，在实时性和精确性上难以满足本文的需求^[35-39]. 为此，本文对传统的文本检测方法进行改进，完成文本识别任务，同时结合位置信息构建结构化文本对象树模型，从而快速实现文本的精确提取. 图4是该方法的流程图，具体说明如下.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 文本提取方法流程图

Fig.4 Flow chart of text extraction method

2.3.1. 迭代检测分词

为了去除图像噪声，首先对获取的RGB图像进行灰度化处理与3×3的高斯滤波，再采用最大类间方差法和最佳阈值检测法^[40]进行前、后景分离. 进一步地为了定位所有单词区域，通过形态学“开”操作和轮廓检测来实现像素级分词. 为使“开”操作将整个单词的轮廓恰好连通，而将不属于一个单词的字符轮廓分离，定义“开”操作的算子大小为n×n. 如图5是采用7×7的开算子在3种字符尺度下的测试示例，可以看出，只有图5(b)的示例具有较好的单词连通效果.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 固定参数在不同字符大小时的轮廓连通效果示例

Fig.5 Example of contour connection effect with fixed parameters in different character sizes

为了解决尺度变化导致的分词不稳定问题，提出一种基于“开”操作算子自适应迭代检测方法. 该方法将图像进行边长为1+2k(k=1,2, $\cdots $,n)的开算子处理，然后对处理后的图像进行轮廓量统计，再分析“开”算子大小与轮廓量的直方图. 由于同一文本域中的单词间矩和字符间距是相对统一的，且单词间距通常略大于字符间距，当“开”算子的边长从小到大变化至达到字符间距与单词间距的临界值时，会使整体的字符轮廓或单词轮廓同时连通，从而使得整体轮廓量急剧减少；而当边长在临界值之间时，轮廓量的变化相对平稳. 因此，根据轮廓量的最小一阶差分估计这个稳定区间，最后将稳定区间的右边界作为最优的“开”算子大小. 具体的计算过程如下：

1)定义参数集 $R\{ 3,5,\cdots,2k + 1\} $；

2)对图像分别以边长为 $r \in R$的“开”算子进行开操作与轮廓量检测，记轮廓量检测集为 $C\{ {c_1},{c_2},\cdots,{c_n}\} $，其中 ${c_n} = 0$；

3)轮廓量的一阶差分集为 $\Delta C\left\{ {c_1^2,c_2^3, \cdots ,c\,_{n - 1}^n} \right\}$；

4)若 $\min\; \Delta C=c_{i-1}^{i}$，则最优参数为 $r^{*}=2 i+1$；

当“开”算子参数从小到大变化时, 轮廓总量的变化情况如图6所示. 其中，r为“开”算子的尺度，c为图像中检测到的轮廓总量. 图6中最平稳的区间为[9,11]，因此，“开”算子大小取11×11时效果最优.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 “开”参数变化时轮廓总量的变化

Fig.6 Change of total contour with "open" parameter

2.3.2. 字符检测与识别

字符检测的前提是解决图像文本方向的旋转问题. 因此对所有单词的轮廓利用最小包围矩检测得到矩中心、偏移角度与轮廓矩长宽的集合，然后采用角度滑动窗口检测方法确定准确的文本方向角度. 如图7所示为一个文本矩偏角的轮廓总量直方图，其中， $\theta $为文本矩偏角，c_d为对应偏角的轮廓总量. 要排除偏差的干扰并找到准确的文本方向，可通过一个滑动窗口检测轮廓总量直方图，取累加值最大的窗口区间的中位数作为文本方向角度的估计值，再将图像按照这个角度规正. 设置滑动窗口大小为7，在图7的示例中，由于轮廓量最多的区间为[44°, 50°]，可估计其文本方向为47°.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 文本矩偏角的轮廓总量直方图

Fig.7 Histogram of contour amount of text moment angle

在检测字符轮廓时，对于内部轮廓不连通的字符，如“i”和“j”，需要进行r×1的形态学“开”操作(设r×r为最优开算子大小)使字符自身连通，再基于最大类间方差法进行阈值化与轮廓包围矩检测得到所有字符框，然后进行字符识别.

首先对基于字符框提取的图像感兴趣区(region of interest, ROI)进行重构. ROI指的是字符识别中单个字符的目标区域，为了提高识别的准确率，将所有从图像中裁剪出来的字符区域进行ROI重构，目的是统一训练样本与测试样本的输入尺度. ROI重构方法具体如下：对提取的字符图像按照不同的宽高比(r_c)进行不同的重构(记宽高比为 ${r_{\rm c}}$)，当矩高大于宽( ${r_{\rm c}}$<1)时，上下进行宽度为5像素的空白填补，左右进行(h+10−w)/2像素的空白填补；当矩高小于宽( ${r_{\rm c}}$>1)时，上下进行(w+10−h)/2像素的空白填补，左右进行宽度为5像素的空白填补. 经过边缘填补后缩放到28×28像素，得到ROI图像作为分类器的输入.

对于字符图像分类，本文采用图像特征提取和分类器模型来实现. 具体地，利用梯度方向直方图(histogram of oriented gradient, HOG)提取特征，HOG特征是一种常用的物体检测特征描述子^[41]，通过计算和统计图像局部区域的梯度方向直方图来构成特征，其算法流程如下.

1)标准化Gamma空间和颜色空间，Gamma压缩公式为 $I(x, y)=I(x, y)^{\rm{Gamma}}$；

2)计算图像横坐标和纵坐标方向梯度，并据此计算每个像素位置的梯度方向值，像素点的梯度为计算表达式为

(2) $ \left. {\begin{array}{*{20}{c}} {{G_{{x}}}(x,y) = H(x + 1,y) - H(x - 1,y),}\\ {{G_{{y}}}(x,y) = H(x,y + 1) - H(x,y + 1).} \end{array}} \right\} $

式中： ${G_{{x}}}$为水平方向梯度， ${G_{{y}}}$为垂直方向梯度，H为像素值. 则p(x, y)处的梯度幅值和梯度方向分别为

(3) $ \left. {\begin{split} & {G(x,y) = \sqrt {{G_{{x}}}{{(x,y)}^2} + {G_{{y}}}{{(x,y)}^2}} ,}\\ & {\alpha (x,y) = {{\tan }^{ - 1}}\;\frac{{{G_{{y}}}(x,y)}}{{{G_{{x}}}(x,y)}}.} \end{split}} \right\} $

3)对每个细胞单元(Cell)构建梯度直方图，为局部图像提供一个编码. 例如采用9个方向区间的直方图来统计6×6像素的Cell的梯度信息，将Cell的梯度方向角度（0°~360°）按照40°一个区间划分为9个区间，再对Cell内每个像素用梯度方向在直方图中进行加权投影，得到这个Cell的9 个方向区间的梯度直方图；

4)将Cell组合成大的块(Block)，将一个Block内所有Cell的特征向量串联起来便得到该Block的HOG特征，再对其进行归一化得到Hog描述子；

5)将检测窗口中所有重叠的Block进行HOG特征收集，结合生成最终的HOG特征向量.

举例而言, 在字符分类任务中，要计算28×28像素ROI图像的HOG特征，可以设置算子的窗口大小为16×16，块大小为8×8，块步长为8×8，Cell的大小为4×4，特征编码为9比特，得到的描述子特征维度为1×324.

分类器采用支持向量机(supported vector machine, SVM)，分类器模型的训练采用Chars74K数据集，Chars74K是一个经典的面向自然图像字符识别的开放数据集^[42]. 英文手写字符数据集中包含62个类别：52个字符类别(A~Z, a~z)和10个数字类别(0~9)，其中有62 992个样本为计算机合成的字体图像，7 705个样本为自然图像.

由于样本图像的像素规格与字符形式存在多种形式，为了更好地拟合模型，对样本图像同样要进行前、后景分离与ROI重构(28×28像素). 模型评估采用k-fold交叉验证，按照N_tra∶N_tes=6∶1进行评估实验，其中， ${N_{{\rm{tra}}}}$和 ${N_{{\rm{tes}}}}$分别为训练集和测试集的样本数量. 本文针对KNN、RF、CNN、SVM分类模型进行对比实验，测试结果如表1所示. 其中，P_c表示分类精确率，T_c为平均计算速率. 结果表明：使用线性核的SVM表现较优，因此本文方法采用基于HOG特征的SVM字符分类器.

表 1 字符分类器性能测试结果

Tab.1 Test performances on character classifiers

分类器	P_c / %	T_c / s	分类器	P_c / %	T_c / s
KNN	67.3	0.036	CNN	89.1	0.089
RF	78.6	0.025	SVM	84.7	0.013

新窗口打开| 下载CSV

2.3.3. 文本对象结构树

完成字符识别之后，按照文本方向的顺序将获得的一组分类结果组成字符序列. 但结果往往不是正确的单词，还需要进行单词校对. 本文采用基于贝叶斯推断的单词校对方法，设错误的组词序列为w，正确的组词为m，当输入错误的组词w时，正确的组词为m的概率为P(m|w)，将单词m识别为错误的组词w的概率为P(w|m)，单词m出现的概率为P(m)，根据贝叶斯公式，当得到一个错误的组词m时，对应的正确组词是w的概率可表示为

(4) $ P(m|w) = \frac{{P(w|m) \cdot P(m)}}{{P(w)}}. $

由于在同一次校对任务中w不变，则P(w)是常量， $P(m | w) \propto P(w | m) \cdot P(m)$，其中P(m)可通过一个足够大的文本库统计各个单词出现的概率得到，将P(w | m)替换为 $\lambda {d_{\rm{w}}}$，其中， $\lambda $为常数，d_w为偏差距离.

当 ${d_{{w}}} = 1$时可以进行以下5种变换：1）splits：将w依次按每一位分割为前、后两部分；2）deletes：依次删除w的每一位后组成新词；3）transposes：依次替换w邻近2位组成新词；4）replaces：将w的每一位依次替换成其他25个字母所形成的新词；5）inserts：在w的邻近2位之间依次插入一个任意字母组成新词. 当 ${d_{{w}}} = 2$时，在 ${d_{{w}}} = 1$时得到的单词集合基础上再采用以上5种变换得到组词. 单词校对规则如下：如果组词存在于词典中，则直接返回该组词结果；否则，返回所有组词中出现概率最大的单词.

进一步地，基于文本方向检测中的中心点与偏移角度集实现像素级分行. 具体地, 将所有单词框的最小包围矩集合看作一个样本空间，每个样本包含3种特征(中心点横坐标x，中心点纵坐标y，单词框偏移角度d )，同一行的单词框大多都位于同一偏移轴线上，若单纯以欧氏距离无法正确地区分行，则还需要结合行的偏移方向. 因此，提出一种基于密度空间聚类(density-based spatial clustering of applications with noise, DBSCAN)^[43]的行聚类算法. 与采用DBSCAN算法计算欧氏距离不同，提出的行聚类方法定义的距离计算公式为

(5) $ {D_{\rm{L}}}(A,B) = {\left\| {\Delta h,\Delta d} \right\|_2}. $

式中：A和B表示样本空间中的2个样本点 $A({a_{{x}}},{a_{{y}}},{a_{\rm{d}}})$和 $B({b_{{x}}},{b_{{y}}},{b_{\rm{d}}})$，Δh表示样本B的中心点与样本A轴线的距离，Δd表示AB的角度差值，具体计算公式为

(6) $ \left. {\begin{split} & {\Delta h = \frac{{\left| {{b_{{x}}}\tan\; {a_{\rm{d}}} + {b_{{y}}}({a_{{y}}} - {a_{{x}}}\tan\; {a_{\rm{d}}})} \right|}}{{{{\left[ {{{\tan }^2}\;{a_{\rm{d}}} + {{({a_{{y}}} - {a_{{x}}}\tan\; {a_{\rm{d}}})}^2}} \right]}^{{\rm{1/2}}}}}},}\\ & {\Delta d = \left| {{a_{\rm{d}}} - {b_{\rm{d}}}} \right|.} \end{split}} \right\} $

进一步地,设定一个密度阈值e=5，最小类容量 ${C_{\min }} = 1$. 对所有单词的行聚类结果按照文本方向进行单词排序，组成行−词节点排序树，再对所有行按文本竖直方向进行行排序，组成文本−行节点排序树. 分句的关键在于标点符号识别，本文采用模板匹配法进行标点符号的识别与定位，再根据标点符号的类型和文本位置对全文单词进行分句，当准确识别了所有标点符号的类型和位置后，在所有单词节点的基础上构建句子层. 整合以上所有文本对象的结构关系可以构建出如图8所示的文本对象结构树. 根据用户的注视点坐标p(x, y)进行多叉树查找，可以快速定位到用户正在阅读的文本内容.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 文本对象结构树示意图

Fig.8 Diagram of text object structure tree

3. 需求判定与自动批注

3.1. 基于目标锚定的需求判定

在英文阅读过程中，对于用户是否需要显示单词翻译或长难句摘要，可以通过单词需求判定机和语句需求判定机同时监听眼动注视点和注视文本来判断. 具体地，本文采取分级锚定模式，首先根据当前一定时间内的注视点序列锚定一个目标(单词或句子)，随即开始计算目标的判定因子，并将因子代入需求函数计算目标的需求度，用于描述用户的需求程度. 设置一个阈值T，当需求度达到阈值时，为用户生成与显示所需要的单词词义和长难句摘要批注. 当锚定目标的持续关注条件不满足时，将终止当前目标的需求度计算；当实时注视产生了新的目标时，当前目标的需求度将被新目标的需求度所取代.

需求判定机在计算出实时需求度后对单词和长难句分别构造不同的判定因子：词性判定因子包括注视强度 ${v_{\rm{g}}}$、单词的主题关键度 ${v_{\rm{k}}}$、词频难度 ${v_{\rm{d}}}$. 其中， ${v_{\rm{k}}}$和 ${v_{\rm{d}}}$分别通过文本中所有单词的词频−逆文档频率(term frequency-inverse document frequency, TF-IDF)权重、词长 ${w_{\rm{l}}}$、词频 ${w_{\rm{f}}}$加权和的极差归一化值求得. 设注视点每秒采样次数为 ${t_{{\rm{ps}}}}$，则注视强度 ${v_{\rm{g}}}$的计算表达式为

(7) $ {v_{\rm{g}}} = {\left( {\frac{t}{{2 {t_{{\rm{ps}}}}}}} \right)^2}. $

句性判定因子包括注视时长t_g、注视词逆序和 ${v_{\rm{s}}}$、句长度量 ${v_{\rm{l}}}$. 其中， ${v_{\rm{s}}}$表示注视点在句子内部逆向游移的序列和，初始值为0，当发生回视时，记当前时刻t的回视长度量为N_inv（t），则有

$\begin{aligned}&N_{\rm{inv}}\;(t)=N_{\rm{inv}}(t-1)+\Delta S,\\ &v_{\rm s}=(L_{\rm s}\,/\,N_{\rm{inv}})^2,\;v_{\rm l}=(L_{\rm s}\,/\,L_{\rm{max}})^2. \end{aligned}$

其中，ΔS为t−1到t时刻的注视点所对应的单词序号；L_s为当前语句的长度（单词数）；L_max为单个语句的最大长度，本文取50. 注视时长的计算表达式为

(8) $ \begin{split} t_{\rm g} = &{F}(t,{T_{{\rm{norm}}}}) = \\ & \left\{ {\begin{array}{*{20}{l}} {0,\quad\quad\quad\quad\quad\quad\quad t < {T_{{\rm{norm}}}}}; \\ {\dfrac{{\rm{1}}}{{T_{{\rm{norm}}}^2}}{{(t - {T_{{\rm{norm}}}})}^2},\;{T_{{\rm{norm}}}} \leqslant t \leqslant 2{T_{{\rm{norm}}}}} ;\\ {1,\quad\quad\quad\quad\quad\quad\quad t > 2{T_{{\rm{norm}}}}.} \end{array}} \right. \end{split} $

式中： ${T_{{\rm{norm}}}} = {{{l_{\rm{s}}}{n_{{\rm{ps}}}}} / {\rm{5}}}$，表示用常规速度阅读句子时所需要的时间度量，其中，n_ps为当前采样点数. 可见， ${v_{\rm{g}}}$和 ${t}$与实时注视点相关， ${v_{\rm{k}}}$、 ${v_{\rm{d}}}$、 ${v_{\rm{s}}}$、 ${v_{\rm{l}}}$与文本内容相关，文本相关因子的值在文本被提取后就已经确定，后续通过索引的方式快速查找因子取值. 具体判定方法阐述如下.

3.1.1. 词性需求判定

根据实时注视点序列锚定单词，具体方法如下：

1)确定开始点，若连续6个注视点坐标标准差小于10像素，则以6个注视点的中心点作为开始点；

2)确定锚定词，若连续2× ${n_{{\rm{ps}}}}$−6个采样点中没有出现与开始点距离大于15像素的注视点，则将这2× ${n_{{\rm{ps}}}}$个注视点全部确定为锚中心点，将与锚中心点的欧式距离最小的单词作为锚定词；

3)确定锚定词之后，根据实时注视点计算该锚定词的需求度，若期间连续出现6个与单词轮廓距离大于20像素的采样点，则中断需求度的计算并释放该锚定词(不满足持续关注条件).

此外，当某个单词一旦被需求度触发之后，在一段时间内(预设为6 s)将这个单词的需求度保持为0，表示不对该单词作需求度计算，防止重复生成批注，对用户形成阅读干扰.

3.1.2. 句性需求判定

根据实时注视点序列锚定句子，具体方法如下：若连续2× ${n_{{\rm{ps}}}}$个注视点都在同一个句子的区域内，则将该句确定为锚定句，并计算句子需求度. 与单词一样，当某个句子一旦被需求度触发之后，在一段时间内(预设为6 s)将这个句子的需求度保持为0，表示不对该句子作需求度计算，防止重复显示批注.

3.1.3. 需求函数

由于词性判定因子 $\{ {v_{\rm{g}}},{v_{\rm{k}}},{v_{\rm{d}}}\} $与句性判定因子 $\{ {t},{v_{\rm{s}}},{v_{\rm{l}}}\} $的因子数相同，且单词与句子需求度的计算模式也相同，可将锚定目标的判定因子统一记为 $\{ {v_1},{v_2},{v_3}\} $，则需求函数H_d的表达式如下：

(9) $ h = H_{\rm d}({v_1},{v_2},{v_3}) = \exp \;\left[ {\frac{{ - 1}}{{2\lambda }}{{\left( {\sqrt {\frac{{v_1^2 + v_2^2 + v_3^2}}{3}} - 1} \right)}^2}} \right]. $

设默认需求阈值 $T{\rm{ = }}{e^{{\rm{ - 1/2}}}}$，则当h>T时判定用户有需求. 其中常数λ∈(0, 1.0]为需求强度系数，用于描述被判定为有需求的容易程度(在针对单词的需求函数中λ=λ_w，在针对句子的需求函数中，λ=λ_s). 眼动跟踪数据采样过程中可能出现眨眼或眼神瞬时游离的情况，会影响需求度的计算，因此，这种异常注视点会由于无法满足锚定规则中目标持续被关注的条件而被过滤掉.

3.2. 批注生成与显示

本研究针对单词与长难句分别生成不同的批注内容：单词的批注为翻译，通过coca^①语料库建立索引查询翻译结果；长难句的批注为摘要，通过训练深度自动摘要模型来生成摘要内容. 自动摘要的目的是将难以理解的长难句缩简为简短句子，需要采用生成式单文档自动摘要模型，而这种模型的效果通常与文本篇幅有关，有研究表明，当文章篇幅超过50词之后效果开始明显下降. 由于人们日常阅读的文章篇幅不一，短则一两百字，长则上千字，显然对长难句作摘要比直接对整篇文章作摘要的可靠性更高.

表 1

Tab.1


① https://www.english-corpora.org/coca/

新窗口打开| 下载CSV

本文采用的自动摘要技术最大支持50个单词长度的句子输入，其中word embedding采用BERT预训练模型^[44]，摘要生成网络基于biLSTM-Seq2seq-Attention架构^[45]，模型训练采用针对文本摘要的DUC2003、DUC2004^②、Giga^③数据集，摘要评估采用Rouge标准^[46]. 评估结果如表2所示，其中，R₂为生成摘要的Rouge-2分数. 从表中可以看出，采用BERT预训练模型作长难句自动摘要的效果比Word2vec与Glove更好。

表 2 长难句自动摘要评估结果

Tab.2 Evaluation results for automatic summarization of long difficult sentence

深度模型	预训练模型	R₂
Seq2seq-Attention	Word2vec	0.129 4
	GloVe	0.137 4
	BERT	0.154 7

新窗口打开| 下载CSV

表 1

Tab.1


② https://www-nlpir.nist.gov/projects/duc/data.html ③ https://catalog.ldc.upenn.edu/LDC2012T21

新窗口打开| 下载CSV

4. 实验与分析

实验过程包括图像采集、眼动跟踪标定、阅读材料选择、参数设置、开始阅读、生成批注记录、用户审查等环节. 其中图像采集主要保证眼动跟踪设备上的相机能正确和稳定地捕捉到眼部图像特征和场景图像中的目标设备；眼动跟踪标定则采取九点标定法；阅读材料选择则让用户自行从3种规格的电子文档中选择测试材料进行阅读(事先准备好的pdf文档图像)；参数设置是用户根据自己的英语水平或阅读习惯设置一系列参数，参数说明和默认值情况如表3所示，其中，所有参数取值范围为[0, 1.0].

表 3 需求判定的可调参数设置说明

Tab.3 Description of adjustable parameter setting for requirement determination

参数	符号	默认值
单词强度系数	${\lambda _{\rm w}}$	0.36
句子强度系数	${\lambda _{\rm s}}$	0.36
各项因子系数	$\{ {v_{\rm{g}}},{v_{\rm{k}}},{v_{\rm{d}}}\} $, $\{ {t_{\rm{g}}},{v_{\rm{s}}},{v_{\rm{l}}}\} $	1.00

新窗口打开| 下载CSV

用户点击“开始阅读”按钮进入如图9(a)所示的原型系统界面，该界面整体分为文本区和批注区，文本区显示阅读材料的内容，处于界面的中间；批注区位于文本区的两侧，用于显示文本区中目标文本的批注信息；图9(b)是单词翻译示例(圆点是用户当前注视点)，图9(c)是长难句摘要示例. 当用户阅读结束后，原型系统会生成阅读过程中的批注记录，然后用户可以进行审查，通过回忆阅读过程，对每一条记录判定正确与否，“1”表示该批注是用户当时所需要的，否则用“0”表示.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 原型系统界面与阅读批注示例

Fig.9 Example of prototype system interface and reading annotation

4.1. 实验说明

本实验一共招募6名受试用户(4名男性，2名女性，平均年龄24岁)，所有受试用户均有阅读英文文献的经历，其中有3名用户通过大学英语考试CET六级测试，3名通过CET四级测试. 实验所用文献材料均采用Times New Roman字体，包括3种材料：第一种材料是一段36号字体、包含60~80个单词的英文歌词，第二种材料是一篇24号字体、包含180~300个单词的新闻短文，第三种材料是一篇12号字体、包含380~520个单词的英文短篇论文. 3种材料都有电子版，其中第一种和第二种材料还有A4篇幅、单页打印的纸质版.

电子阅读和纸质阅读的用户测试示例如图10所示，测试过程中用户视距(用户眼睛与屏幕之间的距离)大约保持在40~60 cm，支持轻微的头部运动. 测试过程分为2轮实验，第一轮实验中每名用户使用默认参数分别在电子阅读模式下完成3种材料的阅读，在纸质阅读模式下完成第一、二种材料的阅读；在第二轮实验中，用户根据第一轮实验时的用户体验，并结合自己的英语水平和阅读习惯手动调节参数(可调参数见表3). 为了避免同一用户对相同材料进行多次阅读，实验为3种材料准备了字体规格相同、字数接近、题材类似但内容不同的多份阅读材料进行选择.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同阅读模式下的用户测试示例

Fig.10 Examples of user testing in different reading modes

考虑到阅读行为的复杂性，为降低误判带来的不良用户体验，本文为系统设置2种状态：“阅读状态”与“非阅读状态”. 当采集的注视点在主界面的文本区范围内时，判定为阅读状态；若注视点离开了文本区则判定为非阅读状态. 系统在非阅读状态下采集的注视点数据将不参与需求度计算.

4.2. 实验结果

通过精确率P和平衡F分数F₁来评估需求判定方法，可以定义如表4所示的混淆矩阵.

表 4 需求判定混淆矩阵的定义

Tab.4 Definition of confusion matrix of demand determination

混淆矩阵	0：统判定无需求	1：系统判定有需求
0：用户没有需求	TN	FN
1：用户有需求	FP	TP

新窗口打开| 下载CSV

精确率P的计算表达式如下：

(10) $ P = \frac{\rm{TP}}{\rm{TP + FP}}. $

平衡F分数F₁的计算表达式如下：

(11) $ {F_1} = \frac{\rm{2TP}}{\rm{2TP + FP + FN}}. $

图11显示了不同材料类型和阅读模式下对单词和长难句需求判定的平衡F分数，其中，“电子”和“纸质”表示阅读模式，“1”和“2”分别表示第一轮实验(默认参数)和第二轮实验(手动调节参数).

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 单词和长难句需求判定的F分数

Fig.11 F score of demand determination for word and long difficult sentence

通过需求判定的平均精确率P与批注功能的平均时延T对本文的方法进行整体评估，实验数据如表5所示. 以单词样本为例，在电子阅读情况下，需求判定的平均精确率达到了86.3%，自动批注的平均时延为1.3 s；在纸质阅读情况下的精确率为79%，自动批注的平均时延为1.5 s. 长难句样本的时延基本在2~3 s，相较于单词批注时延较大，这是因为自动摘要模型需要花费较多的时间计算句子的批注内容. 总体而言，需求判定在电子阅读模式下的精确率更高，自动批注的时延更小，具有较好的实时性.

表 5 需求判定的平均精确率与批注生成的平均时延

Tab.5 Average accuracy of demand determination and average time delay of annotation generation

阅读模式	样本类型	P/%	T/s
电子阅读	单词	86.3	1.3
电子阅读	句子	72.6	2.7
纸质阅读	单词	80.4	1.5
纸质阅读	句子	63.9	2.9

新窗口打开| 下载CSV

对实验数据进一步分析，发现：

1)由于不同的材料使用了不同大小的字体，较大字体的材料具有较高的需求判定精确率；

2)整体而言，在保证眼动跟踪精度和文本识别性能的情况下，需求判定的平均精确率为80.6% ± 6.3%，表明本文的用户需求判定方法在一定条件下表现良好，能够帮助读者提高英文文献的阅读效率.

此外，对被试用户进行访谈，并记录用户的主观体验反馈. 其中一些被试用户反映，“自动需求判定的功能比较新颖，识别率也在可接受范围内”；“翻译批注大大节省了平时手动查阅辞典的时间”；“系统界面和批注形式都比较直观，很实用”. 也有一些用户反映，“需求判定整体上比较准确，但是少数由于系统误判显示的批注有一点干扰阅读”；“在纸质阅读模式下，眼睛注视在书面上，但批注显示在设备上，有一点操作不流畅的感觉”.

5. 结　语

针对阅读过程中的理解困难问题，本文提出了一种融合眼动数据特征和文本内容特征的批注需求判定方法. 在判定用户有需求时，针对性地为用户生成和显示相关单词翻译或长难句摘要等内容. 原型系统实验结果和用户反馈表明，本文的需求判定方法具有较高的精确率，自动批注具有较好的实时性，能帮助用户提高英文阅读效率，为进一步开展眼动辅助阅读应用提供了一条有效途径.

下一步的研究工作将从以下几个方面展开：1)进一步提高眼动跟踪和文本提取的性能；2)通过建立困难单词词库减少单词翻译时延；3)通过统计机器学习方法面向不同用户进行需求参数的自适应设置，解决用户个体差异导致的需求判定精确率低的问题；4)进行更多批注可视化形式的探索.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

RAYNER K

Eye movements in reading and information processing: 20 years of research

[J]. Psychological Bulletin, 1998, 124 (3): 372- 422

DOI:10.1037/0033-2909.124.3.372 [本文引用: 1]

[2]

范琳, 刘振前

阅读理解过程的眼动研究

[J]. 外语与外语教学, 2007, (4): 38- 43