园区网风险账号评估方法

doi:10.3785/j.issn.1008-973X.2020.09.012

园区网风险账号评估方法

曾煌尧^,, 李丹丹, 马严^,, 丛群

Risky accounts evaluation method of campus network

ZENG Huang-yao^,, LI Dan-dan, MA Yan^,, CONG Qun

通讯作者: 马严，男，教授. orcid.org/0000-0001-8065-591X. E-mail： mayan@bupt.edu.cn

收稿日期: 2019-07-30

Received: 2019-07-30

作者简介 About authors

曾煌尧（1995—）男，硕士生，从事网络空间安全研究.orcid.org/0000-0002-8278-9695.E-mail：molunerfinn@gmail.com , E-mail：molunerfinn@gmail.com

摘要

基于账号的URL访问日志，通过检测风险设备定位风险账号；提取设备出现次数离散度、设备多账号风险度、收费网络占比等访问行为特征，将其量化为特征向量集；利用高斯混合模型（GMM）将所得到的特征向量集进行聚类，得出设备有异常访问行为的概率. 使用修正余弦相似度算法计算同一账号下同类设备访问URL的相似程度. 综合高斯混合模型的聚类结果和修正余弦相似度的计算结果得到风险账号的评估结果. 实验结果表明，该方法在误报率低于5%的同时达到85%的检出率，可以在IP地址范围较小、账号登录频率不高的园区网环境下及时发现风险账号.

关键词： 统一资源定位符（URL） ; 园区网 ; 风险评估 ; 高斯混合模型（GMM） ; 余弦相似度

Abstract

The proposed method located risky accounts by detecting risky devices based on the URL access logs of the accounts; and the access behavior characteristics, such as the dispersion of device occurrences, the device multi-account risk level, and the percentage of charged networks, were extracted and quantified into feature vector sets. The set of feature vectors was clustered using a Gaussian mixed model (GMM) to obtain the probability of abnormal device access behavior. The similarity of URLs accessed by similar devices under the same account was calculated with the modified cosine similarity algorithm. The results of GMM and the modified cosine similarity were combined to give the evaluation results of risky accounts. The experimental results show that the method can achieve the detection rate of 85% with the false alarm rate of less than 5%, which helps to detect risky accounts promptly in campus network environment with a small range of IP addresses and infrequent account logins.

Keywords： uniform resource locator (URL) ; campus network ; risk assessment ; Gaussian mixture model (GMM) ; cosine similarity

PDF (1156KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

曾煌尧, 李丹丹, 马严, 丛群. 园区网风险账号评估方法. 浙江大学学报(工学版)[J], 2020, 54(9): 1761-1767 doi:10.3785/j.issn.1008-973X.2020.09.012

ZENG Huang-yao, LI Dan-dan, MA Yan, CONG Qun. Risky accounts evaluation method of campus network. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(9): 1761-1767 doi:10.3785/j.issn.1008-973X.2020.09.012

园区网是一个由有限的地理区域内互相连接的局域网所组成的网络和传媒体. 大学的校园网是一种非常典型的园区网^[1]. 本研究以校园网为例，研究园区网风险账号的评估方法. 通常情况下，学校师生在利用校园网访问网络资源时，需要登录自己的入网账号. 然而，校园网的账号安全保护机制较为薄弱，存在初始密码简单、易被破解，登录过程未加密导致用户账号密码容易泄露等问题. 同时，校园网账号往往与流量、计费等系统挂钩，一旦账号密码泄露，用户的流量就会被盗用，造成经济损失. 因此，研究校园网风险账号评估方法、及时发现风险账号、减少账号被盗用给用户带来的损失具有现实意义.

现有的对于账号保护的研究主要基于二次验证、登录日志分析等. Wang等^[2]提出了改进的双因素（two-factory）验证方法，但是现有的校园网内大多数账号的登录环节并没有配置双因素验证系统，用户的账号依然存在被盗用的风险. Mills等^[3-5]通过登录日志频率、时间、登录结果等提取用户行为特征，从而判断用户账号是否具有风险，但是这些特征在校园网内不适用，比如：用户有可能使用自己的设备在其不常登录的时间段登录，传统算法会将其判断为风险账号，但实际上这种情况下用户的账号仍是低风险的. Freeman等^[6]通过对用户的登录日志进行IP处理，分析国别、运营商等信息，检测登录地点差异过大的账号并将其视为风险账号. 但是这种方法在校园网内并不适用，由于校园网内登录的IP都是内网IP，IP地址范围有限，单纯通过互联网服务提供商（internet service provider，ISP）、IP国别等信息无法有效判断用户账号是否存在风险. 章思宇等^[7-8]从统一身份认证系统的日志中提取了登录次数、用户代理信息、登录IP等特征对用户登录相关系统的账号进行风险评估. 然而，由于很多校园网的入网系统并没有接入统一身份认证，统一身份认证系统里缺失入网登录日志，无法用于有效地评估风险账号.

上述方法主要着眼于用户账号的登录阶段，利用登录阶段的日志信息对风险账号进行评估. 在校园网环境下，由于IP地址范围小、登录次数少等原因，上述方法提取的特征无法很好地刻画校园网账号的使用情况. 本研究根据校园网账号的使用特点，从用户设备的访问是否出现异常行为的角度出发，基于用户账号的URL访问日志，提取一段时间内的设备出现次数离散度、设备多账号风险度等访问行为特征，利用高斯混合模型对特征数据进行聚类，得出设备有异常访问行为的概率，并结合修正余弦相似度算法计算设备访问URL的相似度，综合高斯混合模型和修正余弦相似度算法的结果得出风险账号的评估结果.

1. 基于URL访问日志的风险账号评估方法

园区网的入网账号如果被盗用，就会在他人的设备上登录，本研究称这种设备为风险设备. 因此，对账号作出风险评估的关键在于找出风险设备. 下文将详细介绍定位风险设备的步骤，包括日志特征提取、特征向量聚类分析和同账号下同类设备URL的访问相似度计算.

1.1. 特征提取

以一段时间内设备访问的统一资源定位符（uniform resource locator，URL）为分析单位，从中提取出设备出现次数离散度 ${D_{{\rm{std}}}}$、设备多账号风险度 ${A_{{\rm{risk}}}}$、收费网络访问占比 ${V_{{\rm{per}}}}$、对立位置风险度 ${L_{{\rm{risk}}}}$共4种特征，并将其量化为特征向量H= $[{D_{\rm std}},{A_{\rm risk}},{V_{\rm per}},{L_{\rm risk}}]$.

1.1.1. 设备出现次数离散度

当一个设备是风险设备时，该设备上登录的账号的URL访问日志通常会表现出如下特征：在一段时间内访问URL的数量突然增多，超出正常用户的平均水平. 如果将时间窗口扩大到7或10 d，可以发现风险设备的访问主要集中于某几个时间段，而在风险设备出现的前几天里，正常用户的设备在一段时间内访问URL的次数总体趋于稳定. 因此，可以通过计算设备出现的离散程度量化这种特征.

设备出现离散度 ${D_{{\rm{std}}}}$为一段时间序列E=$\{({t_1},{n_1}),({t_2},{n_2}),\cdots,({t_m},{n_m})\}$内该设备访问URL时出现的次数的标准差：

(1) ${D_{{\rm{std}}}} = {\rm{std}}\;\Big\{\left[\left({t_1},{n_1}\right),\left({t_2},{n_2}\right),\cdots,\left({t_m},{n_m}\right)\right] \Big\}.$

当设备访问规律时，设备出现次数的离散程度较小，即 ${D_{{\rm{std}}}}$值较小；反之， ${D_{{\rm{std}}}}$值较大.

1.1.2. 设备多账号风险度

通常情况下校园网用户的设备只会登录自己的账号，而盗号者的设备可能会登录多个账号（自己的以及被盗者的）以获取更多的流量. 本研究引入设备多账号风险度 ${A_{{\rm{risk}}}}$标识这种风险. 根据URL访问记录里的媒体存储控制（media access control，MAC）地址信息定位到具体的设备. 在所有账号的访问日志中，通过筛选指定的MAC地址获得具体设备的访问记录，从而在这些访问记录内获得其访问URL时登录过的账号数目. 将一段时间内设备访问URL登录过的账号数目量化为时间序列T= $\{({t_1},{n_1}),({t_2},{n_2}),\cdots, $ $({t_m},{n_m})\}$. 设 ${A_{\max }}$和 ${A_{\min }}$分别为该时间序列里设备登录的账号数量的最大值与最小值. 设 ${A_{{n_i}}}(1 \leqslant i \leqslant m)$表示该设备在 $\;{t_i}$时间内访问URL使用过的账号数，则按归一化方式 ${A_{{\rm{risk}}}}$可以表示为

(2) ${A_{\rm risk}} = \frac{{\rm{1}}}{m}\sum\limits_{i = 1}^m {\frac{{{A_{{n_i}}} - {A_{\min }}}}{{{A_{\max }} - {A_{\min }}}}} .$

当设备使用的账号数越多时， ${A_{\rm risk}}$值越大，风险越大.

1.1.3. 收费网络占比

校园网通常分为免费网络和收费网络. 其中免费网络只能访问特定的网站，而收费网络可以访问其他网站，但需要按访问流量计费. 调研发现，风险设备大概率访问的是收费网络，因此，普通用户账号被盗取后，收费流量占所有上网流量的比例将会升高. 本研究通过统计设备访问URL记录中收费网络的占比标识这种风险.

设该设备访问URL的总次数为 ${C_{{\rm{all}}}}$，使用收费网络访问URL的次数为 ${C_{{\rm{paid}}}}$，则收费网络访问占比为

(3) ${V_{{\rm{per}}}} = \frac{{{C_{{\rm{paid}}}}}}{{{C_{{\rm{all}}}}}}.$

设备访问的收费网络次数越多， ${V_{{\rm{per}}}}$ 值越大，风险越大.

1.1.4. 对立位置风险度

可以通过设备访问的IP地址获取用户的地理位置信息^[9]. 分析用户设备的访问日志发现，风险设备会在与被盗账号常用IP地址所在地理位置不同的场所登录，本研究称之为对立位置. 比如：某用户经常在A楼登录使用其账号，而盗号者却在B楼登录了该账号，此时盗号者设备所在的位置为对立位置. 本研究认为设备出现在对立位置时具有风险性.

根据设备访问URL的IP地址可以得出用户访问的地理位置信息. 设该账号一段时间内出现过的地理位置列表为 $P = \{ {p_1},{p_2},\cdots,{p_m}\}$，当发现对立位置时，统计该账号下出现的对立位置集合 ${P_{{\rm{opp}}}} \subset P$. 基于对立位置集合，采用概率的方式表达对立位置的风险度. 设第 $i$ 次 $(1 \leqslant i \leqslant n)$访问URL时所处的位置为 $p$，则处于对立位置的次数 ${L_i}$为

(4) ${L_i} = \left\{ {\begin{array}{*{20}{c}} {1,}&{p \in {P_{{\rm{opp}}}}}\;{\text{;}} \\ {0,}&{p \notin {P_{{\rm{opp}}}}} \;{\text{.}} \end{array}} \right.$

对立位置风险度为

(5) ${L_{{\rm{risk}}}} = \frac{1}{n}\sum\limits_{i = {\rm{1}}}^n {{L_i}} .$

当访问URL时，处于对立位置的次数越多，风险越大.

1.2. 聚类分析

将上文得到的特征向量 $[{D_{\rm std}},{A_{\rm risk}},{V_{\rm per}},{L_{\rm risk}}]$作为聚类分析的输入. 聚类的目的是划分出正常设备和风险设备2个簇.

本研究使用的聚类模型为高斯混合模型（Gaussian mixed model，GMM）^[10]，其对符合高斯分布的特征数据有较好的分类效果. 本研究中正常账号的的样本较多，风险账号的样本较少，根据中心极限定理，当实验数据足够多时，数据的随机性足够大，实验结果的二项分布收敛于正态分布，符合高斯混合模型的使用条件. 高斯混合模型聚类的结果是样本属于每个簇的概率，其定义为

(6) $p(x) = \sum\limits_{k = 1}^K {{\alpha _i}p\big(x\;|\;{\mu _i},{{{\varSigma}} _i}\big)} .$

式中：K为模型的个数（即簇的个数），本研究中K=2； ${\alpha _i}$为第 $i$ 个混合系数， ${\alpha _i} \geqslant 0$并且 $\sum\nolimits_{i = 1}^K \!{{\alpha _i} = 1}$.

高斯混合模型聚类的过程是通过参数估计，推导出每一种混合成分的参数：均值向量 ${{u }}$，混合系数 $\alpha $和协方差矩阵 ${{\varSigma }}$的值. 高斯混合模型在训练过程中使用极大似然估计法，最大化以下对数似然函数：

(7) $\begin{split} O = &\log\; \prod\limits_{j = 1}^m {p({x_j})} {\rm{ = }} \\ &\sum\nolimits_{j = 1}^m {\log }\; \sum\nolimits_{i = 1}^K {\left[ {{\alpha _i}p({x_j}\;|\;{{{u}} _i},{{{\varSigma}} _i})} \right]} . \end{split} $

式中：m为输入的样本个数.

由于式（7）无法直接通过解析方式求解，通常使用最大期望值（expectation maximization，EM）算法^[11-12]迭代求解：若参数 $\{ ({\alpha _i},{{ {u}} _i},{{{\varSigma}} _i})\;|\;1 \leqslant i \leqslant K\}$能使式（6）取得最大值，则由 ${{\partial O} / {\partial {\mu _i}}}{\rm{ = }}0$可得每个簇的后验概率为

(8) ${\gamma _{ji}} = \frac{{{\alpha _i}p({x_j}\;|\;{{{u}} _i},{{{\varSigma}} _i})}}{{\displaystyle\sum\nolimits_{l{\rm{ = }}1}^K {\left[{\alpha _l}p({x_j}\;|\;{{{u}} _l},{{{\varSigma}} _l})\right]} }}.$

继而求出模型参数 $\{ ({\alpha _i},{{{\mu}} _i},{{{\varSigma}} _i})|\;1 \leqslant i \leqslant K\}$；并重复这个循环直到似然函数的增加值已经收敛或者达到最大循环次数；而后将输入的样本划分到概率最大的簇上，将所得的后验概率作为聚类结果Y，并更新特征向使量，使H= $[{D_{\rm std}},{A_{\rm risk}},{V_{\rm per}},{L_{\rm risk}},Y]$.

1.3. 设备访问URL的相似度计算

通过分析被盗账号下所有设备的URL访问记录发现，账号被盗取前、后，URL访问喜好通常有较大的差异. 为了使账号的风险评估更加全面，引入设备访问URL的相似度计算. 若一段时间内某一个账号下同类设备（如：PC设备）的URL访问相似度很低，则说明偏离了用户平时的访问习惯，该账号下存在风险设备，账号风险度升高.

由于用户可能有多种设备，不同设备的访问习惯不同，分别统计不同类型设备的访问情况. 为了简化计算并提高算法的运行速度，本研究将用户的设备类型分为2类，包括PC设备与移动设备（非PC设备）. 下面以PC设备为例对算法进行介绍.

设一个账号下的PC设备列表为 $F = \{ {F_1},{F_2},\cdots, $ ${F_n}\} $，通过DPI深度包检测方法^[13]获得PC设备访问过的URL标签，标签列表为 $B = \{ {B_1},{B_2},\cdots,{B_m}\} $. 统计每台PC设备在对应标签下的访问次数，并将其量化成一个 $n \times m$的矩阵 ${{M}}$. 其中， ${{{M}}_{i,j}}$表示第 $i$台（ $1 \leqslant i \leqslant n$）设备访问第 $j$种（ $1 \leqslant j \leqslant m$）URL标签的次数.

本研究旨在找出同一账号下，同一类型设备中，URL访问相似度低于其他设备的设备。采用协同过滤推荐算法^[14-15]里常用的余弦相似度^[16]计算不同设备间的URL访问相似度. 如果某台设备与其他设备的相似度都很低，可以认为其偏离了用户访问习惯，具有风险性.

为了避免不同设备的URL在访问数量上差异过大导致余弦相似度计算出现偏差，采用修正余弦相似度^[17-18]计算，即将矩阵的每行数据都减去该列数据的平均数，再进行余弦相似度计算. 修正余弦相似度公式如下：

(9) $\cos\; \theta = \frac{{\displaystyle\sum\nolimits_{i = 1}^m {({x_i} \times {y_i})} }}{{\sqrt {\displaystyle\sum\nolimits_{i = 1}^m {{{({x_i})}^2}} } \times \sqrt {\displaystyle\sum\nolimits_{i = 1}^m {{{({y_i})}^2}} } }}.$

式中： ${x_i}$和 ${y_i}$表示矩阵中第 $x$行和第 $y$行的第 $i$列元素. 以 ${x_i}$为例，

(10) ${x_i} = {{{M}}_{x,i}} - \frac{{\rm{1}}}{n}\sum\limits_{j = 1}^n {{{{M}}_{j,i}}} .$

经过修正余弦相似度计算后得到一个 $n \times n$的矩阵S，每一行元素为

(11) $\begin{array}{*{20}{c}} {{{{S}}_a} = [{{\cos }_{a,b}},{{\cos }_{a,2}},\cdots,{{\cos }_{a,n}}];}&{1 \leqslant a \leqslant n} \end{array}.$

式中， ${\cos _{a,b}}$表示矩阵 ${{M}}$的第a行元素与矩阵 ${{M}}$的第b行元素的修正余弦相似.当 $a = b$时， ${\cos _{a,b}} = 1$. ${\cos _{a,b}}\;(1 \leqslant b \leqslant n)$ 的取值范围为 $\left[ { - 1.0,1.0} \right]$，其中，−1.0表示负相关，0表示不相关（不相似），1.0表示正相关（非常相似）. 将设备与同类型其他设备的平均修正余弦相似度记为

(12) ${C_{{\rm{mean}}}} = \frac{{\rm{1}}}{n}\left( { - 1 + \sum\limits_{i = 1}^n {{{\cos }_{b,a}}} } \right).$

为了方便计算，当 ${C_{{\rm{mean}}}} \leqslant 0$时取 ${C_{{\rm{mean}}}} = 0$. ${C_{{\rm{mean}}}}$的值越小，表示设备与同类型其他设备的访问相似度越低，账号风险程度越高.

根据聚类分析的结果可以得出设备有异常访问行为的概率，根据URL相似度计算结果可以得出设备与同类型其他设备访问URL的相似度，综合两者更好地对风险账号进行评估，至此可以得出园区网风险账号评估公式：

(13) $R = \frac{{\rm{1}}}{2}\left[ {Y' + (1 - {C'_{{\rm{mean}}}})} \right].$

式中： $Y'$为聚类后当前账号下设备有异常访问行为的最大概率值， ${C'_{{\rm{mean}}}}$为当前账号下设备的URL访问相似度最小值. 可得， $R$的取值范围为 $[0,{\rm{1}}{\rm{.0}}]$. 正常账号的 $Y' $值较小且 ${C'_{{\rm{mean}}}}$较大，则R值较小；风险设备的 $Y' $值较大且 ${C'_{{\rm{mean}}}}$较小，则R值较大，因此，当 $R$大于一定阈值时，用户的账号具有风险性.

2. 实验与分析

2.1. 实验环境与数据

本实验所用的主机配置为Intel® Core™ i7-4790K CPU @ 4.00 GHz，16 GB内存的64位Windows10操作系统. 所使用的开发环境主要有Node.js v10.15.3 以及 Anaconda 4.6.14.

将从北京邮电大学校园网出口采集的10 d（2019年4月1日—10日）内学生的URL访问日志作为实验数据，数据集的存储字段如表1所示. 对数据进行预处理（若日志缺失表1中的任一字段值，则视之为无效数据，将其剔除）之后将其存储至Mongodb数据库.

表 1 用户URL访问日志数据集的存储字段

Tab.1 Storage field of user URL access log dataset

字段	含义
TIME	访问时间
LABEL	访问标签
MAC	设备MAC地址
URL	访问URL地址
DEVICE	设备类型
POS	设备访问地理位置信息
USER	用户账号
IP	设备访问的IP地址
SSID	设备访问的服务集标识

新窗口打开| 下载CSV

本研究通过日志分析和前期调研发现4个真实被盗账号，并在其余时间段里发现6个真实被盗账号，通过脚本将这6个被盗账号的访问日志的日期映射到4月1日—10日；而后通过脚本随机混合不同账号的设备访问记录，生成10个风险账号样本，真实样本与模拟样本比例为1∶1.

综上，本研究共采集1 000个账号的访问日志数据，其中包括980个正常账号和20个风险账号，按7∶3将数据源分成训练集与测试集. 实验总共采集日志数据达5 414万条，大小为13.7 GB.

2.2. 实验结果与分析

从1 000个账号的访问日志中提取特征向量，构成98 475条输入样本，其中包括13 781条风险设备输入样本. 利用高斯混合模型对输入样本进行聚类，同时计算这些账号下的设备URL访问相似度. 将聚类的真实结果与实验结果通过二值分类表^[19]进行展示，如表2所示. 其中，T/F表示分类结果是否正确，正确为T，错误为F；P/N表示实验结果是否有风险，P表示有风险，N表示无风险. 从中可得聚类分析后的准确度为86.2%. 利用聚类分析和设备访问URL相似度的结果，根据式（13）计算R值. 由训练集可得，当R的阈值为0.437时，能较好地区分风险账号和正常账号；阈值过大将导致检出率降低，过小将导致误报率升高. 测试时，对于每一个输入账号计算其R值，当 $R \geqslant 0.437$ 时认为账号有风险；反之，认为账号正常. 依照上述方法，检测出测试集中的17个风险账号（共20个），检出率为85%，误报率为3.57%.

表 2 高斯混合模型（GMM）聚类结果

Tab.2 Results of Gaussian mixed model (GMM) clustering

真实结果/聚类结果	有风险	无风险
有风险	TP=11 737	FN=2 044
无风险	FP=11 573	TN=73 121

新窗口打开| 下载CSV

从实验结果里随机抽取1 000条正常输入样本与1 000条风险输入样本，分别对样本中的设备出现次数离散度、设备多账号风险度、收费网络占比、对立位置风险度和设备访问URL相似度5个特征进行可视化分析，如图1所示. 其中，N为样本的编号，编号范围为1~1000. 正常设备的出现次数离散度大部分低于550，而风险设备大部分高于1 000，说明风险设备的出现次数更不规律.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 随机抽取的2 000个样本在设备出现次数离散度上的取值情况

Fig.1 Values of 2,000 samples randomly selected on dispersion of device occurrences

如图2所示，正常设备的多账号风险度大部分为0，而风险设备多数大于0.3，说明风险设备更容易出现多个账号登录的情况.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 随机抽取的2 000个样本在设备多账号风险度上的取值情况

Fig.2 Values of 2,000 samples randomly selected on device multi-account risk level

如图3所示，正常设备的收费网络占比大部分低于0.7，而风险设备高于0.9，并且绝大部分为1，说明风险设备访问收费网络的占比更大.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 随机抽取的2 000个样本在收费网络占比上的取值情况

Fig.3 Values of 2,000 samples randomly selected on percentage of charged network

如图4所示，正常设备的访问多数处于非对立位置，与预期相符；而风险设备只有57.9%的访问处于对立位置，与预期的结果有所差距. 主要原因是部分风险设备的访问位置难以判断为对立位置（如：与正常设备处于同一栋楼），导致聚类效果不理想.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 随机抽取的2 000个样本在对立位置风险度上的占比情况

Fig.4 Proportion of 2,000 samples randomly selected on opposing position risk levels

如图5所示，正常设备的URL访问相似度大部分高于0.4，而风险设备大部分低于0.2. 说明风险设备访问的URL与被盗账号其余设备访问的URL有较大的差异.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 随机抽取的2 000个样本在设备访问URL相似度上的取值情况

Fig.5 Values of 2,000 samples randomly selected on similarity of device access URLs

针对上述特征进行主成分分析^[20]，分析各个特征对于最终结果的贡献率，得到特征 ${D_{{\rm{std}}}}$的贡献率为17.8%，特征 ${A_{{\rm{risk}}}}$的贡献率为33.7%，特征 ${V_{{\rm{per}}}}$的贡献率为19.2%，特征 ${L_{{\rm{risk}}}}$的贡献率为7.4%，特征 ${C_{{\rm{mean}}}}$的贡献率为21.9%. 可以发现多账号风险度 ${A_{{\rm{risk}}}}$的贡献率最高，说明在本算法下，采用 ${A_{{\rm{risk}}}}$进行分析时能取得较好的结果，这表明盗号者通常会采用多账号进行流量盗取. 经实验发现，当 ${A_{{\rm{risk}}}}$的阈值为0.5时，可以从20个风险账号中检测出17个风险账号，且误报率仅为4.39%. 由于真实风险账号样本不足，引入模拟样本，本实验的阈值设置与真实情况存在一定偏差，导致误报率升高，这种偏差可以通过引入足够的真实风险账号解决；并且本课题的初衷是通过评估账号的风险程度，对用户进行风险提示，而不是封禁用户账号，少量的误报也是良性的提醒，因此这样的误报率在真实环境下是可以接受的.

综上所述，对立位置风险度分类效果较不明显，因为难以判断部分风险设备与正常设备所在的位置是否为对立位置. 风险设备访问次数离散度、多账号风险度、收费网络占比、设备访问URL的修正余弦相似度均与正常设备有明显区分度，与预期的表现一致，其中设备多账号风险度的效果最好，在低误报率的情况下能够检测出85%的风险账号，检出率较高.

3. 结　语

基于账号登录后的URL访问日志，本研究提出了一种园区网风险账号的评估方法. 本研究以校园网为研究对象，提出了风险设备的概念，并通过检测风险设备定位风险账号. 实验结果表明，所提方法能够在误报率低于5%的同时达到85%的检出率，能有效地评估风险账号. 并且当日志信息欠缺时，仅使用设备多账号风险度也能取得较为良好的评估效果，说明同一设备登录多个账号是较为明显的风险行为. 该方法同样适用于特征类似的园区网，例如：在运营商部署收费WIFI的园区网环境下，可以利用访问点（access point，AP）位置信息替代本研究方法使用的IP位置信息，将AP位置信息用于量化对立位置特征，从而实现风险账号的评估. 未来的工作可以着眼于在更短的日志周期内、更小的日志量中挖掘风险账号的特征，从而提升评估方法的性能和效率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

白阳

高校园区网的规划与构建

[J]. 航海教育研究, 2010, 27 (1): 111- 112

DOI:10.3969/j.issn.1006-8724.2010.01.043 [本文引用: 1]

BAI Yang

Planning and construction of university campus network

[J]. Maritime Education Research, 2010, 27 (1): 111- 112

DOI:10.3969/j.issn.1006-8724.2010.01.043 [本文引用: 1]

[2]

WANG D, WANG P

Two birds with one stone: two-factor authentication with security beyond conventional bound

[J]. IEEE Transactions on Dependable and Secure Computing, 2018, 15 (4): 708- 722

[本文引用: 1]

[3]

MILLS J U, STUBAN S M F, DEVER J

Predict insider threats using human behaviors

[J]. IEEE Engineering Management Review, 2017, 45 (1): 39- 48

DOI:10.1109/EMR.2017.2667218 [本文引用: 1]

[4]

SIADATI H, SAKET B, MEMON N. Detecting malicious logins in enterprise networks using visualization [C] // 2016 IEEE Symposium on Visualization for Cyber Security (VizSec). Baltimore: IEEE, 2016: 1-8.

[5]

ZHOU Y, KIM D W, ZHANG J, et al

Proguard: detecting malicious accounts in social-network-based online promotions

[J]. IEEE Access, 2017, 5: 1990- 1999

DOI:10.1109/ACCESS.2017.2654272 [本文引用: 1]

[6]

FREEMAN D, JAIN S, DURMUTH M, et al. Who Are You? A statistical approach to measuring user authenticity [C] // The Network and Distributed System Security Symposium (NDSS) 2016. San Diego: NDSS, 2016: 1-15.

[本文引用: 1]

[7]

章思宇, 黄保青, 姜开达

统一身份认证日志集中管理与账号风险检测

[J]. 东南大学学报: 自然科学版, 2017, 47 (S1): 113- 117

[本文引用: 1]

ZHANG Si-yu, HUANG Bao-qing, JIANG Kai-da

Unified identity authentication log centralized management and account risk detection

[J]. Journal of Southeast University: Natural Science Edition, 2017, 47 (S1): 113- 117

[本文引用: 1]

[8]

陈嵩, 王怡

高校统一身份认证中的账号安全研究

[J]. 福建师大福清分校学报, 2017, (4): 100- 105

DOI:10.3969/j.issn.1008-3421.2017.04.019 [本文引用: 1]

CHEN Song, WANG Yi

Research on account security in university unified identity authentication

[J]. Journal of Fujian Normal University Fuqing Branch, 2017, (4): 100- 105

DOI:10.3969/j.issn.1008-3421.2017.04.019 [本文引用: 1]

[9]

聂荣, 余建国, 张洪欣, 等

IP地址地理位置映射技术

[J]. 计算机工程, 2008, 34 (15): 102- 104

DOI:10.3969/j.issn.1000-3428.2008.15.036 [本文引用: 1]

NIE Rong, YU Jian-guo, ZHANG Hong-xin, et al

IP address geolocation mapping technology

[J]. Computer Engineering, 2008, 34 (15): 102- 104

DOI:10.3969/j.issn.1000-3428.2008.15.036 [本文引用: 1]

[10]

STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time tracking [C] // Proceedings of 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (Cat. No PR00149). Fort Collins: IEEE, 1999: 246-252.

[本文引用: 1]

[11]

岳佳, 王士同

高斯混合模型聚类中EM算法及初始化的研究

[J]. 微计算机信息, 2006, (33): 244- 246

DOI:10.3969/j.issn.1008-0570.2006.33.086 [本文引用: 1]

YUE Jia, WANG Shi-tong

Research on EM algorithm and initialization in Gaussian mixture model clustering

[J]. Microcomputer information, 2006, (33): 244- 246

DOI:10.3969/j.issn.1008-0570.2006.33.086 [本文引用: 1]

[12]

王源, 陈亚军

基于高斯混合模型的EM学习算法

[J]. 山西师范大学学报: 自然科学版, 2005, 19 (1): 46- 49

[本文引用: 1]

WANG Yuan, CHEN Ya-jun

EM learning algorithm based on Gaussian mixture model

[J]. Journal of Shanxi Normal University: Natural Science Edition, 2005, 19 (1): 46- 49

[本文引用: 1]

[13]

武光达, 蒋朝惠

基于 DPI 的流量识别系统的研究

[J]. 信息网络安全, 2014, 14 (10): 44- 48

DOI:10.3969/j.issn.1671-1122.2014.10.008 [本文引用: 1]

WU Guang-da, JIANG Zhao-hui

Research on DPI-based traffic identification system

[J]. Information Network Security, 2014, 14 (10): 44- 48

DOI:10.3969/j.issn.1671-1122.2014.10.008 [本文引用: 1]

[14]

马宏伟, 张光卫, 李鹏

协同过滤推荐算法综述

[J]. 小型微型计算机系统, 2009, 30 (7): 1282- 1288

[本文引用: 1]

MA Hong-wei, ZHANG Guang-wei, LI Peng

A survey of collaborative filtering recommendation algorithms

[J]. Small Microcomputer System, 2009, 30 (7): 1282- 1288

[本文引用: 1]

[15]

邢春晓, 高凤荣, 战思南, 等

适应用户兴趣变化的协同过滤推荐算法

[J]. 计算机研究与发展, 2007, 44 (2): 296- 301

DOI:10.1360/crad20070216 [本文引用: 1]

XING Chun-xiao, GAO Feng-rong, ZHAN Si-nan, et al

Collaborative filtering recommendation algorithm adapted to changes in user interest

[J]. Computer Research and Development, 2007, 44 (2): 296- 301

DOI:10.1360/crad20070216 [本文引用: 1]

[16]

DEHAK N, DEHAK R, GLASS J R, et al. Cosine similarity scoring without score normalization techniques [C] // The Speaker and Language Recognition Workshop (Odyssey 2010). Brno: IEEE, 2010: 71-75.

[本文引用: 1]

[17]

梁天一, 梁永全, 樊健聪, 等

基于用户兴趣模型的协同过滤推荐算法

[J]. 计算机应用与软件, 2014, 31 (11): 260- 263

DOI:10.3969/j.issn.1000-386x.2014.11.066 [本文引用: 1]

LIANG Tian-yi, LIANG Yong-quan, FAN Jian-cong, et al

Collaborative filtering recommendation algorithm based on user interest model

[J]. Computer Applications and Software, 2014, 31 (11): 260- 263

DOI:10.3969/j.issn.1000-386x.2014.11.066 [本文引用: 1]

[18]

JAIN A, NANDAKUMAR K, ROSS A

Score normalization in multimodal biometric systems

[J]. Pattern Recognition, 2005, 38 (12): 2270- 2285

DOI:10.1016/j.patcog.2005.01.012 [本文引用: 1]

[19]

孙德山

支持向量机分类与回归方法研究

[J]. 中南大学学报, 2004, 35 (6): 13- 15

[本文引用: 1]

SUN De-shan

Research on support vector machine classification and regression method

[J]. Journal of Central South University, 2004, 35 (6): 13- 15

[本文引用: 1]

[20]

JOLLIFFE I. Principal component analysis [M]. Berlin Heidelberg: Springer, 2011.

[本文引用: 1]

高校园区网的规划与构建

2010

... 园区网是一个由有限的地理区域内互相连接的局域网所组成的网络和传媒体. 大学的校园网是一种非常典型的园区网^[1]. 本研究以校园网为例，研究园区网风险账号的评估方法. 通常情况下，学校师生在利用校园网访问网络资源时，需要登录自己的入网账号. 然而，校园网的账号安全保护机制较为薄弱，存在初始密码简单、易被破解，登录过程未加密导致用户账号密码容易泄露等问题. 同时，校园网账号往往与流量、计费等系统挂钩，一旦账号密码泄露，用户的流量就会被盗用，造成经济损失. 因此，研究校园网风险账号评估方法、及时发现风险账号、减少账号被盗用给用户带来的损失具有现实意义. ...

高校园区网的规划与构建

2010

Two birds with one stone: two-factor authentication with security beyond conventional bound

2018

... 现有的对于账号保护的研究主要基于二次验证、登录日志分析等. Wang等^[2]提出了改进的双因素（two-factory）验证方法，但是现有的校园网内大多数账号的登录环节并没有配置双因素验证系统，用户的账号依然存在被盗用的风险. Mills等^[3-5]通过登录日志频率、时间、登录结果等提取用户行为特征，从而判断用户账号是否具有风险，但是这些特征在校园网内不适用，比如：用户有可能使用自己的设备在其不常登录的时间段登录，传统算法会将其判断为风险账号，但实际上这种情况下用户的账号仍是低风险的. Freeman等^[6]通过对用户的登录日志进行IP处理，分析国别、运营商等信息，检测登录地点差异过大的账号并将其视为风险账号. 但是这种方法在校园网内并不适用，由于校园网内登录的IP都是内网IP，IP地址范围有限，单纯通过互联网服务提供商（internet service provider，ISP）、IP国别等信息无法有效判断用户账号是否存在风险. 章思宇等^[7-8]从统一身份认证系统的日志中提取了登录次数、用户代理信息、登录IP等特征对用户登录相关系统的账号进行风险评估. 然而，由于很多校园网的入网系统并没有接入统一身份认证，统一身份认证系统里缺失入网登录日志，无法用于有效地评估风险账号. ...

Predict insider threats using human behaviors

2017

Proguard: detecting malicious accounts in social-network-based online promotions

2017

统一身份认证日志集中管理与账号风险检测

2017

统一身份认证日志集中管理与账号风险检测

2017

高校统一身份认证中的账号安全研究

2017

高校统一身份认证中的账号安全研究

2017

IP地址地理位置映射技术

2008

... 可以通过设备访问的IP地址获取用户的地理位置信息^[9]. 分析用户设备的访问日志发现，风险设备会在与被盗账号常用IP地址所在地理位置不同的场所登录，本研究称之为对立位置. 比如：某用户经常在A楼登录使用其账号，而盗号者却在B楼登录了该账号，此时盗号者设备所在的位置为对立位置. 本研究认为设备出现在对立位置时具有风险性. ...

IP地址地理位置映射技术

2008

... 本研究使用的聚类模型为高斯混合模型（Gaussian mixed model，GMM）^[10]，其对符合高斯分布的特征数据有较好的分类效果. 本研究中正常账号的的样本较多，风险账号的样本较少，根据中心极限定理，当实验数据足够多时，数据的随机性足够大，实验结果的二项分布收敛于正态分布，符合高斯混合模型的使用条件. 高斯混合模型聚类的结果是样本属于每个簇的概率，其定义为 ...

高斯混合模型聚类中EM算法及初始化的研究

2006

... 由于式（7）无法直接通过解析方式求解，通常使用最大期望值（expectation maximization，EM）算法^[11-12]迭代求解：若参数

$\{ ({\alpha _i},{{ {u}} _i},{{{\varSigma}} _i})\;|\;1 \leqslant i \leqslant K\}$

能使式（6）取得最大值，则由

${{\partial O} / {\partial {\mu _i}}}{\rm{ = }}0$

可得每个簇的后验概率为 ...

高斯混合模型聚类中EM算法及初始化的研究

2006

... 由于式（7）无法直接通过解析方式求解，通常使用最大期望值（expectation maximization，EM）算法^[11-12]迭代求解：若参数

$\{ ({\alpha _i},{{ {u}} _i},{{{\varSigma}} _i})\;|\;1 \leqslant i \leqslant K\}$

能使式（6）取得最大值，则由

${{\partial O} / {\partial {\mu _i}}}{\rm{ = }}0$

可得每个簇的后验概率为 ...

基于高斯混合模型的EM学习算法

2005

... 由于式（7）无法直接通过解析方式求解，通常使用最大期望值（expectation maximization，EM）算法^[11-12]迭代求解：若参数

$\{ ({\alpha _i},{{ {u}} _i},{{{\varSigma}} _i})\;|\;1 \leqslant i \leqslant K\}$

能使式（6）取得最大值，则由

${{\partial O} / {\partial {\mu _i}}}{\rm{ = }}0$

可得每个簇的后验概率为 ...

基于高斯混合模型的EM学习算法

2005

... 由于式（7）无法直接通过解析方式求解，通常使用最大期望值（expectation maximization，EM）算法^[11-12]迭代求解：若参数

$\{ ({\alpha _i},{{ {u}} _i},{{{\varSigma}} _i})\;|\;1 \leqslant i \leqslant K\}$

能使式（6）取得最大值，则由

${{\partial O} / {\partial {\mu _i}}}{\rm{ = }}0$

可得每个簇的后验概率为 ...

基于 DPI 的流量识别系统的研究

2014

... 设一个账号下的PC设备列表为

$F = \{ {F_1},{F_2},\cdots, $

${F_n}\} $

，通过DPI深度包检测方法^[13]获得PC设备访问过的URL标签，标签列表为

$B = \{ {B_1},{B_2},\cdots,{B_m}\} $

. 统计每台PC设备在对应标签下的访问次数，并将其量化成一个

$n \times m$

的矩阵

${{M}}$

. 其中，

${{{M}}_{i,j}}$

表示第

$i$

台（

$1 \leqslant i \leqslant n$

）设备访问第

$j$

种（

$1 \leqslant j \leqslant m$

）URL标签的次数. ...

基于 DPI 的流量识别系统的研究

2014

... 设一个账号下的PC设备列表为

$F = \{ {F_1},{F_2},\cdots, $

${F_n}\} $

，通过DPI深度包检测方法^[13]获得PC设备访问过的URL标签，标签列表为

$B = \{ {B_1},{B_2},\cdots,{B_m}\} $

. 统计每台PC设备在对应标签下的访问次数，并将其量化成一个

$n \times m$

的矩阵

${{M}}$

. 其中，

${{{M}}_{i,j}}$

表示第

$i$

台（

$1 \leqslant i \leqslant n$

）设备访问第

$j$

种（

$1 \leqslant j \leqslant m$

）URL标签的次数. ...

协同过滤推荐算法综述

2009

... 本研究旨在找出同一账号下，同一类型设备中，URL访问相似度低于其他设备的设备.采用协同过滤推荐算法^[14-15]里常用的余弦相似度^[16]计算不同设备间的URL访问相似度. 如果某台设备与其他设备的相似度都很低，可以认为其偏离了用户访问习惯，具有风险性. ...

协同过滤推荐算法综述

2009

适应用户兴趣变化的协同过滤推荐算法

2007

适应用户兴趣变化的协同过滤推荐算法

2007

基于用户兴趣模型的协同过滤推荐算法

2014

... 为了避免不同设备的URL在访问数量上差异过大导致余弦相似度计算出现偏差，采用修正余弦相似度^[17-18]计算，即将矩阵的每行数据都减去该列数据的平均数，再进行余弦相似度计算. 修正余弦相似度公式如下： ...

基于用户兴趣模型的协同过滤推荐算法

2014

Score normalization in multimodal biometric systems

2005

支持向量机分类与回归方法研究

2004

... 从1 000个账号的访问日志中提取特征向量，构成98 475条输入样本，其中包括13 781条风险设备输入样本. 利用高斯混合模型对输入样本进行聚类，同时计算这些账号下的设备URL访问相似度. 将聚类的真实结果与实验结果通过二值分类表^[19]进行展示，如表2所示. 其中，T/F表示分类结果是否正确，正确为T，错误为F；P/N表示实验结果是否有风险，P表示有风险，N表示无风险. 从中可得聚类分析后的准确度为86.2%. 利用聚类分析和设备访问URL相似度的结果，根据式（13）计算R值. 由训练集可得，当R的阈值为0.437时，能较好地区分风险账号和正常账号；阈值过大将导致检出率降低，过小将导致误报率升高. 测试时，对于每一个输入账号计算其R值，当

$R \geqslant 0.437$

时认为账号有风险；反之，认为账号正常. 依照上述方法，检测出测试集中的17个风险账号（共20个），检出率为85%，误报率为3.57%. ...

支持向量机分类与回归方法研究

2004

$R \geqslant 0.437$

时认为账号有风险；反之，认为账号正常. 依照上述方法，检测出测试集中的17个风险账号（共20个），检出率为85%，误报率为3.57%. ...

... 针对上述特征进行主成分分析^[20]，分析各个特征对于最终结果的贡献率，得到特征

${D_{{\rm{std}}}}$

的贡献率为17.8%，特征

${A_{{\rm{risk}}}}$

的贡献率为33.7%，特征

${V_{{\rm{per}}}}$

的贡献率为19.2%，特征

${L_{{\rm{risk}}}}$

的贡献率为7.4%，特征

${C_{{\rm{mean}}}}$

的贡献率为21.9%. 可以发现多账号风险度

${A_{{\rm{risk}}}}$

的贡献率最高，说明在本算法下，采用

${A_{{\rm{risk}}}}$

进行分析时能取得较好的结果，这表明盗号者通常会采用多账号进行流量盗取. 经实验发现，当

${A_{{\rm{risk}}}}$

的阈值为0.5时，可以从20个风险账号中检测出17个风险账号，且误报率仅为4.39%. 由于真实风险账号样本不足，引入模拟样本，本实验的阈值设置与真实情况存在一定偏差，导致误报率升高，这种偏差可以通过引入足够的真实风险账号解决；并且本课题的初衷是通过评估账号的风险程度，对用户进行风险提示，而不是封禁用户账号，少量的误报也是良性的提醒，因此这样的误报率在真实环境下是可以接受的. ...

〈

〉