[1]
ATKINSON A C, HAWKINS D M Identification of outliers
[J]. Biometrics , 1981 , 37 (4 ): 860
[本文引用: 1]
[2]
BILLOR N, HADI A S, VELLEMAN P F BACON: blocked adaptive computationally efficient outlier nominators
[J]. Computational Statistics and Data Analysis , 2000 , 34 (3 ): 279 - 298
DOI:10.1016/S0167-9473(99)00101-2
[本文引用: 1]
[3]
KNORR E M, NG R T. A unified notion of outliers: properties and computation [C]//International Conference on Knowledge Discovery and Data Mining . California: AAAI, 1997: 219-222.
[本文引用: 1]
[4]
GUAN H, LI Q, YAN Z, et al. SLOF: identify density-based local outliers in big data [C]//Web Information System and Application Conference . Jinan: IEEE, 2015.
[本文引用: 2]
[6]
WANG J S, CHIANG J C A cluster validity measure with outlier detection for support vector clustering
[J]. IEEE Transactions on Cybernetics , 2008 , 38 (1 ): 78 - 89
[本文引用: 1]
[7]
KEOGH E, LIN J, FU A. HOT SAX: efficiently finding the most unusual time series subsequence [C]//5th IEEE International Conference on Data Mining . Houston: IEEE, 2006.
[本文引用: 2]
[8]
FU W C, LEUNG T W, KEOGH E J, et al. Finding time series discords based on Haar transform [C]//Advanced Data Mining and Applications, 2nd International Conference . Xi'an: Springer, 2006.
[本文引用: 1]
[9]
KHANH N D K, ANH D T. Time series discord discovery using WAT algorithm and iSAX representation [C]// Proceedings of the 3rd Symposium on Information and Communication Technology . Ha Long: ACM, 2012: 207–213.
[本文引用: 1]
[10]
SHIEH J, KEOGH E. iSAX: indexing and mining terabyte sized time series [C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . Las Vegas: ACM, 2012: 207–213.
[本文引用: 1]
[12]
余宇峰, 朱跃龙, 万定生, 等 基于滑动窗口预测的水文时间序列异常检测
[J]. 计算机应用 , 2014 , 34 (8 ): 2217 - 2220
DOI:10.11772/j.issn.1001-9081.2014.08.2217
[本文引用: 1]
YU Yu-feng, ZHU Yue-long, WAN Ding-sheng, et al Time series outlier detection based on sliding window prediction
[J]. Journal of Computer Applications , 2014 , 34 (8 ): 2217 - 2220
DOI:10.11772/j.issn.1001-9081.2014.08.2217
[本文引用: 1]
[15]
BREUNIG M M, KRIEGEL H P, NG R T, et al. LOF: identifying density-based local outliers [C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data . Dallas: ACM, 2000.
[本文引用: 2]
[16]
KEOGH E, CHU S, HART D, et al. An online algorithm for segmenting time series [C]//Proceedings of 2001 IEEE International Conference on Data Mining . San Jose: IEEE, 2001: 289-296.
[本文引用: 1]
[17]
KEOGH E, CHAKRABARTI K, PAZZANI M, et al Dimensionality reduction for fast similarity search in large time series databases
[J]. Knowledge and Information Systems , 2002 , 3 (3 ): 263 - 286
[本文引用: 1]
[18]
ZHAN P, HU Y, ZHANG Q, et al. Feature-based dividing symbolic time series representation for streaming data processing [C]//Proceedings of the 9th International Conference on Information Technology in Medicine and Education . Hangzhou: IEEE, 2018: 817-823.
[本文引用: 3]
[19]
ZHAN P, HU Y, LUO W, et al. Feature-based online segmentation algorithm for streaming time series (short paper) [C]// Proceedings of the 14th EAI International Conference CollaborateCom . Shanghai: Springer, 2018: 477-487.
[本文引用: 3]
[20]
YIN J, SI Y W, GONG Z. Financial time series segmentation based on turning points [C]//Proceedings of 2011 International Conference on System Science and Engineering . Macao: IEEE, 2011: 394-399.
[本文引用: 1]
[21]
SUN Y, LI J, LIU J, et al An improvement of symbolic aggregate approximation distance measure for time series
[J]. Neurocomputing , 2014 , 138 : 189 - 198
DOI:10.1016/j.neucom.2014.01.045
[本文引用: 2]
[22]
KEOGH E, LONARDI S, CHIU C. Finding surprising patterns in a time series database in linear time and space [C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . Edmonton: ACM, 2002: 550-556.
[本文引用: 1]
Identification of outliers
1
1981
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
BACON: blocked adaptive computationally efficient outlier nominators
1
2000
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
1
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
2
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
... 2)异常检测处理. 在完成降维表示后,根据定义10可知,初始化表示子序列的距离矩阵(第5行). 根据距离矩阵可知,结合定义3~6,可以计算每个子序列在近邻指数k 下的异常因子;将近邻区间内的异常因子求均值[4 ] ,得到每条子序列的最终异常因子. 若异常因子明显大于1,则将该子序列加入异常子序列集合中(第6~9行). ...
Novelty detection: a review—part 2: neural network based approaches
1
2003
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
A cluster validity measure with outlier detection for support vector clustering
1
2008
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
2
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
... [7 ]基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
1
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
1
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
1
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
基于距离和密度的时间序列异常检测方法研究
1
2012
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
基于距离和密度的时间序列异常检测方法研究
1
2012
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
基于滑动窗口预测的水文时间序列异常检测
1
2014
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
基于滑动窗口预测的水文时间序列异常检测
1
2014
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
时间序列异常检测
1
2008
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
时间序列异常检测
1
2008
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
时间序列重要点分割的异常子序列检测
1
2012
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
时间序列重要点分割的异常子序列检测
1
2012
... 自20世纪80年代开始,国内外研究人员针对异常检测已经作了大量研究. 目前,对于异常普遍采用的是Hawkins等[1 ] 给出的定义:异常是指在数据集合中与其他数据有较大偏差的那些数据,这些偏差让人们怀疑是由不同机制产生的,而非随机偏差. 针对时间序列数据的异常检测方面,主要可以分为数据点异常和数据序列异常. 对于数据点异常,目前主要的检测方法有:基于统计的异常数据点检测算法[2 ] 、基于距离的异常数据点检测算法[3 ] 、基于密度的异常数据点检测算法[4 ] 、基于聚类分析的异常数据点检测算法[5 ] 、基于机器学习的异常数据点检测算法[6 ] 等. 本文研究的网络异常流量是针对某段时间内的异常,即序列异常. 近年来,针对序列异常,国内外研究人员作了大量的研究. Keogh等[7 ] 提出序列的异常是那些与其他序列最不一样的序列集合,根据这项定义,给出基于距离的暴力异常发现算法(brute force discord discovery,BFDD). 对于网络流量数据这类高维度、大体量的数据,BFDD算法因时间复杂度较高(O (n 2 )),在实际的异常检测过程中开销过大,因此Keogh等[7 ] 基于启发式异常发现算法,提出HOT SAX时间序列异常检测算法,提高了异常检测效率. Fu等[8 ] 提出基于哈尔小波变换的时间序列异常检测算法. Khanh等[9 ] 利用iSAX[10 ] 表示算法的优势,结合iSAX与WAT算法,提出WATiSAX异常检测算法. 孙梅玉[11 ] 提出将基于距离和基于密度结合到一起的GMBR-DD异常检测算法. 余宇峰等[12 ] 借鉴基于窗口方法中子序列分割的思想,提出基于滑动窗口预测的时间序列异常检测算法. 周大镯等[13 ] 利用序列重要点进行分割,提出基于k 近邻的局部异常检测算法. 张力生等[14 ] 提出通过将时间序列按照重要点分割来检测异常子序列的算法. ...
2
... 局部异常因子(local outlier factor,LOF)[15 ] 反映子序列SNF的异常程度,即LOF越大,说明位于子序列SNF周围的子序列数量越少,即具有较低的局部可达密度,表明该子序列SNF很有可能是异常的. ...
... LOF是Breunig等[15 ] 提出的可以用于高维数据集异常检测的算法. LOF算法的核心思想在于计算一个异常得分来反映数据的异常程度,这个异常得分取决于一个数据对象相对于周围相邻数据对象的孤立程度,即一个数据对象跟周围邻近的数据对象的相对密度. LOF越大,说明所处位置的密度越小于周围数据对象所处位置的密度,越有可能是异常数据对象. 本文的研究对象是网络流量数据,该类数据具有明显的时序特征,且是连续数据. NAAD-FD算法首先将网络流量数据序列转化为子序列特征集合表示模式,即将研究对象从连续的序列数据转化为离散的 ${\tilde {\rm{SNF}}} $ 对象,通过提出的子序列特征集合表示距离计算方法计算对象间的相似性,得到每个 ${\tilde{\rm{SNF}}} $ 对象的平均局部异常因子,得出异常的 ${\tilde{\rm{SNF}}} $ 对象和异常子序列. 如图1 所示为提出的NAAD-FD算法的检测原理模型. 将每个 ${\tilde{\rm{SNF}}} $ 对象表示成一个圆圈,其中圆圈的半径用序列长度w 表示. 利用提出的 ${\rm{dist}}\;({{\tilde{\rm{SNF}}}_x} ,{\tilde {{\rm{SNF}}_y}} )$ 距离计算方法计算每个对象的平均局部异常因子,如图1 所示,右下角的3个 ${{\rm{S}}\tilde {\rm{N}}{\rm{F}}} $ 对象具有相近的平均局部异常因子,左上角实心对象 ${\tilde {{\rm{SNF}}_x}} $ 距离其他对象较远,平均局部异常因子较大,可以判断为异常对象,则 ${\tilde {{\rm{SNF}}_x}} $ 对象所代表的某段序列数据可以判定为异常序列. ...
1
... 根据网络流量模型的定义可知,为了能够支持流数据的异常检测,支持通过滑动窗口(sliding window)模型来检测当前窗口的网络流量数据. 滑动窗口[16 ] 模型是时间序列流数据挖掘与分析的重要工具之一,在时间序列的降维简化表示方法[17 -19 ] 中经常用到. 考虑到网络流量的数据规模,一般需要先对数据进行降维表示,然后基于降维表示后的结果进行异常检测分析. 关于降维表示,国内外研究人员已经作了大量研究[18 -21 ] . 其中聚合符号表示(symbolic aggregate approximation,SAX)方法是利用符号对序列数据进行降维简化表示,并提供了相应的距离计算方法. 通过SAX方法降维表示后,能够大幅降低数据维度,降低异常检测的复杂度. 该方法只依靠分段的均值来进行符号转化,不可避免地丢失了原有序列的数据特征. 随着分段的长度增加,丢失的数据特征越多. 对于网络流量这类时间序列数据,数据的趋势特征是非常重要的一种属性. ...
Dimensionality reduction for fast similarity search in large time series databases
1
2002
... 根据网络流量模型的定义可知,为了能够支持流数据的异常检测,支持通过滑动窗口(sliding window)模型来检测当前窗口的网络流量数据. 滑动窗口[16 ] 模型是时间序列流数据挖掘与分析的重要工具之一,在时间序列的降维简化表示方法[17 -19 ] 中经常用到. 考虑到网络流量的数据规模,一般需要先对数据进行降维表示,然后基于降维表示后的结果进行异常检测分析. 关于降维表示,国内外研究人员已经作了大量研究[18 -21 ] . 其中聚合符号表示(symbolic aggregate approximation,SAX)方法是利用符号对序列数据进行降维简化表示,并提供了相应的距离计算方法. 通过SAX方法降维表示后,能够大幅降低数据维度,降低异常检测的复杂度. 该方法只依靠分段的均值来进行符号转化,不可避免地丢失了原有序列的数据特征. 随着分段的长度增加,丢失的数据特征越多. 对于网络流量这类时间序列数据,数据的趋势特征是非常重要的一种属性. ...
3
... 根据网络流量模型的定义可知,为了能够支持流数据的异常检测,支持通过滑动窗口(sliding window)模型来检测当前窗口的网络流量数据. 滑动窗口[16 ] 模型是时间序列流数据挖掘与分析的重要工具之一,在时间序列的降维简化表示方法[17 -19 ] 中经常用到. 考虑到网络流量的数据规模,一般需要先对数据进行降维表示,然后基于降维表示后的结果进行异常检测分析. 关于降维表示,国内外研究人员已经作了大量研究[18 -21 ] . 其中聚合符号表示(symbolic aggregate approximation,SAX)方法是利用符号对序列数据进行降维简化表示,并提供了相应的距离计算方法. 通过SAX方法降维表示后,能够大幅降低数据维度,降低异常检测的复杂度. 该方法只依靠分段的均值来进行符号转化,不可避免地丢失了原有序列的数据特征. 随着分段的长度增加,丢失的数据特征越多. 对于网络流量这类时间序列数据,数据的趋势特征是非常重要的一种属性. ...
... 笔者在前期的工作中,提出2种以数据趋势特征为分割依据的降维表示方法,分别是基于特征分割的符号聚合近似方法[18 ] (feature-based dividing symbolic aggregate approximation,FD-SAX)和基于特征的时间序列在线分割算法[19 ] (feature-based online segmentation algorithm,FOS). 本文利用FD-SAX的表示思想,结合符号表示与FOS算法的分割结果,将网络流量数据转换成包含7项特征值的若干子序列集合,开展异常子序列的检测. ...
... 1)数据准备. 随着网络流量进入缓冲区cs,当缓冲区cs满时,可以对当前缓冲区进行异常流量检测. 在算法1第3行找到网络流量转折点[18 ] ,根据网络流量转折点和字母表大小,将缓冲区cs内的网络流量数据转换成子序列特征集合表示模式(第4行). ...
3
... 根据网络流量模型的定义可知,为了能够支持流数据的异常检测,支持通过滑动窗口(sliding window)模型来检测当前窗口的网络流量数据. 滑动窗口[16 ] 模型是时间序列流数据挖掘与分析的重要工具之一,在时间序列的降维简化表示方法[17 -19 ] 中经常用到. 考虑到网络流量的数据规模,一般需要先对数据进行降维表示,然后基于降维表示后的结果进行异常检测分析. 关于降维表示,国内外研究人员已经作了大量研究[18 -21 ] . 其中聚合符号表示(symbolic aggregate approximation,SAX)方法是利用符号对序列数据进行降维简化表示,并提供了相应的距离计算方法. 通过SAX方法降维表示后,能够大幅降低数据维度,降低异常检测的复杂度. 该方法只依靠分段的均值来进行符号转化,不可避免地丢失了原有序列的数据特征. 随着分段的长度增加,丢失的数据特征越多. 对于网络流量这类时间序列数据,数据的趋势特征是非常重要的一种属性. ...
... 笔者在前期的工作中,提出2种以数据趋势特征为分割依据的降维表示方法,分别是基于特征分割的符号聚合近似方法[18 ] (feature-based dividing symbolic aggregate approximation,FD-SAX)和基于特征的时间序列在线分割算法[19 ] (feature-based online segmentation algorithm,FOS). 本文利用FD-SAX的表示思想,结合符号表示与FOS算法的分割结果,将网络流量数据转换成包含7项特征值的若干子序列集合,开展异常子序列的检测. ...
... 在获取网络流量数据中NTTP以及TPW后,可以利用FOS[19 ] 算法对原始网络流量数据进行分段,表示为 ...
1
... 网络流量随着在时间维度上的不断变化,形态上会呈现不同的变化趋势,这种趋势能够反映一定时间段内网络流量的走向. 根据趋势的变化可以来提取趋势转折点[20 ] (turning point,TP),依此作为分割网络流量数据为子序列的依据. ...
An improvement of symbolic aggregate approximation distance measure for time series
2
2014
... 根据网络流量模型的定义可知,为了能够支持流数据的异常检测,支持通过滑动窗口(sliding window)模型来检测当前窗口的网络流量数据. 滑动窗口[16 ] 模型是时间序列流数据挖掘与分析的重要工具之一,在时间序列的降维简化表示方法[17 -19 ] 中经常用到. 考虑到网络流量的数据规模,一般需要先对数据进行降维表示,然后基于降维表示后的结果进行异常检测分析. 关于降维表示,国内外研究人员已经作了大量研究[18 -21 ] . 其中聚合符号表示(symbolic aggregate approximation,SAX)方法是利用符号对序列数据进行降维简化表示,并提供了相应的距离计算方法. 通过SAX方法降维表示后,能够大幅降低数据维度,降低异常检测的复杂度. 该方法只依靠分段的均值来进行符号转化,不可避免地丢失了原有序列的数据特征. 随着分段的长度增加,丢失的数据特征越多. 对于网络流量这类时间序列数据,数据的趋势特征是非常重要的一种属性. ...
... 式中: $d\;({\tilde s_x},{\tilde s_y})$ 为符号距离, ${\rm{td}}\;({\tilde {{\rm{SNF}}_x}} ,{\tilde {{\rm{SNF}}_y}} )$ 为两者的趋势距离[21 ] . ...
1
... 提出的NAAD-FD网络异常流量检测算法使用符号化降维表示的技术,在符号化降维表示中,字母表a 的选择将影响数据序列在振幅域的划分程度. 设计实验来对比字母表参数a 对NAAD-FD算法结果的影响,以分析NAAD-FD算法对字母表参数a 的敏感性. 利用仿真方法[22 ] 生成时序数据,设定字母表a 从3递增至6,递增步长为1. 为了排除算法其他参数对实验结果的影响,其他参数均固定. 实验参数的设定如表1 所示. ...