<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 IBR流量的协议分布情况

Fig.1 Protocol distribution of IBR traffic

图 2

图 2 正常流量的协议分布情况

Fig.2 Protocol distribution of normal traffic

3. IBR流量分类

IBR流量可以简单分为扫描、反向散射和其他三部分，本研究的主要目的是对扫描流量进行观测，因此须将扫描流量从IBR流量中分离出来. IBR流量主要由TCP、UDP、ICMP这3种协议构成，须分别讨论3种协议中扫描流量所占的比例. 对ICMP、TCP报文采用现有方法^[1,9,11]进行分类，对UDP报文设计简单算法进行分类.

3.1. ICMP报文分类

对于ICMP报文而言，将Ping请求报文归类为扫描报文，将响应报文归类为反向散射报文，剩余报文为其他. 分类结果如图3所示， $P_{\rm{s}}^{{\rm{ICMP}}}$、 $P_{\rm{b}}^{{\rm{ICMP}}}$、 $P_{\rm{o}}^{{\rm{ICMP}}}$分别为扫描、反向散射和其他报文数在ICMP报文数中的占比. 可以看出，在ICMP报文中有约97%的扫描报文、约2%的反向散射报文，其他报文不到1%，由此可见ICMP报文以扫描报文为主.

图 3

图 3 ICMP报文分类结果

Fig.3 ICMP classification results

3.2. TCP报文分类

类似ICMP，将TCP请求报文(TCP SYN报文)归为扫描报文，将TCP响应报文(TCP SYN+ACK、TCP ACK、TCP ACK+RST、TCP RST报文)归为反向散射报文，剩余报文为其他报文.对于扫描报文，根据王力^[14]提出的扫描检测算法将其分为水平扫描报文和除水平扫描报文外的其他扫描报文.

如图4所示为分类结果. 图中， $P_{\rm{b}}^{{\rm{TCP}}}$、 $P_{{\rm{h\_s}}}^{{\rm{TCP}}}$、 $P_{{\rm{o\_s}}}^{{\rm{TCP}}}$、 $P_{\rm{o}}^{{\rm{TCP}}}$分别为反向散射、水平扫描、其他扫描和其他报文数在TCP报文数中的占比. 可以看出，TCP水平扫描报文数占TCP报文总数的94%以上，其他扫描报文数不到2%，因而TCP报文也是以扫描报文为主，且TCP扫描广泛采用水平扫描方式.

图 4

图 4 TCP报文分类结果

Fig.4 TCP classification results

3.3. UDP报文分类

与TCP、ICMP报文不同，UDP报文无标志位，无法从报文头直接判断报文是否为扫描报文，因此设计简单算法，根据主机行为来判断报文是否为扫描报文. UDP水平扫描主机、垂直扫描主机和随机扫描主机定义如下.

1）UDP水平扫描主机. 若一个主机在T时间内向O个不同主机的同一端口发送相同字节数的报文，认为该主机为水平扫描主机，其向该端口发出的所有报文为水平扫描报文.

2）UDP垂直扫描主机. 若一个主机在T时间内向同一主机的P个不同端口发送报文，则认为该主机为垂直扫描主机，其向该目的主机发送的所有报文为垂直扫描报文.

3）UDP随机扫描主机. 若一个主机在T时间内向至少Q个不同的(宿IP，宿端口)对发送报文，且对其发送的报文计算熵值：

(1) ${{H}} = - \sum {P(X)\ln\; P(X)}. $

式中：P(X)为该主机向第X个(宿IP，宿端口)对发送的报文数与其发送的报文总数的比值. 若 H≥ln Q，则认为该主机为随机扫描主机，其发送的所有报文为随机扫描报文.

根据上述定义，算法设计如下.

输入：T时间内IBR中的所有UDP报文.

输出：水平扫描报文集合H₁、垂直扫描报文集合H₂、随机扫描报文集合H₃和其他报文集合H₄.

操作：

1) 对所有UDP报文按(源IP，宿端口，字节数)进行分类，对每一类报文，若其不同的宿地址数大于等于O，则认为该类报文属于集合H₁，否则进行下一步分类.

2) 对第1）步所有剩余报文按(源IP，宿IP)进行分类，对每一类报文，若其不同的端口号大于等于P，则认为该类报文属于集合H₂，否则进行下一步分类.

3) 对第2）步所有剩余报文按源IP进行分类，若其(宿IP，宿端口)对数目小于Q，则将该类报文归为H₄；否则按式(1)计算熵值，若熵值大于等于ln Q，则将报文归类为H₃，否则归类为H₄.

UDP报文分类算法中的参数设置参考文献[14]、[15]，T=24 h，O、P、Q=5，分类结果如图5所示. 图中， $P_{{\rm{h\_s}}}^{{\rm{UDP}}}{\text{、}}P_{{\rm{r\_s}}}^{{\rm{UDP}}}{\text{、}}P_{{\rm{v\_s}}}^{{\rm{UDP}}}{\text{、}}P_{\rm{o}}^{{\rm{UDP}}}$分别为UDP水平扫描、随机扫描、垂直扫描和其他报文数在UDP报文数中的占比. 可以看出，UDP扫描报文数约占UDP报文总数97%，与TCP一样，也以水平扫描为主.

图 5

图 5 UDP报文分类结果

Fig.5 UDP classification results

4. 面向端口的扫描行为观测

通过对面向端口的扫描行为进行观测可以发现最受扫描者们青睐的端口，这是互联网上扫描现状的直观反映，有利于观测者们发现互联网上新出现的漏洞，进而及时采取针对措施. ICMP协议是网络层协议，其报文没有端口号，所以只对TCP、UDP端口扫描行为进行分析.

4.1. TCP端口扫描行为

如表1、2所示分别为2019年6月20日—6月26日、7月4日—7月10日TCP扫描报文数排名前10的端口，port为端口号，n为7 d内扫描该端口的报文总数，P_n为n与这7 d 该类型端口扫描报文总数的比值，P_c为P_n的累加值，Service为端口号对应的服务或漏洞. 可以看出，这2个星期的热门扫描端口较一致，其中扫描报文数排名前8的端口完全一样，不同的是8 545端口在6月20日—26日排名第11位，5 038端口在7月4日—10日排名第15位，但其扫描报文数在2个星期中并没有太大差别. 除此以外，在这2个星期中，65 536个端口都收到了扫描报文，其中排名前10的端口的扫描报文数只占总扫描报文数的不到16%，说明TCP端口上的扫描行为是分散的.

表 1 2019年6月20日—26日TCP热门扫描端口

Tab.1 TCP popular scanning ports from June 20 to June 26, 2019

port	n	P_n / %	P_c / %	Service
23	2 020 697 594	6.212	6.212	Telnet
445	1 120 403 460	3.444	9.656	SMB
22	501 441 369	1.541	11.197	SSH
3 389	313 051 184	0.962	12.159	RDP
80	259 926 595	0.799	12.958	HTTP
37 215	225 917 093	0.694	13.652	华为路由器HG532 CVE-2017-17215漏洞
1 433	208 795 986	0.642	14.294	SQL Server
8 080	204 845 408	0.630	14.924	Alt-HTTP
5 555	203 975 022	0.627	15.551	ADB
5 038	143 645 366	0.442	15.993	Asterisk服务器侦听端口

表 2 2019年7月4日—10日TCP热门扫描端口

Tab.2 TCP popular scanning ports from July 4 to July 10, 2019

port	n	P_n / %	P_c / %	Service
23	1 744 165 990	5.035	5.035	Telnet
445	1 039 652 805	3.001	8.036	SMB
80	775 669 513	2.239	10.275	HTTP
22	549 943 948	1.587	11.862	SSH
3 389	347 211 413	1.002	12.864	RDP
37 215	277 886 064	0.802	13.666	华为路由器HG532 CVE-2017-17215漏洞
8 080	221 624 050	0.640	14.306	Alt-HTTP
1 433	209 356 000	0.604	14.910	SQL Server
8 545	192 044 920	0.554	15.464	以太坊通信端口
5 555	179 283 575	0.518	15.982	ADB

对这11个端口分别进行分析，其中22、23、80、445、1 433、3 389、8 080这几个端口是一直以来被扫描者们持续关注的危险端口，说明这些端口上的漏洞仍有较大威胁. 华为路由器HG532在37 215端口上存在CVE-2017-17215漏洞，该漏洞允许远程执行任意代码，在2017年便有报道表明在该端口上有Mirai变种Satori类似蠕虫式传播. 5 555端口允许通过Android调试桥(Android debug bridge，ADB)管理设备，这是一种Android SDK功能，允许开发人员与设备通信并在其上运行命令或完全控制它们，自2018年起针对该端口的攻击逐渐增多. 5 038端口是Asterisk服务器侦听端口. 8 545端口是以太坊通信端口，有黑客利用该端口上的漏洞窃取以太币. 这4个端口都是近几年新出现的具有漏洞的端口. 可以发现，所有的热门扫描端口均为危险端口，说明对端口扫描行为进行持续观测对发现新漏洞有重要作用. 除此以外，须关注的是，443端口并不在这11个端口之中，它在6月20日—26日排第15位，在7月4日—7月10日排第14位，扫描报文数约为1亿条，远远小于80端口，在HTTPS协议应用愈加广泛的现在，足以说明HTTPS协议相比HTTP有更高的安全性.

4.2. UDP端口扫描行为

如表3、4所示分别为2019年6月20日—26日、7月4日—10日UDP扫描报文数排名前10的端口. 和TCP一样，这2周的UDP扫描端口也较一致，不同的是UDP端口上的扫描行为更加集中，虽然也是全部65 536个端口都收到了扫描报文，但是排名前10的端口汇聚了超过1/3的UDP扫描报文.其中，19、53、123、137、161、1 900、11 211都是著名的具有放大器漏洞的端口. 5 060端口上的会话发起协议(session initiation protocol，SIP)协议是信令控制协议，用于创建、修改和释放一个或多个参与者的会话. 53 413端口被Netcore路由器使用，早在2014年便被爆出在该端口上存在严重的后门漏洞，攻击者可以通过此漏洞获取路由器Root权限. 389端口被LDAP、ILS协议共用，其中LDAP协议是轻量级目录访问协议，因为是轻量级而不包含安全措施，易受到恶意攻击和篡改，存在较大的安全隐患. 111端口是Sun公司的远程过程调用(remote procedure call， RPC)服务，其存在远程缓冲溢出漏洞. 这11个端口都是危险端口. 从扫描报文数占比上可以看出，反射攻击的危险程度有所降低，扫描更多集中在5 060端口和53 413端口，表明近些年对反射攻击的防范更加到位，同时在今后须加强对5 060、53 413端口的关注.

表 3 2019年6月20日—26日UDP热门扫描端口

Tab.3 UDP popular scanning ports from June 20 to June 26, 2019

port	n	P_n / %	P_c / %	Service
5 060	182 714 745	12.180	12.180	SIP
53 413	142 737 514	9.515	21.696	Netcore(Netis)路由器后门漏洞
53	57 359 489	3.824	25.520	DNS
1 900	54 719 415	3.648	29.167	SSDP
123	47 214 569	3.147	32.315	NTP
161	33 744 445	2.250	34.564	SNMP
389	31 243 000	2.083	36.647	LDAP、ILS
137	23 160 513	1.544	38.191	NetBIOS
11 211	15 765 197	1.051	39.242	Memcached
19	15 421 089	1.028	40.270	Chargen

表 4 2019年7月4日—10日UDP热门扫描端口

Tab.4 UDP popular scanning ports from July 4 to July 10, 2019

port	n	P_n / %	P_c / %	Service
5 060	188 249 763	10.250	10.250	SIP
53 413	81 318 222	4.428	14.677	Netcore(Netis)路由器后门漏洞
1 900	81 186 397	4.420	19.098	SSDP
123	61 200 710	3.332	22.430	NTP
53	58 530 676	3.187	25.617	DNS
389	47 914 908	2.609	28.226	LDAP、ILS
161	30 607 468	1.667	29.892	SNMP
137	22 735 052	1.238	31.130	NetBIOS
19	19 809 086	1.079	32.209	Chargen
111	15 924 692	0.867	33.076	Sun RPC

5. 结　语

本研究基于动态隐蔽暗网实时获取IBR流量，并对获取的IBR流量的协议分布进行分析，同时设法从中分离出扫描流量，进行面向端口的扫描行为观测. 本研究针对的动态暗网的稳定IP数约为85万个，规模小于著名暗网UCSD、Network、Telescope等，无法从中收到足够规模的反向散射流量，因而较难观测反射攻击行为. 该动态暗网的IP地址不是完全固定的，且分散在许多不同的地址块中，较难被扫描者定位并避开，所以可以用采集到的IBR流量进行扫描行为观测.

根据采集到的IBR流量，可以发现其中TCP报文数占90%以上，UDP报文数约占5%，而在正常流量中TCP、UDP分别占80%、18%，有明显差别.在分别对TCP、UDP、ICMP报文进行分类时，发现三者的扫描报文数都占其各自总报文数约95%，且TCP、UDP的扫描形式都以水平扫描为主. 对TCP和UDP扫描报文进行面向端口的扫描行为观测，发现TCP端口上的扫描行为较分散，但2周的热门扫描端口高度一致且均为具有漏洞的端口. 须注意的是443端口并不在热门扫描端口中，证实HTTPS协议比HTTP协议更具安全性. UDP的热门扫描端口也高度一致且均为具有漏洞的端口，与TCP不同的是，UDP端口上的扫描行为更加集中.除此以外，相比具有放大器协议的端口，5 060端口和53 413端口获得了更大的流量，说明近年来反射攻击的强度有所降低，但须加强对5 060和53 413端口的观测.

接下来会建立完善的扫描行为分析系统，以及时发现新的扫描趋势，并建立模型实现对异常扫描行为的检测. 同时还会对扫描主机进行观测并对其扫描意图进行分析，因为扫描并不都是恶意的，像类似Shodan或Zoomeye这样的机构进行扫描只是为了发现服务，对扫描者进行意图识别有助于对扫描流量进行非恶意过滤.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WUSTROW E, KARIR M, BAILEY M, et al. Internet background radiation revisited [C]// Proceedings of the 10th ACM SIGCOMM Conference on Internet Measurement 2010. Melbourne: ACM, 2010: 62-74.

[本文引用: 4]

[2]

DAINOTTI A, AMMAN R, ABEN E, et al

Extracting benefit from harm: using malware pollution to analyze the impact of political and geophysical events on the internet

[J]. Acm Sigcomm Computer Communication Review, 2012, 42 (1): 31- 39

DOI:10.1145/2096149.2096154 [本文引用: 2]

[3]

PANG R, YEGNESWARAN V, BARFORD P, et al. Characteristics of Internet background radiation [C]// Proceedings of the 4th ACM SIGCOMM Conference on Internet Measurement 2004. Sicily: ACM, 2004: 27-40.

[本文引用: 3]

[4]

GLATZ E, DIMITROPOULOS X

Classifying Internet one-way traffic

[J]. ACM SIGMETRICS Performance Evaluation Review, 2012, 40 (1): 417

DOI:10.1145/2318857.2254821 [本文引用: 1]

[5]

MOORE D, SHANNON C, VOELKER G M, et al. Network telescopes: technical report [R]. [s.l.]: Proceedings of the Cooperative Association for Internet Data Analysis, 2004.

[6]

BAILEY M, COOKE E, JAHANIAN F, et al. The Internet motion sensor: a distributed blackhole monitoring system [C]// Proceedings of the 12th Annual Network and Distributed System Security Symposium (NDSS 2005). San Diego: The Internet Society, 2005.

[7]

YEGNESWARAN V, BARFORD P, PLONKA D. On the design and use of Internet sinks for network abuse monitoring [C]// Proceedings of the Symposium on Recent Advances in Intrusion Detection (RAID 2004). Berlin: Springer-Verlag, 2004: 146-165.

[8]

Team cymru darknet project [EB/OL]. (2005) [2019-07-23]. http://www.team-cymru.org/Services/darknets.html.

[9]

JONKER M, KING A, KRUPP J, et al. Millions of targets under attack: a macroscopic characterization of the DoS ecosystem [C]// Proceedings of the 2017 Internet Measurement Conference. London: ACM, 2017: 100-113.

[10]

缪丽华, 丁伟, 杨望

运行网络背景辐射的获取与分析

[J]. 软件学报, 2015, 26 (3): 663- 679

MIAO Li-Hua, DING Wei, YANG Wang

Extracting and analyzing Internet background radiation in live networks

[J]. Journal of Software, 2015, 26 (3): 663- 679

[11]

杨扬. 互联网背景辐射流量的获取与统计分析[D]. 南京: 东南大学, 2016.

YANG Yang. Obtaining and analyzing on Internet background radiation [D]. Nanjing: Southeast University, 2016.

[12]

HARROP W, ARMITAGE G. Greynets: a definition and evaluation of sparsely populated darknets [C]// Proceedings of the 2005 ACM SIGCOMM Workshop on Mining Network Data. Philadelphia: ACM, 2005: 171-172.

[13]

HARROP W, ARMITAGE G. Defining and evaluating greynets (sparse darknets) [C]// Proceedings of the IEEE Conference on Local Computer Networks 30th Anniversary. Sydney: IEEE Computer Society, 2005: 344-350.

[14]

王力. 互联网扫描行为研究[D]. 南京: 东南大学, 2018.

WANG Li. R esearch of scanning behavior on Internet [D]. Nanjing: Southeast University, 2018.

[15]

DURUMERIC Z, BAILEY M, HALDERMAN J A. An Internet-wide view of Internet-wide scanning [C]// Proceedings of the 23rd USENIX Conference on Security Symposium. San Diego: USENIX Association, 2014: 65-78.