基于动态暗网的互联网扫描行为分析
Analysis of Internet scanning behavior based on dynamic dark network
通讯作者:
收稿日期: 2019-09-20
Received: 2019-09-20
作者简介 About authors
武秋韵(1996—),女,硕士生,从事互联网管理和安全研究.orcid.org/0000-0001-7716-8870.E-mail:
为了对互联网上的扫描行为进行观测,采用基于动态暗网的互联网背景辐射(IBR)流量实时采集算法实现对IBR流量的采集,并对采集到的IBR流量进行分析;设计算法过滤出扫描流量,进行面向端口的扫描行为观测. 该动态暗网是相对稳定且分散的,不易被定位,通过其获取到的IBR流量是进行扫描分析的可靠数据源. IBR流量主要由传输控制协议(TCP)、用户数据报协议(UDP)、Internet控制消息协议(ICMP)这3种协议组成,其中TCP流量占90%以上,与正常流量中3种协议的分布不同. IBR流量得到的TCP、UDP、ICMP流量都以扫描流量为主,且广泛采用水平扫描的形式. TCP、UDP的热门扫描端口都是危险端口,证明面向端口的扫描行为分析对于发现互联网中新出现的漏洞有重要作用. TCP端口扫描行为较分散,UDP端口扫描行为较集中.
关键词:
A real-time Internet background radiation (IBR) traffic acquisition algorithm based on the dynamic dark network was used to collect IBR traffic and the collected IBR traffic was analyzed, in order to observe the scanning behavior on the Internet. An algorithm was designed to filter out the scanning traffic to observe the port-oriented scanning behavior. The dynamic dark network is relatively stable and scattered, thus it is not easily to be located. The IBR traffic obtained through it is a reliable data source for scanning analysis. IBR traffic is mainly composed of transmission control protocol (TCP), user datagram protocol (UDP) and Internet control message protocol (ICMP) protocols, of which TCP traffic accounts for more than 90%. It is different from the distribution of the three protocols in normal traffic. The TCP, UDP and ICMP traffic obtained by IBR traffic are mainly scanning traffic, of which horizontal scanning is widely used. The popular scanning ports for both TCP and UDP are dangerous ports, which proves that the port-oriented scanning behavior analysis plays an important role in discovering new vulnerabilities on the Internet. The TCP port scanning behavior is more dispersed, while the UDP port scanning behavior is more concentrated.
Keywords:
本文引用格式
武秋韵, 丁伟.
WU Qiu-yun, DING Wei.
本研究围绕NJNET_IBR系统获取的IBR流量展开,根据获取到的IBR流量分析其中各种协议的占比,并对每个协议的报文进行分类;对其中的传输控制协议(transmission control protocol,TCP)和用户数据报协议(user datagram protocol,UDP)端口扫描行为进行分析.
1. 相关背景
目前IBR流量大多是基于暗网获取的. 暗网是指配置了路由但是未被使用的网络空间(IP地址段)[3],因此暗网收到的流量均为IBR流量. 传统暗网是由一个或多个固定大小的地址块构成的,比较著名的有CAIDA的UCSD Network Telescope[5]、美国密歇根大学的Internet Motion Sensor (IMS)[6]、威斯康星大学麦迪逊分校的Internet Sink系统[7]、Cymru团队的暗网项目(darknet project)[8]等,这些暗网均位于美国. 固定的暗网确保了收到IBR流量的质量,但是也有2个较大的缺陷: 1)为了保证能有足够规模的IBR流量用于研究,须使用充分大的地址空间,这样的暗网在IP地址相对匮乏的区域较难部署;2)暗网地址是固定的,在长时间的运行后这些地址会逐渐暴露给外界,扫描者会避开这些暗网,导致这些暗网收到的IBR流量的成分中扫描流量偏少.以UCSD Network Telescope为例,Jonker等[9]分析通过该暗网收集到的反向散射流量,而不再对扫描流量进行研究.
NJNET_IBR系统[10-11]是位于CERNET南京主节点网络边界的实时IBR流量采集系统,该系统基于运行网络中一个具有动态隐蔽属性的暗网[12-13]对IBR流量进行实时采集.采用互联网背景辐射实时采集(real-time Internet background radiation measurement, RIBRM) [10]算法,该算法的主要原理是对被管网地址活跃性进行实时测量,根据地址历史活跃性信息过滤掉活跃地址块,剩下的地址即为运行网络中的暗网,从该暗网上获得的所有单向流量均为IBR流量.这样的暗网是“流动”且不易定位的,因而采集到的IBR流量更加真实,从中得到的扫描流量也更具有分析价值.
本研究选取2019年6月20日—6月26日、7月4日—7月10日这2周的数据进行分析,不连续时间段可以有效防止数据偏差.
2. IBR流量的基本情况
2019年6月20日—26日、7月4日—10日这2个时间段的暗网IP地址数都约为85万,其中近98%的IP地址是相同的,分布在328个网段中. 这样的动态暗网相对稳定且隐蔽,所收到的IBR流量也较可靠.
图 1
图 2
3. IBR流量分类
3.1. ICMP报文分类
对于ICMP报文而言,将Ping请求报文归类为扫描报文,将响应报文归类为反向散射报文,剩余报文为其他. 分类结果如图3所示,
图 3
3.2. TCP报文分类
类似ICMP,将TCP请求报文(TCP SYN报文)归为扫描报文,将TCP响应报文(TCP SYN+ACK、TCP ACK、TCP ACK+RST、TCP RST报文)归为反向散射报文,剩余报文为其他报文.对于扫描报文,根据王力[14]提出的扫描检测算法将其分为水平扫描报文和除水平扫描报文外的其他扫描报文.
如图4所示为分类结果. 图中,
图 4
3.3. UDP报文分类
与TCP、ICMP报文不同,UDP报文无标志位,无法从报文头直接判断报文是否为扫描报文,因此设计简单算法,根据主机行为来判断报文是否为扫描报文. UDP水平扫描主机、垂直扫描主机和随机扫描主机定义如下.
1)UDP水平扫描主机. 若一个主机在T时间内向O个不同主机的同一端口发送相同字节数的报文,认为该主机为水平扫描主机,其向该端口发出的所有报文为水平扫描报文.
2)UDP垂直扫描主机. 若一个主机在T时间内向同一主机的P个不同端口发送报文,则认为该主机为垂直扫描主机,其向该目的主机发送的所有报文为垂直扫描报文.
3)UDP随机扫描主机. 若一个主机在T时间内向至少Q个不同的(宿IP,宿端口)对发送报文,且对其发送的报文计算熵值:
式中:P(X)为该主机向第X个(宿IP,宿端口)对发送的报文数与其发送的报文总数的比值. 若 H≥ln Q,则认为该主机为随机扫描主机,其发送的所有报文为随机扫描报文.
根据上述定义,算法设计如下.
输入:T时间内IBR中的所有UDP报文.
输出:水平扫描报文集合H1、垂直扫描报文集合H2、随机扫描报文集合H3和其他报文集合H4.
操作:
1) 对所有UDP报文按(源IP,宿端口,字节数)进行分类,对每一类报文,若其不同的宿地址数大于等于O,则认为该类报文属于集合H1,否则进行下一步分类.
2) 对第1)步所有剩余报文按(源IP,宿IP)进行分类,对每一类报文,若其不同的端口号大于等于P,则认为该类报文属于集合H2,否则进行下一步分类.
3) 对第2)步所有剩余报文按源IP进行分类,若其(宿IP,宿端口)对数目小于Q,则将该类报文归为H4;否则按式(1)计算熵值,若熵值大于等于ln Q,则将报文归类为H3,否则归类为H4.
图 5
4. 面向端口的扫描行为观测
通过对面向端口的扫描行为进行观测可以发现最受扫描者们青睐的端口,这是互联网上扫描现状的直观反映,有利于观测者们发现互联网上新出现的漏洞,进而及时采取针对措施. ICMP协议是网络层协议,其报文没有端口号,所以只对TCP、UDP端口扫描行为进行分析.
4.1. TCP端口扫描行为
如表1、2所示分别为2019年6月20日—6月26日、7月4日—7月10日TCP扫描报文数排名前10的端口,port为端口号,n为7 d内扫描该端口的报文总数,Pn为n与这7 d 该类型端口扫描报文总数的比值,Pc为Pn的累加值,Service为端口号对应的服务或漏洞. 可以看出,这2个星期的热门扫描端口较一致,其中扫描报文数排名前8的端口完全一样,不同的是8 545端口在6月20日—26日排名第11位,5 038端口在7月4日—10日排名第15位,但其扫描报文数在2个星期中并没有太大差别. 除此以外,在这2个星期中,65 536个端口都收到了扫描报文,其中排名前10的端口的扫描报文数只占总扫描报文数的不到16%,说明TCP端口上的扫描行为是分散的.
表 1 2019年6月20日—26日TCP热门扫描端口
Tab.1
port | n | Pn / % | Pc / % | Service |
23 | 2 020 697 594 | 6.212 | 6.212 | Telnet |
445 | 1 120 403 460 | 3.444 | 9.656 | SMB |
22 | 501 441 369 | 1.541 | 11.197 | SSH |
3 389 | 313 051 184 | 0.962 | 12.159 | RDP |
80 | 259 926 595 | 0.799 | 12.958 | HTTP |
37 215 | 225 917 093 | 0.694 | 13.652 | 华为路由器HG532 CVE-2017-17215漏洞 |
1 433 | 208 795 986 | 0.642 | 14.294 | SQL Server |
8 080 | 204 845 408 | 0.630 | 14.924 | Alt-HTTP |
5 555 | 203 975 022 | 0.627 | 15.551 | ADB |
5 038 | 143 645 366 | 0.442 | 15.993 | Asterisk服务器侦听端口 |
表 2 2019年7月4日—10日TCP热门扫描端口
Tab.2
port | n | Pn / % | Pc / % | Service |
23 | 1 744 165 990 | 5.035 | 5.035 | Telnet |
445 | 1 039 652 805 | 3.001 | 8.036 | SMB |
80 | 775 669 513 | 2.239 | 10.275 | HTTP |
22 | 549 943 948 | 1.587 | 11.862 | SSH |
3 389 | 347 211 413 | 1.002 | 12.864 | RDP |
37 215 | 277 886 064 | 0.802 | 13.666 | 华为路由器HG532 CVE-2017-17215漏洞 |
8 080 | 221 624 050 | 0.640 | 14.306 | Alt-HTTP |
1 433 | 209 356 000 | 0.604 | 14.910 | SQL Server |
8 545 | 192 044 920 | 0.554 | 15.464 | 以太坊通信端口 |
5 555 | 179 283 575 | 0.518 | 15.982 | ADB |
对这11个端口分别进行分析,其中22、23、80、445、1 433、3 389、8 080这几个端口是一直以来被扫描者们持续关注的危险端口,说明这些端口上的漏洞仍有较大威胁. 华为路由器HG532在37 215端口上存在CVE-2017-17215漏洞,该漏洞允许远程执行任意代码,在2017年便有报道表明在该端口上有Mirai变种Satori类似蠕虫式传播. 5 555端口允许通过Android调试桥(Android debug bridge,ADB)管理设备,这是一种Android SDK功能,允许开发人员与设备通信并在其上运行命令或完全控制它们,自2018年起针对该端口的攻击逐渐增多. 5 038端口是Asterisk服务器侦听端口. 8 545端口是以太坊通信端口,有黑客利用该端口上的漏洞窃取以太币. 这4个端口都是近几年新出现的具有漏洞的端口. 可以发现,所有的热门扫描端口均为危险端口,说明对端口扫描行为进行持续观测对发现新漏洞有重要作用. 除此以外,须关注的是,443端口并不在这11个端口之中,它在6月20日—26日排第15位,在7月4日—7月10日排第14位,扫描报文数约为1亿条,远远小于80端口,在HTTPS协议应用愈加广泛的现在,足以说明HTTPS协议相比HTTP有更高的安全性.
4.2. UDP端口扫描行为
如表3、4所示分别为2019年6月20日—26日、7月4日—10日UDP扫描报文数排名前10的端口. 和TCP一样,这2周的UDP扫描端口也较一致,不同的是UDP端口上的扫描行为更加集中,虽然也是全部65 536个端口都收到了扫描报文,但是排名前10的端口汇聚了超过1/3的UDP扫描报文.其中,19、53、123、137、161、1 900、11 211都是著名的具有放大器漏洞的端口. 5 060端口上的会话发起协议(session initiation protocol,SIP)协议是信令控制协议,用于创建、修改和释放一个或多个参与者的会话. 53 413端口被Netcore路由器使用,早在2014年便被爆出在该端口上存在严重的后门漏洞,攻击者可以通过此漏洞获取路由器Root权限. 389端口被LDAP、ILS协议共用,其中LDAP协议是轻量级目录访问协议,因为是轻量级而不包含安全措施,易受到恶意攻击和篡改,存在较大的安全隐患. 111端口是Sun公司的远程过程调用(remote procedure call, RPC)服务,其存在远程缓冲溢出漏洞. 这11个端口都是危险端口. 从扫描报文数占比上可以看出,反射攻击的危险程度有所降低,扫描更多集中在5 060端口和53 413端口,表明近些年对反射攻击的防范更加到位,同时在今后须加强对5 060、53 413端口的关注.
表 3 2019年6月20日—26日UDP热门扫描端口
Tab.3
port | n | Pn / % | Pc / % | Service |
5 060 | 182 714 745 | 12.180 | 12.180 | SIP |
53 413 | 142 737 514 | 9.515 | 21.696 | Netcore(Netis)路由器后门漏洞 |
53 | 57 359 489 | 3.824 | 25.520 | DNS |
1 900 | 54 719 415 | 3.648 | 29.167 | SSDP |
123 | 47 214 569 | 3.147 | 32.315 | NTP |
161 | 33 744 445 | 2.250 | 34.564 | SNMP |
389 | 31 243 000 | 2.083 | 36.647 | LDAP、ILS |
137 | 23 160 513 | 1.544 | 38.191 | NetBIOS |
11 211 | 15 765 197 | 1.051 | 39.242 | Memcached |
19 | 15 421 089 | 1.028 | 40.270 | Chargen |
表 4 2019年7月4日—10日UDP热门扫描端口
Tab.4
port | n | Pn / % | Pc / % | Service |
5 060 | 188 249 763 | 10.250 | 10.250 | SIP |
53 413 | 81 318 222 | 4.428 | 14.677 | Netcore(Netis)路由器后门漏洞 |
1 900 | 81 186 397 | 4.420 | 19.098 | SSDP |
123 | 61 200 710 | 3.332 | 22.430 | NTP |
53 | 58 530 676 | 3.187 | 25.617 | DNS |
389 | 47 914 908 | 2.609 | 28.226 | LDAP、ILS |
161 | 30 607 468 | 1.667 | 29.892 | SNMP |
137 | 22 735 052 | 1.238 | 31.130 | NetBIOS |
19 | 19 809 086 | 1.079 | 32.209 | Chargen |
111 | 15 924 692 | 0.867 | 33.076 | Sun RPC |
5. 结 语
本研究基于动态隐蔽暗网实时获取IBR流量,并对获取的IBR流量的协议分布进行分析,同时设法从中分离出扫描流量,进行面向端口的扫描行为观测. 本研究针对的动态暗网的稳定IP数约为85万个,规模小于著名暗网UCSD、Network、Telescope等,无法从中收到足够规模的反向散射流量,因而较难观测反射攻击行为. 该动态暗网的IP地址不是完全固定的,且分散在许多不同的地址块中,较难被扫描者定位并避开,所以可以用采集到的IBR流量进行扫描行为观测.
根据采集到的IBR流量,可以发现其中TCP报文数占90%以上,UDP报文数约占5%,而在正常流量中TCP、UDP分别占80%、18%,有明显差别.在分别对TCP、UDP、ICMP报文进行分类时,发现三者的扫描报文数都占其各自总报文数约95%,且TCP、UDP的扫描形式都以水平扫描为主. 对TCP和UDP扫描报文进行面向端口的扫描行为观测,发现TCP端口上的扫描行为较分散,但2周的热门扫描端口高度一致且均为具有漏洞的端口. 须注意的是443端口并不在热门扫描端口中,证实HTTPS协议比HTTP协议更具安全性. UDP的热门扫描端口也高度一致且均为具有漏洞的端口,与TCP不同的是,UDP端口上的扫描行为更加集中.除此以外,相比具有放大器协议的端口,5 060端口和53 413端口获得了更大的流量,说明近年来反射攻击的强度有所降低,但须加强对5 060和53 413端口的观测.
接下来会建立完善的扫描行为分析系统,以及时发现新的扫描趋势,并建立模型实现对异常扫描行为的检测. 同时还会对扫描主机进行观测并对其扫描意图进行分析,因为扫描并不都是恶意的,像类似Shodan或Zoomeye这样的机构进行扫描只是为了发现服务,对扫描者进行意图识别有助于对扫描流量进行非恶意过滤.
参考文献
Extracting benefit from harm: using malware pollution to analyze the impact of political and geophysical events on the internet
[J]. ,DOI:10.1145/2096149.2096154 [本文引用: 2]
Classifying Internet one-way traffic
[J]. ,DOI:10.1145/2318857.2254821 [本文引用: 1]
运行网络背景辐射的获取与分析
[J]. ,
Extracting and analyzing Internet background radiation in live networks
[J]. ,
/
〈 | 〉 |