浙江大学学报(工学版), 2025, 59(6): 1201-1210 doi: 10.3785/j.issn.1008-973X.2025.06.011

计算机技术

基于联邦学习和时空特征融合的网络入侵检测方法

王立红,, 刘新倩,, 李静, 冯志全

1. 山东理工大学 计算机科学与技术学院,山东 淄博 255000

2. 山东省网络环境智能计算技术重点实验室,山东 济南 250000

3. 济南大学 人工智能研究院,山东 济南 250000

Network intrusion detection method based on federated learning and spatiotemporal feature fusion

WANG Lihong,, LIU Xinqian,, LI Jing, FENG Zhiquan

1. School of Computer Science and Technology, Shandong University of Technology, Zibo 255000, China

2. Shandong Provincial Key Laboratory of Network Based Intelligent Computing, Jinan 250000, China

3. Artificial Intelligence Institute, University of Jinan, Jinan 250000, China

通讯作者: 刘新倩,女,讲师. orcid.org/0000-0002-6828-1692. E-mail:lxq@sdut.edu.cn

收稿日期: 2024-04-11  

基金资助: 山东省网络环境智能计算技术重点实验室开放基金资助项目.

Received: 2024-04-11  

Fund supported: 山东省网络环境智能计算技术重点实验室开放基金资助项目.

作者简介 About authors

王立红(1994—),女,硕士生,从事网络服务和信息安全研究.orcid.org/0009-0007-2712-669X.E-mail:1872897112@qq.com , E-mail:1872897112@qq.com

摘要

针对数据特征提取不全面、传统集中式入侵检测方法存在数据壁垒与隐私泄露的问题,提出基于联邦学习和时空特征融合的入侵检测方法.该方法旨在通过卷积神经网络和长短期记忆网络提取时间和空间特征,将提取的特征“并联”得到融合特征,通过多头注意力机制识别网络流量数据中的重要特征,通过双向门控循环单元进行训练,随后通过Softmax函数进行分类. 在模型训练过程中,为了防止隐私泄露,结合联邦学习的固有特性,允许数据留在本地用于训练神经网络模型.实验结果表明,该模型在数据集CIC-IDS2018、NSL-KDD和UNSW-NB15上的准确率分别达到99.00%、97.64%和75.28%.

关键词: 入侵检测 ; 深度学习 ; 联邦学习 ; 卷积神经网络(CNN) ; 长短期记忆网络(LSTM)

Abstract

To address the limitations of incomplete feature extraction and the issues of data silos and privacy leakage in traditional centralized intrusion detection systems, an intrusion detection method based on federated learning and spatio-temporal feature fusion was proposed. Convolutional neural networks and long short-term memory networks were used to extract temporal and spatial features respectively. These extracted features were then concatenated in parallel to generate fused features. A multi-head attention mechanism was employed to identify critical characteristics within the network traffic data, followed by training through bidirectional gated recurrent units and final classification via Softmax function. During the model training process, in order to prevent privacy leakage, the inherent characteristics of federated learning were leveraged to enable data to remain local for neural network model training. Experimental results demonstrated that the proposed model achieved accuracy rates of 99.00%, 97.64%, and 75.28% on the CIC-IDS2018, NSL-KDD, and UNSW-NB15 datasets, respectively.

Keywords: intrusion detection ; deep learning ; federated learning ; convolutional neural network (CNN) ; long short-term memory network (LSTM)

PDF (1580KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王立红, 刘新倩, 李静, 冯志全. 基于联邦学习和时空特征融合的网络入侵检测方法. 浙江大学学报(工学版)[J], 2025, 59(6): 1201-1210 doi:10.3785/j.issn.1008-973X.2025.06.011

WANG Lihong, LIU Xinqian, LI Jing, FENG Zhiquan. Network intrusion detection method based on federated learning and spatiotemporal feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(6): 1201-1210 doi:10.3785/j.issn.1008-973X.2025.06.011

互联网技术的蓬勃发展为人类生活带来了极大的便利,但也产生了大量网络攻击现象,威胁着人们的财产安全,可能导致关键信息泄露[1-2]. 入侵检测作为网络安全研究的重要内容,引起了广泛关注. 目前,利用机器学习(machine learning, ML )和深度学习(deep learning, DL )构建入侵检测系统( intrusion detection system, IDS )已经成为有效手段. IDS框架能够检测入侵并快速生成响应. 最近的入侵检测研究展露了人工智能技术,特别是深度神经网络(deep neural network, DNN )在网络入侵检测中的能力. 其中,卷积神经网络(convolutional neural network, CNN )和长短期记忆网络(long short-term memory, LSTM )得到了广泛应用,例如,Said等[3]运用CNN提取局部特征、双向长短期记忆网络(bidirectional long short-term memory, BiLSTM )学习局部特征之间的时间依赖关系;Khan[4]运用CNN收集空间特征,运用循环神经网络(recurrent neural network, RNN )捕获时间特征.

大多数支持ML的IDS方法使用集中式方法,Wisanwanichthan等[5]提出基于朴素贝叶斯和支持向量机的双层混合检测方法,对NSL-KDD数据集中的R2L和U2R攻击分别实现了96.67%和100%的高检测率. 然而,网络设备与数据中心共享数据,无法保护客户端的数据隐私. 联邦学习(federated learning, FL)作为一种分布式机器学习范式,因其能够有效缓解传统集中式方法带来的数据隐私风险受到学术界广泛关注. Saadat等[6]实现了分层联邦学习方案,用于构建保护物联网应用隐私的入侵检测系统. Zhao等[7]提出新颖的半监督FL方法,通过知识蒸馏利用未标记的开放数据来增强入侵检测分类器的性能,并且创建卷积神经网络模型,用于提取流量数据包的深层特征. 该系统结合了硬标签策略和投票机制,降低了通信开销.

目前基于深度学习的入侵检测方法虽然展现出良好的性能,但在实际应用方面仍存在以下问题:1)由于单个机构能够提供的标注样本规模有限,而模型训练效果与数据量呈显著正相关,因此须在满足隐私保护要求的前提下实现训练数据的有效扩充;2)数据样本不平衡,即数据集内不同类别样本的数量差异较大,导致模型训练效果不理想,对于异常攻击的检测精度有待提高;3)传统串行化时序神经网络的计算量较大、训练时间长并且模型不易收敛;4)随着数据隐私保护要求的日益严格,如何在遵守安全规范的同时完成大规模网络流量数据的模型训练,是亟待解决的重要问题.

联邦学习和深度学习结合,能在高效训练模型的同时保证数据的安全与隐私. 本研究提出基于联邦学习和时空特征融合的网络入侵检测方法FL-CNN-LSTM. 在该方法中,客户端从服务器下载全局模型,用私有数据在本地进行训练. 训练过程采用联邦学习框架,实现分布式协同训练,整合多方数据资源,从而实现数据的有效扩充. 同时,联邦学习能够在不共享原始数据的情况下训练模型,从而保护数据隐私. 采用合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE )增加少数类样本,以平衡不同类别之间的样本分布. 采用CNN和LSTM分别提取空间和时间特征,将两者提取的特征“并联”得到融合特征,解决传统串行神经网络的缺点.

本研究的主要贡献如下. 1)提出基于FL、CNN和LSTM的网络入侵检测方法. FL能够使多个客户端的数据联合训练模型,在解决单个客户端数据有限问题的同时保护数据的隐私. CNN可以学习网络流量的空间分布模式,例如流量的峰值或低谷,并使用这些模式来识别潜在的攻击. LSTM能够有效地对序列数据进行建模和学习,提取时间特征. 2)该模型使用CNN和LSTM并联的连接方式,CNN擅长提取空间特征,而LSTM擅长提取时间特征. 通过并联这2种网络,可以同时进行空间和时间特征的提取,从而更全面地捕捉数据中的信息,并使用注多头注意力机制,增强模型关注输入数据中相关特征而忽略不相关信息的能力,提高入侵检测模型的准确性和性能. 3)在CIC-IDS2018、NSL-KDD和UNSW-NB15数据集上对所提模型进行验证,使用SMOTE解决数据样本不均衡的问题,并基于准确率、精确率、召回率和F1分数进行性能评价.

1. 相关工作

1.1. 基于神经网络的入侵检测技术

神经网络能够直接从原始数据中提取特征,已逐渐被用于网络流量分类任务. CNN是典型的神经网络结构,主要结构包括卷积层、池化层、全连接层,广泛应用于入侵检测领域. Okey等[8]提出基于CNN架构的迁移学习入侵检测方法,在5个预训练的CNN模型中选择3个性能最好的模型,再使用模型平均方法开发一个轻量级集成迁移学习的集成模型,部署在云物联网系统中进行入侵检测. Song等[9]提出基于双层CNN和Cluster-SMOTE+K-means算法的网络入侵检测模型,该模型提高了不平衡数据集的检测率. Azizjon等[10]提出使用一维卷积神经网络开发高效灵活的入侵检测系统的深度学习方法. 缪祥华等[11]将密集连接卷积神经网络应用于流量异常检测,以提升对KDD99数据集的检测准确率.

循环神经网络是另一种典型的神经网络结构,具有多种变体,如LSTM、门控循环单元(gated recurrent unit, GRU ),在入侵检测领域中 应 用 广泛. Alkadi等[12]提出深度区块链框架,在物联网网络中提供具有智能合约的安全根分布式IDS和隐私根区块链,IDS采用双向LSTM算法处理顺序网络数据. Sivamohan等[13]对长短期记忆网络、门控循环单元、双向长短期记忆网络3种循环神经网络在CIC-IDS2017数据集上的检测性能进行对比评估,发现双向长短期记忆网络的检测准确率最优. Tang等[14]将门控循环单元和循环神经网络组合使用来检测入侵,总体准确率达到89%.

除此之外,有研究提出将CNN与RNN结合以提高入侵检测模型的性能. Thilagam等[15]提出基于循环卷积神经网络和蚁狮优化的检测方法,该方法混合了长短期记忆网络和卷积神经网络,使用蚁狮优化算法提高准确率,检测网络层中的攻击. Wang等[16]提出两阶段的网络流量检测方法,该方法将原始流量包作为模型的输入,第1阶段使用CNN来学习网络流量的空间特征,第2阶段使用LSTM来学习网络时间特征,取得了较好的检测效果. Halbouni等[17]使用CNN-LSTM方法构建入侵检测模型并在3个数据集上进行分类实验. 此外,Mynhoff等[18]将几种深度学习模型与传统模型进行比较,其中深度信念网络在这些模型中取得了最高的性能. Shisrut等[19]在深度神经网络中找到了最佳的超参数和网络配置,其准确率达到75.9%.

1.2. 基于联邦学习的入侵检测技术

联邦学习为网络入侵检测领域提供了新的发展方向,一些学者针对使用联邦学习实现入侵检测进行研究,将联邦学习与神经网络相结合来实现网络入侵检测研究. Mothukuri等[20]提出基于联邦学习的入侵检测方法,该方法在门控循环单元模型上联合训练,只与FL的中央服务器共享学习到的权重,从而保护本地数据的隐私安全. Zhao等[21]设计了在联邦学习框架下,利用多任务深度神经网络来执行网络异常检测任务的方法. Friha等[22]提出基于联邦学习的农业物联网基础设施的入侵检测系统. 该系统采用3种深度学习分类器:深度神经网络、卷积神经网络和循环神经网络. 在CIC-IDS2018、MQTTset和InSDN这3个数据集上进行的实验证明了所提出方案的良好效果.

一些学者采用联邦学习结合优化方法来实现网络入侵检测研究. Anastasakis等[23]提出基于联邦学习的入侵检测系统,该系统使用随机梯度下降和差分隐私保护隐私. 然而,该研究只考虑了拒绝服务这一种攻击类型. 作为对隐私问题的解决方案,文献[24]探讨了如何在基于模拟联邦学习的入侵检测系统中最大程度地降低危害用户隐私的风险. 该研究包含联邦教师模仿学习和联邦学生模仿学习,所提出的解决方案实现了98.11%的准确率.

2. 基于联邦学习和时空特征融合的入侵检测方法

2.1. 入侵检测框架

本研究所提方法的整体检测框架如图1所示,包含3个模块:数据预处理模块、入侵检测模块和分类评估模块.

图 1

图 1   入侵检测框架

Fig.1   Intrusion detection framework


数据预处理模块负责对原始数据进行标签编码、归一化和过采样操作. 标签编码将非数值型的数据转换成数值型数据,以便于在机器学习算法中进行处理和分析;归一化使数据能够满足深度学习模型的输入要求,有利于模型的训练和检测;SMOTE能够使数据均衡,减轻原始数据类别不平衡对检测结果产生的影响. 在入侵检测模块,本研究对预处理后的数据设计基于联邦学习、卷积神经网络和长短期记忆网络的模型进行特征提取和学习. 在分类评估模块,采用多种评价指标对模型进行分析和评估.

所提出的入侵检测模块如图2所示. 模型中的双层tanh网络为2个全连接层和tanh激活函数模块. 全连接层将输入数据与权重连接,通过线性变换将输入特征映射到更高维度的特征空间,用于对输入数据进行初步的特征提取和表示. tanh函数是非线性函数,引入非线性,能增加模型的表达能力,使得模型能够更好地捕捉数据中的复杂模式和关系. 每个客户端用卷积神经网络和长短期记忆网络分别提取空间特征和时间特征,将两者提取的特征“并联”得到融合特征. 多头注意力机制允许识别网络流量数据中的重要特征,以进行更精确的预测. 用双向门控循环单元进行训练,最后通过softmax函数进行分类. 客户端将本地模型上传至服务器,服务器对客户端发送的所有模型进行聚合,即各个客户端根据本地数据集训练模型,构建CNN-LSTM通用模型,并将训练后的模型参数上传至服务器,服务器进行参数聚合并将全局FL-CNN-LSTM模型分发给客户端. 最后,在达到通信轮次后,各个客户端得到最终的本地入侵检测模型.

图 2

图 2   FL-CNN-LSTM方法概述

Fig.2   FL-CNN-LSTM methodology overview


2.2. 时空特征融合网络

CNN 可以学习网络流量的空间分布模式,并使用这些模式来识别潜在的攻击. LSTM能够有效地对序列数据进行建模和学习,提取时间特征. CNN与LSTM网络结合,可以提高入侵检测系统的性能. 模型主要由卷积神经网络模块和长短期记忆网络模块组成. 卷积神经网络模块主要包含3个卷积块,每个卷积块由1个卷积层、1个批量归一化层和1个激活函数层组成. 其中,第1个卷积块中卷积层的输入通道数为1,输出通道数为3,卷积核大小为3;第2个卷积块中卷积层的输入通道数为3,输出通道数为5,卷积核大小为3;第3个卷积块中卷积层的输入通道数为5,输出通道数为1,卷积核大小为5. CNN模块结构图如图3所示. 长短期记忆网络模块由2块相同的LSTM层组成.

图 3

图 3   CNN结构模型图

Fig.3   CNN structure model diagram


给定特征向量(表示网络流量数据的一维向量)作为模型的输入,利用CNN模块和LSTM模块分别对其进行处理. 将两者提取的特征“并联”得到融合特征,再引入多头注意力机制识别网络流量数据中的重要特征,使有用的输入信息得到更好的表达. LSTM模型演化出了很多变体,双向门控循环单元(bidirectional gated recurrent unit,BiGRU)是LSTM模型的一种演化变体,BiGRU通过引入双向性,允许模型同时考虑上下文的前后关系,从而更好地捕捉序列数据中的时间依赖性. 最后使用激活函数为softmax的完全连接层进行分类.

2.3. 基于时空特征融合的联邦学习框架

基于深度学习的网络分析模型依赖于大规模高质量标注样本进行特征学习和模型优化. 然而在实际网络环境中,虽然每日生成的海量网络流量数据具有丰富的信息价值,但由于缺乏有效标注,这些原始数据无法直接应用于监督式学习任务. 特别是,中小规模企业或机构产生的网络数据不仅数量有限,还存在数据类型单一、覆盖场景不足的问题. 针对这一问题,联邦学习技术提供了一种创新解决方案,通过分布式协作训练机制,能够在保护数据隐私的前提下,整合多方数据资源,有效解决数据孤岛问题.

联邦学习是通信效率高、隐私保护性好的学习方法. 在每一轮通信过程中,随机选择一定比例节点,客户端k更新本地模型$ {w}_{t}^{k} $得到新的本地模型$ {w}_{t+1}^{k} $,服务器整合客户端$ {w}_{t+1}^{k} $得到新的全局模型$ {w}_{t+1} $. 服务器的聚合公式如下:

$ {w}_{t+1}={\sum }_{k=1}^{K}\frac{{d}_{k}}{d}{w}_{t+1}^{k}, $

$ d={\sum }_{k=1}^{K}{d}_{k} . $

式中:dk为第k个客户端上的本地数据量,d为所有客户端的数据总量,$ {w_{t+1}} $为第t+1轮聚合后的全局模型参数,$ w_{t+1}^k $为第k个客户端在第t+1轮的模型参数.

具体模型训练过程如下. 1)各客户端从服务器下载全局模型$ {w}_{t} $;2)将客户端本地数据集P划分为多个批次,逐个批次计算梯度:$\small {w}_{t+1}^{k}\leftarrow $$ {w}_{t}-\eta \nabla f\left({w}_{t},b\right) $,其中$ \mathrm{\eta } $为学习率,$ \nabla f\left(w_t,b\right) $为基于批次b的梯度;3)客户端完成预设的本地训练轮次阈值M后,将经过本地优化的模型参数传输至中央服务器,以驱动全局模型的协同优化迭代;4)服务器进行聚合,$ {w}_{t+1}\leftarrow {\displaystyle\sum }_{k=1}^{K}\dfrac{{d}_{k}}{d}{w}_{t+1}^{k} $,得到最新全局模型$ {w}_{t+1} $;5)更新全局模型$ {w}_{t+1} $,并重复上述步骤直至训练结束. 对应伪代码如下. 结构模型如图4所示.

图 4

图 4   FL结构模型图

Fig.4   FL structure model diagram


算法1:FL-CNN-LSTM Server Update

输入:参与联邦学习的客户端个数K,服务器迭代轮次E,客户端迭代轮次M,当前轮数t,当前的全局模型$ {w}_{t} $.

输出:联邦学习后的全局模型$ \small{{w}_{t+1}} $

1. while e<E do

2.   while k<K do

3.    $ \small{{w}_{t+1}^{k}\leftarrow \mathrm{C}\mathrm{l}\mathrm{i}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{U}\mathrm{p}\mathrm{d}\mathrm{a}\mathrm{t}\mathrm{e}(k,{w}_{t}} $)

4.   end while

5.   $ \small{{w}_{t+1}\leftarrow {\sum }_{k=1}^{K}\dfrac{{d}_{k}}{d}{w}_{t+1}^{k}} $

6. end while

算法2:FL-CNN-LSTM Client Update

输入:数据集P,每一轮联邦学习中本地训练的轮次M,全局模型$ \small{{w}_{t}} $.

输出:本地训练后的模型$ \small{ {w}_{t+1}^{k}} $

1. $ \mathrm{b}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}\mathrm{e}\mathrm{s}\leftarrow {\rm{S}\rm{p}\rm{l}\rm{i}\rm{t}}\left(P,\mathrm{b}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}\mathrm{e}\mathrm{s}\,\,\mathrm{o}\mathrm{f}\,\,\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}\right) $

2. while m<M do

3.   while b∈batches do

4.    $ \small{ {w}_{t+1}^{k}\leftarrow {w}_{t}-\eta \nabla f\left({w}_{t},b\right)} $

5.   end while

6. end while

7. return $ \small{{w}_{t+1}^{k}} $

3. 实验与结果分析

3.1. 数据准备

要构建一个有效的入侵检测系统,首先要选择合适的数据集. 数据集应该包括正常和恶意记录,代表模型在现实世界中会遇到的情况. 本研究使用CIC-IDS2018[25]、NSL-KDD[26]和UNSW-NB15[27]数据集,这些数据集较新,且没有大量的冗余信息.

1) CIC-IDS2018. CIC-IDS2018数据集包含7类攻击:暴力破解、心血漏洞、僵尸网络和拒绝服务等,由通信安全机构和加拿大网络安全研究所推出,采集了真实环境下持续10 d的网络流量数据,并且每个网络流量样本均由80个特征描述.

2) NSL-KDD. NSL-KDD数据集覆盖了39类网络攻击行为,每条数据记录包含41维特征属性及1个分类标签. 这些特征属性根据其技术特性可划分为3大类别:基本特征、内容特征、流量特征. 标签标记连接的攻击类型,攻击类型包括DoS、监视和其他探测活动、普通用户对本地超级用户特权的非法访问、来自远程机器的非法访问4类.

3) UNSW-NB15. UNSW-NB15数据集是澳大利亚网络安全实验室于2015年发布的,该数据集的网络记录包含48个特征和1个类别标签,类别标签有10类,包含正常流量和9种攻击流量,比如后门、拒绝服务攻击和蠕虫等.

3.2. 数据预处理

3.2.1. 加载数据集

本研究使用的数据集是公开数据集,在读取每个数据集的详细信息后,清除所有空值和重复值,为下一步做准备.

3.2.2. 标签编码

标签编码是将非数值型特征转换为数值型数据的方法,适用于处理有序或无序的离散类别特征. 其核心原理是为每个唯一类别分配一个连续的整数值,如将协议类型“TCP/UDP/ICMP”映射为“1/2/3”,从而将文本或符号型数据转化为模型可处理的数值形式.

3.2.3. 数值归一化

数值归一化是通过将特征缩放至统一量纲以消除数据尺度差异的数据预处理技术,旨在将不同量纲或量级的特征映射到统一数值范围内(如[0,1.0]或[−1.0,1.0]),以消除特征间尺度差异对模型的影响,提升算法收敛速度和精度. 本研究应用最小最大归一化对数据进行归一化处理,表达式如下:

$ {x}_{i2}=\dfrac{{x}_{i1}-{x}_{\mathrm{m}\mathrm{i}\mathrm{n}}}{{x}_{\mathrm{m}\mathrm{a}\mathrm{x}}-{x}_{\mathrm{m}\mathrm{i}\mathrm{n}}} . $

式中:$ {x}_{i1} $为原始数据, $  {x}_{\mathrm{m}\mathrm{a}\mathrm{x}} $为样本数据的最大值,$ {x}_{\mathrm{m}\mathrm{i}\mathrm{n}} $为样本数据的最小值,$ {x}_{i2} $$ {x}_{i1} $归一化后的结果.

3.2.4. SMOTE

SMOTE是用于解决不平衡数据集问题的过采样方法. 在机器学习中,不平衡数据集指的是其中一类样本远少于另一类样本的情况. 这种情况会导致模型在训练时对多数类样本过于关注,从而影响模型的性能.

SMOTE通过合成新的少数类样本来平衡数据集. 首先选择一个少数类样本,然后随机选择一个最近邻的样本,再在这2个样本之间生成新的合成样本. 这个过程会重复进行,直到达到指定的样本数量. SMOTE的目的是通过增加少数类样本的数量,提高模型对少数类样本的学习能力,从而提高模型的性能.

3.3. 评价

使用以下指标分析入侵检测性能. 真正例(TP),正确分类为攻击类的攻击样本数量;假正例(FP),错误分类为攻击类的正常样本数量;真负例(TN),正确分类为正常类的正常样本数量;假负例(FN),错误分类为正常类的攻击样本数量.

使用以下指标对FL-CNN-LSTM模型进行评估,表达式分别如下:

$ {A}=\frac{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}+\mathrm{T}\mathrm{N}+\mathrm{F}\mathrm{N}} , $

$ {P}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}} , $

$ {{R}}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{N}} , $

$ \mathrm{F}1=\frac{2PR}{P+R}. $

式中:A为准确率,表示所有分类正确的样本数与总样本数之比;P为精确度,表示被正确分类的入侵样本数与被分类为入侵样本的样本总数之比;R为召回率,表示被正确分类的入侵样本数与所有入侵样本数之比;F1分数表示精确度和召回率的加权平均值,在F1分数中精确度的重要性和召回率的重要性相同.

3.4. 实验

实验计算机配置为32 GB内存,i7-12700K处理器,操作系统为Windows10,实验语言为Python. FL-CNN-LSTM模型是使用了一些著名的库实现的,包括numpy用于操作多维数组和矩阵,pandas用于操作数据结构和丰富的分析,pytorch用于机器学习和深度学习,SMOTE用于对少数类别进行数据过采样. 实验设定10个客户端设备,学习率η=0.01. 经过100轮训练后得到如下结果:该模型在CIC-IDS2018数据集上的总体准确率为99.00%,意味着模型能够正确分类99.00%的样本. 模型的精度为99.01%,意味着在所有被模型分类为入侵的样本中,有99.01%的样本实际上是入侵样本. 模型的召回率为98.98%,意味着在数据集中的所有入侵样本中,该模型能够正确识别其中的98.98%. F1分数为99.01%. 在NSL-KDD数据集上的准确率、精确率、召回率和F1分数分别为97.64%、77.81%、65.23%和67.79%. 在UNSW-NB15数据集上的准确率、精确率、召回率和F1分数分别为75.28%、76.80%、74.97%和73.71%. 该模型具有较高的准确率、精度、召回率和F1分数,表明该模型能够以较高的准确率对网络流量进行识别和分类,同时最大限度地减少每个类别的假阳性和假阴性,表明该系统在检测广泛的攻击方面是有效的,可以将破坏合法网络活动的风险降至最低.

本研究分别针对CNN-LSTM连接方式、有无注意力机制和联邦与集中式学习进行实验.

3.4.1. CNN-LSTM连接方式

比较基于CNN-LSTM并联和串联的性能,以确定哪种模型提供了更好的结果. 串联方式的模型结构如图5所示. 经过预处理的流量数据通过输入层输入模型后,利用隐层计算得到检测结果,通过输出层输出.

图 5

图 5   CNN-LSTM串联结构模型图

Fig.5   Model diagram of CNN-LSTM tandem structure


在联邦学习和有注意力机制的条件下,进行100轮训练,实验结果如表1所示. 可以看出,CNN-LSTM并联模型在3个数据集上的性能表现显著优于串联结构的. 相较于串联结构,并联结构可以同时从不同的角度捕捉特征. CNN-LSTM并联模型中的不同分支可以并行地处理输入数据,并从不同的角度捕捉特征. 这有助于提高模型的多样性和鲁棒性. 另外,并联结构可以减少信息丢失. 在并联结构中,不同分支的输出可以在后续层次中融合,避免了信息的丢失,有助于提高模型的性能.

表 1   不同连接方式的准确率和F1分数

Tab.1  Accuracy and F1 score for different connection methods

数据集A/%F1/%
并联串联并联串联
CIC-IDS201899.006.6399.010.86
NSL-KDD97.6496.6967.7958.40
UNSW-NB1575.2810.0873.711.87

新窗口打开| 下载CSV


3个数据集在不同的连接方式下,产生的实验数据差距的浮动范围较大,在CIC-IDS2018数据集和UNSW-NB15数据集上,2种连接方式的准确率差别分别为92.37百分点和65.20个百分点,而在NSL-KDD数据集上,2种连接方式的准确率仅相差0.95个百分点. 模型准确率差异可能是数据集的规模、数据标签的一致性和训练算法的稳定性等因素所导致的.

3.4.2. 有无注意力机制

注意力机制的本质在于让模型自己学习如何分配输入信息的权值,即为输入的各个属性进行打分,然后按照打分结果对属性进行加权. 注意力机制专注于输入数据的最关键部分,能充分挖掘网络流量数据的深层次特征信息,聚焦于高影响的流量类别特征,从而实现对不同类别的流量数据基于重要程度分配不同的权值.

为了探究自注意力机制的作用,考察将网络中的注意力单元取出后模型性能的变化. 实验使用准确率和F1分数作为指标观察模型性能的变化,结果如表2所示. 可以看出,无注意力机制的模型在性能指标上均有下降. 其中,在准确率方面,UNSW-NB15数据集上的下降最为明显,相差达到7.30个百分点. 在F1分数方面,NSL-KDD数据集的下降最为显著,相差达到了9.40个百分点.

表 2   有无注意力机制的准确率和F1分数

Tab.2  Accuracy and F1 score with or without attention mechanisms

数据集A/%F1/%
CIC-IDS201899.0098.6699.0198.66
NSL-KDD97.6497.0267.7958.39
UNSW-NB1575.2867.9873.7165.22

新窗口打开| 下载CSV


3.4.3. 联邦和集中式

联邦学习在保持了与集中式学习相近性能的同时保护了数据隐私. 实验结果如表3所示. 在CIC-IDS2018数据集上,联邦学习与集中式学习的准确率相差0.08个百分点,F1分数仅相差0.13个百分点.

表 3   联邦和集中式学习的准确率和F1分数

Tab.3  Accuracy and F1 score with federated or centralized learning

数据集A/%F1/%
联邦集中联邦集中
CIC-IDS201899.0099.0899.0199.14
NSL-KDD97.6497.8867.7968.12
UNSW-NB1575.2877.4273.7176.36

新窗口打开| 下载CSV


3.5. 实验效果对比图

本研究将 CNN 与 LSTM 结合,兼顾了对空间信息和时间信息的提取能力,从而能更全面地捕捉数据的多样性特征. 为了验证这种结合方式相对于单一模型的性能增益,在CIC-IDS2018、NSL-KDD和UNSW-NB15数据集上进行实验,使用准确率、F1分数、精确率及召回率指标对模型进行评估. 结果表明,相较于单独使用 CNN、LSTM 模型,本研究所提出的入侵检测算法性能更优.

为了更直观地对比实验效果,综合呈现不同方法在实验过程中的性能表现趋势,将各对比试验的效果曲线整合于图 6~8. 图中,E表示训练次数. 对比方法分别如下:对比方法1(联邦学习,CNN-LSTM 串联,有注意力机制)、对比方法2(联邦学习,CNN-LSTM 并联,无注意力机制)、对比方法3(集中式,CNN-LSTM 并联,有注意力机制)、对比方法4(在联邦学习有注意力机制下单独使用 CNN )和对比方法5(在联邦学习有注意力机制下单独使用 LSTM ). 从图6~8可以得出,本研究所提模型在保护数据隐私和检测入侵的综合性能方面优于其他模型.

图 6

图 6   CIC-IDS2018数据集检测效果对比图

Fig.6   Comparison of detection results of CIC-IDS2018 dataset


图 7

图 7   NSL-KDD数据集检测效果对比图

Fig.7   Comparison of detection results of NSL-KDD dataset


图 8

图 8   UNSW-NB15数据集检测效果对比图

Fig.8   Comparison of detection results of UNSW-NB15 dataset


4. 结 语

为了提高网络环境下入侵检测系统的整体性能 ,提出基于FL、CNN和LSTM的入侵检测方法. 将CNN和LSTM叠加在模型中,利用CNN提取空间特征的能力和LSTM提取时间特征的能力,获取数据的时间和空间特征. 通过多头注意力机制使模型更关注内部数据的相关性. 利用联邦学习分布式协同训练机制,整合多方数据,增加样本数量. 在CIC-IDS2018、NSL-KDD和UNSW-NB15数据集对模型进行评估,所有数据集都包含正常和攻击记录. 基于这些数据集,进行CNN-LSTM“串联”和“并联”、有无注意力机制、联邦学习与集中式学习以及单独使用CNN和LSTM的测试对比. 结果表明,在联邦学习框架下,CNN-LSTM“并联”,并添加注意力机制的模型具有较高的准确率. 对于CIC-IDS2017、NSL-KDD和UNSW-NB15数据集,在100次训练下,分别获得了99.00%、97.64%和75.28%的准确率. 下一步将对提高隐私保护性的问题进行研究,重点探索新型加密算法,并结合实际应用场景评估其可行性与有效性,为用户数据安全提供更全面的保障.

参考文献

AMARAL A A, DE SOUZA MENDES L, ZARPELÃO B B, et al

Deep IP flow inspection to detect beyond network anomalies

[J]. Computer Communications, 2017, 98: 80- 96

DOI:10.1016/j.comcom.2016.12.007      [本文引用: 1]

HINDY H, ATKINSON R, TACHTATZIS C, et al

Utilising deep learning techniques for effective zero-day attack detection

[J]. Electronics, 2020, 9 (10): 1684

DOI:10.3390/electronics9101684      [本文引用: 1]

SAID R B, ASKERZADE I. Attention-based CNN-BiLSTM deep learning approach for network intrusion detection system in software defined networks [C]// 5th International Conference on Problems of Cybernetics and Informatics. Baku: IEEE, 2023: 1–5.

[本文引用: 1]

KHAN M A

HCRNNIDS: hybrid convolutional recurrent neural network-based network intrusion detection system

[J]. Processes, 2021, 9 (5): 834

DOI:10.3390/pr9050834      [本文引用: 1]

WISANWANICHTHAN T, THAMMAWICHAI M

A double-layered hybrid approach for network intrusion detection system using combined naive Bayes and SVM

[J]. IEEE Access, 2021, 9: 138432- 138450

DOI:10.1109/ACCESS.2021.3118573      [本文引用: 1]

SAADAT H, ABOUMADI A, MOHAMED A, et al. Hierarchical federated learning for collaborative IDS in IoT applications [C]// 10th Mediterranean Conference on Embedded Computing. Budva: IEEE, 2021: 1–6.

[本文引用: 1]

ZHAO R, WANG Y, XUE Z, et al

Semisupervised federated-learning-based intrusion detection method for Internet of Things

[J]. IEEE Internet of Things Journal, 2023, 10 (10): 8645- 8657

DOI:10.1109/JIOT.2022.3175918      [本文引用: 1]

OKEY O D, MELGAREJO D C, SAADI M, et al

Transfer learning approach to IDS on cloud IoT devices using optimized CNN

[J]. IEEE Access, 2023, 11: 1023- 1038

DOI:10.1109/ACCESS.2022.3233775      [本文引用: 1]

SONG J, WANG X, HE M, et al

CSK-CNN: network intrusion detection model based on two-layer convolution neural network for handling imbalanced dataset

[J]. Information, 2023, 14 (2): 130

DOI:10.3390/info14020130      [本文引用: 1]

AZIZJON M, JUMABEK A, KIM W. 1D CNN based network intrusion detection with normalization on imbalanced data [C]// International Conference on Artificial Intelligence in Information and Communication. Fukuoka: IEEE, 2020: 218–224.

[本文引用: 1]

缪祥华, 单小撤

基于密集连接卷积神经网络的入侵检测技术研究

[J]. 电子与信息学报, 2020, 42 (11): 2706- 2712

DOI:10.11999/JEIT190655      [本文引用: 1]

MIAO Xianghua, SHAN Xiaoche

Research on intrusion detection technology based on densely connected convolutional neural networks

[J]. Journal of Electronics and Information Technology, 2020, 42 (11): 2706- 2712

DOI:10.11999/JEIT190655      [本文引用: 1]

ALKADI O, MOUSTAFA N, TURNBULL B, et al

A deep blockchain framework-enabled collaborative intrusion detection for protecting IoT and cloud networks

[J]. IEEE Internet of Things Journal, 2021, 8 (12): 9463- 9472

DOI:10.1109/JIOT.2020.2996590      [本文引用: 1]

SIVAMOHAN S, SRIDHAR S S, KRISHNAVENI S. An effective recurrent neural network (RNN) based intrusion detection via bi-directional long short-term memory [C]// International Conference on Intelligent Technologies. Hubli: IEEE, 2021: 1–5.

[本文引用: 1]

TANG T A, MHAMDI L, MCLERNON D, et al. Deep recurrent neural network for intrusion detection in SDN-based networks [C]// 4th IEEE Conference on Network Softwarization and Workshops. Montreal: IEEE, 2018: 202–206.

[本文引用: 1]

THILAGAM T, ARUNA R

Intrusion detection for network based cloud computing by custom RC-NN and optimization

[J]. ICT Express, 2021, 7 (4): 512- 520

DOI:10.1016/j.icte.2021.04.006      [本文引用: 1]

WANG W, SHENG Y, WANG J, et al

HAST-IDS: learning hierarchical spatial-temporal features using deep neural networks to improve intrusion detection

[J]. IEEE Access, 2017, 6: 1792- 1806

[本文引用: 1]

HALBOUNI A, GUNAWAN T S, HABAEBI M H, et al

CNN-LSTM: hybrid deep neural network for network intrusion detection system

[J]. IEEE Access, 2022, 10: 99837- 99849

DOI:10.1109/ACCESS.2022.3206425      [本文引用: 1]

MYNHOFF P A, MOCANU E, GIBESCU M. Statistical learning versus deep learning: performance comparison for building energy prediction methods [C]// IEEE/PES Innovative Smart Grid Technologies Conference Europe. Piscataway: IEEE, 2018: 1–6.

[本文引用: 1]

SHISRUT R, AISHWARYA S, VINAYAKUMAR R, et al

Intrusion detection systems using classical machine learning techniques vs integrated unsupervised feature learning and deep neural network

[J]. Internet Technology Letters, 2020, 5 (1): e232

[本文引用: 1]

MOTHUKURI V, KHARE P, PARIZI R M, et al

Federated-learning-based anomaly detection for IoT security attacks

[J]. IEEE Internet of Things Journal, 2022, 9 (4): 2545- 2554

DOI:10.1109/JIOT.2021.3077803      [本文引用: 1]

ZHAO Y, CHEN J, WU D, et al. Multi-task network anomaly detection using federated learning [C]// 10th International Symposium on Information and Communication Technology. NewYork: ACM, 2019: 273–279.

[本文引用: 1]

FRIHA O, FERRAG M A, SHU L, et al

FELIDS: federated learning-based intrusion detection system for agricultural Internet of Things

[J]. Journal of Parallel and Distributed Computing, 2022, 165: 17- 31

DOI:10.1016/j.jpdc.2022.03.003      [本文引用: 1]

ANASTASAKIS Z, PSYCHOGYIOS K, VELIVASSAKI T, et al. Enhancing cyber security in IoT systems using FL-based IDS with differential privacy [C]// Global Information Infrastructure and Networking Symposium. Argostoli: IEEE, 2022: 30–34.

[本文引用: 1]

ALI AL-ATHBA AL-MARRI N, CIFTLER B S, ABDALLAH M M. Federated mimic learning for privacy preserving intrusion detection [C]// IEEE International Black Sea Conference on Communications and Networking. Odessa: IEEE, 2020: 1–6.

[本文引用: 1]

SHARAFALDIN I, LASHKARI A H, GHORBANI A

Toward generating a new intrusion detection dataset and intrusion traffic characterization

[J]. ICISSp, 2018, 1: 108- 116

[本文引用: 1]

CHAE H, JO B, CHOI S H, et al

Feature selection for intrusion detection using NSL-KDD

[J]. Recent Advances in Computer Science, 2013, 20132: 184- 187

[本文引用: 1]

HALBOUNI A, GUNAWAN T S, HABAEBI M H, et al

CNN-LSTM: hybrid deep neural network for network intrusion detection system

[J]. IEEE Access, 2022, 10: 99837- 99849

DOI:10.1109/ACCESS.2022.3206425      [本文引用: 1]

/