理论探讨・Theoretical Discussion 融合多智能技术的网络入侵检测模型 兰远东 高 蕾 (惠州学院计算机科学系 广东惠州516007) 【摘要】网络入侵检测的关键问题是要使得检测准确率最大化,误警率最小化。为了解决这个问题,提出了集成多 种智能学习范型的入侵检测模型。该模型融合了线性遗传规划,自适应神经模糊推理系统和随机森林学习算法。在 分类前,使用两层的特征选择过程来约简特征,并在分别评估了每种学习算法的性能基础上,给出了融合规则。实验 表明:融合多智能技术的入侵检测系统的性能要优于任何一个单一的分类器。 【关键词】入侵检测:多分类器系统:模式分类:遗传规划 Network Intrusion Detection Model Integrated Multiple Intelligent Technologies Lan Yuan—dong Gao Lei (DepartmentofComputerScience,Huizhou University GuangdongHuizhou 516007) 【Abslroct】The key issue of network intrusion detection is to maximize accuracy and minimize false positive arte.In addressing this issue,this paper proposes a network intrusion detection model integrated multiple intelligent technologies.This model combines a linear genetic programming,adaptive neural-fuzzy inference system and andom rforest learning algorithm.Prior to classiifcation,a 2-tier feature selection process was performed to expedite the detection process.Ensemble rule was formulated based on he evaltuation f othe stengtrhs of each individual learning algorihm.Experitmental results show that network intursion detection model integrated multiple intelligent technologies is better than any single classifier. 【Keywords l intrusion detection;multiple classiifers system;pattern recognition;genetic programming 1引言 互联网在快速膨胀的同时.也引发了有关安全的许 多问题。研究者提出了各种安全策略,来保障互联网络 的挑战是避免这两个问题并拿出解决方案,可以提供一 个良好的精度.同时保持较低的误警率。 各种智能模型已经用于入侵检测,其中包括神经网 络.支持向量机和人:[免疫系统;也有研究者通过统计 方法来解决入侵检测问题的:也有使用图方法的,比如 的安全。单独使用防火墙作为一个基本的包过滤器,不 足以提供一个安全的网络环境。 联合树对于隔离正常模式和攻击模式非常有效,联合树 的优点是它能够说明属性之间的相互关系。 入侵检测系统配合防火墙.可以提供一个更好、更 安全的网络。一般来说,入侵检测系统(Intrusion 近年来,集成多分类器的方法被广泛地用来解决许 多分类问题,包括入侵检测系统。只要有适当的投票机 Detection System,IDS)可以通过分析网络流量,寻找潜 在的威胁。两种主要类型的人侵检测系统是误用检测和 异常检测。误用检测寻找已知的攻击,例如攻击签名,而 制和权重分配.多分类器系统能够提高分类精度。但是, 当处理诸如网络流量巨大的领域问题时,计算资源和时 间会受到很大的影响。 本文的目的是为了解决入侵检测系统的准确性和 误警率问题,我们采用两种方式。首先是选择表达网络 流量模式的主要特征。然后基于不同的学习范型构建多 信息安全与技术・2014年4月・31・ 异常是基于正常的模式而言。与正常参考模式存在显著 偏差,就表明可能存在潜在威胁。误用检测和异常检测 都有缺点,误用检测需要签名的频繁更新,以确保良好 的检测,而异常检测容易导致较高的误警率。因此,面临 Theoretical Discussion・理论探讨 个分类器,最终形成一个集成分类器模型。选择了三种 智能计算技术来开发分类器.它们分别是线性遗传规划 (Linear Genetic Programming,LGP)、自适应神经模糊推 理(Adaptive Neural Fuzzy Inference System,ANFIS)和随 机森林(Random Forest,RE)。 2智能计算技术 网络流量数据通常与大容量、多领域相关联.需要 入侵检测系统的仔细分析和辨别。为了减轻开销问题, 在对数据分类前先进行特征选择。此外,必须要选择表 达每个流量类别的显著特征以找到入侵模式的共同特 性。但是这些特征往往隐藏在不相关的特征中,有的特 征还存在假相关,其中的一些特征也可能是多余的。 因此,特征选择的目的是从一些看似无关紧要的特 征中揭露那些隐藏的显著特征。这样就可以实现一个快 速、准确的分类器。然后,使用三种不同的机器学习技术 来构建集成多分类器系统,这三种技术是线性遗传规划 (LGP)、自适应神经模糊推理系统(ANFIS)和随机森林 (RF)。综合这几种智能技术,旨在提高入侵检测系统的 性能。 下文将简要介绍一下这些技术。 2.1预处理 在本文的研究工作中实施的特征选择过程,使用了 粗糙集(Rough Set)技术和二进制粒子群优化算法 (Binary Particle Swarm Optimization),采用分层方式,形 成一个二层的特征选择过程。特征是基于每一个特定的 类而获得的.每一个类有一个特征集。二进制粒子群优 化算法采用启发式技术,初始候选特征为41维,粗糙集 技术被用于消除冗余特征,保留每个流量类 ̄ormal、 Probe、DoS、U2R、R2L)的最显著的l5维特征,这15维 特征称为原始特征的约简。 2.2二进制粒子群优化算法 粒子群优化算法是通过模拟鸟群觅食行为而发展 起来的一种基于群体协作的随机搜索算法。每个粒子与 速度有关,当粒子在搜索空间中飞行时,粒子的速度根 据每个粒子的历史行为和邻居而调整。因此,粒子具有 朝着越来越好的搜索区域飞行的趋势。粒子的速度和位 置的计算说明如下: V wVid+cl・rand0(PicXid)+C2"Rand0(P x_d) (1) X X Vid (2) C1和C2是正数常量,叫做学习速率;rand()和Rand ・32.2014年4月.信息安全与技术 ()是两个随机函数,取值范围为【O,1];w是惯性权重,合 适的权重可以取得全局与局部之间探索平衡;X__(xI1,X , …,x。d)代表第i个粒子,Pi=(P.1,P 一,P )是第i个粒子的 前一个最优位置。 本文使用两层粒子群优化算法来决定每个特征是 否应该被选择出来作为分类的特征。先使用基于粗糙集 的离散粒子群优化算法fDiscrete Panicle Swarm Optimizaiton),来挑选显著特征.将每个类的初始42维 特征缩减到15维。然后在此基础上使用二进制粒子群 优化算法,最终的特征维数在6到8之间,大约缩减了 80%的特征 2.3多智能集成分类 集成多分类器的有效性依赖于决策融合函数。在确 定决策函数时,需要考虑分类器的差异性。本文通过集成 三种不同的机器学习技术来构建集成多分类器系统.这 三种技术是线性遗传规 ̄tJ(LGP)、自适应神经模糊推理系 统(ANFIS)N随机森林 )。综合这几种智能技术,旨在 提高入侵检测系统的性能。决策融合函数的确定,是基于 各个单分类器的检测性能.及整个系统的准确率。 2.3.1线性遗传规划 最近在遗传规划方面的事态发展,包括通过使用线 性基因构建机器代码指令来提高速度,以及同源交叉运 算激发了研究者在网络安全问题方面的应用研究。遗传 算法也是计算机科学人工智能领域中用于解决最优化 的一种搜索启发式算法,是进化算法的一种。 这种启发式通常用来生成有用的解决方案来优 化和搜索问题。进化算法最初是借鉴了进化生物学中 的一些现象而发展起来的,这些现象包括遗传、突变、 自然选择以及杂交等。遗传算法在适应度函数选择不 当的情况下有可能收敛于局部最优,而不能达到全局 最优。 线性遗传规划是遗传规划的一个变种,是遗传规划 使用计算机程序的一个特定的线性表示。与基于树的遗 传规划相比的主要不同是进化单元不是功能性编程语 言的表达式,而是命令式的语言程序。文献[5]进一步证 明了三种遗传规划变种算法在入侵检测系统中的识别 能力,其中多表达式编程在除了对Probe和DoS攻击的 其他情况下表现出较高的识别能力。 同时,遗传规划算法还能获得较低维数的显著特 征,分类精度可以达到95%以上。文献[4】还指出,由于具 有较快的检测速度和较高的检测精度,遗传规划可以应 理论探讨・Theoretical Discussion 用于实时检测领域。如果种群规模、交叉率、变异率等参 第二层计算当前输入对各条规则的激励强度,采用 对规则前件部分各模糊变量的隶属度作乘积运算; 第三层对激励强度进行归一化; 数选择恰当。线性遗传规划要优于支持向量机和人工神 经网络。 2.3_2自适应神经模糊推理系统 由于特征和网络流量数据的本质之间存在复杂的 关系。正常数据和入侵数据之间存在灰色边界。因此,近 年来模糊推理系统被部署在入侵检测系统中,作为入侵 检测的重要方法之一。 第四层计算每条规则的输出,一条规则的输出是给 定输入对该条规则的激励强度与结论部分的乘积; 第五层计算模糊系统的输出,总的输出是所有规则 输出之和。 2.3.3随机森林 模糊推理是从不精确的前提集合中得出可能的不 精确结论的推理过程,又称近似推理。有两种基本的模 糊推理系统:Mamdani模糊推理模型和Sugeno模糊推 理模型.两者的主要区别在于对输出的界定。Mamdani 模糊推理模型通过事先掌握的一组推理规则,实现从输 入到输出的推理计算,从而建立准确的辨识系统。下面 随机森林是未修剪的分类树或回归树的集合,是一 个包含多个决策树的:分类器,并且其输出的类别是由个 别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出随机森林的算 法.随机森林学习算法如下: 11用N来表示训练例子的个数,M表示变量的 数目: 给出一个Mamdani模糊推理规则的例子:if(X is high) then(y is smal1),它是一种语言形式。 与Mamdani模型相似,Sugeno模型的推理规则的 前提部分是语言形式.但是规则的结论部分却是一个非 模糊的等式,如:if(x is high)then y=f(x),其中fix)是模 糊输入变量X的函数。 本文的自适应神经模糊推理系统采用Sugeno模 型。与Toosi和Kahani的工作相似,之所以采用自适应 神经模糊推理是因为对不同的数据变种。成员函数参 数的选择非常困难。自适应神经模糊推理是一种融合 了神经网络的学习能力的近似推理方法。学习机制采 2)使用数m,用来决定当在一个节点上做决定时, 会使用到多少个变量,m应小于M; 31从N个训练案例中以可重复取样的方式,取样N 次,形成一组训练集(即bootstrap取样),并使用这棵树 来对剩余预测其类别,并评估其误差; 41对于每一个节点,随机选择m个基于此点上的变 量,根据这m个变量,计算其最佳的分割方式; 51每棵树都会完整成长而不会剪枝。 由于随机森林学习算法具有低的分类错误率,以及 对特征的排序等特点,随机森林被用于多个领域,比如 建模、预测以及入侵检测系统。 用混合监督学习方法,自适应神经模糊推理的结构如 图1所示。 自适应网络是一个多层前馈网络,分为五层,其中 的方形节点需要进行参数学习。 第一层计算输入变量的匹配度,即模糊化过程; 3实验设置 实验采用KDD Cup 1999数据集,是KDD竞赛在 1999年举行时采用的数据集。收集了9周时间的TCP dump网络连接和系统审计数据,仿真各种用户 类型、各种不同的网络流量和攻击手段,使它就 像一个真实的网络环境。这些TCP dump采集 的原始数据被分为两个部分:7周时间的训练 数据,大概包含5,000,000多个网络连接记录, 剩下的2周时间的测试数据大概包含 2,000,000个刚络连接记录。 一个网络连接定义为在某个时间内从开始 f 第1层 f f l 第4屡 l 第5层 到结束的TCP数据包序列,并且在这段时间内, 数据在预定义的协议下(如TCP、UDP)从源IP地 第2层 第3层图1自适应神经模糊推理系统结构 址到目的IP地址的传递。每个网络连接被标记 信息安全与技术・2014年4月・33・ Theoretical Discussion・理论探讨 为正常(Norma1)或异常(Anomaly),异常类型被细分为四 大类共39种攻击类型,其中22种攻击类型出现在训练 集中,另有17种未知攻击类型出现在测试集中。 四种异常类型分别是: 1)DOS(Denial—of-Service)拒绝服务攻击,例如 ping—of-death,synflood,smurf等; 表2特征约简 类别 Normal Probe DoS U2R 最佳结果 f12,f3l,132,133,f35,f36,137,f41 f2,f3,f23,134,136,f40 f5,fl0,f24,t29,f33,134,138,f40 f3,f4,f6,n7,f22 2)R2L(Remote to Loca1)来自远程主机的未授权访 问,例如guessing password; 3)U2R(User to Root)未授权的本地超级用户特权访 问。例如bufferoverlfowattacks: 4)Probe(Probing and Surveillance)端口监视或扫描, 例如port—scan,ping—sweep等。 实验中选择了5092个样本作为训练集.6890个样 本作为测试集。样本的组成保持了KDD Cup 1999的真 实分布,具体情况如表1所示。 表1训练和测试数据 数据集 Normal Probe DoS U2R R2L 训练集 1000 500 3002 27 563 测试集 1400 700 4202 25 563 训练数据 测试数据 NomA套l Probe DOS U2R R2L 图2实验流程图 .34.2014年4月.信息安全与技术 R2L f3,f4,fl0,f23,f33,t36 表3 ANFIS各迭代次数的错误率 类别 迭代次数 错误率(%) 100 30.09 Norrnal 300 29.73 500 29.73 100 10.27 Probe 300 9.56 500 9.56 100 43.13 DoS 300 31.44 500 31.44 100 7.21 U2R 300 7.12 500 7.12 lO0 27.24 R2L 300 26.14 500 26.14 实验流程如图2所示,获取显著特征的过程离线 完成,每一个分类器(线性遗传规划LGP,自适应神经 模糊推理系统ANFIS.随机森林RF)都使用相同的训 练集。 用离散粒子群优化算法(Discrete Particle Swarm Optimization)来挑选显著特征,将每个类的初始42维特 征缩减到15维。然后在此基础上使用二进制粒子群优 化算法,特征选择的过程可以参见。得到的特定类别特 征如表2所示,最终的特征维数在5到8之间,大约缩 减了80%的特征。 表格3给出了ANFIS分别在迭代100、300和500 次时的错误率,可以看出最佳的迭代次数是300。迭代 次数在300以上时,错误率并没有因为迭代次数的增 理论探讨・Theoretical DiSCUSSion 表4线性遗传规划分类器参数设置 参数 Norma1 Probe 多种权重分配的实验后.得出下面的权重分配融合模 类别 DoS U2R R2L 型是最优的。 D b==(0.5 x LGP l+(0.I x ANFIS ̄)+(0.4x RF (3) 其中,0.5、0.1和0.4是权重,D 是LGP 、 ANFIS 和RF 三个分类器的累积决策。 种群规模 2048 2048 2048 2O48 2048 变异率 交叉率 3 50 5 50 22 30 5 72 5 50 4结果与讨论 每个分类器以及最终的集成多分类器系统的 实验结果,如表5所示。其中精度(Accuracy)、误警率 加而降低。实验中采用钟型隶属函数,并将其实验结果 与其他两种类型的隶属函数(梯形隶属函数和高斯隶 属函数)对比,结果表明钟型隶属函数更适合本文的研 究工作。 分别使用5个自适应神经模糊推理系统来处理5 种类型的网络流量数据,由于通过特征选择阶段的处 理,特征被显著约简,推理规则数目从25.28,规则的数 目远低于Toosi and Kahani的241。推理 规则的数量,对分类时间具有较大影响。 对于线性遗传规划分类器使用的参 数如表4所示。 实验中1000代的编码进化,每 一fFalse Positive)和准警率(True Positive)的计算公式如下: Accliracy= False Positive= 丽 (4) (5) Tur。Positive 雨蕊I V (6) 褒训练集上的分类性能(U2R) 代平均运行20次。在对U2R攻击类型 褥 岳 分类时.当进化到90代时就基本稳定了, 更多的进化迭代并没有改善分类精度,实 验结果如图3所示 在随机森林算法的实验中。使用3 维特征作为建树时的节点因子。在 分类器融合前,对每一个分类器单独进 辔 基 躜 行性能评估。在分类器融合时.根据 分类器的性能,进行权重分配。分类 器的性能.如图4和图5所示。在尝试了 图3 LGP在各迭代次数下的分类精度(U2R) 表5分类器与集成分类器的性能 LGP 类别 ANFIS I 集成分类器 精度 Normal 98.83 Probe DoS U2R R2L FP TP 精度 FP TP 精度 FP TP 精度 FP TP 0.0029 0.9971 96.31 0.0000 0.9986 95.41 0.0000 0.9743 92.66 0.0000 0.8000 99.77 0.0000 0.9858 99.49 0.0029 0.9631 93.I6 0.0000 0.5557 95.76 0.0007 0.8877 91.45 0.0000 0.4400 99.13 0.0000 0.9503 98.87 0.0029 0.9970 99.27 0.0000 0.9990 99.88 0.0121 0.9055 98.26 0.0007 0.8800 99.96 0.0000 0.9965 99.79 0.0029 0.997l 0.0000 0.9914 0.0000 0.9743 0.0000 0.8800 0.0000 0.9858 99.68 97.45 99.91 99.63 信息安全与技术・2014年4月・35・ Theoretical Discussion・理论探讨 其中TP是对入侵数据的正确分类.TN是对正常数 据的正确分类.FP是对入侵数据的错误分类,FN是对 正确数据的错误分类。 每个单独分类器对每种类型的流量数据的分类精 度曲线如图4所示,类别1代表正常数据(Norma1),类别 代表U2R攻击,类别5代表R2L攻击。总体来看,线性 遗传规划的(LGP)的性能要优于ANFIS和RF。3种分类 技术对DoS攻击的识别性能都较差,可能是由于特征 选择过程中DoS攻击的显著特征选择不够完整,也可 能是因为DoS攻击的样本数量不平衡。 每个单独分类器对每种类型的流量数据的准警率 2代表嗅探攻击(Probe),类别3代表DoS攻击,类别4 LGP ANFIS和RF的精度 流徽 剐I 1-1 ̄rmal 2 ̄robe 3 S 4-U2R 5-1:12L 图4各分类器的分类精度 LGP,ANFIS_和RF的准静牢 图5各分类器的准警率 36.2014年4月.信息安全与技术 曲线如图5所示。从图中可以看出,LGP 和ANFIS对U2R攻击的识别率较差.RF 相对较好。从图4和图5可以看出,对 DoS攻击和U2R攻击的识别较为困难。 DoS攻击数据的样本数量占总样本的 58.96%,而U2R具有最少的样本,占比 0.53%。两种数据的样本数量分处两个极 端.导致数据不平衡问题。也直接导致了 最终的识别性能较差。RF算法对5种流 量数据的总体识别性能相对较为稳定,而 LGP和ANFIS在处理样本数量不平衡的 类别时性能较差。 集成3种智能技术的分类器的分类 精度与3个单独的分类器中最好的LGP 的分类性能对比如图6所示。由于集成分 类器中的每个分类器之间性能的互补性, 从图中可以看出.集成分类器的性能优于 LGP,集成分类器模型能够保持较低的误 警率的同时获得较好的分类精度。 5结束语 在本文中.我们集成三种不同的智能 学习范型来提高入侵检测的精度。通过对 每种学习范型设置相应的权重来融合3 个分类器。在实验中我们发现LGP在对各 种类型的网络流量数据(U2R除外)分类 时,分类精度最高。而RF在对U2R流量 数据分类时。取得了相对较高的准警率。 因此.综合了RF、ANFIS和LGP的集成分 类系统具有更好的入侵检测能力。在集成 多分类器系统中,各个单独的分类器的权 重取值相当重要。 下一步的研究工作,是寻找更系统的 方法来确定各个分类器的权重,并研究权 重对最终分类结果的影响。 理论探讨・Theoretical Discussion 懿成分类器姆 P的准确罐对比 [5]李慧,胡云,李存华.基于粗糙集理论的瓦斯 灾害信息特征提取技术[J].山东大学学报:工学版, 2012,05:91-95. 【6]6 A.N.Toosi,and M.Kahani.A new approach to intrusion detection based on a evolutionary soft computing model using neuro-fuzzy classiifers[J]. Journal of CI):mputer Communications,2007,30:2201— 嘏 一 2212. 孵 【7】L.Breimann,2001,Random Forests[J】_ Journal of Machine Learning,Kluwer Academic, Netherland,2ool,45,:5-32. 【8]詹曙,姚尧,高贺.基于随机森林的脑磁共振 图像分类【I】.电子测量与仪器学报,2013,11:1067- 1072. [9】王鑫,汪晋宽,刘志刚等.基于随机森林的认 知网络频谱感知算法们.仪器仪表学报,2011,lh 图6集成分类器与LGP的性能对比 2471—2477. [1O]王象刚.基于K均值随机森林快速算法及入 侵检测中的应用[J】.科技通报,2013,08:11—15. 参考文献 [1]Pinz6n C I,De Paz J F,Herrero?,et a1.idMAS-SQL:intrusion detection based oll MAS to detect and block SQL injection through data mining[J].Information Sciences,2013,23l:15-31. 【2]Krawczyk B,Wozniak M.Accuracy and diversity in classiifer selection for one-class classiifcation ensembles【C]//Computational Intelligence and Ensemble Learning(CIEL),2013 IEEE Symposium oil. IEEE,2013:46—51. [1 1]A.Zainal,M.A.Maarof and S.M.Shamsuddin,Feature Selection Using RougIl—DPSO in Anomaly Detection[M].LNCS 4705, Part 1 Springer Hiedelberg,2007:5 12—524. 基金项目: 惠州市科技计划项目(No.2011B02oo06002,2O12B02o0O4o05); 惠州学院自然科学基金项目(No.2012YB14)。 作者简介: 兰远东(1975一),男,华南理工大学,博士研究生,惠州学院,讲 【3 S.Chebr3]olu,,A.Abraham,and J.P.Thomas.Feature Deduction and Ensemble Design of Intusiron Detection Systems[J].International Journal of Computers and Security,2005,24(4):295-307. 师;近3年在模式识别与机器学习领域发表了论文十余篇,多数被 EI检索;主要研究方向和关注领域:模式识别与机器学习。 [4]S.Monteio,T.rK.Uto,Y.Kosugi,N.Kobayashi,E.Watanabe and K.Kameyama.Feature Extraction of Hyperspectral Data for Under 高蕾(1976一),女,华南理工大学,硕士研究生,惠州学院,讲师; 近3年在无线传感网络安全及网络优化领域发表了论文5篇;主要 研究方向和关注领域:无线传感网络、网络优化等。 Spilled Blood Visualization Using Particle Swarm Optimization[J1. International Journal of Bioelectromagnetism,2005,7(1),:232['-235. 信息安全与技术・2014年4月・37・