基于有监督判别投影的网络安全数据降维算法

分类:论文范文 发表时间:2021-06-24 10:01

  摘要:针对传统流形学习在数据降维时不考虑原数据类别和聚类程度低的缺陷,提出一种有监督判别投影的流形学习降维方法SDP来改善网络安全数据降维效果。在近邻矩阵基础上,利用数据集的类别标签信息,构建有监督判别矩阵,变无监督流形学习为有监督学习,寻找一个同时具有最大全局散度矩阵和最小局部散度矩阵的低维投影子空间,保证了降维投影后同类数据聚集而异类数据分散的特性。实验结果显示,与传统降维方法相比,所提算法可以较低的时间复杂度去除冗余数据,并且降维后的数据聚类效果更好,异类样本更分散,适用于实际的网络安全数据分析模型。

  关键字:数据降维;流形学习;有监督学习;判别投影

  1引言

  网络空间安全已成为互联网发展的核心挑战,从系统漏洞、隐私泄露到网络诈骗,各种安全威胁日益增多,网络安全分析中所需要收集和统计的网络安全数据量正在指数级增长,所以优化分析处理网络安全数据的效率对于提高网络安全与服务质量有着非常重大的意义。然而,由于网络安全数据的高维数据空间具备本征稀疏性,使多元密度估计问题更加复杂,难以直接对其进行求解。这一问题于1957年在Bellman的著作序言中被提出,称作―维度灾难‖。这就导致在分析原始的高维网络安全数据时,会产生巨大的计算量,严重影响研究效率。为了更好地理解和处理这些高维复杂的网络安全数据,人们开始关注如何有效地降低数据的维度从而提高数据分析模型的性能。数据降维技术通过分析网络安全数据不同维度之间的内在联系,在高维空间中发掘出其隐藏的低维映射,且能够在一定程度上等效替代原有的高维结构,从而降低网络安全分析的时间复杂度[1]。因此为了提高网络安全分析能力,十分有必要对网络安全数据进行降维处理[2]。

基于有监督判别投影的网络安全数据降维算法

  2相关工作

  近年来,数据降维技术的研究已取得很大进展。这些研究主要分为线性降维方法和非线性降维方法,其主要区别在于分别适用于不同结构类型的数据。本节将对二者依次说明,并详细介绍非线性方法中的流形学习方法。

  3有监督判别投影的流形学习降维算法

  为解决上述问题,使流形学习降维方法更加贴合网络安全数据处理需求,本节基于原始数据类别信息,对于无监督判别投影方法进行改造,提出了一种适用于网络安全数据的有监督判别投影降维算法(SDP,superviseddiscriminantprojection)。

  3.1有监督判别矩阵的建立

  大部分经典的流形学习方法,如LE、LDP等,在建立近邻图时权值只能设置为0/1或热核函数值,但是这些权值并不能较好地体现数据的分类信息。SDP在建立近邻图时,结合原始数据的类别信息建立有监督判别矩阵,能够更好地体现样本数据的类别特征。

  3.2降维算法原理

  SDP算法能够有效消除原始数据产生的冗余干扰,缩减网络安全数据的规模,使降维投影后同类的数据距离更近,表现出明显的集簇效果;异类的簇之间彼此远离,界限较为清晰。这一现象能够显著降低后续数据处理工作的难度。具体降维方法如下。

  4仿真实验

  4.1实验目的及实验环境设置

  降维算法的性能优劣主要体现在其降维的效果和运行算法所消耗的时间。研究者普遍认为,在有效降低数据维度的前提下,如果经过某种降维方法处理后的数据能够保留更多的原有信息,并且产生更为明显的聚类效果,那么就可以说这种降维方法的效果是更为优秀的。而时间复杂度同样是十分重要的评估标准,消耗时间过多的方法无疑是不适合应用于现实的网络安全实践中的。因此,本节将围绕这2个评价指标,对于SDP方法和其他经典的数据降维算法进行对比试验,以评估SDP算法的有效性。

  4.2对比实验

  为了对于SDP算法的性能进行充分的测试,本文选择了降维算法PCA、LE、LDP作为对照组。其中PCA和LDP分别为线性降维算法和有监督流形学习算法中最具代表性的算法之一;而LE的最终目的是使高维空间中邻近的点在低维嵌入中依然邻近,这一思想与SDP较为相近,因此作为无监督流形学习算法的代表。实验将从降维效果、时间消耗和综合性能三方面来分析SDP算法的性能。

  5结束语

  本文针对网络安全数据降维领域的算法聚类效果差,效率低的问题,在传统数据降维技术的基础上,提出了一种有监督判别投影的流形学习降维方法SDP。SDP利用一个有监督判别矩阵,找到同时具有最大全局散度矩阵和最小局部散度矩阵的低维投影子空间,最终实现数据的降维。实验证明,SDP仅需消耗与传统流形学习方法接近的时间,但降维后数据的聚类效果却显著优于线性降维方法和其他流形学习方法,且对于网络安全数据有较强的适应性,因此很适合被用于网络安全分析领域的数据降维工作中。图63种流形学习算法的综合性能指数曲线由于篇幅和时间的限制,本文仅讨论了如何在降维中保留更多的原始数据类别信息,未能深入研究如何进一步提高算法的效率,也没有涉及如何进一步提高后续的网络入侵检测精度。这些问题都有待于进一步的探索。

  参考文献:

  [1]WANGZ,PARKINSONT,LIPX,etal.TheSqueakywheel:Ma-chinelearningforanomalydetectioninsubjectivethermalcomfortvotes[J].BuildingandEnvironment,2019,151:219-227.

  [2]VIKRAMM,PAVANR,DINESHBHAIND,etal.Performanceevaluationofdimensionalityreductiontechniquesonhighdimensionaldata[C]//20193rdInternationalConferenceonTrendsinElectronicsandInformatics.Piscataway:IEEEPress,2019:1169-1174.

  [3]BYRNEJJ,MORGANJL,TWICKLERDM,etal.Utilityoffol-low-upstandardsonographyforfetalanomalydetection[J].AmericanJournalofObstetricsandGynecology,2020,222(6):615.e1-615.e9.

  郭方方,吕宏武,任威霖,王瑞妮

上一篇:184柱花草的种植与放牧管理技术 下一篇:网络空间安全人才培养的PRIDE教学模式探索