多源日志聚合分析方法

资源描述

多源日志聚合分析方法顾兆军;王帅卿;张礼哲【摘要】 When detecting network security threat incidents,various security devices generate a lot of redundant alarm information,which is easy to cause high false alarm rate and low degree of polymerization of log aggregation,bringing great difficulties to the log analysis.To solve this problem,an improved clustering algorithm of adaptive time threshold interval was proposed.By defining the aggregation rules and middle log,the interval threshold in the middle log was updated dynamically,which rea-lized the aggregation of multi-source log.Experimental results show that the proposed algorithm is much closer to the real attack time interval,and it can accurately analyze multi-source log aggregation,which can effectively reduce the number of alarm log information and improve the log of the polymerization degree and accuracy.% 在检测网络安全威胁事件时,各种安全设备会产生大量冗余告警信息,易导致误报率高和日志聚合后聚合度低,给日志分析带来很大困难.为解决这一问题,采用一种自适应时间阈值间隔的聚类算法.通过定义聚合规则和中间日志,动态更新中间日志里的间隔阈值,实现对多源日志的聚合.实验结果表明,该算法的聚合时间阈值间隔更加接近真实攻击时间间隔,能准确对多源日志进行聚合分析,有效减少告警日志信息的数量,提高了日志的聚合度和准确率.【期刊名称】计算机工程与设计年(卷),期】 2017(038)007【总页数】7页(P1702-1708) 【关键词】网路安全;多源日志;聚合规则;自适应间隔阈值;日志聚合【作者】顾兆军;王帅卿;张礼哲【作者单位】中国民航大学计算机科学与技术学院,天津 300300;中国民航大学信息安全测评中心,天津 300300;中国民航大学计算机科学与技术学院,天津 300300; 中国民航大学信息安全测评中心,天津 300300;中国民航大学信息安全测评中心, 天津 300300【正文语种】中文【中图分类】 TP393.08近年来，为解决网络检测安全事件误报率高和遭遇攻击时不能准确发出告警的问题，研究学者在日志聚合方面进行了大量研究，并取得了很多成果。文献1-3采用属性相似度的聚类分析方法来完成对告警日志的聚合，但是该类方法在时间属性进行分析时，未考虑不同安全事件之间时间间隔的变化，日志聚类后的聚合度相对较低。H Asifiqbal等4利用数据挖掘工具Weka对多源日志进行解析，然后采用聚类算法过滤日志，对日志事件关联分析，该算法在聚类时没有考虑时间属性，此算法不太完善。另外，传统对日志进行单独分析和处理的方法忽略了日志间的关联性，造成最终得到的结果无法准确地反应网络系统的安全状况。Myers J等5提出了一种面向多源异构日志的关联分析法，但在分析时未对所有告警事件加以区分，并且在告警优先级计算上过多依赖先验知识。黄林等6采用时间间隔阈值聚类算法对日志进行聚合，但初始时间阈值的设定更多依靠专家经验进行设定，从而造成聚合度降低。为解决聚类算法聚合度低和误报率高的问题，提出了一种基于文献 6的改进方案，通过定义中间日志，采用测试数据对模型进行训练，将训练得到各攻击类型的时间间隔阈值存入中间日志，作为初始阈值。在聚合过程中，实时更新阈值间隔，并将更新过的阈值写入中间日志，与到达的相邻日志进行比较；当相邻日志间隔大于阈值间隔时，采用定义的 4 种聚合规则，再次匹配攻击类型，然后从中间日志中取出更新过的阈值间隔，继续聚合，并利用自适应时间间隔阈值算法，动态更新间隔阈值。在进行日志聚合时能适应网络攻击速度的变化，提高了日志聚合的准确率和聚合度。安全检测类型多种多样，网络安全事件千变万化，为了能更好的进行日志分析，提高日志聚合度和准确率，本节对安全事件进行归类，定义聚合规则，然后对自适应时间阈值间隔算法进行描述。1.1 定义聚合规则通过对攻击事件的分析研究，根据攻击事件之间的差异和事件对系统的作用效果，将攻击分为以下3 类：(1) 恶意代码注入类：根据网络或系统中存在的脆弱性，构造跨站脚本、木马等恶意代码，注入到目标系统的节点上，如SQL注入、跨站脚本攻击(XSS)等。(2) 扫描探测类：攻击事件扫描目标网络主机端口、系统漏洞达到攻击的目的，如弱口令猜测、漏洞利用等。(3) 拒绝服务类：拒绝服务攻击主要是对同一目标发起攻击，耗尽系统资源，不能为合法用户提供正常服务，如 DDOS 攻击等。结合上面对攻击事件的分类和长期对日志属性的分析，定义了 4 条告警日志聚合规则，聚合规则见表 1。按照表1 中定义 4 条规则的优先级，当告警日志到达时，先与优先级最高的规则一进行匹配，如果没有匹配成功，然后分别与规则二、规则三、规则四进行匹配。当告警日志与某条规则匹配成功，则进行下一条日志的匹配，如果相邻的两条日志属于同一类攻击，此时需要与前一条日志进行聚类。因此，聚合规则是日志聚合的必要条件，也是后续对多源日志进一步分析的前提。在聚类时，为了提高日志聚类的准确率，本文采用了自适应时间间隔阈值的算法，实时动态更新时间间隔。下面是分析日志聚合的时间属性。定义中间日志(midLog)是指用来存放初始时间阈值间隔、聚合过程中实时更新各种攻击类型的阈值间隔、相邻日志时间间隔和Tsum、相邻日志时间间隔平方和 Tsof。1.2 自适应时间间隔阈值描述网络中的安全设备对于同种攻击通常会在较短的时间内产生大量的重复告警日志。为解决这种重复告警问题，大多数研究者在处理过程中采用了固定时间阈值的方法，该方法的好处是时间开销小，但缺陷是结果误报率较高。使用固定时间阈值T作为聚合间隔，如果T过小，导致同种安全事件不能完全聚合；反之时间阈值T过大，会将不同的安全事件聚合在一起。因此，本文采用时间间隔相对标准差作为时间间隔动态更新系数6来确定自适应时间阈值。设原始日志序列为x1,x2,x3, . ,xn,Tl,T2, . ,Ti表示两条相邻日志之间的时间差,Ti为日志xi + 1与xi之间的时间差其中,Tavg表示时间间隔平均值；o(t)表示时间间隔的标准差；o*(t)表示时间间隔的相对标准差，是时间间隔阈值的动态更新系数。T表示自适应时间阈值的时间间隔7。当对新的告警日志xn + 1进行聚合时，计算它与前一条日志xn的时间间隔Ti;如果TiT时，不满足聚合条件，则将该日志作为新的起点重新计算时间间隔阈值T。所以每次当对新的日志进行聚合时，就能不断的更新阈值T；随着告警日志数量的不断增加，T值就越接近实际的间隔时间。2.1 系统流程经过大量分析研究防火墙日志和 IDS 日志，本文设计了一个多源日志聚合分析的系统流程，该系统用来对多源日志进行聚合分析。整个处理过程包括 3 个模块：日志采集模块、数据预处理模块、日志聚合模块。该系统流程如图 1 所示。2.2 日志采集日志采集是进行日志分析的基础，日志采集是否准确直接影响日志聚合的准确率和聚合度。目前采集网络安全数据有 syslog 方式和 snmp 方式8，主机信息和网络拓扑信息多采用 snmp 方式；因此，本文采用 syslog 方式采集日志数据。本文使用的数据包括防火墙日志和 IDS 日志，将日志采集模块放在防火墙和 IDS 处进行采集。2.3 数据预处理网络安全设备类型不同和网络安全事件的不确定性，致使一些日志信息可能不完善甚至存在错误。因此，为保证日志融合的有效性和准确率，需要对日志进行预处理数据预处理包括两个过程：日志清洗9和日志归一化10。通过日志清洗，删除和补充日志中不完整的数据，消除冗余数据；进一步为日志归一化提供数据源。原始日志可能存在的错误信息包括：(1) 信息不完整：安全设备日志中的某些重要属性值缺失，处理这些数据毫无意义，将其过滤掉。(2) IP 地址异常：很多攻击者通常为逃避追踪经常会使用虚假的源 IP 地址，当目的 IP 不在检测网络范围内时，需要过滤掉这类日志数据。(3) 日志重复：同一攻击可能会在短时间内产生大量相同的日志记录，如果这些日志记录为同一个安全事件，需要将其归并。根据上述3 种情况，采用如图 2 的日志过滤流程。防火墙、IDS等安全设备类型不同，生成的日志属性之间的差异很大。因此，在对日志进行处理时，需要先精简日志属性，提取其中对后续操作有帮助的属性，将不同的日志格式进行归一化操作。归一化操作是将各式各样的日志数据用统一的格式表示，解决告警日志的异构问题，有利于后续日志融合操作。通过对防火墙、IDS的日志格式进行长期的分析研究，本文确定选取的日志相关属性包括日志编号、设备类型、源/目的IP、源/目的端口、协议类型、时间。接着采用XML格式11 对这些日志进行归一化。归一化格式如下：上述归一化的XML中，对应的属性含义见表2。因此，将归一化后的日志形式描述为： (LogID ， DeviceType ， sourceIP ， destIP ， sourcePort，destPort，startTime，endTime，ProtocolType)。2.4 日志聚合上述1.2节中的方法中存在两点不足，下面描述改进的自适应时间间隔阈值算法：(1)当对第一条进行聚类分析时，需要事先去设定一个阈值，这个阈值多根据专家经验进行设定，致使在对日志进行聚合时，对所有类型的攻击进行聚合时都采用这个预先设定的阈值，在对每一类日志聚合的时候就很容易误聚，导致聚合结果存在一定误报率。对此进行改进，本文在开始采用测试数据对模型进行训练，得到各类攻击事件初始时间间隔值Ti(start)，为此定义一个中间日志，将Ti(start)存入中间日志中。当第一条日志到达时，与事先定义的规则进行比较，判断是哪一类攻击，匹配成功后从中间日志中取出与之对应的时间间隔阈值Ti(start)。当与相邻的日志进行聚合时，如果TiT时，不满足聚合条件，则将该日志作为新的起点，与定义的规则进行匹配，再次从中间日志中取出动态更新过的阈值间隔T，继续进行聚合。采用测试数据对模型进行训练的好处，从开始聚合时，间隔阈值就更加合理，并且将更新过的阈值间隔T存储在中间日志里，当将新的日志从新作为起点时，直接与中间日志里的阈值进行匹配，聚合过程更加合理。(2)每当有新原始日志记录到达时，每次都需重新计算时间间隔标准差和相对标准差，本文采用文献6中的思想对上述方法进行改进，将相邻日志时间间隔和Tsum、相邻日志时间间隔平方和Tsof存储到第一步定义的中间日志里。当一个新的告警日志到达时，新告警与中间日志中的参数直接进行计算，无须再计算之前所有的告警时间间隔值。修改后如下采用改进的自适应的时间阈值算法的好处，能够准确匹配各种攻击类型，初始间隔阈值更加准确，随着时间的积累，实时更新间隔阈值T，就越接近真实攻击时间间隔。同时能应对不同安全设备对安全告警事件的攻击行为，且能动态调整时间阈值，不需要专家预设的阈值，具有很强的适应性和灵活性。改进后的算法流程如图 3 所示。算法伪代码如下：public void selfAdaptionCluster()for() 动态更新阈值间隔T 与定义的四条规则进行匹配；if(是否将其作为初始日志)从中间日志获得该类攻击的初始化间隔阈值Ti(start); if(TiTi(start)进行聚合；updateIntervalT()；midLog();更新中间日志中的阈值间隔Telse 与定义的四条规则进行匹配；从中间日志获得间隔阈值T;if(TiT)进行聚合；updateIntervalT();midLog();elseif(TiT)进行聚合;updateIntervalT(); midLog();continue；public void midLog()训练模型；将得到的各类攻击的初始间隔阈值Ti(start )存入中间日志；public void updateIntervalT()计算时间间隔和Tsum，时间间隔平方和Tsof ；计算时间间隔平均值；计算时间间隔相对标准差Q*(t);得到自适应时间间隔T;3.1 实验环境搭建本文搭建了如图4所示的模拟实验环境拓扑图，用来对改进的自适应时间阈值的聚类算法进行验证，实验环境拓扑如图4所示。该实验环境模拟4个区域，分别是安全管理区域、对外应用服务区域、生产网区域、内网办公区域。安全管理区域放置的是用来检测安全事件的安全设备，包括绿盟RSAS(漏扫)、IDS(入侵检测系统)、安全审计系统；对外应用服务区域包含的是各种对外提供服务的服务器；将防火墙放在主干路上，IDS放在安全管理区域，配置好防火墙和IDS相应的规则。在网络出口处开放一个端口，用于进行模拟攻击实验。攻击者采用科来数据包播放器软件，对攻击包进行回放，攻击包中包括的攻击类型有口令猜测、HTTP攻击、端口扫描、DNS攻击、漏洞扫描。采用科来数据包播放器软件的好处是可以提高攻击速率，改变产生攻击的时间间隔，能更好验证自适应时间间隔阈值的聚类算法。表3依据2.3节提取日志属性的关键字段和两周攻击实验得到的原始数据，对采集到的原始数据进行处理后得到的实验数据。小部分实验数据见表3。3.2 实验结果对比采用聚类算法的目的是为了将原始安全事件分为报警事件和误报警事件，提高日志聚合的准确度，降低误报率，同一类安全事件聚合后降低了原始日志的数量，便于后续进行日志融合。本文采用聚合度作为对聚类算法的有效性判断，开始时对训练集的数据进行训练，得到初始时间间隔阈值，与定义规则进行匹配，得到相应攻击类型的初始间隔阈值Ti(start)，然后与相邻日志进行阈值比较，动态更新间隔阈值;随着时间的增加，间隔阈值T越接近真实攻击的间隔阈值。该算法的好处是能根据网络攻击速度动态地调整间隔阈值，且能够很好的对原始日志进行聚类。下面给出聚合度的计算公式由式(9)可以看出，聚合度越高，经过聚合后的日志数量就越少。本文使用实验中采集到的日志数据，其中防火墙和IDS日志共701 021条，先对其进行过滤和日志归一化，得到源/目的端口、源/目的IP、时间、协议等属性，然后采用自适应时间阈值的聚类算法进行聚合。为了判断该算法的有效性，本实验与文献6和采用固定时间阈值分别是60S，90S，120S，180S，210S，240S做比较。然后按照式(9)对聚合度进行计算，得到的结果如图5所示。图5中左边纵轴表示日志数量，右边纵轴为聚合度，横轴是分别是本文算法、文献6算法、以及固定时间间隔阈值算法聚合后对应的日志数量和聚合度。表4是几种算法的对比结果。从图5可以得出，动态自适应时间阈值聚类算法的聚合度大于固定时间阈值聚类算法聚合度。这是因为网络攻击是动态变化的，固定时间阈值过小，不能将短时间内产生同一攻击事件全部聚合。由上图可以看出，在一定范围内随着时间阈值的不断增加，聚合也不断增大；但大于某个阈值后，聚合度又开始降低。这就很好地验证了一旦间隔阈值设置的过小，对于同种安全事件在短时间内产生大量的报警，不能够完全聚合；相反阈值设定过大，在这个时间间隔内会将不同的安全事件聚合在一起。同时，由图5得出，本文改进后的自适应时间间隔阈值聚类算法的聚合度高于文献6的聚合度，这是因为本文采用训练后的间隔阈值作为初始阈值，比专家经验设定的初始阈值更真实，且在聚合过程中，每次将新的日志作为起点开始时间阈值比较时，都会与定义规则进行匹配，从中间日志中取出更新后的阈值作为初始阈值，继续进行聚合。由此可见，本文改进后的自适应动态阈值的聚类算法能够适应网络的动态变化，降低了原始日志的数量，提高了日志的聚合度，且提高了聚合的准确度，降低了误报率，能够准确得到告警事件。对日志进行聚合分析时，分别采用本文算法和文献6算法对采集到的多源日志进行聚合，并且每隔30 s统计一次聚合后日志的数量，然后按照式(9)进行计算，结果如图6所示。由图6可以得出，刚开始进行日志聚合时，该算法的聚合度明显高于文献6聚合度，这是因为在对日志聚合分析前使用测试数据对模型进行训练，得到了各种攻击类型的间隔阈值，将其存入中间日志；每当中断开始时，先对到来的日志进行类型匹配，然后从中间日志取出更新后的间隔阈值，继续聚合。随着时间的递增，两个算法间的聚合度变小，这是因为每次聚合都能动态的更新时间间隔阈值，可以动态适应网络攻击，与告警日志的不确定性相吻合。由此可以得出，改进后的算法具有更强的适应性，提高了日志聚合的准确度，降低了误报率。针对网络安全告警事件误报率高和不能准确发出告警的问题，本文主要工作是通过定义中间日志，结合 4 种规则，使用测试数据训练模型得到初始时间间隔的阈值，并实时更新中间日志里的阈值间隔，进行日志聚类，使得到的结果更加接近真实攻击，提高了日志聚合的聚合度，提高了检测告警事件的准确度，降低了安全告警事件的误报率。对比实验结果表明，改进自适应时间间隔阈值聚类算法的聚合度高于固定时间阈值的聚类算法和文献6中提出的算法，有效地减少了告警数量。下一步的工作是采用超告警日志，进行日志融合，建立指标体系，进行态势评估和预测。【相关文献】1MAO Zhijia.Research and implementation of alert correlation system based on attributesimilarityD.Xian: Xidian University , 2011(in Chinese).毛志佳.基于属性相似度的报警关联系统的研究与实现D.西安：西安电子科技大学，2011.2GAO Huisheng，LI Yingmin.AnASON alarm correlation method based on hierarchical attribute similarityclusteri ngJ.Scie nee Tech no logy and Engin eeri ng，2015，15(6) : 210-214(i n Chin ese).高会生，李英敏一种基于分层属性相似度聚类的ASON告警关联分析方法J.科学技术与工程，2015，15(6)：210-214.3Gabra HN，Bahaaeldin AM，Korashy H.Classification of IDS alerts with data miningtechniquesJ.Eprint Arxiv ， 2014 ： 1-7.4Asifiqbal H，Udzir NI，Mahmod R，et al.Filtering events using clustering in heterogeneous security logsJ.Information Technology Journal ， 2011，10(4)：798-806.5 Myers J，Grimaila MR，Mills RF.Log-based distributed security event detection usingsimple event correlatorC/Proceedings of the 44th Hawaii International Conference onSystem Sciences.IEEE，2011：1-7.6 HUANG Lin，WU Zhijie，HUANG Xiaofang，et al.Improved multi-sourceheterogeneous alert aggregation schemeJ.Application Research of Computers ， 2014 ，31(2) : 579-582(in Chinese).黄林，吴志杰，黄晓芳，等一种改进的多源异构告警聚合方案J.计算机应用研究，2014，31(2)：579-582.7 Mu Chengpo，Shuai Bing.Research on preprocessing technique of alertaggregationC/International Joint Conference on Computational Sciences andOptimization.IEEE ， 2012 : 597-600.8 REN Kai，DENG Wu，YU Yan.Research on network log analysis based on big datatechnologyJ.Modern Electronics Technique , 2016 , 39(2) : 39-41(in Chinese).任凯，邓武，俞琰基于大数据技术的网络日志分析系统研究J.现代电子技术，2016 , 39(2) : 39-41.9 YU Zhaoliang，ZHANG Wentao，GE Hui，et al.Hadoop platform based log analysis modelJ.Computer Engineering and Design , 2016 , 37(2) : 338-344(in Chinese).于兆良，张文涛，葛慧，等基于Hadoop平台的日志分析模型J.计算机工程与设计，2016，37(2) : 338- 344.10 YA Jing.Towards network threat analysis system based on multi-souce security logsD.Beijing : Beijing Jiaotong University，2014(in Chinese).亚静.基于多源日志的网络威胁分析系统的研究叨.北京：北京交通大学，2014.11 Alghamdi NS，Rahayu W，Pardede E.Semantic-based structural and content indexing for the efficient retrieval of queries over large XML data repositoriesJ.Future Generation Computer Systems，2014，37(7):212-231.

展开阅读全文

多源日志聚合分析方法

最新文档