基于会话过程跟踪的网页挂马攻击检测方法

上传人:ra****d 文档编号:243079242 上传时间:2024-09-15 格式:PPT 页数:27 大小:2.85MB
返回 下载 相关 举报
基于会话过程跟踪的网页挂马攻击检测方法_第1页
第1页 / 共27页
基于会话过程跟踪的网页挂马攻击检测方法_第2页
第2页 / 共27页
基于会话过程跟踪的网页挂马攻击检测方法_第3页
第3页 / 共27页
点击查看更多>>
资源描述
,2021年网络平安年会,基于,HTTP,会话过程跟踪的网页挂马攻击检测方法,王涛,广东工业大学,中山大学,2,提纲,研究意义,1,系统框架,2,设计与实现,实验测试,总结与展望,4,3,5,原理,网页挂马攻击也称为“浏览即下载drive-by download attack,指攻击者利用网站、客户端浏览器与web应用程序的漏洞(SQL注入,网站敏感文件扫描,效劳器漏洞,网站程序0day等),向目标页面或内嵌对象中植入恶意的HTML脚本代码,在用户访问网页的过程中将恶意程序(malware binaries)自动植入用户系统。,主要特点,取回模式pull-style,不同于病毒蠕虫的推送模式push-style。,网页挂马攻击,网页挂马攻击,A CASE STUDY,Level 0:,Level 1: :/ 5axs /gg/baidu.js,Level 2: :/templets/img/toppic.jpg,Level 3: :/03/03.htm?2,Level 4:,Level 5:,Level 6:,Level 7: :/w/x3.exe,用户在访问初始页面( 5axs )后,经过7次重定向后被诱导至恶意程序分发站点,自动下载并执行恶意程序。,互联网平安现状挂马攻击的危害与泛滥性(Symantec),每年感染上百万的互联网主机,是僵尸网络bot的主要感染方式,数量排名前五的恶意网站类型,博客、个人网站、商务/经济、,购物、教育,6,网页挂马攻击危害现状,基于高交互虚拟蜜罐系统,利用虚拟系统对访问网页后的系统动态行为与状态进行监测,无误检率,互联网大规模网页扫描,检测时效有一定滞后性,基于网页代码特征匹配,将恶意脚本代码视为脚本病毒,通过特征码匹配进行判定,恶意脚本变种灵活、采用混淆变形技术与加密技术,难以检测,提出一种新型检测方法,HTTP会话过程跟踪的网页挂马攻击检测方法,相关研究,8,提纲,研究意义,1,系统框架,2,设计与实现,实验测试,总结与展望,4,3,5,检测模型结构图,网页挂马攻击检测,网页,HTTP,会话,从用户请求网页开始,获取网页所有内容与内嵌对象的整个过程,网页,HTTP,会话重组,源目,IP,地址,用户浏览时间间隔,HTTP,请求包头,referer,域信息,实验数据集,采集方法,正常网页WebClean:Alexa排名网站;捕获每个网页访问过程的HTTP流量,异常网页WebMalware:局部由高交互虚拟蜜罐系统采集,局部来自于行业内各企业公布的挂马网站地址,数据集概况,Corpus abbreviation,Number of Instances,Crawl Date,Training Dataset,WebClean,219,047,Sept.2010,WebMalware,1,048,Sept.2010,Testing Dataset,WebClean-T,53,560,Nov. 2010,WebMalware-T,365,Nov. 2010,域名相关特征,白名单,站点,IP,地址分布,域名词汇特征,引用不同类别外部域名特征,域名段数特征,HTTP,头部相关特征,重定向链接层数,不同类型文件的请求数量,不同,User-Agent,信息域的数量,不完整头部信息域的请求数量,正常网页与挂马网页特征分析,、白名单,正常网页所引用的外部对象大多由知名站点提供,恶意程序分发站点一般都是由黑客直接管理并不对外提供正常的web效劳,白名单:频繁被引用的网页域名集本文取引用频次100,2,、站点,IP,地址分布,恶意站点大多属于某些信誉度不高的二级域名注册机构,恶意站点,IP,地址在某些区间集中的特点,域名相关特征,3、域名词汇特征,正常网站的域名一般都是基于自然语言的,从而方便宣传与用户记忆,恶意效劳器的域名一般具有生存期短的特点,并使用一些偏离正常构词方法构造的域名,域名相关特征contd,33re5eb.8866.org jiba360.3322.org wr323e2e2 ccndk822 ewrewr34,bybyybyb wwwworldweb ,评价方法,N-gram,使用正常网页集的前,150,000,个网页的域名作为训练集,挂马网页集中共采集了,3144,个恶意站点域名,4、引用不同类别外部域名特征,各类网页所引用的外部域大局部都属于com与net域,并且一般情况下多引用同类型站点的内容,根本不会引用其他类型站点的内容。,比方:教育类(edu)网页除了引用com与edu类站点(共占92)内容外,根本不会引用其他类型站点的内容。,域名相关特征contd,5、域名段数特征,正常网站一般使用多个子域名来区分不同的效劳器并对外提供效劳,如、,因此其域名段数根本都在3段以上,恶意站点一般直接使用注册的二级域名对外提供效劳,如ccndk822 、ewrewr34,域名相关特征contd,1,、重定向链接层数,会话链接树相关特征contd,M,,,N,:初始页面引用的外部站点,Step_A,:页面重定向链接层数,Step_B,:外部站点域内链接子树层数,网页会话的重定向链接树,正常网页与挂马网页HTTP会话的重定向链接层数以下图,会话链接树相关特征contd,各类网页会话的页面重定向链接层数 右图,2、不同类型文件的请求数量,将在网页会话过程中到可疑外部域(白名单外)的13种常见类型文件的请求数量作为特征,比方:约94.3%的正常网页没有引用可疑外部域的html文件,而约96%的挂马网页引用多于2个的html文件;,会话链接树相关特征contd,3,、不完整头部信息域的请求数量,Accept-Language,、,Accept-Encoding,与,Referer,三个头部信息域,将网页会话中缺少这三个信息域的请求数量作为特征,WebClean:1.24%,;,WebMalware:55.3%,4,、不同,User-Agent,信息域的数量,正常网页会话过程中的请求一般具有相同的,User-Agent,信息域,恶意程序会使用不同于浏览器正常默认的请求头部域信息,两个以上不同,User-Agent,头部域,WebClean:1.1%,;,WebMalware:36.2%,会话链接树相关特征contd,特征小结,Feature type,Count,HTTP,Session,header,Based,Tcp port number,1,Number of Page Redirection steps,1,Number of Redirection steps of maximal Subtree,1,Number of different User-Agent headers,1,Number of requests with incomplete headers,1,Number of local requests,1,Average request number to suspicious external domains,1,Maximal request number to suspicious external domains,1,Number of requests for every content-type to suspicious external domains,13,Domain,Based,Local Domain gTLD,1,Number of Each External Domain gTLD (com, net, cn,),23,Number of external domains with 2 segments,1,Typical suspicious features,3,Number of suspicious external domains,1,共提取特征,50,个,21,提纲,研究意义,1,系统框架,2,设计与实现,实验测试,总结与展望,4,3,5,C4.5决策树,在模型构建和样本预测过程中都不依赖于样本的分布,该方法能够有效防止样本分布变化所带来的影响,具有良好的分类稳定性;,C4.5决策树处理分类问题具有更高的效率。,机器学习算法,分类模型评价指标,挂马网页作为正例子,(positive class),,正常网页作为负例子,(negative class),;,检测率(TP-True Positive Rate),即挂马网页被正确检测出来的比率,误检率,(FP-False Positive Rate),,即正常网页被误检为挂马网页的比率,精确率,(Precision),:被判为正例子的集合中真实挂马网页的比率,分类模型性能,C4.5决策树分类模型在误检率与检测率之间取得了最正确的平衡。,决策树方法根据信息增益来选择最优特征,在保证最低误检率的同时,取得了较高的检测率。,Nave Bayes方法依赖训练集样本先验概率分布,然而实际获取的测试集样本分布往往与训练集不同,潜在的分类不稳定性,大规模训练集会给SVM分类模型带来较大数量的支持向量,从而导致模型训练速度与样本分类的速度都较慢,分类检测结果,Training Dataset,Testing Dataset,Classifier,TP,FP,TP,FP,Precision,TP,FP,Precision,Decision tree,91.7%,0.1%,95.1%,1%,81.4%,90.5%,0.12%,83.7%,Na,ve Bayes+FCBF,95.6%,0.6%,97.5%,1%,43.2%,82.4%,0.82%,40.6%,SVM,94.6%,0.3%,95.6%,1%,60.1%,92.8%,0.35%,64.3%,分类检测结果contd,特征对分类模型性能影,会话链接树这类特征在低误检率时,拥有较高的检测率,即此类特征更能描述挂马网页的独特性,Rank,Feature,1,Number of suspicious external domains,2,Number of redirection steps of maximal subtree,3,Number of page redirection steps,4,External hostname lexical feature,5,Number of requests with incomplete headers,6,2 Segments of external domains,7,org (External Domain TLD),8,Number of requested html files to external suspicious domains,9,Number of requested css files to external suspicious domains,10,Number of requested,pdf,files to external suspicious domains,样本分布对分类模型性能影响,分类模型的性能保持稳定,模糊实例(与挂马网页特征相近)影响了模型的分类规那么,使得检测率降低,分类检测结果contd,Malicious webpage percentage,TP,FP,TP,FP,Precision,20%,96.5%,0.1%,-,-,99.5%,10%,95.8%,0.09%,96.1%,0.1%,99.1%,5%,94.9%,0.08%,95.2%,0.1%,98.4%,All sources,93.6%,0.07%,94.1%,0.1%,86.4%,不同样本分布下,C4.5,决策树模型的性能,基于HTTP会话过程跟踪的网页挂马攻击检测方法,有效检测挂马网页,较低的误检率,可实时部署于客户端,代价小,无需分析网页代码,存在问题,还需与同类系统进行深入比较分析,改进本方法性能,针对模糊实例,需要进一步研究并开掘新的特征,测试模型的实时检测性能并研究其在线学习算法,总结,感谢各位学者与同行的,支持与帮助!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!