资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,YY直播应用大数据决胜安全对抗的实践,大数据安全对抗应用背景,大数据分析在DDOS对抗中的应用,大数据分析在机器人外挂识别中的应用,1,2,3,5,大数据让,YY,安全防御体系从“温饱”过渡到“小康”,欢聚时代,(YY),直播业务,-,娱乐,&,游戏,&,教育,DDOS,攻击,渗透,入侵,外挂,业务,破坏,逆向,破解,盗号,盗,Y,币,面临的安全威胁,对抗技术演进,攻击、入侵、渗透等显著特征,模糊识别,精,TEXT,别,ADD,CONTENTS,确识,从“精确的模式特征”,向,“模糊的模式特征”演进,通过大数据分析、数据挖掘、实时计算等分析模糊特征,云防,DDOS,业务风控系统,WAF,Kafka&Storm&Hadoop,大数据,(,实时,&,离线,),计算平台,(K-Means,、,Decision,Tree,、,Apriori,等,),安全系统的,log/message,上报,外挂对抗系统,主机入侵检测,账号安全系统,计算结果在安全系统中应用,业务系统,(,登陆、礼物、好友、搜索等,),登陆、支付等协议数据上报,计算分析结果,:,(IP,画像库、设备,画像库等,),基线历史数据:,bps/pps/qps/rt,等基线数据,大数据计算在平台框架,大数据安全对抗应用背景,大数据分析在DDOS对抗中的应用,大数据分析在机器人外挂识别中的应用,1,2,3,4,5,基于src_ip频率模式,基于报文特征频率模式,src_ip的散列度&归属地,报文的重复度,攻击报文聚类挖掘,机器学习报文特征,IP画像库大数据,流量模型机器学习,防御,DDOS,技术演进,畸形报文特征,非法填充报文特征,黑名单攻击报文特征,白名单指纹特征,Syn,cookie,等人机挑战,(,1,)机器学习报文提取特征;,(,2,)大数据分析疑似的攻击源,ip,;,(,3,)基于大数据,IP,进行“柔性可活”,人机挑战和对抗;,(,4,)基于历史大数据学习单,ip,响应延时,数学分布,;,在DDOS防御中的应用场景,(,1,)报文特征根据经验输入程序;,(,2,)根据当前请求频率分析,攻击源;,(,3,)根据当前的请求,src_ip,对抗;,(,4,)根据经验预先“拍”阈值;,场景一:大数据分析在报文特征机器学习和攻击源,IP,的识别,云防,DDOS,检测模块,云防,DDOS,清,洗模块,服务器A,服务器B,服务器C,C的攻击流量,清洗后C的流量,A的正常流量,B的正常流量,镜像或分光,A,B,C所有流,量,核心交换机,LVS+Nginx,集群,(WAF),C的流量被牵,引到清洗设备,正常用户,攻击者,大数据中心,WAF处理Http协议CC攻击,镜像流量,攻击检测引擎,流量回注,交换机,转发流量到业,务服务器,发现攻击,BGP,宣告路由,流量清洗引擎,攻击?,没有攻击,大数据分析,平台,云防DDOS在清洗比例低于阈值自动抓包,解析报文并提取关键信息,挖掘至长度为,4,字节的特征,发现特征:,74,55,42,02,挖掘完毕,最长长度为,4,字节,共,15,个特征,,目前以文件方式记录,云防DDOS实现基于DPDK自动抓包分析报文特征,正文,第,46,字节,第,45,字节,Vx,,其中,x,指代数据包正文部分第,x,个字节,恶意特征概率,发现特征,由于算法决定,特征串需要经过序号排,列最终符合阅读习惯,后续将根据调用,特征的接口所需规范进行翻译,实际所指代的含义,V40,V41,V42,V43,V44,V45,V46,V47,V48,V49,V50,64,*,94,*,*,32,67,*,26,16,e7,64,54,94,*,*,32,67,*,26,16,*,发现可疑,IP,写文件记录,可疑,IP,恶意显著性,抽查结果,与恶意,IP,库中已收录,IP,相互印证,云防DDOS在攻击报文中识别恶意IP,分析到第,10,个,pcap,文件,将前述的,Apriori,算法改造,可用于大规模,发现,DDOS,攻击中的恶意,IP,1.,2.,3.,4.,总包量,40,万,源地址数量,39,万,,散列度极高,99%,的,IP,只发送一个数据包,源地址表面接近,实则地理分,布分散,海外地址比例过高,,分别来源泰国,日本,韩国,,澳大利亚,广州,福州等地,(目标服务器位于辽宁沈阳),不同位置的服务器访问相同的,目标服务器,,TTL,高度集中在,同一水平(,238,),时间戳,源地址,目标地址,包长,TTL,源端口,目的端口,伪造源地址攻击的样本,度量,说明,定义,正常访问,真实地址,攻击,虚假地址攻击,时间窗口内源地,址散列程度,该度量随正常访问,真实地址攻击,虚假地址攻击显著,提升,单位时间窗口内,,互异的IP数量除以,总的包数量,小于,10%,稍高,约,30%40%,约,90%,相继同源数据包,比例,虚假地址攻击中该,比例较正常访问或,真实地址攻击大幅,降低,时间轴上相邻两个,访问数据包具有同,源的数量除以总体,相邻数目,高于,10%,约,10%,上下,小于,5%,时间窗口内单包,传输比例,虚假IP地址几乎不,会重复使用,绝大,部分虚假地址只会,发送一个数据包,统计各源IP发包数,量,计算发送单包,IP数量的占比,90%,以上大,于,1,90%,以上大于,1,90%,以上是单包,时间窗口内TTL,均值及标准差,虚假IP数据包通常,设置TTL为255,,且虚假IP占绝大多,数下,TTL均值趋,于更大,计算单位时间窗口,内数据包TTL的均,值和方差,均值:约,50,多至,60,多,标准差:小,于,30,均值:约,50,多,至,110,多,标准差:大于,30,均值:大于,200,标准差:小于,30,IP与指定相邻IP,间组内距离*,真实地址倾向频繁,出现,且通常来自,相近地理位置,虚,假地址则倾向随机,,分布不存在规律,某一源地址,计算,它与其后N个地址,的平均距离,普遍小于,50,100,上下,通,常小于,200,普遍超过,300,正常访问或真实地址攻击中:,1.,2.,同一,IP,总是频繁重复出现,相邻距离较多出现,0,的情况,由于负载均衡和网络加速技术,目标服务器总是服务于相对固定区域的用户,而虚假地址攻击中:,1.,2.,几乎不存在相邻距离为,0,的情况(虚假,IP,不会重复出现),访问目标机器的,IP,呈现随机化,K相邻IP组内距离概念,正常样本,1.,2.,3.,4.,5.,源地址散列程度,:,0.028,相继同源,IP,比例:,46%,发包规模:,90%,以上,29,个包以上,TTL,均值,62,,标准差,13,10,个相邻,IP,间距:,79,真实地址攻击样本,1.,2.,3.,4.,5.,源地址散列程度,:,0.101,相继同源,IP,比例:,8.5%,发包规模:,90%,以上,22,个包以上,TTL,均值,51,,标准差,14,10,个相邻,IP,间距:,105,虚假地址攻击样本,1.,2.,3.,4.,5.,源地址散列程度,:,0.931,相继同源,IP,比例:,3.0%,发包规模:,99%,以上单包,TTL,均值,230,,标准差,34,10,个相邻,IP,间距:,455,IP,相邻间,IP,距离,IP,相邻间,IP,距离,K相邻IP组内距离(K=10),真实地址样本,虚假地址样本,100%,国内地址,超过,50%,有在恶意,IP,库收录,同外挂和网络代理维度匹配,(确认为真实地址),约,6%IP,与恶意,IP,库记录重合,绝大部分海外地址,大数据,IP,画像在,CC,攻击对抗中的应用场景,检测算法:,(1)单src_ip的连接数超过阈值(举例:200 QPS);,(2)后端业务服务器(tomcat)响应延时超时比例超过阈值(举例:50%);,(3)后端业务服务器(tomcat)响应延时延迟比例阈值(举例:8s以上30%);,防御算法:,(1)人机挑战(anticookie-js);,(2)根据当前连接数,封src_ip top n 的 请求;,应用大数据:,(1)计算所有后端服务器(tomcat)响应nginx集群的响应的延时数学分布;,(2)计算分析历史单src_ip的连接数数学分布数据;,(3)根据当前的连接数top n 同时结合IP画像库大数据,精确度更高;,云防,DDOS,外挂对抗,WAF,防刷系统,IP,画像数据分析,移动安全加,固,反广告过滤,账号安全系,统,秩序违规,反向探测扫描,IP,画像库,(,1,)探测开放代理端口,(,2,)探测,XX,云主机,(,3,)探测域名解析,IP,(,4,)探测,IP,归属地,(,5,)探测运行路由服务,IP,画,像,服,务,接,口,层,提供,IP,画像调用接口,,返回,IP,恶意定级、命中,维度,IP,画像库大数据分析框架图,大数据安全对抗应用背景,大数据分析在DDOS对抗中的应用,大数据分析在机器人外挂识别中的应用,1,2,3,4,5,正常用户,&,行为,恶意用户,&,行为,攻击行为、入侵行为、渗透扫描行为、,外挂机器人用户等恶意特征明显;,正常用户,&,行为特征明显;,大数据,分析,Storm/,Hadoop,大数据分析在用户行为识别的应用,设备,画像,设备硬,件信息,设备环,境信息,IP,画像,网络信,息,黑产,IP,历史,地域信,息,用户,画像,行为模,式,恶意历,史信息,登陆信,息,特征,通讯协,议特征,进程埋,点特征,技术行,为特征,技术,Kafka,Storm,Hadoop,数据挖掘,分析,机器人外挂对抗系统,机器人用户大数据识别框架,设备运,行信息,对抗策略下发,登陆服务,对抗策略下发,XXXX,服务,对抗策略下发,频道服务,已知某条件概率,如何得到两个事件交换后的概率,也就是在已知,P(A|B),的,情况下如何求得,P(B|A),。换成反外挂领域语言理解:已知外挂(非外挂)中,uid,的各特征组合的百分比,根据朴素贝叶斯定理,可求得当出现指定特征,组合时,该特征视为外挂(非外挂)的概率,分析1,Confidence=0.5,为例,对这些序列计算密度函数,正态分布,指数分布,分析2,左图是将不同的,Confidence,得到,的序列的分布函数集中展现。横,轴是单个,IP,多开,UID,数量,纵轴是,多开数量占总体数量的百分比。,如图中的黑圈,表示,Confidence,为,0,的情况下,一个,IP,登录一个,UID,的情况占比超过,90%,。对应的,红圈位置,表明,Confidence,为,0.2,时,一个,IP,登录一个,UID,的情况占,比降低,只有,80%,多。如果,Confidence0.5,时,单个,IP,同时登,录,20,个,uid,只占,60%,。,推论:假设单个,IP,多开,UID,数目是外挂非常重要的特征,而,Confidence=0.4,属外挂的可能性非常高,则只有,约,10%,的样本会被,100,这个阈值触发找到(如前所述,结论无法推断全体,只能限定该批样本),
展开阅读全文