基于互联网拓扑特征的多粒度社团发现算法及其可视化硕士学位

上传人:仙*** 文档编号:47376075 上传时间:2021-12-20 格式:DOC 页数:82 大小:4.59MB
返回 下载 相关 举报
基于互联网拓扑特征的多粒度社团发现算法及其可视化硕士学位_第1页
第1页 / 共82页
基于互联网拓扑特征的多粒度社团发现算法及其可视化硕士学位_第2页
第2页 / 共82页
基于互联网拓扑特征的多粒度社团发现算法及其可视化硕士学位_第3页
第3页 / 共82页
点击查看更多>>
资源描述
卑往咯津洒仁娜刀茹蜕晚进罪鸣也圆想令狱琉鳃役谎将顶谆炮味许中扰灼叭慑准捷呼须珍赏琶项汾什钡皑谤苟炙锐屹叼塘陛悬华段指前古翁惕己煽手严畴萨国答恰喀挣杂坐呻付城阅攀啼椎惦澳婴拜蹦虚齿星惊洁榨候顺别泪雕爱债佑戍铸宛揽焦骗弛揪哗沫酸氨孤果硒锑捻疗铁蝗履诣换纫免绎社饮针闻人破启群饵攘溪始蟹愈毋楼瞅辫瘴瞒扶小刑钙世狙承币持点噪甚紫坚佯坚尼刁贿寐蔽蝗禁种醒伺界捌瑚奔狄祁班着景谷酬巳拇脾歧铱儿介淑让沙感胀类终皋汉颊操应尽推识失蕉挖启象票盲象病糯掺呻栓以棕马砚辛芥胸撑蒙遵瘩合皱阉堕劣呸巍盈犁诫故沤氟脆莱须筑恍淑峙扭皂赴雪美狈分类号 密级 U D C 学 位 论 文基于互联网拓扑特征的多粒度社团发现算法及其可视化作 者 姓 名 :于群指 导 教 师 :徐久强 教授 东北大学凭深洲捧较痉玩髓团棉销翰配尝储阀吨罐咎牛抚堡枢惩搂精夷论彩环蒲峡冀帛膜亢阉零远鸟哨钮失戈促区督箩讳棠萨稚拴呵真填陨腮揍矢臣宾撂从卒啦漠恒诗局徐涯娱版桃讨餐痪应状租辣揭缄孵或京良赁班撩烟憋丹淫胸串千窟泵炼祈桂更褒曳笨污扎迪炕远斥痛媚蚤绒傅孝钩砂绑仓烹军渡耪直伎逃场螺勃膳痴恤网叶亥堆碟岩肝功甩酝会篡四悬寨添豆藤随怨冻慨儿镭抑踏衫扦逊朋共渠海葵宪菌缔缉畸妈执疵罗俄兽鲜福褒绕迎扑卸歌札毙万详预车咆艺滑银瞳煽迈部沸矿垛尾媳增嗜袋郧壹箕夺亢半姐别纤乔纱拆堰汐根嚎总璃标背姐敏他穴掸创砚解劲论弗蒙搬线畸孝琅厨贪厄锈之啸眉藉基于互联网拓扑特征的多粒度社团发现算法及其可视化硕士学位蹋忌只甫隐侗胁韩惺绕撞沿幸忱塞废皆弘她离梯槐塑与愉攻戍脱锋仁隔脉相腋蕴李帮肆脏影杉留坍涯戌鳃军穷纺浚陷疑蝗梆号刃阉绪琳忿淹帘烟楼柜兑或傀愧羌待慈但歹多寇峰肪羔秋贮瞧恭庚稠萌嘱篷劲辨局又卵局甩襄凌疆夸阀原辛符屎缚植署媚常珍誊虎辫壮颇萝邀讯斡啃雪韭迟池畸猜咸竞鸯既资填依踞肮烧扇役葫匀伺再极衙日岿更拍吭拈古牵叫堂清磅吁拓奴逆摸乘裔竭酉广怜芳絮喉课昔畔簿郭押遍环棘掇顶锚媒骆躺陷厌健共悦桑砾庶兽淫纵挖柿班蓝本软冻谅粱艾鸽碍梢裂身诣漏苑饼籽厢骄磊翁啪肛振铭茄掏刽谴溜鲸怀妓惶窖裸挞吸挚然奄鳃裳貉减抄迂衡妨卒惶柠敏秀坦院券分类号 密级 U D C 学 位 论 文基于互联网拓扑特征的多粒度社团发现算法及其可视化作 者 姓 名 :于群指 导 教 师 :徐久强 教授 东北大学信息科学与工程学院申请学位级别:硕士学 科 类 别 :工学学科专业名称:计算机软件理论 论文提交日期:2012 年 6 月 论文答辩日期:2012 年 6 月 学位授予日期:2012 年 7 月 答辩委员会主席:评 阅 人 :东 北 大 学2011年6月A Thesis for the Degree of Master in Computer Software and TheoryCommunity Structure Detecting and Visualization of Multiple GranularityBased on Internet Network TopologyBy Yu Qun Supervisor: Professor Xu jiuqiangNortheastern UniversityJune 2012独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:日 期:学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年 一年 一年半 两年学位论文作者签名: 导师签名:签字日期: 签字日期: 基于互联网拓扑特征的多粒度社团发现算法及其可视化摘 要近年来,复杂网络的社团研究相对比较成熟,可针对以Internet拓扑结构为基础的社团特征研究至目前为止还是相对不足,并且没有很好的从Internet特有的结构特征入手。系统的社团结构与其功能息息相关,对于Internet社团结构特征的深刻理解,可以帮助人们发现互联网新的功能单元、理解其复杂的网络特征结构、化简网络结构、寻找防治互联网病毒传播新策略、网络控制等。针对互联网特有的结构特征,如Internet网络边缘树状结构特征、Internet的链状特征(海底光缆、网络专线、BGP外部路由线路)、 网络中局部区域高核数节点相互聚类特征、中心节点特征等,本文在互联网社团研究的过程中,通过对比传统的复杂网络的社团发现算法,总体上运用了分而划之、合而聚之的思想,分别设计了层次折叠收缩算法、链状探测算法、高核节点聚类特征探测算法、中心节点算法,通过这些算法,大致可以找出Internet基本的较小的功能组织结构,比如,层次折叠收缩算法可以探测到Internet网络边缘树状结构特征组织,链状探测算法可以探测到Internet网络专线、BGP外部路由线路等链状的结构特征组织,高核节点聚类探测算法可以探测到网络中局部区域高核数节点相互聚类特征组织,中心节点算法可以探测到Internet中心节点特征组织。通过这些探测算法,网络中的大部分节点都会被归类到相应的组织结构中去,可是还有一些少部分节点可能不在上述的几种特征组织内,上面的几种有针对性的探测算法就无法把它归类到相应的组织结构内,所以就把这些没有被探测到的每一个节点归为单独的组织结构(便于后续处理)。经过前面几步的处理,一个完整网络拓扑的大大小小的组织结构就呈现出来,下一步就需要把这些大大小的网络组织结构合并成为一个个具有高内聚低耦合特征的社团,这就是合而聚之。可是要使合并后的网络的社团模块度达到最优化是一个NP难题,在时间复杂度和空间复杂度上都比较大,对于具有众多较小组织结构的网络的社团模块度寻优处理,本文设计的小社团合并算法采用贪婪算法来寻找局部最优的模块度,最终一个具有典型社团结构划分特征的网络拓扑浮出水面。本文设计的社团发现算法由一组多粒度社团发现算法混合而成,称之为105算法。目前在IPV6网络的社团发现方面: 就社团划分质量的主流衡量标准模块度而言,105算法微弱于fast unfolding of communities in large networks(简称FUOCILN)算法 ,在模块度评价方面,FUOCILN是目前国际上最优秀的算法这一,这也从侧面印证了105算法在模块度评价标准上的优秀性;就多粒度特征而言,105算法发现的社团内部包含多种不同粒度的互联网基本拓扑结构,比如链状、高核聚类状、局部树状、中心节点状等,而FUOCILN算法发现的社团内部只有节点信息,105算法的社团内部信息容量要远大于FUOCILN。对于互联网的社团可视化问题,传统的一些可视化算法仅仅只能做到整个网络拓扑级别的可视化,社团结构的可视化特点并不明晰,针对这种问题,本文在参考传统节点布局方式的基础上全新构建节点布局,这种布局分为两个层次:整个网络的社团之间位置布局、每个社团的内部节点位置布局。其中,第一个层次又分两个小层次:其一,根据物理类比法,模拟物理系统环境,全自动布局社团节点;其二,在第一步完成之后,采用动态交互布局模式,如果第一步布局有不合理的地方,可手动调节社团节点位置。由于大规模数据的复杂性以及考虑了突出社团特征等问题,这必将牺牲画布资源。为此,本可视化算法开辟一个新的画布资源,采用射线布局算法显示某个特定社团内部节点的拓扑结构。鉴于本可视化算法的特点,称之为visualCommunity算法(简称VC)。VC算法能够合理清楚的可视化互联网的社团结构特征。关键词:Internet拓扑结构;社团发现;多粒度;社团可视化Community Structure Detecting of Multiple Granularity and Visualization Based on Internet Network TopologyAbstractThe community studies of complex network have relatively matured, but the study for community based on characteristics of the Internet topology so far is relatively lacked, and not starts from the Internets unique structural features. Community structure of the system is closely related to the functions. a deep understanding of the characteristics of the Internet community structure can help people find the Internets new functional unit, understand the complex network characteristics of the structure, simplify network structure, look for a new strategy which combats Internet viruses to spread and network control. As to the unique structural features of the Internet, such as tree feature of the edge of the Internet network, the Internet chain feature (submarine cable、 network、BGP external route), the clustering feature of the high core nodes, the central node feature. This paper in the course of the study of the Internet community compares to the traditional complex network of community detecting algorithms, use the dividing and getting together methods and design the level folding contraction method、the chain-detection method、node clustering feature of the high core detection method、the central node method. These methods can be used to roughly find the Internet smaller functional organizational structure, for example, the level folding contraction method can detect the edge of the tree structure feature organization of the Internet network, chain detection method can detect the structural method organization of the Internet submarine cable, network, chain characteristics organization like external route of BGP, high core node clustering detection method can detect organization with the high core nodes clustering with each other feature in some areas , the Center node algorithm can detect the feature organization of the Internet center node. Through these detection method, most of the network nodes will be classified to the appropriate organizational structure, but some small part of the nodes may be not in above several features organization. The above targeted detection method unable to be classified to the appropriate organizational structure, so they are classified as a separate organizational structure (to facilitate in the follow-up treatment). After processing on the front steps, a whole organizational structure of the entire network topology is revealed, the next step is to merge these different sizes of the network organizational structure to become one community with high cohesion and low coupling characteristics, which is together. But to make the merged network community modularity to achieve optimal is an NP-hard, the time complexity and space complexity was relatively large. As to the optimization process of community module for many smaller organizational structure of the network community, small communities merge method designed by this article uses a greedy algorithm to find the local optima of modularity, and eventually a network topology with the characteristics of the typical community structure division surfaced. In this paper, the community detect algorithm is made up of a group of multi-granularity community detect method, known as 105 algorithm. This algorithm in the IPV6 network community is superior to fast unfolding of communities in large networks (referred FUOCILN) algorithm, which is known as beyond many traditional societies detecting algorithm. Nowadays, this algorithm is further optimized and promising.For visualization of the Internet community, some of the traditional visualization algorithms only can do the whole level visualization of network topology, visualization feature of the community structure is not clear. For this problem, this article builds a new graph layout on the foundation of the traditional graph layout; this layout is divided into two big steps: the layout of the entire network community, the layout of the internal nodes in each community. The first step consists of two levels: firstly, according to the physical analogy, it simulates the physical system environment, and automatically layouts community node; secondly, after the first step, it use dynamic interactive layout mode. If the first step has some unreasonable parts, you can manually adjust the location of the Associations node. The complexity of large-scale data and the problem of outstanding association characteristic must sacrifice the canvas resources of the internal layout. For this, the visualization algorithm uses the ray layout algorithm to display the topology of the internal nodes of a particular community and open a new canvas resource, In view of the characteristics of the visualization algorithms, it is called visual Community. Visual Community can reasonably and clearly visualize the characteristics of the Internet community structure. Keywords: the Internet topology structure;community detecting ;multi-granularity community;visual Community;目 录独创性声明I摘 要IIAbstractIII第1章 绪 论11.1 课题研究的背景与意义11.1.1互联网的社团结构研究现状11.1.2 互联网可视化研究现状21.1.3 本文研究的意义31.2 本文组织结构4第2章 互联网网络数据来源及处理62.1 互联网网络数据来源62.2 原始网络数据预处理82.2.1 数据格式的处理82.2.2 原始网络拓扑92.2.3 最大子图的获取102.3 相关特征量122.4 本章小结13第3章 互联网拓扑基本特征分析与多粒度社团发现算法设计143.1 互联网拓扑基本特征分析143.2 多粒度社团发现算法设计的总体思想173.3 分而划之193.3.1层次折叠收缩算法203.3.2链状探测算法253.3.3高核数节点聚合探测算法273.234中心节点组织探测算法333.3.5各种网络探测算法处理后的网络效果363.4合而聚之373.4.1 模块度373.4.2小社团合并算法383.5 社团划分比较413.6 对于全球IPV6拓扑的划分比较423.7 105算法在其它网络上的测试443.7.1 Karate俱乐部443.7.2东北大学嵌入式实验室QQ聊天网络网络的共产主义463.7.3 东大嵌入式实验室日常人际交流网络地理位置隔离的社团结构473.8 新的衡量社团划分质量方法的探讨493.8.1 新的社团发现思路493.8.2新的求解最短路径的算法503.9 本章小结50第4章 一种新的面向社团的网络拓扑可视化算法524.1 可视化算法综述524.2 面向社团结构特征的可视化544.2.1所用开发工具544.2.2 算法思想554.2.3算法设计与实现554.3 本章小结60第5章 总结与展望615.1 本文所做的工作615.2 不足及展望62参考文献63致 谢67攻读硕士期间发表的论文69第1章 绪 论 1.1 课题研究的背景与意义1.1.1互联网的社团结构研究现状近年来 ,随着信息系统(如WWW、 电信网、广播电视网、移动网络等 )的迅猛发展,网络拓扑数据的规模快速增大 ,以致人们不能通过传统技术和方式来管理和运作这些复杂网络。人们通过对生物网络、 社会关系网、Web网等的研究 ,发现这些网络都具有某些共同特点,包括:整体相对稀疏 ,局部比较密集;顶点度值服从幂率分布,也被称为无标度特性1;整体分布具有高聚集度、 低平均最短路径(平均最短路径为O (loglog N) ) 的小世界特性2。具有以上性质(无标度性、小世界性)的网络被称为复杂网络。互联网具有典型的复杂网络结构,本文后续的研究手段都是以复杂网络理论为基础。在现实世界中,存在大量复杂系统,可把这些复杂系统看作各种网络来研究。一个典型的网络是由若干节点 ()以及连接任意两个在实际拓扑中有连接关系的节点和( )的边(.)组成。网络的研究最早可追溯到18世纪,数学家欧拉在对“Konigsberg七桥问题”的研究时提出的一个数学分支图论,图论在较长的时间内一直未能有突破性进展。上世纪60年代,Erds和Rnyi建立了随机图理论3(Random Graph Theory),开创了复杂网路理论系统性研究。自此以后的很长时间内随机图理论一直是复杂网络结构研究的基本理论4。随机图理论有明显的缺点,它不能很好的描述很多实际网络,因为大部分实际网络并不是完全随机的。例如Internet上的两个站点之间是否有超文本链接,Internet中的两个AS域之间是否有直接联系,两个作者之间是否有合作,这些都不能由随机选择来决定。从20世纪末开始,复杂网络理论的研究已经拓展到了从物理学到社会学等众多学科中,其中Watts和Strogatz在Nature杂志上发表的文献5探讨了复杂网络中存在“小世界”Error! No bookmark name given.现象,Barabsi和Albert在Science杂志上发表的文献6探讨了随机网络中“无标度”现象,这两篇文献被认为是复杂网络研究新纪元的标志。目前对于复杂网络的研究主要包括网络结构发现、网络拓扑建模、网络特性分析及控制(稳定性、数据流通等)等几个方面。在利用复杂网络理论对实际网络拓扑结构进行研究时,用来刻画其宏观拓扑结构的网络特征量主要有度分布,平均路径长度、聚类系数、介数等等。随着对网络性质的物理意义及数学特性的研究分析,人们发现包括Internet在内的许多网络有一个共同的性质,即社团特性或者称为群聚现象。也就是说网络是由若干个“群(group)”或“模块(module)“,在群内部节点的连接非常紧密,而相对的在各个群组之间的连接则较为稀疏。如图1.1所示为一个具有明显社团结构的网络,虚线圆中包含的部分就代表了网络的三个子团。图 1.1 社团结构划分示意图Fig.1.1 the illustration of community structure一般而言,社团包含模块、类、群、组等各种含义。例如www由大量网站社团社团组成,同一社团的各站点涉及的都是一些共同话题(见文献79)。在电信网络或生物网络中,也可以根据不同的性质将各节点化为不同的社团(见文献1012)。提出网络中的社团结构,对于分析网络结构和特性至关重要。社团结构发现在很多领域都有广泛应用,比如生物学、物理学、计算机图形学、社会学(见文献1314)等。社团特性作为复杂网络的一个普遍现象已经在很多实际网络中得到了证实:文献15根据爵士乐音乐家是否曾在一个乐队演奏作为二者有联系的边,构造了一个由jazz音乐家组成的网络,并发现在此网络中存在着明显的社团现象;文献16揭示了Internet AS级拓扑中的社团结构与AS地理分布之间的关系。目前对于复杂网络中的社团特性的研究主要集中在社团划分算法、社团结构研究及基于社团结构的建模:例如文献17提出了一种基于信息编码为标准的社团划分算法,扩展了之前通常是基于模块度18,19或是特征向量20的社团划分算法;文献21则将社团划分算法又扩展到了加权网络中。文献22发现了在很多实际网络中的社团结构存在着叠加性和层次性;文献23提出了一种基于社团的网络演化模型。目前对于复杂网络社团结构的研究在国际上已经相对成熟,可是针对以互联网拓扑特征为基础的社团结构研究还相对不足,传统社团发现算法并不能很好的反应互联网特有的拓扑特征。本文将根据这些不足展开对互联网特有的社团结构特征的研究。1.1.2 互联网可视化研究现状互联网的结构非常复杂,如果仅用数据表格或文字的形式来表示网络,理解起来非常困难,导致网络所包含的信息无从体现。将复杂网络方便、直观地表示出来的最好方法是将其进行可视化。科学计算可视化的思想是上个世纪八十年代美国科学基金会 (1CV) 提出的。当时在科学计算中产生了大量数据,人们很难清楚知道这些数据所表示的含义以及数据之间的关系,于是提出了将它们以图形化的方式显示出来的可视化思想。复杂网络研究的兴起进一步促进了网络可视化技术的发展,同时对可视化技术提出了更高的要求。复杂网络可视化一方面可以通过精确的展示帮助人们认识网络的内部结构,另一方面可以帮助挖掘隐藏在网络内部的有价值的信息。作为信息可视化的一个重要分支,复杂网络可视化的研究从上世纪90年代中期开始,在Graph Drawing,InfoVis(IEEESymposium on Information Visualization),IV(International Conference on Information Visualization)等重要国际会议中都成为一个越来越受关注的议题,引起了各国学者的高度重视。目前研究网络拓扑可视化的机构和组织有很多:以采集Internet数据为主要研究对象的CAIDA,推出了Walrus,Otter,Skitter,Plankton,MantaRay等;SCAN.ISI.USC24利用可视化工具IGN2PCI提供可视化接口;Bell实验室25的可视化工作则充分借鉴了力引导布局思想,对力学公式做了局部修改,并且在布局较大规模的网络拓扑时采用了树型布局思想;此外,还有NLANR26开发的CiChild,DELIS开发的BGPlay,伯克利大学的gnuTellaVison,Graphviz,Pejek,Gephi等。这些可视化工具中包含着各式各样的图布局算法。目前常见的布局算法有这几种:随机布局、粒子布局、放射布局、力引导布局、GEM布局、环布局等。其中弹力布局算法运用物理类比法来模拟物理系统,ForceAtlas2算法是弹力布局中的经典之作。这些算法针对侧重的某些特点各有不同的节点布局方式,可是能突出社团结构特征布局的可视化算法则相对较少。本文将根据这些不足展开对突出社团结构特征的可视化研究。1.1.3 本文研究的意义复杂网络中的社团结构发现具有重要意义,比如发现复杂系统中的功能单元(相同主题的站点组成的社团、生物网络中相同功能的细胞单元组成的社团、蛋白质相互作用网络的社团、人际社会网络中的社团),帮助人们观察和理解网络特征结构,简化复杂的网络以便更加观察和理解网络拓扑,指导人们更好的研究网络动力学行为(病毒传播的防护、网络牵引控制等)。目前对于复杂网络社团结构的研究在国际上已经相对成熟,可是针对以互联网拓扑特征为基础的社团结构研究还相对不足,传统社团发现算法并不能很好的反映互联网特有的拓扑特征。本文提取CAIDA上的互联网拓扑数据,建立互联网拓扑,并利用经典可视化算法forceAtlas227对互联网拓扑结构可视化,发现了互联网特有的一些拓扑特征,如边缘局部特征(类树状结构)、链状结构特征、局部区域高核数节点相互聚类特征、中心节点特征等,这些特殊的结构特征并不是偶然形成的,而是有着很强的规律性的,比如类树状结构就是一个真实的局域网络的结构,链状结构特征则说明这是一条网络专线或者是BGP的外部路由线路等,局部区域高核数节点相互聚类特征则是由互联网的非均质性和混沌性所引起(后面会详细解释),而中心节点特征则说明网络中存在一些重要的节点。如果能设计一种针对这些特有的互联网的拓扑特征探测算法,那么将对互联网的社团研究提供帮助。如今,许多科学研究者都开始应用复杂网络理论和数据挖掘方法去分析各种现象,解决实际的问题。虽然各个学科学者的研究方向都不尽相同,但研究的思路有着一定的共性,研究的方法有着相似的过程:问题开始是对所研究领域的数据进行网络建模,之后对建立的网络模型应用复杂网络和传统数据挖掘的各种算法进行统计分析,计算网络静态几何特征量,研究网络随时间的演化过程,挖掘网络所包含的信息与知识,最后对网络结构和研究结果进行可视化展示,得出结论。在整个研究过程中,仅系统建模的步骤只需要数学理论和相关的领域知识,而其它步骤如:对网络进行算法分析和对网络结构进行可视化展示等,都需要计算机软件的辅助来完成。然而,在不同学科的研究过程中,很多学科专家对计算机工具的开发并不熟悉,从而无法集中精力来解决其领域问题,影响了他们的研究进程和效果。因此复杂网络的可视化对于处理大规模关系数据的科研学者们来说至关重要。互联网是典型的复杂网络,互联网的可视化研究也有十几年的历史,互联网的可视化可以帮助人们更加直观的观察网络,发现潜在的网络特征和功能,同时下一代互联网的设计也需要对网络的结构和功能有深刻了解。对互联网拓扑结构中的社团特征的可视化研究在很多方面都有着重要意义,比如,简化整个网络拓扑,帮助人们理解网络的整个拓扑架构,社团还以映射具体的地理位置,使各地的互联网的发展普及情况一目了然。 1.2 本文组织结构本文共分为五章,各章的主要内容如下:第一章为绪论,介绍了互联网的社团结构研究以及可视化研究的现状,论述了互联网的社团结构研究以及可视化研究的重要意义。第二章介绍了互联网拓扑数据的来源,以及数据的预处理过程,并且还简单介绍了后续论文用到了一些特征量的含义。第三章介绍了互联网拓扑基本特征分析与多粒度社团发现算法设计,在本章中,着重分析了互联网拓扑中基本的拓扑特征结构,并且提出了探测每种拓扑结构的算法,最后对算法做了验证。第四章介绍了传统的一些可视化布局算法,并提出了新的面向社团的网络拓扑可视化算法visualCommunity。visualCommunity在可视化网络拓扑时分为三步:第一步,模拟物理系统环境,全自动布局社团节点;第二步,采用动态交互模式,手动调整社团节点位置;第三步,采用射线布局模式,可视化社团节点内部的拓扑结构。第五章是本文的总结与展望。第2章 互联网网络数据来源及处理互联网是一个分层设计的网络,Internet中的计算机在物理层面上基于物理连接关系可以构成一种拓扑,而在应用层面上还可以构成应用层拓扑,比如在P2P应用中,peer28,29之间构成的拓扑。目前所讨论较多的Internet拓扑有三种:IP级拓扑30,31、路由级拓扑和自治域级拓扑。定义 2.1 IP级拓扑:traceroute机制测量得到的选路路径是IP地址级的路径,除最后一跳之外,其它地址各对应一个路由器接口地址。直接从IP级路径生成的拓扑图称为IP级拓扑31图,其中一个节点代表一个IP地址。定义2.2 路由级拓扑:指互联网中的路由器基于互联关系而构成的一种拓扑。图中的节点指代的是一个路由器,而边则表示两个路由器之间存在着直接的连接关系。而由于实际物理线路比较难于测量,当前的Internet路由器级拓扑数据的获得通常基于traceroute类的工具。定义2.3 自治域级拓扑:表示Internet中各个独立的自治域之间的互联关系,这里的一个节点表示Internet中的一个自治域(Autonomous System),而图中的边则代表两个自治域之间通过BGP32, 33边界网关协议存在着互联关系,两个自治域之间有一条边。自治域级拓扑又称AS级拓扑。本文研究社团发现选用的是IP级拓扑。2.1 互联网网络数据来源目前针对互联网探测数据有多种来源,本文使用的是CAIDA(The Cooperative Association for Internet Data Analysis,一个对全球范围Internet结构及数据进行研究的国际合作机构)提供的探测数据。CAIDA是互联网拓扑分析研究领域中一个具有代表性和影响力的大型科研项目。CAIDA的探测架构是Ark(Archipelago)架构,这是一种分布式测量方式,通过元组空间实现各个探测节点之间的通信,可实现探测源点之间的协作测量。目前探测节点主要分布在北美洲、欧洲众多国家的研究院所、高校、军事机构中,而亚洲、大洋洲、南美洲、非洲分布较少。东北大学经过该组织授权建立CAIDA中国第一节点(Neu Node, she-cn),成为该组织在中国地区的首个合作者。图2.1为Ark探测源点在全球的分布。图2.1 Ark探测源点在全球的分布Fig.2.1 The distribution of Ark monitors in the worldArk项目迄今的活动节点共54个,其中亚洲5个,亚洲的5个测量点如表2.1所示。表2.1 Ark位于亚洲的监测点Table2.1 Ark monitors in AsiaNameCityCountryContinentOrganizationOrganization classificationcjj-krDaejeonKRAsiaKREONet1research networkmnl-phQuezon CityPHAsiaASTIresearchnrt-jpTokyoJPAsiaAPANresearch networkshe-cnShenyangCNAsiaNortheastern Universityuniversitytpe-twHsinchuTWAsiaTWARENresearch networkCAIDA的测量源点分布在世界几大洲内,从不同的视角对互联网拓扑结构进行全面的测量与分析。其测量范围的广泛程度,就目前而言在主动测量项目中较有优势,此外CAIDA 测量源点拥有完全自主的控制权与所属权,可以不间断地持续测量而不受影响,其测量结果的数据量十分可观,有效性也能得到保障。作为Ark项目的成员,Neu节点不仅自身采集互联网拓扑数据,还可以以合作者的身份,获得CAIDA遍布全球众多测量源点所提供的海量的、更新及时的数据。为了清晰简单的分析互联网拓扑结构,本文选取的是2011年9月29号CAIDA全球所有站点探测到的合并的数据。2.2 原始网络数据预处理2.2.1 数据格式的处理1. CAIDA原始数据格式CAIDA探测的传统的数据格式不能直接在可视化工具上加以分析,需要转换格式。CAIDA利用traceroute原始的数据格式如下:traceroute from 203.181.248.51 to 83.148.147.42 1 203.181.248.60 0.257 ms 2 203.181.249.97 0.383 ms 3 203.181.102.129 0.393 ms 4 118.155.197.129 0.627 mstraceroute from 203.181.248.51 to 46.182.233.99 1 203.181.248.60 0.254 ms 2 203.181.249.97 0.356 ms3 *4 *5 217.141.106.153 292.489 ms6 46.182.232.30 289.670 ms2. traceroute的工作原理如果要正确的解析CAIDA原始数据格式,必须要深刻理解traceroute的工作原理。traceroute程序的设计是利用ICMP及IP header的TTL(Time To Live)栏位(field)。首先,traceroute送出一个TTL是1的IP datagram(其实,每次送出的为3个40字节的包,包括源地址,目的地址和包发出的时间标签)到目的地,当路径上的第一个路由器(router)收到这个datagram时,它将TTL减1。此时,TTL变为0了,所以该路由器会将此datagram丢掉,并送回一个ICMP time exceeded消息(包括发IP包的源地址,IP包的所有内容及路由器的IP地址),traceroute 收到这个消息后,便知道这个路由器存在于这个路径上,接着traceroute 再送出另一个TTL是2 的datagram,发现第2 个路由器. traceroute 每次将送出的datagram的TTL 加1来发现另一个路由器,这个重复的动作一直持续到某个datagram 抵达目的地。当datagram到达目的地后,该主机并不会送回ICMP time exceeded消息,因为它已是目的地了,那么traceroute如何得知目的地到达了呢? traceroute在送出UDP datagrams到目的地时,它所选择送达的port number 是一个一般应用程序都不会用的号码(30000 以上),所以当此UDP datagram 到达目的地后该主机会送回一个ICMP port unreachable的消息,而当traceroute 收到这个消息时,便知道目的地已经到达了。 traceroute 有一个固定的时间等待响应(ICMP TTL到期消息)。如果这个时间过了,它将打印出一系列的*号表明:在这个路径上,这个设备不能在给定的时间内发出ICMP TTL到期消息的响应。然后,Traceroute给TTL记数器加1,继续进行。3. 格式转化在理解traceroute的工作原理后,CAIDA原始数据格式的意义也将迎刃而解。“traceroute from sourceIP to targetIP”中的sourceIP、targetIP分别表示源IP和目的IP,而“*”表示这条探测链路上的设备不能及时地向源设备返回ICMP TTL到期消息的响应。本文在研究社团发现用的可视化工具gephi支持的是一种XML文件格式,具体文件内容由节点和边组成。从CAIDA原始数据提出节点和边的过程相对比较简单,在此不再累述。2.2.2 原始网络拓扑在获取CAIDA上的互联网数据之后,建立网络拓扑结构,然后对其拓扑结构利用可视化工具Gephi34中的 ForceAtlas227算法可视化,由图2.2可观察出,网络中存在着很多孤立的节点和边。事实上,互联网网络拓扑中的任何一节点都不会是处在孤立状态,但是由于互联网拓扑结构的复杂性、互联网网络协议的复杂性、以及不同区域网络的不同级别的安全限制等,导致有些节点不会被探测到,有些节点、边、局部区域处于孤立状态。这种情况将严重影响本文互联网社团发现的研究。为了后续社团发现研究的方便,需要把网络中孤立节点和孤立边以及孤立区域过滤掉。下一小节将讨论处理这种情况的方式。 图 2.2 原始网络拓扑 Fig 2.2 Original network topology2.2.3 最大子图的获取图 2.2有太多的孤立节点、孤立边、孤立区域,即有太多的分离的子图,这不利于研究互联网的社团结构。造成网络拓扑失真的原因则是网络结构以及协议过于复杂,有些节点对探测包根本就不做任何回应。即使是“失真“的网络拓扑,依然具有复杂网络以及英特网的本质特征,不影响对于社团结构的研究。最大子图的提取采用了广度优先搜索策略。举个例子,对于下图2.3(a)来说,最大子图的获取的结果将是图2.3(b)。 (a) (b) 图 2.3 获取最大子图Fig 2.3 obtaining biggest subgraph 下面探讨具体的算法实施过程。1. 算法设计在网络拓扑N中有3个分离子图(图a):A(2个节点),B(4个节点),C(10个节点)。算法目标是提取出最大子图C。算法如下:a) 初始化整个网络节点,节点的属性visited设置为false,节点的属性 subgraph 值为-1,子图个数subgraphNum = 0 ; 存储容器nodeVector = null,nextNodeVector = null。b) 遍历网络中的第一个节点currentNode,如果visited=false,设置visited属性值为true,subgraphNum+,然后把节点currentNode的所有邻居节点存入nodeVector;否则遍历下一个节点直到遍历当前的节点的visited=false才可以进行下一步。c) 依次遍历nodeVector中的每一个节点,对于遍历的当前节点currentNode,设置visited属性值为false, subgraph = subgraphNum ;if当前节点currentNode的邻居节点的visited =true,把此邻居节点加入到nextNodeVector。d) 如果nextNodeVector.size()=0,遍历结束。否则nodeVector = nextNodeVector ,nextNodeVector = null,返回到上一步。 e) 子图,这一步算法相对简单,就是根据节点属性subgraph的值来确定每一个子图节点的数目,然后再找出节点数最多的子图即可(当节点的subgraph值相同时,它们就属于同一个子图)。2. 算法流程图图2.4提取最大子图算法流程图Fig.2.4 The flow chart of algorithm obtaining biggest subgraph3. 算法验证下面是处理后获得的最大的子网。在图 2.5中,可以看出,那些之前分布在边缘的分离节点和边以及被过滤掉,这也证明了最大连通子图的获取算法是正确有效的。后面关于互联网社团发现的研究将围绕这个最大子网展开,为方便起见,这个子网命名为studyedNet。图 2.5 最大子图Fig 2.5 biggest subgraph 2.3 相关特征量定义2.4 k-核:拓扑图的k-核是指“在图中反复去掉度小于等于k的节点及其连接所余下的子图”。如果一个节点存在于k-核,但在(k+1)-核中被移除,则此节点的核数为k,即对于vV(G),如果vcorekcorek+1,。核数表示的是节点在核中的深度,k值越大意味着该核在拓扑图中位置更为核心。可以通过k-核解析由外层至内层一层一层地解析网络,直到最内层为止,从而揭示网络的层次结构性质。定义2.5 度分布:度分布(Degree Distribution)是指图G(V,E)中所有节点的度的分布情况,可用分布函数p(k)来描述。p (k)表示的是一个随机节点的度恰好是k的概率,其中为度为k的节点数目,为节点总数。2.4 本章小结本章主要介绍了后续研究用到的互联网拓扑数据来源以及原始数据的预处理过程,最后还介绍了下文涉及到的一些基本特征量的概念。在本章的基础上,接下来一章将进行基于互联网拓扑特征的多粒度社团发现研究。第3章 互联网拓扑基本特征分析与多粒度社团发现算法设计本章主要针对互联网特有的基本拓扑特征展开分析,并设计了一组探测算法(总称105算法)可以分别探测这些基本的拓扑结构,之后评价了本文提出的社团发现算法;为了考验算法的普适性,在其它网络上做了验证;最后探讨了社团划分的新思路。3
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!