资源描述
,*,MC/Service Guard,功能及使用介绍,中国惠普支持效劳事业部,QIAN Yun,2004.4,Agenda,MC/SG概述,MC/SG结构及原理,故障反响机制,根本操作和日常管理,应急处理方案,更改双机配置,Agenda,MC/SG概述,什么是,MC/SG?,MC/SG,实现的功能,什么是MC/SG?,MC/ServiceGuard,简称MC/SG。,是用于将HP9000系列效劳器组成高可用性集群的,软件。,“MC指“Multiple Computers,MC/SG实现的功能,通过合理的配置集群,可以在集群中出现单点故障硬件、软件、网络等时,通过切换保证应用程序的不间断运行。从而实现系统的高可用性。,指导思想:,No Single Point Of Failure(,无单点故障),MC/SG结构及原理,MC/SG,的结构组成,构成集群的硬件要求,移动智能网典型集群配置,集群运行过程,MC/SG软件的组成,软件组件,Package Manager 运行包管理器,Cluster Manager 集群管理器,Network Manager 网络管理器,主要后台进程,cmcld:节点守护进程,负责发送心跳信号、管理本地网络、以及负责运行包的管理,cmlogd:负责在系统日志syslog中记录信息,cmlvmd:监控所有属于集群控制的卷组VG的状态,cmsrvassistd:负责包启动、停止脚本以及效劳程序的运行,MC/SG集群的结构组成,节点node,指构成集群的主机。一个集群中允许的节点数量是2-16个,运行包package,运行包里包含用户的应用程序,以及为该应用程序所分配的资源。,包运行在集群中的某个节点上,并且可以在节点之间切换,有关包package的概念,包含应用程序application),分配相应资源,卷组、逻辑卷和文件系统,浮动IP地址,应用程序的启动和停止脚本,效劳程序service,规那么,-分配给一个包的资源不能再分给其它包,-同一时间一个包只运行在一个节点上,概念 浮动IP,静态IPStationary IP,静态IP地址不会改变,它们就象以往使用的 IP 地址一样,固定在网卡上。,浮动IPRelocatable IP,浮动IP 是分配给每个应用程序运行包的。如果要访问一个应用程序,那么需要连接浮动IP地址。只需连接这个地址,而不管它实际上是在哪台主机 或 哪块网卡上。,浮动IP必须加载在具有同网段静态IP地址的网卡上,当发生本机网卡切换时,浮动IP会和静态IP一起被加载到备用网卡上。,构成集群的硬件要求,主机,多台主机构成集群,每台主机必须拥有自己独立的根盘,强烈建议镜像,数据磁盘,由于MC/SG不能对数据磁盘故障做出响应,需要使用高可用性的磁盘阵列或对数据盘进行镜像,网络,MC/SG中的network manager可以对网络故障做出响应。需要配置冗余的网络设备网线、交换机、网卡等,移动智能网典型配置scp,移动智能网配置高可用性分析,主机,两台主机构成集群,主机根盘镜像,数据磁盘,每台主机各连接一台,VA,磁盘阵列作为数据盘,共用一台,DS2300,作为锁盘,网络,数据网络做到冗余,另有专门的直联网线作为心跳网络,整个系统无单点故障,硬件配置满足高可用性要求,移动智能网配置相关文件,/,etc/,cmcluster,/cluster.,ascii,集群配置文件,包含节点组成、卷组指定和相关参数设定等,/,etc/,cmcluster,/,cmclconfig,集群二进制文件,由配置文件编译而成,包含集群的全部信息,/,etc/,cmcluster,/,mscppkg,/,mscppkg,.conf,包配置文件,指定包所在的节点、监控网段、切换模式等参数信息,/,etc/,cmcluster,/,mscppkg,/control.,sh,包控制文件,指定包所拥有的各种资源,移动智能网配置相关文件续,/etc/cmcluster/mscppkg/control.sh.log,包运行时记录的日志,/etc/cmcluster/mscppkg/start_mscp.sh,包启动时用于启动应用程序的脚本,/etc/cmcluster/mscppkg/stop_mscp.sh,包停止时用于停止应用程序的脚本,/etc/cmcluster/mscppkg/mscp_service.sh,包效劳脚本,执行进程监控及其它客户化的功能,MC/SG运行过程启动过程,启动集群,在每个节点上启动守护进程cmcld,所有cmcld运行正常的节点组成集群,启动包,激活卷组,加载浮动IP,挂起文件系统,执行应用程序启动脚本start_mscp.sh,运行效劳mscp_service.sh,MC/SG运行过程停止过程,停止包,停止效劳mscp_service.sh,执行应用程序停止脚本stop_mscp.sh,卸下文件系统,卸载浮动IP,去激活卷组,停止集群,在每个节点上停止守护进程cmcld,故障反响机制,节点故障,网络故障,软件故障,故障反响机制概念,心跳线Heartbeat,用于在节点之间互相传递心跳信号的网线网络,如中断那么说明某一节点出现故障,锁盘lock disk,当集群由两个节点组成时,需要一块锁盘作为仲裁设备。留神跳中断时,两个节点会去争用锁盘,得到锁盘的一方将会重组集群,而另一方那么会发生TOC并重起。,TOCTransfer Of Control,为保证没有得到锁盘的节点能够尽快释放占用的资源,该节点将自动执行TOC,保存当前内存和CPU影像后重新启动。,故障反响机制节点故障,当主,用节点发生故障时,备机守护进程,cmcld,检测到心跳超时,开始争用锁盘,主机发生,TOC,,由,备机重组集群,在备机上启动运行包,恢复应用访问,切换时间视启动脚本设置而定,当备用节点发生故障时,主机守护进程,cmcld,检测到心跳超时,开始争用锁盘,备机发生,TOC,,由主机重组集群,该过程对应用运行无影响,故障反响机制网络故障,当,主用网络发生故障时,守护进程,cmcld,检测到主用网卡不通后,会将固定,IP,和浮动,IP,加载到备用网卡上,主用网卡连接恢复后,,IP,地址会自动回到原主用网卡上,当主节点网络发生故障时,守护进程,cmcld,检测到主用网卡不通后,会将固定,IP,和浮动,IP,加载到备用网卡上,如备用网卡也不通,当,MC/SG,发现到监控网段不通时,会将运行包切换到备用节点上,故障反响机制软件故障,效劳程序service,在配置运行包时,可定制效劳程序,在包启动后,效劳程序也会相应启动。如果效劳程序中断退出,整个运行包也会停止并切换到备节点上。,监控脚本,效劳程序最常用的功能就是监控应用程序运行状况。通常由应用提供商来定制监控脚本,由效劳程序来调用。当应用发生异常(如进程吊死时,效劳程序会发生中断,并造成应用包切换。,MC/SG对软件故障的响应能力很大程度上取决于效劳程序脚本的编写,根本操作及日常管理,集群操作,运行包操作,日常管理,集群操作,启动集群,cmruncl v,停止集群,cmhaltcl v如有包在运行,那么需要加-f参数,只在一个节点上启动集群,cmruncl n 节点名,观察整个集群状态,cmviewcl-v,所有命令均可在集群中任意节点上执行,运行包操作,启动包,cmrunpkg v n 节点名 包名,停止包,cmhaltpkg v 包名,设置包的自动切换属性,cmmodpkg e 包名 允许包在节点之间自动切换,cmmodpkg e n 节点名 包名允许包在该节点上启动,所有命令均可在集群中任意节点上执行,运行包操作手工包切换范例,将包scppkg从mscp1切换到mscp2:,步骤1:在任意主机上执行,cmhaltpkg v scppkg,步骤2:在任意主机上执行,cmrunpkg v n scp2 scppkg,步骤3:在任意主机上执行,cmmodpkg e scppkg,观察集群状态cmviewcl-v,CLUSTER STATUS,hpcluster,up,NODE STATUS STATE GMS_STATE,bjscp1a,up,running,halted,Network_Parameters:,INTERFACE STATUS PATH NAME,PRIMARY,up,0/5/0/0 lan1,PRIMARY,up,0/0/0/0 lan0,STANDBY,up,1/12/0/0 lan2,PACKAGE STATUS STATE AUTO_RUN NODE,scppkg,up,running,enabled,bjscp1a,NODE STATUS STATE GMS_STATE,bjscp1b,up,running,halted,Network_Parameters:,INTERFACE STATUS PATH NAME,PRIMARY,up,0/5/0/0 lan1,STANDBY,up,1/12/0/0 lan2,PRIMARY,up,0/0/0/0 lan0,确认STATUS和STATE为up 和running,,同时包自动切换AUTO_RUN,属性为enable,日志检查系统日志,/,var,/,adm,/,syslog,/,syslog,.log,系统日志,记录所有集群启动、停止及状态变化的信息,但不包括运行包的信息,Oct 31 00:23:39 oracle2,cmcld,:Node oracle1 has ceased cluster activities.,Oct 31 00:23:39 oracle2,cmcld,:Attempting to form a new cluster,Oct 31 00:23:40 oracle2,cmcld,:Turning off safety time protection since the cluster,Oct 31 00:23:40 oracle2,cmcld,:may now consist of a single node.If,ServiceGuard,Oct 31 00:23:40 oracle2,cmcld,:fails,this node will not automatically halt,Oct 31 00:23:40 oracle2,cmcld,:Clearing Cluster Lock,Oct 31 00:23:40 oracle2,cmcld,:1 nodes have formed a new cluster,sequence#3,Oct 31 00:23:40 oracle2,cmcld,:The new active cluster membership is:oracle2(id=2),Oct 31 00:23:40 oracle2,cmcld,:Package pkg2 cannot run on this node because switching has been disabled for this node.,Oct 31 00:23:42 oracle2,cmcld,:Waiting for CMGMSD to complete halting process,Oct 31 00:23:42 oracle2,cmcld,:,cmgmsd,completed halting process,Oct 31 00:23:42 oracle2,cmcld,:CMGMSD successfully halted,Oct 31 00:23:40 oracle2,cmcld,:Package pkg2 cannot run on this node because switching has been disabled for this node.,日志检查包日志,/,etc/,cmcluster,/,mscppkg,/control.,sh,.log,
展开阅读全文