生物信息学高性能计算平台的构建与使用课件

上传人:风*** 文档编号:241902385 上传时间:2024-08-04 格式:PPT 页数:77 大小:4.08MB
返回 下载 相关 举报
生物信息学高性能计算平台的构建与使用课件_第1页
第1页 / 共77页
生物信息学高性能计算平台的构建与使用课件_第2页
第2页 / 共77页
生物信息学高性能计算平台的构建与使用课件_第3页
第3页 / 共77页
点击查看更多>>
资源描述
2024/8/4生物信息学高性能计算平台的构建与使用2023/8/19生物信息学高提纲生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2024/8/4提纲生物信息中心情况简介2023/8/192024/8/4生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2023/8/19生物信息中心情况简介2024/8/4生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2023/8/19生物信息中心情况简介WhyBioinformatics?2024/8/4Why Bioinformatics?2023/8/19Bioinformatics:Whatdoweneed?Whatdoweneed?满足各种生物信息学分析所需的大规模计算能力的平台对分子生物信息数据能够快速获取的平台从互联网快速接入服务器并进行生物信息学分析的平台Bioinformatics:What do we neeWhyHighPerformanceComputing(HPC)?2024/8/41超大规模的数据处理基因组测序序列:51020量级蛋白质折叠计算:31023量级药物设计平均筛选10000种化合物以上才能得到一种新药2超大计算规模的算法分子动力学模拟分子相互作网络分子进化分析蛋白质结构模拟3多用户同时的计算需求一个和尚、两个和尚、三个和尚Why High Performance Computing我们的已经完成的工作满足各种生物信息学分析的HPC快速获取各种分子生物信息数据随时从网络接入提交计算任务来分析数据1.将多个重要的生物信息数据库本地化安装2.建立了一个高性能计算系统3.将平台接入校园网/互联网我们的已经完成的工作满足各种生物信息学分析的HPC快速获取各生物信息学平台的架构http:/磁盘存储阵列磁盘存储阵列万兆网络交换机数据库系统高性能服务器刀片式服务器集群(Cluster)存储系统高性能计算系统生物信息学平台的架构http:/bioinfo.tmmu.生物信息学平台硬件与软件系统HardwareSoftwareOurPlatform浪潮天梭高性能服务器集群(cluster)Linux系统:RocksCluster5.4CentOS5.5RedHatAS4生物信息学平台硬件与软件系统 HardwareSoftwar.SystemAreaNetworkLocalAreaNetworkLANMemoryI/OBusMemoryBusSystem1ChipsetSANCPUsLANMemoryI/OBusMemoryBusSystem2ChipsetSANCPUsLANMemoryI/OBusMemoryBusSystem3ChipsetSANCPUsWhatisCluster(集群)?2024/8/4多台计算机通过高速网络连成一个并行计算系统.System Area NetworkLocalWhycluster?2024/8/4容易扩展容易扩展从几十个节点到几万个节点容易并行容易并行并行计算的最优选择之一容易维护容易维护单个节点的故障不影响整体Why cluster?2023/8/19容易扩展从几十个节Whycluster?2024/8/4普通PCclusterWhy cluster?2023/8/19普通PCclustJaguarRoadrunner天河1号KComputerJaguarRoadrunner天河1号K ComputerWhatisRocksCluster?RocksCluster集成生物信息学软件包一种免费集群操作系统基于CentOSLinuxWhat is Rocks Cluster?Rocks ClRocksCluster5.4的主要功能模块2024/8/4 RocksRollRocksRoll基本功能模块RedHatLinux内核操作系统组件SUNGridEngine分布式任务管理系统1.Baseroll2.Kernel3.OS4.SGE5.bioBiosoftPackageRocks Cluster 5.4 的主要功能模块2023/我校生物信息学平台拓扑结构图用户用户26个刀片式计算节点OneComputerOneComputer!我校生物信息学平台拓扑结构图用用户One Computer!生物信息平台物理分布视图生物信息平台物理分布视图生物信息学平台计算机群p数据库节点双路Intel至强5450处理器2.83GHZ8个核心,32G内存p其他节点8核、16G内存p存储系统30个1TB硬盘的存储阵列p性能指标:p208个计算核心p2万亿次/秒浮点运算生物信息学平台计算机群数据库节点以RocksCluster为核心的Linux操作环境Rockscluster5.416G内存64位CentOS5.432G内存64位Rockscluster5.416G内存64位bio-linux6.02GRAM32位管理节点数据库节点终端计算机计算节点平台操作环境以Rocks Cluster为核心的Linux操作环境Roc为什么选择Unix/Linux来构建平台?科学研究的通用平台90%以上的科学软件在Unix/Linux下开发多数生物信息学软件只有Unix/Linux版本数量庞大的各种小工具Sed,awk,vi,emacs,diff,cvs,etc极多的高质量文档免费_!为什么选择Unix/Linux来构建平台?科学研究的通用平台各节点的主机名称及IP地址管理节点主机名称:big.hpc.org;IP地址:202.202.232.201计算节点(26台刀片式服务器)Blade1:compute-0-0compute-0-9Blade2:compute-1-0compute-1-9Blade3:compute-2-0compute-2-5数据库节点:主机名:databaseIP地址:202.202.232.202访问域名:http:/2024/8/4各节点的主机名称及IP地址管理节点2023/8/19平台的并行计算环境MPI(MessagePassingInterface)MPICH2最基本的MPI,运行简单,应用广泛,效率不高安装路径:/opt/mpich2/gnu/bin/openmpil功能强大、灵活,支持infiniband,效率高l安装路径:/opt/openmpi/bin/各计算节点的公共目录/disk1和/disk2,容量均为8T2024/8/4平台的并行计算环境MPI(Message Passing 平台的任务管理系统SGE任务管理系统:自动分配计算资源来运行用户的计算任务SunGridEngine(SGE)LSFOpenPBS本平台安装的是SGE用户在进行生物信息学计算之前,需要编写SGE计算脚本文件,通过提交脚本文件来使用计算资源。2024/8/4平台的任务管理系统 SGE任务管理系统:自动分配计算资源来运其他设备:bio-linux终端计算机1.安装了bio-linux系统,图形操作界面2.集成了十多种生物信息学软件,免费使用3.可迅速连接高性能计算系统进行大规模计算分析2024/8/4 其他设备:bio-linux终端计算机 生物信息学高性能计算平台的构建与使用课件生物信息学平台的使用方式使用方式通过校园网或互联网的任意计算机远程登录使用前来我校基础部生命科学楼7楼本地使用生物信息学平台的使用方式使用方式2024/8/4生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2023/8/19生物信息中心情况简介国际生物信息数据库的本地化过程下载元数据构建检索系统发布数据库国际生物信息数据库的本地化过程下载元数据构建检索系统发布数据已经收录的数据库GenbankUniprotKBPDBEMBLRefseqPrositeMRS检索系统l20多个生物医学相关的数据库l主要数据库每日更新l集成Blast、ClustalW、Jmol等分析工具l可将自己的Web-Server程序、数据库发布到互联网已经收录的数据库GenbankUniprot KBPDBEMMRS数据库综合检索系统EntrezTheLifeScienceSearchEngine-NCBISRS=SequenceRetrievalSystem-EBIMRS=MaartensRetrievalSystem-BICatTMMUGoogle=Thbestgenericsearchandretrievalsystem2024/8/4fastLinuxx86-64versionfreeMRS数据库综合检索系统Entrez The Life 生物信息数据库的使用231登录生物信息中心主页:http:/从主页进入生物信息数据库在检索栏内通过输入关键词等方式检索数据选择所需要的数据库生物信息数据库的使用231 登录生物信息中心主页:生物信息学高性能计算平台的构建与使用课件生物信息数据库检索系统:一站式检索生物信息数据库检索系统:一站式检索2024/8/4生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2023/8/19生物信息中心情况简介高性能计算系统的使用Linux基础知识1已安装生物信息学软件2用户使用流程3生物信息学实例分析4高性能计算系统的使用Linux基础知识1已安装生物信息学软件1、Linux基础知识什么是Linux?免费的类Unix操作系统,适合PC机、服务器具有Unix的全部功能,稳定,高效,网络性能优异以Linux为基础的不同的发行版(Distribution):Ubuntu:适合初学者Debian:Ubuntu的始祖,适合系统管理员Fedora:适合专业开发者Redhat/CentOS:适合个人或企业级服务器openSUSE:适合个人办公1、Linux基础知识 什么是Linux?免费的类Linux很难吗?看起来很复杂,不知从何下手实际上上手很快Linux系统不好用*nux不是用来当桌面的书太多,每本都很厚推荐OReilly系列Linux很难吗?看起来很复杂,不知从何下手Linux系统的主要组成Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打印机等硬件设备的核心程序。LinuxSHELL:Shell是系统的用户界面,提供了用户与内核进行交互操作的一种接口。Linux文件系统:Linux文件系统是文件存放在磁盘等存储设备上的组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、VFAT、ISO9660、NFS、SMB等。Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序集,包括文本编辑器、编程语言、办公套件、Internet工具、数据库等。Linux系统的主要组成Linux的内核:内核是系统的核心,Linux命令模式下的基本操作命令ls或者ll:列出当前目录下全部文件相当于DOS下的dircd:改变当前目录至指定目录例:zoulybig$cd/disk1/biosoft/mkdir:建立文件夹例:zoulybig$mkdirblast-testcp:拷贝文件命令例:zoulybig$cpenzyme.dat/disk1/data/pwd:查看用户当前所在的路径Linux命令模式下的基本操作命令ls 或者 ll:列出当Linux命令模式下的基本操作命令cat:查看文件内容zoulybig$cat1OMB.pdbmore:逐屏显示文件内容vi:新建文件或编辑文件例:zoulybig$vi1OMB.pdbmv:移动文件或目录rm:删除文件或目录Linux命令模式下的基本操作命令cat:查看文件内容Linux下解压缩文件全能的解压缩命令:tar例:tarxvfjblast2.2.21.tar.bz2tarxvfzblast2.2.21.tar.gztarxvfzblast2.2.21.taztarxvfblast2.2.21.tarLinux下解压缩文件全能的解压缩命令:tar 2、平台上已安装的生物信息学软件软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明序列相似序列相似性比较性比较fasta35.4.9/opt/bio*(系统自带系统自带)blast2.2.21/disk1/biosoft(后安装后安装)mpiblast1.5.0/opt/bio并行并行blast*多序列多序列比对比对ClustalW2.0.12/opt/bio*ClustalW-mpi0.15/disk1/biosoft并行并行ClustalW T_coffee8.14/opt/bio*MUSCLE4.0/disk1/biosoft2、平台上已安装的生物信息学软件软件类型软件名称软件版本安装软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明全基因组全基因组比较比较Mauve2.3.1/disk1/biosoftGenomeComp1.3/disk1/biosoftMUMmer3.22/disk1/biosoft基因组注基因组注释和分析释和分析glimmer3.0.2/opt/bio微生物基因预测微生物基因预测*EMBOSS6.1.0/opt/bio综合分析包综合分析包*ncbi6.1-4/opt/bio综合分析包综合分析包*分子进化分子进化与系统发与系统发生分析生分析phylip3.69/opt/bio*mrbayes3.1.2/opt/bio*PAML4.4/disk1/biosoft软件类型软件名称软件版本安装路径说明全基因组比较Mauve2软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明蛋白质序蛋白质序列和结构列和结构分析分析Hmmer2.3.2/opt/bio保守结构域鉴定保守结构域鉴定*DomainFinder2.0.4/disk1/biosoftInterproscan4.6/disk1/biosoftModeller9v9/disk1/biosoft蛋白质结构预测蛋白质结构预测Rasmol2.7.3/disk1/biosoft三维结构观察三维结构观察序列拼接序列拼接与分析与分析Tigr_Assembler3.0.2/opt/bio*CAP33.0/disk1/biosoftStaden package2.0b6/disk1/biosoft分子对接分子对接Autodock4.2.1/opt/bio*Autodock_vina4.3/disk1/biosoftDock/Dock_mpi6.4/disk1/biosoft软件类型软件名称软件版本安装路径说明蛋白质序列和结构分析Hm软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明分子模拟分子模拟gromacs4.0.5/opt/bio*NAMD2.7/disk1/biosoftVMD1.8.6/disk1/biosoft分子网络分子网络分析分析osprey1.2.0/disk1/biosoft分子网络构建分子网络构建cytoscape2.6.3/disk1/biosoft分子网络可视化分子网络可视化RNA折叠折叠与非编码与非编码RNA预测预测mfold3.5/disk1/biosoftunafold3.8/disk1/biosoftmiranda3.3/disk1/biosoftmiRNA作用位点预测作用位点预测其他软件其他软件MatlabR2010a/disk1/biosoftprimer33.0/disk1/biosoft引物设计引物设计软件类型软件名称软件版本安装路径说明分子模拟gromacs4如何在平台上运行一个生物软件?安装在/opt/bio/下面的软件,登录平台后可直接运行例如:zoulybig$autodock4安装在/disk1/biosoft/下的软件,SSH登录平台后,运行带完整路径的执行程序名例:zoulybig$/disk1/biosoft/autodock/bin/aotudock4上传软件到自己的目录下使用例:上传Autodock程序到自己的目录/disk1/zouly/Autodockzoulybig$./Autodock4/autodock4点击演示如何在平台上运行一个生物软件?安装在/opt/bio/下面的如何进入本地数据库的ftp下载原始数据生物信息数据ftp地址为ftp:/202.202.232.202对应的计算网络内的ip为:10.1.1.103利用Linux自带的ftp工具进入,命令:ftp10.1.1.1032024/8/4如何进入本地数据库的ftp下载原始数据生物信息数据ftp地址输入用户名:anonymous,即可登陆使用get命令可以下载其中的文件到用户目录使用close命令关闭ftp连接使用quit命令退出ftp程序2024/8/4输入用户名:anonymous,即可登陆2023/8/193、用户使用流程介绍用户申请帐号SSH方式登录平台编写计算任务的脚本提交计算任务计算完成,获得结果3、用户使用流程介绍用户申请帐号SSH方式登录平台编写计算任3.1用户账号申请和使用通过下列电子邮箱申请免费使用帐号bioinfo_申请用户名为姓名拼音与数字的组合,如贾君鹏,可申请用户名jiajp或jiajunpeng或jiajp1982,等等申请的帐号和密码将通过邮箱发送给用户用户目录默认在/disk1或/disk2下,如贾君鹏的目录:/disk1/jiajp2024/8/43.1 用户账号申请和使用 通过下列电子邮箱申请免费使用帐号3.2登录/退出平台平台登录的IP地址:202.202.232.201连接校园网和互联网的计算机均可登录通过SSH方式登录平台Windows用户推荐使用Xmanager软件包中的xshell软件来登录Linux用户可直接通过SSH方式登录要登录图形桌面推荐使用VNCViewer软件进行用户计算机与平台之间上传下载数据推荐使用Xmanager中的xftp来进行以上软件可到http:/下载2024/8/43.2 登录/退出平台平台登录的IP地址:202.202.2使用Xmanager中的Xshell登陆平台Xshell登陆演示登陆后的个人用户目录位于/disk1如:用户zouly登陆后,其用户目录为/disk1/zouly2024/8/4使用Xmanager中的Xshell登陆平台Xshell登陆使用Xmamager中的xshell软件登录平台示例2024/8/4视频演示使用Xmamager中的 xshell软件登录平台示例202SSH方式登录成功!SSH方式登录成功!使用XFTP在用户和平台之间上传下载文件2024/8/4使用XFTP在用户和平台之间上传下载文件2023/8/192024/8/4本地目录计算平台用户目录视频演示2023/8/19本地目录计算平台用户目录视频演示使用VNCViewer登录图形界面的步骤第1步:自己的电脑上安装VNC-4.0软件第2步:SSH方式登录平台,然后运行vncserver命令,设定vnc连接密码,确定连接端口号(图中端口号是3)以用户zouly为例,运行vncserver命令:使用VNC Viewer登录图形界面的步骤第1步:自己的电脑2024/8/4第3步,修改用户登陆配置文件$HOME/.vnc/xstartup如,zouly用户修改/disk1/zouly/.vnc/xstartup将该文件中最后一行的twm&修改为gnome-session&第4步:启动VNCViewer,输入202.202.232.201:端口号2023/8/19第3步,修改用户登陆配置文件$HOME/第5步:输入连接密码,远程图形界面登录成功视频演示第5步:输入连接密码,远程图形界面登录成功视频演示第6步:退出图形化登陆,删除连接端口号删除连接端口的命令:vncserverkill:端口号例如:2024/8/4第6步:退出图形化登陆,删除连接端口号删除连接端口的命令:v3.3编写计算任务脚本确定需要使用哪个软件来进行计算分析阅读该软件的使用手册,了解软件的使用方法根据你的计算任务,编写一个SGE计算任务脚本文件,该文件对你需要系统进行计算的任务进行描述。2024/8/43.3 编写计算任务脚本确定需要使用哪个软件来进行计算分析Example:使用clustalw-mpi进行多序列比对2024/8/4问题:对来自多个菌种的traG蛋白质序列进行比对解决思路:使用并行ClustalW程序ClustalW-mpi,对序列进行多序列比对.参考分析流程:SSH登录系统上传序列文件traG.fasta到自己的目录编写SGE脚本文件,提交分析结果Example:使用clustalw-mpi进行多序列比对2步骤1:上传待分析的数据traG.fasta通过xftp上传数据到用户工作目录/disk1/zouly/traG步骤 1:上传待分析的数据 traG.fasta 通过xft步骤2:编写mpiblast的计算脚本文件在工作目录内创建一个文件,如clustalw-mpi.qsub,内容如下#!/bin/bash#$-cwd#$-jy#$-S/bin/bash#exportMPI_DIR=/opt/openmpi/$MPI_DIR/bin/mpirun-np$NSLOTS/disk1/biosoft/clustalW-mpi/clustalw-mpi-0.15/clustalw-mpi-infile=traG.fasta-outfile=result.aln步骤 2:编写mpiblast的计算脚本文件在工作目录内创建2024/8/4#!/bin/bash#$-cwd#$-jy#$-S/bin/bash#clustalw-mpi.qsub脚本文件内容的含义解析:公共部分,所有脚本通用/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi-infile=traG.fasta-outfile=result.aln声明使用openmpi并行环境exportMPI_DIR=/opt/openmpi/$MPI_DIR/bin/mpirun调用mpirun进行并行计算使用clustalw-mpi进行序列比对的程序命令2023/8/19#!/bin/bashclustalw-m/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi-infile=traG.fasta-outfile=result.alnclustalw-mpi程序的路径-infile=指定输入的序列文件名-outfile=指定保存比对结果的文件名clustalw-mpi程序执行命令解析:/disk1/biosoft/clustalw-mpi/cl步骤3:向系统提交计算任务将写好的脚本程序提交到系统,SGE将自动分配计算节点开始计算提交计算任务的命令如下:zoulybigtraG$qsub-peorte16clustalw-mpi.qsubYourjob54(clustalw-mpi.qsub)hasbeensubmitted提交计算任务的命令解析:qsub提交计算任务的命令-peorte16申请使用16个CPU计算核心来进行计算clustalw-mpi.qsub脚本文件的名称步骤3:向系统提交计算任务将写好的脚本程序提交到系统,SGE步骤4:查看计算任务状态查看任务运行状态的命令qstat(查看基本信息)qstat-f(查看计算节点工作状态)qstat-jjob-ID(查看正在运行的任务的详细情况)2024/8/4zoulybigtraG$qstatjob-IDpriornameuserstatesubmit/startatqueue-540.55500clustalw-mzoulyr04/27/201115:49:46all.qcompute-0-9.local步骤4:查看计算任务状态查看任务运行状态的命令2023/8/步骤5:查看计算结果结果保存在result.aln文件中2024/8/4步骤5:查看计算结果结果保存在result.aln文件中20使用qdel命令删除已经提交的计算任务使用命令:qdeljob-ID例如,用户提交的计算任务ID号为60,则删除该计算任务的方法:zoulybigt$qdel602024/8/4使用qdel命令删除已经提交的计算任务使用命令:qdel SSH连接生物信息学平台演示图形方式连接生物信息学平台演示XFTP上传下载文件使用clustalw-mpi进行并行计算任务提交演示2024/8/4生物信息学平台使用演示SSH 连接生物信息学平台演示2023/8/19生物信息学平使用平台进行生物信息学分析实例使用Mauve比对多个肠道杆菌全基因组1使用Modeller进行蛋白质结构建模2使用Gromacs进行分子动力学模拟3 使用平台进行生物信息学分析实例使用Mauve 比对多个AnyQuestion?生物学中有着至少500年也解决不完的有趣问题。DonnaldE.Knuth(美国著名计算机科学家)Any Question?思考题申请一个高性能计算平台账号,登录并运行一个程序在生物信息学中心数据库系统中检索并下载某个蛋白质家族的1000条以上的序列数据,编写计算脚本,使用高性能计算系统进行并行多序列比对,给出比对结果2024/8/4思考题申请一个高性能计算平台账号,登录并运行一个程序202377Thankyou!77Thank you!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!