生物信息学课件2

上传人:t****d 文档编号:243379560 上传时间:2024-09-22 格式:PPT 页数:55 大小:817KB
返回 下载 相关 举报
生物信息学课件2_第1页
第1页 / 共55页
生物信息学课件2_第2页
第2页 / 共55页
生物信息学课件2_第3页
第3页 / 共55页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,生物信息学,第二章 生物信息学的计算机基础,本课目录,基础知识,程序语言,算法,数据库,计算机网络,2,一、基础知识,3,计算机的结构(硬件),CPU,只认识二进制数,:100110,4,操作系统,(Windows),、桌面,5,古老的系统,DOS,与命令行程序,Windows,的前身是,MS-DOS,Windows,中的虚拟,DOS,(附件,/,命令行提示符),在生物信息学中仍有广泛应用,目的是运行命令行程序,没有,Windows,图形界面的程序,演示,6,为什么很多生物信息学程序要用命令行,速度,便于自动化,批处理,(DOS),脚本,(Linux),BioEdit,很好的利用了这一点,7,命令与参数,命令提示符,(command prompt),(DOS),$,(Linux),DOS,命令,type, cd, dir,参数,应该使用什么参数,:,帮助,/? /h -h -help,8,DOS,常用命令,x:,进入某一硬盘分区,dir,显示当前目录中的内容,cd,进入某一目录,/,显示当前目录,md,创建目录,(mkdir),copy,拷贝文件,del,删除文件,move,移动文件,更改文件名,type,打印某一文件内容,pause,暂停,(,多用于批处理,),隐藏命令行,(,多用于批处理,),9,批处理,扩展名,:,bat,(batch),例,:,做一个批处理再现,BioEdit,自动建树,工具,:,记事本,步骤,让资源管理器显示扩展名,安装,BioEdit,及,TreeView,拷贝,clustalx.exe,制作,bat,clustalw,%1,.fas,TREEVIEW_PATHtreev32,%1,.dnd,运行,example test,10,为什么,Windows,程序没有参数,?,其实很多,Windows,程序都有参数,例,explorer.exe /e, d:,Windows,程序的参数往往用选项表示,11,UNIX/LINUX (,科学系统,),Ubuntu,12,Linux,简介,Linux,之父,Linus Torvalds,(1969-),优点,免费,安全,高速,Linux,核心,(,kernel,),最新稳定版本,2.6.23.8 (2007-11-16),有多大,?,只有,51k,13,在,Windows,下运行,Linux,程序,虚拟,Linux,vmware,创建,Linux,Cygwin,Cygwin/X,MSYS/MinGW,(Minimal SYStem),14,用,MSYS,编译、运行程序,下载、安装,MSYS/MinGW,(20M),下载,Seq-Gen,(,用,Monte Carlo,法从树逆向产生序列,) (56k),常见,Linux,程序格式,:,压缩的源文件,(,tgz,),解压,:,tar,xvfz Seq-Gen.v1.3.2.tgz,编译,(,参见,README),cd,source,make,运行,(,参见,documentation),seq-gen,-mHKY -t3.0 -f0.3,0.2,0.2,0.3 -l40 -n3,example.dat,15,常用,Linux,命令,没用硬盘分区,/,盘符,大小写敏感,ls,显示当前目录中的内容,pwd,显示当前目录,cd,进入某一目录,mkdir,创建目录,cp,拷贝文件,rm,删除文件,mv,移动文件,更改文件名,less/more,打印某一文件内容,16,Mac OS (,视觉系统,),1977,年,苹果公司推出了第一台有彩色图像的个人电脑,Apple II,17,二、程序语言,18,软件怎么来的?,用各种程序语言编写出来的,甚至操作系统也是,如何编程?,用文本编辑器(如记事本)编写代码,编译(可选),打包(可选),执行,19,C/C+/C#,程序员使用得最多的语言,(,使用率,:,30%,=15+11+4%),强大,、,高速,(,适于作核心程序编写,),、库函数极为丰富、操作灵活、无所不能、历史悠久,BLAST,等许多著名的生物信息学程序是,C,编码,难学、难用,编译型语言,(,产生二进制代码,;,直接执行产生的二进制代码,),C,本身由汇编语言,(asm),编写,C+,由,C,编写,C#,由,C#,自己编写!,printf(“Hello, the world!,n”);,cout “Hello, the world!” endl;,System.Console.WriteLine(Hello, World!);,20,Perl,使用率,:,4.8%,字符串操作功能强大,、容错型好、可与,C,语言联合使用、易使用、易开发网络应用,不易图形化,解释型语言,(,解释器直接执行代码,),本身由,C,编写,Bioperl,(,生物信息学专用,),print Hello, the world!,n,21,Python,使用率,:,5%,在生物信息学中广泛应用、扩展性好,(,可与,C,、,Java,等混合使用,),、数据类型丰富、极,易使用,、可充分体验高速编程的快感、多平台,速度较慢、适于作外围程序编写,解释型语言,本身由,C,编写,BioPython,(,为计算分子生物学设计,),print Hello, the world!,22,Java,使用率,:,24%,(,单种语言使用率,最高,),跨平台,(,能在任何有,JVM,的操作系统甚至是电话上运行,),、安全高、自动垃圾回收、网络实现方便、图形强大、直接线程管理,慢、太复杂,编译型语言,本身由,C+,编写,BioJava,(,已广泛用于生物信息学,),System.out.println(Hello, the world!);,23,MATLAB (,商业软件,),使用率,:,0.3%,专业科学计算软件、使用方便、,科学函数丰富,、可与,C,语言等混合使用、帮助详尽,昂贵,解释型语言,本身由,OpenGL(,由硬件视频卡解释执行,),和,Java,编写,Bioinformatics Toolbox,disp(Hello, the world!);,Octave (free version),24,其他生物信息学相关的程序语言,Mathematica (,商业,善于符号运算,),Maple (,商业,善于符号运算,),FORTRAN (,古老的科学计算语言;,BioLib,),PHP,Pascal/Delphi/Kylix,Visual Basic (,10.49%,),CORBA,Prolog,Lisp,R,(,统计、图形,),TCL,25,程序是怎么在电脑中运行的?,操作系统,(OS),启动,(,即开机,),OS,使电脑具备文件操作等一系列功能,你通过,输入设备,输入执行某程序的指令,OS,解释你的输入,OS,将你指定的程序,(,二进制代码的形式,),及相关数据读入,内存,OS,分配内存,CPU,将读入内存的二进制代码解释执行,汇编语言,26,三、算法,27,定义和特征,算法,(algorithm),是在,有限,步骤内求解某一问题所使用的一组定义,明确,的规则,特征,有穷性,:,一个算法必须保证执行有限步之后结束,确切性,:,算法的每一步骤必须有确切的定义,输入,:,一个算法有,0,个或多个输入,以刻画运算对象的初始情况,输出,:,一个算法有一个或多个输出,以反映对输入数据加工后的结果,可行性,:,算法原则上能够精确地运行,28,举例,排序算法,冒泡法,算法,(,降序,):,从第一个数比较起,依次比较相邻的两数,若前一个小于后一个,则将它的位置互换,直至第一趟结束为止。此时最后的必是,最小,的。如此重复,每一趟比较次数少一,直到某一趟任何一对值位置都不需要交换,44 55,12 42 94 18 6 67,55,44 12,42 94 18 6 67,55,44,12 42,94 18 6 67,55 44,42,12 94,18 6 67,55 44 42,94,12 18,6 67,55 44 42 94,18,12 6,67,55 44 42 94 18,12,6 67,55 44 42 94 18 12,67,6,29,选择,法,(,又称比较,法,/,直接选择排序,/,Straight Selection Sort,),算法,(,升序,):,从待排序的数中选出,最小,的与第,1,个交换位置,再从剩余的待排序的数中选出最小的与第,2,个交换位置,直到待排序的数只剩,1,个为止,55 44,12 42 94 18 6 67,55,44 12,42 94 18 6 67,55 44,12 42,94 18 6 67,55 44,12,42,94,18 6 67,55 44,12,42 94,18,6 67,55 44,12,42 94 18,6,67,55 44 12 42 94 18,6 67,6,44 12 42 94 18,55,67,30,其他一些排序算法,插入,、希尔、,快速排序,堆排序,(Heap Sort),选择排序的一种,归并排序,(Merge Sort),分配排序,箱排序,(Bin Sort),基数排序,(Radix Sort),外部排序,(external sort),适用于记录个数太多,不能一次将其全部记录放人内存的大文件,31,四、数据库,32,数据库,简史,1946(ENIAC)-60s,数据管理是,文件,操作,1960s,出现了,统一管理,和,共享数据,的数据库系统,1970s,初, E.F.Codd,提出了,关系数据,模型的概念,1980s,后,计算机的各领域飞速发展,对数据库提出了许多新的要求,产生了一些新型数据库,到目前为止,在世界范围内得到主流应用的还是经典的,关系数据库,系统,知名的有,Sybase, Oracle, Informix, SQL Server (Microsoft), DB2 (IBM),33,数据库系统,(database system, DBS),的特点,高级用户接口,不需了解文件的储存格式、记录结构等,数据的管理由数据库管理系统,(DBMS, Database Management System),实现,查询和优化,提供非过程化的数据库语言,即,SQL,语言,用户只需向数据库系统提交对数据操作的请求,并发控制,多个用户可以同时访问数据库,数据的完整性,34,结构化的数据,记录,(,行,; record),、,字段,(,列,;,field,),、值、库,35,关系数据库,(1),结构化数据的理论依据,关系代数,实体关系模型,(entity-relationship, E-R),世界,=,实体,+,关系,例子,M = ,王强,张伟,陈海,是,男性,集合,F = ,李丽,刘英,是,女性,集合,若,M,和,F,中存在,夫妻,关系时,那么有可能的全部配对组合如下,:,MF = (,王强,李丽,),(,王强,刘英,),(,张伟,李丽,),(,张伟,刘英,),(,陈海,李丽,),(,陈海,刘英,),在数学上把所有可能的配对组合叫“,笛卡尔积,”,36,关系数据库,(2),所谓,关系,(,relation,),就是一张表,笛卡尔积,(MF),M,F,王强,李丽,王强,刘英,张伟,李丽,张伟,刘英,陈海,李丽,陈海,刘英,37,关系数据库,(3),建立较好的关系结构,个人信息,课程信息,38,关系数据库,(4),39,XML,语言,(,创建数据库,),EXtensible Markup Language,(,可扩展标注语言,),是,W3C,定义的一种标准,可以自定义标签,(tag),广泛用于生物数据管理,数据库:,NCBI (GenBank, MedLine, ),扩展:,BioXML, GEML, SBML, CellML, phyloML, MSAML, ,40,XML,语言源码例子,藏獒,Tibet Mastiff,黑猩猩,chimpanzee,41,SQL (,结构化查询语言, structured query language),SQL,是数据库交互的标准,1986,美国国家标准化组织,(,ANSI,),批准,1992,国际标准组织,(International Standard Organisation,ISO,),批准,Oracle, DB2, Sybase,等数据库系统都使用,SQL,MySQL,免费,一些生物数据库允许使用,SQL,进行查询,MGD,(Mouse Genome Database),长江水生生物数据库,42,五、计算机网络,43,Internet,简史,1969,诞生,1970s,成熟(提出,TCP/IP,体系),1989, CERN,提出,WWW,1994,中国建立,CERNET,:第一个全国性互联网,2005,全球互联网用户突破,10,亿,2008.4,中国网民人数超过美国居世界首位(,2.21,亿),44,CERNET (,中国教育和科研计算机网,),1994.7,诞生,6,所高校加入,1995.8,第一个,BBS“,水木清华”建立,;,108,1996,成为中国大陆具有独立国际出口的全国四大计算机互联网络之一,;,连通美国、欧洲、香港,;,200,1997,开始收费,;,与中国其余三大网络完成互联,;,300,1998,连通英国、加拿大,;,400,1999,亚太先进网络组织,APAN;,550,2000,在国内首先提供,IPv6,地址分配服务,;,800,2004,中国第一个下一代互联网主干网, CERNET2,试验网开通并提供服务,45,网络结构,主机,(host),各种类型的计算机,如,:,巨型机、笔记本,通信子网,(communication subnet),由一些通信链路和结点交换机组成,用于进行数据通信,协议,(protocol),通信双方事先约定好的和必须遵守的规则,如,:TCP/IP, IPX,46,局域网和广域网的区别,47,客户机,/,服务器体系,网络中的,计算机,分为两类,提供服务的一方称为服务器,获得服务的一方称为客户机,区别主要是在计算机中的,软件,这个软件是,提供,服务还是,获得,服务,任何计算机都可以作为服务器或客户机,或者两者兼有,Internet,上的许多服务都采用客户机,/,服务器模式,如,ftp, WWW, email,服务,48,IP,地址,IP,地址是,Internet,定位,所必需的,网络中的每一台主机都有一个,唯一,的,IP,地址,一般为四段数字,(0-255),中间用,.,隔开,如,210.32.128.8,IPv6,“,每一颗沙子都有地址”,49,域名,DN (domain name),IP,地址不便记忆,所以有了域名,是主机的另一个名字,如,cn,表示中国,(China),edu,表示教育网,(education),ncu,表示南昌大学,(NanChang Univ.),www,表示,WWW,服务,这就表示了南昌大学提供,WWW,服务的那台服务器的域名,这台服务器的,IP,地址是,218.64.56.5,50,URL,Uniform Resource Locator,(,统一,资源定位器,),它定义,资源,(,如主机、,文件,、用户,),在,Internet,上的位置,是文件的,GPS(,全球定位系统,),格式,protocol:/,username:password,hostname,:port/path/file,例子,(,南大生命科学学院主页,),emailto:/,51,WWW,服务,(1) ,软件,服务器,端安装的软件,常用的是,Apache(,阿帕奇,),流行服务器架构:,LAMP (Linux, Apache, MySQL, PHP),客户机,端安装的软件,通常叫,浏览器,(browser),常用的有,IE(Internet Explorer; Microsoft), Netscape, Mozilla Firefox, Opera,等,52,WWW,服务,(2) ,协议,WWW,服务使用的协议,主要是,HTTP,: HyperText Transfer Protocol (,超文本传输协议,),属,TCP/IP,通信协议的上层应用协议,TCP/IP,是一个很大的概念,包括上层,(,第,4,层,),的应用层、下层,(,第,1,2,3,层,),的网络接口层、互联网络层、传输层,应用层还有,FTP,SMTP,POP3,DHCP,协议,“超文本” 的“超”指比一般文本更强的功能,如链接、图形、声音等,53,WWW,服务,(3) ,HTTP,的工作流程,HTTP,客户机和服务器的会话,是一个“请求,-,回应”的过程,客户机,(,浏览器,),启动连接,如,浏览器向,DNS,询问,的,IP,地址,DNS,以,218.64.56.,8,应答,浏览器和,218.64.56.,8,的,80,端口,建立,一条,TCP,连接,它接着发送,GET,/index.html,命令,服务器发送,index.html,文件,释放,TCP,连接,浏览器显示,index.html,中的所有正文,54,完,55,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!