资源描述
生物信息学常用工具介绍,Unix操作系统与Perl语言编程,杨桢:YangZhen中国科学院上海生命科学研究院计算生物学研究所yangzhen,生物信息学研究需要具备的技能,分子生物学的基础知识有一两种分子生物学软件包的使用经历Embossetc在命令行计算环境下工作Unix/LinuxShell一门程序设计语言C/C+,Java,Perl,Python,etc,为什么要使用Unix/Linux操作系统?,功能强大,应用广泛主要应用于高性能计算机良好的多用户管理与网络服务联系紧密:apache,php,WWW服务丰富的命令和应用程序(打包、免费),Linux,天才大学生LinusTorvalds开发用于PC的免费Unix开放源代码,业余爱好者共同开发它的出现,使得Unix成为一个低廉或免费的OS系统资源消耗file3若文件file3已经存在,则其内容会被覆盖过去;欲避免这种状况发生,可用“”代替“”,新的内容就会附加在原有内容之后,而不会覆盖它。,分屏显示文件命令more,more可将文件内容显示于屏幕上,每次只显示一页。可以往下浏览,但无法向上浏览,less指令可以上下浏览。more选项文件名,-指定每次要显示的行数+/在文件中查找选项中指定的字符串,然后显示字符串所在该页的内容+从指定的行数开始显示-n每次只显示n行-c不滚屏,在显示下一屏之前先清屏,在文件file1中查找“123”字符串,然后从改页开始显示文件的内容:#more+/123file1显示文件file1的内容,每10行显示一次,而且在显示之前先清屏。#morec10file1,显示文件的前几行命令head,在屏幕上显示指定文件的开头若干行。默认值是10行。head选项文件名-cN:显示前N个字节-nN:显示前N行#head5file,显示文件的最后几行命令tail,在屏幕上显示指定文件的末尾若干行。默认值是10行。tail选项文件名-cN:显示前N个字节-nN:显示前N行+N:从文件开头的第N行开始显示,比较文件内容命令,comm比较两个已排过序的文件diff比较文件的差异,正则表达式sed与awk的基础,正则表达式是一些特殊或不很特殊的字符串模式的集合。字符集包括:普通字符集和元字符集(通配符)普通字符集:大小写字母、数字、空格、下划线行首$行尾*一个单字符后紧跟*,匹配0个或多个此单字符匹配内字符,可以是一个单字符,也可以是字符序列。可以使用”-“来表示内范围,如1-5等价于1,2,3,4,5。屏蔽一个元字符的特殊含义,如$表示字符$,而不表示匹配行尾。.匹配任意单字符几个常见的例子:显示可执行的文件:lsl|grepx.x.x不包括文件夹:ls-l|grep-.x.x.x只显示文件夹:lsl|grepd匹配所有的空行:$匹配所有的单词:A-Za-z*匹配任一非字母型字符:A-Za-z包含八个字符的行:.$(8个.),Sed命令,命令格式sed/pattern/actionfilespattern:正则表达式action:操作,包括p、d、s示例:打印行:sedn/0.0-90-9$/pfruit_prices.txt删除行:sed/Mmango/dfruit_prices.txt执行替换/pattern1/s/pattern2/pattern3/g:seds/paech/peach/gfruit_prices.txt使用多重sedsedecmd1-ecmdNfiles:sedes/paech/peach/es/*0-90-9.0-90-9$/$/fruit_prices.txt在管道中使用sed,awk命令,命令格式awk/pattern/actionsfiles示例:字段编辑:awkF:print$1,$3inputfiles或:awkF:printf“%sis%sn”,$1,$3inputfiles执行指定模式的操作:awk/*$1-90-9*.0-90-9*/print$0;next/*$0.0-90-9*/print$0fruit_prices.txt比较操作符:、=、=、!=、value/pattern/、value!/pattern/(相关:useBio:SeqIO;my$db=newBio:DB:GenBank();my$seq=$db-get_Seq_by_acc(U14680);my$seqout=newBio:SeqIO(-format=genbank);if(defined$seq)$seqout-write_seq($seq);,怎样提高学习兴趣与效率?,怎样用perl解析BLAST的输出结果?,谢谢,
展开阅读全文