中国科技大学课件系列:《生物信息学

上传人:san****019 文档编号:21824707 上传时间:2021-05-10 格式:PPT 页数:62 大小:3.31MB
返回 下载 相关 举报
中国科技大学课件系列:《生物信息学_第1页
第1页 / 共62页
中国科技大学课件系列:《生物信息学_第2页
第2页 / 共62页
中国科技大学课件系列:《生物信息学_第3页
第3页 / 共62页
点击查看更多>>
资源描述
第二章:序列的采集和存储 DNA:Deoxyribonucleic acid,脱氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸; r1. DNA测序r2. 序列数据的存储核酸序列数据库蛋白质序列数据库基因组数据库r3. 序列数据的文件格式 rDNA一次连续测序的长度约为500bp;rEST (Expressed sequence tag) 测序:细胞中mRNA反转录成cDNA,方向不定测序;rGSS (Genome Survey Sequences,基因组勘测序列):类似于ESTs,来源基因组;rHTG (High-throughput genome sequences,高通量基因组序列):高通量、尚未完工的DNA序列; CAT ddGTPddTTPddATP(D) r1. 基因图谱法:DNA片段在染色体上的位置、方向已知。首先染色体被打断成150200kbp左右的大片段,然后克隆到BACs (Bacterial Artificial Chromosome)中,再进一步随机打断,克隆,测序,依靠计算机组装成长的序列(contig) 。r2. “鸟枪法”(shotgun):DNA片段在染色体上的位置和方向未知。全基因组随机打断成小片段,克隆,双向测序,计算机组装成长的序列。 r 基因组图谱:遗传图谱,物理图谱r 遗传图谱(genetic map):连锁图谱,显示所知的基因和/或遗传标记的相对距离位置与次序。r物理图谱(physical map):表示某些基因和/或遗传标记之间在基因组上的精确位置和距离(如间隔的bp数目)的图谱。 r核酸序列数据库国际三大核酸序列数据库:GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags数据库UniGene等r蛋白质序列数据库UniProtSwiss-prot rhttp:/www.ebi.ac.uk/embl/ rNIG (National Institute of Genetics)rCIB (Center for Information Biology)rhttp:/www.ddbj.nig.ac.jp/index-e.html r1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。rhttp:/www.insdc.org/ r1. 提供非冗余的,高质量的,经检验校正的序列信息;r2. 包括染色体、基因组(细胞器、病毒、质粒)、蛋白质、RNA等;r 序列文件的标识符:mRNA序列:NM_123456非编码RNA:NR_123456蛋白质序列: NP_123456r http:/www.ncbi.nlm.nih.gov/RefSeq r截然不同的Accession号区别于其它GenBank命名格式的序列,前缀是两个字母加下划线 _;r在Comment区域显示来源;r使用正式命名;r包括dbxrefs的特征;r蛋白序列在DBSOURCE区域标示 REFSEQ 最多的20个物种: 2007.08,总序列45,660,524条http:/www.ncbi.nlm.nih.gov/dbEST/ 为每一个基因创造一个唯一的条目,收集这个基因所有的ESTs http:/www.ncbi.nlm.nih.gov/unigene r最早广泛使用的蛋白数据库;欧洲最主要的蛋白序列数据库;http:/www.expasy.ch/sprot/rSIB(Swiss Institute of Bioinformatics)r可由ExPASy(Expert Protein Analysis System)系统访问;r所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白质专家库。 rTrEMBL (Translation of EMBL):计算机注释的Swiss-Prot分支数据库,从EMBL库中的cDNA序列翻译得到的氨基酸序列数据库。rGenPept:由GenBank翻译得到的蛋白质序列,与TrEMBL类似,这两个数据库中的序列错误率较大,均有较大的冗余度。 r1984年,美国国家医学研究基金会(NREF)正式启动蛋白质信息资源(Protein Information Resource, PIR)计划;r美国最主要的蛋白序列数据库;r非冗余、高质量注释、全面分类;rPIR数据库按照数据的性质和注释层次分为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽。rhttp:/pir.georgetown.edu/ rUniversal Protein Resource: Swiss-prot(TrEMBL), PIR两大蛋白数据库的整合体;r收录蛋白质序列目录最广泛、功能注释最全面的数据库;r包含三个子库:UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rhttp:/www.uniprot.org rUniProt Knowledgebase: Release 15.4 , 16-Jun-2009 ,包括:Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 9145906 entries r包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。r记录以6位字母和数字组成,例:Q5K8D3 r为人类基因组计划(HGP)保存和处理基因组图谱数据。rGDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。 r收集某些生物整个基因组序列的数据库;r基因组计划Human Genome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects/ r从GenBank中选择同一物种的核酸信息组成的二级库; The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online.EMBL-EBI和Sanger研究所共同开发。http:/www.ensembl.org/ rDNA/RNA/氨基酸代码的标识rGenBank数据格式rEMBL & UniProt数据格式rFASTA 数据格式 子库Locus名字定义 (标题)修改日期序列类型mRNA (= cDNA)rRNAsnRNADNA序列长度检索号Genbank号序列形状 1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVFFNNRDEKGHNEIITEFKGMMETCKTLGVKYVVAVPLVTEQKIVKEEIKKSSVDVLTELSDIAEPYGVKIALEFVGHPQCTVNTFEQAYEIVNTVNRDNVGLVLDSFHFHAMGSNIESLKQADGKKIFIYHIDDTEDFPIGFLTDEDRVWPGQGAIDLDAHLSALKEIGFSDVVSVELFRPEYYKLTAEEAIQTAKKTTVDVVSKYFSM
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!