生物信息数据库1117(骄阳书苑)

上传人:8** 文档编号:177301141 上传时间:2022-12-25 格式:PPT 页数:78 大小:3.29MB
返回 下载 相关 举报
生物信息数据库1117(骄阳书苑)_第1页
第1页 / 共78页
生物信息数据库1117(骄阳书苑)_第2页
第2页 / 共78页
生物信息数据库1117(骄阳书苑)_第3页
第3页 / 共78页
点击查看更多>>
资源描述
1专业课堂 直接来源于实验获得的原始数据直接来源于实验获得的原始数据,只经过简单的归类、整理只经过简单的归类、整理和注释。和注释。一级核酸数据库:一级核酸数据库:GenBank数据库、数据库、EMBL数据库、数据库、DDBJ数据库数据库 一级蛋白质序列数据库:一级蛋白质序列数据库:SWISS-PROT库、库、PIR库库 一级蛋白质结构数据库:一级蛋白质结构数据库:PDB数据库数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。据库。人类基因组图谱库人类基因组图谱库GDB、转录因子和结合位点库、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库蛋白质序列功能位点数据库Prosite等。等。2专业课堂(1 1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 (2 2)数据库使用频率增长更快)数据库使用频率增长更快 (3 3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 (4 4)数据库网络化)数据库网络化 (5 5)面向应用)面向应用(6 6)先进的软硬件配置)先进的软硬件配置3专业课堂4专业课堂5专业课堂rGenBankhttp:/www.ncbi.nlm.nih.gov/Genbank/index.htmlrEMBL(European Melecular Biology Laboratory)http:/www.ebi.ac.uk/embl/rDDBJ(DNA Data Bank of Japan)http:/www.ddbj.nig.ac.jp/index-e.html6专业课堂r1982.4 由由Los Alamos National Lab创建创建rNCBI(National Center for Biotechnology Information)rNIH(National Institute of Health)r 数据库查询工具:数据库查询工具:Entrezr 数据提交工具:数据提交工具:Sequinr Nucleic Acids Research,2008 Jan;36(Database issue):D25-307专业课堂8专业课堂v173.0,2009.099专业课堂10专业课堂r1.提供高质量的,无冗余的,完整的序列提供高质量的,无冗余的,完整的序列信息;信息;r2.包括基因组的包括基因组的DNA,转录成的转录成的RNA以及蛋以及蛋白质序列信息。白质序列信息。r3.序列文件的标识符:序列文件的标识符:mRNA序列:序列:NM_001158非编码非编码RNA:NR_002769蛋白质序列:蛋白质序列:NP_001159r http:/www.ncbi.nlm.nih.gov/RefSeq/11专业课堂12专业课堂13专业课堂r1982.3 由德国科隆大学收集整理由德国科隆大学收集整理rEBI(European Bioinformatics Institute)r 数据库查询工具:数据库查询工具:SAS(开源开源)r数据提交工具:数据提交工具:WebIn,Sequinrhttp:/www.ebi.ac.uk/embl/14专业课堂15专业课堂r创建于创建于1986年年rNIG(National Institute of Genetics)r 数据库查询工具:数据库查询工具:SASr数据提交工具:数据提交工具:Sequinr http:/www.ddbj.nig.ac.jp/index-e.html16专业课堂17专业课堂r1998年,年,GenBank、EMBL和和DDBJ共同共同成立了国际核酸序列数据库协会成立了国际核酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸数据库之间每天将新测定或更新三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。整与同步,每两个月更新一次版本。rhttp:/www.insdc.org/18专业课堂19专业课堂20专业课堂21专业课堂rPIRhttp:/pir.georgetown.edu/rSwissProthttp:/www.expasy.ch/sprot/rTrEMBLhttp:/www.expasy.ch/sprot/22专业课堂r1984年,蛋白质信息资源(年,蛋白质信息资源(Protein Information Resource,PIR)计划由美国)计划由美国国家医学研究基金会(国家医学研究基金会(NREF)正式启动)正式启动r1988年,日本的国际蛋白质信息数据库年,日本的国际蛋白质信息数据库(JIPID)和德国慕尼黑蛋白质序列信息中)和德国慕尼黑蛋白质序列信息中心(心(MIPS)加入)加入PIRr非冗余、高质量注释、全面分类非冗余、高质量注释、全面分类23专业课堂r1986年,由瑞士日内瓦大学创建。年,由瑞士日内瓦大学创建。rSIB(Swiss Institute of Bioinformatics)rExPASy(Expert Protein Analysis System)r所有序列条目均经过有经验的分子生物学所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白家和蛋白质化学家审核,因此又称为蛋白质专家库质专家库24专业课堂r1996年创建,意为年创建,意为“Translation of EMBL”r从从EMBL的的cDNA序列翻译而来,包含序列翻译而来,包含EMBL数据库中所有核酸编码序列信息数据库中所有核酸编码序列信息25专业课堂26专业课堂27专业课堂28专业课堂r2002年在年在NIH资助下将资助下将PIR、Swiss-Prot和和TrEMBL合并为合并为UniProt(Universal Protein Resource)r具有全世界最全面的蛋白质分类信息具有全世界最全面的蛋白质分类信息r包含三个子库包含三个子库UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rhttp:/www.uniprot.org29专业课堂30专业课堂rUniProt Knowledgebase(UniProtKB):):Release 15.4,16-Jun-2009,包括:,包括:Swiss-Prot Release 57.4:497293 entries TrEMBL Release 40.4:9145906 entries r包含蛋白质序列全面的信息,提供准确、包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。丰富的序列与功能注释。r记录以记录以6位字母和数字组成,例:位字母和数字组成,例:Q5K8D3 31专业课堂32专业课堂33专业课堂34专业课堂35专业课堂rUniProt Refefence Clusters(UniRef)r通过通过CD-HIT算法把非常相似的序列聚类算法把非常相似的序列聚类r根据序列根据序列Identity=100%,Identity90%,Identity50%进行聚类合并,形成进行聚类合并,形成UniRef100、UniRef90和和UniRef50三个子三个子库,加速同源搜索。库,加速同源搜索。r记录以记录以UniRefXX开头加开头加UniProtKB的的Accession表示,例:表示,例:UniRef90_O70405 36专业课堂rUniProt Archive(UniParc)r存储所有公共数据库中有效的蛋白质序列存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据库的链数据,包括序列的来源及来源数据库的链接。接。r记录所有蛋白质的当前状态和历史信息记录所有蛋白质的当前状态和历史信息r记录以记录以UPI开头,例:开头,例:UPI000005E9D0 37专业课堂38专业课堂PDB网址:网址:http:/www.rcsb.org/pdb(美国美国)(1)PDB(Protein Data Bank)http:/www.rcsb.org u 由由 Brookhaven National Laboratories 创办创办 v 蛋白质蛋白质 v 核酸核酸 v 其它其它 u 57,706 个结构图(个结构图(2009.5.20)39专业课堂40专业课堂41专业课堂42专业课堂r2003年,年,PDB(RCSB),),MSD-EBI(EBI),),PDBj(Japan)组建了全球范)组建了全球范围的围的PDB库(库(worldwide PDB,wwPDB)r数据共享,统一数据格式数据共享,统一数据格式r数据集中存储,尚未提供数据检索服务数据集中存储,尚未提供数据检索服务rhttp:/www.wwpdb.org/43专业课堂44专业课堂显示分子结构(显示分子结构(RasMol RasMol,ChemView ChemView)45专业课堂46专业课堂r收集某些生物整个基因组序列的数据库收集某些生物整个基因组序列的数据库r基因组计划基因组计划Human Genome Projecthttp:/www.sanger.ac.uk/HGP/C.elegans Projecthttp:/www.sanger.ac.uk/Projects/C_elegans/r从从GenBank中选择同一物种的核酸信息组中选择同一物种的核酸信息组成的二级库成的二级库47专业课堂 老鼠老鼠(Mouse)http:/www.informatics.jax.org/mgd.html 小鼠小鼠(Rat)http:/ratmap.gen.gu.se 狗狗(Dog)http:/mendel.berkeley.edu/dog.html 牛牛(Cow)http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪(Pig)http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊(Sheep)http:/dirk.invermay.cri.nz 鸡鸡(Chicken)http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼(Zebra fish)http:/zfish.uoregon.edu 线虫线虫(C.elegans)http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇果蝇(Drosophila)http:/morgan.harvard.edu 蚊子蚊子(Mosquito)http:/klab.agsci.colostate.edu 拟南芥拟南芥(Arabidopsis)http:/genome-www.stanford.edu/Arabidopsis 棉花棉花(Cotton)http:/algodon.tamu.edu 玉米玉米(Maize)http:/www.agron.missouri.edu 水稻水稻(Rice)http:/www.staff.or.jp 大豆大豆(Soya)http:/mendel.agron.iastate.edu:8000/main.html 树树(Trees)http:/s27w007.pswfs.gov 48专业课堂 二级数据库的形式:大多以二级数据库的形式:大多以web界面为基础,具有文字信界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。一级数据库与二级数据库之间并无明确的界限。(例如:(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特等都已经具有二级数据库的特色)色)49专业课堂 德国德国Pastear研究所建立。研究所建立。除具有浏览、检索、搜寻功能外,还对环状基因组实现可除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。视化。网址网址:http:/ 50专业课堂ColiBri网址网址:http:/ 始建于始建于1990年代初,由瑞典生物信息学研究所年代初,由瑞典生物信息学研究所SIB负责维负责维护。护。基于对蛋白质家族中同源序列多重序列比对得到的保守区基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。域,这些区域通常与生物学功能相关。数据库包括两个数据库文件:数据文件数据库包括两个数据库文件:数据文件Prosite;说明文件;说明文件PrositeDoc。Prosite网址网址:http:/cn.expasy.org/prosite53专业课堂54专业课堂 蛋白质二级结构构象参数数据库蛋白质二级结构构象参数数据库 DSSP的网址的网址:http:/www.cmbi.kun.nl/gv/dssp/蛋白质家族数据库蛋白质家族数据库 FSSP的网址:的网址:http:/www2.embl-ebi.ac.uk/dall/fssp/同源蛋白质数据库同源蛋白质数据库 HSSP的网址:的网址:http:/www.cmbi.kun.nl/gv/hssp/55专业课堂56专业课堂酶和代谢数据库酶和代谢数据库(1)KEGG(Kyoto Encyclopedia of Genes and Genomes)u 各种代谢、遗传等路径图各种代谢、遗传等路径图 u 可检索参于可检索参于各种各种路径的基因路径的基因KEGG主页主页http:/www.genome.ad.jp/kegg/点击点击“KEGG PATHWAY”“PATHWAY”网页点击任何代谢路径(网页点击任何代谢路径(Metabolism),),如糖酵解如糖酵解/糖原异生途径(糖原异生途径(Glycolysis/Gluconeogenesis)u 检索检索Metabolism(1)57专业课堂u 检索检索Genetic Information Processing(2)KEGG主页点击主页点击“KEGG PATHWAY”“PATHWAY”网页点击任何遗传信息(网页点击任何遗传信息(Genetic Information Processing)路径,如)路径,如 Protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息 58专业课堂u 检索检索Environmental Information Processing(3)KEGG主页点击主页点击“KEGG PATHWAY”“PATHWAY”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK signaling pathway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息 59专业课堂u 检索检索Celluar Processes(4)KEGG主页点击主页点击“KEGG PATHWAY”“PATHWAY”网页点击任何网页点击任何Cellular Processes 路径,如路径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息 60专业课堂 历史原因:没有完全统一的数据库格式;历史原因:没有完全统一的数据库格式;了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成:文字注释文字注释 内容(序列,内容(序列,)61专业课堂一个数据库记录一个数据库记录(entry)一般由两部分组成:一般由两部分组成:1.原始序列数据原始序列数据(sequence data)2.描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量:数据的完整性和注释工作量:1.序列数据广,序列注释不够完整序列数据广,序列注释不够完整 2.库数据面窄,序列注释全面库数据面窄,序列注释全面数据库的动态更新:数据库的动态更新:1.不断增加不断增加 2.不断修正不断修正62专业课堂r1.DNA/RNA/氨基酸代码的标识氨基酸代码的标识r2.GenBank数据格式数据格式r3.UniProtr4.FASTA63专业课堂64专业课堂65专业课堂子库类型子库类型GenInfo Identifier66专业课堂67专业课堂68专业课堂69专业课堂EMBL标识字GenBank标识字含义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的序列编号SVVERSION序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期RNREFERENCE相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者RTTITLE相关文献题目RLJOURNAL相关文献刊物名或作者单位RXMEDLINE相关文献Medline引文代码RCREMARK相关文献注释RP相关文献其它注释CCCOMMENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURES序列特征表起始FT序列特征表子项SQBASE CONTENT序列长度、碱基数目统计数空格ORIGIN序列/序列结束标志、空行70专业课堂71专业课堂关键词关键词 名词、描述性词、词组名词、描述性词、词组 序列注册号序列注册号 (Accession number)检索体系检索体系 Entrez Sequence Retrieval System(SRS)Integrated database retrieval system(DBGET)72专业课堂 Entrez是基于Web界面的综合生物信息数据库检索系统。http:/www.ncbi.nlm.nih.gov/entrez 利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。73专业课堂8大类大类44个与个与 Entreze 体系相连的体系相连的数据库数据库 u“Nucleotide Sequences”databases(15)u“Protein Sequences”databses(4)u“Structures”databases(5)u“Genes”databases(4)u“Gene Expression”databases(4)u“Taxonomy”databases(2)u“Genomes”databases(6)u“Literature”databases(4)74专业课堂r Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库r Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。r Entrez系统的开发基于特殊的数据模型NCBI ANS.1(Abstract Syntax Notation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献。75专业课堂向数据库提交和修改核苷酸和蛋白质序列向数据库提交和修改核苷酸和蛋白质序列 提交:提交:Submission 修改:修改:Update 数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用76专业课堂http:/www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord77专业课堂 大量的序列提交大量的序列提交可以由可以由SequinSequin程序完成。程序完成。SequinSequin程序能方便的编辑和程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。据。SequinSequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以何以FASTAFASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以整合到格式序列为输入数据的序列分析程序都可以整合到SequinSequin程序下。程序下。在不同操作系统下运行的在不同操作系统下运行的SequinSequin程序都可以在程序都可以在ftp:/ncbi.nlm.nih.gov/sequin/ftp:/ncbi.nlm.nih.gov/sequin/下找到,下找到,SequinSequin的使用说明可详见其网页。的使用说明可详见其网页。http:/www.ncbi.nih.gov/Sequin/index.htmlhttp:/www.ncbi.nih.gov/Sequin/index.html78专业课堂
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!