生物信息学幻灯讲义课件

资源描述

生物信息学生物信息学授课教师授课教师:贾小平贾小平单位单位:河南科技大学农学院河南科技大学农学院第一章：绪第一章：绪论论第一节第一节生物信息学及其发展历史生物信息学及其发展历史第二节第二节生物信息学主要研究内容生物信息学主要研究内容第三节第三节生物信息学的基本方法和技术生物信息学的基本方法和技术第四节第四节生物信息学应用与展望生物信息学应用与展望生物信息学是一门新兴的交叉学生物信息学是一门新兴的交叉学科，它将数学和计算机知识应用科，它将数学和计算机知识应用于生物学，以获取、加工、存储、于生物学，以获取、加工、存储、分类、检索与分析生物大分子的分类、检索与分析生物大分子的信息，从而理解这些信息的生物信息，从而理解这些信息的生物学意义。学意义。生物信息学的概念：生物信息学的概念：“Bioinformatics is the science of using information to understand biology.Its the discipline of obtaining information about genomic or protein sequence data.This may involve similarity searches of databases,comparing your unidentified sequence to the sequences in a database,or making predictions about the sequence based on current knowledge of similar sequences.”Claverie（2000）生物信息学的诞生：生物信息膨胀生物信息膨胀生物信息学生物信息学有效管理有效管理?准确解读准确解读?充分使用充分使用?生物信息学发展史(1)(1)萌芽期萌芽期(60-70(60-70年代年代)序列比较序列比较(2)(2)形成期形成期(80(80年代年代)分子数据库和分子数据库和BLASTBLAST等相似性搜索程序等相似性搜索程序(3)(3)高速发展期高速发展期(90(90年代年代-至今至今)基因组测序与分析基因组测序与分析n1962 Pauling1962 Pauling提出分子进化理论提出分子进化理论 n1967 Dayhoff1967 Dayhoff构建蛋白质序列数据库构建蛋白质序列数据库 n1970 Needleman-Wunsch1970 Needleman-Wunsch算法被提出算法被提出 n1977 Staden1977 Staden利用计算机软件分析利用计算机软件分析DNADNA序列序列 n1981 Smith-Waterman1981 Smith-Waterman算法出现算法出现 n1981 1981 序列模序序列模序(motif)(motif)的概念被提出的概念被提出(Doolittle)(Doolittle)n1982 GenBank1982 GenBank数据库数据库(Release3)(Release3)公开；公开；EMBLEMBL创立创立 n1982-1982-噬菌体基因组被测序噬菌体基因组被测序n1983 Wilbur1983 Wilbur和和LipmanLipman提出序列数据库的搜索算法提出序列数据库的搜索算法(Wilber-(Wilber-LipmanLipman算法算法)n1985 1985 快速序列相似性搜索程度快速序列相似性搜索程度FASTP/FASTNFASTP/FASTN发布发布 n1988 1988 美国家生物技术信息中心美国家生物技术信息中心(NCBI)(NCBI)创立创立 n1988 1988 欧洲分子生物学网络欧洲分子生物学网络EMBnetEMBnet创立；三大核酸数据库创立；三大核酸数据库(GenBank(GenBank、EMBLEMBL和和DDBJ)DDBJ)开始国际合作开始国际合作 n1990 1990 快速序列相似性搜索程序快速序列相似性搜索程序BLASTBLAST发布发布 n1991 1991 表达序列标签表达序列标签(EST)(EST)概念被提出，从此开创概念被提出，从此开创ESTEST测序测序 n1993 1993 英国英国SangerSanger中心在英国休斯顿建立中心在英国休斯顿建立 n1994 1994 欧洲生物信息学研究所在英国欧洲生物信息学研究所在英国HinxtonHinxton成立成立 n1995 1995 第一个细菌基因组测序完成第一个细菌基因组测序完成 n1996 1996 酶母基因组测序完成酶母基因组测序完成 n1997 PSI-BLAST(BLAST1997 PSI-BLAST(BLAST系列程序之一系列程序之一)发布发布 n1998 PhilGreen1998 PhilGreen等人研制的自动测序组装系统等人研制的自动测序组装系统Phred-Phred-Phrap-ConsedPhrap-Consed系统正式发布系统正式发布n1998 1998 多细胞线虫基因组测序完成多细胞线虫基因组测序完成 n1999 1999 果蝇基因组测序完成果蝇基因组测序完成 n2000 2000 人类基因组测序基本完成人类基因组测序基本完成 n2001 2001 人类基因组初步分析结果公布人类基因组初步分析结果公布生物信息学研究内容n建立和管理各种生物数据库建立和管理各种生物数据库n生物信息数据库生物信息数据库使用使用n生物信息学中的数学模式和方法生物信息学中的数学模式和方法研究研究n数据库接口和检索工具的研制数据库接口和检索工具的研制nHGPHGP的实施，对信息采集和处理提出的要求的实施，对信息采集和处理提出的要求n从大量数据中提取新知识从大量数据中提取新知识nDNADNA芯片和微阵列的发展芯片和微阵列的发展生物信息学基本方法和技术n建立生物数据库建立生物数据库各种公共数据库各种公共数据库本地化数据库本地化数据库n数据库检索数据库检索各种数据检索工具的开发和使用各种数据检索工具的开发和使用 Entrez检索体系检索体系 BLAST检索体系检索体系n生物大分子序列分析生物大分子序列分析Homologous sequence analysis（同源（同源序列分析）序列分析）Multiple sequence alignment 多序列多序列比对比对 Evolution analysis（进化分析进化分析）Phylogenetic prediction（系统发育分析系统发育分析）进化进化方式方式分析分析进化进化位点位点分析分析基因组分析基因组分析序列拼接序列拼接序列注释序列注释基因功能、结构分析基因功能、结构分析蛋白质功能、结构分析蛋白质功能、结构分析蛋白质三维结构预测蛋白质三维结构预测蛋白质修饰蛋白质修饰 Electron PCRn统计模型统计模型Hidden Markov model（HMM，隐马尔可夫模，隐马尔可夫模型）型）基因识别和药物设计基因识别和药物设计 Maximum likelihood model（最大似然模型）（最大似然模型）序列进化分析序列进化分析n数学算法数学算法自动序列拼接自动序列拼接外显子预测外显子预测同源序列比较同源序列比较生物信息学应用与展望n基础研究和教学基础研究和教学分子生物学研究的重要手段之一分子生物学研究的重要手段之一生命科学的教学生命科学的教学n药物开发药物开发新药筛选新药筛选药靶设计药靶设计分子药理学研究分子药理学研究n疾病诊断疾病诊断利用疑难病症的病原利用疑难病症的病原DNA序列诊断疾病序列诊断疾病遗传病遗传病n其他其他环境监测环境监测食品安全检测食品安全检测海关检测海关检测n展望展望用于序列分类、相似性搜索、用于序列分类、相似性搜索、DNA序列编码区识别、序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算分子结构与功能预测、进化过程的构建等方面的计算工具已成为研究工作的重要组成部分工具已成为研究工作的重要组成部分生物信息学研究的一个核心问题是数据库的开发生物信息学研究的一个核心问题是数据库的开发数据的共享性和应用性非常重要数据的共享性和应用性非常重要在我国，生物信息学随着人类和水稻等基因组研究的在我国，生物信息学随着人类和水稻等基因组研究的展开已显露出蓬勃发展的势头。生物信息学作为基因展开已显露出蓬勃发展的势头。生物信息学作为基因研究的有力武器，被广泛用于新基因的发现，以达到研究的有力武器，被广泛用于新基因的发现，以达到将有用新基因抢先注册专利的目的。在这场抢基因的将有用新基因抢先注册专利的目的。在这场抢基因的国际竞争中，如何结合我国科研、开发状况，重点投国际竞争中，如何结合我国科研、开发状况，重点投入以求得局部优势和商业回报，是中国科学家和相关入以求得局部优势和商业回报，是中国科学家和相关部门必须面对的新课题。部门必须面对的新课题。第二章第二章:生物信息学数据库生物信息学数据库第一节第一节模式生物模式生物第二节第二节生物数据库生物数据库humanArabidopsis拟南芥拟南芥Thermotoga maritimaEscherichia coli大肠杆菌大肠杆菌Buchnerasp.APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 人类基因组，模式生物基因组计划人类基因组，模式生物基因组计划1、人类基因组计划、人类基因组计划与曼哈顿原子与曼哈顿原子计划、阿波罗登月计划并称的人类科学计划、阿波罗登月计划并称的人类科学史上的重大工程。于史上的重大工程。于1990年首先在美国启年首先在美国启动，后有德、动，后有德、日、英、法、中等国的科学家先后正式加入。日、英、法、中等国的科学家先后正式加入。6060年代初，美国总统年代初，美国总统KennedyKennedy提出两个科学计划：提出两个科学计划：登月计划登月计划攻克肿瘤计划攻克肿瘤计划人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP，Human Genome Project)1984.12 犹他州阿尔塔组织会议，初步研讨测定人类整个基因组DNA序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院（NIH）联合为“人类基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”，Watson担任第一任主任1990.10 经美国国会批准，人类基因组计划正式启动James WatsonWalter Gilbert19951995第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌(H.infH.inf)的全基因组测序完成的全基因组测序完成1996 1996 完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫1997 1997 大肠杆菌大肠杆菌(E.coliE.coli)全基因组测序完成全基因组测序完成1998 1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图开始人类基因组的大规模测序开始人类基因组的大规模测序 CeleraCelera公司加入，与公共领域竞争公司加入，与公共领域竞争启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国际公共领域人类基因组测序会议，加快测序速度届国际公共领域人类基因组测序会议，加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面At the White House on June 26,Francis Collins(r),Director of the National Human Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lauded the thousands of scientists who contributed to the genome sequence.1999.7 第5届国际公共领域人类基因组测序会议，加快测序速度2000 Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组拟南芥全基因组的测序工作2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果2003年，6国科学家宣布人类基因组序列图绘制成功，HGP的所有目标全部实现。Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥HGPHGP的最初目标的最初目标通过国际合作，用通过国际合作，用1515年时间年时间(1990(19902005)2005)至至少投入少投入3030亿美元，构建详细的人类基因组遗传图和物理图亿美元，构建详细的人类基因组遗传图和物理图，确定人类确定人类DNADNA的全部核苷酸序列，定位约的全部核苷酸序列，定位约1010万基因，并对其它万基因，并对其它生物进行类似研究。生物进行类似研究。4 4张图：张图：HGPHGP的终极目标的终极目标阐明人类基因组全部阐明人类基因组全部DNADNA序列；序列；识别基因；识别基因；建立储存这些信息的数据库；建立储存这些信息的数据库；开发数据分析工具；开发数据分析工具；研究研究HGPHGP实施所带来的伦理、法律和社会问题。实施所带来的伦理、法律和社会问题。遗传图物理图物理图序列图序列图转录图转录图Homo sapiens 智人2、模式生物基因组计划、模式生物基因组计划酵母、线虫、果蝇、细菌、水稻等共约酵母、线虫、果蝇、细菌、水稻等共约已完成已完成已经完成全序列测定的基因组已经完成全序列测定的基因组中文名称中文名称数目数目备备注注古细菌 10包括热自养甲烷菌、热球菌等真细菌 42其中5个细菌各测定了多个菌株真核生物 5酵母、线虫、果蝇、智人、拟南芥细胞器201质粒164 噬菌体 90包括不同亚类或不同菌株类病毒 36包括不同亚类或不同菌株病毒126包括不同亚类或不同菌株http:/www.ebi.ac.uk/genomes/virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs(base-pairs)10410810510610710111010109The size of the humangenome is 3 X 109 bp;almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain 30,000 to 40,000 genes.bony fishamphibians 寄生于细菌内的病毒寄生于细菌内的病毒如：大肠杆菌噬菌体如：大肠杆菌噬菌体(coliphages)遗传物质：单链遗传物质：单链/双链、环状双链、环状/线状、线状、DNA/RNA 不具有细胞形态结构，仅由核酸和蛋白质构成；不具有细胞形态结构，仅由核酸和蛋白质构成；如：人艾滋病毒如：人艾滋病毒HIV、SARS冠状病毒冠状病毒体积小，体积小，10300nm；严格的专性细胞内寄生；严格的专性细胞内寄生；对抗生素不敏感。对抗生素不敏感。电子显微镜下的电子显微镜下的SARS冠状病毒冠状病毒100nmEscherichia coli（大肠杆菌）大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物，已经成为实验室和基因工程的重要工具。Escherichia coli O157:H7Escherichia coli K12 Saccharomyces cerevisiae（酿酒酵母）真菌界的单细胞真核生物，有16个染色体。它的全基因组已在1996年测定。秀丽线虫（Caenorhabditis elegans）细胞数目一定：成虫细胞数目只有细胞数目一定：成虫细胞数目只有959个，其中包括个，其中包括302个神经元个神经元有有6条染色体，全基因组于条染色体，全基因组于1998年测定，长年测定，长9.7MbDrosophila melanogaster（果蝇）繁殖很快、容易诱发变异的小繁殖很快、容易诱发变异的小昆虫。总长达昆虫。总长达1.8亿核苷酸。亿核苷酸。Arabidopsis thaliana（拟南芥）个体生活周期只有个体生活周期只有6周的十字花科周的十字花科小草，是一种理想的模式植物。小草，是一种理想的模式植物。1个受精卵在个受精卵在24小时内分裂到各种器官初具雏形的程度；小时内分裂到各种器官初具雏形的程度；身体透明的小鱼，生活周期约身体透明的小鱼，生活周期约3个月，是研究脊椎动物发育个月，是研究脊椎动物发育过程的良好对象。过程的良好对象。基因组大小与人类相近，约基因组大小与人类相近，约30亿个核苷酸对，有亿个核苷酸对，有19条染色条染色体；体；生物信息数据库生物信息数据库n基因和基因组数据库基因和基因组数据库 GenBank 美国国家生物技术信息中心美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)建立建立可与可与EMBL、DDBJ合作交换数据合作交换数据包含了所有已知的核酸序列和蛋白质序列，以及与它包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释们相关的文献著作和生物学注释 www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.html(登陆网址登陆网址)EMBL核酸序列数据库核酸序列数据库由欧洲生物信息学研究所由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成维护的核酸序列数据构成可与可与GenBank、DDBJ合作交换数据合作交换数据登陆网址：登陆网址：http:/www.ebi.ac.uk/embl/DDBJ数据库数据库日本日本DNA数据仓库数据仓库全面的核酸序列数据库，与全面的核酸序列数据库，与Genbank和和EMBL核酸库合核酸库合作交换数据作交换数据登陆网址：登陆网址：http:/www.ddbj.nig.ac.jp/GenBankPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大三大DNA数据库之间的关系数据库之间的关系基因组数据库（基因组数据库（GDB）人类基因组图谱数据人类基因组图谱数据包括人类基因组区域（基因、克隆、包括人类基因组区域（基因、克隆、EST、遗传标记、遗传标记等）、人类基因组图谱、人类基因组变异等）、人类基因组图谱、人类基因组变异网址：网址：http:/www.gdb.org http:/ 生物种类生物种类 Organism Organism 网址网址(Address)(Address)曲霉菌 Aspergillus http:/www.ncbi.nlm.nih.gov/genome/guide/aspergillus 蜜蜂 Bee http:/www.ncbi.nlm.nih.gov/genome/guide/bee 猫 Cat http:/www.ncbi.nlm.nih.gov/genome/guide/cat 青蛙 Frog http:/www.ncbi.nlm.nih.gov/genome/guide/frog 老鼠 Mouse http:/www.ncbi.nlm.nih.gov/genome/guide/mouse 小鼠 Rat http:/www.ncbi.nlm.nih.gov/genome/guide/rat/index.html 狗 Dog http:/www.ncbi.nlm.nih.gov/genome/guide/dog 牛 Cow http:/www.ncbi.nlm.nih.gov/genome/guide/cow 猪 Pig http:/www.ncbi.nlm.nih.gov/genome/guide/pig 羊 Sheep http:/www.ncbi.nlm.nih.gov/genome/guide/sheep鸡 Chicken http:/www.ncbi.nlm.nih.gov/genome/guide/chicken斑马鱼 Zebra fish http:/www.ncbi.nlm.nih.gov/genome/guide/zebrafish/index.html海胆 Sea urchin http:/www.ncbi.nlm.nih.gov/genome/guide/sea_urchin 线虫 Caenorhabditis elegans http:/www.ncbi.nlm.nih.gov/genome/guide/nematode Dictyostelium discoideum http:/www.ncbi.nlm.nih.gov/genome/guide/dicty 蚊子 Mosquito http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?果蝇 Drosophila http:/www.ncbi.nlm.nih.gov/genome/guide/fly 黑猩猩 Chimp http:/www.ncbi.nlm.nih.gov/genome/guide/chimp 人 Human http:/www.ncbi.nlm.nih.gov/genome/guide/human 拟南芥 Arabidopsis http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxi棉花 Cotton http:/algodon.tamu.edu 玉米 Maize http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4577水稻 Rice http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4530小麦 Wheat http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4565大麦 Barley http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4513大豆 Soybean http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=3847 西红柿 Tomato http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4081 高粱 Sorghum http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4557 完成测序的生物基因组信息查询完成测序的生物基因组信息查询基因组测序进展状况查询基因组测序进展状况查询（EBI的的Genome MOT主页）主页）n 蛋白质数据库蛋白质数据库 SWISS-PROT 由日内瓦大学医学生物化学系和欧洲生物信息学研究所由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护合作维护包括了从包括了从EMBL翻译而来的蛋白质序列，这些序列经过翻译而来的蛋白质序列，这些序列经过检验和注释检验和注释尽可能减少了冗余，与其它尽可能减少了冗余，与其它30多个数据库建立交叉引用多个数据库建立交叉引用登陆网址：登陆网址：http:/www.ebi.ac.uk/swissprot/PIR（http:/pir.georgetown.edu/）由美国家生物技术信息中心由美国家生物技术信息中心(NCBI)翻译自翻译自GenBank的的DNA序列序列 PIR根据注释程度根据注释程度(质量质量)分为分为4个等级个等级分类名称分类名称说说明明记录数记录数 (Name)（Comment）(Number of entries)PIR1 分类并注释分类并注释(Classified and 20685 annotated)PIR2 注释注释(Annotated)262300 PIR3 未核实未核实(Unverified)24 PIR4 未翻译未翻译(Unencoded or 407 untranslated)PROSITE 蛋白质位点和序列模式库蛋白质位点和序列模式库鉴定蛋白质归属，发现隐含功能域，有效分析序列鉴定蛋白质归属，发现隐含功能域，有效分析序列登陆网址：登陆网址：http:/www.expasy.ch/prosite/PDB 蛋白质结构数据库蛋白质结构数据库来源于来源于X光晶体衍射和核磁共振数据光晶体衍射和核磁共振数据登陆网址：登陆网址：http:/www.rcsb.org/pdb SCOP(Structural classification of proteins)可以比较某一蛋白质与已知结构蛋白的结构相似性可以比较某一蛋白质与已知结构蛋白的结构相似性对已知结构蛋白质进行等级分类对已知结构蛋白质进行等级分类登陆网址：登陆网址：http:/scop.mrc-lmb.cam.ac.uk/scopn 功能数据库功能数据库 KEGG 系统分析基因功能，联系基因组信息和功能信息系统分析基因功能，联系基因组信息和功能信息 GENES数据库存储基因组信息，功能信息存储在数据库存储基因组信息，功能信息存储在PATHWAY数据库数据库登陆网址：登陆网址：http:/www.genome.ad.jp/kegg/DIP 蛋白质相互作用数据库蛋白质相互作用数据库包括蛋白质信息、相互作用信息、检测实验技术包括蛋白质信息、相互作用信息、检测实验技术可以根据蛋白质、物种、关键词、引用文献来查询数可以根据蛋白质、物种、关键词、引用文献来查询数据库据库登陆网址：登陆网址：http:/dip.doe-mbi.ucla.edu/TRRD 转录调控区数据库转录调控区数据库包括转录因子结合位点、启动子、增强子及基因表达包括转录因子结合位点、启动子、增强子及基因表达调控模式调控模式包含包含5个数据表：个数据表：TRRDGENES：包含基因信息和调控单元信息：包含基因信息和调控单元信息 TRRDSITES：包含调控因子结合位点信息：包含调控因子结合位点信息 TRRDFACTORS：包含与各位点结合的调控因子信息：包含与各位点结合的调控因子信息 TRRDEXP：包含基因表达模式描述：包含基因表达模式描述 TRRDBIB：包含所有参考文献：包含所有参考文献登陆网址：登陆网址：http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/TRANSFAC 转录因子及其结合位点数据库转录因子及其结合位点数据库由由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD、REFERENCE等数据表构成等数据表构成有四个扩展库有四个扩展库 PATHODB：导致病态突变转录因子和结合位点：导致病态突变转录因子和结合位点 S/MARTDB：染色体结构变化相关蛋白因子及结合位点：染色体结构变化相关蛋白因子及结合位点 TRANSPATH：与转录因子相关信号传递网：与转录因子相关信号传递网 CYTOMER：人类转录因子时空表达情况：人类转录因子时空表达情况登陆网址：登陆网址：http:/transfac.gbf.de/TRANSFAC/n其它数据库资源其它数据库资源 DBCat 生物信息数据库的目录数据库生物信息数据库的目录数据库收集了收集了500多个数据库的信息多个数据库的信息根据用途对这些数据库进行了分类根据用途对这些数据库进行了分类登陆网址登陆网址:http:/www.infobiogen.fr/services/dbcat/下载地址下载地址:ftp:/ftp.infobiogen.fr/pub/db/dbcat/PubMed NCBI维护的文献引用数据库维护的文献引用数据库提供对提供对MEDLINE、Pre-MEDLINE等文献数据库的引等文献数据库的引用查询用查询对大量网络电子期刊的链接对大量网络电子期刊的链接登陆网址：登陆网址：http:/www.ncbi.nlm.nih.gov/生物信息数据库记录格式生物信息数据库记录格式n数据库记录（数据库记录（entry）组成）组成原始序列数据原始序列数据描述数据生物信息的注释（描述数据生物信息的注释（annotation）注释与序列数据同等重要注释与序列数据同等重要不同数据库注释质量不同不同数据库注释质量不同 EMBL数据库记录格式数据库记录格式 EMBL数据库记录注释代码和内容说明数据库记录注释代码和内容说明代码代码(Code)全全称称(Full meaning)说说明明(Comments)ID identifier（身份号）（身份号）该行的第一项内容是该数据库记录该行的第一项内容是该数据库记录的名的名称，该名称是唯一的，是由称，该名称是唯一的，是由 EMBL数据数据库给定的。其它内容注明了该记录的一库给定的。其它内容注明了该记录的一些状况些状况(如是否已经被核实本例中为如是否已经被核实本例中为已核实，即已核实，即standard；记；记录的碱基数等录的碱基数等)。AC accession 每个记录号均是唯一的，并从不更改，每个记录号均是唯一的，并从不更改，number（记录号）（记录号）是由是由GenBank给定的。如果两个记录被给定的。如果两个记录被合并成一个记录，原始上的合并成一个记录，原始上的2个记录号均个记录号均会被注明会被注明。DT data（日期）（日期）2个日期被注出，一个是该数据第一次被个日期被注出，一个是该数据第一次被记录时间，另一个是最后一次的时间。记录时间，另一个是最后一次的时间。DE description（描述）（描述）对该基因的文字描述对该基因的文字描述 KW keywords（关键词）（关键词）描述该基因的关键词描述该基因的关键词 OS organism(species)物种名称物种名称（物种）（物种）OC organism(classification)（分类）（分类）物种的一个简单分类，该分物种的一个简单分类，该分类并不一定定准确，应谨慎类并不一定定准确，应谨慎从事。从事。OG Organelle（细胞器）（细胞器）该基因是否在某一个特殊的细胞器中该基因是否在某一个特殊的细胞器中RN reference number（文献编号）（文献编号）RC reference comment（文献说明）（文献说明）RP reference positions（文献大小）与该记录研究相关的文献信息（文献大小）与该记录研究相关的文献信息 RX cross-reference（相关文献）（相关文献）RA reference authors（文献作者）（文献作者）RT reference title（文献题目）（文献题目）RL reference location（文献出处）（文献出处）DR database cross-reference（相关文献数据库）见文中说明（相关文献数据库）见文中说明 FH feature header（主表头）（主表头）该记录主要内容列表表头该记录主要内容列表表头 FT feature table data（主表数据）见文中说明（主表数据）见文中说明 CC comments（说明）（说明）对记录的文字说明对记录的文字说明 XX spacer line（空白行）（空白行）SQ sequence header（序列头）（序列头）有关该序列大小和组成的信息有关该序列大小和组成的信息 Blank sequence data（空白）（空白）/termination line（终止行）（终止行）一个记录的终止符号一个记录的终止符号 GENEBANK数据库记录格式数据库记录格式 GENEBANK数据库记录注释代码和内容说明数据库记录注释代码和内容说明LOCUS 原指描述本记录的基因座位，现在没有实际意义原指描述本记录的基因座位，现在没有实际意义 DEFINITION 说明序列来源说明序列来源 ACCESSION 检索号，是从数据库中检索一个记录的主要关键词检索号，是从数据库中检索一个记录的主要关键词，这个号码将在参考文献中被引用这个号码将在参考文献中被引用KEYWORDS 关键词，作用不大，关键词，作用不大，NCBI不鼓励使用不鼓励使用SOURCE 包含生物的通用名或科学名称包含生物的通用名或科学名称 ORGANISM 生物的分类信息生物的分类信息 REFERENCE 参考文献部分，每个参考文献部分，每个GenBank记录至少要有一篇参考文献，记录至少要有一篇参考文献，许多情况下有两篇或多篇。许多情况下有两篇或多篇。FEATURES 该记录的特征说明部分，包括序列来源、序列特性描述该记录的特征说明部分，包括序列来源、序列特性描述Gene 基因名称及长度范围基因名称及长度范围 CDS 存在的或者潜在的编码区存在的或者潜在的编码区 Source 序列详细来源信息序列详细来源信息,GENEBANK中必须出现中必须出现/translation=编码序列的翻译产物编码序列的翻译产物 ORIGIN 序列开始序列开始/结束符号结束符号数据库信息检索系统数据库信息检索系统Entrez(美国美国NCBI建立建立)http:/www.ncbi.nlm.nih.gov/entrez 基于基于Web界面在线检索工具界面在线检索工具可检索核酸、蛋白质序列、基因组图谱等多种数据可检索核酸、蛋白质序列、基因组图谱等多种数据SRS(Sequence retrieval System)(欧洲欧洲分子生物学实验室建立分子生物学实验室建立)http:/ 可应用于大量不同的数据库可应用于大量不同的数据库序列一般可通过记录号序列一般可通过记录号(如来自如来自1篇发表的论文篇发表的论文)或是该序列或是该序列注释中的一些信息进行检索注释中的一些信息进行检索Entrez检索步骤检索步骤1.进入进入entrez2.选择数据库选择数据库3.查询关键词查询关键词4.开始查询开始查询各类数据库各类数据库的介绍的介绍Entrez检索步骤检索步骤显示格式显示格式每页显示数目每页显示数目检索到的记录数检索到的记录数检索到条目，点击进入检索到条目，点击进入点击可以将结果保存到点击可以将结果保存到文件文件Entrez检索步骤检索步骤Genbank格式的序列记录格式的序列记录 Entrez 特点特点使用十分方便，它把序列、结构、文献、基因组、系使用十分方便，它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起，通过统分类等不同类型的数据库有机的结合在一起，通过超文本链接，用户可以从一个数据库直接转入另外一超文本链接，用户可以从一个数据库直接转入另外一个数据库个数据库把数据库和应用程序结合在一起。例如，通过把数据库和应用程序结合在一起。例如，通过“Related sequence”工具，可以直接找到与查询所工具，可以直接找到与查询所得蛋白质序列同源的其它蛋白质。在查询文献数据库得蛋白质序列同源的其它蛋白质。在查询文献数据库摘要得到结果后，可以通过点击摘要得到结果后，可以通过点击“Related Articles”继续查找相关文献。继续查找相关文献。SRS检索步骤检索步骤标准查找标准查找扩展查找扩展查找展开所有数据库展开所有数据库快速查找快速查找选取数据库选取数据库输入查询词输入查询词 SRS的特点的特点统一的用户界面统一的用户界面 SRS具有为统一的具有为统一的Web用户界面，用户只需安装用户界面，用户只需安装Netscape等网等网络浏览器即可通过络浏览器即可通过Internet查询世界各地查询世界各地SRS服务器上的服务器上的300多多个数据库。个数据库。SRS支持以文本文件形式存放的各种数据库，包括序支持以文本文件形式存放的各种数据库，包括序列数据库列数据库EMBL、结构数据库、结构数据库PDB，资料数据库，资料数据库AAIndex、文献、文献数据库数据库MedLine等。等。高效的查询功能高效的查询功能SRS系统采用了建立数据库索引文件的手段，即使是含几百万个系统采用了建立数据库索引文件的手段，即使是含几百万个序列的序列的EMBL数据库，只需几分钟即可实现整库查询，得到所需结数据库，只需几分钟即可实现整库查询，得到所需结果。果。灵活的指针链接灵活的指针链接通过超文本指针链接实现信息资源的有机联系，是目通过超文本指针链接实现信息资源的有机联系，是目前前Internet信息服务的主要趋势。信息服务的主要趋势。SRS采用实时方式，采用实时方式，根据查询结果产生链接指针，而不是在原始数据库中根据查询结果产生链接指针，而不是在原始数据库中增加超文本标记，既节省了存储空间，也便于数据库增加超文本标记，既节省了存储空间，也便于数据库管理。管理。方便的程序接口方便的程序接口将序列分析等常用程序整合到基本查询系统中，是将序列分析等常用程序整合到基本查询系统中，是SRS的另一个重要特点。用户可以对查询结果直接进行进的另一个重要特点。用户可以对查询结果直接进行进一步分析处理。例如，查询所得的蛋白质序列，可立一步分析处理。例如，查询所得的蛋白质序列，可立即用即用BLAST和和FASTA查询程序进行数据库搜索，找出查询程序进行数据库搜索，找出其同源序列用其同源序列用ClustalW程序进行多序列比较。程序进行多序列比较。向数据库提交序列数据向数据库提交序列数据许多学术期刊在发表含有序列数据的论文时，均许多学术期刊在发表含有序列数据的论文时，均要求作者先将该序列发送并存贮到某一数据库中要求作者先将该序列发送并存贮到某一数据库中提交系统提交系统向向GenBank提交序列提交序列BankItSequin http:/www.ncbi.nlm.nih.gov/BankIthttp:/www.ncbi.nlm.nih.gov/Sequin/index.html http:/www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecordGenBank提交序列示意图提交序列示意图在线提交序列（在线提交序列（BankIt）nBankIt是是NCBI提供的一个在线提交序列的工具。提供的一个在线提交序列的工具。由一系列表单，包括联络信息、发布要求、引用参由一系列表单，包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。考信息、序列来源信息、以及序列本身的信息等。n用户提交序列后，会从电子邮件收到自动生成的数用户提交序列后，会从电子邮件收到自动生成的数据条目，据条目，Genbank的新序列编号，以及完成注释的新序列编号，以及完成注释后的完整的数据记录。后的完整的数据记录。n用户还可以在用户还可以在BankIt页面下修改已经发布序列的信息。页面下修改已经发布序列的信息。nBankIt适合于独立测序工作者提交少量序列，而不适合适合于独立测序工作者提交少量序列，而不适合大量序列的提交，也不适合提交很长的序列，大量序列的提交，也不适合提交很长的序列，EST序列序列和和GSS序列也不应用序列也不应用BankIt提交。提交。在线提交序列步骤在线提交序列步骤1.登陆登陆BankIt页面页面 http:/www.ncbi.nlm.nih.gov/BankIt2.填写表单内容。填写表单内容。3.确认表单内容。确认表单内容。4.等待电子邮件返回信息。等待电子邮件返回信息。输入网址登陆输入网址登陆BankIt页面页面:提交工提交工具选择具选择BankIt提交过程提交过程BankIt页面页面:提交政策提交政策BankIt提交过程提交过程BankIt页面页面:在线提交在线提交1 1、输入提交序列、输入提交序列大小大小2 2、点击进入列表页、点击进入列表页更新序列更新序列BankIt提交过程提交过程表单内容项表单内容项BankIt提交过程提交过程提交生成提交生成IDID号号总提交信息总提交信息:多重提交信息多重提交信息总提交信息总提交信息:联系方式联系方式BankIt提交过程提交过程总提交信息总提交信息:序列公开时间序列公开时间总提交信息总提交信息:是否为原创数据是否为原创数据BankIt提交过程提交过程文献信息文献信息:序列作者序列作者BankIt提交过程提交过程文献信息文献信息:第一引用文献第一引用文献BankIt提交过程提交过程文献信息文献信息:第二引用文献第二引用文献BankIt提交过程提交过程来源信息来源信息:来源生物来源生物BankIt提交过程提交过程来源信息来源信息:来源改造物来源改造物来源信息来源信息:引物信息引物信息BankIt提交过程提交过程来源信息来源信息:其它来源描述其它来源描述BankIt提交过程提交过程DNADNA序列的输入序列的输入BankIt提交过程提交过程其他信息其他信息1 1、补充说明、补充说明2 2、保存信息、保存信息3 3、点击确认继续、点击确认继续BankIt提交过程提交过程加入序列特征说明加入序列特征说明BankIt 浏览页浏览页BankIt提交过程提交过程修改内容修改内容点击提交点击提交GenBank 生成的记录生成的记录BankIt提交过程提交过程完成提交完成提交序列提交工具（序列提交工具（sequin）n大量的序列提交大量的序列提交n可提交来自系统进化、种群和突变研究的可提交来自系统进化、种群和突变研究的序列，可以加入比对的数据序列，可以加入比对的数据n可以用于序列的分析可以用于序列的分析Sequin软件下载软件下载:ftp:/ftp.ncbi.nih.gov/sequin/使用说明使用说明:http:/www.ncbi.nlm.nih.gov/Sequin/QuickGuide/sequin.htm 向向EMBL提交数据提交数据在线在线WEBIN工具工具 http:/www.ebi.ac.uk/embl/Submission/webin.htmlSequin软件软件以前提交过数据以前提交过数据新用户提交新用户提交WEBIN提交页面提交页面TPA提交提交下一步序列信下一步序列信息描述息描述WEBIN提交页面提交页面数据库的冗余与偏差数据库的冗余与偏差冗余数据导致的错误冗余数据导致的错误如果包含了大量非常相关序列族，相应的统计分如果包含了大量非常相关序列族，相应的统计分析将偏向这些族，使这些族的特性被夸大析将偏向这些族，使这些族的特性被夸大序列间不同部分的显著相关可能是在数据样本抽序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的样时是有偏的和不正确的如果这些数据是被用于预测，则这些序列将使预如果这些数据是被用于预测，则这些序列将使预测方法测方法如人工智能方法发生偏离如人工智能方法发生偏离去除冗余可能产生的问题去除冗余可能产生的问题过于苛刻地去除过于苛刻地去除“太过于相似的序列太过于相似的序列”可能导致一可能导致一些有价值的信息被删除些有价值的信息被删除,如同一位点上的如同一位点上的2个等位基个等位基因、同一生物体内的因、同一生物体内的2个同功酶个同功酶解决方法解决方法应在数据规模和非冗余之间找到一个合理的平衡点应在数据规模和非冗余之间找到一个合理的平衡点从数据库随机选取数据从数据库随机选取数据随机进行同源分析，从各同源组选取一个样本组合成代表随机进行同源分析，从各同源组选取一个样本组合成代表性样本性样本序列数据偏差产生原因序列数据偏差产生原因载体序列污染载体序列污染异源异源(heterologous)序列污染序列污染序列的重排和缺失序列的重排和缺失重复序列污染重复序列污染测序误差和自然多态性：测序过程存在一定的测序误差和自然多态性：测序过程存在一定的误差概率误差概率解决方法解决方法用去除污染的专门软件系统扫描目的数据用去除污染的专门软件系统扫描目的数据去除载体污染在线服务：去除载体污染在线服务：http:/www.ebi.ac.uk/blastall/vectors.html 特殊序列数据库：特殊序列数据库：EMVEC 获取数据库服务的途径获取数据库服务的途径E-mail服务服务发服务指令到发服务指令到EBI的的mail to：netserv.ebi.ac.uk地地址，想获得记录号为址，想获得记录号为X55652的的DNA序列，在指令序列，在指令栏中键入栏中键入“GET NUC：X55652”，这样，这样EBI服务器服务器便会将该序列的信息发到你的信箱中便会将该序列的信息发到你的信箱中匿名匿名FTP服务服务可利用本地的可利用本地的FTP(file transfer protocol)程序连程序连接到相应的数据库主机上，以接到相应的数据库主机上，以“anonymous”(匿名匿名)为用户名和自己的为用户名和自己的E-mail地址为口令进入地址为口令进入www服务服务通过网络直接进入相关数据库网址，进行数据检索、通过网络直接进入相关数据库网址，进行数据检索、数据传送等数据传送等

展开阅读全文

生物信息学幻灯讲义课件

最新文档