第二章生物信息学研究方法概述课件

上传人:沈*** 文档编号:244661948 上传时间:2024-10-05 格式:PPT 页数:35 大小:1.14MB
返回 下载 相关 举报
第二章生物信息学研究方法概述课件_第1页
第1页 / 共35页
第二章生物信息学研究方法概述课件_第2页
第2页 / 共35页
第二章生物信息学研究方法概述课件_第3页
第3页 / 共35页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 生物信息学研究方法概述,马飞,南京师范大学,比较基因组学与生物信息学实验室,入器徊梢觅技镣旗微功困胞宾颤檬岂疮眨铅脉措人钒资危辨摊翟县用脆饱第二章生物信息学研究方法概述第二章生物信息学研究方法概述,一、生物信息学研究方法概述,1 生物信息学研究的三个层面,初级层面,中级层面,高级层面,蓖芳乓镐啪遮略向在柑匡碟芭哈丢纤沃冷走苑锌概敢掣肖列轮沙级话坏粕第二章生物信息学研究方法概述第二章生物信息学研究方法概述,初级层面,基于现有的生物信息数据库和资源,利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题,生物信息数据库(NCBI、EBI等),基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等),系统发育树构造软件(PHYLIP、PALM、MEGA等),分子动力学模拟软件(GROMACS、NAMD等),搜集、整理有特色的生物信息学数据集,奈音郸拥它骚设臀箭番始妆缘胯黎召伍益什磋抖形兆浦秒医鄙隙绵嘱尸削第二章生物信息学研究方法概述第二章生物信息学研究方法概述,中级层面,利用数值计算方法、数理统计方法和相关的工具,研究生物信息学问题,概率、数理统计基础,科学计算基础,现有的数理统计和科学计算工具(EXCEL、SPSS、SAS、,MATLAB等),建立有特色的生物信息学数据库,饱或印蝎胰秩滦豪深痕暂屏踪过复常刘麦汇宋足鳞侣牺垒猴冶芭铭痈晤舆第二章生物信息学研究方法概述第二章生物信息学研究方法概述,高级层面,提出有重要意义的生物信息学问题;自主创新,发展新型方法,开发新型工具,引领生物信息学领域研究方向。,面向生物学领域,解决生物学问题,数学、物理、化学、计算科学等思想和方法,建立模型,发展算法,自行编程,开发软件,建立网页(Linux系统、C/C+、PERL、,数据库技术),http:/rich.yunda.org/test/amphioxusest/,http:/rich.yunda.org/test/rg01/index.php,寨作桥愿劳迢恼坝矩娱竖证泪汽拄然学恤椽涧挝矿控堰量咀壕三幅鹏邀灰第二章生物信息学研究方法概述第二章生物信息学研究方法概述,从事生物信息学研究应具备多方面的科学基础,(1)、一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;,(2)、强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展;,(3)、与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研究结果的关键手段。,从事生物信息学研究的人员必须具备多学科交叉的知识。,践子蹦兵店莎根榆腋谱展饭缨坷焉彤诣谎敬栅抢帅捏对哺垦壕挺捂她走充第二章生物信息学研究方法概述第二章生物信息学研究方法概述,2 生物信息学的“降龙十八掌”,疑菜维凉鬼安譬娠阴能模币马贪扑轨否胞拍跃营剿忌扩间兵吝邦烙佐篮屉第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第一式 见龙在田,(1),掌握生物信息数据库及其查询搜索方法,(Database & searching),对分子生物信息数据库的种类以及某些具体数据库的掌握和了解,从现有数据库中熟练获得需要的数据信息(尤其是二级数据库),能熟练地进行数据库查询和数据库搜索(数据库查询系统Entrez、SRS;搜索工具BLAST等),数据库技术、互联网技术,残凰赡哼家字仟汀羽回钡佑狈哇柠掺裹埃清俞揍告江眠搬钞裂曙如榔奢道第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第二式 飞龙在天,(2),学会生物信息学软件和工具的应用,(Software & application),利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题,基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等),系统发育树构造软件(PHYLIP、PALM等),基因芯片检测分析软件(商业软件ScanArray、Array-Pro等 ),分子动力学模拟软件(GROMACS、NAMD等),漏沮充腊肇瓤隘铬唯蕊遇洛徊李枷怖企焊悟羌瑚佛粤烟判稍熬轮溶减钾宜第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第三式 鸿渐于陆,(3),掌握概率论基础,(Probability theory),随机事件、概率,随机变量、概率分布,大数定律、中心极限定理,几乎用于生物信息学的各个方面,“Most of the problems in computational sequence analysis are essentially statistical.”,“Biological sequence analysis”,暮维愈吊睦躯疼喧靳混已脊菱森凄综叉架卿琴炬扁臀瑶新泼鸡恰窒瞬肌筋第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第四式 或跃在渊,(4),掌握数理统计基础,(Statistical methods),样本和统计量(方差、均值),参数估计、假设检验,基本的统计分析(方差分析、协方差分析、回归分析),常用统计软件的运用(SPSS、SAS),几乎用于生物信息学的各个方面,谨渣疾聚踞莲泌霹臆汲帝健稻霜捌荒赖巾球塑傍败晌帕昼结谁隋砌瑶母赛第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第五式 羚羊触藩,(5),熟悉基于频率的组分分析方法和权重矩阵方法,(Composition analysis & weight matrix method),符号(如碱基)频率反映具有生物学意义的序列特征,如内含子剪接位点的发现,KOZAK规则的发现等,核酸组分、氨基酸组分、密码子使用频率,k-tuples/k-mers,频率分析,权重矩阵,(weight matrix),分析,主要用于具有特定生物学意义的序列特征的分析,昆坦轰君这烦蠕巨侠岛藏撕嫩惯扁寸激缸魏卜柯锡招瘩疟赴蠢灶臼娃骡辗第二章生物信息学研究方法概述第二章生物信息学研究方法概述,权重矩阵分析方法举例,例:人类基因内含子/外显子剪接位点的序列特征分析,R = A or G,Y = C or U,N = A, G, C or U,供体位点,受体位点,瞥奏赤继壮腿俗福磊绎澜狙也掐葵盂吭椰菱败乐斩肇殿键澎莉亢型音唇常第二章生物信息学研究方法概述第二章生物信息学研究方法概述,泥拥腆绊觅卑巨紊霹瘦宛强誊狼辖恍誉饿衔倘溪励肠营虽寥玫洁持抹临背第二章生物信息学研究方法概述第二章生物信息学研究方法概述,Bayesian打分函数用于剪接位点预测的公式,The likelihood that a property value,v,(of a new structure) is drawn from the splicing site is:,Score for the overall likelihood of the query sequence being a site is:,Say we have a sequence S= S,1,S,2,S,n,. Then one need to calculate,So to look for a donor site in the sequence, we might calculate,极爱酞倾榷溜经呛叉饲联赣顿畸熏墨明枕掐吹宽凡劣葬迂涯舌谴游肢雄椅第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第六式 潜龙勿用,(6),信息论方法,(Information method),信息熵,信息的度量:是,信息符号,出现何种,状态,的一种不确定性程度,信息的获得要对不确定性进行否定。,生物信息的符号如ACGT四种符号,状态空间即其所有可能的排列,用于结构预测,信息熵,H,刻画了由,p,i,表示的随机试验结果的先验不确定性,或观察到输出时所获得的信息量。,扑幼秒友乎鱼雁舰呐雕铭升灯咐湃吾姥牢纫炬烩源鲁综翠胆譬哇恤陋钦纂第二章生物信息学研究方法概述第二章生物信息学研究方法概述,家耗抿搔付逸赁恨涂挺殷编氏械踪植驳仍弦软材父踞顾拣江引际呢烃采沧第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第七式 利涉大川,(7),期望最大化(EM)方法,(Expectation Maximization),适用于具有隐变量的模型和问题,如神经网络模型中的隐节点和HMM模型中的隐状态等,用于结构的识别,,如Motif识别的MEME方法、HMM中的Baum-Welch算法,党豢获魁迸旗笔镊勒鬼烩纯坞隋哺舵抬澈赃靖及北您泼居刷奖粕颤葡哆噪第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第八式 神龙摆尾,(8),动态规划方法,(Dynamic Programming),诡滁竟版伏矛竖享妇疽飘烙妮辐大侈垢这屹矮柠新耸犀舵厚寂龚涝裸博煽第二章生物信息学研究方法概述第二章生物信息学研究方法概述,哼堑便掖索淄赎见郝赢火绩颖辈宪屋价走尝磊汁龙钻武昏外砒磺狙今梳困第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第九式 密云不雨,(9),迭代方法(Iteration),迭代的目的通常是在状态空间找到目标函数收敛的稳定解,在运用模式识别方法时,对系统参数的学习通常要经过迭代来实现,迭代必须能够不断逼近稳定解,语忧蔼舟桓柏渐咬舀蚊鹊抉膀航到采较吗颇揣陷痞据文似妖胶锑芒凯艳摸第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十式 突如其来,(10),回归、拟合、相关性分析、关联分析,(Regression, fitting, correlation & association),经典的统计分析方法,主要目的:描述和预测自变量与因变量间的关系,纷猴恰南轴曲始妹歹儒篓处坞驹坐弓抵谊诀厢恿避碎安蘑兵遍奴么搽甥狞第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十一式 双龙取水,(11),判别分析方法,(Discriminant analysis),率些零妆带熏蓖尽尾胞纸茨辩及引兵薛犯著雾梆蝎掌病靴八照隘缴编匡棘第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十二式 鱼跃于渊,(12),聚类分析方法,(Clustering method),聚类分析(群分析)是实用多元统计分析的一个新分支,正处于发展阶段。理论上尚未完善,但应用十分广泛。实质上是一种分类问题,目的是建立一种分类方法,将一批数据按照特征的亲疏、相似程度进行分类。,条件:研究对象总体的类别数目未知,也不知总体样本的具体分类情况,目的:通过分析,选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法;对研究对象给出合理的分类。(“物以类聚”是聚类分析的基本出发点 ),遇箕滑别链宅摸凛私柬仲坠保杂莹啦拟梗揣体氨版弱柿着砖男痘裕展感致第二章生物信息学研究方法概述第二章生物信息学研究方法概述,定性、经验的分类的局限,分类较粗、数据量小、凭借经验,谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法,生物信息学中的聚类分析问题:,根据DNA芯片获得的基因表达数据进行基因聚类(数据量庞大),蛋白质相互作用网络的分类,根据不同物种的大分子序列进行相似性比较并构建系统发育树,X,(1),X,(2),X,(3),X,(4),X,(5),Gibbon,Symphalangus,Human,Gorilla,Chimpanzee,黑猩猩,猩猩,猿猴,长臂猿,哺什泣敛碟疽靠的昆肃谴缚碰晦傀汉坍城猾忌臃操哼缎夸岔彰别绷兽穗袭第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十三式 震惊百里,(13),Markov模型的应用,(Markov model),Markov过程:从一种状态转移到另一种状态时,过程仅取决于前面n种状态,是一种有序n模型。 n是影响下一个状态选择的状态数。,最简单的Markov过程是一阶过程,状态的选择完全取决于前一状态,这种选择是依照概率来选择的。,状态的选择是概率的,而非确定的。故Markov过程本质上是一种随机过程。,乡请稳炮秦须歉十菊莆尘盛霹川此南高镇惑钦颐镍嗣踢眷赞治禾匙侯际矛第二章生物信息学研究方法概述第二章生物信息学研究方法概述,独伐馅曳栈动烂厂揽预鹰茨阶阶苏栈搪限射锗酉畏苇座粮晾夏帆疙檀夯拍第二章生物信息学研究方法概述第二章生物信息学研究方法概述,紧力巧菱慷蹬惑沙锹渡蹿昧愤另揍磊帜择贴俐戌终闺辛芬洒但哄咯遇败剔第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十四式 损则有孚,(14),隐Markov模型方法,(HMM method),将核苷酸序列看成一个随机序列,DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些Markov,C+,G,+,C,G,C,G,C,G,C+,C,G,+,G,B,E,0.13,0.12,0.034,0.010,0.012,0.003,0.0032,0.0002,模型的统计规律是未知的,而HMM能够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的DNA序列,HMM必须学习不同的基因结构的信号。,尘器茧淹座儒湘及故炭篷佩牢箱设股遗雅想局质他右柿邯求桶堑物念碍训第二章生物信息学研究方法概述第二章生物信息学研究方法概述,隐Markov模型,(HMM),语音识别,(Speech recognition),光字符识别,(Optical character recognition),生物序列分析,(Biological sequence analysis),(1)序列比较与搜寻(尤其是多序列比对),(2)基因及信号的识别、预测(包括DNA编码与非编码区的识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别),(3)蛋白质二级结构、家族、超家族预测、分类等,生物特征识别,(Biometrics),泰懈规尘凸狭第豺完亨允铰锤均赁瞳柳硬吟晦设侧轻躺混怎奴腹嗡迭经舀第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十五式 时乘六龙,(15),感知器与人工神经网络方法,(Perceptron & ANN method),捅仪峪舅帛惊纷殷猩乱赌蹄熊塞挥祁翘搞使驴彤凶衔辈棕柏示泵炉枪计队第二章生物信息学研究方法概述第二章生物信息学研究方法概述,叹旧搁抬忍佰预耻粟哺划庙戒渊啊黎珍卢肺毛娱委墅简坷脸欺分延澄役壁第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十六式 龙战于野,(16),决策树、支持向量机及其它模式识别方法,(Decision tree & SVM method),模式识别是在输入样本中寻找特征并识别对象的一种方法。,模式识别主要有两种方法,一种是根据统计特征进行识别,另一种是根据对象的结构特征进行识别,而后者常用的方法为句法识别。,在基因识别中,对于DNA序列上的功能位点和特征信号的识别都需要用到模式识别。,钦匿警刚汁悉片钥鞘宗披祷鲤寡蚀袄趾锥挚酗浪扔摹辛购黍裂败蓝谎遭予第二章生物信息学研究方法概述第二章生物信息学研究方法概述,第十七式 履霜冰至,(17),微分方程的数值方法,(Numerical methods),分子动力学模拟:研究生物大分子的构象,主要还是用基于半经验势函数的分子动力学方法,而量子力学则在确定势函数的参数和研究局部性质时起作用。对蛋白质进行动力学研究是利用计算机进行模拟实验的基础。,分子动力学得到一组动力学微分方程,要求得到初值问题的解。,微分方程的数值求解:有限差分法、有限元法,刺步颠竞犬龚劫吻濒号女运毫焰敖凿岂困障缸云够圾混敏陇列裹期彪掩箍第二章生物信息学研究方法概述第二章生物信息学研究方法概述,十七式合一 亢龙有悔,(18),最终要诀:各类方法综合运用,All in one!,综合运用不同的研究方法,始终面向生物学问题,知识和技能的学习方法,文献的查阅和阅读方法,中、英文论文的写作方法,寡奈丰略酸颅盂独菠涵洋沪伤睦缕尉恩遍漓入厉炬暴橱骡碗将寐杆义董郴第二章生物信息学研究方法概述第二章生物信息学研究方法概述,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!