structure2.3中文使用手册可编辑范本

资源描述

Strucure2.3中文使用手册Jonan K. PrtchardaXiaouan WenaDani Flushb 12 3a芝加哥大学人类遗传学系b牛津大学统计学系软件来自t：pritch.bd.uciago.edustruture。html2010年2月日我们在Structr项目中的其他的同事有PeeDonlly、atthew Stepens和eiss Hubiz。2开发这个程序的第一版时作者(JP、D)在牛津大学统计系。3关于Srure的讨论和问题请发给在线的论坛上：scr-softwaregoog。在邮递问题之前请查对这个文档并搜索以前的讨论。1引言程序Sruture使用由不连锁的标记组成的基因型数据实施基于模型的聚类方法来推断群体结构。这种方法由普里查德(ritchard）、斯蒂芬斯(tephn)和唐纳利（onnelly）（00a)在一篇文章中引入，由Falush、斯蒂芬斯(Stephn）和普里查德(Prichrd)（2003a,00)在续篇中进行了扩展。我们的方法的应用包括证明群体结构的存在,鉴定不同的遗传群体,把个体归到群体,以及鉴定移居者和掺和的个体。简言之,我们假定有K个群体（这里可能是未知的）的一个模型，每个群体在每个位点上由一组等位基因频率来刻画样本内的个体被(按照概率)分配到群体,或共同分配到两个或更多个群体，如果它们的基因型表明它们是混和的。假定在群体内,位点处于哈迪温伯格平衡和连锁平衡.不精确地讲，个体被按达到这一点那样的方法指定到群体.我们的模型不假定一个特别的突变过程，并且它可以应用于大多数通常使用的遗传标记，包括微卫星(micosatellits)、SP和LP.模型假定在亚群体内标记不处于连锁不平衡(L）,因此我们不能处理极其靠近的标记。从。版开始，我们现在能够处理弱连锁的标记。虽然这里实现的计算方法是相当强有力的,但是为了保证明智的答案,在运行程序的过程中还是需要谨慎。例如，不可能从理论上确定合适的运行长度(时间),这需要用户自己做一些实验。这份资料描述软件的使用和解释,并补充发表的文章,这些文章提供了对方法的更正式的描述和评价。1 概述软件包Structure由几个部分组成程序的计算部分用C语言编写。我们发布源码和用于各种平台(目前有苹果机，Window,Linx,Sun）的可执行文件.C可执行文件读取用户提供的一个数据文件。还有一个Jva前端为用户提供各种有帮助的工具，包括对输出的简单的处理。你也可以从命令行调用Structe而不是使用前端。这份资料包括关于怎样格式化数据文件、怎样选择合适的模型、以及怎样解释结果的信息。它也有关于使用两种界面(命令行和前端）的细节以及各种用户定义的参数的汇总。1.2在2.版中有哪些更新?2.3版(209年4月发布)引入了新的模型用于改进数据集结构的推论，其中（1）数据对于通常的结构模型来说信息不够，不足以提供准确的推论，但是（2)抽样的地点与群体归属关系(opulationemershp)相关。在这种情形下,通过明确利用抽样地点信息,我们使结构得到改善，经常允许性能提高很多(Hbisz et al。， 2009）。我们希望在下几个月释放更进一步的改进。表1:实例数据文件。这里MARKRAMES=1, LABL=1, POPDAA=1, NUMID=7，NMOCI5,MISN9, OPFLAG=,CDATA=0， PHENOYE0， EXTRACOL=0。第列显示个体的地理取样位置。我们也可以把数据存储为每个个体一行(ONEOWPERID),在这种情况下第一行为“Geoe -9 -9 145 9 6 64 00 92 94”.Lo_a Lcb Loc_cLoc_d Loc_e 乔治-9 1456092乔治99494保拉614692保拉11061484094马修211045- 92马修21101866鲍勃2081424194鲍勃29 1429 094nja111242-91-9 Anja 111414269彼得9145609 彼得101459 1-9卡斯坦0814562-9卡斯坦211145641922 数据文件的格式基因型数据的格式显示在表2中(表1显示一个例子)。基本上,整个数据集被作为一个矩阵安排在单个文件里,其中个体的数据在行里,位点在列里。用户能对格式做出若干选择，大多数这些数据（除基因型外!）是可选择的。对于一个二倍体生物,每个个体的数据可以是作为连续的2行被储存，其中每个位点在一列,或者在一行中，其中每个位点在连续的两列。除非你打算使用连锁模型(见下面）,否则单个个体的等位基因的次序并不重要.预基因型(pregotyp)数据列（见下面）对每个体记录两次。（更一般地，对于倍体生物来说，每个个体的数据被储存在n个连续的行中，除非ONEOWRD选项被使用。）2。1数据文件的组成部分:输入文件的要素如下所列。如果给出,它们一定按以下顺序,然而大多数是可选的并且可以被完全删除。用户必须指明哪些数据被给出，或者在前端里(fo ed),或者（当从命令行运行Structure时)在一个单独的文件mnparm里。同时,用户也要指定个体和位点的数目。2。2 行1. 标记名称（可选择;字符串）文件的第一行可以包含数据集里的每个标记的标识符的一个列表。这一行包含整数或字母的个字符串,其中L是位点的数目。2. 隐性等位基因（仅用于有显性的标记数据;整数）SP或者微卫星数据一般将不包括这一行.但是如果选项CESSIVEALELES被设置为1，则程序要求有这一行来表明每个标记上哪个等位基因(如果有的话）是隐性的。关于更多的信息请参阅第4。节。该选项用于象AFLP那样的数据，以及用于多倍体的情形,其中基因型可能是含糊的。3. 标记之间的距离(可选择；实数)文件里的下一行是一个标记之间距离的集合,供有连锁的位点使用。这些应该是遗传距离（例如,厘摩）,或者是这种距离的一些替代,基于(例如)物理距离。如果标记距离（粗略地）与重组率成正比,则距离的实际单位不是那么重要。前端从数据估计一个合适的尺度,但是命令行版本的用户必须在文件etaparams里设置LOG1RMIN、OG10RMX和LOG10RSTART。标记必须按照连锁群中的图谱次序排列。当连续的标记来自不同的连锁群（例如,不同的染色体)时，这应该用数值1注明。第一个标记也被赋值为-。所有其他的距离都是非负的。这一行包含个实数.4. 连锁相信息（可选择;仅用于二倍体数据;在范围,内的实数)。这只供连锁模型使用.这是L个概率的一行,出现在每个个体的基因型数据之后。如果连锁相是完全知道的，或者没有连锁相信息可用，则这些行是不必要的.当有来自家系数据的部分连锁相信息,或者当来自雄性的单倍体X染色体数据和二倍体常染色体数据被一起输入时,它们可能是有用的。对于连锁相信息有两种可选择的表示：（1）个体的两行数据被假设为分别与父本的和母本的相对应.连锁相行表明当前标记上的排序正确的概率(设置ARKOVPHASE= ）;(2）连锁相行表明与以前的等位基因有关的一个等位基因的连锁相是正确的概率(设置MROVPHAE=1）第一项应该填入0。5,以便把这行填写到L项。例如下列数据输入表示来自一个男性的信息,有5个连锁相未知的常染色体微卫星位点,后面是3个X染色体位点，使用母本/父本相模型:102156150114310410110014131011439-990. 0。5 0。 0。5 0。5 10 1。0 1.0其中表示“缺失数据”，这里缺失是由第二X染色体缺乏造成的，05表明常染色体位点的连锁相是未知的，1.表明X染色体位点由母本遗传的概率为。,因此其连锁相是已知的。相同的信息可以用markovphs模型来描述.这样的话输入文件将读为:10256651013101410 104816310113990。5 0.5 0。50。。5 0。51.0。0这里，2 1。0 s 表明那个第1 和第2,其次和第个X染色体位点彼此完全同相。注意站点以站点产量在这些2 模式下将不同在第一例子中，Srcure将输出母亲和父亲染色体的任务可能发生的事件在第2 个情况下，它将输出在输入文件里列举的每等位基因的可能发生的事件。5. 个体/ 基因型数据(必需的)取样的每一个个体的数据象在下面描述的那样安排成一行或多行。2.3个体基因型数据个体数据的每一行包含下列要素.这些形成数据文件里的列.1. Lbel（标签)(可选择；字符串) 一串整数或者字母,用来指明样本中的每个个体。2. PopData（可选择;整数）一个整数,指明一个用户定义的群体，从其中获得个体(例如这些整数可以指明个体取样的地理位置)。在默认的模型中,这个信息不被聚类算法使用,但是能用来帮助组织输出(例如,将来自相同的预定义群体的个体彼此紧挨着绘图)。3. opFag(可选择；或者1）一个布尔标签,表明使用学习样本时是否使用PopData(见USEPOPINF,在下面）。(注:布尔（Bolen）变量(标签)是取值为TUE或LSE的变量,在这里分别用整数1（使用opat）和0（不使用PpDaa)表示。）4. LcData(可选择;整数)一个整数，为每个个体指明一个用户定义的取样地点（或者其他特性，例如一个分享的表现型）。当LORIOR模型被打开时,这个信息用来帮助聚类。如果你仅仅希望使用LOPIO模型的PopDa,那么你可以省略LocData列,并设置LIPOP= 1(这告诉程序使用opata来设置地点).5. Pentpe（可选择;整数）一个整数，为每个个体指明一个所关心的表现型的值（表中的f（i）。(表现型信息实际上没有用于Scure.这里用来允许与关联作图程序A有一个平滑的接口.)6. Extra ouns（可选择；字符串）用户把被程序忽略的附加数据包括在输入文件里可能是方便的。这些数据就在这里输入,可以是由整数或字符组成的串。7. Genyata（必需的；整数) 一个给定位点上的每个等位基因应该由一个独特的整数来编码(例如微卫星重复得分）。2. 缺失的基因型数据缺失数据应该用没在数据中的其他地方出现过的一个数字来标明(按照惯例经常使用-9）。这个数字也可以用于有单倍体和二倍体数据混合的地方(例如男性中的X和常染色体位点)。缺失数据值是与描述数据集特性的其它参数一起被设置的。2。5格式化的错误.我们已经进行了相当仔细的错误检查,以保证数据集的格式正确,并且程序将试图提供一些关于存在的任何问题的性质的提示。前端要求在每行的结束回车,不允许在行内回车；tructure的命令行版本以与处理空格或制表符(Tab)同样的方式处理回车。可能出现的一个问题是,在将数据导入trtre之前用来组装数据的编辑程序可能引入隐藏的格式化字符，经常在行的末尾，或者在文件的末尾。前端能自动除去大多数这些错误，但是当数据文件好像处于正确的格式时，这类问题可能对错误负责。如果你正在把数据导入到一个ix系统,ds2unx功能可能对彻底清理这些错误有帮助。3用户的建模决策3.1 祖先模型个体的祖先有4个主要模型:（）非混合模型(个体离散地来自一个群体或者另一个群体)；（2）混合模型（每个个体从K个群体中的每一个抽取他/她的基因组的一部分);（3)连锁模型(象混合模型一样，但是连锁的位点更可能来自相同的群体）;（）有先验信息的模型（允许Structue使用关于取样地点的信息：或者帮助用弱的数据进行的聚类,发现迁移者,或者预定义一些群体)。关于模型、2 、4的详情见Pritchard等(200a)和bisz等（00),关于模型3的详情见Fa等（203a)。1. 非混合模型。每个体完全来自K个群体之一。输出报告个体i来自群体k的后验概率。每个群体的先验概率是1 / 。这个模型适合于研究完全离散的群体,并且经常比混合模型在检测微妙的结构方面更强有力。2. 混合模型.个体可能具有混合的祖先。这可以表述为个体i从群体k中的祖先那里继承了他的/她的基因组的一部分。输出记录这些比例的后验平均估计值。以祖先向量q（i)为条件,每个等位基因的起源是独立的。我们推荐这个模型作为大多数分析的起始点.这是处理真实群体的大多数复杂性的一个相当灵活的模型。混合是真实数据的一个普通特征，如果你使用非混合模型，你或许不会发现它。混合模型也能以一种自然的方式处理混合的区域（hybid zones）表:数据文件的格式,为两行的格式.大多数这些组成部分是可选的（欲了解详细信息,参见正文)。Ml是标记l的标识符。rl表明哪个等位基因,如果有的话,在每个标记上是隐性的（仅针对显性的基因型数据）.D,i+是标记i和+ 1之间的距离。ID(）是个体i的标签,（)是个体i的一个预先定义的群体索引（PopDaa）;(i）是一个被用来合并学习样品的标签（Ppla);l（i)是个体i的取样地点(LoDat）；f()可以储存个体的表现型；y1(), .,yn（i)用于储存额外的数据（这些数据会被程序忽略）;(xli,1, xli,2）储存个体i在位点l上的基因型。pi（）是个体中的标记l的连锁相的信息.。连锁模型。这实质上是将混合模型推广,来处理“混合连锁不平衡,即,在最近混和的群体中的连锁标记之间出现的相关性。Falsh等（2003)描述了该模型和更详细的计算。基本的模型是,过去的t个世代，有一次混合事件,将K个群体混合了。如果你考虑单个染色体,它由一系列“块（cun)”组成,这些“块”是从混合时的祖先那里作为离散的单位遗传来的。出现混合L是因为连锁的等位基因经常在相同的块上,因此来自相同的祖先群体。块的大小被假设为独立的指数随机变量,具有平均长度1（以摩尔根为单位)。在实践中我们估计“重组率”r,所用的数据对应于从现在的块切换到新的块的比率。个体i里的每个块以概率k(i)独立地来自群体k，其中qk(i）是那个个体的祖先来自群体k的比例.总起来,新模型保留了混合模型的主要要素，但是在单个块上的全部等位基因必须来自相同的群体。新的MMC算法结合了可能的块大小和断点。它对于每个体报告总的祖先,考虑连锁，并且也能报告染色体的每一点儿的起源的可能性,如果用户想要的话。当使用连锁的位点来研究混合的群体时,这个新模型表现得比原先的混合模型更好。它得到对祖先向量的更准确的估计，并且能从数据中抽出更多的信息这对混合作图应该是有用的。该模型不是用于处理非常紧密连锁的标记之间的背景L的.显然,这个模型是大多数混合群体的复杂现实的大大的简化.不过，混合的主要的效应是在连锁的标记之间建立长远的相关性,因此我们这里的目的是在一个相当简单的模型中将那个特征包括进来。计算比混合模型的要慢一点,特别对于大的K和不知道连锁相的数据。不过,它们对于数千个位点和个体以及多个群体来说还是切实可行的.如果有关于标记的相对位置的信息（通常是一张遗传图谱），则只能使用该模型。4使用先验的群体信息。Structue的默认模式只使用遗传学的信息来了解群体结构。不过,经常有可以与聚类相关的附加信息（例如，取样的个体的物理特性或者取样的地理位置).目前,Structue可以用3种方式使用这种信息: LOPOR模型:利用取样位置作为先验信息来辅助聚类用于结构信号比较弱的数据集。有一些数据集,其中有真实的群体结构（例如,取样位置之间的显著的FST），但是信号太弱,标准的Stuctue模型不能发现。对于标记很少、个体很少或者非常弱的Strucur，经常是这样的情况。在这种情形下,为了提高性能，Hbsz等(00）发展了新模型，利用地点信息来辅助聚类。对于这样的数据集,其中结构的信号太弱以致使用标准的trctur模型不能被发现，新模型经常能提供群体结构和个体祖先的准确的推断。简言之，OCRIOR模型的基本原理如下。通常,Sucture假定个体的所有部分都大约是先验等可能的。因为可能的部分的数目非常巨大,对于Strucr来说,需要信息非常丰富的数据来断定个体的任何特定的部分被聚类到群具有强的统计支持。相反,LOCPRIOR模型认为实际上，来自相同的取样位置的个体经常来自相同的群体。因此,建立LCPRIOR模型以期望取样的位置可能关于祖先是信息丰富的。如果数据表明位置是信息丰富的，那么LCPIOR模型允许Strucure使用这种信息。Hbiz等(200）发展了一对CPRIO模型:一种用于没有混合的情况，一种用于有混合的情况在两种情况中，内在的模型（以及似然函数）与标准版本相同。关键的差别是允许sructure使用地点信息来帮助聚类(即,通过修改先验信息来得到与位置有关的更偏爱的聚类解决方案）。LCPIOR模型具有合乎需要的特性：(i）当不存在结构时，它们不倾向于发现结构；(ii）当个体的祖先与取样位置不相关时,他们能够忽视取样的信息;(ii)当群体结构的信号非常强大时，旧模型和新模型基本上给出相同的答案.因此，我们建议在大多数数据数量非常有限的情形下使用新模型，特别是当标准的Strucure模型不提供一个Strt的清晰信号时.但是,因为现在已经积累了标准的Struture模型的很多经验，我们建议对于信息非常丰富的数据集将基本模型作为默认（ubisz等等,009）。为了运行LCPRIOR模型,用户必须首先为每个个体指定“取样地点,作为一个整数编码。即,我们假定样品是在一组分离的位置收集的，并且我们不使用关于地点的任何空间信息。(我们认识到,在一些研究中，每个个体可能在一个不同的地点收集，因此将个体塞进一套更小的分离的地点可能不是对数据的理想的代表。)“地点”也可以代表一个表现型、生态型（ecoty)或者民族团体（ethnc grup）。地点被键入到输入文件中，要么在PopData列(设置LOCISPOP =1)中,要么作为一个单独的Loaa列（参阅第2。3节）。为了使用LOCPRIO模型,你必须首先指定或者用混合模型用非混合的模型。如果你使用的是图形用户界面版本，则勾选“se samping ocations ro(用取样位置作为先验信息)框。如果你使用的是命令行版本,则设置LCPRIOR = 1。（注意,LORIOR与连锁模型不兼容)我们迄今的经验是当不存在结构时,OCPRIOR模型不偏向于检测到假的结构。你可以把相同的诊断用于是否有真的结构,当你没使用LCPROR时。另外查看r的值可能有帮助，它确定由位置携带的信息的数量。r的值接近1，或者1，表明位置是信息丰富的.的更大的值表明或者没有群体结构,或者结构不依赖位置。USEOPINFO模型：使用取样位置来对移居者或者杂交种进行检验供信息非常丰富的数据数据集使用.在一些数据集里,用户可能发现预确定的组（例如取样位置)几乎正好与结构聚类相对应,除了少数似乎被错误归类的个体以外。Pritcard等（2000a)提出了正式的Besia检验,用于评价是否在这个样品内的任何个体是他们认为的群体的移民,或者具有新近的移民祖先。注意这个模型假定被预先规定的群体通常是正确的。它采用十分强大的数据来克服先验的错误分类。在使用USEPOPINFO模型之前,你也应该在没有群体信息的情况下运行程序,以保证预确定的群体与遗传学的信息粗略一致。为了使用这模型，把USEOPIFO设置为1,并且选择MGPRIOR的一个值（在Prichard等(00a)中它是v).你可以在0。001到0。1的范围内为v选择一个值.每个个体的预确定的群体被设置在输入数据文件中(见PpData）。用这种方式,在输入文件里被分配到群体的个体在Srucur算法中将被分配到群k。因此,被预先规定的群体应该是在1和AXPOPS ()之间的整数。如果任何个体的PDta超出这个范围，它们的q将按正常的方式被更新(即没有先验的群体信息，根据将被使用的模型,如果USPIFO被关上的话。)SEPOINF模型:预先指定一些个体的起源的群体来帮助未知起源的个体的祖先估计。使用UPINF模型的第二个方法是定义“学习样本”(learingamples）,它被预定义为来自特定的群。然后用Struture来聚类剩下的个体。注意：在前端里，这个选项使用“dt alele fequnes using onlyndivduasit POPFLG=1”选项被打开,位于“Advaned Tab”标签下。学习样品是利用数据文件里的PopFlag列实现的。预先规定的群体被用于那些个体，它们的opFlag1(并且它们的PpDat在（1.。)中)。对于pFg= 0的个体,PopData值被忽略。如果数据文件里没有PoFag列，那么当UEPOPIF被开启时，opFlg被为全部个体设置为1。具有PopFlag 0的或者Popta不在(1.。K）中的个体的祖先,根据混合或者没有混合的模型被更新,象由用户指定的那样.如上所述,如果有很少的个体没有预先规定的群体,将a设置成一个明智的值来可能是有帮助的。SPOPINFO的应用可能在几个方面有帮助.例如，可能有一些个体的来源是已知的,我们的目标是对未知来源的另外的个体进行归类。例如,我们可能从一群已知品种（编号为1 。 .K)的狗中收集数据，然后使用Stucture为未知的(也许是杂交种)起源的另外的狗估计祖先.通过预先设置群体数目,我们可以保证Stucure聚类对应于预先确定的品种,这使输出更可解释,并且能改进推论的准确性(当然,如果两个预先确定的品种在遗传上是相同的，那么未知起源的狗可能被推断为具有混合的祖先。USEPOPIFO的另一种用途是用于这样一种情况:用户想要只使用个体的一个子集来更新等位基因频率.通常，Stucture分析使用全部可得到的个体来更新等位基因频率估计值但是有一些情况，在那里你可能想对于一些个体估计祖先，没有那些个体会影响等位基因频率的估计。例如你可以有学习样品的一个标准的收集,然后周期性地你想要为新的一批基因型化的个体估计祖先。使用默认的选项,个体的祖先估计(稍微)取决于它们所在的批次。通过使用ROMOPFLAGONY,你可以保证等位基因频率估计值只依赖于PopFag =1的那些样品。在不同的情况下，ui等(206)想要确定一套无性系的狗瘤的起源。那些瘤如此紧密有关以至于使用的缺省设置时瘤形成它们自己的一类.通过使用PMPOLAGOLY，urgia等迫使瘤与其他canid聚类分在一组意见：我们建议首先运行Sruct的基本的版本,以便证实被预先规定的标签确实的确符合实际的遗传学群体。其次，当使用学习样品时,通过设置比大的IGPRIOR来允许一些错误的分类可能是明智的。3.2等位基因频率模型对于等位基因频率有两个基本的模型。一个模型假定每个群体内的等位基因频率是独立的,从一个分布中抽取，这个分布由参数l指定。那是用于Pritcad等（2000）种的原先的模型。通常我们设置l 1;这是缺省设置。Falsh等(03a）实施了一个模型,具有相关的等位基因频率这个模型标明不同群体中的频率很可能是相似的(或许由于迁移或者由于共有的祖先)。更详细的资料如下。独立的模型对于很多数据集表现不错。粗略地说,这最先说我们期望在不同的群体中的等位基因频率彼此不同。相关的频率模型说它们实际上可能十分相似。对于亲缘关系近的群体,这经常改进聚类，但是可能增加过高估计的K的危险(如下)。如果一个群体与其他群体分歧较大,则当那个群体被除去时,相关的模型有时可以取得更好的推论。估计l: 固定l= 对于大多数数据是一个好主意,但是在一些情况下，例如S数据,其中大多数次要的等位基因是稀少的，这时候较小的数值可能工作得更好。对于这个原因，你可以让程序为你的数据估计l.你可能想要这样做一次，或许对于K 1来说,然后将l固定在被估计的值上,因为在试图同时国际太多的假设参数（l, a, F）时对于非识别性(nonidentiiablit)好像有一些问题。相关的等位基因频率模型：如同Faus等（2003a）描述的那样，相关的频率模型使用一个(多维的)矢量，P,它记录假设的“祖先”群体中的等位基因频率。假定在我们的样品中代表的K个群体每个都已经经历过与这些祖先频率的独立的漂移，速率分别用参数F1， F, F3, .。， K表示。除归因于有点不同的模型的差别和估计的差别外,被估计的k值应该数量上类似于FST值。此外,对于具有许多混合的数据要准确地估计很难.P被假设为具有Drichlt先验,具有与上面的群体频率使用的相同的形式：pAl（l1, l2, . 。 . , ）， (1)对每个l独立.然后,群体k中的频率的先验为,(）对每个和l独立。在这个模型里,F与遗传学距离FS有密切的关系。按照ST的标准的参数化方法,每个群体中的期望频率由总的平均频率给出，当等位基因的总频率为时,跨越亚群体的频率的方差为(1）FT。这里的模型几乎一样，除了我们对模型稍微做了推广以外,通过允许每个群体以一个不通的速率(Fk)漂离祖先群体,如同群体具有不同的大小时可能被期望的那样。我们也试图估计“祖先频率,而不是使用平均的频率。我们将独立的先验(prior）放于Fk上,与平均数为0.01、标准差为0。5的分布成正比(但是有rF 1 =0）。先验分布的参数可以由用户修改。一些实验表明,0.01的先验平均值对应于非常低细分的水平,对于独立频率模型的数据经常导致好的表现。在其他的问题中(其中群体之间的差别更加明显),好像数据通常压倒了这个Fk的先验。3。3程序要运行多长时间?程序从一个随机的配置启动,从那里采取一系列步骤穿过参数空间，每个步骤(只）依赖于前一个步骤的参数值。这个程序在运行期间引起不同的点上的Marko链的状态之间的相关性。希望是通过运转模拟足够久，相关性将可以被忽视.有两个问题要担心:(1)nn长度:在收集数据使启动配置的影响减到最小之前模拟要运行多久，(2)在urin以得到准确的参数估计之后模拟要运行多久。要选择合适的urnin长度，看看由这个程序打印的归纳统计量的值是真的有帮助的(例如（a,F，在群体之间的分歧距离Di，j，以及似然),以便了解它们是否已经收敛。通常1000000的unin非常足够了。要选择适当的运行长度,你需要在每个上做几次运行，也许长度不同，看看你是否得到一致的答案。通常,利用100001000步运行你能得到参数（P和Q）的好的估计,但是r(K）的准确的估计可能需要更长时间的运行。实际上,你的运行时间的长度可能决定于你的计算机速度和耐心。如果你正处理极其大的数据集,并且被运行时间阻止，你可以试着修剪运行的长度和标记/个体的数量,至少为探索的分析。前端提供了几个主要参数的时间序列曲线。在bui阶段结束之前你应该看看这些曲线，以便了解这些曲线是否看起来达到了平衡.如果在burin阶段结束时数值仍然在增加或者减少,你需要增加burni长度。如果在整个运行期间（即,不只是在burnin期间)a的估计值变化非常大，你可以通过增大ALPPROSD来得到对P(|K)的更准确的估计,这改进了在那种形势下的混合（见在第节的一个有关的问题）。4缺失数据,无效的等位基因和显性标记当不断改进Q和时,程序忽略缺失的基因型数据。当在一个特别的位点有漏缺数据的可能性与个体在那里有什么等位基因无关时，这种方法是正确的。当具有漏缺数据的个体的Q的估计不那么准确时，没有特别的原因阻止这样的个体参加分析,除非他们根本几乎没有数据.当数据以系统的方式遗漏时,出现一个严重的问题,如同用无效等位基因那样。这些不适合假设的模型,即使没有群体结构，也能够导致明显的违背哈迪温伯格。人们不应该期望假设的模型对这类破坏是稳健的。但是如果无效的等位基因可能是一个重要的问题的话,则显性标记模型（下面）可以被使用。在样本中有多名家庭成员也会破坏模型假定。这有时会导致K的过高估计,特别对于相关的频率模型(Faluh等，0a）,但是当固定时，这对将个体分配给群体的影响很小。1 显性标记、无效等位基因和多倍体基因型对一些类型的遗传学标记(例如AFLP)来说，区分全部基因型是不可能的。其它类型的标记可能导致模棱两可的基因型,如果由于附近序列的变化导致PCR产物不能扩增,一部分等位基因为“无效”。从。2版开始，我们实现了一个模型,处理与显性标记相关的基因型的模糊性。总之,我们假定在任何特定的位点可能有对全部其他等位基因（例如)为隐性的单个的等位基因,而全部其他的标记是共显性的。因此AB和B将作为“表现型”B出现在未加工的基因型数据中，和C将被记录为C,而将被记录为BC。当有模糊性时，模型在可能的基因型上求和。全部的细节在Falh等(2007)里给出为了执行这些计算,必须告诉算法每个位点上的哪个等位基因(如果有的话）是隐性的这通过设置ECESIVEALEE=1来进行,并且在输入文件顶上包括一行单L整数,在标记名称和图谱距离的(可选的）行之间，表明在数据集里的个位点的每个上面的隐性等位基因。如果一个给定的位点上的全部标记是共显性的，那么那个位点上的隐性值必须被调整成ISING(缺失的)数据值.相反,如果隐性等位基因从未在纯合状态被观察到,但是你认为它可能存在(例如可能有无效的等位基因)，那么就把隐性值设置成在那个位点没被观察到的等位基因(而不是MISING！）。编码基因型数据：如果表现型是不含糊的,那么它被在Stutur输入文件里按照它本来的样子编码。如果它是含糊的，那么它被作为显性等位基因的纯合体编码.例如，表现型被编码为AA,B被编码为B,BC被编码为B,等等如果标记是其他方面为二倍体的一个个体中的单倍体(例如男性中的X染色体），那么第2个等位基因被象以前一样编码为ISIN（缺失)当A是隐性的时，基因型AB、AC等等在输入文件里是不合法的.当RESSIELLELE被用来处理无效的等位基因时,看起来是无效的纯合体(omzygote nul)的基因型应该作为隐性等位基因的纯合体而不是作为缺失数据被输入。在实践中可能不确定是否一个失败的基因型真的归因于纯合的无效等位基因。Strtr应该对这些编码为缺失的数据是稳健的,除非无效等位基因在一个位点上的频率很高。在多倍体(PLOIDY)中形势更复杂,因为甚至对共显性标记都可能有基因型的含糊。在杂合体中准确地识别出基因型经常是困难的。例如在三倍体中，表现型AB可能是AAB或者ABB。如果Strcur在RCESIVELLELES=0的条件下运行，那么就假定没有含糊。对于多倍体,当RESSIAELES=时，ruure允许数据包含具有基因型模糊和不具有基因型模糊的位点.如果一些位点不含糊那么设置代码OTMBIGUOUS为一个整数,这个整数不与数据内的的任何等位基因相匹配，并且不等于MISIG(缺失)。然后在输入文件顶上的隐性等位基因的行里为不含糊的位点放置NOTMBIGOU代码。如果不是那样,而是在一个特定的位点上等位基因全部是共显性的,但是有关于每个的数目（例如为在四倍体里的微卫星）含糊，那么就把隐性等位基因代码设置为ISIN。最后，如果有隐性等位基因,并且还有关于每个等位基因的数目的含糊性，则设置隐性等位基因代码来表明哪个等位基因是隐性的。存在拷贝数含糊性的等位基因的编码与存在显性标记的那些相似。因此，举例来说,在四倍体中，观察到3个共显性位点B、C和D,这应该被编码为BC D D或者等效地BBCD或者任何包括3个等位基因中的每一个的其他组合。它不应该被编码为 CD（MSG）,因为这表明该特定的个体在所指的位点是三倍体.如果在这个位点上存在一个隐性等位基因A，它也不能被编码为BCDA.r(K）的估计：当RCESSIVELELES被用于二倍体时，rov链的每个步骤上的似然值是通过在可能的基因型上求和来计算的。为了便于编码，当要么LOIDY2要么使用了连锁模型时,我们以当前推算的(iputed）基因型为条件。这减小似然值,并且好像大大地扩大似然值的方差。有限的经验表明在后一种情况下这导致对K的估计效果变差，你应该把的这种估计看做是不可靠的。5 (群体数目）的估计在描述这个程序的我们的文章里，我们指出这个问题应该被小心对待,由于两个原因:(1)要获得对Pr(|）的准确估计在计算上是困难的,我们的方法仅仅提供一个专门的( o)近似；(2)K的生物学解释可能不是简单的。在我们的经验里我们发现真正的困难在于第2个问题。我们的用于估计K的程序一般在具有少量离散的群体的数据集中计算效果较好.不过,很多现实世界的数据集并不准确地符合Struur模型（例如,由于通过距离或者近交而产生的隔离）。在那些情况里对于什么是K的正确值可能没有一个自然的答案。或许由于这种原因,在真实的数据中我们的模型选择标准的值随着增加的K而继续增加是不稀有的。那么集中于捕获数据中的大多数结构的K的值通常是讲得通的,这在生物学上似乎是合理的。估计的步骤1. （命令行版本）在文件extrapams里把COMPUPROBS和INFERALHA设置为。（前端版本）确保a允许改变。2. 对不同的AXPOPS （）值运行MCMC方案。最后它将输出一行“Estimate Ln Prob f Data”。这是l Pr（|K)的估计。你应该对每个独立地运行几次，以便证实不同运行得到的估计值是一致的.如果与不同的K获得的估计值的变异性相比，一个给定的K的不同运行的变异性是显著的,那么你可能需要使用更长的运行或者更长的rnin时期。如果lnPr（X|K）看起来是双峰的（bimdal）或者多峰的（mutodal),则MC方案可能找到不同的答案.你可以对此进行验证,通过比较在单个K上的不同运行的Q。(参看Pitcharde al (2a)的数据集2A（Dta S A),也见下面有关多峰性(todaity)的部分,）。3. 计算K的后验概率。例如,对于论文中的数据集2A(这里K是2)，我们得到K n P(XK) 4362 3933 39243985 -4006我们一开始可以假定一个关于K =1，。， 5的均匀先验分布。然后根据贝叶斯定理,Pr(=2)由下式给出:()如果我们将该式简化为下面的公式,计算就会更容易（)5.2 轻微的违背模型可能导致过高估计K当存在真正的群体结构时,这导致不连锁的位点之间的D,以及违背哈迪温伯格比例。粗略地说,这是被Strtre算法使用的信号。但是模型的一些违背也能导致哈迪温伯格或连锁不平衡.这些包括近交和基因型鉴定错误（例如偶然的、未被发现的无效的等位基因)。即使在没有群体结构的情况下,对于1，这些类型的因素也可能导致弱的统计信号。从2版本开始，我们提出相关的等位基因频率模型(crrlaed alllefreueny odl)应该被用作默认，因为它在困难的问题上经常实现更好的执行，但是用户应该意识到,在这样的设置中可能更容易过高估计,与独立的频率模型下相比（Falus al。（200a）)。下一节讨论怎样确定推断的结构是否是真实的。5。3 关于选择K的非正式提示；结构是真实的吗?有两个非正式的提示，可能有助于选择。第一个是,对于比合适的值(有效零)更小的，Pr（K)常常是非常小的，对于更大的K,则有或多或少的高原,如同上面显示的数据集2A的例子中那样.在这种情形中(其中K的几个值给出logPr(XK）的相似的估计下),似乎这些估计中最小的常常是正确的.对于我们通过“或多或少的高原所表示的东西,要提供一个坚固的规则有点难。对于小数据集来说,这可能意味着log (K)的值在510的范围内,但是Dail Faluh写道“在非常大的数据集中，K 3和K = 之间的差别可能是5，但是如果K =3和K 之间的差别是5000,那么我将肯定选择K =3”。想要使用更正式的标准（这种标准将这一点纳入了考虑）的读者可能对Evann等(05）的方法感兴趣。我们认为考虑这一点的一种明智的方法是就模型选择而言。即,我们可能不总是能知道K的真值,但是我们应该致力于捕获数据里的主要结构的K的最小的值.第二提示是,如果真的有单独的群体，那个,通常有许多有关a的值的信息,一旦Mkov 链收敛,a通常将相对恒定（范围经常为0.2或更少）.不过,如果没有任何真正的结构,在运行过程中a通常变化很大.这一点的一个必然的结果是当没有群体结构时,你将通常将看到分配给每个群体的样本的比例是大致匀称的（每个群体中1/）,大多数个体将被公平地混和如果一些个体被强烈地分配到一群体或者另一个,以及如果分配给每组的比例不对称,那么这是你有真正的群体结构的强的迹象。假定你有两个清楚的群体,但是你试图决定是否这些中之一是更进一步再分（例如,Pr(XK =3)的值类似于P(X|K = 2)，或者也许比（X| = 2)还大一点）。那么，你能尝试的一件事情是只使用你怀疑可能被再分的群体内的个体来运行Sructue,看看是否有一个如上所述的强信号。总之，你应该对根据小的P(K)的差别推断的群体结构持怀疑态度，如果（1)对于分派没有清楚的生物学解释,(2）对全部群体的分派大致匀称,没有个体被强烈地分配。5.4 通过距离数据的隔离通过距离的隔离指的是这样的想法:个体可能跨越一些地区呈空间分布,带有本地分散的。在这种形势下，等位基因频率跨越地区逐渐变化。基础的Suctre模型对来自这种情况的数据不很适合。当这发生时,推断的K的值,以及在每组中的相应的等位基因频率可能相当任意。取决于取样的计划，大多数个体可能在多个组中具有混合的成员身份.即,算法将尝试使用的不同组分的加权平均数来对跨越地区的等位基因频率建模。在这样的形势下,结果的解释可能具有挑战性。6背景L和其他micellania 6。1 序列数据，紧密连锁的SN和单体型数据Sucue模型假定位点在群体内是独立的（即,在群体内不处于D).序列数据或者来自非重组区域的(比如Y染色体或者tNA）的数据很可能违反这个假定。如果你有序列数据或来自多个独立区域的密集的数据，那么尽管数据不完全适合模型，Sructur实际上可能表演得想当好。粗略地说，这将发生,倘若跨越不同的区域有足够的独立性,以至于区域内的LD不在数据中占优势。当有足够的独立区域时，区域内的依赖性（dependnc）的主要代价将是Srucure在特别的个体的分派中低估不确定性。例如,Fas等(2003b)把Strctre用于来自H pyr的MLST(多位点序列)数据,以了解H pri的群体结构和迁移历史。在那种情况下,在区域内有足够的重组以至于群体结构的信号超过了背景LD(关于MLT数据的更多情况，也见第1节)。在人类的应用中,ond等(006)发现来自3个连锁的区域的300个N生产明智（但是嘈杂）的答案，在一个全世界的样本中，基本上与基于微卫星的以前的结果一致见他们的Sppmentry Mthosige SM.然而，如果数据被一个或者少数非重组的或在低重组的区域主导，那么，Strucre可能被严重地误导.例如,如果数据只由染色体数据组成,那么估计的结构大概将反映出关于Y染色体树的某些事情,而非群体结构本身.使用这样的数据的影响很可能是：(1)算法低估祖先估计中的不确定性的程度,在最坏的情况下,可能是有偏的或者不准确的;（2)的估计不可能表演得好。如果你有或者mtDNA数据加上许多核标记，一个安全和有效的解决办法是重新编码来自每个连锁区域的单体型，以至于单体型被描述为一个具有n等位基因的单个位点。如果有许多单体型,则可以把相关的单体型归类到一起。注意连锁模型不一定比(非）混合模型对于处理这些问题更好.连锁模型不是设计来处理群体内的背景L的，并且很可能被类似地干扰。6.多峰性tructure算法在参数空间中的一个随机的地方开始,然后朝着参数空间的一个峰收敛。（在这里的上下文内，峰可以被看作,松弛地讲，具有高的后验概率的一个聚类解。）当不使用先验的标签时，在K类的编号过程中没有固有的意思,因此有K!个对称的峰，对应于对类标签的排列。理论上,Strtre可以在这些峰之间切换,但是这通常对真正的数据集不发生(ritchrd e l。, 2a).为准备用于出版的图,诺厄罗森堡(NahRoeberg)的实验室有一个有帮助的程序，CLUMP，在对数据绘图之前跨越不同的运行把类标签排列成行(第1节)。除了这些对称的峰之外，一些数据集可能还有另外的非对称的峰。Structe的当前的实施通常不在实际长度的运行过程中在这些之间穿过。这表明不同的运行可能产生显著不同的答案,并且更长时间的运行或许将不能修正这一点.这主要是对于非常复杂的数据集的一个问题，具有大的K值，比如K 5或者K 10（但是见Pichad等(200a)中的数据集2A的例子）。你可以检查Q的结果，以了解这是否发生了。Rsebeg等（201)提出了这类情形的仔细的分析,对一个数据集，其中估计的K大约是196.3 当大多数个体被混合时,估计混合比例如果亲本的群体的代表非常少,估计混合比例可能特别具有挑战性在Prtchard等(200b）中对于模拟数据有一个这样的例子。数据假定是来自大多数个体有某种程度的欧洲祖先的美国黑人群体的一个样本。对那些数据来说,估计的祖先比例与真实(模拟)值高度相关，但是祖先的实际比例是有偏的.那个例子也是我们用真正的数据的更新近的经历的代表.这发生因为在缺乏任何程度非掺和的个体的情况下，可能有一些不可识别性（nnientfiabt),在那里有可能把等位基因频率推得更开，把混合比例挤压到一起（反过来也是这样)，获得几乎一样的模型拟合。当有强烈非对称的混合时，使用POPAS (每个群体单独的a)能帮助一点,但是不解决基本的问题。因此,在这些情形下的混合性的估计应该被谨慎对待。7从命令行运行Strcture有许多由用户设置的程序参数。这些在两个文件中(mainpras和extrpaam）,每当程序执行的时候,这些文件被读取。manprm指定数据文件的输入形式和最基本的运行参数。exapams指定多种程序选项.你需要设置maaram里的所有值,而以extrapaams里的默认值开始运行或许没有问题。注意默认模型假定混合,并且不使用用户定义的oD。在这两个文件中每个参数都以大写字母打印,在参数前面有“#efne”(它们在整个这份资料中也全部以大写字母打印。）值是紧跟在参数的名字之后立即被确定的(例如“#dfine NMREP10”把MCMC的重复数量设置为1000)。继每个参数定义之后,有一个简短的注释(用“/标明),描述这个参数。这包括期望的值的类型。这些包括:“(sr）”,用于字符串(用于输入和输出文件的名字);“（nt)”,用于整数;“(d)”，用于双精度数(即,一个实数，比如3。14；“（B),用于布尔数(Booan）(即,参数取值为TRUE或LE，通过分别把这个设置为1或0）。程序对参数的次序不敏感，因此你可以重排它们或者增加说明，等等。一次给定的运行所使用的全部参数的值被打印在输出文件的末尾。7。1程序参数在这一节里我们列举可以被用户确定的所有参数。这些被根据用在Sruu的命令行版本的参数文件排序。7.2 文件manaram里的参数在运行程序之前，用户需要确定所有这些参数.这些参数的一些（LABEL，POPDAA,OFLAG，PENTYE, EXTACOLS）表明是否特殊类型的数据存在于输入文件中；这些在第节中描述。基本的程序参数AXPOS(整数）为程序的一次特定的运行假设的群体的数目.rtcad等(200a)称之为K有时(取决于数据的性质)有可以被使用的K的自然值，否则K可以通过在K的不同值检查模型的配合被估计(参阅第节)。BRNIN （整数）在开始数据收集之前的urnn时期的长度。（参阅第3.节)NREP （整数）在bunin之后的CC重复的数目(参阅第3.3节)输入/输出文件IIE (字符串)输入数据文件的名字。最大长度30个字符(或者也许更少,取决于操作系统)。OUTFIL (字符串)程序输出文件的名字( 后缀“1”, “_”, 。.,“_m（用于中间的结果）以及“_f”(最终结果)被添加到这个名字).有这些名字的现有的文件将被覆盖。名字的最大的长度为30个字符（或者也许更少，取决于操作系统).数据文件格式NUMINDS (整数）数据文件里的个体的数目。NUOCI

展开阅读全文

structure2.3中文使用手册可编辑范本

最新文档