基因樹和物種樹的關(guān)系及建樹方法
一 .基因樹和物種樹
1. 概念
2. 二者關(guān)系
二 構(gòu)建基因樹或分子樹
1.同源DNA排序問題
2. 分子生物學(xué)數(shù)據(jù)類型(2種類型)
3. 數(shù)據(jù)轉(zhuǎn)換
4.建樹方法(主要介紹四種方法)
非加權(quán)組平均法(UPGMA法)
鄰接法(NJ法)
最大簡約法(MP法)
最大似然法(ML法)
5. 幾種建樹方法的比較
一 基因樹和物種樹
gene tree
分子樹(molecular tree):依據(jù)分子數(shù)據(jù)構(gòu)建的反映分子系統(tǒng)發(fā)育的樹
物種樹(species tree): 反映物種實際種系發(fā)生的樹
系統(tǒng)發(fā)育(Phylogeny):是指一群有機體發(fā)生或進化的歷史.
系統(tǒng)發(fā)育樹(Phylogenetic tree):就是描述這一群有機體發(fā)生或進化順序的拓樸結(jié)構(gòu)。根據(jù)系統(tǒng)發(fā)育樹的具體表達形式,可分為
基因樹(Genetree): 當(dāng)一個分子系統(tǒng)樹是根據(jù)某一個基因數(shù)據(jù)構(gòu)建而來的,稱為基因樹.
物種樹(Species tree):是指代表一組物種進化過程的系統(tǒng)樹.
基因樹與物種樹的關(guān)系
分子系統(tǒng)學(xué)的目的,就是通過分子樹來推測物種樹.
在許多情況下這兩者是一致的
但是下列一些因素可能會造成分子樹與物種樹相偏離.
A.遺傳滲漏即 DNA跨越物種界限的轉(zhuǎn)移.
如果在構(gòu)建分子樹是采用的是從其它物種水平轉(zhuǎn)移而來的DNA序列,其結(jié)果與物種樹大相徑庭.
B.祖先多態(tài)性 例如a,b兩物種的共同祖先c在某個位點c是多態(tài)的(c1,c2),在進化的過程中c1演化成a1和b1;c2演化成a2和b2,若依據(jù)a1和b1,則推測的祖先為c1,如依據(jù)的祖先為a2和b2,側(cè)推測的祖先為c2,這樣a,b具有兩個祖種,顯然不符.原因在于基因的進化早于物種的分化.
為避免上述因素的影響,在分子系統(tǒng)研究中應(yīng)盡可能分析互不連續(xù)的基因位點。
mtDNA在基因進化中是整個轉(zhuǎn)移的 ,所以即使分析多個線立體基因,亦不能排除影響.
基因樹與物種樹存在兩方面的區(qū)別:
(1)對于某一被研究的基因,可能存在種內(nèi)多態(tài)性,即在物種分化之前,該基因可能已經(jīng)開始分化。所以兩物種間該基因的分化時間可能早于這兩個物種的分化的時間。由這一基因計算而來的分支長度(分歧時間)可能偏離.
(2)基因樹的分支情況(拓撲結(jié)構(gòu))可能不同于物種樹。
這種情況一般發(fā)生在分支點非常接近的物種間。例如 人猩猩和黑猩猩間的關(guān)系。通過增加DNA序列的長度并測定多個相互獨立的基因片段,一般可以避免這種問題的發(fā)生。
由于物種的進化歷史不可能再現(xiàn),所以不可能重建絕對完整的歷史,同樣也不可能獲取絕對的物種樹。但是通過多基因,大量DNA序列的正確分析,可以最大限度地縮小基因樹與物種樹間的差別。在這種情況下獲得的系統(tǒng)樹可被接受為物種樹。
O A B C D
二構(gòu)建基因樹(分子樹)
1.同源DNA序列的排序(Alignment)問題
建立數(shù)據(jù)矩陣之前,必須獲得具體的特征數(shù)據(jù),所以要確定同源大分子相對應(yīng)的位點,系統(tǒng)分析的前提是:不僅分析對象(大分子)是同源的,而且所比較的位點也是同源的,即分析對象的某一個位點必須能夠確定可以追溯到共同祖先的同一位點.
對兩個同源DNA序列的比較,首先要確定他們從最近的共同祖先分離后,各序列中缺失/插入所發(fā)生的位置以及與同源部分的對應(yīng)關(guān)系,這個過程叫排序(比對)。
對于編碼蛋白質(zhì)區(qū)域而言,由于蛋白質(zhì)功能上的需要和三聯(lián)體密碼結(jié)構(gòu)的限制,缺失/插入很少發(fā)生或發(fā)生后很容易被選擇淘汰。因此,一般比較容易比對。
而在非編碼區(qū)域,缺失/插入發(fā)生的頻率可能很高。在這種情況下,比對過程變得十分復(fù)雜,一般必須借助于計算機。各種主要的DNA序列分析軟件中,如PC/GENE,GCG和MacVector等,都有DNA排序功能。根據(jù)經(jīng)驗,如果DNA同源度低于70%—75%,就不容易獲得確定的排序。Clustalw x
不同的排序代表了不同的進化途徑。采用不同的比對,可能得到完全不同的系統(tǒng)樹。
一種穩(wěn)定的方法是,刪除涉及缺失/插入的序列片段。但是,有時缺失/插入可能代表重要的進化信息,簡單的刪除并不可取。
建議,如果存在多種合理的排序,而不同的排序又得到不同的系統(tǒng)樹,就應(yīng)該再測定另一個獨立的DNA序列,根據(jù)這段序列得到的系統(tǒng)樹判斷究竟哪個排序更為合理。如果無法得到新的序列,增加外源物種可能有助于問題的解決。
例如:DNA同源序列a和b的排序
b CGTAGTCATGAC
a CGATAGTTCCATGGC
b1 CG- TAGT - -CATGAC
b2 CG- TAG -T - CATGAC
b3 C- GATGT - - CATGAG
b4 C- GTAG - -TCATGAC
同源大分子排序,在比較時可能出現(xiàn)三種情況:
1.兩個比較的位點為相同的單元(相同的堿基或相同的氨基酸),稱匹配;
2.兩個比較的位點為不同的單元(可能發(fā)生轉(zhuǎn)換或顛換),叫不匹配。
3.所比較的位點上有一方是空缺的(可能發(fā)生堿基丟失或插入而造成的)叫做空位或斷溝;
一個簡單的例子。
有三個同源序列S1,S2和S3:
S1 AGACCTAGT
S2 AGACTAGT
S3 AGAACCTAGT
先比較S1和S2:
S1AGACCTAGT
S2 AGA-CTAGT
再比較S1和S3:
S1 AGA-CCTAGT
S3AGAACCTAGT
三者合在一起比較,以S3為參考序列:
S3 AGAACCTAGT
S1 AGA - CCTAGT
S2 AGA - - CTAGT
2 分子生物學(xué)數(shù)據(jù)類型
離散性特征數(shù)據(jù)
即所獲得的是2個或更多的離散的值,是賦予給某一個具體的運算分類單元(OUT)。
它可以進一步分為二態(tài)特征與多態(tài)特征。
前者如RE位點, RAPD數(shù)據(jù)等。
后者如核酸序列信息,就是某一位點核苷酸的堿基具有A,T,G或C四種可能。
相似性和距離數(shù)據(jù)
它并不是某一具體分類單元所具有,而是有彼此間的相似性或距離所表示出來的各分類單元間的相互關(guān)系,如免疫學(xué)方法,與DNA雜交所得到的只有OTU相似性信息。
3 數(shù)據(jù)轉(zhuǎn)換
對DNA標(biāo)記技術(shù)如RFLP, AFLP,RAPD及微衛(wèi)星DNA技術(shù)和DNA序列測定技術(shù)所得到離散特征數(shù)據(jù),用來重建系統(tǒng)發(fā)育樹時也可基于一定的模型計算出遺傳距離,然后利用距離法來重建系統(tǒng)發(fā)育樹。
DNA序列數(shù)據(jù)
利用DNA序列數(shù)據(jù)計算遺傳距離最簡單的方法是計算p距離(p-distance),
計算式為:p= nd /n,
其中 n為所測定序列的核苷酸數(shù),
nd 為核苷酸差異數(shù)。
p距離沒有考慮同一個位點多個核苷酸間的替換狀況,即將2個序列間核苷酸差異率作為彼此間的遺傳距離。
若考慮核苷酸替換,必須利用核苷酸替換的數(shù)學(xué)模型對上述p距離進行校正,其中較簡單的是Jukes-Cantor模型,它認為4種核苷酸A,T,C和G間的彼此替換速率相等。其遺傳距離表達為:
p即為2個OTU序列間核苷酸的差異率。在實際應(yīng)用中,Jukes-Cantor模型并不理想,但當(dāng)d<=0.05時亦可對遺傳距離作出很好的估計。
在DNA序列中,通常核苷酸轉(zhuǎn)換的比率(A T 和GC)要高于顛換的比率,特別是對動物mtDNA而言。在這種情況下,Kimura的二參數(shù)法可以用來很好地估計遺傳距離(d)[11],
其中P和Q分別為序列中核苷酸轉(zhuǎn)換和顛換的比率。
用這種方法來估計遺傳距離時,其假定前提為核苷酸序列中A、T、C和G的比例相等,各占1/4。若比例不等,則需選擇其它方法來估計遺傳距離,其計算公式亦不同。因此,利用DNA序列信息計算遺傳距離時需視實際情況選用一定的方法。
RFLP數(shù)據(jù)
將RFLP數(shù)據(jù)轉(zhuǎn)換成遺傳距離的方法較多[10]。常用的是先計算序列i和序列j限制性位點或片段的相似指數(shù),然后再轉(zhuǎn)換成遺傳距離。
對相似指數(shù)(Sij),有
Sij=2mij/(mi+mj),
其中mi和mj分別為序列i和序列j總限制性位點或片段數(shù),mij為序列i和序列j間共有位點或片段數(shù)。若使用的限制性內(nèi)切酶其識別序列的核苷酸數(shù)(r)相同,則i和j間的遺傳距離(dij)為:
RAPD數(shù)據(jù)
在RAPD研究中,獲得的是某一擴增帶在OTUs中有(通常記錄為“1”)或無(通常記錄為“0”)的一組信息。
利用這些信息計算
其中下標(biāo)k為第k組內(nèi)切酶,且
。
遺傳距離時,通常也是先計算彼此間的相似性指數(shù)(s),然后進行轉(zhuǎn)換。
目前用來計算相似性指數(shù)的算法很多。
將相似指數(shù)轉(zhuǎn)換為距離(d)的方法較多,常用的有:
(1) d= 1-s;
(2) d= 1/s-1;
(3) d= - ln(s);
(4) ;
(5) d=(s+1)/2
等,其中當(dāng)所得到的s值位于-1和1之間時,常選用公式(5)進行轉(zhuǎn)換。
對前3種方法,當(dāng)2個OTU間趨異程度較小時,轉(zhuǎn)換后所得到的距離差不多相等,但隨著2個OTU間的趨異程度增加,各種轉(zhuǎn)換所得到的距離就有差異,所得到的系統(tǒng)發(fā)育樹就有可能不同。
因此,應(yīng)根據(jù)適當(dāng)?shù)倪M化模型選擇合適的轉(zhuǎn)換方法。

4 建樹方法
(主要介紹四種方法)
1)UPGMA法(unweighted pair group method using arithmeticaverage)
非加權(quán)配對算術(shù)平均法
或非加權(quán)組平均法
NTSYS 3.4
前提條件:
在進化過程中,每一世代發(fā)生趨異的次數(shù)相同,即堿基或氨基酸的替換速率是均等且恒等的。
UPGMA法計算原理和過程:
①以已求得的距離系數(shù),所有比較的分類單元的成對距離構(gòu)成一個t×t方陣,即建立一個距離矩陣M。
②對于一個給定的距離矩陣,尋求最小距離值Dpq。
③定義類群p和q之間的分支深度Lpq=Dpq/2。
④若p和q是最后一個類群,側(cè)聚類過程完成,否側(cè)合并p和q成一個新類群r。
⑤定義并計算新類群r到其他各類群i(i≠p和q)的距離Dir=(Dpi+Dqi)/2。
⑥回到第一步,在矩陣中消除p和q,加入新類群r,矩陣減少一階,重復(fù)進行直至達到最后歸群。
UPGMA法比較直觀和簡單,運算速度快,應(yīng)用很廣。它的缺點在于當(dāng)分子進化速率較大時,在'建樹過程會引入系統(tǒng)誤差。
2)鄰接法NJ法(neighbor joining method)
是一種推論疊加樹的方法。在概念上與UPGMA法相同,但是有四點區(qū)別
a.NJ法不要求距離符合超度量特性,但要求數(shù)據(jù)應(yīng)非常接近或符合疊加性條件,即該方法要求對距離進行校正。
b.鄰接法在成聚過程中連接的是分類單元之間的節(jié)點(node),而不是分類單元本身。
c.NJ法中原是距離數(shù)據(jù)用于估算系統(tǒng)樹上所有端結(jié)分類單元之間的距離矩陣,校正后的距離用于確定節(jié)點之間的連接順序。
d.在重建系統(tǒng)發(fā)育樹時,NJ法取消了UPGMA法所做的假定,認為在此進化分支上,發(fā)生趨異的次數(shù)可以不同。
鄰接法的運算過程如下:
①對于給定距離矩陣中的每一端結(jié)i,用下式計算與其它分類單元之間的凈趨異量(Ri) (t:矩陣中的分類單元數(shù))
②建立一個速率校正距離矩陣M,其元素由下式確定:
③定義一個新節(jié)點u,u的三個分支分別與節(jié)點i,j和樹的其余部分相連,并且Dij為矩陣中距離最小者,u到節(jié)點i和j的分支長度定義為
④定義u到樹的其它節(jié)點k(k≠i和j外的所有節(jié)點)的距離:
⑤從距離矩陣中刪除i和j的距離,矩陣減少一階。
⑥如果矩陣仍然多于兩個的節(jié)點,重復(fù)第①----⑤步,否測除最外兩個節(jié)點的分支長度來確定外,樹上其余節(jié)點都確定,最后是剩余的2個的分支長度Sy=Dij
現(xiàn)在舉一例說明鄰接法的計算過程和原理。
3) 最大簡約法(MaximumParsimony Method)
(以Wagner Parsimony來說明Maximum Parsimony法的原理和步驟)
3.1Wagner Parsimony有兩次方向相反的操作。第一次叫做后根次序遍歷(postordertraversal),第二次叫做先根次序遍歷(preorder traversal)。
用WagnerParsimony決定一個性狀演變系列中性狀變化的最小量,僅僅需要從終端分類單元開始逐步向根進行的一次操作,這樣的操作叫做后根次序遍歷。操作過程如下:
a.假設(shè)有一個無根支序圖。首先人為地先擇任意一個終端分類單元為無根支序圖賦根,在具體分析中,通常選擇一個外群來實現(xiàn)這個目的。
b.對所形成的有根支序圖,從根節(jié)點開始向上分別標(biāo)記各個節(jié)點。
c.從支序圖的頂部開始向著根出發(fā),對支序圖上的性狀進行優(yōu)化。若節(jié)點I和j的性狀集的交是非空集的話,側(cè)節(jié)點k的性態(tài)集就等于這個交集,在這種節(jié)點上,性狀變化的次數(shù)等于零;若節(jié)點I和j的狀態(tài)集的交是空集時在這兩個性狀集中各選擇一個性狀構(gòu)成節(jié)點的最小性狀閉集(thesmallest closedset)賦予正在研究中的節(jié)點,在這種節(jié)點上,性狀變化的次數(shù)是這個最小性狀閉集的差值。第3步,這種操作直至支序圖的根節(jié)點為止。
d.最后查根分類單元(roottaxon),看它的性狀是否被包括在根節(jié)點的性狀集中。若包括,支序圖在根節(jié)點處的長度增加;如果不包括,計算根分類單元的性狀與根節(jié)點性狀集中最接近的性狀之間的差值,這個差值就是秩序屠宰根節(jié)點處長度的增加值。
e.計算出支序圖在每個節(jié)點處的長度增加值,它們的總和就是支序圖的長度。
通過后根次序遍歷只知道在支序圖上一個性狀演變系列中性狀變化的次數(shù),無法確定發(fā)生了什麼樣的變化。因此需要在上面操作的基礎(chǔ)上,在支序圖上逆后根次序遍歷的方向進行第二次操作,即從支序圖的根向終端分類單元逐個考查每個節(jié)點,這個過程叫做先根次序遍歷,目的是得到最大簡約的重建集(MPR)。具體方法:如果一個節(jié)點已經(jīng)被賦予一個最小性狀閉集,側(cè)保持這個性狀不變;如果一個節(jié)點被賦予一個最小性狀閉集,側(cè)選擇那個與它的最近祖先(在支序圖上該節(jié)點下放的那個節(jié)點或者分類單元)的性狀最接近的性狀賦予這個節(jié)點。然后在支序圖上分析性狀的變化次數(shù),計算支序圖的長度。
現(xiàn)在舉例來說明MP法的原理和步驟。見膠片
3. 2Wagner簡約法外,還有Fitch簡約法,Dollo簡約法,Camin-Sokal簡約法,多態(tài)現(xiàn)象簡約法(Polymorphism)。
3. 3簡約法方法的優(yōu)缺點:
在各種簡約性方法中,Fitch和Wagnrer簡約法能應(yīng)用于各類性狀,對于進緣種類的分析一般都能給出正確的簡約樹,所以應(yīng)用最廣泛。其它的簡約方法多應(yīng)用于某些特定類型的數(shù)據(jù)。
簡約性方法與其它系統(tǒng)發(fā)育分析方法相比有以下幾方面的優(yōu)點:
①直接應(yīng)用原始性狀數(shù)據(jù),并不需要將原始數(shù)據(jù)轉(zhuǎn)換成距離數(shù)據(jù),避免了不可逆轉(zhuǎn)的信息丟失;
②較少依靠關(guān)于系列進化的假說,或至少能依靠一種更符合實際的簡單的進化假說;
③大多數(shù)簡約法的計算機算法及程序比其它方法更成熟,并允許對數(shù)據(jù)的系統(tǒng)發(fā)育信號和序列進化的動力更深入的分析。
簡約法的缺點:
①只適用于親緣關(guān)系密切的種類或序列之間分析,對于進化時間較長的物種或序列,由于平行和回復(fù)突變的干擾,會得出不正確的結(jié)果。
②當(dāng)系統(tǒng)樹上不同支系在進化改變量上不等時也會引起誤差。
③
4)最大似然法(Maximum Likelyhood Method)
即ML法
是應(yīng)用統(tǒng)計推斷構(gòu)建系統(tǒng)發(fā)育關(guān)系的典型方法。
4.1 ML法的原理:
建立一個關(guān)于進化過程的模型和一組觀測數(shù)據(jù)就可進行統(tǒng)計推斷。一棵樹T的似然性產(chǎn)生該樹的觀測數(shù)據(jù)D與進化模型的概率L;在給定D和M的條件下,不同分支形式和分支長度的樹有不同的似然性數(shù)值。極似然法的標(biāo)準(zhǔn)時選擇具有最大似然性值的樹。
4.2 ML法進行系統(tǒng)發(fā)育分析的過程步驟:
①建立關(guān)于進化過程的模型。原側(cè)上不同的分子類型或數(shù)據(jù)類型應(yīng)有不同的進化模型或模型中的參數(shù)值不同。目前最大似然法主要用于核酸序列分析,所用的進化模型都比較簡單,如Jukes-Cantor模型,Kimura的兩參數(shù)模型等。
②根據(jù)進化模型,建立描述序列中一個有初始狀態(tài)經(jīng)過進化時間t后改變觀測狀態(tài)的概率表達式。
③根據(jù)上面的結(jié)果,計算各序列之間的似然性關(guān)系。這為最復(fù)雜的一步。
④似然性值的顯著性檢驗。
4.3 最大似然法的存在的主要問題
a. 計算上的復(fù)雜性,需要大量的計算時間。
b. 進化模型的問題,所使用的進化模型未能反映出序列進化的真實情況,原因在于對進 化過程的了解的局限性,加上由于計算上的限制。
5上述幾種建樹方法的比較
Ⅰ在距離法中UPGMA比較簡單而且使用。當(dāng)使用的距離數(shù)據(jù)來源于多核苷酸數(shù)量較多的多個基因的分析結(jié)果時,利用UPGMA法能夠得到可靠的系統(tǒng)發(fā)育樹。
Ⅱ在離散特征法中,在不同世系間進化速率相差較大,且進化速率恒定而樹的內(nèi)支很短的情況下,MP法并不能對一個真正的系統(tǒng)發(fā)育樹做出始終一致的判斷。即使有時MP法能夠得到一個始終一致的判斷,但它獲得一個正確樹的效率,通常要比NJ法和ML法低。
Ⅲ序列趨異程度較小(d<0.1),核苷酸替換的速率在一定程度上恒定;沒有很高的轉(zhuǎn)換與替換比很強的G+C含量偏差;所分析的核苷酸數(shù)量較多(大于幾千)的情況下,MP法仍是一種較好的系統(tǒng)發(fā)育樹重建法。
Ⅳ與距離法和ML法不同,MP法能夠利用序列中堿基的插入與缺失信息。
Ⅴ當(dāng)不同譜系的進化速率較大變異時,MP法的可靠性降低,采用進化簡約法(EP法)處理。在實際,使用MP和ML法重建系統(tǒng)發(fā)育樹,當(dāng)OUT的數(shù)目<10,通過計算機對所有可能的樹做徹底搜索,確定最理想的樹;當(dāng)OUT的數(shù)目>10時,采用分支和界限法(從一組具有潛在可能的的樹中確定最理想樹)或采用啟發(fā)式搜索法(在分析中只對少部分的可能樹進行比較,所以數(shù)目可以取較大值,但此法不能保證發(fā)現(xiàn)最理想樹)
Ⅵ NJ法不以分子進化等速性為前提。
Ⅶ NJ,ML和MP三種方法選擇正確分子樹的概率
ML法 | NJ法 | MP法 | |
V1=1 V2=0.1 | 0.92 | 0.70 | 0.00 |
V1=1 V2=o.2 | 0.96 | 0.88 | 0.00 |
V1=0.5V=0.1 | 1.00 | 1.00 | 0.00 |
通過上述方法獲得分子系統(tǒng)樹是無根的,但是通過外群分析確定樹的根。
三 參考文獻:
常青.周開亞分子進化研究中系統(tǒng)發(fā)育樹的重建生物多樣性6(1)1998
張英培分子分類的若干問題動物學(xué)研究17(1)1994
張亞平從DNA序列到物種樹動物學(xué)研究17(3) 1996
陳輝RFLP和RAPD遺傳標(biāo)記技術(shù)及其在昆蟲學(xué)中的應(yīng)用陜西林業(yè)科技NO.149-521999
黃原,袁峰,周饒等昆蟲核酸分子系統(tǒng)學(xué)研究進展昆蟲分類學(xué)報VOL17,NO3 1995
鄭樂怡動物分類原理與方法 北京 高等教育出版社164-177 1987
黃大衛(wèi)支序系統(tǒng)學(xué)概論 北京中國農(nóng)業(yè)出版社87-93 98-1001996
鐘揚,李偉,黃德世分支分類的理論與方法北京科學(xué)出版社 1994
黃原分子系統(tǒng)學(xué)原理,方法及應(yīng)用北京農(nóng)業(yè)出版社 317-322334-338
徐克學(xué)數(shù)量分類學(xué)北京科學(xué)出版社1994
愛華網(wǎng)



