微衛星:基因組分佈,假定功能和突變機制
You-Chun Li*, Abraham B. Korol, Tzion Fahima, Avigdor Beiles and Eviatar Nevo
摘要:
微衛星,又稱簡短***重複序列,在整個基因組中有大量分佈並表現出較高水平的多態性。SSR的遺傳進化機制尚不明了存在爭議。在這裡我們試圖總結與SSR在基因組編碼區與非編碼區的分佈和功能重要性方面能夠獲得的相關數據。大量證據表明SSR在基因組中的分佈並非隨機的。至少部分SSR座位長度的延伸或收縮是受選擇的,這有可能是因為他們影響了染色質的組織,基因活性的調控,重組,細胞的週期,錯配修復系統。本文同時討論了SSR的兩種可能突變機制——複製滑動和重組,以及他們在SSR變異中的相互作用。
基因組的微衛星(simple sequence repeat;SSRs),1~6bp的核苷酸基序重複,在目前已分析過的所有生物基因組中都能檢測到它的分佈,而且它的頻率通常比單純依靠鹼基組成的預測要高(Tautz & Renz 1984; Epplen et al. 1993)。Bell認為SSRs在整個基因組的丰度和長度分佈可能來源於非偏移的一步隨機移動(single-step random-walk)過程。一些學者認為SSRs是在選擇上呈中性的序列隨機或近似隨機的分佈在整個真核生物基因組中(Schlötterer & Wiehe 1999; Schlötterer 2000)。Bachtrog et al. (1999)檢測到一個重要的AT含量與(AT/TA)密度之間的正相關關係,表明SSR的起源發生是一個隨機的過程。但是,他們也發現在他們分析的 Drosophila melanogaster. SSRs連續序列中有39%不是隨機分佈的。
最近的文獻中關於SSR進化解釋也存在爭議。大量的研究已經積累了關於與等位基因大小限制相關(Garza et al. 1995; Dermitzakis et al. 1998; Samadi et al. 1998; Li et al. 2000c; 2002a)的SSR結構類型和功能重要性(reviewed in: Kashi et al. 1997; King et al. 1997; Kashi & Soller 1999; King & Soller 1999; Gur-Arie et al. 2000)方面的數據。儘管如此,但是SSRs一般被認為是在進化上呈中性的DNA標記(e.g. Tachida & Iizuka 1992; Awadalla & Ritland 1997; Schlötterer & Wiehe 1999)。這些爭議需要更多SSR功能重要性的證據並證明關於基因組SSRs進化重要性的綜合討論。一種方法是試圖從定性即功能對中性的角度來分析SSR變異現象,這並不適合這一問題。實際上,如果這個問題從定量上而不是定性上系統闡述,SSR變異的相對解釋可能就沒有根本的衝突。關於SSRs和他們的多樣效應方面有豐富的證據證實了這一方法。
目前的綜述集中在以下幾個方面: SSR在基因組編碼區和非編碼區的分佈;(ii) 進化重要性和SSR基因組分佈的動態學;(iii) SSR在基因表達和遺傳紊亂,染色質組構,細胞週期和DNA代謝過程中的效應/功能;(iv)複製滑動和DNA複製機制與重組對SSR突變的相對作用。
SSR在非編碼DNA中佔了很大的比例而在蛋白質編碼區卻相對稀少。例如,在54個植物物種中發現的所有101個單-,雙-,四-核苷酸SSRs都在非編碼區。在 7個真核生物進化枝即accharomyces cerevisiae, Caenorhabditis elegans, Schizosaccharomyces pombe, Mus, Drosophila, plants, and primates所有類型的SSRs(從單-到六-核苷酸重複)大多數(與隨機分佈相比)都在基因組的非編碼區(Wang et al. 1994). Morgante et al. (2002)報導除三核苷酸和六核苷酸外的所有SSR在六個植物物種(Arabidopsis, rice, soybean, maize, and wheat)中的25762個預測的蛋白質編碼序列中的頻率要明顯的少於非編碼區。在Japanese pufferfish, Fugu rubripes的基因組中,6042個SSRs中有11.6%能在蛋白質編碼區中檢測到(Edwards et al. 1998)。這是因為對編碼區的移框突變有負選擇作用(Metzgar et al. 2000)。以前,在fungi, protists, prokaryotes, viruses, organelles, plasmids and humans的基因組中發現三元SSRs在編碼區和非編碼區有相似的分佈類型。但是,與疾病相關的三元重複大多是在人類基因組的編碼區發現的。同樣 Morgante et al. (2002) 最近發現三元SSRs在上述六個植物物種中編碼區的頻率加倍,這是因為突變壓力以及對特異單核苷酸延伸。一些三元陣列在長時期內並不是廣泛保守的即使他們形成了蛋白質編碼序列的一部分,因為長三元重複在減數分裂或配子形成時是不穩定的。
在許多物種發現的大部分SSRs是雙核苷酸的,但在靈長類中單核苷酸[主要是,poly(A/T)序列]是最多的一類SSRs。與三元SSRs相比,二元和四元SSRs在編碼區的頻率要比非編碼區的低。例如,Norway spruce, Picea abies中雙核苷酸重複在表達序列的頻率比在隨機基因組克隆中的頻率低二十倍。在八個原核生物和酵母中,長單-和雙-序列廣泛分佈在非翻譯區。對於完美二聚體SSRs,Bell & Jurka (1997)發現在編碼區和其他功能上很重要的區域短重複(3個單元)是能夠通過Bernoulli model預測的;(ii)在非編碼區的長的(5個單元)完美型二聚體SSR DNA的長度分佈符合非偏移一步突變模型。在這個模型中,重複是能夠通過增加或減少一個單元來改變長度的,同樣鹼基替換也會破壞一個長的完美型重複從而產生兩個短的完美型完美重複。通過對 human, mouse, worm (Caenorhabditis elegans), 和yeast 基因組DNA序列的分析發現所有可能二聚體SSRs在編碼區的分佈函數呈指數性而在非編碼區有一個有一個出人意料的長尾很好的符合power-law函數。假設這些長的非指數尾巴是由於非編碼區DNA對突變有很高的耐受性。一些基因的5' 和/或 3' 端非翻譯區有二核苷酸SSRs分佈,例如channel catfish Ictalurus punctatus 的5個基因以及哺乳動物熱激蛋白70基因 [(GA)6CAG(TC)24 tract: Lisowska et al. (1997)]。二核苷酸SSRs 在內含子中也有發現。例如,在 Mus musculus Adh-1 基因的內含子A中有(TA)14 (TG)8, and (TA)19, and IL-5 基因的內含子中有(AT)17; 在Betula pendu 樹BVGC34基因的內含子中有(CA)17 (TA)14, and (TGTA)3. 在3' and 5' 區和內含子中的二- 或 四- SSRs 的潛在的大小延伸能構通過移框突變打斷原來的蛋白或者形成新的基因。這表明二- 或 四- SSRs 的隨機分佈受到很強的選擇。對於一定數目的重複基序來說, 四核苷酸座位要比二核苷酸座位長。這可能影響選擇壓力,如果在減數分裂過程的穩定性依賴於目標區域的的絕對大小。含有長重複單元的座位好像在不同的大小上經歷更強的選擇尤其是在基因組中具高重組率的區域。
這些發現同時表明在編碼區和非編碼區SSR頻率的差異是由對編碼區移框突變的特異選擇引起的,而這移框突變是由非三聯體重複的長度改變引起的。儘管如此,但是在所有的蛋白質中有14%含有重複序列,真核生物重複基序的丰度是原核生物的三倍。原核的和真核的重複家族成簇聚集在非同源蛋白質附近。這可能是因為重複序列是在這兩界分裂後出現的。真核生物整合由更多的重複可能在進化上有優勢更快的適應新環境。
Tóth et al. (2000) 對從真菌到人類的幾個分類群的SSRs進行了詳細的分析,揭示不同重複類型的不同基序在編碼核非編碼區,內含子和基因間區域的分佈有很高的類群特異性類型。這種特異性可以部分的通過突變機制和分化選擇的相互作用來解釋。積累的經驗似乎表明脊椎動物中的SSR 要比無脊椎動物中的更豐富更長,在脊椎動物中的冷血動物中有更長的SSR 序列。有趣的是 Tóth et al. (2000)比較的類群中,有最大丰度的是囓齒類而 有最小丰度的是C. elegans。
Eyre-Walker (1999)發現在非編碼區的組成性突變並不能僅靠突變偏依性來解釋,選擇可能起到重要的作用。與中性突變理論的預測相比,非編碼DNA在位置上限制了條帶類型短散在重複分佈在R-帶(the primitive chromatin state),長散在重複在G-帶(吉姆薩黑帶: Holmquist 1989)。據推測每一個***重複序列受局部和一般的生物學活性的影響來決定它的不穩定水平。非編碼區DNA的動態組織性表明一個回文環能影響密碼子的使用和染色體染色質類型的穩定性。保守的非隨機密碼子的使用,或者全部氨基酸使用或者兩者在短重複的過量和長重複的選擇上都有重要的作用。等級選擇理論說明了選擇是怎樣在基因組的水平上作用於非編碼DNA產生位置限定的DNA和在個體水平上促成最小的遺傳負荷的。基因組中的重複的整體水平與基因組的大小和重複的水平有關係,這表明整個基因組可能對一致狀態的簡單重複序列的增加有反應。現在表明基因組內、物種高等分類群間的各種非隨機類型的SSR變異需要功能上的解釋。
雖然常認為SSRs是在進化上呈中性的DNA標記,但是實質部分的SSRs的功能重要性已經被各種生物現象的嚴格試驗所證實,如圖1和下面所示。
染色質組織
染色體組織。一些SSR的分佈表明他們可能在類群特異性染色體結構方面起作用。例如,SSR雜交信號出現在相關的染色體位置而與所用的基序無關,而且在小麥和黑麥中有明顯的相似的分佈類型,表明SSRs在染色體組織中有特殊作用可能是tribe Triticeae中的一個古基因組成分。在GWM601定位的4A染色體的短臂座位上,CT重複在野生二粒小麥中保持 (CT)17,在它後代培養小麥中國春中有明顯的相似性,表明這一基因座可能與4A染色體組織的某些方面有關。此外短重複序列的大量存在不僅對基因組的穩定性十分重要,同時也與其他基因組特徵(密碼子的使用)的進化有關。
DNA的結構。SSR DNA序列能夠形成各種罕見的由簡單和複雜的環-摺疊組成的DNA結構。例如,由脆弱的X重複(CCG)形成的發夾結構,由(GAA)/(TTC)形成的二重三葉,都有簡單的環-摺疊。這種三葉結構可能對基因表達重要的調控效應。人著絲粒重複(AATGG)能夠形成雙摺疊的發夾DNA結構。同樣的,已證明短的三聯體重複能在單鏈時形成很多二級結構。較長的(CAG)和(CTG)重複在變性復性後產生罕見的二級結構。這種穩定二級結構的形成提供了一種解螺旋機制,這在轉錄中時很有優勢,並提供了單一蛋白識別基序。在許多物種中,二聚體SSR相對丰度,代表了departure從基因組序列的隨機性,有可能反映了雙鏈曲線,超螺旋,和其他的高等DNA結構特徵。重複數好像是一個重要參數,決定了從罕見結構在基因表達獲得的優勢和在複製中獲得的劣勢之間的平衡。
著絲粒和端粒
在許多物種中,著絲粒區由大量的***重複組成,它影響著絲粒的組織。在tomato (Areshchenkova & Ganal 1999), Arabidopsis (Brandes et al. 1997), and sugar beet Beta vulgaris (Schmidt & Heslop-Harrison 1996)的著絲粒區單-,雙-,三-和四核苷酸SSR基序聚集成簇。對Neurospora crassa著絲粒區重複DNA的基因組Southern印記和序列分析表明一個特異著絲粒結構包含一個趨異著絲粒特異重複家族。N. crassa 著絲粒區簡單重複的特徵和分佈與 Drosophila 著絲粒區是一樣, 但是每種重複的相對丰度對 Neurospora (Cambareri et al. 1998)。來說是特異的。在Drosophila的微型染色體中,著絲粒側異DNA序列中佔絕對優勢是高度重複序列,normal transmission所需的重複數隨細胞分裂類型和性別的不同而不同。
趨異***重複序列組合成染色體特異的高級重複是許多生物著絲粒的一般特徵,並表明形成維持高級重複的進化機制在他們的基因組中是保守的。(Janzen et al. 1999). 重複性序列在許多物種主縊痕的普遍存在也支持著絲粒結構與功能之間有很強的進化聯繫(Eichler 1999)。著絲粒側翼重複DNA可能有兩種功能:姐妹染色單體的附著和間接與動粒形成或行使功能相聯繫。(Murphy & Karpen 1995)。
DNA代謝過程的調控
重組。大量SSR和小微星DNAs被認為是重組熱點(Jeffreys et al. 1998; Templeton et al. 2000)。simian virus 40 (Wahls & Moore 1990a), with yeast (Treco & Arnheim 1986), human (Aharoni et al. 1993; Majewski & Ott 2000; Templeton et al. 2000), and mammalian cells (Wahls & Moore 1990b), and with bacteria RecA-independent質粒間重組(Murphy & Stringer 1986)的實驗支持這一觀點。二核苷酸重複是重組的優先位點,因為他們與重組酶有很高的親和性。一些SSR序列可能直接通過影響DNA結構來影響重組。曾提出GT、CA、CT、GA、GC或AT重複結合蛋白能通過誘導形成Z型DNA或其他構型的DNA來參與重組 (reviewed in: Korol et al. 1994; Karlin et al. 1998; Biet et al. 1999)。
重複數目也回影響重組。例如,能在體外檢測到GT/GC SSR對依賴RecA的同源重組的影響。並且發現含有7、16、37個(GT)重複的分子進行鏈重組的分子數分別是從100%到80%和30%。Majewski & Ott (2000)分析了人22號染色體上不同SSRs的分佈和重組密度。僅發現SSR序列中只有GT重複和重組的升高有密切的聯繫。在酵母ARG4 中的(GT)39序列能夠提高基因轉變的頻率。重複序列能極大的刺激多交換體的形成而對單個交換體的沒有影響(Gendrel et al. 2000)。上面所羅列的證據表明SSRs不僅能通過重複序列而且能夠通過重複數目影響重組。
DNA重複和細胞週期
SSRs能夠影響 DNA複製(Field & Wills 1996)。在鼠細胞中,DNA的擴增能夠被含有d(GA)27·d(TC)27的特異片斷阻礙。發現在擴增子的末端和反向重複的結合處有可能起到DNA 體內複製的阻礙位點。在哺乳動物突變子表型CSA7克隆中,不穩定的 (CA) n SSRs能與其他基因擴增事件共選擇(Caligo et al. 1999)。SSR能影響控制細胞週期的酶。例如,人CHK1 基因在控制細胞週期progression中有一定的作用。它的編碼區含有(A)9序列(Codegoni et al. 1999),這一序列是SSR不穩定腫瘤的潛在突變位點(Bertoni et al. 1999)。在人結腸癌和子宮內膜癌中CHK1基因的改變與高度poly(A)序列不穩定有很大的關係。(A) n中A的插入和缺失將會產生刪減的蛋白質。CHK1 基因的變化表示癌細胞的一種逃脫細胞週期控制的選擇(Bertoni et al. 1999)。一些控制細胞週期的基因,像hMSH3, hMSH6, BAX, IGFIIR, TGFbetaIIR, E2F4 and BRCA2,都帶有短重複序列,它們在細胞保真和生長控制上有重要作用。SSR不穩定性可以通過重複單元的插入和缺失影響這些基因。大多數SSR-instability 腫瘤在一個以上的這些基因中有突變,並且長的重複序列更易突變 (Johannsdottir et al. 2000)。也有證據表明在DNA修復和細胞週期關卡之間有關係:錯配修復系統會對(TG)6 or N-methyl-N'-nitro-N-nitrosoguanidine-induced DNA lesions做出反應而與G2細胞相互作用。在兩個脊髓小腦共濟失調類型7雄性的精子細胞中發現有很大的(CAG) n repeat擴展;很大比例的這類等位基因很可能與胚胎致死和精子功能紊亂有關(Monckton et al. 1999; see also Parniewski et al. 2000 for the role of MMR system in deletions of large CAG tracts in Escherichia coli)。
真核生物DNA MMR基因中的SSRs是進化突變率的調節器。DNA MMR蛋白校正複製錯誤積極阻礙歧義序列間的重組(Chen & Jinks-Robertson 1998; Kolodner & Marsischky 1999),因此能控制突變率和進化適應。發現在minor MMR genes(MSH3, MSH6, PMS2 and MLH3) 編碼區中成簇存在的(A) n SSRs是真核生物包括Homo sapiens, Mus musculus, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Drosophila melanogaster, Arabidopsis thaliana 和原核生物 E. coli.一個普通特徵。儘管在一些物種中,7-bp單核苷酸序列零星的發現於大的MMR基因(MSH2 or MLH1),更長的序列,是指數性的更易突變,專一的存在於小MMR genes(see review Chang et al. 2001)。SSR 更易自發的產生插入或缺失的突變,並且非三元的SSRs, 當存在於編碼區中時更易於高頻率的引入移框缺失功能突變(Moxon et al. 1994)。最近的實驗已證明在SSR-proficient 鼠細胞和 SSR-deficient 人細胞中較長的SSR的突變率都是很高的 (Yamada et al. 2002)。這些小的MMR蛋白質失活產生的突變表型要比大MMR蛋白(MSH2 or MLH1)產生的突變表型弱。高比率的移框突變使曉MMR基因失活將產生一個真核世系其中的個體極大的提高了突變率。Chang et al. (2001)假設SSRs在小MMR基因中的密度異常代表一種遺傳轉換使適應性突變率在進化時間上進行調整。
基因活性調控
SSRs 和 轉錄。大量的線形證據表明位於啟動子區域的SSRs可能影響基因活性。在 Drosophila (Sandaltzopoulos et al. 1995), Aspergillus (Punt et al. 1990) and Phytophthora (Chen & Roxby 1997)熱激蛋白基因hsp26啟動子區的 (TC) n 序列是轉錄元件。各種di-, tri- and tetra-SSR 序列的缺失極大的改變了轉錄活性。例如,CAT表達系統中c-KI-ras (Hoffman et al. 1990) and TGF-3 啟動子的轉錄活性會因位於啟動子區的(TCCC) n 序列缺失而急劇降低(Lafyatis et al. 1991)。此外, (GT) n 重複能在很遠的距離增強基因的活性而不受其方向的影響,更靠近啟動子序列的GT重複會更強的增強轉錄(Stallings et al. 1991)。位於內含子區的SSRs 也會影響轉錄。例如, 在酪氨酸羥化酶基因第一個內含子中的a tetra-SSR HUMTH01 就起到一個轉錄調控子的作用(Meloni et al. 1998)。 Gebhardt et al. (1999, 2000) 發現位於表皮生長因子受體(EGFR)基因第一個內含子的(CA) n 序列能夠影響轉錄活性。他們同時發現 RNA延伸在接近SSR下游的位點中止並且有兩個分離的主要的轉錄起始位點。 對螺旋DNA構相的模擬計算揭示在EGFR 多態區有一個 high bendability , 尤其是在CA序列延長時。這些數據表明(CA) n SSR 就像一個結合點, 使啟動子與假定的抑制蛋白接近並使它結合到(CA) n SSR的下游。值得注意的是三元SSRs 可能更傾向於定位在於轉錄和信號轉導有關的基因和未充分表達的結構蛋白基因(Young et al. 2000), 這都表明SSR 影響基因轉錄。
重複數目對基因表達的影響。在許多情況下, SSR 重複數是基因表達和基因表達水平的關鍵因子。一些基因只能在特異重複數目的SSRs 時表達。例如Escherichia coli lacZ基因啟動子中的 的(GAA)12 使lacZ 基因表達,而(GAA)14 16 和(GAA)5 11 都不能使該基因表達(Liu et al. 2000)。 一些基因在一個很窄的SSR重複範圍內能夠表達而在這個範圍之外基因的活性就會關閉。 在酵母中,含(CTG/CAG) n 的啟動子在n = 25 時URA3 報告基因就會表達並產生對to the drug 5-fluoroorotic acid的敏感。但是,這一序列在n=30時, UR3 就會關閉並產生抗藥性(Miret et al. 1998)。另一類基因會通過在一個相對較大的範圍內改變它們調控的SSRs'的重複數調整他們的重複數。在一個旨在驗證(TG) 長度對 pSV2-CAT (simian virus 40 enhancer plus) or pA10-CAT (enhancer minus) 增強子對表達質粒載體表達活性的影響的試驗中,最大增強效應在30-40 bp 的(TG)時獲得。在(TG)長度從40 增長到130 bp時,增強子活性降低,130 bp的(TG)的活性比50bp降低5倍(Hamada et al. 1984b)。有趣的是,在人類基因組中的大多數多(TG)元件在20到60bp之間,在這一系統中有最大活性(Hamada et al. 1984a)。表皮生長因子受體基因的轉錄活性隨(CA) 重複數目的增加而降低(Gebhardt et al. 1999, 2000)。在一個帶有人雄性激素反應元件的CAT 報告系統中(該元件有人CAG重複以及二氫睾酮), 在25到77個重複的延伸突變範圍內轉錄反應活性隨CAG重複長度的增加而程序性降低(Chamberlain et al. 1994)。在使用稍有不同的報告系統並且男性激素受體多Gln的序列的長度在0到50之間時得到了同樣結果(Lanz et al. 1995)。相反,一些基因的轉錄水平隨SSR重複數提高。例如,人腦的PAX-6 基因,moter activity of variants with 有29個重複的(AC) m (AG) n變異的啟動子活性比26-重複的等位基因高4到9倍 (Okladnova et al. 1998)。在雞中,構建的含10, 15, or 22 個 (CT) 重複的啟動子蘋果酸酶基因 比(CT)7 r的野生型的表達活性要高(Xu & Goodridge 1998)。所有這些證據,包括自然變異和利用各種生物進行的對核對實驗,都表明SSR重複數對與SSR相關的基因表達調控是很重要的。
蛋白質結合。一些 SSRs, 位於上游激活序列中, 是各種調控蛋白的結合位點 (reviewed in Lue et al. 1989; Csink & Henikoff 1998)。例如,已確定單鏈 poly(GA)- 和 poly(GT)-結合蛋白已存在於人纖維原細胞(Aharoni et al. 1993)。 內含子重複中的(GT) n o或混合(GT) n (GA) m 序列在免疫相關基因中已存在了至少70 106年並與核蛋白分結合有很高的親和活性(Epplen et al. 1993)。SSR 也有可能影響蛋白質的結合。例如, datin 與19, 15 and 11 bp 長的poly(T) 序列結合有一定的親和性,但是不與3, 5, 7, or 8 bp 長的poly(T)序列的結合(Winter & Varshavsky 1989)。相同的證據也出現在非洲綠猴-SSR-結合蛋白和(A) n t序列之間(Solomon et al. 1986)。
翻譯。許多研究表明SSRs能影響基因的翻譯。例如, Escherichia coli 中下游 (CA) n incre提高前導和非前導mRNA 的翻譯(Martin-Farmer & Janssen 1999)。一個中等大小的CGG 序列的延伸能極大的降低含人CGG 重複的 CAT gene (pSVsCAT) 的翻譯(Sandberg & Schalling 1997)。 AGCT 四核苷酸在E. coli and Bacillus subtilis 基因組中的分佈預示在幾個基因中存在翻譯移框和核糖體跳躍(infB, aceF/pdhC, eno, rplI, OMPa, OMF and tolA: Henaut et al. 1998)。 CUG 重複結合物(CUGBP1) 與C/EBPbeta mRNA 5'區作用並調控C/EBPbeta 同工型的翻譯(Timchenko et al. 1999)。 AGG 三元重複對E. coli中mRNA的翻譯有很強的抑制作用,這已在CAT 報告基因中得到證明(Ivanov et al. 1992)。
人類癌症和遺傳性紊亂。大約15%的零星結腸癌和幾種其他位點的癌症,都表現出SSR不穩定性(see review, Atkin 2001)。SSR不穩定性的進行性積累有可能與胃癌的發展有關(Leung et al. 2000)。 在各種人類癌症中能觀察到的SSR變化類型可以分為兩類:A型,在六個鹼基對有相對小的變化; B型, 在超過8個鹼基時有很大的變化。儘管A型 SSR 不穩定性與MMR 缺陷表型有關,B型 SSR不穩定性與MMR 缺陷表型之間的關係還不清楚。儘管如此但是, 就像遺傳性息肉結腸癌一樣, B型 SSR 不穩定性和家族性易患個體在癌症之間的關係已在一些癌症中有所表現。 (see review: Oda et al. 2002).14神經紊亂是由於不穩定三核苷酸重複造成的。這種三元 SSR 疾病包括編碼區和非編碼區的改變(recent reviews: Rubinsztein 1999; Cummings & Zoghbi 2000; Masino & Pastore 2001)。延伸的重複可能形成可變的DNA二級結構(for detail, see review of Kovtun et al. 2001) 以造成遺傳不穩定性,最可能造成轉錄沉默。 人 FMR1 (CGG) n 序列表現出遺傳不穩定性, 特徵是跨代進行性延伸導致基因沉默和脆性X綜合證(White et al. 1999)。在RNA水平上, 延伸的重複或者妨礙原處轉錄導致相應的蛋白質的缺陷或者與RNA-結合蛋白相互作用改變他們正常活性(Galvao et al. 2001)。最新的證據表明延伸的RNAs和相關RNA結合蛋白都是幾種三元重複疾病發病機理的作用因子(review: Galvao et al. 2001)。肌強直性營養不良一種常染色體顯性神經紊亂,由DMPK 座位的 CTG-repeat 延伸造成的,患病個體有 n 50 重複 (CTG). (CAG)重複的非正常延伸( 39), 將會翻譯成多谷氨酸序列,導致 Machado Joseph Disease (Rubinsztein et al. 1995)。已經證明片斷扭曲和選擇的接合點效應的動態平衡能維持在肌強直性營養不良座位上CTG-重複的大小(Polanski et al. 1998)。在真核生物和原核生物中負選擇作用於接近起始密碼子的ATG(Saito & Tomita 1999)。在起始密碼子附近的核酸序列含有較少的AUG,這是由對這些分裂性三元的負選擇造成的因為它們會影響正確檢測到合適的起始密碼子。在真核生物中上游的負選擇尤其強烈,與之相一致的是真核生物核糖體從左到右(5' 3') 掃瞄mRNA 以尋找起始密碼子(Saito & Tomita 1999)。 起始密碼子和與位於上游與它最近的ATG 之間的平均距離在較高等的生物中較長(Saito & Tomita 1999)。這種負選擇會作用於位於具不同功能的基因組區域 的不同長度的SSRs (Hancock 1996)。除了三元延伸,其他類型的SSRs 也導致人類疾病。例如,位於醛糖還原酶基因的5' 上游區的非特異性的(CA) n 重複等位基因的長度與糖尿病性視網膜疾病有關(Fujisawa et al. 1999), 並且位於人幹擾素基因的第一個內含子中的 (CA) n 等位基因多態性與肺同種異體移植纖維樣變性相關聯(Awad et al. 1999)。 De Fonzo et al. (1998)發現 四-,五- 到 82 bp-重複也與許多人類疾病相關聯。例如,位於NOS2A gene 啟動子內的等位基因(CCTTT)14極大的限制了diabetic retinopathy, 但是其他等位基因(repeat number) 能夠導致diabetic retinopathy (Warpeha et al. 1999)。前面所述的證據表明SSR 變異能導致基因表達產生或極大的或量化的變異。因為基因組中有大量的高變異的SSRs, 這暗示SSR序列大小的變化為自然種群中與適合度相關的性狀提供了豐富的變異(Kashi et al. 1997; King et al. 1997; Kashi & Soller 1999; King & Soller 1999; Trifonov 2002)。它可能在對種群生存和對環境在時空上變化的適應起著重要的作用(Li et al. 2000a,b,c, 2002b)。
Mutational mechanisms of SSR variation Go to:
基因組SSR 的丰度和各種功能及影響(假定的或可靠驗證的) 與它的突變率密切相關,既然SSR 突變率 (10 2-10 6 events per locus per generation) 是非常高的,與編碼區的點突變率相比。儘管突變過程在不同的物種,重複類型,座位和等位基因,年齡和性別之間是不同的(Brock et al. 1999; Hancock 1999; Ellegren 2000; Schlötterer 2000),不穩定性在SSR重複數的變化上是相當明顯的。兩種突變機制可以用來解釋如此高的突變率。第一中涉及DNA複製過程中的DNA滑動(Tachida & Iizuka 1992)。第二中涉及到DNA鏈間的重組(Harding et al. 1992)。兩種突變機制的效率假定的依賴於環境條件。影響SSR座位突變率的各種因素包括:重複基序,等位基因大小,染色體位置,側異DNA的GC含量,細胞分裂(有絲分裂和減數分裂),性別和基因型(像MMR基因的突變)(see below, and section above on 'SSRs in the eukaryotic DNA MMR gene as modulators of evolutionary mutation rate')。
複製滑動 SSR座位重複數的變化是由DNA複製中鏈滑動錯配造成的(see Eisen 1999)。其中的一些錯誤能被核酸外切酶活性的校讀作用和錯配DNA修復作用校正,但是許多逃脫了修複變成了突變。例如,酵母中CTG/CAG 或 CGG/CCG 重複能形成二級結構 (髮夾樣) 逃避DNA修復(Moore et al. 1999)。 因此, SSR不穩定性代表了由鏈滑動錯配產生的複製錯誤與由外切酶活性校讀和錯配修復產生大糾錯之間的平衡。儘管單核苷酸SSR 序列可能調節MMR 系統的效率 (Chang et al. 2001), MMR 比校讀對SSR的不穩定性有更大的影響(Eisen 1999)。 在人類SSR不穩定性與DNA MMR genes as hMLH1 (Boyer et al. 1995), hMSH2, hMSH3, and hMSH6 (Boyer et al. 1995; Clark et al. 1999)有關。當這些基因突變或有缺陷時,SSR的不穩定性隨即提高。如果MMR 系統有缺陷,含有重複性DNA序列的編碼序列更易於成為人腫瘤中的突變目標位點(Sia et al. 1997)。 幾篇最新的綜述集中討論了有MMR缺陷引起的SSR不穩定與人類癌症之間危險關係(e.g. Aquilina & Bignami 2001; Atkin 2001; Hussein & Wood 2002)。在 Drosophila melanogaster, 缺乏spell gene(a subfamily of mutS gene whose MutS proteins promote correction of DNA mismatch) 的果蠅,在分析10-12代後發現長二核苷酸重複不穩定性在提高。 (Flores & Engels 1999)。在 Escherichia coli 中,MMR 系統不僅增強CTG/GAC 三元重複的的穩定性(Jaworski et al. 1995), 同時穩定長64 (CTG/GAC) 重複 (Schumacher et al. 1998)。但是, 長於100個重複的(CTG/GAC) 序列可以激活 MMR系統促進大的缺失;這一序列的打斷將增強缺失的頻率(Parniewski et al. 2000)。DNA錯配修復系統的效率受到以下因素影響:錯配區在基因組中的定位,錯配周圍的序列,鏈識別信號的存在甲基化狀態(reviewed in Eisen 1999)。此外,自相矛盾的是MMR 系統,它限制了SSR序列的突變,但卻通過使編碼區含有SSRs而使編碼區易於突變(Chang et al. 2001)。個體間MMR差異已經有了很好的積累。例如,許多野生E. coli 株系的MMR系統是有缺陷的(Matic et al. 1997)。既然錯配識別涉及到其他一些細胞過程像種間重組的調控,有可能有其他的選擇壓力影響導致種內MMR容量變異的細胞過程 (Eisen 1999)。基於複製滑動是重要機制這一假設和SSR重複的突變更易於使序列變長這一試驗數據(Amos & Rubinstein 1996), Dermitzakis et al. (1998)提出了假設模型其中微衛星中將會產生這樣的聚簇。在這個模型中,在兩個並列的座位中,等位基因大小限制(自然選擇和/或突變偏移)以相同的幾率隨機的從短的或長的序列中清除重複。在這種情況下,長序列丟失重複的幾率和短的序列一樣,但是要比短的序列更易獲得重複序列。如果這一機制被用於更長的序列,它可能產生相同大小的兩簇,但是在兩個極限上表現出等位基因頻率的雙峰分佈。 Ellegren (2000) 建議在平衡的基因組內,SSR 長度分佈在偏移突變加工和點突變旨在縮減重複DNA的點突變之間有精巧的平衡。我們相信自然選擇是作用於SSR等位基因大小的一個重要限制。在理論上自然選擇不利於長的等位基因,引入一種長度 極限的形式(Garza et al. 1995)。野生小麥的小地理學研究表明自然選擇自然選擇可能起到高低線的作用(Li et al. 2000c)。 Morgante et al. (2002)通過檢測互補基序是否平等出現在Arabidopsis thaliana 基因組的轉錄鏈上發現對基因的5'UTR, 開放閱讀區 and 3'UTR 有不同的選擇壓力,這就為轉錄區的特異重複有正選擇提供了證據。
重組 重組能夠通過不平等交換或基因轉換潛在的改變SSR長度(Brohele & Ellegren 1999; Hancock 1999; Jakupciak & Wells 2000; Richard & Pâques 2000)。對人類精子六個等位基因的突變序列的結構分析揭示等位基因內重新排列的頻率隨序列的增大而提高並且等位基因內的重複傾向於在等位基因內成簇存在。兩者的三核苷酸重複不穩定的表型相似。重組間的不平等交換隨機的遺傳漂變核選擇對***重複序列在基因組中的積累有很強的效應(Charlesworth et al. 1994)。最近的研究指向單向重組(基因轉變)在***重複(微衛星和小衛星)去穩定中的重要作用 (Jakupciak & Wells 2000; Richard & Pâques 2000)。依賴於基序,單向交換可能產生單向(僅收縮)和雙向的改變。這些效應可能與減數分裂或有絲分裂相關,儘管有不同的比率。
複製滑動和重組的相互作用I在我們對野生二粒小麥微衛星多態性的研究中,發現平均重複長度和SSR座位離著絲粒的距離對SSR座位的等位基因數和重複大小的變異有很大的影響(Li et al. 2000c, 2002a)。我們認為這一效應可能反應了在依賴重組的DNA修復中複製滑動的可能影響。的確,兩條同源染色體間的鏈的交換能產生四鏈的構型, 稱為Holliday 結構,與錯配的 (異源雙鏈) DNA 區。這些區域進行依賴複製的校正。因此,滑動機制也可能作用於涉及到SSR序列的重組序列(Brohele & Ellegren 1999; Gendrel et al. 2000; Li et al. 2000c, 2002a)。同樣,在酵母中這樣與基因轉變和導致SSR延伸和壓縮的『修復滑動』與『複製滑動』相比有可能發生800倍(Richard & Pâques 2000)。基因轉變過程中的重組修復被假定在三核苷酸延伸中起重要作用,從而導致人類神經系統紊亂(Jakupciak & Wells 2000; Richard & Pâques 2000)。 滑動和重組的相互作用,可能發生在異源雙鏈,也能夠影響SSR的穩定性。一些SSRs促進重組,包括複式交換(e.g. Gendrel et al. 2000)。
Conclusion Go to:
這一綜述展示大量的能夠得到的線形證據,表明SSR在基因組 的編碼區和非編碼區不是隨機分佈的。這些發現並不都和理論假說一致,像經典的基於中性和近中性理論的逐步突變假說(Ohta & Kimura 1973),隨機一步移動模型 (Bell & Jurka 1997)。這是因為導致SSR座位長度變異的進化過程並不是按照一種簡單的突變模型進行,也不是按照嚴格的單-逐步模型。因此SSR結構的一個重要作用在功能上對基因轉錄,翻譯,染色質組織,重組,DNA複製,DNA MMR系統,細胞週期是十分重要的。(see Fig. 1), 選擇好像阻礙隨機SSR在對應基因組區域的大小延伸或壓縮。因此,至少這些SSRs的功能基團在一定的SSR變異和一些生態-基因組條件下不是中性的。因此,分子生態學家在根據中性進化理論在一定條件下用SSR多樣性解釋試驗材料而沒有嚴格利用非中性對照驗證這一假說時應該謹慎小心。儘管重複序列的功能方面有大量的例子,但是在SSRs的起源和生物功能的實際例子方面我們缺乏瞭解。儘管如此但是,有限的知識和與功能相關的信息的缺乏並不能使我們自然而然在試圖解釋SSR變異時將他定義為中性的。而且,這些評論並不意味著作者是在警告其他在分子生態,種群遺傳學和遺傳作圖研究中利用SSR作為遺傳標記的學者(e.g. Li et al. 2000a,b,c)。我們相信證明的廣泛分佈的非隨機性,選擇性,由重複元件表現出的其他各種類型,需要我們在上述各種領域應用這種標記的各個階段,從實驗設計到數據分析和解釋,都要特別注意。複製滑動和重組可能是兩種主要的突變機制。錯配修復系統的效率對SSR的穩定是十分重要的。重組能通過不平等交換和基因轉變改變SSR重複數。滑動和重組的相互作用,有可能發生在異源雙鏈區,也能夠影響SSR的穩定性。相反,許多重複元件能有效的促進重組的發生(Gendrel et al. 2000; Korol 2001)。據推測這些機制的對這一壓力的依賴對真核生物和原核生物的迅速遺傳適應和物種形成是十分重要的(Parsons 1992; Korol et al. 1994; Korol 1999, 2001; Young et al. 2000; Rocha et al. 2002)。儘管許多SSR功能,基因組分佈和機制 的明顯例子在分類學上已經積累了很多,關於這類序列的知識仍被描述為迷一樣的 迷一樣的矛盾複合體 (Chambers & MacAvoy 2000)。這在關於SSR和其餘基因組序列的共進化方面尤其這樣。在現存物種中SSR分佈和多態性的類型應該來源於重複DNA的 極度結構特徵 ,DNA代謝的特性和SSR元件的選擇性調控功能之間複雜的相互作用。澄清這些快速進化的基因組元件的進化重要性需要來自實踐和實驗,尤其是驗證佔據生態異質性和壓迫環境的自然種群 (see also Rocha et al. 2002)。我們相信這是分子生態學對生態基因組學和一般意義上的基因組學的重要貢獻。
訂閱:
張貼留言 (Atom)
0 留言:
張貼留言