DNA定序

分子生物学技术

DNA定序DNA sequencing)又稱DNA測序,是指分析特定DNA片段的鹼基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥嘌呤(G)的排列方式。快速的DNA定序方法的出現極大地推動了生物學和醫學的研究和發現。

DNA測序
molecular biology technique
上級分類序列、​核酸方法 編輯
從業者分子生物學家、​技師 編輯
使用DNA排序器 編輯

在基礎生物學研究中,和在眾多的應用領域,如診斷,生物技術,法醫生物學,生物系統學中,DNA序列知識已成為不可缺少的知識。具有現代的DNA定序技術的快速定序速度已經有助於達到定序完整的DNA序列,或多種類型的基因組定序和生命物種,包括人類基因組和其他許多動物,植物和微生物物種的完整DNA序列。

RNA定序則通常將RNA提取後,反轉錄為DNA後使用DNA定序的方法進行定序。目前應用最廣泛的是由弗雷德里克·桑格發明的桑格定序[1]。新的定序方法,例如454生物科學的方法和焦磷酸定序法

自動化chain-termination DNA定序結果的一個例子。

應用

編輯

DNA定序可用於確定任何生物的單個基因的序列,較大的遺傳區域(即基因簇或操縱子的簇),完整的染色體或整個基因組。 DNA定序也是對RNA蛋白質進行定序的最有效方法(通過對開放閱讀框定序)。目前,DNA定序已成為生物學和其他科學領域(如醫學,法醫學或人類學等)的關鍵技術。

分子生物學

編輯

分子生物學中,DNA定序可被用於研究基因組及其編碼的蛋白質。利用定序獲得的資訊,科研人員能夠辨識基因的變化,基因與疾病和表型的關聯,並確定潛在的藥物靶點。

演化生物學

編輯

由於DNA是攜帶有遺傳資訊的大分子,在演化生物學中,DNA定序被用於研究不同生物體之間的相關性以及它們是如何演化的。

宏基因組學(或元基因組學)

編輯

宏基因組學是一門直接取得環境中所有遺傳物質的研究。環境包括但不限於水體,污水,污垢,從空氣中過濾出的碎片或者從生物體採集的樣本。了解在特定環境中存在哪些生物體對於生態學流行病學微生物學和其他領域的研究至關重要。DNA定序使研究人員能夠確定微生物群中可能存在哪些類型的微生物

醫學

編輯

醫療人員可通過對患者基因(基因組)的定序結果確定該患者是否有攜帶遺傳性疾病的風險。需要注意的是,該方法屬於基因檢測,有些基因檢測不會用到DNA定序技術。

法醫學

編輯

DNA定序可以與DNA圖譜鑑定(基因指紋分析,英語:DNA profiling)一起用於法醫鑑定和親子鑑定。 DNA測試在過去的幾十年中發展迅猛,目前已能夠做到將DNA鑑定結果與被調查對象聯絡起來。指紋,唾液,毛囊等中的DNA特徵可以將不同的生物體進行區分。測試DNA是一種可以檢測DNA鏈中特定基因組並生成唯一的個性化DNA模型的技術。每一種有機體都有其DNA特徵,並可以通過DNA測試來確定。兩個人具有完全相同的DNA特徵是非常罕見的,因此保證了DNA測試的成功。

歷史

編輯

DNA結構與功能的發現

編輯
 
弗雷德里克·桑格,DNA定序的先驅者。桑格是少數獲得兩項諾貝爾獎的科學家之一,其中一項為蛋白質定序,另一項為DNA定序。

去氧核糖核酸(DNA)最早在1869年由Friedrich Miescher發現並分離出來,但由於當時普遍認為遺傳資訊儲存於蛋白質而不是DNA中,因此在過去幾十年中DNA一直沒有得到充分研究。1944年,由於Oswald Avery,Colin MacLeod和Maclyn McCarty的一些實驗表明,純化的DNA可以將一種細菌變成另一種細菌,這種情況才發生了變化。這也是首次DNA顯示出改變細胞特性的能力。

1953年,James Watson和Francis Crick根據Rosalind Franklin研究的結晶X射線結構提出了他們的雙螺旋DNA模型。根據該模型,DNA由彼此纏繞的兩條核苷酸鏈組成,通過氫鍵連接在一起並以相反方向執行。每條鏈由四個互補的核苷酸組成:腺嘌呤(A),胞嘧啶(C),鳥嘌呤(G)和胸腺嘧啶(T),其中A與T配對,C與G配對。他們提出的這種結構,使得每條單鏈都可被用於重建另一條鏈,並且讓遺傳資訊代代相傳。

對蛋白質進行定序的基礎首先由弗雷德里克·桑格(Frederick Sanger)的工作奠定,他於1955年完成了胰島素(胰腺分泌的一種蛋白質)中所有胺基酸序列的定序工作。這是首個確鑿的證據證明蛋白質是具有特定分子模式的化學實體,而不是懸浮在流體中的隨機混合物。桑格在胰島素定序方面的成功使得X射線晶體學家大為振奮,包括華生和克里克,他們現在正試圖理解DNA如何指導細胞內蛋白質的形成。在1954年10月弗雷德里克·桑格出席一系列講座後不久,克里克開始發展一種理論,認為DNA中核苷酸的排列決定了蛋白質中胺基酸的序列,從而幫助確定蛋白質的功能。他於1958年發表了這一理論。

RNA定序

編輯

RNA定序是最早的核苷酸定序形式之一。 RNA定序的主要標誌是1972年和1976年Walter Fiers及其同事在根特大學(根特,比利時)確定並發表的第一個完整基因序列和噬菌體MS2的完整基因組。傳統的RNA定序方法需要建立一個用於定序的互補cDNA(complementary DNA)分子。

早期的DNA定序方法

編輯

確定 DNA 序列的第一種方法涉及由康奈爾大學吳瑞於1970年建立的位置特異性引子延伸策略[2]。 DNA聚合酶催化和特定核苷酸標記,這兩者在當前的定序方案中都很重要,用於對λ噬菌體DNA的粘性末端進行定序[3][4][5]。在1970年至1973年間,吳瑞、R Padmanabhan及其同事證明,該方法可用於使用合成的位置特異性引子確定任何DNA序列[6][7][8]。隨後弗雷德里克·桑格(Frederick Sanger)採用這種引子延伸策略在英國劍橋英國醫學研究委員會(MRC)中心開發了更快速的DNA定序方法,並於1977年發表了「使用鏈終止抑制劑進行DNA定序」的方法。

全基因組定序

編輯
 
Φ-X174噬菌體英語Phi X 174的5,386 bp基因組。每個彩色塊代表一個基因。

第一個完整的DNA基因組定序是在1977年Φ-X174噬菌體英語Phi X 174(Phage Φ-X174)的定序工作。醫學研究委員會的科學家在1984年破譯了Epstein-Barr病毒的完整DNA序列,發現它含有172,282個核苷酸。 該序列的完成標誌著DNA定序的一個重要轉折點,它在沒有病毒基因譜知識的情況下實現了DNA定序。

20世紀80年代初,Pohl及其同事開發了一種在電泳時將定序反應混合物的DNA分子轉移到固定基質上的非放射性方法。隨後GATC Biotech公司的DNA定序儀「Direct-Blotting-Electrophoresis-System GATC 1500」商業化,該定序儀在EU基因組定序程式的框架以及酵母釀酒酵母染色體II的完整DNA序列中廣泛使用。加利福尼亞理工學院的Leroy E. Hood實驗室於1986年宣布了第一台半自動DNA定序機。隨後,Applied Biosystems在1987年推出了第一台全自動定序儀ABI 370。以及Dupont公司的Genesis 2000,該儀器使用了一種新的螢光標記技術,可在單一泳道中辨識所有四個雙去氧核苷酸。到1990年,美國國立衛生研究院(NIH)已開始對支原體,大腸桿菌,秀麗隱杆線蟲和釀酒酵母進行大規模定序實驗,費用為每個鹼基0.75美元。同時,人類cDNA序列的定序始於Craig Venter的實驗室,試圖取得人類基因組的編碼部分。 1995年,Venter,Hamilton Smith及其基因組研究所(TIGR)的同事發表了第一個完整的自由生物體細菌流感嗜血桿菌(Haemophilus influenzae)的基因組。該環形染色體中含有1,830,137個鹼基,其在《科學》雜誌中的發表標誌著全基因組鳥槍法定序的首次公開使用,擺脫了初始繪製工作的需要。

高通量定序(HTS)方法

編輯
 
定序技術的歷史[9]

1990年代中後期開發了幾種新的DNA定序方法,並於 2000年在商業DNA定序儀中實施。這些方法統稱為「下一代」或「第二代」定序 (NGS) 方法,以便將它們與包括桑格定序在內的早期方法區分開來。 與第一代定序相比,NGS 技術的典型特徵是高度可延伸,允許一次對整個基因組進行定序。通常,這是通過將基因組片段化成小塊、隨機採樣片段並使用多種技術之一對其進行定序來實現的,例如下面描述的那些。 整個基因組定序是可能的,因為在一個自動化過程中同時對多個片段進行定序(命名為「大規模並行」定序)。

1990年10月26日,錢永健、Pepi Ross、Margaret Fahnestock 和 Allan J Johnston 提交了一項專利,描述了在 DNA 陣列(墨點和單個 DNA 分子)上使用可移除的 3' 阻斷劑進行逐步(「鹼基對鹼基」)定序[10]。 1996 年,斯德哥爾摩皇家理工學院波爾·尼倫英語Pål Nyrén(Pål Nyrén) 和他的學生穆斯塔法·羅納吉英語Mostafa Ronaghi(Mostafa Ronaghi)發表了他們的焦磷酸定序方法[11]

1997年4月1日,Pascal Mayer​(法語和Laurent Farinelli 向世界智慧財產權組織提交了描述DNA菌落定序的專利[12]。 本專利中描述的DNA樣品製備和隨機表面聚合酶連鎖反應 (PCR) 陣列方法,與錢永健等人的「鹼基對鹼基」定序方法相結合,現已在Illumina公司的Hi-Seq基因組定序儀中實施。

基本方法

編輯

Maxam-Gilbert定序法

編輯

馬克薩姆-吉爾伯特定序(英語:Maxam-Gilbert sequencing)是一項由阿倫·馬克薩姆英語Allan Maxam沃爾特·吉爾伯特於1976~1977年間開發的DNA定序方法。此項方法基於:對核鹼基特異性地進行局部化學改性,接下來在改性核苷酸毗鄰的位點處DNA骨架發生斷裂[13]

Sanger定序法

編輯

Sanger(桑格)雙去氧鏈終止法弗雷德里克·桑格(Frederick Sanger)於1975年發明的。定序過程需要先做一個聚合酶連鎖反應(PCR)。PCR過程中,雙去氧核苷酸可能隨機地被加入到正在合成中的DNA片段里。由於雙去氧核糖核苷酸又少了一個原子,一旦它被加入到DNA鏈上,這個DNA鏈就不能繼續增加長度。最終的結果是獲得所有可能獲得的、不同長度的DNA片段。目前最普遍最先進的方法,是將雙去氧核糖核苷酸進行不同螢光標記。將PCR反應獲得的總DNA通過毛細管電泳分離,跑到最末端的DNA就可以在雷射的作用下發出螢光。由於ddATP, ddGTP, ddCTP, ddTTP(4種雙去氧核糖核苷酸)螢光標記不同,電腦可以自動根據顏色判斷該位置上鹼基究竟是A,T,G,C中的哪一個[14]

進階方法和de novo定序法

編輯

霰彈槍定序法

編輯

霰彈槍定序法(shotgun sequencing,又稱鳥槍法)是一種廣泛使用的為較長DNA定序的方法。它比傳統的定序法快速,但精確度較差。霰彈槍定序法曾經使用於塞雷拉基因組(Celera Genomics)公司所主持的人類基因組計劃

Bridge PCR

編輯

新一代定序

編輯

隨著人們對低成本定序的需求與日俱增,推動了高通量定序(high-throughput sequencing)的發展,此技術又稱為二代定序(second generation sequencing)、新一代定序(next-generation sequencing)、次世代定序大規模平行定序(massively parallel signature sequencing,MPSS),即邊合成邊定序,一次可以對幾十萬至數億條DNA模板同時進行序列測定。這些技術對定序過程采多路復用,同時產生上千或上百萬條序列[15][16]。高通量定序技術的目的是降低DNA定序的成本,這個成本比同樣可實現定序的染料終止法來得低得多[17]。超高通量定序過程中可同時執行高達500,000次的邊合成邊定序[18][19][20]

 
新世代技術利用電腦科技,需要根據多個片段序列所重疊的區域,將它們全部組裝起來。
新一代定序方法的比較 [21][22]
方法 單分子即時定序(Pacific Bio) 離子半導體(Ion Torrent sequencing) 焦磷酸定序(454) 邊合成邊定序(Illumina) 邊連接邊定序(SOLiD sequencing) 鏈終止法(Sanger sequencing)
讀長 5,500 bp to 8,500 bp avg (10,000 bp N50); maximum read length >30,000 bases[23][24][25] up to 400 bp 700 bp 50 to 300 bp 50+35 or 50+50 bp 400 to 900 bp
精確度 99.999% consensus accuracy; 87% single-read accuracy[26] 98% 99.9% 98% 99.9% 99.9%
每次執行可取得讀段數 50,000 per SMRT cell, or ~400 megabases[27][28] up to 80 million 1 million up to 3 billion 1.2 to 1.4 billion N/A
每次執行耗時 30 minutes to 2 hours [29] 2 hours 24 hours 1 to 10 days, depending upon sequencer and specified read length[30] 1 to 2 weeks 20 minutes to 3 hours
每百萬鹼基所耗成本(美元) $0.33-$1.00 $1 $10 $0.05 to $0.15 $0.13 $2400
優勢 Longest read length. Fast. Detects 4mC, 5mC, 6mA.[31] Less expensive equipment. Fast. Long read size. Fast. Potential for high sequence yield, depending upon sequencer model and desired application. Low cost per base. Long individual reads. Useful for many applications.
劣勢 Moderate throughput. Equipment can be very expensive. Homopolymer errors. Runs are expensive. Homopolymer errors. Equipment can be very expensive. Requires high concentrations of DNA. Slower than other methods. Have issue sequencing palindromic sequence.[32] More expensive and impractical for larger sequencing projects.

454生物科學和焦磷酸定序法

編輯

454定序法由454生物科學發明,是一個類似焦磷酸定序法的新方法。2003年向GenBank提交了一個腺病毒全序列[33],使得他們的技術成為Sanger定序法後第一個被用來測生物基因組全序列的新方法。454使用類似於焦磷酸定序的方法,有著相當高的讀取速度,大約為5小時可以測兩千萬鹼基對[33]

正在開發的定序法

編輯

奈米孔DNA定序法

編輯

高通量定序

編輯

高通量定序能一次對幾十到幾百萬DNA分子進行序列測定。

參見

編輯

參考文獻

編輯
  1. ^ 存档副本. [2006-11-17]. (原始內容存檔於2006-11-11). 
  2. ^ Ray Wu Faculty Profile. Cornell University. (原始內容存檔於2009-03-04). 
  3. ^ Padmanabhan R, Jay E, Wu R. Chemical synthesis of a primer and its use in the sequence analysis of the lysozyme gene of bacteriophage T4. Proceedings of the National Academy of Sciences of the United States of America. June 1974, 71 (6): 2510–4. Bibcode:1974PNAS...71.2510P. PMC 388489 . PMID 4526223. doi:10.1073/pnas.71.6.2510 . 
  4. ^ Onaga LA. Ray Wu as Fifth Business: Demonstrating Collective Memory in the History of DNA Sequencing. Studies in the History and Philosophy of Science. Part C. June 2014, 46: 1–14. PMID 24565976. doi:10.1016/j.shpsc.2013.12.006. 
  5. ^ Wu R. Nucleotide sequence analysis of DNA. Nature New Biology. 1972, 236 (68): 198–200. PMID 4553110. doi:10.1038/newbio236198a0. 
  6. ^ Padmanabhan R, Wu R. Nucleotide sequence analysis of DNA. IX. Use of oligonucleotides of defined sequence as primers in DNA sequence analysis. Biochem. Biophys. Res. Commun. 1972, 48 (5): 1295–302. PMID 4560009. doi:10.1016/0006-291X(72)90852-2. 
  7. ^ Wu R, Tu CD, Padmanabhan R. Nucleotide sequence analysis of DNA. XII. The chemical synthesis and sequence analysis of a dodecadeoxynucleotide which binds to the endolysin gene of bacteriophage lambda. Biochem. Biophys. Res. Commun. 1973, 55 (4): 1092–99. PMID 4358929. doi:10.1016/S0006-291X(73)80007-5. 
  8. ^ Jay E, Bambara R, Padmanabhan R, Wu R. DNA sequence analysis: a general, simple and rapid method for sequencing large oligodeoxyribonucleotide fragments by mapping. Nucleic Acids Research. March 1974, 1 (3): 331–53. PMC 344020 . PMID 10793670. doi:10.1093/nar/1.3.331. 
  9. ^ Yang, Aimin; Zhang, Wei; Wang, Jiahao; Yang, Ke; Han, Yang; Zhang, Limin. Review on the Application of Machine Learning Algorithms in the Sequence Data Mining of DNA. Frontiers in Bioengineering and Biotechnology. 2020, 8: 1032. PMC 7498545 . PMID 33015010. doi:10.3389/fbioe.2020.01032 . 
  10. ^ Espacenet – Bibliographic data. worldwide.espacenet.com. [2021-12-04]. (原始內容存檔於2022-01-10). 
  11. ^ Ronaghi M, Karamohamed S, Pettersson B, Uhlén M, Nyrén P. Real-time DNA sequencing using detection of pyrophosphate release. Analytical Biochemistry. 1996, 242 (1): 84–89. PMID 8923969. doi:10.1006/abio.1996.0432. 
  12. ^ Kawashima, Eric H.; Laurent Farinelli; Pascal Mayer​(法語. Patent: Method of nucleic acid amplification. 2005-05-12 [2012-12-22]. (原始內容存檔於22 February 2013). 
  13. ^ Maxam AM, Gilbert W. A new method for sequencing DNA. Proc. Natl. Acad. Sci. U.S.A. February 1977, 74 (2): 560–4. Bibcode:1977PNAS...74..560M. PMC 392330 . PMID 265521. doi:10.1073/pnas.74.2.560. 
  14. ^ Sanger sequencing. 2020年3月20日 [2020年3月27日]. (原始內容存檔於2020年3月29日) –透過Wikipedia. 
  15. ^ Hall, Nell. Advanced sequencing technologies and their wider impact in microbiology. J. Exp. Biol. May 2007, 209 (Pt 9): 1518–1525. PMID 17449817. doi:10.1242/jeb.001370.  
  16. ^ Church, George M. Genomes for all. Sci. Am. January 2006, 294 (1): 46–54. PMID 16468433. doi:10.1038/scientificamerican0106-46.  
  17. ^ Schuster SC. Next-generation sequencing transforms today's biology. Nat. Methods. January 2008, 5 (1): 16–18. PMID 18165802. S2CID 1465786. doi:10.1038/nmeth1156. 
  18. ^ Kalb, Gilbert; Moxley, Robert. Massively Parallel, Optical, and Neural Computing in the United States. IOS Press. 1992. ISBN 90-5199-097-9. [頁碼請求]
  19. ^ John R. ten Bosch, Wayne W. Grody. Keeping up with the next generation: massively parallel sequencing in clinical diagnostics. The Journal of molecular diagnostics: JMD. 2008-11, 10 (6): 484–492 [2019-02-12]. ISSN 1525-1578. PMC 2570630 . PMID 18832462. doi:10.2353/jmoldx.2008.080027. (原始內容存檔於2019-06-12).  
  20. ^ Tracy Tucker, Marco Marra, Jan M. Friedman. Massively parallel sequencing: the next big thing in genetic medicine. American Journal of Human Genetics. 2009-08, 85 (2): 142–154 [2019-02-12]. ISSN 1537-6605. PMC 2725244 . PMID 19679224. doi:10.1016/j.ajhg.2009.06.022. (原始內容存檔於2019-06-06).  
  21. ^ Quail, Michael; Smith, Miriam E; Coupland, Paul; et al. A tale of three next generation sequencing platforms: comparison of Ion torrent, pacific biosciences and illumina MiSeq sequencers. BMC Genomics. 1 January 2012, 13 (1): 341. PMC 3431227 . PMID 22827831. doi:10.1186/1471-2164-13-341.  
  22. ^ Liu, Lin; Li, Yinhu; Li, Siliang; et al. Comparison of Next-Generation Sequencing Systems. Journal of Biomedicine and Biotechnology (Hindawi Publishing Corporation). 1 January 2012, 2012: 1–11. doi:10.1155/2012/251364.  
  23. ^ New Products: PacBio's RS II; Cufflinks. GenomeWeb. [2020-03-27]. (原始內容存檔於2020-03-27). 
  24. ^ After a Year of Testing, Two Early PacBio Customers Expect More Routine Use of RS Sequencer in 2012. GenomeWeb. 10 January 2012 [2014-02-08]. (原始內容存檔於2013-12-12).  
  25. ^ Inc, Pacific Biosciences of California. Pacific Biosciences Introduces New Chemistry With Longer Read Lengths to Detect Novel Features in DNA Sequence and Advance Genome Studies of Large Organisms. GlobeNewswire News Room. 2013年10月3日 [2020年3月27日]. (原始內容存檔於2020年3月27日). 
  26. ^ Chin, Chen-Shan; Alexander, David H.; Marks, Patrick; Klammer, Aaron A.; Drake, James; Heiner, Cheryl; Clum, Alicia; Copeland, Alex; Huddleston, John; Eichler, Evan E.; Turner, Stephen W.; Korlach, Jonas. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nature Methods. 2013年6月27日, 10 (6): 563–569 [2020年3月27日]. doi:10.1038/nmeth.2474. (原始內容存檔於2020年3月29日) –透過www.nature.com. 
  27. ^ De novo bacterial genome assembly: a solved problem?. 2013年7月5日 [2020年3月27日]. (原始內容存檔於2020年3月27日). 
  28. ^ Rasko, David A.; Webster, Dale R.; Sahl, Jason W.; et al. Origins of the Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany. N Engl J Med. 25 August 2011, 365 (8): 709–717. doi:10.1056/NEJMoa1106920.  
  29. ^ Tran, Ben; Brown, Andrew M.K.; Bedard, Philippe L.; Winquist, Eric; Goss, Glenwood D.; Hotte, Sebastien J.; Welch, Stephen A.; Hirte, Hal W.; Zhang, Tong; Stein, Lincoln D.; Ferretti, Vincent; Watt, Stuart; Jiao, Wei; Ng, Karen; Ghai, Sangeet; Shaw, Patricia; Petrocelli, Teresa; Hudson, Thomas J.; Neel, Benjamin G.; et al. Feasibility of real time next generation sequencing of cancer genes linked to drug response: Results from a clinical trial. Int. J. Cancer. 1 January 2012: 1547–1555. doi:10.1002/ijc.27817.  
  30. ^ van Vliet, Arnoud H.M. Next generation sequencing of microbial transcriptomes: challenges and opportunities. FEMS Microbiology Letters. 1 January 2010, 302 (1): 1–7. doi:10.1111/j.1574-6968.2009.01767.x.  
  31. ^ Murray I. A.; Clark, T. A.; Morgan, R. D.; Boitano, M.; Anton, B. P.; Luong, K.; Fomenkov, A.; Turner, S. W.; Korlach, J.; Roberts, R. J. The methylomes of six bacteria. Nucleic Acids Research. 2 October 2012, 40 (22): 11450–62. PMC 3526280 . PMID 23034806. doi:10.1093/nar/gks891. 
  32. ^ Yu-Feng Huang, Sheng-Chung Chen, Yih-Shien Chiang, Tzu-Han Chen & Kuo-Ping Chiu. Palindromic sequence impedes sequencing-by-ligation mechanism. BMC systems biology. 2012,. 6 Suppl 2: S10. PMID 23281822. doi:10.1186/1752-0509-6-S2-S10. 
  33. ^ 33.0 33.1 About 454 - Overview. [2006-11-17]. (原始內容存檔於2006-10-29).