SAM格式
SAM(Sequence Alignment Map,可直譯為「序列比對地圖」)是生物信息學中一種用於儲存已比對到基因組上的序列信息的文件格式。SAM格式是在千人基因組計劃期間由李恆等人為了取代過去的MAQ格式開發出來的[1]。SAM這一名稱是參與這一項目的猶他大學教授加博爾·馬思決定的。他在現在的SAM格式開發出來以前就開發出了一種同名的結構文件,不過當時他開發的SAM格式更接近於BLAST算法的輸出結果[2]。現在SAM格式已成為學界與工業界都廣泛接受的生物信息學格式之一,經過數次修正之後,目前的SAM格式甚至也可以儲存沒有比對到基因組上的序列信息。SAM格式不僅可以儲存第二代測序中的短長度序列的比對信息,也可以儲存長至128MB的長序列的比對信息[3]。
開發者 | |
---|---|
格式類型 | 生物信息學 |
延伸自 | TSV文件 |
網站 | samtools |
SAM格式壓縮後以二進制格式表示產生的文件稱為BAM格式(Binary Alignment Map)[4]。
格式
編輯SAM格式由頭部(header)和比對(alignment section)兩部分組成[1],可以使用SAMtools軟件進行分析和編輯。如果存在頭部部分,它必須位於比對部分之前。頭部部分以'@'符號開頭,以區別於比對部分。比對部分有11個必需字段以及可變數量的可選字段[1]。
列 | 名稱 | 數據類型 | 說明 |
---|---|---|---|
1 | QNAME | 字符 | 查詢模板名稱 |
2 | FLAG | 整數 | 比對FLAG數字之和 |
3 | RNAME | 字符 | 序列比對上的參考序列的名稱,在真核生物中一般指染色體編號 |
4 | POS | 整數 | 序列上第一個鹼基比對到參考序列上的位置,如沒有比對上會記為0 |
5 | MAPQ | 整數 | 比對品質的評分,數值越大代表比對品質越高 |
6 | CIGAR | 字符 | CIGAR值 |
7 | RNEXT | 字符 | 雙端測序另一端序列比對上的參考序列的名稱,在真核生物中一般指染色體編號。單端測序數據中此處會被記為「*」 |
8 | PNEXT | 整數 | 雙端測序另一端序列比對到參考序列上的位置,如沒有比對上會記為0 |
9 | TLEN | 整數 | 讀長比對到參考序列上的長度,如果和參考序列完全比對,數值上等於讀長本身的長度 |
10 | SEQ | 字符 | 讀長序列信息 |
11 | QUAL | 字符 | 讀長的測序品質,以Phred-33分數表示 |
參見
編輯參考資料
編輯- ^ 1.0 1.1 1.2 1.3 Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. The Sequence Alignment/Map format and SAMtools (PDF). Bioinformatics. 2009, 25 (16): 2078–2079 [2023-07-19]. ISSN 1367-4803. PMC 2723002 . PMID 19505943. doi:10.1093/bioinformatics/btp352. (原始內容存檔 (PDF)於2021-12-26).
- ^ Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" - GigaBlog. gigasciencejournal.com. [2021-03-20]. (原始內容存檔於2023-05-20) (英語).
- ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. Computational Life Sciences: Data Engineering and Data Mining for Life Sciences. Studies in Big Data. Springer International Publishing. 2023: 447 [2023-07-19]. ISBN 978-3-031-08411-9. (原始內容存檔於2023-07-19).
- ^ SAM/BAM Format Specification (PDF). samtools.github.io. [2023-07-19]. (原始內容存檔 (PDF)於2017-04-06).