BED (文件格式)
BED(Browser Extensible Data,字面意思是「(基因組)瀏覽器可延展數據」)是一種基因組學中用於表示、標記基因組區域位置信息中的文件格式,於人類基因組計劃中首次出現[1]。BED文件是目前基因組學事實上的標準格式之一。
副檔名 | .bed |
---|---|
網路媒體型式 |
text/x-bed |
格式類型 | 文本文件 |
網站 | https://samtools.github.io/hts-specs/BEDv1.pdf |
格式
編輯引入BED格式的人類基因組計劃並未詳細規範BED文件格式,因此一般較通用加州大學聖克魯茲分校(UCSC)基因組瀏覽器中的描述文件[2]。2021年,全球基因組學與健康聯盟(GA4GH)發佈了首份BED文件格式的規範文件[3][4]。
BED文件最少需要有3個分別表示區域染色體序號、起始位置,以及終止位置的列,根據不同需求可增加至12列記錄更多信息。一般來說,不同的列之間應以制表符分隔值(\t)隔開,且每一行的列數必須相同[5]。
下表介紹BED文件每一列應該存儲的信息。三個必須出現的列標記為紅色。
序號 | 原文名稱 | 定義 |
---|---|---|
1 | chrom | 染色體序號。有時也可以是測序腳手架的序號。 |
2 | chromStart | 區域起始位置的編號(染色體起始點設為0) |
3 | chromEnd | 區域終止位置的編號 |
4 | name | 該行表示區域的名稱 |
5 | score | 該區域的分數,如Peak calling(尋峰)的分數,應該在0-100之間 |
6 | strand | 該區域所在的DNA鏈,一般應取「+」(正義鏈)、「-」(反義鏈),或「.」(不適用正反義鏈時) |
7 | thickStart | 在基因組瀏覽器中應加粗表示區域的起始點(例如基因的起始密碼子) |
8 | thickEnd | 在基因組瀏覽器中應加粗表示區域的終止點(例如基因的終止密碼子) |
9 | itemRgb | 該區域在基因組瀏覽器中用什麼顏色表示,應使用三原色光模式(RGB)系統的顏色代碼 |
10 | blockCount | 該行表示的區域含多少個區塊(例如外顯子) |
11 | blockSizes | 該行表示的區域各個區塊的長度。不同區塊應使用半角逗號隔開。元素的數量應與第10列的值相同 |
12 | blockStarts | 該行表示的區域各個區塊的開始點。不同區塊應使用半角逗號隔開。元素的數量應與第10列的值相同 |
頭行文件
編輯一部分BED文件會具有一些與BED文件本身無關的頭行文件,一般包含以下信息
- "browser":與UCSC基因組瀏覽器設置相關的參數
- "track": 與基因組瀏覽器中可視化參數設置相關
- "#":註釋內容,內容任意
文件擴展名
編輯BED文件的擴展名一般為「.bed」。有時候,也根據列數的不同標註為「.bed3」(有3列的BED文件)、「.bed6」(有6列的BED文件)等等[6]。
例子
編輯以下為一個含有最基本3列信息的BED文件範例:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
以下是另一個BED文件的範例,UCSC基因組瀏覽器提供的BED文件一般都是這種格式。頭三行是UCSC基因組瀏覽器的設置參數,與BED文件本身無關。
browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
.genome格式
編輯genome文件是一種有時與BED文件配合使用的文件。這種文件含有兩列,第一列是染色體序號、第二列表示這條染色體的長度。genome文件主要是確保BED文件表示的區域不會位於染色體應有的長度之外。
chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ...
參見
編輯參考資料
編輯- ^ Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. The human genome browser at UCSC.. Genome Research. 2002, 12 (6): 996–1006. ISSN 1088-9051. PMC 186604 . PMID 12045153. doi:10.1101/gr.229102 .
- ^ Frequently Asked Questions: Data File Formats. BED format. UCSC Genome Browser. University of California Santa Cruz Genomics Institute. [2 October 2019]. (原始內容存檔於2021-05-09).
- ^ GA4GH BED v1.0: A formal standard sets ground rules for genomic features. www.ga4gh.org. 2022-03-30 [2022-05-07]. (原始內容存檔於2022-03-31).
- ^ The Browser Extensible Data (BED) format (PDF). samtools.github.io. [2022-05-07]. (原始內容 (PDF)存檔於2022-01-21).
- ^ Quinlan, AR; Hall, IM. The BEDTools manual (PDF). 21 September 2010 [3 October 2019]. (原始內容 (PDF)存檔於2022-02-26).
- ^ Datatypes. Galaxy Community Hub. [3 October 2019]. (原始內容存檔於2021-12-09).