BED (文件格式)
BED(Browser Extensible Data,字面意思是“(基因组)浏览器可延展数据”)是一种基因组学中用于表示、标记基因组区域位置信息中的文件格式,于人类基因组计划中首次出现[1]。BED文件是目前基因组学事实上的标准格式之一。
扩展名 | .bed |
---|---|
互联网媒体类型 |
text/x-bed |
格式类型 | 文本文件 |
网站 | https://samtools.github.io/hts-specs/BEDv1.pdf |
格式
编辑引入BED格式的人类基因组计划并未详细规范BED文件格式,因此一般较通用加州大学圣克鲁兹分校(UCSC)基因组浏览器中的描述文件[2]。2021年,全球基因组学与健康联盟(GA4GH)发布了首份BED文件格式的规范文件[3][4]。
BED文件最少需要有3个分别表示区域染色体序号、起始位置,以及终止位置的列,根据不同需求可增加至12列记录更多信息。一般来说,不同的列之间应以制表符分隔值(\t)隔开,且每一行的列数必须相同[5]。
下表介绍BED文件每一列应该存储的信息。三个必须出现的列标记为红色。
序号 | 原文名称 | 定义 |
---|---|---|
1 | chrom | 染色体序号。有时也可以是测序脚手架的序号。 |
2 | chromStart | 区域起始位置的编号(染色体起始点设为0) |
3 | chromEnd | 区域终止位置的编号 |
4 | name | 该行表示区域的名称 |
5 | score | 该区域的分数,如Peak calling(寻峰)的分数,应该在0-100之间 |
6 | strand | 该区域所在的DNA链,一般应取“+”(正义链)、“-”(反义链),或“.”(不适用正反义链时) |
7 | thickStart | 在基因组浏览器中应加粗表示区域的起始点(例如基因的起始密码子) |
8 | thickEnd | 在基因组浏览器中应加粗表示区域的终止点(例如基因的终止密码子) |
9 | itemRgb | 该区域在基因组浏览器中用什么颜色表示,应使用三原色光模式(RGB)系统的颜色代码 |
10 | blockCount | 该行表示的区域含多少个区块(例如外显子) |
11 | blockSizes | 该行表示的区域各个区块的长度。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同 |
12 | blockStarts | 该行表示的区域各个区块的开始点。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同 |
头行文件
编辑一部分BED文件会具有一些与BED文件本身无关的头行文件,一般包含以下信息
- "browser":与UCSC基因组浏览器设置相关的参数
- "track": 与基因组浏览器中可视化参数设置相关
- "#":注释内容,内容任意
文件扩展名
编辑BED文件的扩展名一般为“.bed”。有时候,也根据列数的不同标注为“.bed3”(有3列的BED文件)、“.bed6”(有6列的BED文件)等等[6]。
例子
编辑以下为一个含有最基本3列信息的BED文件范例:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
以下是另一个BED文件的范例,UCSC基因组浏览器提供的BED文件一般都是这种格式。头三行是UCSC基因组浏览器的设置参数,与BED文件本身无关。
browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
.genome格式
编辑genome文件是一种有时与BED文件配合使用的文件。这种文件含有两列,第一列是染色体序号、第二列表示这条染色体的长度。genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外。
chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ...
参见
编辑参考资料
编辑- ^ Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. The human genome browser at UCSC.. Genome Research. 2002, 12 (6): 996–1006. ISSN 1088-9051. PMC 186604 . PMID 12045153. doi:10.1101/gr.229102 .
- ^ Frequently Asked Questions: Data File Formats. BED format. UCSC Genome Browser. University of California Santa Cruz Genomics Institute. [2 October 2019]. (原始内容存档于2021-05-09).
- ^ GA4GH BED v1.0: A formal standard sets ground rules for genomic features. www.ga4gh.org. 2022-03-30 [2022-05-07]. (原始内容存档于2022-03-31).
- ^ The Browser Extensible Data (BED) format (PDF). samtools.github.io. [2022-05-07]. (原始内容 (PDF)存档于2022-01-21).
- ^ Quinlan, AR; Hall, IM. The BEDTools manual (PDF). 21 September 2010 [3 October 2019]. (原始内容 (PDF)存档于2022-02-26).
- ^ Datatypes. Galaxy Community Hub. [3 October 2019]. (原始内容存档于2021-12-09).