GenBank

(重定向自NCBI GenBank

基因银行GenBank)是一个开放获取序列数据库英语sequence database,对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注释。

GenBank
内容
有机体所有
相关信息
研究中心NCBI
发布日期1982年
访问入口
数据格式
网站NCBI
下载地址ncbi ftp
网络服务地址
工具
WebBLAST
StandaloneBLAST
其他
许可Public domain-US Government

此数据库是国际协作核酸序列数据库英语International Nucleotide Sequence Database Collaboration(INSDC)的一部分,由美国国家生物技术信息中心(NCBI)主管,NCBI为美国国立卫生研究院的下属机构。GenBank和它的合作者从全球各个实验室接收了超过百万种生物的数据。

成立三十年来,GenBank数据库成为了最重要的也是最有影响力的生物全领域数据库,其数据正被全球数以百万计的研究人员获取与引用。GenBank中的数据量正以每18个月翻一番的速度持续指数增长[1][2],在2013年2月的版本194中,数据库包含有1.62亿个序列,含有1500亿个核苷酸堿基。[3]

历史

编辑

1979年,洛斯阿拉莫斯国家实验室(LANL)理论生物学和生物物理学小组页面存档备份,存于互联网档案馆)的Walter Goad英语Walter Goad等人建立了洛斯阿拉莫斯序列数据库,最终成为了公共的 GenBank数据库的前身[4]。1982年,由美国国立卫生研究院、美国国家科学基金会、美国能源部和国防部共同出资,LANL与BBN科技公司合作,成立了GenBank。到1983年底,已有超过2,000个序列被存储在GenBank。

在20世纪80年代中期,斯坦福大学的Intelligenetics bioinformatics公司与LANL合作经营着GenBank项目[5]。作为最早的互联网生物信息学社区项目,GenBank计划为生物学家打造一个开放获取BIOSCI英语BIOSCI/Bionet消息社群。1989到1992年,GenBank被转移到新成立的美国国家生物技术信息中心[6]

 
Genbank和EMBL在1986/1987年出版的《核苷酸序列》I到VII卷
 
Genbank v100版本的CDRom

发展

编辑
 
GenBank中碱基对数目的增长,1982年到2018年,半对数图.

在GenBank的版本162.0(2007年8月)的发行说明中道出:“从1982年到现在,GenBank中的碱基数每隔18个月翻一番。”[7]

截至2013年7月8日 (2013-07-08),GenBank的版本196.0已有165,740,164个基因座,152,599,230,112个碱基,165,740,164个报导序列[3]。 GenBank数据库还包括一些额外的数据集,不包括在这个统计内。

GenBank中碱基数前二十的物种(版本 191)[8]
物种 碱基对
智人 Homo sapiens 1.6310774187×10^10
小家鼠 Mus musculus 9.974977889×10^9
褐鼠 Rattus norvegicus 6.521253272×10^9
家牛 Bos taurus 5.386258455×10^9
玉米 Zea mays 5.062731057×10^9
野猪 Sus scrofa 4.88786186×10^9
斑马鱼 Danio rerio 3.120857462×10^9
紫色球海胆英语Strongylocentrotus purpuratus Strongylocentrotus purpuratus 1.435236534×10^9
普通猕猴 Macaca mulatta 1.256203101×10^9
水稻 Oryza sativa Japonica Group 1.255686573×10^9
红花烟草 Nicotiana tabacum 1.197357811×10^9
非洲爪蟾 Xenopus (Silurana) tropicalis 1.249938611×10^9
黑腹果蝇 Drosophila melanogaster 1.11996522×10^9
黑猩猩 Pan troglodytes 1.008323292×10^9
拟南芥 Arabidopsis thaliana 1.144226616×10^9
家犬 Canis lupus familiaris 951,238,343
酿酒葡萄 Vitis vinifera 999,010,073
原鸡 Gallus gallus 899,631,338
大豆 Glycine max 906,638,854
普通小麦 Triticum aestivum 898,689,329

另见

编辑

参考文献

编辑
  1. ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. GenBank. Nucleic Acids Research. 2008, 36 (Database): D25–D30. PMC 2238942 . PMID 18073190. doi:10.1093/nar/gkm929. 
  2. ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. GenBank. Nucleic Acids Research. 2009, 37 (Database): D26–D31. PMC 2686462 . PMID 18940867. doi:10.1093/nar/gkn723. 
  3. ^ 3.0 3.1 GenBank release notes. NCBI. [2013-12-02]. (原始内容存档于2016-12-22). 
  4. ^ Hanson, Todd. Walter Goad, GenBank founder, dies. Newsbulletin: obituary. Los Alamos National Laboratory. 2000-11-21 [2013-12-02]. (原始内容存档于2008-11-07). 
  5. ^ LANL GenBank History. [2013-12-02]. (原始内容存档于2016-03-03). 
  6. ^ Benton D. Recent changes in the GenBank On-line Service. Nucleic Acids Research. 1990, 18 (6): 1517–1520. PMC 330520 . PMID 2326192. doi:10.1093/nar/18.6.1517. 
  7. ^ Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell, Eric W. Sayers. GenBank. Nucleic Acids Research. 2013-01, 41 (Database issue): D36–42 [2019-02-12]. ISSN 1362-4962. PMC 3531190 . PMID 23193287. doi:10.1093/nar/gks1195. (原始内容存档于2020-05-14). 
  8. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. GenBank. Nucleic Acids Res. January 2011, 39 (Database issue): D32–37. PMC 3013681 . PMID 21071399. doi:10.1093/nar/gkq1079. 


外部链接

编辑