生物信息学

生物信息學（英語：bioinformatics）利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。目前主要的研究方向有：序列比对、序列組裝、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测，以及建立进化模型。

生物学技术往往生成大量的嘈杂数据。与数据挖掘类似，生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括：重新組裝在霰弹枪定序法测序过程中被打散的DNA序列，从蛋白质的氨基酸序列预测蛋白质结构，利用mRNA 微阵列或质谱仪的数据检验基因调控的假说。

某些人将计算生物学作为生物信息学的同义词处理；但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理，因为生物信息学更侧重於生物学领域中计算方法的使用和发展，而计算生物学强调应用信息学技术对生物学领域中的假说进行检验，并尝试发展新的理论。^[1]

定义

生物信息学可以定义为对分子生物学中两类信息流（英语：Information flow）的研究^[2]：

第一类信息流源于分子生物学的中心法则：DNA序列被转录为mRNA序列，后者被翻译为蛋白质序列。蛋白质序列继而折叠为具功能的三维结构。按照达尔文演化理论，这些功能被生物体的环境所选择，从而驱动群体中DNA序列的进化。因此，第一类的生物信息学应用关注于中心法则中任一阶段的信息传递，包括DNA序列中基因的组织与控制、确定DNA中的转录单位、从序列预测蛋白质结构以及分子功能分析。
第二类信息流是基于科学方法：提出关于生物学活动的假设，设计实验以验证这些假设，评估结果与假设的相容性，然后根据实验数据对原假设作扩展或修正。第二类的生物信息学应用关注于这一流程中的信息传递，包括产生假设、设计实验、通过数据库将实验结果组织起来、检验数据与模型的相容性以及修正假设的各个系统。

开拓者

迈克尔·沃特曼（又译：麦克·沃特曼）（Michael Waterman）教授率先将数学和计算方法引入生物学研究，在生物信息领域有许多开创性的贡献，被誉为“生物信息学之父”。他致力于将数学、统计、计算机科学应用于各种分子生物学问题中，开辟了多个重要研究方向。他与Temple Smith发展的Smith-Waterman算法奠定了生物信息学算法的基础，他与Eric Lander发展的生物序列映射数学模型成为人类基因组计划的重要理论基石，同时，他的工作在数学界和计算机领域也有着广泛和深远的影响。2008年起，沃特曼教授受聘为北京清华大学讲席教授，领导由多位海外杰出科学家组成的北京清华大学生物信息学与系统生物学讲席教授组，为中國清华大学乃至中国的生物信息学学科发展做出了突出贡献。2013年获得中华人民共和国友谊奖。

主要研究方向

序列分析

不同基因或蛋白质的序列可以并排排列，以测量它们的相似性。该比对比较含有WPP结构域（英语：WPP domain）的蛋白质序列。

1977年，噬菌体 Φ-X174成为第一个被完整测定基因组序列的生物体。自此以后，越来越多生物体的DNA序列被人类测定。通过对这些序列的分析，人们希望获知其中对应蛋白质编码的基因和基因调控序列。不同物种间的基因比对既能够解释和预测他们蛋白质的功能的相似性，又能够揭示不同物种间的联系。由于数据量巨大，依靠人工分析DNA序列早已变得不切实际，这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的DNA序列。由于DNA序列中普遍存在变异现象，这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中，也存在着不确定的因素。在DNA测序的霰彈槍定序法（The Institute for Genomic Research依此技术测定了第一个细菌的基因组）中，完整的DNA链被打散为成千上万条长约600到800个核苷酸的DNA片段。这些DNA片段的两端相互重叠，只有依照正确的顺序组合，才能还原为完整的DNA序列。对于较大的基因组，霰彈槍定序法能够迅速的测定DNA片段的序列，但将它们組裝起来的工作则相当复杂。在人类基因组计划中，该基因重组过程花费了几个月的CPU时间（on a circa-2000 vintage DEC Alpha computer）。由于现今几乎所有基因序列均由霰彈法测定，基因重组算法是信息生物学研究的重点课题。

基因组中并不是所有的核苷酸都构成基因，所以序列分析的另一个研究课题是对基因组中的基因和基因调控序列进行自动识别。在较高等的生物体中，DNA序列的大部分并没有明显的作用。但是，这些所谓的“垃圾DNA”却可能具有未被识别的功能。

基因组注释

在基因组学中，对基因和其他生物特征的标注称为基因组注释。1995年，Owen White（在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中，他是组员之一）^[3] 设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征，并能够初步的分析它们的功能。大多数现今的注释系统的与之类似，但用以分析DNA序列的软件在不断进化之中。

在寻找基因和致力于发现新蛋白的努力中，人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能，不管它们是双重比对还是多序列比对，都可以回答大量的其它的生物学问题。举例来说，面对一堆搜集的比对序列，人们会研究隐含于蛋白之中的系统发生的关系，以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白，而是研究一个家族中的相关蛋白，看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域，我们可以对蛋白质的整个结构进行预测，并且猜测这些保守区域对于维持三维结构的重要性。

显然，分析一群相关蛋白质时，很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域，绝大多数方法都是基于渐进比对（progressive alignment）的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题，但是当比对的序列大大地超过两个时（双重比对），对于计算的挑战就会很令人生畏。在实际操作中，算法会在计算速度和获得最佳比对之间寻求平衡，常常会接受足够相近的比对。不管最终使用的是什么方法，使用者都必须审视结果的比对，因为在此基础上作一些手工修改是十分必要的，尤其是对保守的区域。

计算进化生物学

进化生物学研究物种的起源和演化。引入信息学到进化生物学中，使得研究者能够：

通过度量DNA序列的改变研究众多生物体间的进化关系（超越了以前基于身体和生理特征观察的研究方法）
通过整个基因组的比对，研究更为复杂的进化论课题，如基因复制，基因横向迁移等
为种群进化建立复杂的计算模型，以预测种群随时间的演化^[4]
保存大量物种的遗传信息

未来的研究工作包括重建业已相当复杂的进化树。

计算进化生物学常常与采用遗传算法的计算机科学相混淆。后者受到生物进化原理的启发，发展出一套软件用于改进配方、算法、集成电路设计等等。^[5]

生物多样性的度量

对一个特定的生态系统，小到一层生物膜、一滴海水、一铲泥土，大到整个地球，其中全体物种的基因组成分可被定义为这个生态系统的生物多样性。搜集各物种的名称、描述、分布、遗传信息、地位、种群大小、栖息地，和各生物体间的相互作用等信息，可以建立一个数据库。有专门的软件用于搜寻、分析和可视化这些信息，更重要的是，它们还能够帮助人们相互交流这些信息。计算机能够模拟相应的模型，以计算种群动态演变，遗传健康状态等等。

该领域的一个重要前景是为濒危物种建立基因银行，即将各物种的基因组信息保存下来。这样即便在将来这些物种灭绝了，人类也可能利用它们的基因组信息重新创造出它们。

蛋白质结构预测

蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列（也称为一级结构）可以容易的由它的基因编码序列获得。在绝大多数情况下，在蛋白质的原生环境中，其结构由它的氨基酸序列唯一的决定。蛋白质的结构对于理解蛋白质的功能十分重要。这些结构信息通常被称为二级、三级、四级结构。目前尚没有普遍可行方案实现这些结构的准确预测；大多数方案为启发式的。

同源性是生物信息学中的一个重要概念。在基因组的研究中，同源性被用以分析基因的功能：若两基因同源，则它们的功能可能相近；在蛋白质结构的研究中，同源性被用于寻找在形成蛋白质结构和蛋白质反应中起关键作用的蛋白质片断。在一种被称为同源建模的技术中，这些信息可与已知结构的蛋白质相比较，从而预测未知结构的蛋白质。目前为止，这是唯一可靠的预测蛋白质结构的方法。

人类血色素和豆类血色素间的相似性是以上方法的一个实例。两种血色素有相同的功能，均能够在各自的生物体内运输氧气。尽管它们的氨基酸序列大不相同，它们的蛋白质结构几乎一样。

蛋白质表达分析

通过蛋白质微阵列技术或高通量质谱分析对生物标本进行测量所获得的数据中，包含有大量生物标本内蛋白质的信息。生物信息学被广泛的应用于这些数据的分析。对于前者，生物信息学所面临的问题与DNA芯片数据分析中遇到的问题相似；对于后者，生物信息学将所获得的大量质谱数据与通过已知蛋白质数据库预测的数据进行比较，并使用复杂的统计学方法进一步分析。^[6]

网络和系统生物学

网络分析试图了解生物网络中的关系，如代谢或蛋白质 - 蛋白质相互作用网络。尽管生物网络可以由单一类型的分子或实体（例如基因）构建，但是网络生物学通常尝试整合许多不同的数据类型，例如蛋白质，小分子，基因表达数据等。另一个流行的遗传网络分析数据源是文献数据。相关工具包括Pathway Studio （页面存档备份，存于互联网档案馆）和IPA （页面存档备份，存于互联网档案馆）。

系统生物学涉及使用细胞子系统（例如代谢物和包括代谢，信号转导途径和基因调节网络的酶的网络）的计算机模拟来分析和可视化这些细胞过程的复杂连接。例如，人工生命或虚拟进化试图通过简单（人工）生命形式的计算机模拟来理解进化过程。

比较基因组学

比较基因组学的核心课题是识别和建立不同生物体的基因或其他基因组特征的联系。这些跨基因组的联系使得我们能够跟踪基因组的进化过程。基因组进化由多个不同层次的事件完成。在最低的层次，单个核苷酸上发生了点变异。在较高的层次，大的染色体片段经历了复制、横向迁移、逆转、调换、删除和插入等过程。在最高的层次上，整个基因组会经历杂交、倍交、内共生等变异，并迅速产生新的物种。

基因表达分析

多种生物学技术可以用于测量基因的表达，如DNA微阵列，表达序列标签（expressed sequence tag），基因表达连续分析（serial analysis of gene expression），大规模平行信号测序（massively parallel signature sequencing），多元原位杂交法（multiplexed in-situ hybridization）等。上列所有方法均严重依赖于环境并會产生大量高雜訊的数据。自从高通量测序技术实现商品化应用以来，转录组测序（RNA-Seq）日益成为研究基因表达信息的主要技术手段。相比传统方法，转录组测序技术具有诸多优势，例如更高的灵敏度，更准确的表达水平测定，更易于发现先前未注释的基因或转录本等。在这些技术的应用过程中，生物信息学致力于发展一套统计学工具以相应的大规模数据中提取有用的生物学信息。^[7]

调控分析

调控是指当细胞受到外信号刺激之后其内发生的一系列反应过程的总和。生物信息学技术被用于分析调控的各个步骤。例如，基因表达的数据可用于分析基因调控。对于一个单细胞生物体，我们可以用生物芯片技术观察受到不同外界刺激、处于细胞周期不同状态的细胞，并将采集到的数据利用聚类算法分析，以寻找表达相似的基因或样本。该结果可用于多种深入的分析。

导致癌症的突变分析

二代测序在生物信息学上的突破使得肿瘤基因组学的范畴得到很大的扩展，新方法与软件的出现也让生物信息学家更快、更便宜地对癌症基因组进行测序。二代测序使得分类基因组里导致癌症的突变的流程变得更灵活，也使得透过为不同时间的样本测序，追踪癌症病人的病况演进的检测手段在未来成为可能^[8]。

生物系统模拟

系统生物学通过对细胞子系统的计算机模拟，分析这些细胞过程间的复杂联系，并将分析结果可视化。例如，人工生命就通过计算机模拟简单的生物形式，以帮助人类了解进化过程。

在药物研发方面的应用

生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得在不同组织在正常／疾病状态下基因表达的差异，通过搜索这些数据库，可以得到候选基因作为药物靶标，特异性地针对某一种疾病。另外，还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定，以便早期了解所研究蛋白的属性，预测它是否适用于药物作用。

软件工具

BLAST（基本局部比对搜寻工具）和FASTA是目前使用得最为频繁的两套数据库搜索程序。它们的功能相近，都是把用户提交的一个核酸序列或蛋白质序列拿去与指定的数据库中的全部序列作比较。一般认为，BLAST运行速度快，对蛋白质序列的搜寻更为有效。FASTA运行较慢，对核酸序列更为敏感。也有基于网页交互的软件如STING，用于结构生物信息学的分析。

参见

参考文献

^ Lesk, A. M. Bioinformatics. Encyclopaedia Britannica. 26 July 2013 [17 April 2017]. （原始内容存档于2021-04-14）.
^ Altman, 1998
^ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science. July 1995, 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800.
^ Carvajal-Rodríguez A. Simulation of Genes and Genomes Forward in Time. Current Genomics. 2012, 11 (1): 58–61. PMC 2851118  . PMID 20808525. doi:10.2174/138920210790218007.
^ Carter, N. P.; Fiegler, H.; Piper, J. Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust. Cytometry Part A. 2002, 49 (2): 43–8. PMID 12357458. doi:10.1002/cyto.10153.
^ The Human Protein Atlas. www.proteinatlas.org. [2017-10-02]. （原始内容存档于2020-03-04）.
^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees (PDF). Nucleic Acids Research. 1 July 2006, 34 (Web Server): W529–W533 [2019-02-16]. PMC 1538886  . PMID 16845064. doi:10.1093/nar/gkl212. （原始内容存档 (PDF)于2018-09-30）.
^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M. “Second-Generation Sequencing for Cancer Genome Analysis”. Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. (编). Cancer Genomics. Boston (US): Academic Press. 2014: 13–30. ISBN 9780123969675. doi:10.1016/B978-0-12-396967-5.00002-5.

书籍

《新药药物靶标开发技术》2006年版，高等教育出版社，ISBN 978-7-04-018953-7

外部链接

（英文）生物信息学机构（页面存档备份，存于互联网档案馆）
EMBnet （页面存档备份，存于互联网档案馆）
Open Bioinformatics Foundation （页面存档备份，存于互联网档案馆）
Bioinformatics Resource Portal (SIB) （页面存档备份，存于互联网档案馆）

[1] Lesk, A. M. Bioinformatics. Encyclopaedia Britannica. 26 July 2013 [17 April 2017]. （原始内容存档于2021-04-14）.

[2] Altman, 1998

[3] Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science. July 1995, 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800.

[4] Carvajal-Rodríguez A. Simulation of Genes and Genomes Forward in Time. Current Genomics. 2012, 11 (1): 58–61. PMC 2851118  . PMID 20808525. doi:10.2174/138920210790218007.

[5] Carter, N. P.; Fiegler, H.; Piper, J. Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust. Cytometry Part A. 2002, 49 (2): 43–8. PMID 12357458. doi:10.1002/cyto.10153.

[6] The Human Protein Atlas. www.proteinatlas.org. [2017-10-02]. （原始内容存档于2020-03-04）.

[7] Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees (PDF). Nucleic Acids Research. 1 July 2006, 34 (Web Server): W529–W533 [2019-02-16]. PMC 1538886  . PMID 16845064. doi:10.1093/nar/gkl212. （原始内容存档 (PDF)于2018-09-30）.

[8] Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M. “Second-Generation Sequencing for Cancer Genome Analysis”. Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. (编). Cancer Genomics. Boston (US): Academic Press. 2014: 13–30. ISBN 9780123969675. doi:10.1016/B978-0-12-396967-5.00002-5.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]