蛋白質家族

蛋白質家族（英語：protein family）是一組與演化相關的蛋白質。在許多情況下，蛋白質家族具有相應的基因家族，其中每個基因編碼具有1:1關係的相應蛋白質。蛋白質家族的成員從同一祖先演化而來（見同源），具有相似的氨基酸序列、三維結構及生物學功能。

蛋白質家族的相似性中，最重要的是序列相似性（通常是氨基酸序列），因為它是同源的最嚴格指標，因此是共同祖先的最清晰的指標。使用序列比對方法評估一組序列之間的相似性的重要性存在相當完善的框架。不共享共同祖先的蛋白質不太可能顯示統計學上顯着的序列相似性，使序列比對成為識別蛋白質家族成員的有力工具。

有時候，家族有時被分組成更大的演化支稱為蛋白質超家族，基於結構和機械相似性，即使沒有可識別的序列同源性。

目前，已經定義了超過60,000個蛋白質家族^[1]，儘管在「蛋白質家族」定義中的歧義導致不同的研究人員在得到的蛋白質家族總數上有數量的變化。

術語「蛋白質家族」的「家族」（family）不應該與「科 (生物)」（family (biology)）混淆，因為後者用於生物分類學。

術語和用法

與許多生物學術語一樣，術語「蛋白質家族」的使用在一定程度上取決於上下文。它可能表示具有儘可能低的可檢測序列相似性水平的大群的蛋白質，或者表示具有幾乎相同的序列，功能和三維結構的非常狹窄的蛋白質群，或介於兩者之間的任何群。為了區分這些情況，術語「蛋白質超家族」通常用於遠距離相關的蛋白質，這些蛋白質的相關性無法通過序列相似性檢測到，而只能通過共享的結構特徵來檢測^[2]^[3]^[4]。這些年來，諸如蛋白質類別（class），組別（group），氏族（clan），和亞家族（sub-family）之類的其他術語也被創造出來了，但是它們在用法上都存在相似的歧義。一種常見用法是，超家族（結構同源性）包含具有亞家族的家族（序列同源性）。因此，一個超家族，例如蛋白酶的蛋白酶PA氏族（英語：PA clan of proteases），其序列保守性遠低於其所包含的家族之一的C04家族。不太可能會商定確切的定義，而是由讀者來確定確切地在特定上下文中使用這些術語的方式。

上圖展示的是250個蛋白酶PA氏族（英語：PA clan of proteases）（蛋白質超家族）成員的序列保守性。下圖展示的是CO4蛋白酶家族的70個成員的序列保守性。箭頭指示了催化三聯體的殘基。通過DALI算法在結構上進行對齊。

蛋白質的結構域和模體

蛋白質家族的概念是在還很少知道蛋白質結構或序列的時候被構想的。那時，在結構上理解的主要是小的和單一結構域的蛋白，例如肌紅蛋白，血紅蛋白和細胞色素c。從那時起，發現許多蛋白質包含多個獨立的結構和功能單元或結構域（protein domain）。由於演化改組，一個蛋白質中的不同結構域已經有獨立的演化。近年來，這導致了對蛋白質結構域家族的關注。許多在線資源致力於標識和分類這樣的結構域（請參閱本文結尾處的列表）。

每種蛋白質的區域具有不同的功能限制（對於蛋白質的結構和功能至關重要的特徵）。例如，酶的活性位點需要某些氨基酸殘基在三個維度上精確定向。另一方面，蛋白質與蛋白質的結合界面可能由較大的表面組成，並限制了氨基酸殘基的疏水性或極性。蛋白質的功能限制區比無限制區（如表面環）進化得更慢，當比較蛋白質家族的序列時，會形成可辨別的保守序列區（請參閱多重序列比對）。儘管使用了許多其他術語（塊，簽名，指紋等），但這些塊通常被稱為模體(motif)。同樣，許多在線資源都致力於識別和分類蛋白質模體（請參閱文章結尾處的列表）。

演化

根據目前的共識，蛋白質家族以兩種方式產生。首先，將親本物種分離為兩個遺傳分離的後代物種可以使基因/蛋白質獨立地積累這兩個譜系中的變異（突變）。這產生了直系同源蛋白家族，通常具有保守的序列基序。其次，基因重複可以產生基因的第二個拷貝（稱為旁系同源物）。因為原本的基因仍然能夠執行其功能，所以複製的基因可以自由發散並可以獲取新功能（通過隨機突變）。某些基因/蛋白質家族，特別是在真核生物中，在進化過程中會經歷極端的擴張和收縮，有時會與全基因組複製相一致。蛋白質家族的這種擴張和收縮是基因組進化的顯着特徵之一，但是其重要性和後果目前尚不清楚。

RAS超家族的系統發育樹（以免費在線軟件FigTree創建）。

用途和重要性

隨着已經被測序蛋白質總數的增加以及對蛋白質組分析的興趣不斷擴大，人們正在努力將蛋白質組織成家族並描述其組成結構域和模體。可靠地鑑定蛋白質家族對於系統發生分析，功能註釋以及在給定的系統發育分支中探索蛋白質功能的多樣性至關重要。酶功能倡議（英語：Enzyme Function Initiative）（Enzyme Function Initiative，EFI）正在使用蛋白質家族和超家族作為開發基於序列/結構的策略的基礎，以用於未知功能酶的大規模功能分配^[5]。

用於大規模建立蛋白質家族的算法手段是基於相似性的概念。在大多數情況下，我們可以訪問的唯一相似性是序列相似性。

蛋白質家族資源

有許多生物數據庫（英語：Biological database）記錄蛋白質家族的例子，並允許用戶識別新鑑定的蛋白質是否屬於已知家族。以下是幾個例子：

Pfam - 蛋白家族數據庫比對和HMMs
PROSITE（英語：PROSITE） - 蛋白質結構域，家族和功能位點的數據庫
InterPro（英語：InterPro） - 超家族分類系統
PASS2 - Protein Alignment as Structural Superfamilies v2 - PASS2@NCBS^[6]
Superfamily database（英語：Superfamily database） - 超家族的數據庫
SCOP（英語：Structural Classification of Proteins）和CATH（英語：CATH） - 蛋白質結構的分類分為超家族，家族和結構域

類似地，存在許多數據庫搜索算法，例如：

BLAST - DNA序列相似性檢索
BLASTp - 蛋白質序列相似性檢索
OrthoFinder: （頁面存檔備份，存於互聯網檔案館）一種快速，可擴展且準確的將蛋白質聚類為家族（正交群）的方法^[7]^[8]

參見

參考文獻

^ Kunin, V.; Cases, I.; Enright, A. J.; De Lorenzo, V.; Ouzounis, C. A. Myriads of protein families, and still counting. Genome Biology. 2003, 4 (2): 401. PMC 151299  . PMID 12620116. doi:10.1186/gb-2003-4-2-401.
^ Dayhoff MO. Computer analysis of protein sequences. Federation Proceedings. December 1974, 33 (12): 2314–6. PMID 4435228.
^ Dayhoff MO, McLaughlin PJ, Barker WC, Hunt LT. Evolution of sequences within protein superfamilies. Die Naturwissenschaften. 1975, 62 (4): 154–161. Bibcode:1975NW.....62..154D. doi:10.1007/BF00608697.
^ Dayhoff MO. The origin and evolution of protein superfamilies. Federation Proceedings. August 1976, 35 (10): 2132–8. PMID 181273.
^ Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE, Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W, Poulter CD, Raushel FM, Sali A, Shoichet BK, Sweedler JV. The Enzyme Function Initiative. Biochemistry. November 2011, 50 (46): 9950–62. PMC 3238057  . PMID 21999478. doi:10.1021/bi201312u.
^ Gandhimathi A, Nair AG, Sowdhamini R. PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies. Nucleic Acids Research. January 2012, 40 (Database issue): D531–4. PMC 3245109  . PMID 22123743. doi:10.1093/nar/gkr1096.
^ Emms DM, Kelly S. OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy. Genome Biology. August 2015, 16: 157. PMC 4531804  . PMID 26243257. doi:10.1186/s13059-015-0721-2.
^ Emms DM, Kelly S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biology. November 2019, 20 (1): 238. PMC 6857279  . PMID 31727128. doi:10.1186/s13059-019-1832-y.

[1] Kunin, V.; Cases, I.; Enright, A. J.; De Lorenzo, V.; Ouzounis, C. A. Myriads of protein families, and still counting. Genome Biology. 2003, 4 (2): 401. PMC 151299  . PMID 12620116. doi:10.1186/gb-2003-4-2-401.

[pmid4435228-2] Dayhoff MO. Computer analysis of protein sequences. Federation Proceedings. December 1974, 33 (12): 2314–6. PMID 4435228.

[3] Dayhoff MO, McLaughlin PJ, Barker WC, Hunt LT. Evolution of sequences within protein superfamilies. Die Naturwissenschaften. 1975, 62 (4): 154–161. Bibcode:1975NW.....62..154D. doi:10.1007/BF00608697.

[pmid181273-4] Dayhoff MO. The origin and evolution of protein superfamilies. Federation Proceedings. August 1976, 35 (10): 2132–8. PMID 181273.

[pmid21999478-5] Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE, Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W, Poulter CD, Raushel FM, Sali A, Shoichet BK, Sweedler JV. The Enzyme Function Initiative. Biochemistry. November 2011, 50 (46): 9950–62. PMC 3238057  . PMID 21999478. doi:10.1021/bi201312u.

[pmid22123743-6] Gandhimathi A, Nair AG, Sowdhamini R. PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies. Nucleic Acids Research. January 2012, 40 (Database issue): D531–4. PMC 3245109  . PMID 22123743. doi:10.1093/nar/gkr1096.

[pmid26243257-7] Emms DM, Kelly S. OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy. Genome Biology. August 2015, 16: 157. PMC 4531804  . PMID 26243257. doi:10.1186/s13059-015-0721-2.

[pmid31727128-8] Emms DM, Kelly S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biology. November 2019, 20 (1): 238. PMC 6857279  . PMID 31727128. doi:10.1186/s13059-019-1832-y.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]