加權相關網絡分析

加權相關網絡分析也稱為加權基因共表達網絡分析,是一種廣泛使用的數據挖掘方法,它用兩兩變量間相關係數研究生物網絡。它適用於高維度數據集,在基因組學領域應用的最為廣泛。

加權相關網絡分析

此分析假定基因網絡服從無尺度分佈,定義基因共表達相關矩陣,計算生成鄰接矩陣,然後計算各個節點的相異係數,建立分層聚類樹。此樹不同分支代表不同的基因模塊,模塊內基因有較高的共表達水平,從中可以鑑定出樞紐基因。可通過基因網絡與表型之間聯繫,最終找到表型的靶點基因、基因網絡[1]。此分析還可以用於研究共表達模塊之間的關係、比較不同網絡的網絡拓撲學(差異網絡分析)。加權基因共表達網絡分析可以進行數據提煉(與斜交因子分析相關)、聚類分析(模糊聚類)、特徵選擇方法(比如,進行基因篩選)、綜合互補(基因組)數據的框架(根據數量變量之間的加權相關性)和探索性數據分析。[2]

雖然加權基因共表達網絡分析結合了很多傳統數據探索技術,易於理解的網絡語言和分析框架使它優於任何標準的分析方法。由於使用網絡方法,同時適合整合互補基因組的數據,它可認為是一種系統生物學或系統遺傳數據的分析方法。加權基因共表達網絡分析通過在相似的模塊間選擇模塊間樞紐基因,也使基於網絡的元分析技術成為可能[3]

歷史

編輯

加權基因共表達網絡分析方法是加州大學洛杉磯分校大衛·格芬醫學院人類遺傳學教授、加州大學洛杉磯分校菲爾丁公共衛生學院生物統計學教授Steve Horvath、他在加州大學洛杉磯分校的同事、實驗室成員(主要有Peter Langfelder、Bin Zhang、Jun Dong)聯合創立的。研究的很大部分是應用領域的研究者合作產生的。加權相關網絡是與癌症研究者Paul Mischel、Stanley F. Nelson和神經科學家Daniel H. Geschwind、Michael C. Oldham的討論後發明的(根據[2]里的致謝章節)。存在很多關於依賴網絡、自由尺度網絡和共表達網絡的研究文獻[來源請求]

方法

編輯

第一,指定基因共表達相似性指標來定義網絡。我們用 表示基因i和j之間的基因共表達相似性。很多共表達研究都使用相關性的絕對值,作為無符號共表達相似指標,

 

公式里,多個樣本中基因表達量構成了基因表達譜  。然而,使用相關性的絕對值就不區分基因的抑制和激活,造成了生物學信息的損失。而在有符號網絡中,基因之間的相似性表達了其表達譜的相關方向。為定義基因表達譜  之間一個有符號共表達指標,我們可以使用對相關性的簡單轉換:

 

與無符號指標 一樣,有符號相似性 取0和1之間的值。請注意,兩個表達量相反的基因在無符號時等於1,有符號時等於0;兩個表達量無相關性的基因,無符號時等於0,有符號時等於0.5。

下一步,使用鄰接矩陣(網絡) 定量確定兩個基因相互連接的程度。將共表達相似性矩陣 設定閾值定義為 。對相似性指標 設立固定的閾值會將數據分為兩組,生成無權重基因共表達網絡。如果 ,無權重網絡鄰接矩陣設定為1,否則設定為0。因為設定固定的閾值會將基因連接分成兩組,對閾值的選擇較為敏感,造成共表達信息的損失[4]。如果不設固定閾值,共表達信息連續的特性就得以保留。加權基因共表達網絡分析使用以下的冪函數評估連接強度:

 ,

 是不固定閾值的參數。無符號和有符號網絡分別使用  作為默認值。 也可以使用無尺度拓撲標準進行選擇,即選擇 可達成無尺度網絡的最小值 [4]

由於 ,加權網絡鄰接矩陣與共表達相似矩陣線性的對數值相關。 取高值,會將高度相似性轉換為高度鄰接矩陣、低相似度推向0。由於這種應用於成對相關矩陣的不固定閾值的步驟會產生加權鄰接矩陣,隨後的分析稱為加權基因共表達網絡分析。

模塊中心分析的重要一步是:用網絡拓撲指標將基因集聚為網絡模塊。簡單來說,一對基因如果相互連接,距離會較近。按照慣例,兩個基因的距離在0到1之間。通常來說,加權基因共表達網絡分析使用拓撲重疊指標作為距離[5][6]

拓撲重疊指標將兩個基因之間的鄰接矩陣和兩個基因與其他基因之間的連接強度混合,是網絡相互連接性穩健的指標。將此指標輸入平均連鎖層級聚類。動態分支切割法生成的聚類結果中的分支,就成了模塊[7]。之後,在特定模塊內的基因與模塊特徵向量一起,可以被視為標準模塊表達數據最好的總結[8]。標準化表達譜的第一個主成分定義為模塊特徵向量。為了尋找與感興趣的臨床性狀相關的模塊,模塊特徵向量之後與其進行相關性比較,得出特徵向量顯著指標。人們可以在模塊特徵向量之間建立共表達網絡,即以節點為模塊的網絡[9]

為了判斷特定模塊的模塊間樞紐基因,可以使用兩種連接指標。第一種稱為 ,是將基因與相關模塊的特徵向量進行相關定義的。第二種稱為kIN,定義為鄰接矩陣相關模塊基因的和。實際運用中,兩種指標是等同的[8]。為了測試一個模塊是否存在於另一個數據集,可以使用多種網絡統計量,如 [10]

加權和未加權相關網絡的比較

編輯

可以將加權相關網絡理解成特殊形式的加權網絡、依賴網絡或者相關網絡。加權相關網絡分析由於以下幾點,很具吸引力:

  • 網絡建設(基於對皮爾遜積矩相關係數設定不固定閾值)保留了背後相關信息的連續性特徵。比如,根據數值變量的相關性建立的加權相關網絡不需要選擇固定閾值。設固定閾值將信息分為兩組可能會導致信息削減[4]
  • 對於設定不同的不固定閾值,網絡建設十分穩健[4]。這與對稱對相關性設定閾值的不加權網絡的結果相反,其通常受閾值影響很大。
  • 可以根據相關性角度的解讀對加權相關網絡進行幾何解讀[8]
  • 算出的網絡統計結果可以用來提升標準的數據挖掘方法(如聚類分析),因為相似性指標通常可轉換為加權網絡。[11][8]
  • 加權基因共表達網絡分析提供強大的模塊保留統計量,可用來定量預測,在其他條件下能否找到的可能性。模塊保留統計量允許研究者研究網絡間模塊結構的差別[10]
  • 加權網絡和相關網絡可以由「可因子分解」網絡近似計算[8][12]。稀疏的、無權重的網絡通常難以進行此種近似。因此,加權(相關)網絡允許吝嗇參數化(就模塊和模塊資格而言)[2][13]

應用

編輯

加權基因共表達網絡分析被廣泛應用於在分析表達數據(即轉錄數據)。如,尋找模塊間樞紐基因。[3][14]

在系統遺傳學應用中,此分析常用於數據提煉步驟,模塊由「模塊特徵向量」表示[15][16]。可用模塊特徵向量將模塊與臨床性狀相關聯。特徵向量網絡是模塊特徵向量之間的共表達網絡(即節點為模塊的網絡)。 神經科學應用加權基因共表達網絡分析[17][18],分析微陣列數據[19]、單細胞RNA測序數據[20][21]DNA甲基化數據[22]、miRNA數據、肽計數[23]人類微生物組計劃數據(16S rRNA基因序列)的基因組數據[24]。其他的應用包括:腦影像數據,如功能性磁共振成像數據[25]

R軟件包

編輯

加權基因共表達網絡分析的R軟件[26]提供了加權網絡分析所有功能(模塊建立、節點基因選擇、模塊保存統計、差異網絡分析、網絡統計)的函數。可以通過CRAN下載加權基因共表達網絡分析包。

參考資料

編輯
  1. ^ 宋長新,雷萍,王婷. 基於WGCNA算法的基因共表達網絡構建理論及其R軟件實現[J]. 基因組學與應用生物學,2013,(01):135-141.
  2. ^ 2.0 2.1 2.2 Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover ISBN 978-1-4419-8818-8 website
  3. ^ 3.0 3.1 Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? PLoS ONE 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 PloS One頁面存檔備份,存於互聯網檔案館 
  4. ^ 4.0 4.1 4.2 4.3 Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 PMID 16646834 [1]頁面存檔備份,存於互聯網檔案館
  5. ^ Ravasz, E; Somera, AL; Mongru, DA; Oltvai, ZN; Barabasi, AL. Hierarchical organization of modularity in metabolic networks. Science. 2002, 297 (5586): 1551–1555. doi:10.1126/science.1073374. 
  6. ^ Yip A, Horvath S (2007) Gene network interconnectedness and the generalized topological overlap measure. BMC Bioinformatics 2007, 8:22 PMID 17250769 PMCID: PMC1797055 BMC Bioinformatics頁面存檔備份,存於互聯網檔案館 
  7. ^ Langfelder, P; Zhang, B; Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R.. Bioinformatics. 2007, 24: 719–20. PMID 18024473. doi:10.1093/bioinformatics/btm563. 
  8. ^ 8.0 8.1 8.2 8.3 8.4 Horvath, S; Dong, J. Geometric Interpretation of Gene Coexpression Network Analysis. PLoS Comput Biol. 2008, 4 (8): e1000117. PMC 2446438 . PMID 18704157. doi:10.1371/journal.pcbi.1000117.   
  9. ^ Langfelder, P; Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 2007, 2007 (1): 54. PMC 2267703 . PMID 18031580. doi:10.1186/1752-0509-1-54.   
  10. ^ 10.0 10.1 Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 PMID 21283776 PMCID:PMC3024255 PloS Comp Biol頁面存檔備份,存於互聯網檔案館 
  11. ^ Oldham MC, Langfelder P, Horvath S (2012) Network methods for describing sample relationships in genomic datasets: application to Huntington's disease. BMC Syst Biol. 2012 Jun 12;6(1):63. PMID 22691535 46(11) 1-17  
  12. ^ Dong J, Horvath S (2007) Understanding Network Concepts in Modules, BMC Systems Biology 2007, 1:24 PMID 17547772  
  13. ^ Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 PMID 23497424 BMC Systems Biology頁面存檔備份,存於互聯網檔案館 
  14. ^ Horvath, S; Zhang, B; Carlson, M; Lu, KV; Zhu, S; Felciano, RM; Laurance, MF; Zhao, W; Shu, Q; Lee, Y; Scheck, AC; Liau, LM; Wu, H; Geschwind, DH; Febbo, PG; Kornblum, HI; Cloughesy, TF; Nelson, SF; Mischel, PS. Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target. PNAS. 2006, 103 (46): 17402–17407. doi:10.1073/pnas.0608396103. 
  15. ^ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.
  16. ^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P (2009) A systems genetics approach implicates USF1, FADS3 and other causal candidate genes for familial combined hyperlipidemia. PloS Genetics;5(9):e1000642  
  17. ^ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor R, Blencowe BJ, Geschwind DH (2011) Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. PMID 21614001
  18. ^ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, Daly BD, Dang C, Datta S, et al, Koch C, Grant SG, Jones AR (2012) An anatomically comprehensive atlas of the adult human brain transcriptome. Nature. 2012 Sep 20;489(7416):391-9. doi: 10.1038 nature11405. PMID 22996553 Nature
  19. ^ Kadarmideen, Haja N.; Watson-Haigh, Nathan S.; Andronicos, Nicholas M. Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers. Mol. BioSyst. 1 January 2011, 7 (1): 235–246 [2017-07-24]. doi:10.1039/C0MB00190B. (原始內容存檔於2018-06-11). 
  20. ^ Kogelman, Lisette J. A.; Cirera, Susanna; Zhernakova, Daria V.; Fredholm, Merete; Franke, Lude; Kadarmideen, Haja N. Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model. BMC Medical Genomics. 1 January 2014, 7: 57. PMC 4183073 . PMID 25270054. doi:10.1186/1755-8794-7-57 –透過BioMed Central. 
  21. ^ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G. (2013) Genetic programs in human and mouse early embryos revealed by single-cell RNA?sequencing. Nature. 2013 Jul 28. doi: 10.1038/nature12364 PMID 23892778 Nature
  22. ^ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA. Aging effects on DNA methylation modules in human brain and blood tissue. Genome Biol. 2012 Oct 3;13(10):R97. PMID 23034122 Genome Biology頁面存檔備份,存於互聯網檔案館
  23. ^ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW. (2012) Network organization of the huntingtin proteomic interactome in Mammalian brain. Neuron. 2012 Jul 12;75(1):41-57. PMID 22794259 Neuron頁面存檔備份,存於互聯網檔案館
  24. ^ Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. PMID 24260458 PMC  
  25. ^ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.PMID 20553896. PMC
  26. ^ Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008, 9:559 PMID 19114008 PMCID: PMC2631488 BMC Bioinformatics頁面存檔備份,存於互聯網檔案館