斯皮爾曼等級相關係數

統計學名詞

斯皮爾曼等級相關係數(簡稱等級相關係數,或稱秩相關係數,英語:Spearman's rank correlation coefficientSpearman's ρ),在統計學中,常以希臘字母(rho)或以表示,這一相關係數以查爾斯·斯皮爾曼英語Charles Spearman之名命名。它是衡量兩個變量相關性無母數指標。它利用單調函數評價兩個統計變量的相關性。若數據中沒有重複值,且當兩變量完全單調相關時,斯皮爾曼相關係數為+1或−1。

斯皮爾曼等級相關係數為1表明兩個被比較的變量是單調相關的,即使它們之間的相關關係可能並非線性的。相較而言,其皮爾森相關關係並不完美。
當數據大致呈橢圓分布且沒有明顯的離群點時,皮爾森相關係數的值和斯皮爾曼相關係數的值接近。
對樣本中的顯著離群點,斯皮爾曼相關係數比皮爾森相關係數不敏感。

定義和計算

編輯

斯皮爾曼相關係數的定義為等級變量之間的皮爾森相關係數[1]

對於樣本容量為n的樣本,將n原始數據 轉換成等級數據 ,則相關係數 

 

其中

 皮爾森積動差相關係數,但使用等級變量來計算,
 為等級變量的共變異數
  為等級變量的標準差

通常,對於數據中相同的值,其等級數等於它們按值升序排列的所處位置的平均值。[2]如下表所示:

變量  升序位置
(僅示意,不使用)
升序位置的平均等級數
(使用)
18 1 1
2.3 2 2
1.2 3  
1.2 4  
0.8 5 5

當所有的等級數值都為整數時,可以透過以下簡單的步驟計算等級相關係數:[1][3]

 

其中

 為每組觀測中兩個變量的等級差值,
n為觀測數。
證明

考慮一個雙變量樣本 ,其相應的位次為 。則 的斯皮爾曼等級相關係數為:

 

其中:     

若假定樣本中兩變量均沒有重複數值,則 可只用 來給出。

在此假定下, 可視為隨機變數,其分布類似於均勻分布隨機變數, ,其自變數取值為 

因此   , 其中   , 故有  。 (這些求和可以用三角形數四角錐數的公式來計算,也可以用離散數學的基本求和結果來計算。)

既然

 

則綜上可得

 

當數據中存在相等的數值時,使用該簡化公式會得到錯誤結果:只有在兩組變量中所有數值不重複時,才有 (根據偏誤變異數計算)。第一個方程式(透過標準差進行歸一化)即使在排名標準化為[0, 1](「相對排名」)的情況下仍可使用,因為它對平移和線性縮放都不敏感。

對於截取的數據也不應使用簡化公式。即,當希望計算前X條記錄的等級相關係數時,應當使用前述的皮爾森積動差相關係數公式。[4]

相關度量

編輯

度量一對觀測數據的統計相關性還有其他的幾種度量指標。其中最常用的是皮爾森積動差相關係數

斯皮爾曼相關也可稱為「級別相關」(grade correlation);[5] 也就是說, 被觀測數據的「等級」被替換成 「級別」。在連續的分布中, 被觀測數據的級別,通常總是小於等級的一半。然而,在這個案例中,級別和等級相關係數是一致的。更一般的, 被觀測數據的「級別」 與估計的母體樣本的比值小於給定的值,即被觀測值的一半。也就是說,它是相應的等級係數的一種可能的解決方案。雖然不常用,「級別相關」還是仍然有被使用。[6]

解釋

編輯
斯皮爾曼相關係數的正負性的解讀
正的斯皮爾曼相關係數反映兩個變量XY之間單調遞增的趨勢。
負的斯皮爾曼相關係數反映兩個變量XY之間單調遞減的趨勢。

斯皮爾曼相關係數表明X(自變數)和Y(應變數)的相關方向。如果當X增加時,Y趨向於增加,則斯皮爾曼相關係數為正。如果當X增加時,Y趨向於減少,則斯皮爾曼相關係數為負。斯皮爾曼相關係數為0表明當X增加時Y沒有任何趨向性。當XY越來越接近完全的單調相關時,斯皮爾曼相關係數會在絕對值上增加。當XY完全單調相關時,斯皮爾曼相關係數的絕對值為1。完全的單調遞增關係意味著對任意兩對數據XiYiXjYj,有Xi − XjYi − Yj總是同號。完全的單調遞減關係意味著對任意兩對數據XiYiXjYj,有Xi − XjYi − Yj總是異號。

斯皮爾曼相關係數經常被稱作「無母數」的,其中有兩層含義。首先,當XY的關係由任意單調函數描述時,則它們是完全皮爾森相關的。與此相應的,皮爾森相關係數只能給出由線性方程式描述的XY的相關性。其次,斯皮爾曼不需要先驗知識(也就是說,知道其參數)便可以準確獲取XY的採樣機率分布

示例

編輯

在此例中,我們要使用下表所給出的原始數據計算一個人的智商和其每周看電視的小時數的相關性(數據為虛構)。

智商,   每周看電視小時數,  
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

首先,我們必須根據以下步驟計算出 ,如下表所示。

  1. 排列第一列數據( )。創建新列   並賦以等級值1、2、3……n
  2. 然後,排列第二列數據( )。創建第四列   並相似地賦以等級值1、2、3……n
  3. 創建第五列 ,填入兩個等級列(  )的差值。
  4. 創建最後一列 填入 的平方。
智商,   每周看電視小時數,    的排名  的排名    
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36
 
數據相應的圖表。可以看出,兩者之間似乎存在負相關關係,但這種關係難以直接確定。

根據 計算 。樣本容量n為10。將這些值帶入方程式

 

ρ = −0.175757575...,p-value = 0.627188(使用t分布

該數值接近0,表明儘管看電視時間和智商似乎呈負相關,但兩個變量之間的關係很弱。在原始數據中存在相同數值的情況下,不應使用此公式,而應當用排名計算皮爾森相關係數(如上文所述)。

顯著性的確定

編輯

一種確定被觀測數據的ρ值是否顯著不為零(r總是有1 ≥ r ≥ −1)的方法是計算它是否大於r的機率,作為虛無假說,並使用排列檢定。這種方法的優勢在於它考慮了樣本中的重複出現的數據個數,以及在計算等級相關性時處理它們的方式。

另一種方法是使用皮爾森積動差中使用到的費雪轉換。也就是,ρ信賴區間假說檢定可以透過費雪轉換獲得

 

如果F(r)r的費雪轉換,則

 

rz-值,其中,r統計獨立性ρ = 0[7][8]虛無假說下近似服從標準常態分布

顯著性為

 

其在虛無假說下近似服從自由度為n − 2t分布[9] A justification for this result relies on a permutation argument.[10]

一般地,斯皮爾曼相關係數在有三個或更多條件的情況下是有用的。並且,它預測觀測數據有一個特定的順序。例如,在同一任務中,一系列的個體會被嘗試多次,並預測在多次嘗試過程中,性能會得到提升。在這種情況下,對條件間趨勢的顯著性檢定由E. B. Page[11]發展了,並通常稱為給定序列下的Page趨勢檢定

基於斯皮爾曼相關係數的一致性分析

編輯

經典的一致性分析英語Correspondence analysis是一種統計方法,它給兩個標稱變量賦給一個分數。透過這種方法,兩個變量間的皮爾森相關係數被最大化了。

有一種被稱為級別相關分析的等價方法,它能夠最大化斯皮爾曼相關係數或肯德爾等級相關係數英語Kendall rank correlation coefficient[12]

參見

編輯

參考文獻

編輯
  1. ^ 1.0 1.1 Myers, Jerome L.; Well, Arnold D., Research Design and Statistical Analysis 2nd, Lawrence Erlbaum: 508, 2003, ISBN 0-8058-4037-0 
  2. ^ Dodge, Yadolah. The Concise Encyclopedia of Statistics . Springer-Verlag New York. 2010: 502. ISBN 978-0-387-31742-7. 
  3. ^ Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
  4. ^ Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar. Toward Quality Assurance and Excellence in Higher Education. River Publishers. 2018: 284. ISBN 978-87-93609-54-9. 
  5. ^ Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. page 268
  6. ^ Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312
  7. ^ Choi, S.C. (1977) Test of equality of dependent correlations. Biometrika, 64 (3), pp. 645–647
  8. ^ Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481
  9. ^ Press, Vettering, Teukolsky, and Flannery (1992) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edition, page 640
  10. ^ Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0-85264-215-6 (Sections 31.19, 31.21)
  11. ^ Page, E. B. Ordered hypotheses for multiple treatments: A significance test for linear ranks. Journal of the American Statistical Association. 1963, 58 (301): 216–230. doi:10.2307/2282965. 
  12. ^ Kowalczyk, T.; Pleszczyńska E. , Ruland F. (eds.). Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Studies in Fuzziness and Soft Computing vol. 151. Berlin Heidelberg New York: Springer Verlag. 2004. ISBN 978-3-540-21120-4. 
  • G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
  • C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
  • M.G. Kendall, "Rank correlation methods", Griffin (1962)
  • M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
  • J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997) pp. 637–654

外部連結

編輯