分類別變數
分類別變數或稱類別變數是統計學中的有限多個取值的變數,其每個值對應於定性屬性的特定分組(group)或定類類別。[1]在電腦科學或一些數學分支中,分類別變數對應於列舉法或列舉類型。通常,分類別變數的每個值成為一個level。其概率分佈稱為分類分佈。
分類數據(Categorical data)是一種統計資料類型,由分類別變數及其數據組成。具體說,分類數據可從定性數據計數匯總或生成列聯表,或從定量數據按照給定的間隔分組得到。
分類別變數如果只可能有兩個取值,被稱為二值變數(binary variable或dichotomous variable),如伯努利變數。分類別變數如果取多於2個值,成為多值變數(polytomous variables)。
分類別變數的例子
編輯表示法
編輯為使統計處理簡便,分類別變數可以賦以數值索引值,如從1到K,對於K值分類別變數。這種表示可以用於相等比較、作為集合的元素做集合運算。
可能值的數量
編輯分類的隨機變量用統計學的分類分佈,允許任意K值分類別變數用每個值的單獨的概率來表示(即K值的離散概率分佈)。這種多值分類別變數常用多項分佈來分析。分類結果的迴歸分析是通過多項邏輯迴歸、multinomial probit或相關的discrete choice模型。
分類別變數也可以只有兩種可能結果,稱為二值變數或伯努利變數。由於重要性,這種情形常被視作獨立分佈(伯努利分佈)、獨立的迴歸模型(邏輯迴歸、probit regression等)。反之,分類別變數常被用於指大於等於3種結果,或稱「多值變數」(multi-way variable)。
參考文獻
編輯- ^ Yates, Daniel S.; Moore, David S; Starnes, Daren S. The Practice of Statistics 2nd. New York: Freeman. 2003 [2014-09-28]. ISBN 978-0-7167-4773-4. (原始內容存檔於2005-02-09).
拓展閱讀
編輯- Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. Discrete Multivariate Analysis: Theory and Practice . MIT Press. 1975. ISBN 978-0-262-02113-5. MR 0381130.
- Christensen, Ronald. Log-linear models and logistic regression. Springer Texts in Statistics Second. New York: Springer-Verlag. 1997: xvi+483. ISBN 0-387-98247-7. MR 1633357.
- Friendly, Michael. Visualizing categorical data (頁面存檔備份,存於互聯網檔案館). SAS Institute, 2000.
- Lauritzen, Steffen L. Lectures on Contingency Tables (PDF) updated electronic version of the (University of Aalborg) 3rd (1989). 2002 [1979] [2020-11-20]. (原始內容存檔 (PDF)於2020-04-30).
- NIST/SEMATEK (2008) Handbook of Statistical Methods (頁面存檔備份,存於互聯網檔案館)