降維
在機器學習和統計學領域,降維(dimensionality reduction)是指在某些限定條件下,降低隨機變量個數,得到一組「不相關」主變量的過程[1]。 降維可進一步細分為變量選擇和特徵提取兩大方法。
變量選擇
編輯變量選擇假定數據中包含大量冗餘或無關變量(或稱特徵、屬性、指標等),旨在從原有變量中找出主要變量。現代統計學中對變量選擇的研究文獻,大多集中於高維回歸分析,其中最具代表性的方法包括:
- Lasso算法 (Robert Tibshirani提出)
- Elastic net regularization (鄒暉和Trevor Hastie提出)
- SCAD (范劍青和李潤澤提出)
- SURE screening (范劍青和呂金翅提出)
- PLUS (張存惠提出)
特徵提取
編輯特徵提取可以看作變量選擇方法的一般化:變量選擇假設在原始數據中,變量數目浩繁,但只有少數幾個真正起作用;而特徵提取則認為在所有變量可能的函數(比如這些變量各種可能的線性組合)中,只有少數幾個真正起作用。有代表性的方法包括:
- 主成分分析(PCA)
- 因子分析
- 核方法(教科書中稱為「Kernel method」或「Kernel trick」,常與其他方法如PCA組合使用)
- 基於距離的方法,例如:
- 多維尺度分析
- 非負矩陣分解
- 隨機投影法(理論依據是約翰遜-林登斯特勞斯定理)
參見
編輯參考文獻
編輯- ^ Roweis, S. T.; Saul, L. K. Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. 2000, 290 (5500): 2323–2326. PMID 11125150. doi:10.1126/science.290.5500.2323.