約翰遜-林登斯特勞斯定理(Johnson–Lindenstrauss theorem),又稱約翰遜-林登斯特勞斯引理(Johnson–Lindenstrauss lemma),是由William Johnson和Joram Lindenstrauss於1984年提出的一個關於降維的著名定理[1],在現代機器學習,尤其是壓縮感知、降維、形狀分析和分佈學習等領域中有很重要的應用[2][3][4][5]。
編輯對任何給定的 以及 維歐幾里德空間中的 個點 ,對於任意滿足條件 的正整數 ,存在一個線性對映 ,將這 個點,從 (維數可能很高的空間)中對映到 (低維空間)中,同時「基本上」保持了點整合員兩兩之間的距離,即:對於任意兩個點 ,都有
更進一步地,這個線性對映 還可以在隨機多項式時間內求出[7]。
編輯約翰遜-林登斯特勞斯定理揭示了一些關於降維對映深刻事實,其中一些還是違反簡單直覺的[8]。因此,要想直觀地理解這個定理,對初學者來說,可能比從數學式子上讀懂證明還要難(反而此定理的證明只用到了比較簡單的關於投影的隨機誤差不等式[9])。舉例來說,定理的結論表明,度量形變程度的誤差參數 以及低維空間的維數 這兩個度量降維水準的關鍵量,均與原始數據所在的空間維數 或者原始的 個點具體為何種空間結構無關,這是很不平凡的[9]。
編輯約翰遜-林登斯特勞斯定理是不能被本質性地改進的[10],即:給定任意正整數 和誤差參數 ,存在某個 以及 中的 個點,這個點集「難以降維」——也就是說,對任何一個滿足「基本保持點距」要求(即: 要對任意 成立)的線性對映 ,它用來鑲嵌高維數據的那個低維空間(即 ),至少必須具有
編輯定理可以用高年級大學生容易理解的方法證明[7][12],其思路是證明如下事實:多次獨立地重複進行隨機投影的試驗,每次試驗中隨機抽取的投影 都有至少 的概率符合定理中對對映 全部的要求(顯然,驗證任何一個 是否符合這些要求只需 時間),因此只要重複該獨立實驗 次就能以逼近100%的概率產生至少一個符合要求的對映 。
