經驗風險最小化
經驗風險最小化 (ERM)是統計學習理論里的一項原則,該原則下有一系列學習算法 ,經驗風險最小化用於為這些算法的性能提供理論上的界。核心思想是,人們無法確切知道算法在實際中的運行情況(真正的「風險」),是因為不知道算法將在其上運行的數據的真實分布,但藉助經驗風險最小化,可以在一組已知的訓練數據(「經驗」風險)上衡量其性能。
背景
編輯以下情況是許多有監督學習問題的一般設置。存在兩個空間,輸入空間 和輸出空間 ,目標是學習(擬合)一個函數 (通常稱為假設 ),這個函數在給定 ,輸出一個對象 。為此可以使用一個包含 個例子的訓練集 ,其中 是輸入, 是希望從 中得到的相應輸出 。
更正式地說,可假設 和 服從聯合概率分布 ,並且訓練集包括 個實例 IID地從 抽取。請注意,聯合概率分布的假設可以對預測中的不確定性進行建模(例如,來自數據中的噪聲),因為 不是關於 的確定性函數 ,而是在固定 時具有條件分布 的隨機變量 。
還可假定給定非負實值損失函數 來衡量預測 與真實結果 的差異。則假設 的風險定義為損失函數的期望值 :
理論上常用的損失函數是0-1損失函數 : 。
學習算法的最終目標是在固定函數類 中找到風險 最小的假設 :
經驗風險最小化
編輯通常,無法計算風險 ,因為學習算法不知道分布 (這種情況稱為無知學習)。但是可以通過對訓練集上的損失函數取平均值來計算一個近似值,稱為經驗風險:
經驗風險最小化原理[1]指出學習算法應選擇一個假設 將經驗風險降到最低:
因此,由ERM原理定義的學習算法在於解決上述優化問題。
性質
編輯計算複雜度
編輯對於具有0-1損失函數的分類問題,即使對於像線性分類器這樣的相對簡單的函數類,經驗風險最小化也被認為是NP難題。 [2]但是,當最小經驗風險為零(即數據是線性可分離的)時,可以有效解決。
在實踐中,機器學習算法可以通過對0-1損失函數(例如SVM的鉸鏈損失)採用凸近似來解決該問題,這種方法更容易優化,或者對分布進行假設 (因此不再是上述結果適用的不可知論學習算法)。
參見
編輯- 最大似然估計
- M估計器
參考文獻
編輯- ^ V. Vapnik (1992). Principles of Risk Minimization for Learning Theory. (頁面存檔備份,存於網際網路檔案館)
- ^ V. Feldman, V. Guruswami, P. Raghavendra and Yi Wu (2009). Agnostic Learning of Monomials by Halfspaces is Hard. (See the paper and references therein)
進一步閱讀
編輯- Vapnik, V. The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. 2000. ISBN 978-0-387-98780-4. Vapnik, V. The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. 2000. ISBN 978-0-387-98780-4. Vapnik, V. The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. 2000. ISBN 978-0-387-98780-4.