異常檢測
在數據挖掘中,異常檢測(英語:Anomaly detection)對不符合預期模式或數據集中其他項目的項目、事件或觀測值的識別。[1]通常異常項目會轉變成銀行欺詐、結構缺陷、醫療問題、文本錯誤等類型的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。[2]
特別是在檢測濫用與網絡入侵時,有趣性對象往往不是罕見對象,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見對象,於是許多異常檢測方法(特別是無監督的方法)將對此類數據失效,除非進行了合適的聚集。相反,聚類分析算法可能可以檢測出這些模式形成的微聚類。[3]
有三大類異常檢測方法。[1] 在假設數據集中大多數實例都是正常的前提下,無監督異常檢測方法能通過尋找與其他數據最不匹配的實例來檢測出未標記測試數據的異常。監督式異常檢測方法需要一個已經被標記「正常」與「異常」的數據集,並涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。半監督式異常檢測方法根據一個給定的正常訓練數據集建立一個表示正常行為的模型,然後檢測由學習模型生成的測試實例的可能性。
應用
編輯異常檢測技術用於各種領域,如入侵檢測、欺詐檢測、故障檢測、系統健康監測、感測器網絡事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從數據集的異常數據。在監督式學習中,去除異常數據的數據集往往會在統計上顯著提升準確性。[4][5]
熱門方法
編輯文獻中提出了幾種異常檢測方法。一些熱門方法有:
- 基於密度的方法(最近鄰居法[6][7][8]、局部異常因子[9]及此概念的更多變化[10])。
- 基於子空間[11]與相關性[12]的高維數據的孤立點檢測。[13]
- 一類支持向量機。[14]
- 複製神經網絡。[15]
- 基於聚類分析的孤立點檢測。[16][17]
- 與關聯規則和頻繁項集的偏差。
- 基於模糊邏輯的孤立點檢測。
- 運用特徵袋[18][19]、分數歸一化[20][21]與不同多樣性來源的集成方法。[22][23]
不同方法的性能在很大程度上取決於數據集和參數,比較許多數據集和參數時,各種方法與其他方法相比的系統優勢不大。[24][25]
數據安全方面的應用
編輯多蘿西·丹寧教授在1986年提出了入侵檢測系統(IDS)的異常檢測方法[26]。入侵檢測系統的異常檢測通常是通過閾值和統計完成的,但也可以用軟計算和歸納學習。[27] 在1999年提出的統計類型包括檢測用戶、工作站、網絡、遠程主機與用戶組的配置文件,以及基於頻率、均值、方差、協方差和標準差的程序。[28] 在入侵檢測系統中,與異常檢測模式相對應的還有誤用檢測模式。
軟件
編輯- ELKI是一個包含若干異常檢測算法及其索引加速的開源Java數據挖掘工具箱。
參見
編輯參考文獻
編輯- ^ 1.0 1.1 Chandola, V.; Banerjee, A.; Kumar, V. Anomaly detection: A survey (PDF). ACM Computing Surveys. 2009, 41 (3): 1–58 [2016-09-13]. doi:10.1145/1541880.1541882. (原始內容 (PDF)存檔於2021-05-06).
- ^ Hodge, V. J.; Austin, J. A Survey of Outlier Detection Methodologies (PDF). Artificial Intelligence Review. 2004, 22 (2): 85–126 [2016-09-13]. doi:10.1007/s10462-004-4304-y. (原始內容 (PDF)存檔於2015-06-22).
- ^ Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning. Data mining for network intrusion detection (PDF). Proceedings NSF Workshop on Next Generation Data Mining. 2002 [2016-09-13]. (原始內容 (PDF)存檔於2015-09-23).
- ^ Tomek, Ivan. An Experiment with the Edited Nearest-Neighbor Rule. IEEE Transactions on Systems, Man, and Cybernetics. 1976, 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.
- ^ Smith, M. R.; Martinez, T. Improving classification accuracy by identifying and removing instances that should be misclassified. The 2011 International Joint Conference on Neural Networks (PDF). 2011: 2690 [2016-09-13]. ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571. (原始內容存檔 (PDF)於2016-11-09).
- ^ Knorr, E. M.; Ng, R. T.; Tucakov, V. Distance-based outliers: Algorithms and applications. The VLDB Journal the International Journal on Very Large Data Bases. 2000, 8 (3–4): 237–253. doi:10.1007/s007780050006.
- ^ Ramaswamy, S.; Rastogi, R.; Shim, K. Efficient algorithms for mining outliers from large data sets. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00: 427. 2000. ISBN 1-58113-217-4. doi:10.1145/342009.335437.
- ^ Angiulli, F.; Pizzuti, C. Fast Outlier Detection in High Dimensional Spaces. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science 2431: 15. 2002. ISBN 978-3-540-44037-6. doi:10.1007/3-540-45681-3_2.
- ^ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. 2000: 93–104 [2016-09-13]. ISBN 1-58113-217-4. doi:10.1145/335191.335388. (原始內容 (PDF)存檔於2015-09-23).
- ^ Schubert, E.; Zimek, A.; Kriegel, H. -P. Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. 2012, 28: 190–237. doi:10.1007/s10618-012-0300-z.
- ^ Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data. Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science 5476: 831. 2009. ISBN 978-3-642-01306-5. doi:10.1007/978-3-642-01307-2_86.
- ^ Kriegel, H. P.; Kroger, P.; Schubert, E.; Zimek, A. Outlier Detection in Arbitrarily Oriented Subspaces. 2012 IEEE 12th International Conference on Data Mining: 379. 2012. ISBN 978-1-4673-4649-8. doi:10.1109/ICDM.2012.21.
- ^ Zimek, A.; Schubert, E.; Kriegel, H.-P. A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining. 2012, 5 (5): 363–387. doi:10.1002/sam.11161.
- ^ Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. Estimating the Support of a High-Dimensional Distribution. Neural Computation. 2001, 13 (7): 1443–71. PMID 11440593. doi:10.1162/089976601750264965.
- ^ Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. Outlier Detection Using Replicator Neural Networks. Data Warehousing and Knowledge Discovery. Lecture Notes in Computer Science 2454. 2002: 170–180. ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17.
- ^ He, Z.; Xu, X.; Deng, S. Discovering cluster-based local outliers. Pattern Recognition Letters. 2003, 24 (9–10): 1641–1650. doi:10.1016/S0167-8655(03)00003-5.
- ^ Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection. ACM Transactions on Knowledge Discovery from Data. 2015, 10 (1): 5:1–51. doi:10.1145/2733381.
- ^ Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. Proc. 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining. 2005: 157–166. ISBN 1-59593-135-X. doi:10.1145/1081870.1081891.
- ^ Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces. Database Systems for Advanced Applications. Lecture Notes in Computer Science 5981: 368. 2010. ISBN 978-3-642-12025-1. doi:10.1007/978-3-642-12026-8_29.
- ^ Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. Interpreting and Unifying Outlier Scores. Proceedings of the 2011 SIAM International Conference on Data Mining: 13–24. 2011 [2016-09-13]. ISBN 978-0-89871-992-5. doi:10.1137/1.9781611972818.2. (原始內容 (PDF)存檔於2019-06-12).
- ^ Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. On Evaluation of Outlier Rankings and Outlier Scores. Proceedings of the 2012 SIAM International Conference on Data Mining: 1047–1058. 2012 [2016-09-13]. ISBN 978-1-61197-232-0. doi:10.1137/1.9781611972825.90. (原始內容 (PDF)存檔於2019-06-16).
- ^ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter. 2014, 15: 11–22. doi:10.1145/2594473.2594476.
- ^ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. Data perturbation for outlier detection ensembles. Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14: 1. 2014. ISBN 978-1-4503-2722-0. doi:10.1145/2618243.2618257.
- ^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery. 2016, 30 (4): 891. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8.
- ^ Anomaly detection benchmark data repository (頁面存檔備份,存於網際網路檔案館) of the Ludwig-Maximilians-Universität München; Mirror (頁面存檔備份,存於網際網路檔案館) at University of São Paulo.
- ^ Denning, D. E. An Intrusion-Detection Model (PDF). IEEE Transactions on Software Engineering. 1987, SE–13 (2): 222–232 [2016-09-13]. doi:10.1109/TSE.1987.232894. CiteSeerX: 10.1.1.102.5127 . (原始內容 (PDF)存檔於2015-06-22).
- ^ Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy. 1990: 278–284. ISBN 0-8186-2060-9. doi:10.1109/RISP.1990.63857.[永久失效連結]
- ^ Jones, Anita K.; Sielken, Robert S. Computer System Intrusion Detection: A Survey. Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. 1999. CiteSeerX: 10.1.1.24.7802 .