數據探勘(英語:Data mining)是一個跨學科的電腦科學分支[1][2][3] 。它是用人工智能機器學習統計學資料庫的交叉方法在相對較大型的數據集中發現模式的計算過程[1]

數據探勘過程的總體目標是從一個數據集中提取資訊,並將其轉換成可理解的結構,以進一步使用[1]。除了原始分析步驟,它還涉及到資料庫和數據管理方面、數據預處理英語data pre-processing模型推斷方面考量、興趣度度量、複雜度的考慮,以及發現結構、視覺化線上更新等後處理[1]。數據探勘是「資料庫知識發現」(Knowledge-Discovery in Databases, KDD)的分析步驟[4] ,本質上屬於機器學習的範疇。

類似詞語「資料採礦」、「數據捕魚」和「數據探測」指用數據探勘方法來採樣(可能)過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分。不過這些方法可以建立新的假設來檢驗更大數據總體。

歷史

編輯

數據探勘是因為海量有用資料快速增長的產物。使用計算機進行歷史資料分析,1960年代數字方式採集資料已經實現。1980年代,關聯式資料庫隨着能夠適應動態按需分析資料的結構化查詢語言發展起來。數據倉庫開始用來儲存大量的資料。

因為面臨處理資料庫中大量資料的挑戰,於是數據探勘應運而生,對於這些問題,它的主要方法是資料統計分析人工智能搜尋技術。

定義

編輯

數據探勘有以下這些不同的定義:

  1. 「從資料中提取出隱含的過去未知的有價值的潛在資訊」[5]
  2. 「一門從大量資料或資料庫中提取有用資訊的科學」[6]

儘管通常數據探勘應用於資料分析,但是像人工智能一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD(Knowledge discovery in databases)的關係是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數據探勘是KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。

本質

編輯

數據探勘本質上屬於機器學習的內容。

例如《數據探勘:實用機器學習技術及Java實現》一書[7]大部分是機器學習的內容。這本書最初只叫做「實用機器學習」,「數據探勘」一詞是後來為了行銷才加入的[8]。通常情況下,使用更為正式的術語,(大規模)數據分析分析學,或者指出實際的研究方法(例如人工智能和機器學習)會更準確一些。

過程

編輯

數據探勘的實際工作是對大規模數據進行自動或半自動的分析,以提取過去未知的有價值的潛在資訊,例如數據的分組(通過聚類分析)、數據的異常記錄(通過異常檢測)和數據之間的關係(通過關聯式規則挖掘)。這通常涉及到資料庫技術,例如空間索引英語spatial index。這些潛在資訊可通過對輸入數據處理之後的總結來呈現,之後可以用於進一步分析,比如機器學習和預測分析。舉個例子,進行數據探勘操作時可能要把數據分成多組,然後可以使用決策支援系統以獲得更加精確的預測結果。不過數據收集、數據預處理、結果解釋和撰寫報告都不算數據探勘的步驟,但是它們確實屬於「資料庫知識發現」(KDD)過程,只不過是一些額外的環節。

資料庫知識發現(KDD)過程通常定義為以下階段:

(1) 選擇
(2) 預處理
(3) 變換
(4) 數據探勘
(5) 解釋/評估。[4]

預處理

編輯

在運用數據探勘演算法之前,必須收集目標數據集。由於數據探勘只能發現實際存在於數據中的模式,目標數據集必須大到足以包含這些模式,而其餘的足夠簡潔以在一個可接受的時間範圍內挖掘。常見的數據源如資料超市數據倉庫。在數據探勘之前,有必要預處理來分析多變數數據。然後要清理目標集。數據清理移除包含噪聲和含有缺失數據的觀測量。

數據探勘

編輯

數據探勘涉及六類常見的任務: [4]

  • 異常檢測(異常/變化/偏差檢測)– 辨識不尋常的數據記錄,錯誤數據需要進一步調查。
  • 關聯規則學習(依賴建模)– 搜尋變數之間的關係。例如,一個超市可能會收集顧客購買習慣的數據。運用關聯規則學習,超市可以確定哪些產品經常一起買,並利用這些資訊幫助行銷。這有時被稱為市場購物籃分析。
  • 聚類 – 是在未知數據的結構下,發現數據的類別與結構。
  • 分類 – 是對新的數據推廣已知的結構的任務。例如,一個電子郵件程式可能試圖將一個電子郵件分類為「正常郵件」或「垃圾郵件」。
  • 迴歸 – 試圖找到能夠以最小誤差對該數據建模的函數。
  • 匯總英語Automatic summarization – 提供了一個更緊湊的數據集表示,包括生成視覺化和報表。

結果驗證

編輯

數據探勘的價值一般帶着一定的目的,而這目的是否得到實現一般可以通過結果驗證來實現。驗證是指「通過提供客觀證據對規定要求已得到滿足的認定」,而這個「認定」活動的策劃、實施和完成,與「規定要求」的內容緊密相關。數據探勘過程中的數據驗證的「規定要求」的設定,往往與數據探勘要達到的基本目標、過程目標和最終目標有關。驗證的結果可能是「規定要求」得到完全滿足,或者完全沒有得到滿足,以及其他介於兩者之間的滿足程度的狀況。驗證可以由數據探勘的人自己完成,也可以通過其他人參與或完全通過他人的專案,以與數據探勘者毫無關聯的方式進行驗證。一般驗證過程中,數據探勘者是不可能不參與的,但對於認定過程中的客觀證據的收集、認定的評估等過程如果通過與驗證提出者無關的人來實現,往往更具有客觀性。通過結果驗證,數據探勘者可以得到對自己所挖掘的數據價值高低的評估。

私隱問題及倫理[9]

編輯

與數據探勘有關的,還牽扯到私隱問題,例如:一個僱主可以透過訪問醫療記錄來篩選出那些有糖尿病或者嚴重心臟病的人,從而意圖削減保險支出。然而,這種做法會導致倫理和法律問題。

對於政府和商業資料的挖掘,可能會涉及到的,是國家安全或者商業機密之類的問題。這對於保密也是個不小的挑戰。[10]

數據探勘有很多合法的用途,例如可以在患者群的資料庫中查出某藥物和其副作用的關聯。這種關聯可能在1000人中也不會出現一例,但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量,還有可能挽救生命;但這當中還是存在着資料庫可能被濫用的問題。

數據探勘實現了用其他方法不可能實現的方法來發現資訊,但它必須受到規範,應當在適當的說明下使用。

如果資料是收集自特定的個人,那麼就會出現一些涉及保密、法律和倫理的問題。[11]

2018年5月25日,歐盟一般資料保護規範(General Data Protection Regulation,GDPR)正式上路,保障個人資料蒐集的同意權與刪除要求,在進入網站時會進行個人資料蒐集、處理及利用之告知,並在當事人同意之下做蒐集。[12]

方法

編輯

數據探勘的方法包括監督式學習非監督式學習半監督學習增強學習。監督式學習包括:分類、估計、預測。非監督式學習包括:聚類,關聯規則分析。

例子

編輯

數據探勘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時數據探勘系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此資訊,直接傳送真絲襯衣的當前行情,以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過數據探勘系統就發現了以前未知的關於客戶的新資訊,並且擴大經營範圍。

數據捕撈

編輯

通常作為與資料倉庫和分析相關的技術,數據探勘處於它們的中間。然而,有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻裏通常被戲稱為「資料挖泥英語Data dredging」(Data dredging, data fishing, or data snooping)。

數據探勘意味着掃瞄可能存在任何關係的資料,然後篩選出符合的模式,(這也叫作「過度匹配模式」)。大量的數據集中總會有碰巧或特定的資料,有着「令人振奮的關係」。因此,一些結論看上去十分令人懷疑。儘管如此,一些探索性資料分析 還是需要應用統計分析尋找資料,所以好的統計方法和數據資料的界限並不是很清晰。

更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裏?》的書中寫道:「總是有相當數量的可憐人,忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是,他們通常會找到。」[13]

多數的數據探勘研究都關注於發現大量的資料集中,一個高度詳細的模式。在《大忙人的數據探勘》一書中, 西弗吉尼亞大學不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個資料集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。[14]

參見

編輯
方法
應用領域
應用實例
相關主題

數據探勘是關於分析數據的;有關從數據中提取資訊的資訊,參見:

參考文獻

編輯
  1. ^ 1.0 1.1 1.2 1.3 Data Mining Curriculum. ACM SIGKDD英語SIGKDD. 2006-04-30 [2014-01-27]. (原始內容存檔於2013-10-14). 
  2. ^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09]. (原始內容存檔於2011-02-05). 
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. (原始內容存檔於2009-11-10). 
  4. ^ 4.0 4.1 4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008]. (原始內容 (PDF)存檔於2009-11-06). 
  5. ^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.
  6. ^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
  7. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. 
  8. ^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. 
  9. ^ 《大數據及語意分析的大航海時代》數據的隱私權是否有疑慮?. 飛碟聯播網. 2019-06-02. (原始內容存檔於2020-04-14). 
  10. ^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
  11. ^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.
  12. ^ 個人資料保護辦公室 7月10日正式上路. 自由時報. 2018-06-26. (原始內容存檔於2019-12-12). 
  13. ^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
  14. ^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.

延伸閱讀

編輯

外部連結

編輯