數據探勘

數據探勘（英語：data mining）是一個跨學科的電腦科學分支^[1]^[2]^[3] 。它是用人工智能、機器學習、統計學和資料庫的交叉方法在相對較大型的數據集中發現模式的計算過程^[1]。

數據探勘過程的總體目標是從一個數據集中提取資訊，並將其轉換成可理解的結構，以進一步使用^[1]。除了原始分析步驟，它還涉及到資料庫和數據管理方面、數據預處理（英語：data pre-processing）、模型與推斷方面考量、興趣度度量、複雜度的考慮，以及發現結構、視覺化及線上更新等後處理^[1]。數據探勘是「資料庫知識發現」（Knowledge-Discovery in Databases,KDD）的分析步驟^[4] ，本質上屬於機器學習的範疇。

類似詞語「數據捕撈（英語：data dredging）」、「數據捕魚」和「數據探測」指用數據探勘方法來採樣（可能）過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分。不過這些方法可以建立新的假設來檢驗更大數據總體。

歷史

數據捕撈是因為海量有用資料快速增長的產物。使用計算機進行歷史資料分析，1960年代數字方式採集資料已經實現。1980年代，關聯式資料庫隨着能夠適應動態按需分析資料的結構化查詢語言發展起來。數據倉庫開始用來儲存大量的資料。

因為面臨處理資料庫中大量資料的挑戰，於是數據捕撈應運而生，對於這些問題，它的主要方法是資料統計分析和人工智能搜尋技術。

定義

數據捕撈有以下這些不同的定義：

「從資料中提取出隱含的過去未知的有價值的潛在資訊」^[5]
「一門從大量資料或者資料庫中提取有用資訊的科學。」^[6]

儘管通常數據捕撈應用於資料分析，但是像人工智能一樣，它也是一個具有豐富含義的詞彙，可用於不同的領域。它與KDD的關係是：KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程；而數據探勘是KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。事實上，在現今的文獻中，這兩個術語經常不加區分的使用。

本質

數據探勘本質上屬於機器學習的內容。

例如《數據探勘：實用機器學習技術及Java實現》一書^[7]大部分是機器學習的內容。這本書最初只叫做「實用機器學習」，「數據探勘」一詞是後來為了行銷才加入的^[8]。通常情況下，使用更為正式的術語，（大規模）數據分析和分析學，或者指出實際的研究方法（例如人工智能和機器學習）會更準確一些。

過程

數據探勘的實際工作是對大規模數據進行自動或半自動的分析，以提取過去未知的有價值的潛在資訊，例如數據的分組（通過聚類分析）、數據的異常記錄（通過異常檢測）和數據之間的關係（通過關聯式規則挖掘）。這通常涉及到資料庫技術，例如空間索引（英語：spatial index）。這些潛在資訊可通過對輸入數據處理之後的總結來呈現，之後可以用於進一步分析，比如機器學習和預測分析。舉個例子，進行數據探勘操作時可能要把數據分成多組，然後可以使用決策支援系統以獲得更加精確的預測結果。不過數據收集、數據預處理、結果解釋和撰寫報告都不算數據探勘的步驟，但是它們確實屬於「資料庫知識發現」（KDD）過程，只不過是一些額外的環節。

資料庫知識發現（KDD）過程通常定義為以下階段：

(1) 選擇

(2) 預處理

(3) 變換

(4) 數據探勘

(5) 解釋/評估。^[4]

預處理

在運用數據探勘演算法之前，必須收集目標數據集。由於數據探勘只能發現實際存在於數據中的模式，目標數據集必須大到足以包含這些模式，而其餘的足夠簡潔以在一個可接受的時間範圍內挖掘。常見的數據源如資料超市或數據倉庫。在數據探勘之前，有必要預處理來分析多變數數據。然後要清理目標集。數據清理移除包含噪聲和含有缺失數據的觀測量。

數據探勘

數據探勘涉及六類常見的任務： ^[4]

異常檢測（異常/變化/偏差檢測）– 辨識不尋常的數據記錄，錯誤數據需要進一步調查。
關聯規則學習（依賴建模）– 搜尋變數之間的關係。例如，一個超市可能會收集顧客購買習慣的數據。運用關聯規則學習，超市可以確定哪些產品經常一起買，並利用這些資訊幫助行銷。這有時被稱為市場購物籃分析。
聚類 – 是在未知數據的結構下，發現數據的類別與結構。
分類 – 是對新的數據推廣已知的結構的任務。例如，一個電子郵件程式可能試圖將一個電子郵件分類為「合法的」或「垃圾郵件」。
回歸 – 試圖找到能夠以最小誤差對該數據建模的函數。
匯總（英語：Automatic summarization） – 提供了一個更緊湊的數據集表示，包括生成視覺化和報表。

結果驗證

數據探勘的價值一般帶着一定的目的，而這目的是否得到實現一般可以通過結果驗證來實現。驗證是指「通過提供客觀證據對規定要求已得到滿足的認定」，而這個「認定」活動的策劃、實施和完成，與「規定要求」的內容緊密相關。數據探勘過程中的數據驗證的「規定要求」的設定，往往與數據探勘要達到的基本目標、過程目標和最終目標有關。驗證的結果可能是「規定要求」得到完全滿足，或者完全沒有得到滿足，以及其他介於兩者之間的滿足程度的狀況。驗證可以由數據探勘的人自己完成，也可以通過其他人參與或完全通過他人的專案，以與數據探勘者毫無關聯的方式進行驗證。一般驗證過程中，數據探勘者是不可能不參與的，但對於認定過程中的客觀證據的收集、認定的評估等過程如果通過與驗證提出者無關的人來實現，往往更具有客觀性。通過結果驗證，數據探勘者可以得到對自己所挖掘的數據價值高低的評估。

私隱問題及倫理^[9]

與數據捕撈有關的，還牽扯到私隱問題，例如：一個僱主可以透過訪問醫療記錄來篩選出那些有糖尿病或者嚴重心臟病的人，從而意圖削減保險支出。然而，這種做法會導致倫理和法律問題。

對於政府和商業資料的挖掘，可能會涉及到的，是國家安全或者商業機密之類的問題。這對於保密也是個不小的挑戰。^[10]

數據捕撈有很多合法的用途，例如可以在患者群的資料庫中查出某藥物和其副作用的關聯。這種關聯可能在1000人中也不會出現一例，但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量，還有可能挽救生命；但這當中還是存在着資料庫可能被濫用的問題。

數據捕撈實現了用其他方法不可能實現的方法來發現資訊，但它必須受到規範，應當在適當的說明下使用。

如果資料是收集自特定的個人，那麼就會出現一些涉及保密、法律和倫理的問題。^[11]

2018年5月25日，歐盟一般資料保護規範(General Data Protection Regulation，GDPR)正式上路，保障個人資料蒐集的同意權與刪除要求，在進入網站時會進行個人資料蒐集、處理及利用之告知，並在當事人同意之下做蒐集。^[12]

方法

數據探勘的方法包括監督式學習、非監督式學習、半監督學習、增強學習。監督式學習包括：分類、估計、預測。非監督式學習包括：聚類，關聯規則分析。

例子

數據探勘在零售行業中的應用：零售公司跟蹤客戶的購買情況，發現某個客戶購買了大量的真絲襯衣，這時數據捕撈系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此資訊，直接傳送真絲襯衣的當前行情，以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過數據捕撈系統就發現了以前未知的關於客戶的新資訊，並且擴大經營範圍。

數據捕撈

通常作為與資料倉庫和分析相關的技術，數據捕撈處於它們的中間。然而，有時還會出現十分可笑的應用，例如發掘出不存在但看起來振奮人心的模式（特別的因果關係），這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯，在統計學文獻裏通常被戲稱為「資料挖泥」（Data dredging, data fishing, or data snooping）。

數據捕撈意味着掃瞄可能存在任何關係的資料，然後篩選出符合的模式，（這也叫作「過度匹配模式」）。大量的數據集中總會有碰巧或特定的資料，有着「令人振奮的關係」。因此，一些結論看上去十分令人懷疑。儘管如此，一些探索性資料分析還是需要應用統計分析尋找資料，所以好的統計方法和數據資料的界限並不是很清晰。

更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裏？》的書中寫道：「總是有相當數量的可憐人，忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是，他們通常會找到。」^[13]

多數的數據捕撈研究都關注於發現大量的資料集中，一個高度詳細的模式。在《大忙人的數據捕撈》一書中，西弗吉尼亞大學和不列顛哥倫比亞大學研究者討論了一個交替模式，用來發現一個資料集當中兩個元素的最小區別，它的目標是發現一個更簡單的模式來描述相關數據。^[14]

參見

方法

異常/變化檢測
關聯式規則
分類問題
聚類分析
決策樹
因子分析
遺傳演算法
意圖挖掘（英語：Intention mining）
多線性子空間學習（英語：Multilinear subspace learning）
類神經網絡
迴歸分析
序列挖掘（英語：Sequence mining）
結構化數據分析（英語：Structured data analysis (statistics)）
支持向量機
文字挖掘
代理挖掘（英語：Agent mining）

應用領域

應用實例

相關主題

數據探勘是關於分析數據的；有關從數據中提取資訊的資訊，參見：

數據整合
數據變換（英語：Data transformation）
電子發現（英語：Electronic discovery）
資訊抽取
資訊融合
命名實體辨識
資料搜集（英語：Profiling (information science)）
網頁抓取

參考文獻

^ ^1.0 ^1.1 ^1.2 ^1.3 Data Mining Curriculum. ACM SIGKDD（英語：SIGKDD）. 2006-04-30 [2014-01-27].
^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09].
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. （原始內容存檔於2009-11-10）.
^ ^4.0 ^4.1 ^4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008].
^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.
^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0.
^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. |quote=和|postscript=只需其一 (幫助)
^ 《大數據及語意分析的大航海時代》數據的隱私權是否有疑慮?. 飛碟聯播網. 2019-06-02.
^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.
^ 個人資料保護辦公室 7月10日正式上路. 自由時報. 2018-06-26.
^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.

延伸閱讀

Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, ISBN 0-13-743980-6
M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, ISBN 978-0-521-83657-9
Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, ISBN 3-540-37881-2
Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB). 16 May 2011: 12.
Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, ISBN 978-0-12-374765-5
Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, ISBN 978-1-59904-162-9
Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, ISBN 0-321-32136-7
Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0
Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. (See also Free Weka software)
Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

外部連結

[acm-1] 1.0 ^1.1 ^1.2 ^1.3 Data Mining Curriculum. ACM SIGKDD（英語：SIGKDD）. 2006-04-30 [2014-01-27].

[brittanica-2] Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09].

[elements-3] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. （原始內容存檔於2009-11-10）.

[Fayyad-4] 4.0 ^4.1 ^4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008].

[5] W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.

[6] D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .

[witten-7] Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0.

[8] Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. |quote=和|postscript=只需其一 (幫助)

[9] 《大數據及語意分析的大航海時代》數據的隱私權是否有疑慮?. 飛碟聯播網. 2019-06-02.

[10] K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .

[11] Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.

[12] 個人資料保護辦公室 7月10日正式上路. 自由時報. 2018-06-26.

[13] Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .

[14] T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

閱論編機器學習同數據探勘主題
基本概念	學習 · 圖靈測試 · 運算學習論
數學模型	迴歸模型 · 類神經網絡（深度學習） · 生成對抗網絡 · Transformer模型 · 大語言模型 · 決策樹 · 貝氏網絡 · 支持向量機 · 關聯規則學習
學習範式	機器學習 · 深度學習 · 遷移學習 · 微調 (深度學習) · 監督學習 · 半監督學習 · 無監督學習 · 強化學習 · Q學習 · 遺傳演算法
主要應用	統計分類 · 表徵學習 · 降維 · 聚類分析 · 異常檢測
相關領域	計算科學 · 人工智能 · 通用人工智能 · 生成式人工智能 · 提示工程 · 統計學 · 數據科學 · 電腦科學 · 資訊與計算科學 · 神經科學 · 認知科學

閱論編電腦科學的主要領域
註：該模板大致遵循ACM 電腦分類系統。
電腦硬件	印刷電路板外部裝置集成電路超大規模集成電路綠色計算電子設計自動化
系統架構組織	電腦系統架構嵌入式系統即時計算
網絡	網絡傳輸協定路由網絡拓撲網絡服務
軟件組織	直譯器中介軟體虛擬機器作業系統軟件質素
軟件符號和工具	程式設計範式程式語言編譯器領域特定語言軟件框架整合式開發環境軟件組態管理函式庫
軟件開發	軟件開發過程需求分析軟件設計軟件部署軟件維護開源模式
計算理論	自動機可計算性理論計算複雜性理論量子計算數值計算方法電腦邏輯形式語意學
演算法	演算法分析演算法設計演算法效率隨機化演算法計算幾何
計算數學	離散數學資訊與計算科學統計學數學軟件數理邏輯集合論數論圖論類型論範疇論資訊論數值分析數學分析
資訊系統	資料庫管理系統電腦數據企業資訊系統社會性軟件地理資訊系統決策支援系統過程控制數據探勘數碼圖書館系統平台數碼行銷萬維網資訊檢索
安全	密碼學形式化方法入侵檢測系統網絡安全資訊保安
人機互動	電腦輔助功能用戶介面可穿戴電腦普適計算虛擬實境聊天機械人
並行性	並行計算平行計算分散式計算多線程多元處理
人工智能	自動推理計算語言學電腦視覺進化計算專家系統自然語言處理機械人學
機器學習	監督式學習無監督學習強化學習交叉驗證
電腦圖學	電腦動畫視覺化渲染修飾相片圖形處理器混合實境虛擬實境圖像處理圖像壓縮實體造型
應用計算	電子商務企業級軟件計算數學計算物理學計算化學計算生物學計算社會科學醫學資訊科學數字藝術電子出版網絡戰電子遊戲文書處理器運籌學教育技術學生物資訊科學認知科學檔案管理系統（英語：Document management system）
分類主題專題維基共用

歷史

定義

本質

過程

預處理

數據探勘

結果驗證

私隱問題及倫理[9]

方法

例子

數據捕撈

參見

參考文獻

延伸閱讀

外部連結

私隱問題及倫理^[9]