數(shù)據(jù)挖掘
歷史
數(shù)據(jù)挖掘是因為海量有用數(shù)據(jù)快速增長的產(chǎn)物。使用計算機進(jìn)行歷史數(shù)據(jù)分析,1960年代數(shù)字方式采集數(shù)據(jù)已經(jīng)實現(xiàn)。1980年代,關(guān)系數(shù)據(jù)庫隨著能夠適應(yīng)動態(tài)按需分析數(shù)據(jù)的結(jié)構(gòu)化查詢語言發(fā)展起來。數(shù)據(jù)倉庫開始用來存儲大量的數(shù)據(jù)。
因為面臨處理數(shù)據(jù)庫中大量數(shù)據(jù)的挑戰(zhàn),于是數(shù)據(jù)挖掘應(yīng)運而生,對于這些問題,它的主要方法是數(shù)據(jù)統(tǒng)計分析和人工智能搜索技術(shù)。
定義
數(shù)據(jù)挖掘有以下這些不同的定義:
“從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息”
“一門從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學(xué)。”
盡管通常數(shù)據(jù)挖掘應(yīng)用于數(shù)據(jù)分析,但是像人工智能一樣,它也是一個具有豐富含義的詞匯,可用于不同的領(lǐng)域。 它與KDD的關(guān)系是:KDD是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數(shù)據(jù)挖掘是KDD通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟。 事實上,在現(xiàn)今的文獻(xiàn)中,這兩個術(shù)語經(jīng)常不加區(qū)分的使用。
過程
數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)過程 通常定義為以下階段:
預(yù)處理
在運用數(shù)據(jù)挖掘算法之前,必須收集目標(biāo)數(shù)據(jù)集。由于數(shù)據(jù)挖掘只能發(fā)現(xiàn)實際存在于數(shù)據(jù)中的模式,目標(biāo)數(shù)據(jù)集必須大到足以包含這些模式,而其余的足夠簡潔以在一個可接受的時間范圍內(nèi)挖掘。常見的數(shù)據(jù)源如數(shù)據(jù)集市或數(shù)據(jù)倉庫。在數(shù)據(jù)挖掘之前,有必要預(yù)處理來分析多變量數(shù)據(jù)。然后要清理目標(biāo)集。數(shù)據(jù)清理移除包含 噪聲 ( 英語 : statistical noise ) 和含有缺失數(shù)據(jù)的觀測量。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘涉及六類常見的任務(wù):
異常檢測(異常/變化/偏差檢測)– 識別不尋常的數(shù)據(jù)記錄,錯誤數(shù)據(jù)需要進(jìn)一步調(diào)查。
關(guān)聯(lián)規(guī)則學(xué)習(xí)(依賴建模)– 搜索變量之間的關(guān)系。例如,一個超市可能會收集顧客購買習(xí)慣的數(shù)據(jù)。運用關(guān)聯(lián)規(guī)則學(xué)習(xí),超市可以確定哪些產(chǎn)品經(jīng)常一起買,并利用這些信息幫助營銷。這有時被稱為市場購物籃分析。
聚類– 是在未知數(shù)據(jù)的結(jié)構(gòu)下,發(fā)現(xiàn)數(shù)據(jù)的類別與結(jié)構(gòu)。
分類– 是對新的數(shù)據(jù)推廣已知的結(jié)構(gòu)的任務(wù)。例如,一個電子郵件程序可能試圖將一個電子郵件分類為“合法的”或“垃圾郵件”。
回歸– 試圖找到能夠以最小誤差對該數(shù)據(jù)建模的函數(shù)。
匯總 ( 英語 : Automatic summarization ) – 提供了一個更緊湊的數(shù)據(jù)集表示,包括生成可視化和報表。
結(jié)果驗證
數(shù)據(jù)挖掘的價值一般帶著一定的目的,而這目的是否得到實現(xiàn)一般可以通過結(jié)果驗證來實現(xiàn)。驗證是指“通過提供客觀證據(jù)對規(guī)定要求已得到滿足的認(rèn)定”,而這個“認(rèn)定”活動的策劃、實施和完成,與“規(guī)定要求”的內(nèi)容緊密相關(guān)。數(shù)據(jù)挖掘過程中的數(shù)據(jù)驗證的“規(guī)定要求”的設(shè)定,往往與數(shù)據(jù)挖掘要達(dá)到的基本目標(biāo)、過程目標(biāo)和最終目標(biāo)有關(guān)。驗證的結(jié)果可能是“規(guī)定要求”得到完全滿足,或者完全沒有得到滿足,以及其他介于兩者之間的滿足程度的狀況。驗證可以由數(shù)據(jù)挖掘的人自己完成,也可以通過其他人參與或完全通過他人的項目,以與數(shù)據(jù)挖掘者毫無關(guān)聯(lián)的方式進(jìn)行驗證。一般驗證過程中,數(shù)據(jù)挖掘者是不可能不參與的,但對于認(rèn)定過程中的客觀證據(jù)的收集、認(rèn)定的評估等過程如果通過與驗證提出者無關(guān)的人來實現(xiàn),往往更具有客觀性。通過結(jié)果驗證,數(shù)據(jù)挖掘者可以得到對自己所挖掘的數(shù)據(jù)價值高低的評估。
隱私問題及倫理
與數(shù)據(jù)挖掘有關(guān)的,還牽扯到隱私問題,例如:一個雇主可以通過訪問醫(yī)療記錄來篩選出那些有糖尿病或者嚴(yán)重心臟病的人,從而意圖削減保險支出。然而,這種做法會導(dǎo)致倫理和法律問題。
對于政府和商業(yè)數(shù)據(jù)的挖掘,可能會涉及到的,是國家安全或者商業(yè)機密之類的問題。這對于保密也是個不小的挑戰(zhàn)。
數(shù)據(jù)挖掘有很多合法的用途,例如可以在患者群的數(shù)據(jù)庫中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會出現(xiàn)一例,但藥物學(xué)相關(guān)的項目就可以運用此方法減少對藥物有不良反應(yīng)的病人數(shù)量,還有可能挽救生命;但這當(dāng)中還是存在著數(shù)據(jù)庫可能被濫用的問題。
數(shù)據(jù)挖掘?qū)崿F(xiàn)了用其他方法不可能實現(xiàn)的方法來發(fā)現(xiàn)信息,但它必須受到規(guī)范,應(yīng)當(dāng)在適當(dāng)?shù)恼f明下使用。
如果數(shù)據(jù)是收集自特定的個人,那么就會出現(xiàn)一些涉及保密、法律和倫理的問題。
方法
數(shù)據(jù)挖掘的方法包括監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、增強學(xué)習(xí)。監(jiān)督式學(xué)習(xí)包括:分類、估計、預(yù)測。非監(jiān)督式學(xué)習(xí)包括:聚類,關(guān)聯(lián)規(guī)則分析。
例子
數(shù)據(jù)挖掘在零售行業(yè)中的應(yīng)用:零售公司跟蹤客戶的購買情況,發(fā)現(xiàn)某個客戶購買了大量的真絲襯衣,這時數(shù)據(jù)挖掘系統(tǒng)就在此客戶和真絲襯衣之間創(chuàng)建關(guān)系。銷售部門就會看到此信息,直接發(fā)送真絲襯衣的當(dāng)前行情,以及所有關(guān)于真絲襯衫的資料發(fā)給該客戶。這樣零售商店通過數(shù)據(jù)挖掘系統(tǒng)就發(fā)現(xiàn)了以前未知的關(guān)于客戶的新信息,并且擴(kuò)大經(jīng)營范圍。
數(shù)據(jù)捕撈
通常作為與數(shù)據(jù)倉庫和分析相關(guān)的技術(shù),數(shù)據(jù)挖掘處于它們的中間。然而,有時還會出現(xiàn)十分可笑的應(yīng)用,例如發(fā)掘出不存在但看起來振奮人心的模式(特別的因果關(guān)系),這些根本不相關(guān)的、甚至引人誤入歧途的、或是毫無價值的關(guān)系,在統(tǒng)計學(xué)文獻(xiàn)里通常被戲稱為“數(shù)據(jù)捕撈”( Data dredging , data fishing, or data snooping )。
數(shù)據(jù)挖掘意味著掃描可能存在任何關(guān)系的數(shù)據(jù),然后篩選出匹配的模式,(這也叫作“過度匹配模式”)。大量的數(shù)據(jù)集中總會有碰巧或特定的數(shù)據(jù),有著“令人振奮的關(guān)系”。因此,一些結(jié)論看上去十分令人懷疑。盡管如此,一些探索性數(shù)據(jù)分析 還是需要應(yīng)用統(tǒng)計分析查找數(shù)據(jù),所以好的統(tǒng)計方法和數(shù)據(jù)數(shù)據(jù)的界限并不是很清晰。
更危險是出現(xiàn)根本不存在的關(guān)系性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的游艇在哪里?》的書中寫道:“總是有相當(dāng)數(shù)量的可憐人,忙于從上千次的賭輪盤的輪子上查找可能的重復(fù)模式。十分不幸的是,他們通常會找到?!?
多數(shù)的數(shù)據(jù)挖掘研究都關(guān)注于發(fā)現(xiàn)大量的數(shù)據(jù)集中,一個高度詳細(xì)的模式。在《大忙人的數(shù)據(jù)挖掘》一書中,西弗吉尼亞大學(xué)和不列顛哥倫比亞大學(xué)研究者討論了一個交替模式,用來發(fā)現(xiàn)一個數(shù)據(jù)集當(dāng)中兩個元素的最小區(qū)別,它的目標(biāo)是發(fā)現(xiàn)一個更簡單的模式來描述相關(guān)數(shù)據(jù)。
參見
異常/變化檢測
關(guān)聯(lián)式規(guī)則
分類問題
聚類分析
決策樹
因子分析 ( 英語 : Factor analysis )
遺傳算法
意圖挖掘 ( 英語 : Intention mining )
多線性子空間學(xué)習(xí) ( 英語 : Multilinear subspace learning )
人工神經(jīng)網(wǎng)絡(luò)
回歸分析
序列挖掘 ( 英語 : Sequence mining )
結(jié)構(gòu)化數(shù)據(jù)分析 ( 英語 : Structured data analysis (statistics) )
支持向量機
文本挖掘
代理挖掘 ( 英語 : Agent mining )
解析學(xué) ( 英語 : Analytics )
行為信息學(xué) ( 英語 : Behavior informatics )
大數(shù)據(jù)
生物信息學(xué)
商業(yè)智能
數(shù)據(jù)分析
數(shù)據(jù)倉庫
決策支持系統(tǒng)
領(lǐng)域驅(qū)動的數(shù)據(jù)挖掘 ( 英語 : Domain driven data mining )
藥物發(fā)現(xiàn) ( 英語 : Drug discovery )
探索性數(shù)據(jù)分析 ( 英語 : Exploratory data analysis )
預(yù)測分析
網(wǎng)絡(luò)挖掘 ( 英語 : Web mining )
參見:Category:應(yīng)用數(shù)據(jù)挖掘。
客戶分析 ( 英語 : Customer analytics )
農(nóng)業(yè)數(shù)據(jù)挖掘 ( 英語 : Data mining in agriculture )
氣象中的數(shù)據(jù)挖掘 ( 英語 : Data mining in meteorology )
教育數(shù)據(jù)挖掘 ( 英語 : Educational data mining )
美國國家安全局
定量構(gòu)效關(guān)系
監(jiān)視/大規(guī)模監(jiān)控(e.g.,恒星風(fēng) (情報活動代號))
數(shù)據(jù)挖掘是關(guān)于 分析 數(shù)據(jù)的;有關(guān)從數(shù)據(jù)中提取信息的信息,參見:
數(shù)據(jù)集成
數(shù)據(jù)變換 ( 英語 : Data transformation )
電子發(fā)現(xiàn) ( 英語 : Electronic discovery )
信息抽取
信息融合
命名實體識別 ( 英語 : Named-entity recognition )
資料搜集 ( 英語 : Profiling (information science) )
網(wǎng)頁抓取
延伸閱讀
Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation , Prentice Hall, ISBN 0-13-743980-6
M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook , Cambridge University Press, ISBN 978-0-521-83657-9
Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems , Kluwer Academic Publishers
Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques . Morgan kaufmann, 2006.
Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction , Springer, ISBN 0-387-95284-5
Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data , Springer, ISBN 3-540-37881-2
Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB). 16 May 2011: 12.
Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications , Academic Press/Elsevier, ISBN 978-0-12-374765-5
Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference , ISBN 978-1-59904-162-9
Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining , ISBN 0-321-32136-7
Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition , 4th Edition, Academic Press, ISBN 978-1-59749-272-0
Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining , Morgan Kaufmann
Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. (See also Free Weka software)
Ye, Nong (2003); The Handbook of Data Mining , Mahwah, NJ: Lawrence Erlbaum
外部鏈接
開放式目錄計劃中和知識發(fā)現(xiàn)軟件相關(guān)的內(nèi)容
開放式目錄計劃中和數(shù)據(jù)挖掘工具供應(yīng)商相關(guān)的內(nèi)容
免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。
- 有價值
- 一般般
- 沒價值
{{item.userName}} 舉報
{{item.time}} {{item.replyListShow ? '收起' : '展開'}}評論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}
{{_reply.userName}} 舉報
{{_reply.time}}