亚洲国产区中文,国产精品91高清,亚洲精品中文字幕久久久久,亚洲欧美另类久久久精品能播放

                  族譜網(wǎng) 頭條 人物百科

                  數(shù)據(jù)挖掘

                  2020-10-16
                  出處:族譜網(wǎng)
                  作者:阿族小譜
                  瀏覽:388
                  轉(zhuǎn)發(fā):0
                  評論:0
                  歷史數(shù)據(jù)挖掘是因為海量有用數(shù)據(jù)快速增長的產(chǎn)物。使用計算機進(jìn)行歷史數(shù)據(jù)分析,1960年代數(shù)字方式采集數(shù)據(jù)已經(jīng)實現(xiàn)。1980年代,關(guān)系數(shù)據(jù)庫隨著能夠適應(yīng)動態(tài)按需分析數(shù)據(jù)的結(jié)構(gòu)化查詢語言發(fā)展起來。數(shù)據(jù)倉庫開始用來存儲大量的數(shù)據(jù)。因為面臨處理數(shù)據(jù)庫中大量數(shù)據(jù)的挑戰(zhàn),于是數(shù)據(jù)挖掘應(yīng)運而生,對于這些問題,它的主要方法是數(shù)據(jù)統(tǒng)計分析和人工智能搜索技術(shù)。定義數(shù)據(jù)挖掘有以下這些不同的定義:“從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息”“一門從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學(xué)?!北M管通常數(shù)據(jù)挖掘應(yīng)用于數(shù)據(jù)分析,但是像人工智能一樣,它也是一個具有豐富含義的詞匯,可用于不同的領(lǐng)域。它與KDD的關(guān)系是:KDD是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數(shù)據(jù)挖掘是KDD通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟。事實上,在現(xiàn)今的文獻(xiàn)中,這兩個術(shù)語經(jīng)常不加區(qū)分的使用。...

                  歷史

                  數(shù)據(jù)挖掘是因為海量有用數(shù)據(jù)快速增長的產(chǎn)物。使用計算機進(jìn)行歷史數(shù)據(jù)分析,1960年代數(shù)字方式采集數(shù)據(jù)已經(jīng)實現(xiàn)。1980年代,關(guān)系數(shù)據(jù)庫隨著能夠適應(yīng)動態(tài)按需分析數(shù)據(jù)的結(jié)構(gòu)化查詢語言發(fā)展起來。數(shù)據(jù)倉庫開始用來存儲大量的數(shù)據(jù)。

                  因為面臨處理數(shù)據(jù)庫中大量數(shù)據(jù)的挑戰(zhàn),于是數(shù)據(jù)挖掘應(yīng)運而生,對于這些問題,它的主要方法是數(shù)據(jù)統(tǒng)計分析和人工智能搜索技術(shù)。

                  定義

                  數(shù)據(jù)挖掘有以下這些不同的定義:

                  “從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息”

                  “一門從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學(xué)。”

                  盡管通常數(shù)據(jù)挖掘應(yīng)用于數(shù)據(jù)分析,但是像人工智能一樣,它也是一個具有豐富含義的詞匯,可用于不同的領(lǐng)域。 它與KDD的關(guān)系是:KDD是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數(shù)據(jù)挖掘是KDD通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟。 事實上,在現(xiàn)今的文獻(xiàn)中,這兩個術(shù)語經(jīng)常不加區(qū)分的使用。

                  過程

                  數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)過程 通常定義為以下階段:

                  預(yù)處理

                  在運用數(shù)據(jù)挖掘算法之前,必須收集目標(biāo)數(shù)據(jù)集。由于數(shù)據(jù)挖掘只能發(fā)現(xiàn)實際存在于數(shù)據(jù)中的模式,目標(biāo)數(shù)據(jù)集必須大到足以包含這些模式,而其余的足夠簡潔以在一個可接受的時間范圍內(nèi)挖掘。常見的數(shù)據(jù)源如數(shù)據(jù)集市或數(shù)據(jù)倉庫。在數(shù)據(jù)挖掘之前,有必要預(yù)處理來分析多變量數(shù)據(jù)。然后要清理目標(biāo)集。數(shù)據(jù)清理移除包含 噪聲 ( 英語 : statistical noise ) 和含有缺失數(shù)據(jù)的觀測量。

                  數(shù)據(jù)挖掘

                  數(shù)據(jù)挖掘涉及六類常見的任務(wù):

                  異常檢測(異常/變化/偏差檢測)– 識別不尋常的數(shù)據(jù)記錄,錯誤數(shù)據(jù)需要進(jìn)一步調(diào)查。

                  關(guān)聯(lián)規(guī)則學(xué)習(xí)(依賴建模)– 搜索變量之間的關(guān)系。例如,一個超市可能會收集顧客購買習(xí)慣的數(shù)據(jù)。運用關(guān)聯(lián)規(guī)則學(xué)習(xí),超市可以確定哪些產(chǎn)品經(jīng)常一起買,并利用這些信息幫助營銷。這有時被稱為市場購物籃分析。

                  聚類– 是在未知數(shù)據(jù)的結(jié)構(gòu)下,發(fā)現(xiàn)數(shù)據(jù)的類別與結(jié)構(gòu)。

                  分類– 是對新的數(shù)據(jù)推廣已知的結(jié)構(gòu)的任務(wù)。例如,一個電子郵件程序可能試圖將一個電子郵件分類為“合法的”或“垃圾郵件”。

                  回歸– 試圖找到能夠以最小誤差對該數(shù)據(jù)建模的函數(shù)。

                  匯總 ( 英語 : Automatic summarization ) – 提供了一個更緊湊的數(shù)據(jù)集表示,包括生成可視化和報表。

                  結(jié)果驗證

                  數(shù)據(jù)挖掘的價值一般帶著一定的目的,而這目的是否得到實現(xiàn)一般可以通過結(jié)果驗證來實現(xiàn)。驗證是指“通過提供客觀證據(jù)對規(guī)定要求已得到滿足的認(rèn)定”,而這個“認(rèn)定”活動的策劃、實施和完成,與“規(guī)定要求”的內(nèi)容緊密相關(guān)。數(shù)據(jù)挖掘過程中的數(shù)據(jù)驗證的“規(guī)定要求”的設(shè)定,往往與數(shù)據(jù)挖掘要達(dá)到的基本目標(biāo)、過程目標(biāo)和最終目標(biāo)有關(guān)。驗證的結(jié)果可能是“規(guī)定要求”得到完全滿足,或者完全沒有得到滿足,以及其他介于兩者之間的滿足程度的狀況。驗證可以由數(shù)據(jù)挖掘的人自己完成,也可以通過其他人參與或完全通過他人的項目,以與數(shù)據(jù)挖掘者毫無關(guān)聯(lián)的方式進(jìn)行驗證。一般驗證過程中,數(shù)據(jù)挖掘者是不可能不參與的,但對于認(rèn)定過程中的客觀證據(jù)的收集、認(rèn)定的評估等過程如果通過與驗證提出者無關(guān)的人來實現(xiàn),往往更具有客觀性。通過結(jié)果驗證,數(shù)據(jù)挖掘者可以得到對自己所挖掘的數(shù)據(jù)價值高低的評估。

                  隱私問題及倫理

                  與數(shù)據(jù)挖掘有關(guān)的,還牽扯到隱私問題,例如:一個雇主可以通過訪問醫(yī)療記錄來篩選出那些有糖尿病或者嚴(yán)重心臟病的人,從而意圖削減保險支出。然而,這種做法會導(dǎo)致倫理和法律問題。

                  對于政府和商業(yè)數(shù)據(jù)的挖掘,可能會涉及到的,是國家安全或者商業(yè)機密之類的問題。這對于保密也是個不小的挑戰(zhàn)。

                  數(shù)據(jù)挖掘有很多合法的用途,例如可以在患者群的數(shù)據(jù)庫中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會出現(xiàn)一例,但藥物學(xué)相關(guān)的項目就可以運用此方法減少對藥物有不良反應(yīng)的病人數(shù)量,還有可能挽救生命;但這當(dāng)中還是存在著數(shù)據(jù)庫可能被濫用的問題。

                  數(shù)據(jù)挖掘?qū)崿F(xiàn)了用其他方法不可能實現(xiàn)的方法來發(fā)現(xiàn)信息,但它必須受到規(guī)范,應(yīng)當(dāng)在適當(dāng)?shù)恼f明下使用。

                  如果數(shù)據(jù)是收集自特定的個人,那么就會出現(xiàn)一些涉及保密、法律和倫理的問題。

                  方法

                  數(shù)據(jù)挖掘的方法包括監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、增強學(xué)習(xí)。監(jiān)督式學(xué)習(xí)包括:分類、估計、預(yù)測。非監(jiān)督式學(xué)習(xí)包括:聚類,關(guān)聯(lián)規(guī)則分析。

                  例子

                  數(shù)據(jù)挖掘在零售行業(yè)中的應(yīng)用:零售公司跟蹤客戶的購買情況,發(fā)現(xiàn)某個客戶購買了大量的真絲襯衣,這時數(shù)據(jù)挖掘系統(tǒng)就在此客戶和真絲襯衣之間創(chuàng)建關(guān)系。銷售部門就會看到此信息,直接發(fā)送真絲襯衣的當(dāng)前行情,以及所有關(guān)于真絲襯衫的資料發(fā)給該客戶。這樣零售商店通過數(shù)據(jù)挖掘系統(tǒng)就發(fā)現(xiàn)了以前未知的關(guān)于客戶的新信息,并且擴(kuò)大經(jīng)營范圍。

                  數(shù)據(jù)捕撈

                  通常作為與數(shù)據(jù)倉庫和分析相關(guān)的技術(shù),數(shù)據(jù)挖掘處于它們的中間。然而,有時還會出現(xiàn)十分可笑的應(yīng)用,例如發(fā)掘出不存在但看起來振奮人心的模式(特別的因果關(guān)系),這些根本不相關(guān)的、甚至引人誤入歧途的、或是毫無價值的關(guān)系,在統(tǒng)計學(xué)文獻(xiàn)里通常被戲稱為“數(shù)據(jù)捕撈”( Data dredging , data fishing, or data snooping )。

                  數(shù)據(jù)挖掘意味著掃描可能存在任何關(guān)系的數(shù)據(jù),然后篩選出匹配的模式,(這也叫作“過度匹配模式”)。大量的數(shù)據(jù)集中總會有碰巧或特定的數(shù)據(jù),有著“令人振奮的關(guān)系”。因此,一些結(jié)論看上去十分令人懷疑。盡管如此,一些探索性數(shù)據(jù)分析 還是需要應(yīng)用統(tǒng)計分析查找數(shù)據(jù),所以好的統(tǒng)計方法和數(shù)據(jù)數(shù)據(jù)的界限并不是很清晰。

                  更危險是出現(xiàn)根本不存在的關(guān)系性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的游艇在哪里?》的書中寫道:“總是有相當(dāng)數(shù)量的可憐人,忙于從上千次的賭輪盤的輪子上查找可能的重復(fù)模式。十分不幸的是,他們通常會找到?!?

                  多數(shù)的數(shù)據(jù)挖掘研究都關(guān)注于發(fā)現(xiàn)大量的數(shù)據(jù)集中,一個高度詳細(xì)的模式。在《大忙人的數(shù)據(jù)挖掘》一書中,西弗吉尼亞大學(xué)和不列顛哥倫比亞大學(xué)研究者討論了一個交替模式,用來發(fā)現(xiàn)一個數(shù)據(jù)集當(dāng)中兩個元素的最小區(qū)別,它的目標(biāo)是發(fā)現(xiàn)一個更簡單的模式來描述相關(guān)數(shù)據(jù)。

                  參見

                  異常/變化檢測

                  關(guān)聯(lián)式規(guī)則

                  分類問題

                  聚類分析

                  決策樹

                  因子分析 ( 英語 : Factor analysis )

                  遺傳算法

                  意圖挖掘 ( 英語 : Intention mining )

                  多線性子空間學(xué)習(xí) ( 英語 : Multilinear subspace learning )

                  人工神經(jīng)網(wǎng)絡(luò)

                  回歸分析

                  序列挖掘 ( 英語 : Sequence mining )

                  結(jié)構(gòu)化數(shù)據(jù)分析 ( 英語 : Structured data analysis (statistics) )

                  支持向量機

                  文本挖掘

                  代理挖掘 ( 英語 : Agent mining )

                  解析學(xué) ( 英語 : Analytics )

                  行為信息學(xué) ( 英語 : Behavior informatics )

                  大數(shù)據(jù)

                  生物信息學(xué)

                  商業(yè)智能

                  數(shù)據(jù)分析

                  數(shù)據(jù)倉庫

                  決策支持系統(tǒng)

                  領(lǐng)域驅(qū)動的數(shù)據(jù)挖掘 ( 英語 : Domain driven data mining )

                  藥物發(fā)現(xiàn) ( 英語 : Drug discovery )

                  探索性數(shù)據(jù)分析 ( 英語 : Exploratory data analysis )

                  預(yù)測分析

                  網(wǎng)絡(luò)挖掘 ( 英語 : Web mining )

                  參見:Category:應(yīng)用數(shù)據(jù)挖掘。

                  客戶分析 ( 英語 : Customer analytics )

                  農(nóng)業(yè)數(shù)據(jù)挖掘 ( 英語 : Data mining in agriculture )

                  氣象中的數(shù)據(jù)挖掘 ( 英語 : Data mining in meteorology )

                  教育數(shù)據(jù)挖掘 ( 英語 : Educational data mining )

                  美國國家安全局

                  定量構(gòu)效關(guān)系

                  監(jiān)視/大規(guī)模監(jiān)控(e.g.,恒星風(fēng) (情報活動代號))

                  數(shù)據(jù)挖掘是關(guān)于 分析 數(shù)據(jù)的;有關(guān)從數(shù)據(jù)中提取信息的信息,參見:

                  數(shù)據(jù)集成

                  數(shù)據(jù)變換 ( 英語 : Data transformation )

                  電子發(fā)現(xiàn) ( 英語 : Electronic discovery )

                  信息抽取

                  信息融合

                  命名實體識別 ( 英語 : Named-entity recognition )

                  資料搜集 ( 英語 : Profiling (information science) )

                  網(wǎng)頁抓取

                  延伸閱讀

                  Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation , Prentice Hall, ISBN 0-13-743980-6

                  M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883

                  Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook , Cambridge University Press, ISBN 978-0-521-83657-9

                  Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems , Kluwer Academic Publishers

                  Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques . Morgan kaufmann, 2006.

                  Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction , Springer, ISBN 0-387-95284-5

                  Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data , Springer, ISBN 3-540-37881-2

                  Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB). 16 May 2011: 12.

                  Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications , Academic Press/Elsevier, ISBN 978-0-12-374765-5

                  Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference , ISBN 978-1-59904-162-9

                  Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining , ISBN 0-321-32136-7

                  Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition , 4th Edition, Academic Press, ISBN 978-1-59749-272-0

                  Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining , Morgan Kaufmann

                  Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. (See also Free Weka software)

                  Ye, Nong (2003); The Handbook of Data Mining , Mahwah, NJ: Lawrence Erlbaum

                  外部鏈接

                  開放式目錄計劃中和知識發(fā)現(xiàn)軟件相關(guān)的內(nèi)容

                  開放式目錄計劃中和數(shù)據(jù)挖掘工具供應(yīng)商相關(guān)的內(nèi)容


                  免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。

                  ——— 沒有了 ———
                  編輯:阿族小譜

                  更多文章

                  更多精彩文章
                  評論 {{commentTotal}} 文明上網(wǎng)理性發(fā)言,請遵守《新聞評論服務(wù)協(xié)議》
                  游客
                  發(fā)表評論
                  • {{item.userName}} 舉報

                    {{item.content}}

                    {{item.time}} {{item.replyListShow ? '收起' : '展開'}}評論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}

                    回復(fù)評論
                  加載更多評論
                  打賞作者
                  “感謝您的打賞,我會更努力的創(chuàng)作”
                  — 請選擇您要打賞的金額 —
                  {{item.label}}
                  {{item.label}}
                  打賞成功!
                  “感謝您的打賞,我會更努力的創(chuàng)作”
                  返回
                  打賞
                  私信

                  推薦閱讀

                  · 國際數(shù)據(jù)
                  批評許多IDC的報告和預(yù)測由于方法的缺陷而受到批評,著名案例包括:預(yù)測英特爾安騰架構(gòu)的銷售預(yù)測WindowsPhone的市場份額競爭對手阿伯丁集團(tuán)ABIResearchBurtonGroupCanalysDittbernerAssociatesForresterResearchFrost&Sullivan高德納咨詢公司GfKJupiterResearchTechnologyEvaluationCentersTekPlusThe451GroupWirelessFederationYankeeGroup
                  · 大數(shù)據(jù)
                  定義大數(shù)據(jù)由巨型數(shù)據(jù)集(英語:Dataset)組成,這些數(shù)據(jù)集大小常超出人類在可接受時間下的收集(英語:dataacquisition)、庋用(英語:datacuration)、管理和處理能力。大數(shù)據(jù)的大小經(jīng)常改變,截至2012年(2012-Missingrequiredparameter1=month!),單一數(shù)據(jù)集的大小從數(shù)太字節(jié)(TB)至數(shù)十兆億字節(jié)(PB)不等。在一份2001年的研究與相關(guān)的演講中,麥塔集團(tuán)(METAGroup,現(xiàn)為高德納)分析員道格·萊尼(DougLaney)指出數(shù)據(jù)增長的挑戰(zhàn)和機遇有三個方向:量(Volume,數(shù)據(jù)大?。?、速(Velocity,數(shù)據(jù)輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”或“3Vs”。高德納與現(xiàn)在大部分大數(shù)據(jù)產(chǎn)業(yè)中的公司,都繼續(xù)使用3V來描述大數(shù)據(jù)。高德納于2012年修改對大數(shù)據(jù)的定義:“大數(shù)據(jù)是大量、高速、及/或多變的信息...
                  · 數(shù)據(jù)傳輸
                  協(xié)議分層與子條目在數(shù)據(jù)傳輸領(lǐng)域的課程與教材中,通常使用如下的OSI模型處理協(xié)議分層與主題:第一層,物理層:第二層,數(shù)據(jù)鏈路層:第六層,表示層:應(yīng)用及歷史基帶或通帶傳輸串行與并行傳輸通訊信道類型異步與同步數(shù)據(jù)傳輸參見計算機網(wǎng)絡(luò)信息論Media(communication)信號處理電信Transmission
                  · 數(shù)據(jù)庫
                  數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(英語:DatabaseManagementSystem,簡稱DBMS)是為管理數(shù)據(jù)庫而設(shè)計的電腦軟件系統(tǒng),一般具有存儲、截取、安全保障、備份等基礎(chǔ)功能。數(shù)據(jù)庫管理系統(tǒng)可以依據(jù)它所支持的數(shù)據(jù)庫模型來作分類,例如關(guān)系式、XML;或依據(jù)所支持的電腦類型來作分類,例如服務(wù)器群集、移動電話;或依據(jù)所用查詢語言來作分類,例如SQL、XQuery;或依據(jù)性能沖量重點來作分類,例如最大規(guī)模、最高運行速度;亦或其他的分類方式。不論使用哪種分類方式,一些DBMS能夠跨類別,例如,同時支持多種查詢語言。類型關(guān)系數(shù)據(jù)庫MySQLPostgreSQLMicrosoftAccessMicrosoftSQLServerGoogleFusionTables(英語:GoogleFusionTables)FileMakerOracle數(shù)據(jù)庫SybasedBASEClipperFoxProfosh...
                  · 元數(shù)據(jù)
                  定義元資料是指“描述資料的資料”。雖然說源自于希臘介詞和前綴μετ?-的英文前綴“meta”代表“之后”或“之下”的意思,在此處實際上是使用知識論中“關(guān)于”的意思。元資料被定義為提供某些資料單方面或多方面資訊的資料;它被用來概述資料的基礎(chǔ)資訊,以簡化查找過程與方便使用。例如:創(chuàng)建資料的方法資料的用途建立的時間與日期資料的建立者或作者資料被建立在電腦網(wǎng)絡(luò)的何處用作標(biāo)準(zhǔn)檔案大小舉例,一個數(shù)位影像檔案可能會包括描述圖片大小、色彩深度、圖片分辨率、圖片建立時間、快門速度等資料的元資料。一份文檔的元資料可能會包含文檔長度、作者、建立時間、文檔概述等資訊。網(wǎng)頁中的元資料也可以包含葉面內(nèi)容的描述,以及有關(guān)于內(nèi)容的關(guān)鍵字等等。這些東西常被稱作“元標(biāo)簽”(Metatags),其在1990年代后期以前被用來當(dāng)作決定搜索引擎結(jié)果順序的主要因素。在1990年代后期,由于“關(guān)鍵字堆砌(英語:keywordstuff...

                  關(guān)于我們

                  關(guān)注族譜網(wǎng) 微信公眾號,每日及時查看相關(guān)推薦,訂閱互動等。

                  APP下載

                  下載族譜APP 微信公眾號,每日及時查看
                  掃一掃添加客服微信