大數(shù)據(jù)
定義
大數(shù)據(jù)由巨型 數(shù)據(jù)集 ( 英語(yǔ) : Data set ) 組成,這些數(shù)據(jù)集大小常超出人類在可接受時(shí)間下的 收集 ( 英語(yǔ) : data acquisition ) 、 庋用 ( 英語(yǔ) : data curation ) 、管理和處理能力 。大數(shù)據(jù)的大小經(jīng)常改變,截至2012年 ( 2012-Missing required parameter 1= month ! ) ,單一數(shù)據(jù)集的大小從數(shù)太字節(jié)(TB)至數(shù)十兆億字節(jié)(PB)不等。
在一份2001年的研究與相關(guān)的演講中 ,麥塔集團(tuán)(META Group,現(xiàn)為高德納)分析員道格·萊尼( Doug Laney )指出數(shù)據(jù)增長(zhǎng)的挑戰(zhàn)和機(jī)遇有三個(gè)方向:量( Volume ,數(shù)據(jù)大小)、速( Velocity ,數(shù)據(jù)輸入輸出的速度)與多變( Variety ,多樣性),合稱“3V”或“3Vs”。高德納與現(xiàn)在大部分大數(shù)據(jù)產(chǎn)業(yè)中的公司,都繼續(xù)使用3V來(lái)描述大數(shù)據(jù) 。高德納于2012年修改對(duì)大數(shù)據(jù)的定義:“大數(shù)據(jù)是大量、高速、及/或多變的信息資產(chǎn),它需要新型的處理方式去促成更強(qiáng)的決策能力、洞察力與最優(yōu)化處理 ?!绷硗?,有機(jī)構(gòu)在3V之外定義第4個(gè)V:真實(shí)性( Veracity )為第四特點(diǎn) 。
大數(shù)據(jù)必須借由計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、比對(duì)、解析方能得出客觀結(jié)果。美國(guó)在2012年就開(kāi)始著手大數(shù)據(jù),奧巴馬更在同年投入2億美金在大數(shù)據(jù)的開(kāi)發(fā)中,更強(qiáng)調(diào)大數(shù)據(jù)會(huì)是之后的未來(lái)石油。
數(shù)據(jù)挖掘(data mining)則是在探討用以解析大數(shù)據(jù)的方法。
應(yīng)用示例
大數(shù)據(jù)的應(yīng)用示例包括大科學(xué)、RFID、感測(cè)設(shè)備網(wǎng)絡(luò)、天文學(xué)、大氣學(xué)、交通運(yùn)輸、基因組學(xué)、生物學(xué)、大社會(huì)數(shù)據(jù)分析 、互聯(lián)網(wǎng)文件處理、制作互聯(lián)網(wǎng)搜索引擎索引、通信記錄明細(xì)、軍事偵查、社交網(wǎng)絡(luò)、通勤時(shí)間預(yù)測(cè)、醫(yī)療記錄、照片圖像和視頻封存、大規(guī)模的電子商務(wù)等 。
應(yīng)用于運(yùn)動(dòng)界
巨大科學(xué)
大型強(qiáng)子對(duì)撞機(jī)中有1億5000萬(wàn)個(gè)感測(cè)器,每秒發(fā)送4000萬(wàn)次的數(shù)據(jù)。實(shí)驗(yàn)中每秒產(chǎn)生將近6億次的對(duì)撞,在過(guò)濾去除99.999%的撞擊數(shù)據(jù)后,得到約100次的有用撞擊數(shù)據(jù) 。
將撞擊結(jié)果數(shù)據(jù)過(guò)濾處理后僅記錄了0.001%的有用數(shù)據(jù),全部四個(gè)對(duì)撞機(jī)的數(shù)據(jù)量復(fù)制前每年產(chǎn)生25拍字節(jié)(PB),復(fù)制后為200拍字節(jié)。
如果將所有實(shí)驗(yàn)中的數(shù)據(jù)在不過(guò)濾的情況下全部記錄,數(shù)據(jù)量將會(huì)變得過(guò)度龐大且極難處理。每年數(shù)據(jù)量在復(fù)制前將會(huì)達(dá)到1.5億拍字節(jié),等于每天有近500艾字節(jié)(EB)的數(shù)據(jù)量。這個(gè)數(shù)字代表每天實(shí)驗(yàn)將產(chǎn)生相當(dāng)于500垓(5×10 )字節(jié)的數(shù)據(jù),是全世界所有數(shù)據(jù)源總和的200倍。
科學(xué)研究
衛(wèi)生學(xué)
國(guó)際衛(wèi)生學(xué)教授漢斯·羅斯林使用“Trendalyzer”工具軟件呈現(xiàn)兩百多年以來(lái)全球人類的人口統(tǒng)計(jì)數(shù)據(jù),跟其他數(shù)據(jù)交叉比對(duì),例如收入、宗教、能源使用量等。
公共部門
目前,發(fā)達(dá)國(guó)家的政府部門開(kāi)始推廣大數(shù)據(jù)的應(yīng)用。2012年奧巴馬政府投資近兩億美元開(kāi)始推行《大數(shù)據(jù)的研究與發(fā)展計(jì)劃》,本計(jì)劃涉及美國(guó)國(guó)防部、美國(guó)衛(wèi)生與公共服務(wù)部門等多個(gè)聯(lián)邦部門和機(jī)構(gòu),意在通過(guò)提高從大型復(fù)雜的的數(shù)據(jù)中提取知識(shí)的能力,進(jìn)而加快科學(xué)和工程的開(kāi)發(fā),保障國(guó)家安全。
民間部門
亞馬遜,在2005年的時(shí)點(diǎn),這間公司是世界上最大的以LINUX為基礎(chǔ)的三大數(shù)據(jù)庫(kù)之一 。
沃爾瑪可以在1小時(shí)內(nèi)處理百萬(wàn)以上顧客的消費(fèi)處理。相當(dāng)于美國(guó)議會(huì)圖書館所藏的書籍之167倍的情報(bào)量 。
Facebook,處理500億枚的用戶照片 。
全世界商業(yè)數(shù)據(jù)的數(shù)量,統(tǒng)計(jì)全部的企業(yè)全體、推計(jì)每1.2年會(huì)倍増 。
西雅圖 文德米爾不動(dòng)產(chǎn) ( 英語(yǔ) : Windermere Real Estate ) 分析約1億匿名GPS信號(hào),提供購(gòu)入新房子的客戶從該地點(diǎn)使用交通工具(汽車、腳踏車等)至公司等地的通勤時(shí)間估計(jì)值 。
軟銀,每個(gè)月約處理10億件(2014年3月現(xiàn)在)的手機(jī)LOG情報(bào),并用其改善手機(jī)信號(hào)的信號(hào)強(qiáng)度 。
社會(huì)學(xué)
大數(shù)據(jù)產(chǎn)生的背景離不開(kāi)Facebook、微博等社交網(wǎng)絡(luò)的興起,人們每天通過(guò)這種自媒體傳播信息或者溝通交流,由此產(chǎn)生的信息被網(wǎng)絡(luò)記錄下來(lái),社會(huì)學(xué)家可以在這些數(shù)據(jù)的基礎(chǔ)上分析人類的行為模式、交往方式等。美國(guó)的涂爾干計(jì)劃就是依據(jù)個(gè)人在社交網(wǎng)絡(luò)上的數(shù)據(jù)分析其自殺傾向,該計(jì)劃從美軍退役士兵中揀選受試者,透過(guò)Facebook的行動(dòng)app收集資料,并將用戶的活動(dòng)數(shù)據(jù)傳送到一個(gè)醫(yī)療資料庫(kù)。收集完成的數(shù)據(jù)會(huì)接受人工智能系統(tǒng)分析,接著利用預(yù)測(cè)程序來(lái)即時(shí)監(jiān)視受測(cè)者是否出現(xiàn)一般認(rèn)為具傷害性的行為。
市場(chǎng)
大數(shù)據(jù)的出現(xiàn)提升了對(duì)信息管理專家的需求,Software AG、甲骨文、IBM、微軟、SAP、易安信、惠普和戴爾已在多間數(shù)據(jù)管理分析專門公司上花費(fèi)超過(guò)150億美元。在2010年,數(shù)據(jù)管理分析產(chǎn)業(yè)市值超過(guò)1,000億美元,并以每年將近10%的速度成長(zhǎng),是整個(gè)軟件產(chǎn)業(yè)成長(zhǎng)速度的兩倍 。
經(jīng)濟(jì)的開(kāi)發(fā)成長(zhǎng)促進(jìn)了密集數(shù)據(jù)科技的使用。全世界共有約46億的移動(dòng)電話用戶,并有10至20億人鏈接互聯(lián)網(wǎng) 。自1990年起至2005年間,全世界有超過(guò)10億人進(jìn)入中產(chǎn)階級(jí),收入的增加造成了識(shí)字率的提升,更進(jìn)而帶動(dòng)信息量的成長(zhǎng)。全世界通過(guò)電信網(wǎng)絡(luò)交換信息的容量在1986年為281兆億字節(jié)(PB),1993年為471兆億字節(jié),2000年時(shí)增長(zhǎng)為2.2艾字節(jié)(EB),在2007年則為65艾字節(jié) 。根據(jù)預(yù)測(cè),在2013年互聯(lián)網(wǎng)每年的信息流量將會(huì)達(dá)到667艾字節(jié) 。
相關(guān)條目
數(shù)據(jù)挖掘
數(shù)據(jù)庫(kù)
對(duì)象數(shù)據(jù)庫(kù)
關(guān)系數(shù)據(jù)庫(kù)
統(tǒng)計(jì)學(xué)
商務(wù)智能
分布式計(jì)算、分布式數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)、分布式運(yùn)算環(huán)境
超級(jí)計(jì)算機(jī)
運(yùn)籌學(xué)
MapReduce
合成作戰(zhàn)中心
延伸閱讀
Big Data for Good (PDF) . ODBMS.org. 2012-06-05 [ 2013-11-12 ] .
Hilbert, Martin; López, Priscila.The World"s Technological Capacity to Store, Communicate, and Compute Information. Science. 2011, 332 (6025): 60–65. doi:10.1126/science.1200970 . PMID 21310967 .
The Rise of Industrial Big Data. GE Intelligent Platforms. [ 2013-11-12 ] .
ISBN 978-986-320-191-5 《大數(shù)據(jù)》
ISBN 978-986-241-673-0 《云時(shí)代的殺手級(jí)應(yīng)用:Big Data海量數(shù)據(jù)分析》
IEEE Big Data Service. ODBMS.org. 2014-09-07 [ 2014-09-07 ] .
免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。
- 有價(jià)值
- 一般般
- 沒(méi)價(jià)值
{{item.userName}} 舉報(bào)
{{item.time}} {{item.replyListShow ? '收起' : '展開(kāi)'}}評(píng)論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}
{{_reply.userName}} 舉報(bào)
{{_reply.time}}