一、大數(shù)據(jù)沒(méi)那么神秘
二、數(shù)據(jù)是會(huì)說(shuō)話的
三、數(shù)據(jù)挖掘的流程
四、核心之一:領(lǐng)域?qū)<医?/p>
五、核心之二:數(shù)據(jù)采集
六、記住,大數(shù)據(jù)其實(shí)不是那么數(shù)學(xué)和計(jì)算機(jī)
七、可以的應(yīng)用
一、大數(shù)據(jù)沒(méi)那么神秘
最近一年來(lái)談大數(shù)據(jù)的很火,到處都在說(shuō)大數(shù)據(jù),各種的以大數(shù)據(jù)為名頭的會(huì)議、活動(dòng)也比比皆是,你方唱罷我登臺(tái),好不熱鬧。
有網(wǎng)友問(wèn)我,好多科技公司言必稱(chēng)自己是大數(shù)據(jù),實(shí)際情況呢?我回答:什么樣的數(shù)據(jù)叫大,是G級(jí)還是T級(jí)、E級(jí)、Z級(jí),乃至B級(jí)?這個(gè)真不好定義,既然無(wú)法定義,那么反復(fù)強(qiáng)調(diào)自己的大數(shù)據(jù),未免滑稽。據(jù)我的觀察,在必稱(chēng)自己是大數(shù)據(jù)的公司中,很多甚至連T級(jí)都達(dá)不到,我曾開(kāi)玩笑說(shuō)過(guò),一塊硬盤(pán)可以打包的數(shù)據(jù)這叫硬盤(pán)公司,對(duì)應(yīng)一個(gè)皮包可以裝載公司一切的皮包公司。
那么所謂的大數(shù)據(jù)是什么呢?我曾經(jīng)這樣批判過(guò)所謂的大數(shù)據(jù):云計(jì)算忽悠過(guò)了,大數(shù)據(jù)上了。于是全世界都是大數(shù)據(jù)了,然后領(lǐng)導(dǎo)開(kāi)會(huì),找機(jī)會(huì)撥款,又可以撈了。本來(lái)就一數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘,看看1991年定義:DataWarehouse是一個(gè)面向主題、集成的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。跟所謂云一樣,老掉牙的技術(shù),活生生包裝成新潮。所謂數(shù)據(jù)倉(cāng)庫(kù),并沒(méi)有數(shù)據(jù)量和范圍的限制。廣義的基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)由三個(gè)部件組成:數(shù)據(jù)倉(cāng)庫(kù)技術(shù),聯(lián)機(jī)分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù),目的就是為企業(yè)管理好這些海量數(shù)據(jù),進(jìn)一步發(fā)掘其內(nèi)在的價(jià)值。這跟所謂大數(shù)據(jù)概念有何區(qū)別?
很多時(shí)候,很多人提到大數(shù)據(jù),是用來(lái)唬人的,展現(xiàn)自己所謂的高深莫測(cè)。想想吧,大數(shù)據(jù)啊,普通人一輩子都接觸不到啊,他居然能輕松自如呢,牛人啊、大神??!
很多人都在宣傳,所謂大數(shù)據(jù)給相關(guān)公司帶來(lái)業(yè)績(jī)上翻天覆地的變化,而我認(rèn)為,如果不能很好地做數(shù)據(jù)挖掘的話,大數(shù)據(jù)不但不能能給相關(guān)公司帶來(lái)業(yè)績(jī)上的任何變化,反而還會(huì)因?yàn)榇罅咳哂鄶?shù)據(jù)給公司運(yùn)維帶來(lái)麻煩。數(shù)據(jù)只是死的,如果你不能從中找出有價(jià)值的內(nèi)容,再“大”也沒(méi)意義。其實(shí)數(shù)據(jù)無(wú)論大小,如果能夠很好地做數(shù)據(jù)挖掘,帶來(lái)有意思的知識(shí)發(fā)現(xiàn),都有意義。
所以說(shuō),我給大家的定義就是,大數(shù)據(jù)確實(shí)有,但是并不是那么神秘,只是數(shù)量級(jí)別不同而已。數(shù)據(jù)是體現(xiàn)現(xiàn)實(shí)的,數(shù)據(jù)挖掘也是給現(xiàn)實(shí)找方法的,所以,扯數(shù)據(jù)大小,除了數(shù)據(jù)庫(kù)管理員,真沒(méi)啥意思!

二、數(shù)據(jù)是會(huì)說(shuō)話的
接下來(lái),我們說(shuō)說(shuō)數(shù)據(jù)挖掘。很多人會(huì)問(wèn),數(shù)據(jù)挖掘能夠做什么?
有一個(gè)很多數(shù)據(jù)挖掘書(shū)籍都會(huì)提到的經(jīng)典案例:
"尿布與啤酒"的故事。在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷(xiāo)量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門(mén)店的購(gòu)買(mǎi)習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買(mǎi)的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門(mén)店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購(gòu)買(mǎi)最多的商品竟是啤酒!經(jīng)過(guò)大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買(mǎi)嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買(mǎi)一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買(mǎi)尿布,而丈夫們?cè)谫I(mǎi)尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。
看到?jīng)],這就是數(shù)據(jù)挖掘,從常人的知識(shí)外找到線索。通俗說(shuō),數(shù)據(jù)挖掘可以做到以下幾點(diǎn):
1、 找到?jīng)]有意識(shí)到的問(wèn)題
2、 找到未來(lái)發(fā)展的趨勢(shì)
3、 找到過(guò)去存在的問(wèn)題
4、 把定性的問(wèn)題定量化
5、 數(shù)據(jù)對(duì)象關(guān)聯(lián)的規(guī)則問(wèn)題
這五塊能夠產(chǎn)生的效應(yīng),我就不用廢話了吧?
愛(ài)華網(wǎng)本文地址 » http://www.klfzs.com/a/25101012/126744.html
愛(ài)華網(wǎng)



