在發(fā)展歷程上,大數(shù)據(jù)與云計(jì)算很類似,開始都搞不清是什么概念,但有很多人在說,難免南轅北轍。一個(gè)非常有趣現(xiàn)象:會(huì)有很多人說大數(shù)據(jù)不是什么,但很少有人說是什么。但這都不妨礙大數(shù)據(jù)成為產(chǎn)業(yè)發(fā)展趨勢(shì)。
當(dāng)務(wù)之急是不糾纏于概念,直接關(guān)注有哪些應(yīng)用可以落地,可以采用哪些大數(shù)據(jù)技術(shù)。
技術(shù)三分天下
傳統(tǒng)數(shù)據(jù)處理技術(shù)以數(shù)據(jù)庫技術(shù)為主,主要應(yīng)用在聯(lián)機(jī)事物處理(OLTP)的應(yīng)用場(chǎng)合,后來的數(shù)據(jù)倉庫、數(shù)據(jù)集市都是數(shù)據(jù)庫技術(shù)的發(fā)展和延伸。數(shù)據(jù)庫技術(shù)已經(jīng)有30年的歷史,可以將其概括為一句話“一種架構(gòu)支持所有應(yīng)用”。數(shù)據(jù)庫技術(shù)以結(jié)構(gòu)化數(shù)據(jù)為主,而結(jié)構(gòu)化數(shù)據(jù)也是價(jià)值密度最高的數(shù)據(jù)。而半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)價(jià)值密度相對(duì)比較低,如果采用傳統(tǒng)數(shù)據(jù)庫技術(shù)處理這些數(shù)據(jù),會(huì)被認(rèn)為得不償失。
大數(shù)據(jù)時(shí)代,以Hadoop為代表的NoSQL技術(shù),以列式數(shù)據(jù)處理為代表的MPP NewSQL技術(shù)應(yīng)運(yùn)而生,為半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)提供了技術(shù)支撐基礎(chǔ),以互聯(lián)網(wǎng)企業(yè)為代表,創(chuàng)造了各種新的商業(yè)模式,也開啟了大數(shù)據(jù)應(yīng)用的時(shí)代。
在大數(shù)據(jù)時(shí)代,對(duì)于分析類應(yīng)用的需求不斷增加,特別對(duì)于傳統(tǒng)行業(yè)/企業(yè),大數(shù)據(jù)分析需求首先包括結(jié)構(gòu)化數(shù)據(jù),這已經(jīng)分析了30多年,如今結(jié)構(gòu)化數(shù)據(jù)分析需要與各種半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)分析相結(jié)合,用全數(shù)據(jù)的視野,指導(dǎo)行業(yè)/企業(yè)的業(yè)務(wù)應(yīng)用和實(shí)踐。這就導(dǎo)致一種架構(gòu)難以完全滿足大數(shù)據(jù)的需求,“多種架構(gòu)支持多類應(yīng)用”就成為了大數(shù)據(jù)處理應(yīng)用的基本思路,出現(xiàn)了OldSQL、NewSQL和NoSQL三分天下的市場(chǎng)格局。
混搭或?qū)⒉豢杀苊?br />
大數(shù)據(jù)應(yīng)用采用多種架構(gòu)支撐不可避免。據(jù)中國移動(dòng)業(yè)務(wù)支撐系統(tǒng)部高級(jí)工程師何鴻凌介紹,中國移動(dòng)就采用了MPP和Hadoop混搭架構(gòu),配合原有數(shù)據(jù)倉系統(tǒng),開展大數(shù)據(jù)的應(yīng)用。其中,傳統(tǒng)DW(數(shù)據(jù)倉庫)做高價(jià)值數(shù)據(jù),也就是結(jié)構(gòu)化數(shù)據(jù)的加工,MPP做長期結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和自助分析,Hadoop用于非結(jié)構(gòu)化數(shù)據(jù)處理、挖掘和歷史存儲(chǔ)。
何鴻凌表示,MPP是將傳統(tǒng)分布式數(shù)據(jù)庫的理論運(yùn)行在X86上的實(shí)踐,用列存、內(nèi)存和副本等進(jìn)行了優(yōu)化。MPP基本可以替代傳統(tǒng)DW,但在大數(shù)據(jù)時(shí)代,還是有挑戰(zhàn)。那就是由于它精確地進(jìn)行數(shù)據(jù)分布的原因,可擴(kuò)展性和高可用比較難以達(dá)到。按照CAP理論,一種系統(tǒng)不可能什么都追求。因此國內(nèi)較大的MPP集群也就幾十個(gè)節(jié)點(diǎn),國際上可以看到100~200節(jié)點(diǎn)的集群。根據(jù)中國移動(dòng)數(shù)據(jù)處理得需求,起碼也需要300~400個(gè)節(jié)點(diǎn)。
“大數(shù)據(jù)主要是要應(yīng)用,而現(xiàn)在很多的應(yīng)用都不是由IT開發(fā)的,是自助的,這就需要MPP中要提供沙盒,讓業(yè)務(wù)部門或第三方能自助地分析和開發(fā)。我們當(dāng)然不希望每個(gè)沙盒都是物理的MPP集群,這樣不僅安裝維護(hù)復(fù)雜,而且會(huì)造成數(shù)據(jù)重復(fù)。所以我們希望的是讓MPP的能力像云計(jì)算那樣對(duì)外提供按需服務(wù),實(shí)現(xiàn)虛擬化?!彼f。
談到Hadoop,中國移動(dòng)認(rèn)為Hbase和HDFS很好,但Map/Reduce使用起來需要一些技術(shù)能力,Hadoop 2.0中Map/Reduce已經(jīng)不再是唯一的執(zhí)行框架,而縮減為Yarn框架下的一個(gè)應(yīng)用了。對(duì)于Hadooperyan,其優(yōu)勢(shì)在于數(shù)據(jù)處理的成本,較之?dāng)?shù)據(jù)倉庫內(nèi)廉價(jià)很多,但在效率上還有差距,這是其數(shù)據(jù)分布策略所造成所的,這也是為什么中國移動(dòng)還要選擇MPP進(jìn)行混搭因。

Hadoop技術(shù)難點(diǎn)主要是在Map/Reduce、各個(gè)作業(yè)之間都需要落地到HDFS上,這個(gè)效率會(huì)很差,而且沒有全局優(yōu)化。Spark解決了這些問題,包括用內(nèi)存緩存、流水線和全局優(yōu)化,因此中國移動(dòng)用Spark作為處理引擎。據(jù)了解,中國移動(dòng)準(zhǔn)備將長期數(shù)據(jù)放到Hadoop上做自助查詢,既能縮小MPP的規(guī)模,也能降低成本,當(dāng)然這樣的查詢效率就不如在MPP上了。
大數(shù)據(jù)應(yīng)用落地情況
混搭也好,多種模式也好,運(yùn)用這些框架和技術(shù)手段的大數(shù)據(jù)應(yīng)用,究竟會(huì)對(duì)現(xiàn)有模式產(chǎn)生哪些影響呢?大數(shù)據(jù)應(yīng)用又是怎么樣落地接地氣的呢?也許中國移動(dòng)的大數(shù)據(jù)應(yīng)用實(shí)踐會(huì)給我們一些啟示。
總結(jié)來看,中國移動(dòng)大數(shù)據(jù)應(yīng)用有三個(gè)方面:一是讓中國移動(dòng)現(xiàn)有商業(yè)模式更加有競(jìng)爭(zhēng)力;二是發(fā)掘新的商業(yè)模式,讓別的行業(yè)運(yùn)轉(zhuǎn)更順暢;三是承擔(dān)社會(huì)責(zé)任發(fā)揮大數(shù)據(jù)社會(huì)價(jià)值。
實(shí)際上,在大數(shù)據(jù)被熱炒之前,中國移動(dòng)DW/BI系統(tǒng)運(yùn)轉(zhuǎn)已經(jīng)有十多年時(shí)間,主要用于客戶洞察、市場(chǎng)營銷、客戶服務(wù)和運(yùn)營管理四個(gè)方面。大數(shù)據(jù)應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)的引入,讓這些應(yīng)用更加深入。以客戶洞察為例,多種類型的數(shù)據(jù)(如消費(fèi)、通話、位置、瀏覽、使用)等數(shù)據(jù),借助各種算法(如分類、聚類、標(biāo)簽、RFM、Pagerank),通過分析就形成了360度的客戶視圖,就是利用各種聯(lián)系記錄形成社交網(wǎng)絡(luò),發(fā)現(xiàn)客戶的各種圈子,通過分析影響力,尋找關(guān)鍵人員,識(shí)別家庭和政企客戶,用來發(fā)現(xiàn)重入網(wǎng)客戶,發(fā)現(xiàn)關(guān)鍵客戶的異動(dòng)情況。
2013年中國移動(dòng)銷售了1.5億部終端,讓TD-SCDMA芯片躋身主流行列。2014年,中國移動(dòng)的目標(biāo)是2.3億部,導(dǎo)致各個(gè)公司壓力都很大。要完成這樣一個(gè)目標(biāo),一般來說有幾種方法,最霸道的就是貼營銷成本了,可謂無往而不利。但這種霸道的做法隨著中國移動(dòng)利潤率的下降,越來越不被采用,而大數(shù)據(jù)營銷開始被倚重,方法是分析用戶的終端偏好和消費(fèi)能力,捉住終端機(jī)生命周期到期、合約機(jī)期滿等時(shí)機(jī),幾乎不消耗營銷成本就可以完成定制機(jī)銷售任務(wù)。
大數(shù)據(jù)應(yīng)用在發(fā)揮社會(huì)價(jià)值方面同樣大有可為,如北京市旅游局所發(fā)布的景點(diǎn)舒適指數(shù),賣場(chǎng)為零售商提供能夠顧客來源、商鋪、展位人流情況,以及高速公路、交通擁塞和故判斷,這些都有大數(shù)據(jù)應(yīng)用和分析的功勞。
大數(shù)據(jù)應(yīng)用加速發(fā)展的關(guān)鍵因素
加速大數(shù)據(jù)應(yīng)用的發(fā)展很重要的一個(gè)因素就是要轉(zhuǎn)變觀念。根據(jù)中國移動(dòng)的經(jīng)驗(yàn),應(yīng)該確立幾個(gè)原則:一是利用大數(shù)據(jù)技術(shù),竭盡可能收集整理數(shù)據(jù),竭盡可能關(guān)聯(lián)數(shù)據(jù),竭盡可能保存數(shù)據(jù),將數(shù)據(jù)視作企業(yè)核心資產(chǎn)。二是充分發(fā)揮大數(shù)據(jù)價(jià)值,竭盡可能使得現(xiàn)有商業(yè)模式更加具有競(jìng)爭(zhēng)力;竭盡可能發(fā)掘新的商務(wù)模式,直接將數(shù)據(jù)變成價(jià)值。
愛華網(wǎng)


