大數(shù)據(jù)現(xiàn)在只呈現(xiàn)的是一個(gè)研究熱點(diǎn),迫切需要一種技術(shù)實(shí)現(xiàn)大數(shù)據(jù)精準(zhǔn)開發(fā)應(yīng)用。這是小編為大家整理的大數(shù)據(jù)學(xué)術(shù)論文,僅供參考!
大數(shù)據(jù)學(xué)術(shù)論文篇一
大數(shù)據(jù)技術(shù)初探
摘 要:大數(shù)據(jù)是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)后世界又一熱議的信息技術(shù),這種密集型數(shù)據(jù)爆炸現(xiàn)象的出現(xiàn),標(biāo)志著“大數(shù)據(jù)”時(shí)代的到來。文章介紹了大數(shù)據(jù)的概念,分析闡述了大數(shù)據(jù)相關(guān)技術(shù)。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)處理 相關(guān)技術(shù)
中圖分類號:TP334 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)02(a)-0048-01
“大數(shù)據(jù)”是從英語“Big Data”一詞翻譯而來的,是當(dāng)前IT界熱議和追逐的對象,是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)后世界又一熱議的信息技術(shù),發(fā)展迅速。截至2011年年底,全球互聯(lián)網(wǎng)總數(shù)據(jù)存儲(chǔ)量已達(dá)100億TB以上,并且以59%以上的年增長率遞增。麥肯錫公司在2011年的報(bào)告(Bigdata:the Next FrontierforInnovation)中,對這種密集型數(shù)據(jù)爆炸的現(xiàn)象稱為“大數(shù)據(jù)”時(shí)代的到來。大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新技術(shù),是大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。
1 大數(shù)據(jù)概念
大數(shù)據(jù)概念的前身是海量數(shù)據(jù),但兩者有很大的區(qū)別。海量數(shù)據(jù)主要強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模,對其特性并沒有特別關(guān)注。而大數(shù)據(jù)對傳播速率、體積、特征等數(shù)據(jù)的各種特性進(jìn)行了描述。目前對大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特點(diǎn)一般用“4V”概括,即:Volume:數(shù)據(jù)量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級;Variety:數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);value:數(shù)據(jù)的價(jià)值密度很低;velocity:數(shù)據(jù)產(chǎn)生和處理的速度非??臁?/p>
2 大數(shù)據(jù)相關(guān)技術(shù)
2.1 大數(shù)據(jù)處理通用技術(shù)架構(gòu)
大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程的主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各個(gè)處理環(huán)節(jié)中都可以采用并行處理。目前,MapReduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。
MapReduce分布式方法最先由谷歌設(shè)計(jì)并實(shí)現(xiàn),包括分布式文件系統(tǒng)GFS、MapReduce分布式編程環(huán)境以及分布式大規(guī)模數(shù)據(jù)庫管理系統(tǒng)Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個(gè)階段,可以進(jìn)行海量數(shù)據(jù)分割、任務(wù)分解與結(jié)果匯總,從而完成海量數(shù)據(jù)的并行處理。MapReduce的工作原理是先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成若干部分,分給多臺處理器并行處理;Reduce即“合并”,把各臺處理器處理后的結(jié)果進(jìn)行匯總操作,以得到最終結(jié)果。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù)就可以在集群上進(jìn)行大規(guī)模的分布式數(shù)據(jù)處理。MapReduce將處理任務(wù)分配到不同的處理節(jié)點(diǎn),因此具有更強(qiáng)的并行處理能力。
2.2 大數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用數(shù)據(jù)庫等方式接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù)。大數(shù)據(jù)采集的主要特點(diǎn)是并發(fā)訪問量大,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站的并發(fā)訪問量在峰值時(shí)達(dá)到上百萬,這時(shí)傳統(tǒng)的數(shù)據(jù)采集工具很容易失效。大數(shù)據(jù)采集方法主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫采集、其他數(shù)據(jù)采集等四種。
2.3 大數(shù)據(jù)分享
目前數(shù)據(jù)分享主要通過數(shù)據(jù)集市和開放數(shù)據(jù)平臺等方法實(shí)現(xiàn)。開放數(shù)據(jù)平臺可以提供涵蓋本地服務(wù)、娛樂、教育和醫(yī)療等方方面面的數(shù)據(jù)集合,用戶不但可以通過API訪問,還可以很方便地通過SDK集成到移動(dòng)應(yīng)用當(dāng)中。在線數(shù)據(jù)集市除了提供下載數(shù)據(jù)的功能外,還為用戶提供上傳和交流數(shù)據(jù)的場所。數(shù)據(jù)平臺和數(shù)據(jù)集市不但吸引有數(shù)據(jù)需求用戶,還能夠吸引很多數(shù)據(jù)開發(fā)者在平臺上進(jìn)行開發(fā)。
2.4 大數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理就是對采集的數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及檢查一致性等處理,并對數(shù)據(jù)的多種屬性進(jìn)行初步組織,從而為數(shù)據(jù)的存儲(chǔ)、分析和挖掘做好準(zhǔn)備。通常數(shù)據(jù)預(yù)處理包含三個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換和數(shù)據(jù)規(guī)約。
2.5 大數(shù)據(jù)存儲(chǔ)及管理
大數(shù)據(jù)需要行之有效的存儲(chǔ)和管理,否則人們不能處理和利用數(shù)據(jù),更不能從數(shù)據(jù)中得到有用的信息。目前,大數(shù)據(jù)的存儲(chǔ)和管理技術(shù)主要分三類:分布式文件系統(tǒng)、數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫(NoSOL)。
2.6 大數(shù)據(jù)分析及挖掘
大數(shù)據(jù)的分析和挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫等技術(shù),高度自動(dòng)化地分析大數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,從而在大數(shù)據(jù)中提取有用信息。大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的數(shù)據(jù)挖掘比較有兩個(gè)特點(diǎn):一是通常采用并行處理的方式;二是大數(shù)據(jù)分析對實(shí)時(shí)處理的要求很高,流處理等實(shí)時(shí)處理技術(shù)受到人們歡迎。常用的方法有:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別、統(tǒng)計(jì)分析、并行處理。
2.7 大數(shù)據(jù)檢索
①數(shù)據(jù)庫實(shí)時(shí)檢索:在數(shù)據(jù)倉庫或者NoSOL等大數(shù)據(jù)存儲(chǔ)平臺上,或者多個(gè)不同結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)平臺之間快速、實(shí)時(shí)地查詢和檢索不同結(jié)構(gòu)的數(shù)據(jù)。②實(shí)時(shí)搜索引擎:對互聯(lián)網(wǎng)上的大量數(shù)據(jù)和信息進(jìn)行即時(shí)、快速搜索,實(shí)現(xiàn)即搜即得的效果。目前各大搜索引擎都在致力于實(shí)時(shí)搜索的實(shí)現(xiàn)。
2.8 大數(shù)據(jù)可視化
可以提供更為清晰直觀的數(shù)據(jù)感官,將錯(cuò)綜復(fù)雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過圖片、映射關(guān)系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用,可通過數(shù)據(jù)訪問接口或商業(yè)智能門戶實(shí)現(xiàn),通過直觀的方式表達(dá)出來??梢暬c可視分析通過交互可視界面來進(jìn)行分析、推理和決策;從海量、動(dòng)態(tài)、不確定甚至相互沖突的數(shù)據(jù)中整合信息,獲取對復(fù)雜情景的更深層的理解;可供人們檢驗(yàn)已有預(yù)測,探索未知信息,同時(shí)提供快速、可檢驗(yàn)、易理解.的評估和更有效的交流手段。可視化是人們理解復(fù)雜現(xiàn)象,診釋復(fù)雜數(shù)據(jù)的重要手段和途徑。
2.9 大數(shù)據(jù)應(yīng)用
①視頻搜索;②內(nèi)容分析;③理賠分析;④社交網(wǎng)絡(luò)分析;⑤社會(huì)分析;⑥社交媒體監(jiān)控。
2.10 大數(shù)據(jù)安全
大數(shù)據(jù)技術(shù)的發(fā)展,使得人們能夠從這些數(shù)據(jù)中觀察和分析社會(huì)動(dòng)態(tài)、人群的動(dòng)作和行為、人群活動(dòng)規(guī)律以及企業(yè)的商業(yè)秘密。海量數(shù)據(jù)本身,以及數(shù)據(jù)中蘊(yùn)藏的信息涉及到國家、社會(huì)、企業(yè)和人們的隱私,這對大數(shù)據(jù)時(shí)代的信息安全提出巨大挑戰(zhàn)。因此,大數(shù)據(jù)時(shí)代需要發(fā)展信息安全技術(shù),確保關(guān)系到人們生活方方面面的數(shù)據(jù)和信息不會(huì)被泄漏。
目前除了傳統(tǒng)的信息安全方法外,大數(shù)據(jù)領(lǐng)域還有安全基礎(chǔ)設(shè)施、安全數(shù)據(jù)倉庫等。此外,一些數(shù)據(jù)庫安全管理軟件能夠?qū)Σ煌僮飨到y(tǒng)上運(yùn)行的異構(gòu)關(guān)系型數(shù)據(jù)庫進(jìn)行實(shí)時(shí)監(jiān)控,一些大型安全數(shù)據(jù)庫能夠?qū)εc商務(wù)數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進(jìn)行預(yù)防性的分析,以便識別釣魚攻擊,防止詐騙和阻止黑客入侵。
大數(shù)據(jù)學(xué)術(shù)論文篇二
大數(shù)據(jù)技術(shù)研究
摘 要: 大數(shù)據(jù)技術(shù)是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)之后IT業(yè)界又一次技術(shù)浪潮。為了全面深入地理解大數(shù)據(jù)技術(shù)的內(nèi)涵,從大數(shù)據(jù)的定義及4V特征、關(guān)鍵技術(shù)及主要應(yīng)用領(lǐng)域等四個(gè)方面進(jìn)行闡述。介紹了大數(shù)據(jù)的基本概念、特征,總結(jié)了大數(shù)據(jù)的熱門應(yīng)用領(lǐng)域并用典型案例進(jìn)行佐證,重點(diǎn)剖析了云計(jì)算、Hadoop、數(shù)據(jù)備份等三大核心技術(shù)及關(guān)鍵策略,最后對大數(shù)據(jù)應(yīng)用中滋生的信息安全隱患提出了相應(yīng)的對策。
關(guān)鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計(jì)算
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2015)01-13-02
Overview on big data technology

Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計(jì)算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時(shí)代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價(jià)值信息的技術(shù),大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術(shù)。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復(fù)雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實(shí)際生產(chǎn)、生活中的各種問題,從而推動(dòng)信息技術(shù)健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學(xué)科一樣,目前大數(shù)據(jù)沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)和定義。一般認(rèn)為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價(jià)值的信息,并為人們帶來經(jīng)濟(jì)及社會(huì)效益的一門新興學(xué)科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時(shí)間內(nèi)通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲(chǔ)量大,計(jì)算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價(jià)值Value,是指大數(shù)據(jù)價(jià)值密度相對較低,信息海量,但是要挖掘出真正有價(jià)值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。
2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域
通過對海量數(shù)據(jù)進(jìn)行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對經(jīng)濟(jì)建設(shè)、醫(yī)療教育、科學(xué)研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來的巨大使用價(jià)值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領(lǐng)域
大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財(cái)保險(xiǎn)產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲(chǔ)了大量微小企業(yè)客戶及數(shù)以億計(jì)的個(gè)人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個(gè)人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。
2.2 市場營銷
今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準(zhǔn)定位及個(gè)性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點(diǎn)擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項(xiàng)巨大的潛在價(jià)值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費(fèi)軟件,用戶使用這些軟件時(shí),無形中就把個(gè)人的喜好、消費(fèi)習(xí)慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準(zhǔn),廣告所攫取的價(jià)值就越高,這是正向的循環(huán)。 2.3 公眾服務(wù)
大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預(yù)測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時(shí)間序列的支持向量機(jī)方法來預(yù)測地震的大概方位、時(shí)間、震級大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對地震進(jìn)行早期預(yù)警,以使防震抗災(zāi)部門可以提前做好應(yīng)對措施,避免大量的人員傷亡及財(cái)產(chǎn)損失;再如,將各個(gè)省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫,實(shí)現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實(shí)現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測與控制,包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測等,并通過數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實(shí)現(xiàn)更科學(xué)的電力需求分配管理。
2.4 安防領(lǐng)域
安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠(yuǎn)、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時(shí)代的到來,會(huì)產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控?cái)?shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點(diǎn)。在大數(shù)據(jù)技術(shù)的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實(shí)現(xiàn)模糊查詢、精準(zhǔn)定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進(jìn)行細(xì)節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準(zhǔn)依據(jù)。
3 大數(shù)據(jù)處理關(guān)鍵技術(shù)
3.1 數(shù)據(jù)備份技術(shù)
在大數(shù)據(jù)時(shí)代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當(dāng)出現(xiàn)某種突發(fā)狀況導(dǎo)致存儲(chǔ)系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴(yán)重?fù)p壞時(shí),系統(tǒng)可準(zhǔn)確而快速地將數(shù)據(jù)進(jìn)行恢復(fù)的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護(hù)手段,其核心工作是數(shù)據(jù)恢復(fù),根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時(shí)代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴(kuò)展的需求。為了給大數(shù)據(jù)處理、分析提供一個(gè)性能更好、可靠性更高的平臺,Apache基金會(huì)開發(fā)了一個(gè)開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強(qiáng),現(xiàn)在Hadoop已經(jīng)發(fā)展為一個(gè)包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺。
3.3 云計(jì)算
如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運(yùn)行的高速公路就是云計(jì)算,云計(jì)算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計(jì)算在海量信息存儲(chǔ)、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺都是基于云計(jì)算,最典型的就是以UFS(UIT云存儲(chǔ)系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop[5]。
4 大數(shù)據(jù)應(yīng)用帶來的信息安全隱患及應(yīng)對策略
大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)通常存儲(chǔ)在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點(diǎn)中,管理相對分散,而且系統(tǒng)也無法控制用戶進(jìn)行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導(dǎo)致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲(chǔ)系統(tǒng)中包含了海量的個(gè)人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個(gè)信息保護(hù)和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風(fēng)險(xiǎn),我們提出以下四點(diǎn)建議:
⑴ 國家出臺相關(guān)政策,加強(qiáng)頂層設(shè)計(jì),保障數(shù)據(jù)存儲(chǔ)安全;
⑵ 增強(qiáng)網(wǎng)絡(luò)安全防護(hù)能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;
⑶ 提高警惕積極探索,加大個(gè)人隱私數(shù)據(jù)保護(hù)力度;
⑷ 深化云計(jì)算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。
5 結(jié)束語
在當(dāng)今信息知識爆炸的時(shí)代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,相關(guān)信息行業(yè)競相從規(guī)模龐大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)海洋中攫取更多有價(jià)值的數(shù)據(jù)信息用于分析、解決現(xiàn)實(shí)生活中的各種實(shí)際問題,從而實(shí)現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來的諸如信息竊取及篡改、個(gè)人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當(dāng)然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲(chǔ)管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設(shè)計(jì)來解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術(shù)的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻(xiàn):
[1] BARWICK H. The "four Vs" of big data. Implementing Information Infrastructure Symposium[EB/OL]. [2012-10-02]. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時(shí)代金融,2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計(jì)算的區(qū)域醫(yī)療信息化服務(wù)平臺的研究[J].計(jì)算機(jī)科學(xué),2013.40(10):360-365
[4] Hadoop [EB/OL].[2012-10-02].http://hadoop.apache.orq.
[5] 吳朱華.云計(jì)算核心技術(shù)剖析[M].人民郵電出版社,2011.
愛華網(wǎng)本文地址 » http://www.klfzs.com/a/207161/277199745.html
愛華網(wǎng)



