時間:2023-03-21 17:16:41
導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇大數(shù)據(jù)技術(shù),它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價值信息的技術(shù),大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術(shù)。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復(fù)雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實際生產(chǎn)、生活中的各種問題,從而推動信息技術(shù)健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學(xué)科一樣,目前大數(shù)據(jù)沒有一個統(tǒng)一的標(biāo)準(zhǔn)和定義。一般認(rèn)為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價值的信息,并為人們帶來經(jīng)濟及社會效益的一門新興學(xué)科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內(nèi)通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲量大,計算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數(shù)據(jù)價值密度相對較低,信息海量,但是要挖掘出真正有價值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。
2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域
通過對海量數(shù)據(jù)進行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對經(jīng)濟建設(shè)、醫(yī)療教育、科學(xué)研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領(lǐng)域
大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財保險產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲了大量微小企業(yè)客戶及數(shù)以億計的個人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。
2.2 市場營銷
今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準(zhǔn)定位及個性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習(xí)慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準(zhǔn),廣告所攫取的價值就越高,這是正向的循環(huán)。
2.3 公眾服務(wù)
大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預(yù)測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時間序列的支持向量機方法來預(yù)測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對地震進行早期預(yù)警,以使防震抗災(zāi)部門可以提前做好應(yīng)對措施,避免大量的人員傷亡及財產(chǎn)損失;再如,將各個省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫,實現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測與控制,包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測等,并通過數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實現(xiàn)更科學(xué)的電力需求分配管理。
2.4 安防領(lǐng)域
安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時代的到來,會產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控數(shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點。在大數(shù)據(jù)技術(shù)的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實現(xiàn)模糊查詢、精準(zhǔn)定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進行細(xì)節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準(zhǔn)依據(jù)。
3 大數(shù)據(jù)處理關(guān)鍵技術(shù)
3.1 數(shù)據(jù)備份技術(shù)
在大數(shù)據(jù)時代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當(dāng)出現(xiàn)某種突發(fā)狀況導(dǎo)致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴(yán)重?fù)p壞時,系統(tǒng)可準(zhǔn)確而快速地將數(shù)據(jù)進行恢復(fù)的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護手段,其核心工作是數(shù)據(jù)恢復(fù),根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴展的需求。為了給大數(shù)據(jù)處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發(fā)了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺。
3.3 云計算
如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop[5]。
4 大數(shù)據(jù)應(yīng)用帶來的信息安全隱患及應(yīng)對策略
大數(shù)據(jù)時代,海量數(shù)據(jù)通常存儲在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點中,管理相對分散,而且系統(tǒng)也無法控制用戶進行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導(dǎo)致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲系統(tǒng)中包含了海量的個人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個信息保護和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風(fēng)險,我們提出以下四點建議:
⑴ 國家出臺相關(guān)政策,加強頂層設(shè)計,保障數(shù)據(jù)存儲安全;
⑵ 增強網(wǎng)絡(luò)安全防護能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;
⑶ 提高警惕積極探索,加大個人隱私數(shù)據(jù)保護力度;
⑷ 深化云計算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。
5 結(jié)束語
在當(dāng)今信息知識爆炸的時代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進步,相關(guān)信息行業(yè)競相從規(guī)模龐大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)海洋中攫取更多有價值的數(shù)據(jù)信息用于分析、解決現(xiàn)實生活中的各種實際問題,從而實現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來的諸如信息竊取及篡改、個人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當(dāng)然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設(shè)計來解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術(shù)的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區(qū)域醫(yī)療信息化服務(wù)平臺的研
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數(shù)據(jù)時代數(shù)據(jù)挖掘的重要性
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計,到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時代已經(jīng)到來。一方面,云計算為這些海量的、多樣化的數(shù)據(jù)提供存儲和運算平臺,同時數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計,儲戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。
數(shù)據(jù)挖掘是借助IT手段對經(jīng)營決策產(chǎn)生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數(shù)據(jù)集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘技術(shù)從開始的單一門類的知識逐漸發(fā)展成為一門綜合性的多學(xué)科知識,并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現(xiàn)對數(shù)據(jù)挖掘技術(shù)進行如下幾種分類:
2.1 按挖掘的數(shù)據(jù)庫類型分類
利用數(shù)據(jù)庫對數(shù)據(jù)分類成為可能是因為數(shù)據(jù)庫在對數(shù)據(jù)儲存時就可以對數(shù)據(jù)按照其類型、模型以及應(yīng)用場景的不同來進行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時也會有滿足自身的方法。對數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關(guān)系型、對象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉庫型等,后者包括時間型、空間型和Web 型的數(shù)據(jù)挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測及離群點分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對其進行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時可以將數(shù)據(jù)分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數(shù)據(jù)挖掘可以實現(xiàn)對多個抽象層數(shù)據(jù)的挖掘,找到其有價值的知識。同時,在對數(shù)據(jù)挖掘進行分類時還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過對其概念描述和聚類分類、預(yù)測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術(shù)類型分類
數(shù)據(jù)挖掘的時候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時用戶在對數(shù)據(jù)進行分析時也會使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。
2.4 按應(yīng)用分類
根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來進行分類,包括財經(jīng)行業(yè)、交通運輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對于特定的應(yīng)用場景,此時就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。
3 數(shù)據(jù)挖掘中常用的方法
目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機理發(fā)展而來,是一種隨機搜索的算法,利用仿生學(xué)的原理來對數(shù)據(jù)知識進行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點從而在數(shù)據(jù)挖掘中得到了應(yīng)用。
決策樹算法:在對模型的預(yù)測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強。
粗糙集算法:這個算法將知識的理解視為對數(shù)據(jù)的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準(zhǔn)確的知識進行類別同時進行類別刻畫。
神經(jīng)網(wǎng)絡(luò)算法:在對模型的預(yù)測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強。光纜監(jiān)測及其故障診斷系統(tǒng)對于保證通信的順利至關(guān)重要,同時這種技術(shù)方法也是順應(yīng)當(dāng)今時代的潮流必須推廣使用的方法。同時,該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。
參考文獻
中圖分類號:TP311.13
關(guān)于數(shù)據(jù)方面的新名詞是層出不窮,云計算、物聯(lián)網(wǎng)的概念還沒有完全理解,大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中,特別是今年“兩會”期間,在央視報道中,多次使用大數(shù)據(jù)進行實時分析。大數(shù)據(jù)的概念從計算機業(yè)界也迅速傳播到各行各業(yè),與我們的日常生活也密切的聯(lián)系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動“大數(shù)據(jù)研究與開發(fā)計劃”,【1】大力推動大數(shù)據(jù)相關(guān)的收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數(shù)據(jù)”技術(shù)上升到國家安全戰(zhàn)略的高度。其他國家也紛紛加大對大數(shù)據(jù)研究的資金投入,同時,許多大公司企業(yè)也將此技術(shù)視作創(chuàng)新前沿。
1 大數(shù)據(jù)概念與特征
但是,到目前為止,業(yè)界關(guān)于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應(yīng)用于IT環(huán)境的是著名的咨詢公司麥肯錫,它關(guān)于大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合。另外,被引用較多得到大家認(rèn)可的還有維基百科的定義:大數(shù)據(jù)指數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)集合,現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的數(shù)據(jù)處理應(yīng)用難以對其進行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲、搜索、共享、傳遞、分析與可視化等。【2】
當(dāng)前,較為統(tǒng)一的認(rèn)識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。【3】
首先,數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征,大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級為存儲單位的,數(shù)據(jù)量非常龐大。同時,此類數(shù)據(jù)還在不斷的加速產(chǎn)生,因此,傳統(tǒng)的數(shù)據(jù)庫管理技術(shù)無法在短時間內(nèi)完成對數(shù)據(jù)的處理。第二,數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)的數(shù)據(jù)類型種類繁多,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫技術(shù)采取關(guān)系型數(shù)據(jù)庫較多,結(jié)構(gòu)單一,而大數(shù)據(jù)重點關(guān)注的是包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫技術(shù)不能適應(yīng)新的大數(shù)據(jù)的要求,傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三,大數(shù)據(jù)的產(chǎn)生與存儲是動態(tài)的,有的處理結(jié)果時效性要求很高,這就要求對數(shù)據(jù)能夠快速處理,數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉庫的主要因素。數(shù)據(jù)產(chǎn)生的速度以及快速變化形成的數(shù)據(jù)流,超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后,數(shù)據(jù)價值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析,保留了數(shù)據(jù)的全貌,因此一個事件的全部數(shù)據(jù)都會被保存,產(chǎn)生的數(shù)據(jù)量激增,而有用的信息可能非常少,因此價值密度偏低。
2 大數(shù)據(jù)可用性的面臨的技術(shù)與問題
大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強企業(yè)生產(chǎn)能力和競爭能力的機會,能夠給企業(yè)帶來巨大的潛在商業(yè)價值?!?】但不可否認(rèn)的是,大數(shù)據(jù)目前也面臨很多負(fù)面影響。低質(zhì)量低密度的數(shù)據(jù)也可能對決策造成致命性的錯誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應(yīng)用的轉(zhuǎn)變,還面臨很多問題與挑戰(zhàn)。
(1)可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評估數(shù)據(jù)可用性、數(shù)據(jù)錯誤自動發(fā)現(xiàn)和修復(fù)依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構(gòu)建統(tǒng)一的模型,為大數(shù)據(jù)的進一步應(yīng)用提供堅實的理論基礎(chǔ)。
(2)高質(zhì)量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術(shù)最基礎(chǔ)的對象就是數(shù)據(jù),是一切應(yīng)用和分析決策的前提。因此,獲取高質(zhì)量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網(wǎng)的數(shù)據(jù)不斷增大,物聯(lián)網(wǎng)的興起以及復(fù)雜物理信息系統(tǒng)的應(yīng)用,大數(shù)據(jù)的來源也多種多樣,數(shù)據(jù)模型千差萬別,質(zhì)量也參差不齊,這就為加工整合數(shù)據(jù)帶來非常大的困難。
大數(shù)據(jù)是對事物最原始的全貌記錄,數(shù)據(jù)量規(guī)模很大,但是其中有用的信息非常少,因此,對于處理數(shù)據(jù)來說,數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關(guān)鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯誤數(shù)據(jù),對分析結(jié)果可能不會造成很大的影響。但是如果對錯誤數(shù)據(jù)沒有有效控制的話,大量錯誤數(shù)據(jù)的涌入很可能會得到完全錯誤的結(jié)果。
因此,獲取高質(zhì)量數(shù)據(jù)的能力是大數(shù)據(jù)能否進行實用的關(guān)鍵因素,否則只會在浪費人力物力后獲得完全無效甚至錯誤的結(jié)果。但是目前還缺乏系統(tǒng)的研究,對于出現(xiàn)的問題還沒有很好的解決方案,在獲取數(shù)據(jù)方面的工作任重而道遠。
1、大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)的應(yīng)用技術(shù),涵蓋各類大數(shù)據(jù)平臺、大數(shù)據(jù)指數(shù)體系等大數(shù)據(jù)應(yīng)用技術(shù)。
2、大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
3、隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。分析師團隊認(rèn)為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。
4、大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
(來源:文章屋網(wǎng) )
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2015)09-0000-00
大數(shù)據(jù)遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),它以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務(wù)[1]。然而面對龐大的數(shù)據(jù)來獲得有價值的信息是一個巨大的挑戰(zhàn)。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數(shù)據(jù)系統(tǒng)分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應(yīng)用的不斷深入,Hadoop暴露出了它的局限性。主要體現(xiàn)在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計算效率較低,尤其在機器學(xué)習(xí)和圖形計算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術(shù)較好地解決了這些問題。
1 Spark技術(shù)架構(gòu)
1.1 Spark設(shè)計思想
Spark是一種基于HDFS的并行計算架構(gòu)。主要思想是通過一種新的作業(yè)和數(shù)據(jù)容錯方式來減少磁盤和網(wǎng)絡(luò)的I/O開銷 其核心技術(shù)是彈性分布式數(shù)據(jù)集(RDD),是指在一組存儲計算機中的只讀數(shù)據(jù)集合,這個數(shù)據(jù)集合可以在分區(qū)對象丟失后進行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質(zhì)中,相反,一個RDD的處理進程包含了如何從可靠的數(shù)據(jù)存儲中去獲取足夠的信息來對這個RDD進行處理。如果RDDS的任務(wù)節(jié)點失敗,總可以進行重建[3]。
1.2 Spark系統(tǒng)架構(gòu)
與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強大的內(nèi)存計算模型,使得用戶可以通過編程將數(shù)據(jù)讀取到集群的內(nèi)存當(dāng)中,這樣可以快速在內(nèi)存中對數(shù)據(jù)集進行多次迭代,支持復(fù)雜的數(shù)據(jù)挖掘算法和圖計算算法使用Scala語言開發(fā),以Mesos作為底層的調(diào)度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進行計算并把結(jié)果寫回HDFS或S3,是Hadoop和Amazon云計算生態(tài)圈的一部分,項目的core部分代碼只有63個Scala文件,執(zhí)行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關(guān)系型數(shù)據(jù)庫系統(tǒng)(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執(zhí)行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。
2 Spark運行模式
2.1 Spark任務(wù)調(diào)度方式
Spark的運行模式有多種,主要由SparkContext的MASTER環(huán)境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運行都以Spark-Context為總調(diào)度驅(qū)動程序,負(fù)責(zé)應(yīng)用程序的資源分配,期間分別創(chuàng)建作業(yè)調(diào)度和任務(wù)調(diào)度兩級模塊。作業(yè)調(diào)度模塊是基于階段的高層調(diào)度模塊,每個Spark 作業(yè)計算通常有多個階段,每個階段分解為一組任務(wù)集,以任務(wù)組的形式提交給底層任務(wù)調(diào)度模塊來具體執(zhí)行實際計算任務(wù),任務(wù)調(diào)度模塊負(fù)責(zé)啟動實際任務(wù),監(jiān)控和匯報任務(wù)運行情況。如果分配任務(wù)成功,SparkContext會將應(yīng)用程序代碼給指定的執(zhí)行者完成一個或多個任務(wù)[4]。
2.2 Spark運行模式類型
Spark的運行模式,歸納起來有六種。
(1)Local[M]。該模式使用 LocalBackend 調(diào)用TaskSchedulerImpl 實現(xiàn)。LocalBackend 響應(yīng)Scheduler的receiveOffers請求,根據(jù)可用CPU Core的設(shè)定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運行Scheduler返回的任務(wù)列表。
(2)Standalone。該模式使用SparkDeploySchedulerBackend調(diào)用TaskSchedulerImpl來實現(xiàn) ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實現(xiàn)的粗粒度的資源調(diào)度類,在整個Spark Job運行期間,監(jiān)聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態(tài)更新,響應(yīng)Scheduler請求等,并且根據(jù)現(xiàn)有Executor資源發(fā)起任務(wù)流程調(diào)度。
(3)Local-cluster。偽分布模式實際上是在Standalone模式上實現(xiàn)的,也就是在SparkContext初始化的過程中在本地啟動一個單機的偽分布Spark集群,后面的執(zhí)行流程與Standalone模式相同。
(4)Mesos。該模式主要根據(jù)顆粒度大小來區(qū)分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實現(xiàn)MScheduler接口,注冊到Mesos資源調(diào)度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠程啟動CoarseGrainedExecutorBackend,以后的任務(wù)交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細(xì)粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實現(xiàn)了MScheduler接口,完成Mesos資源調(diào)度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠程Executor,通過在遠程執(zhí)行命令來啟動MesosExecutorBackend,直接執(zhí)行對應(yīng)的任務(wù)。
(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應(yīng)用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據(jù)Client傳遞過來的參數(shù),Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務(wù)調(diào)度流程跟其它Cluster模式類似,不再述說。
(6)Yarn-client。該模式的SparkContext運行在本地,適用于應(yīng)用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調(diào)用客戶端包遠程啟動一個作業(yè)作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負(fù)責(zé)啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進行數(shù)據(jù)傳遞,后面的任務(wù)調(diào)度流程跟其它模式類似。
3 Spark應(yīng)用現(xiàn)狀及發(fā)展
目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機器學(xué)習(xí)、NoSQL查詢等方面的技術(shù),并且是Apache頂級項目。雖然Spark對內(nèi)存要求較高,推出時間較短未經(jīng)過實踐考驗,但伴隨著大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)的逐步成熟,繼Hadoop之后,Spark技術(shù)以集大成的無可比擬的優(yōu)勢,發(fā)展迅速,將成為替代Hadoop的下一代云計算、大數(shù)據(jù)核心技術(shù)??梢灶A(yù)計2015年下半年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。
參考文獻
[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.
[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.
[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.
1.1什么是大數(shù)據(jù)
大數(shù)據(jù)概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多(Complexity)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計算框架將復(fù)雜的計算任務(wù)分配到“云”中成百上千的節(jié)點。
1.2大數(shù)據(jù)與云計算
大數(shù)據(jù)本身就是一個問題集,云計算技術(shù)是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計算提供了基礎(chǔ)的架構(gòu)平臺,大數(shù)據(jù)應(yīng)用在這個平臺上運行。目前公認(rèn)為分析大數(shù)據(jù)集最有效手段的分布式處理技術(shù),也是云計算思想的一種具體體現(xiàn)。
云計算是分布式處理、并行處理和網(wǎng)格計算的發(fā)展,或者說是這些計算機科學(xué)概念的商業(yè)實現(xiàn)。云計算將網(wǎng)絡(luò)上分布的計算、存儲、服務(wù)構(gòu)件、網(wǎng)絡(luò)軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務(wù), 實現(xiàn)了資源和計算的分布式共享和并行處理,能夠很好地應(yīng)對當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長的勢頭。
1.3大數(shù)據(jù)與Hadoop
Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個子問題,并將它們分配到成百上千個處理節(jié)點之上,再將結(jié)果匯集到一個小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。
Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數(shù)據(jù)的存儲和計算任務(wù)。這些特點讓Hadoop被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲、管理和分析數(shù)據(jù)方面遠遠超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經(jīng)常在構(gòu)建大數(shù)據(jù)解決方案時被用作基礎(chǔ)構(gòu)架軟件。
二、大數(shù)據(jù)技術(shù)綜述
大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應(yīng)用場景是需要實時分析和互動反饋的,這時候就需要利用包括內(nèi)存檢索、流處理和實時計算等其他技術(shù)。而云計算的分布式存儲和計算架構(gòu)開啟了大數(shù)據(jù)技術(shù)研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術(shù)結(jié)合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。
2.1分布式計算框架
MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,使云計算環(huán)境下的編程變得十分簡單。
MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會自動對任務(wù)進行劃分以做到并行執(zhí)行。
Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關(guān)的細(xì)節(jié),展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應(yīng)用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。
2.2分布式文件系統(tǒng)
為保證高可用、高可靠和經(jīng)濟性,基于云計算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲的方式來保存數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。
GFS即Google文件系統(tǒng),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。GFS的設(shè)計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計的,運行成本低廉,并提供容錯功能。
HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯性,并且可以被部署在低價的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結(jié)構(gòu),在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。
2.3大數(shù)據(jù)管理技術(shù)
互聯(lián)網(wǎng)數(shù)據(jù)已超出關(guān)系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標(biāo)簽(Tag)以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結(jié)構(gòu)化數(shù)據(jù)存儲的關(guān)系型數(shù)據(jù)庫已經(jīng)不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術(shù)和工具應(yīng)運而生。
2.3.1 非關(guān)系型數(shù)據(jù)庫
NoSQL,也有人理解為Not Only SQL,它是一類非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱。其特點是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關(guān)系型數(shù)據(jù)庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現(xiàn),使用HDFS作為其文件存儲系統(tǒng)。同時,Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關(guān)系型數(shù)據(jù)庫產(chǎn)品如雨后春筍般問世。
2.3.2 數(shù)據(jù)查詢工具
Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標(biāo)是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負(fù)擔(dān).它借鑒關(guān)系數(shù)據(jù)庫的模式管理、SQL接口等技術(shù),把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優(yōu)化的MapReduce任務(wù)執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。
PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺.兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。
Google Dremel是個可擴展的、交互式的即時查詢系統(tǒng),用于完成大規(guī)模查詢結(jié)構(gòu)化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結(jié)果或者是作為大規(guī)模計算的測試。
2.4實時流處理技術(shù)
伴隨著互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的步調(diào),以及業(yè)務(wù)流程的復(fù)雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構(gòu),現(xiàn)有的分布式計算架構(gòu)并不適合數(shù)據(jù)流處理。流計算強調(diào)的是數(shù)據(jù)流的形式和實時性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當(dāng)MapReduce任務(wù)啟動時,一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計算系統(tǒng)在啟動時,一般數(shù)據(jù)并沒有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結(jié)果就越有價值,這也是實時處理的價值所在。
流計算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準(zhǔn)備的時間,有數(shù)據(jù)流入就開始計算,解決了數(shù)據(jù)準(zhǔn)備和延遲的兩個問題?,F(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計算的場景。Storm是開源的分布式實時計算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進行實時計算,單機性能可達到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯特性。S4是面向流式數(shù)據(jù)和實時處理的,所以針對實時性較高的業(yè)務(wù),可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預(yù),源源不斷的數(shù)據(jù)流會被自動路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應(yīng)對,但它能比后者更快地處理數(shù)據(jù)。
三、思考與展望
以云計算為基礎(chǔ)的信息存儲、分享和挖掘手段為知識生產(chǎn)提供了工具,通過對大數(shù)據(jù)分析、預(yù)測會使得決策更為精準(zhǔn),這對媒體融合具有重要意義。
中圖分類號:TP311
文獻標(biāo)識碼:A
文章編號:1009-3044(2017)10-0025-01
數(shù)據(jù)信息作為時代的信息管理標(biāo)志其安全性必須收到更大的重視,數(shù)據(jù)信息的安全存儲系統(tǒng)尤為重要,防止信息數(shù)據(jù)的丟失的管理備份系統(tǒng)更為重要。因此能夠?qū)?shù)據(jù)信息妥善管理,保證其正常工作的技術(shù)相當(dāng)重要,但當(dāng)數(shù)據(jù)真正丟失或不可避免地出現(xiàn)問題以后能夠盡快地將其找回或者是在有效的時間內(nèi)將其完整地恢復(fù),以確保整個計算機系統(tǒng)能夠正常工作的技術(shù)更是必不可少的。
1.數(shù)據(jù)備份概念及其特點
數(shù)據(jù)備份指的是將計算機系統(tǒng)的所有數(shù)據(jù)或者是部分重要數(shù)據(jù)借助某一種或多種手段從計算機一個系統(tǒng)復(fù)制到另一個系統(tǒng),或者是從本地計算機存儲系統(tǒng)中復(fù)制到其他的存儲系統(tǒng)中。其目的就是保障系統(tǒng)可用或者是數(shù)據(jù)安全。防止由于人為的失誤或者是系統(tǒng)故障問題亦或是自然災(zāi)害等方面的原因造成系統(tǒng)數(shù)據(jù)的安全性無法保障的問題。數(shù)據(jù)備份更重要的原因是數(shù)據(jù)信息的多重保存以備不時之需。
數(shù)據(jù)備份按照備份的實現(xiàn)方式可以分為單機和網(wǎng)絡(luò)兩種備份方式,傳統(tǒng)的備份就是單機備份針對計算機本身將數(shù)據(jù)進行異地存儲,現(xiàn)代比較流行的就是網(wǎng)絡(luò)備份。這是針對整個網(wǎng)絡(luò)而言的,這種方式的備份較為復(fù)雜,是通過網(wǎng)絡(luò)備份軟件對存儲介質(zhì)和基礎(chǔ)硬件存儲設(shè)備的數(shù)據(jù)進行保存和管理。由于網(wǎng)絡(luò)備份是在網(wǎng)絡(luò)中進行數(shù)據(jù)備份的,因此也就不同于普通的傳統(tǒng)單機備份,是包含需要備份的文件數(shù)據(jù)和網(wǎng)絡(luò)系統(tǒng)中使用到的應(yīng)用程序以及系統(tǒng)參數(shù)和數(shù)據(jù)庫等內(nèi)容的。
數(shù)據(jù)備份的作用在于:一方面,在數(shù)據(jù)受到損害時對數(shù)據(jù)進行還原和恢復(fù);另一方面,數(shù)據(jù)信息的歷史性、長久保存,方便數(shù)據(jù)的歸檔。
2.數(shù)據(jù)備份存儲技術(shù)
備份換言之就是數(shù)據(jù)的再存儲,因此備份技術(shù)是存儲技術(shù)的重要內(nèi)容之一,但是數(shù)據(jù)備份存儲作為計算機系統(tǒng)技術(shù)與簡單的備份區(qū)別很大。計算機數(shù)據(jù)備份存儲技術(shù)時更為全面、完整、穩(wěn)定安全的數(shù)據(jù)信息的備份,是網(wǎng)絡(luò)系統(tǒng)高效數(shù)據(jù)存儲的,也是安全性較高的網(wǎng)絡(luò)備份。
文件存儲作為最基礎(chǔ)的數(shù)據(jù)類型是隨機存儲在硬盤上的數(shù)據(jù)片段和文檔資料,這些存儲的數(shù)據(jù)文檔、報表甚至是作為數(shù)據(jù)庫文件的應(yīng)用程序等等在存儲一定的量就會出現(xiàn)超出容量的情況因此對其的整合是必要的。這樣的整合是將存儲的各類數(shù)據(jù)或者是數(shù)據(jù)庫以一個順序和程序的形式出現(xiàn),幫助人們解決備份存儲的空間問題,技術(shù)問題以及成本問題。更能將工作人員的連續(xù)數(shù)據(jù)維護和監(jiān)控從繁重的工作中解放出來。
3.保障計算機數(shù)據(jù)網(wǎng)絡(luò)備份的安全性策略
通過網(wǎng)絡(luò)傳輸?shù)膫浞輸?shù)據(jù)在傳輸過程和傳輸路徑方面必須確保數(shù)據(jù)的安全性。若不能保證數(shù)據(jù)的安全那么一些企業(yè)的關(guān)鍵數(shù)據(jù)和重要應(yīng)用程序就會受損,甚至是失去了備份的意義。因此相比單機備份而言網(wǎng)絡(luò)備份更要確保安全傳輸和安全存儲。
首先確保備份數(shù)據(jù)的機密性。數(shù)據(jù)信息的網(wǎng)絡(luò)備份不能被非法用戶隨意獲得,因此在數(shù)據(jù)備份過程和傳輸過程中必須防止數(shù)據(jù)的機密性被破壞。一般數(shù)據(jù)備份常用的方法是加密。必須保證是數(shù)據(jù)擁有者才能使用這些數(shù)據(jù)信息,關(guān)鍵的數(shù)據(jù)信息的加密工作相比更加嚴(yán)格。數(shù)據(jù)內(nèi)容不容有失,甚至是數(shù)據(jù)的相關(guān)名稱和代碼等也不能隨便被非法進入系統(tǒng)的人獲得才是最能保障數(shù)據(jù)安全的方式。
此外,在數(shù)據(jù)網(wǎng)絡(luò)傳輸存儲之前一定要確認(rèn)接受信息一方的真實性,核實雙方信息是否匹配,一定要在雙方身份確認(rèn)之后才能對網(wǎng)絡(luò)的數(shù)據(jù)信息進行發(fā)送和接受,這樣既避免了欺詐行為又確保了網(wǎng)絡(luò)中間不可信的因素存在使數(shù)據(jù)信息遭到破壞。
其次。確保備份數(shù)據(jù)的完整性。數(shù)據(jù)備份存儲不是一個簡單的過程,數(shù)據(jù)信息是通過設(shè)備和網(wǎng)絡(luò)之間傳輸來完成備份數(shù)據(jù)存儲的。這一個成必須要保障所傳輸?shù)男畔⑼暾乇簧蟼鞫疫@些數(shù)據(jù)信息不能被其他方攔截和篡改,以破壞備份數(shù)據(jù)信息的內(nèi)容和屬性等。此外在存儲時也要保障數(shù)據(jù)信息的正確無誤完整保存。
大數(shù)據(jù)是對全球的數(shù)據(jù)量較大的一個概括,且每年的數(shù)據(jù)增長速度較快。而數(shù)據(jù)挖掘,主要是從多種模糊而又隨機、大量而又復(fù)雜且不規(guī)則的數(shù)據(jù)中,獲得有用的信息知識,從數(shù)據(jù)庫中抽絲剝繭、轉(zhuǎn)換分析,從而掌握其潛在價值與規(guī)律。所以大數(shù)據(jù)時代下的數(shù)據(jù)處理技術(shù)要求更高,要想確保數(shù)據(jù)處理成效得到提升,就必須切實加強數(shù)據(jù)挖掘技術(shù)教學(xué)工作的開展,才能更好地促進數(shù)據(jù)處理職能的轉(zhuǎn)變,提高數(shù)據(jù)處理效率,優(yōu)化學(xué)生的學(xué)習(xí)成效。以下就大數(shù)據(jù)時代下的數(shù)據(jù)挖掘技術(shù)教學(xué)做出如下分析。
1大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)教學(xué)方法分析
數(shù)據(jù)挖掘的過程實際就是對數(shù)據(jù)進行分析和處理,所以其基礎(chǔ)就在于數(shù)據(jù)的分析方法。要想確保分析方法的科學(xué)性,就必須確保所采用算法的科學(xué)性和可靠性,獲取數(shù)據(jù)潛在規(guī)律,并采取多元化的分析方法促進問題的解決和優(yōu)化。以下就幾種常見的數(shù)據(jù)分析教學(xué)方法做出簡要的說明。一是歸類法,主要是將沒有指向和不確定且抽象的數(shù)據(jù)信息予以集中,并對集中后的數(shù)據(jù)實施分類整理和編輯處理,從而確保所形成的數(shù)據(jù)源具有特征一致、表現(xiàn)相同的特點,從而為加強對其的研究提供便利。所以這一分析方法能有效的滿足各種數(shù)據(jù)信息處理。二是關(guān)聯(lián)法,由于不同數(shù)據(jù)間存在的關(guān)聯(lián)性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預(yù)先結(jié)合信息關(guān)聯(lián)的表現(xiàn),對數(shù)據(jù)關(guān)聯(lián)管理方案進行制定,從而完成基于某種目的的前提下對信息進行處理,所以其主要是在一些信息處理要求高和任務(wù)較為復(fù)雜的信息處理工作之中。三是特征法,由于數(shù)據(jù)資源的應(yīng)用范圍較廣,所以需要對其特征進行挖掘。也就是采用某一種技術(shù),將具有相同特征的數(shù)據(jù)進行集中。例如采用人工神經(jīng)網(wǎng)絡(luò)技術(shù)時,主要是對大批量復(fù)雜的數(shù)據(jù)分析,對非常復(fù)雜的模式進行抽取或者對其趨勢進行分析。而采取遺傳算法,則主要是對其他評估算法的適合度進行評估,并結(jié)合生物進化的原理,對信息數(shù)據(jù)的成長過程進行虛擬和假設(shè),從而組建出半虛擬、半真實的信息資源。再如可視化技術(shù)則是為數(shù)據(jù)挖掘提供輔助,采取多種方式對數(shù)據(jù)的挖掘進行指導(dǎo)和表達[1]。
2大數(shù)據(jù)時代數(shù)據(jù)挖掘技術(shù)教學(xué)要點的分析
2.1數(shù)據(jù)挖掘技術(shù)流程分析
在數(shù)據(jù)挖掘教學(xué)過程中,其流程主要是以下幾點:首先做好數(shù)據(jù)準(zhǔn)備工作,主要是在挖掘數(shù)據(jù)之前,就引導(dǎo)學(xué)生對目標(biāo)數(shù)據(jù)進行準(zhǔn)確的定位,在尋找和挖掘數(shù)據(jù)之前,必須知道所需數(shù)據(jù)類型,才能避免數(shù)據(jù)挖掘的盲目性。在數(shù)據(jù)準(zhǔn)備時,應(yīng)根據(jù)系統(tǒng)的提示進行操作,在數(shù)據(jù)庫中輸入檢索條件和目標(biāo),對數(shù)據(jù)信息資源進行分類和清理,以及編輯和預(yù)處理。其次是在數(shù)據(jù)挖掘過程中,由于目標(biāo)數(shù)據(jù)信息已經(jīng)被預(yù)處理,所以就需要在挖掘處理過程中將其高效正確的應(yīng)用到管理機制之中,因而數(shù)據(jù)挖掘的過程十分重要,所以必須加強對其的處理。例如在數(shù)據(jù)挖掘中,引導(dǎo)學(xué)生結(jié)合數(shù)據(jù)挖掘目標(biāo)要求,針對性的選取科學(xué)而又合適的計算和分析方法,對數(shù)據(jù)信息特征與應(yīng)用價值等進行尋找和歸納。當(dāng)然,也可以結(jié)合程序應(yīng)用的需要,對數(shù)據(jù)區(qū)域進行固定,并在固定的數(shù)據(jù)區(qū)域內(nèi)分類的挖掘數(shù)據(jù),從而得到更具深度和內(nèi)涵以及價值的數(shù)據(jù)信息資源,并就挖掘到的數(shù)據(jù)結(jié)果進行分析和解釋,從結(jié)果中將具有使用價值和意義的規(guī)律進行提取,并還原成便于理解的數(shù)據(jù)語言。最后是切實加強管理和計算等專業(yè)知識的應(yīng)用,將數(shù)據(jù)挖掘技術(shù)實施中進行的總結(jié)和提取所獲得的數(shù)據(jù)信息與評估結(jié)果在現(xiàn)實之中應(yīng)用,從而對某個思想、決策是否正確和科學(xué)進行判斷,最終體現(xiàn)出數(shù)據(jù)挖掘及時的應(yīng)用價值,在激發(fā)學(xué)生學(xué)習(xí)興趣的同時促進教學(xué)成效的提升。
2.2挖掘后的數(shù)據(jù)信息資源分析
數(shù)據(jù)信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術(shù)環(huán)節(jié)下的數(shù)據(jù)挖掘技術(shù)隨著限定條件的變化,而將數(shù)據(jù)挖掘信息應(yīng)用于技術(shù)管理和決策管理之中,從而更好地彰顯數(shù)據(jù)在經(jīng)濟活動中的物質(zhì)性質(zhì)與價值變化趨勢,并結(jié)合數(shù)據(jù)變化特點和具體的表現(xiàn)規(guī)律,從而將數(shù)據(jù)信息的基本要素、質(zhì)量特點、管理要求等展示出來,所以其表現(xiàn)的形式十分豐富。因而在數(shù)據(jù)挖掘之后的信息在職能范圍和表現(xiàn)形式方式均得到了豐富和拓展,而這也在一定程度上體現(xiàn)了網(wǎng)絡(luò)擬定目標(biāo)服務(wù)具有較強的完整性,且屬于特殊的個體物品,同時也是對傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的創(chuàng)新和發(fā)展,從而更好地滿足當(dāng)前大數(shù)據(jù)時代對信息進行數(shù)據(jù)化的處理,并對不同種類業(yè)務(wù)進行整合和優(yōu)化,從而促進數(shù)據(jù)挖掘技術(shù)服務(wù)的一體化水平。
2.3大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術(shù)的應(yīng)用必須注重信息失真的控制
數(shù)據(jù)挖掘技術(shù)的信息主要是源于大數(shù)據(jù)和社會,所以在當(dāng)前數(shù)據(jù)挖掘技術(shù)需求不斷加大的今天,為了更好地促進所挖掘數(shù)據(jù)信息的真實性,促進其個性化職能的發(fā)揮,必須在大數(shù)據(jù)背景下注重信息失真的控制,切實做好數(shù)據(jù)挖掘技術(shù)管理的各項工作。這就需要引導(dǎo)學(xué)生考慮如何確保數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)背景下的職能得到有效的發(fā)揮,盡可能地促進數(shù)據(jù)挖掘技術(shù)信息資源的升級和轉(zhuǎn)型,以大數(shù)據(jù)背景為載體,促進整個業(yè)務(wù)和技術(shù)操作流程的一體化,從而更好地將所有數(shù)據(jù)資源的消耗和變化以及管理的科學(xué)性和有效性,這樣我們就能及時的找到資源的消耗源頭,從而更好地對數(shù)據(jù)資源的消耗效益進行評價,最終促進業(yè)務(wù)流程的優(yōu)化,并結(jié)合大數(shù)據(jù)背景對數(shù)據(jù)挖掘技術(shù)的職能進行拓展,促進其外部信息與內(nèi)部信息的合作,對數(shù)據(jù)挖掘技術(shù)信息的職能進行有效的控制,才能更好地促進信息失真的控制[2]。
3數(shù)據(jù)挖掘技術(shù)在不同行業(yè)中的應(yīng)用實踐
學(xué)習(xí)的最終目的是為了更好的應(yīng)用,隨著時代的發(fā)展,數(shù)據(jù)挖掘技術(shù)將在越來越多的行業(yè)中得以應(yīng)用。這就需要高校教師引導(dǎo)學(xué)生結(jié)合實際需要強化對其的應(yīng)用。例如在市場營銷行業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用這主要是因為數(shù)據(jù)挖掘能有效的解析消費者的消費行為和消費習(xí)慣,從而利用其將銷售方式改進和優(yōu)化,最終促進產(chǎn)品銷量的提升。與此同時,通過對購物消費行為的分析,掌握客戶的忠誠度和消費意識等,從而針對性的改變營銷策略,同時還能找到更多潛在的客戶。再如在制造業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,其目的就在于對產(chǎn)品質(zhì)量進行檢驗。引導(dǎo)學(xué)生深入某企業(yè)實際,對所制造產(chǎn)品的數(shù)據(jù)進行研究,從而找出其存在的規(guī)則,并對其生產(chǎn)流程進行分析之后,對其生產(chǎn)的過程進行分析,從而更好地對生產(chǎn)質(zhì)量的影響因素進行分析,并促進其效率的提升。換言之,主要就是對各種生產(chǎn)數(shù)據(jù)進行篩選,從而得出有用的數(shù)據(jù)和知識,再采取決策樹算法進行統(tǒng)計決策,并從中選取正確決策,從而更好地對產(chǎn)品在市場中的流行程度,決定生產(chǎn)和轉(zhuǎn)型的方向。再如在教育行業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,主要是為了更好地對學(xué)習(xí)情況、教學(xué)評估和心里動向等數(shù)據(jù)進行分類和篩選,從而為學(xué)校的教學(xué)改革提供參考和支持。比如為了更好地對教學(xué)質(zhì)量進行評估,就需要對教學(xué)質(zhì)量有關(guān)項目進行整合與存儲,從而更好地促進其對教學(xué)質(zhì)量的評估,而這一過程中,就需要采取數(shù)據(jù)挖掘技術(shù)對有關(guān)教學(xué)項目中的數(shù)據(jù)進行挖掘和處理,促進其應(yīng)用成效的提升[3]。
4結(jié)語
綜上所述,在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術(shù)已經(jīng)在各行各業(yè)中得到了廣泛的應(yīng)用,所以為了更好地滿足應(yīng)用的需要,在實際教學(xué)工作中,我們必須引導(dǎo)學(xué)生切實加強對其特點的分析,并結(jié)合實際需要,切實注重數(shù)據(jù)挖掘技術(shù)的應(yīng)用,才能促進其應(yīng)用成效的提升,最終達到學(xué)以致用的目的。
作者:何智文 鄧倫丹 單位:南昌大學(xué)科學(xué)技術(shù)學(xué)院
參考文獻:
一、大數(shù)據(jù)
1.大數(shù)據(jù)產(chǎn)生的背景
大數(shù)據(jù)(Big Data),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的資訊,通常被認(rèn)為是PB或EB或更高數(shù)量級的數(shù)據(jù)。
互聯(lián)網(wǎng)絡(luò)從上世紀(jì)90年代開始,發(fā)展迅速,加快了信息傳播和共享的速度,尤其是一些社交網(wǎng)站的興起,數(shù)據(jù)量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數(shù)據(jù)鋪天蓋地。據(jù)資料顯示,上世紀(jì)90年代,互聯(lián)網(wǎng)資源不是很豐富的時代,網(wǎng)民月平均流量1MB左右,之后則快速增長,2000年后,逐漸發(fā)展為每月10MB、100MB、1GB,據(jù)估計2014年可能會達到10GB。淘寶網(wǎng)每日幾千萬筆交易,單日數(shù)據(jù)量達幾十TB,數(shù)據(jù)存儲量幾十PB,百度公司目前數(shù)據(jù)總量接近1000PB,存儲網(wǎng)頁數(shù)量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數(shù)據(jù)。
隨著技術(shù)發(fā)展,大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等等。總之,大數(shù)據(jù)存在于各行各業(yè),一個大數(shù)據(jù)的時代已經(jīng)到來。
2.大數(shù)據(jù)時代的挑戰(zhàn)
大數(shù)據(jù)特點是容量在增長、種類在增長、速度也在增長,面臨如此龐大的數(shù)據(jù)量,數(shù)據(jù)的存儲和檢索面臨著巨大挑戰(zhàn)。比如2007年時,F(xiàn)acebook使用數(shù)據(jù)倉庫存儲15個TB的數(shù)據(jù),但到了2010年,每天壓縮過的數(shù)據(jù)比過去總和還多,那時商業(yè)并行數(shù)據(jù)庫很少有超過100個節(jié)點以上的,而現(xiàn)在雅虎的Hadoop集群超過4000個節(jié)點,F(xiàn)acebook倉庫節(jié)點超過2700個。大量的數(shù)據(jù)現(xiàn)在已經(jīng)開始影響我們整個的工作、生活、甚至經(jīng)濟,如何存儲和高效利用這些數(shù)據(jù)是需要我們解決的。
二、關(guān)系數(shù)據(jù)庫
1.關(guān)系數(shù)據(jù)庫概述
關(guān)系型數(shù)據(jù)庫是支持關(guān)系模型的數(shù)據(jù)庫系統(tǒng),他是目前各類數(shù)據(jù)庫中最重要,也是使用最廣泛的數(shù)據(jù)庫系統(tǒng)。關(guān)系型數(shù)據(jù)庫從上世紀(jì)70年代誕生到現(xiàn)在經(jīng)過幾十年的發(fā)展,已經(jīng)非常成熟,目前市場上主流的數(shù)據(jù)庫都為關(guān)系型數(shù)據(jù)庫,比較知名的有Oracle數(shù)據(jù)庫、DB2、Sybase、SQL Server等等。
2.關(guān)系數(shù)據(jù)庫優(yōu)勢
關(guān)系數(shù)據(jù)庫相比其他模型的數(shù)據(jù)庫而言,有著以下優(yōu)點:
模型容易理解:關(guān)系模型中的二維表結(jié)構(gòu)非常貼近邏輯世界,相對于網(wǎng)狀、層次等其他模型來說更容易理解。
使用方便:通用的SQL語言使得操作關(guān)系型數(shù)據(jù)庫非常方便,只需使用SQL語言在邏輯層面操作數(shù)據(jù)庫,而完全不必理解其底層實現(xiàn)。
易于維護:豐富的完整性大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。
3.關(guān)系數(shù)據(jù)庫存在問題
傳統(tǒng)的關(guān)系數(shù)據(jù)庫具有不錯的性能,穩(wěn)定性高,歷經(jīng)多年發(fā)展已日臻成熟,而且使用簡單,功能強大,也積累了大量的成功案例。上世紀(jì)90年代的互聯(lián)網(wǎng)領(lǐng)域,網(wǎng)站基本都是靜態(tài)網(wǎng)頁,主要以文字為主,訪問量也不大,當(dāng)時用單個數(shù)據(jù)庫完全可以應(yīng)對??山鼛啄?,動態(tài)網(wǎng)站隨處可見,各種論壇、博克、微博異?;鸨?,在大幅度提升交流方式的同時,用戶數(shù)據(jù)量迅速增長,處理事務(wù)性的數(shù)據(jù)關(guān)系數(shù)據(jù)庫得心應(yīng)手,可面對互聯(lián)網(wǎng)的高并發(fā)、大數(shù)據(jù)量關(guān)系數(shù)據(jù)庫顯得力不從心,暴露了很多難以克服的問題:
數(shù)據(jù)庫高并發(fā)讀寫:高并發(fā)的動態(tài)網(wǎng)站數(shù)據(jù)庫并發(fā)負(fù)載非常高,往往要達到每秒上萬次甚至百萬次、千萬次的讀寫請求。關(guān)系數(shù)據(jù)庫應(yīng)付上萬次SQL查詢沒問題,但是應(yīng)付上百萬、千萬次SQL數(shù)據(jù)請求,硬盤IO就已經(jīng)無法承受了。
海量數(shù)據(jù)的高效率訪問:一般大型數(shù)據(jù)庫在百萬級的數(shù)據(jù)庫表中檢索數(shù)據(jù)可達到秒級,但面對數(shù)億條記錄的數(shù)據(jù)庫表,檢索速度效率是極其低下,難以忍受的。
數(shù)據(jù)庫可擴展性和高可用性:基于web的架構(gòu)當(dāng)中,數(shù)據(jù)庫無法通過添加更多的硬件和服務(wù)節(jié)點來擴展性能和負(fù)載能力,對于很多需要提供24小時不間斷服務(wù)的網(wǎng)站來說,數(shù)據(jù)庫系統(tǒng)升級和擴展卻只能通過停機來實現(xiàn),這無疑是一個艱難的決定。
三、NOSQL數(shù)據(jù)庫
1.NOSQL數(shù)據(jù)庫理論基礎(chǔ)
NOSQL作為新興數(shù)據(jù)庫系統(tǒng)概念,由于其具備處理海量數(shù)據(jù)的能力,近年來受到各大IT公司的追捧。Amazon、Google等大型網(wǎng)商已紛紛斥資進行研究并開發(fā)了適用的產(chǎn)品。談及NOSQL數(shù)據(jù)庫,首先應(yīng)該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。
(1)CAP理論
CAP理論由Eric Brewer在ACM PODC會議上的主題報告中提出,這個理論是NOSQL數(shù)據(jù)管理系統(tǒng)構(gòu)建的基礎(chǔ),CAP解釋為一致性(Consistency)、可用性(Availability)以及分區(qū)容忍性(Partition Tolerance)。具體描述如下:
強一致性(Consistency):系統(tǒng)在執(zhí)行過某項操作后仍然處于一致的狀態(tài)。在分布式數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)變更后所有的用戶都應(yīng)該讀取到最新的值,這樣的系統(tǒng)被認(rèn)為具有強一致性。
可用性(Availability):每一個操作都能夠在一定的時間內(nèi)返回結(jié)果?!耙欢〞r間內(nèi)”是指系統(tǒng)的結(jié)果必須在給定時間內(nèi)返回,如果超時則被認(rèn)為不可用,“返回結(jié)果”同樣非常重要,必須能提供成功或失敗的信息。
分區(qū)容錯性(Partition Tolerance):分區(qū)容錯性可以理解為系統(tǒng)在存在網(wǎng)絡(luò)分區(qū)的情況下仍然可以接受請求。
CAP是在分布式環(huán)境中設(shè)計和部署系統(tǒng)時所要考慮的三個重要的系統(tǒng)需求。根據(jù)CAP理論,數(shù)據(jù)共享系統(tǒng)只能滿足這三個特性中的兩個,不能同時滿足三個條件。因此系統(tǒng)設(shè)計者必須在這三個特性之間做出權(quán)衡。例如Amazon的Dynamo具有高可用性和分區(qū)容錯性但不支持強一致性,也就是說用戶不能立即看到其他用戶更新的內(nèi)容。
(2)BASE思想
BASE(Basically Availble),基本可用,強調(diào)數(shù)據(jù)庫的最終一致(Eventually consistent最終一致,最終數(shù)據(jù)一致就可以,而不是時時高一致),不同于傳統(tǒng)關(guān)系數(shù)據(jù)庫基于的ACID模型。
ACID特性與高性能是不兼容的。比如,在網(wǎng)店買東西,每個客戶買東西時都會通過鎖來同步數(shù)據(jù)操作,操作完成每個客戶都可以看到一致的數(shù)據(jù)。也就是說,不允許多個客戶同時買的情況。很明顯對于大多數(shù)網(wǎng)上商城,尤其是大型網(wǎng)商來說,這個方法并不適用。
BASE思想實際上是CAP理論中AP的衍伸。通過犧牲高一致性,保證高可用性和分區(qū)容忍性。BASE思想的組成有以下3個部分:基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個應(yīng)用在任意時間首先應(yīng)該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態(tài)),但最終應(yīng)該是一致(即最終一致性)的。
(3)最終一致性
數(shù)據(jù)一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數(shù)據(jù)更新;從提供者的角度,也就是服務(wù)器端,更新如何在系統(tǒng)中實現(xiàn)。
一致性可分為強一致性和弱一致性兩種:強一致性要求更新過的數(shù)據(jù)能被后續(xù)的訪問都看到,根據(jù)CAP理論,強一致性無法和可用性、分區(qū)容忍性同時實現(xiàn);弱一致性,指讀取操作能夠見到變化的數(shù)據(jù),但不是所有變化的數(shù)據(jù)。
最終一致性屬于弱一致性的一種,即存儲系統(tǒng)保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發(fā)生,不一致性取決于通信時延、系統(tǒng)負(fù)載以及復(fù)制策略中涉及的副本數(shù)。
2.NOSQL數(shù)據(jù)庫產(chǎn)品
NOSQL(Not Only SQL)數(shù)據(jù)庫是指那些非關(guān)系型的數(shù)據(jù)庫。NOSQL數(shù)據(jù)庫分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產(chǎn)品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL數(shù)據(jù)庫遵循CAP理論和BASE原則,大部分Key-Value數(shù)據(jù)庫系統(tǒng)都會根據(jù)自己的設(shè)計目的進行相應(yīng)的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。
四、結(jié)束語
本文首先介紹了大數(shù)據(jù)概念,分析了關(guān)系數(shù)據(jù)庫在存儲大數(shù)據(jù)量方面的不足,并介紹了當(dāng)前NOSQL數(shù)據(jù)庫的基本理論和當(dāng)前產(chǎn)品分類。大數(shù)據(jù)時代的來臨,我們忙于如何存儲和處理這些數(shù)據(jù),但隨著計算機互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)量會持續(xù)大幅增長,如何長期保存這些數(shù)據(jù)以及如何處理更大級別的數(shù)據(jù)量,都需要我們思考并解決。
參考文獻
[1]王珊,王會舉,覃雄派等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學(xué)報,2011(34).
[2]黃賢立.NOSQL非關(guān)系型數(shù)據(jù)庫的發(fā)展及應(yīng)用初探[J].福建電腦,2010(7):30.
一、引言
大數(shù)據(jù)時代,原有的信息資源處理手段已經(jīng)不適應(yīng)迅速增大的數(shù)據(jù)量級。大數(shù)據(jù)依托網(wǎng)絡(luò)技術(shù),采用數(shù)據(jù)挖掘、關(guān)聯(lián)分析等技術(shù)手段對分布式存儲的異構(gòu)海量數(shù)據(jù)進行處理。無論是網(wǎng)絡(luò)環(huán)境、計算平臺、還是存儲載體,都分屬不同的信息系統(tǒng)。大數(shù)據(jù)進一步加劇了網(wǎng)絡(luò)空間中防御與攻擊的不對稱性,大數(shù)據(jù)信息安全主要體現(xiàn)在處理系統(tǒng)、過程的安全,而傳統(tǒng)的信息安全防護措施多集中在“封堵查殺”層面,難以應(yīng)對大數(shù)據(jù)時代的信息安全挑戰(zhàn)。因此應(yīng)加快構(gòu)建多層次、高質(zhì)量的大數(shù)據(jù)縱深防御體系結(jié)構(gòu)。加強大數(shù)據(jù)信息安全保障能力,是解決大數(shù)據(jù)安全的唯一出路。
二、大數(shù)據(jù)安全挑戰(zhàn)
基于大數(shù)據(jù)環(huán)境下所帶來的安全挑戰(zhàn)包括:
1、應(yīng)用安全防護:大數(shù)據(jù)環(huán)境下的應(yīng)用防護風(fēng)險,包括資源濫用、拒絕服務(wù)攻擊、不安全集成模塊或API接口及WEB安全;2、虛擬化環(huán)境安全:基于云計算和虛擬化技術(shù)的云計算數(shù)據(jù)中心為大數(shù)據(jù)提供了一個開放的環(huán)境,分布在不同地區(qū)的資源可以快速整合,動態(tài)配置,實現(xiàn)數(shù)據(jù)集合的共建共享。網(wǎng)絡(luò)訪問便捷化和數(shù)據(jù)流的形成,為實現(xiàn)資源的快速彈性推送和個性化服務(wù)提供基礎(chǔ)。然而平臺的暴露,使得蘊含著海量數(shù)據(jù)和潛在價值的大數(shù)據(jù)更容易吸引黑客的攻擊。虛擬化環(huán)境安全成為大數(shù)據(jù)安全的重要威脅。3、移動接入安全:BYOD-移動接入安全,包括身份假冒和信息劫持等。4、安全與大數(shù)據(jù)融合:惡意的內(nèi)部員工和數(shù)據(jù)隱私保護面臨威脅。
本文分別從上面四個方面來分析大數(shù)據(jù)安全技術(shù)體系的建設(shè)辦法,構(gòu)建大數(shù)據(jù)縱深防御體系結(jié)構(gòu)。
三、大數(shù)據(jù)安全技術(shù)體系
大數(shù)據(jù)應(yīng)用安全防護主要在應(yīng)用防護區(qū)部署虛擬化綜合安全設(shè)備,包括DDOS、防火墻、IPS和WEB防火墻(WAF)等,同時部署漏洞分析系統(tǒng),進行安全評估和滲透測試。
大數(shù)據(jù)虛擬化環(huán)境安全主要通過虛擬化防火墻TopVSP(Vgate、TAE、TD)和虛擬機管理器安全,即外部防火墻。實現(xiàn)虛擬化環(huán)境的性能優(yōu)化和安全策略遷移等。
移動接入安全從下到上分為統(tǒng)一接入控制、數(shù)據(jù)安全及威脅防護和全生命周期設(shè)備管理三層。其中統(tǒng)一接入控制層在終端接入?yún)^(qū)使用身份認(rèn)證及授權(quán)和虛擬應(yīng)用及虛擬桌面,在網(wǎng)絡(luò)接入?yún)^(qū)使用VPN加密,在業(yè)務(wù)服務(wù)區(qū)使用遠程鎖定、數(shù)據(jù)擦除、備份與恢復(fù)、GPS定位和自動報警燈管理器后動來實現(xiàn)。全生命周期設(shè)備管理包括資產(chǎn)接入、部署、運行和銷毀全流程管理,資產(chǎn)接入包括資產(chǎn)的發(fā)現(xiàn)、注冊和初始化;資產(chǎn)部署主要包括安全基線制定和配置及策略執(zhí)行;資產(chǎn)運行包括資產(chǎn)的掛失、鎖定、密碼重置、定位、備份與恢復(fù)、報警等;數(shù)據(jù)銷毀采用遠程應(yīng)用卸載和數(shù)據(jù)擦除等技術(shù)。