時間:2023-05-17 16:51:33
導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇數(shù)據(jù)分析分析技術(shù),它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01
一、引言
聯(lián)機分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入地觀察。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多方法可以構(gòu)造多維數(shù)據(jù)。
(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性。
這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的OLAP系統(tǒng)中,其主要特點是簡化終端用戶的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。
(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對維進行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性,提高了數(shù)據(jù)的分析效率。
一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復(fù)雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應(yīng)用需求。
許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進行計算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。
三、OLAP的多維數(shù)據(jù)分析
多維數(shù)據(jù)分析是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動作,以求剖析數(shù)據(jù),使最終用戶能從多個角度、多側(cè)面地觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:
(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。
按照定義1,一次切片一定是原來的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。
定義2:選定多維數(shù)組的一個二維子集的動作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i和維j上的一個二維子集,稱這個二維子集為多維數(shù)組在維i和維j上的一個切片,表示為(維i和維j,變量)。
按照定義2,不管原來的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區(qū)間的維成員或全部維成員。從定義2可知:
1.一個多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個維之外的其它維的成員值確定的。
2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數(shù)據(jù),因為人的空間想象力有限,所以,對于維數(shù)較多的多維數(shù)據(jù)空間,進行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯(lián)系起來,對于一個n維數(shù)組,按定義1進行的n-2切片的結(jié)果,就必定對應(yīng)于按定義2進行的某一次切片的結(jié)果。
(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當(dāng)這一區(qū)間只取一個維成員時,即得到一個切片。
定義2:選定多維數(shù)組的一個三維子集的動作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數(shù)組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。
(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個報告或者頁面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。
(四)鉆取。
鉆取處理是使用戶在數(shù)據(jù)倉庫的多層數(shù)據(jù)中,能夠通過導(dǎo)航信息而獲得更多的細節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個數(shù)據(jù)集中有更好細節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。
(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數(shù)據(jù)表所無法提供的。一個OLAP系統(tǒng),應(yīng)當(dāng)采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。
四、結(jié)語
隨著數(shù)據(jù)倉庫的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復(fù)雜問題。
參考文獻:
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0006-03
為了提升大學(xué)物理公共課程的教學(xué)水平,更好地了解學(xué)生的學(xué)習(xí)情況,需要引用聯(lián)機數(shù)據(jù)技術(shù),通過科學(xué)建立模型對教學(xué)數(shù)據(jù)進行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。
1 建立數(shù)據(jù)模型
建立模型是為了更加直觀地表達數(shù)據(jù)和事實。對于同一批數(shù)據(jù),人們總是會以不同的角度對其進行觀察,這就是維度。維度模型從不同的角度分析數(shù)據(jù),最終得出一張事實表。
如圖1所示,維度模型包括了教材維度表,學(xué)期維度表,教師維度表,學(xué)生維度表和教學(xué)事實表。為了更好地分析教學(xué)效果,維度模型從四個不同的角度進行分析,每一張維度表上都注明了詳細的數(shù)據(jù)內(nèi)容。最后,在總結(jié)四張維度表的基礎(chǔ)上,概括了最終的教學(xué)事實表。
2 OLAP技術(shù)
2.1 數(shù)據(jù)的采集
原有的Visual和SQL數(shù)據(jù)庫上儲存了學(xué)生的信息,教師的信息以及教學(xué)的數(shù)據(jù)等等。如圖二所示,教務(wù)數(shù)據(jù)庫中包含了課程信息表,學(xué)生信息表以及選課成績表。DTS工具能夠從不同的數(shù)據(jù)庫中自動抽取需要進行分析的數(shù)據(jù),并且將其全部集中在一個新的數(shù)據(jù)庫中。新的SQL數(shù)據(jù)庫既可以儲存信息,還能夠?qū)π畔⑦M行管理。聯(lián)機分析處理技術(shù)從不同的角度分析數(shù)據(jù),有助于全面了解學(xué)生的學(xué)習(xí)情況和教師的教學(xué)質(zhì)量。
2.2 數(shù)據(jù)分析的結(jié)構(gòu)
從圖2中可以看出,數(shù)據(jù)分析的結(jié)構(gòu)包括了四層,其中最底層的是各種信息數(shù)據(jù)庫和文本文件,在此基礎(chǔ)上建立數(shù)據(jù)ETL,然后建立相應(yīng)的維度模型,最后利用聯(lián)機分析技術(shù)對數(shù)據(jù)進行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機分析技術(shù)的基礎(chǔ),也是必不可少的一步。多維度分析是該結(jié)構(gòu)中的最后一步,最終的結(jié)果將會把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來。
2.3 轉(zhuǎn)換數(shù)據(jù)
由于不同數(shù)據(jù)的語法可能存在差異,因此,把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結(jié)構(gòu)顯得尤為必要。在聯(lián)機分析技術(shù)應(yīng)用的過程中,轉(zhuǎn)換數(shù)據(jù)是關(guān)鍵的一步,能否成功轉(zhuǎn)換數(shù)據(jù),決定了維度模型的建立是否具有科學(xué)性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語法,語義結(jié)構(gòu)不同引起的問題。
和數(shù)據(jù)語義不同相比,處理不同語法的數(shù)據(jù)顯得更為簡單。如果數(shù)據(jù)本身和目標數(shù)據(jù)之間存在語法結(jié)構(gòu)不同的問題,那么只需要通過函數(shù)對其進行轉(zhuǎn)換即可。一般來說,數(shù)據(jù)本身的內(nèi)容并不會影響轉(zhuǎn)換過程,只要建立原數(shù)據(jù)和目標數(shù)據(jù)之間的對應(yīng)關(guān)系,就能解決數(shù)據(jù)名稱存在沖突的問題。例如,學(xué)生數(shù)據(jù)庫本身的信息包括了學(xué)生的ID和班級,這就相當(dāng)于最終目標數(shù)據(jù)中學(xué)生對應(yīng)的名稱和班別。如果數(shù)據(jù)類型不同,可以運用相應(yīng)的函數(shù)對其進行轉(zhuǎn)換,例如trim()函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對原數(shù)據(jù)中學(xué)生的ID,專業(yè)以及院名進行轉(zhuǎn)換的過程,其轉(zhuǎn)換代碼如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名稱”))
DTSDestination(“專業(yè)”)=cstr(DTSSourse(“專業(yè)”))
DTSDestination(“院名”)=trim(DTSSourse(“學(xué)院”))
Main=DTSTransformStat_OK
End Function
轉(zhuǎn)換不同語義結(jié)構(gòu)的數(shù)據(jù)是一個復(fù)雜的過程,它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此,僅僅通過一步完成數(shù)據(jù)轉(zhuǎn)換的過程是幾乎不可能的,它需要將原數(shù)據(jù)進行一次次轉(zhuǎn)換,才能得到最終的目標數(shù)據(jù)。例如每一個教師都有以及開展項目,在原數(shù)據(jù)中只能看到項目的名稱和論文的名稱,如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項目數(shù)量,則需要經(jīng)過兩步的數(shù)據(jù)轉(zhuǎn)換。
2.4 數(shù)據(jù)結(jié)果分析
原數(shù)據(jù)從SQL中提取出來,然后通過函數(shù)對其進行轉(zhuǎn)換,最后利用聯(lián)機分析技術(shù)進行數(shù)據(jù)管理和分析,從不同的角度研究數(shù)據(jù),從而全面分析學(xué)生的學(xué)習(xí)情況和教師的教學(xué)情況。數(shù)據(jù)分析的方法有很多種,其目的都是為了全方位地剖析數(shù)據(jù)。
2.4.1 高校教師教學(xué)質(zhì)量的對比分析
在教師維度表中,我們已經(jīng)按照教師的從業(yè)年齡,學(xué)歷以及職稱對其進行劃分,不同職稱的教師,其教學(xué)質(zhì)量有著明顯的區(qū)別。教師的學(xué)歷不同,教齡有所差異,這都和教學(xué)效果息息相關(guān)。
2.4.2 不同時期對教學(xué)質(zhì)量的影響分析
聯(lián)機分析處理技術(shù)能夠從多角度分析數(shù)據(jù),教學(xué)質(zhì)量不可能是一成不變的,它與多個因素密不可分,時間也是其中一個因素。在不同的時期,由于政策的變動和外界因素的影響,教師的教學(xué)質(zhì)量也會隨之而受到不同程度的影響。
2.4.3 教學(xué)質(zhì)量和其他因素息息相關(guān)
除了時間和教師的水平會對教學(xué)質(zhì)量造成一定的影響,還有其他因素同樣會影響教學(xué)效果,例如:學(xué)生的學(xué)習(xí)能力,學(xué)校選用的課本等。綜合考慮各個因素對教學(xué)效果的影響,有利于教育部門更好地作出相應(yīng)的政策調(diào)整。
3 計算機分析處理技術(shù)中的數(shù)據(jù)處理方法分析
無可置疑,計算機技術(shù)的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今,計算機技術(shù)已經(jīng)全面滲透到我們生活中和工作中的各個方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中,計算機技術(shù)都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增,這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法滿足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性,這些數(shù)字在顯示之前,都必須經(jīng)過一系列的轉(zhuǎn)換,計算以及處理。首先,數(shù)據(jù)會以一種形式經(jīng)過轉(zhuǎn)換器,然后變成另一種新的形式,只有這樣計算機才能對數(shù)據(jù)進行處理和分析。處理數(shù)據(jù)是一個復(fù)雜多變的過程,它的方法并不是單一的,根據(jù)數(shù)據(jù)處理的目標不同,需要選擇不同的數(shù)據(jù)處理方法。例如,有的數(shù)據(jù)需要進行標度轉(zhuǎn)換,但有些數(shù)據(jù)只需要進行簡單計算即可,計算機技術(shù)的不斷進步是為了更好地應(yīng)對人們對數(shù)據(jù)處理新的需要。
計算機數(shù)據(jù)處理技術(shù)的應(yīng)用離不開系統(tǒng),它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性:
1)自動更正功能,計算機系統(tǒng)在處理數(shù)據(jù)時,對于計算結(jié)果出現(xiàn)的誤差能夠及時修正,確保結(jié)果的準確度。
2)傳統(tǒng)模擬系統(tǒng)只能進行數(shù)據(jù)的簡單計算,而計算機系統(tǒng)則能夠處理復(fù)雜多變的數(shù)據(jù),其適用范圍和領(lǐng)域更加廣。
3)計算機系統(tǒng)不需要過多的硬件,只需要編寫相應(yīng)的程序就能夠完成數(shù)據(jù)的處理,在節(jié)省空間的同時也降低了數(shù)據(jù)處理的成本。
4)計算機系統(tǒng)特有的監(jiān)控系統(tǒng),能夠隨時監(jiān)測系統(tǒng)的安全性,從而確保數(shù)據(jù)的準確度。
對于不同的數(shù)據(jù),往往需要采用不同的處理方式,處理數(shù)據(jù)的簡單方法包括查表,計算等。除此之外,標度轉(zhuǎn)換,數(shù)字濾波同樣是應(yīng)用十分廣的處理技術(shù)。
3.1 數(shù)據(jù)計算
在各種數(shù)據(jù)處理方法中,計算法是最為簡單的一種,利用現(xiàn)有的數(shù)據(jù)設(shè)置程序,然后直接通過計算得出最終的目標數(shù)據(jù)。一般來說,利用這種方法處理數(shù)據(jù)需要遵循一個過程:首先,求表達式,這是計算法最基本的一步;其次,設(shè)計電路,在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來;最后,利用第一步已經(jīng)求出的表達式運算數(shù)據(jù)。
3.2 數(shù)據(jù)查表
3.2.1 按順序查表格
當(dāng)需要搜索表格中的數(shù)據(jù)時,往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設(shè)置關(guān)鍵詞,最后按照順序進行搜索。
3.2.2 通過計算查表格
這是一種較為簡單的方法,適用范圍并不廣。只有當(dāng)數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關(guān)系時,才能夠使用這種方法查表格。
3.2.3 利用程序查表格
相比于上述的兩種方法,利用程序查表格是一種相對復(fù)雜的方法,但是這種方法的優(yōu)點在于查找效率高,并且準確度高。
3.3 數(shù)據(jù)濾波處理
采集數(shù)據(jù)并不難,但是確保每一個數(shù)據(jù)的真實性卻十分困難,尤其是在工業(yè)系統(tǒng)中,數(shù)據(jù)的測量難以確保絕對準確,因為在測量的過程中,外界環(huán)境對數(shù)據(jù)的影響往往是難以預(yù)估的。為了提高數(shù)據(jù)處理的精確度和準確率,需要借助檢測系統(tǒng)對采集的數(shù)據(jù)進行深加工。盡可能地讓處理的數(shù)據(jù)接近真實的數(shù)據(jù),并且在數(shù)據(jù)采集的過程中最大限度地減少外界因素對其的影響,從而提高計算結(jié)果的準確度。
濾波處理技術(shù)的應(yīng)用首先要確定數(shù)據(jù)的偏差,一般來說,每兩個測量數(shù)據(jù)之間都會存在一定的誤差,首先需要計算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值,可以認定數(shù)據(jù)無效,只有符合偏差范圍內(nèi)的數(shù)據(jù),才能進行下一步的處理。
為了減少由于外界影響導(dǎo)致數(shù)據(jù)失真的情況,利用程序過濾數(shù)據(jù)是很有必要的。濾波技術(shù)有幾種,根據(jù)不同的需要可以選擇相應(yīng)的數(shù)據(jù)處理技術(shù),每一種數(shù)據(jù)濾波技術(shù)都有其適用范圍和優(yōu)點。數(shù)據(jù)濾波技術(shù)包括算術(shù)平均值濾波,加權(quán)平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術(shù)。
3.4 轉(zhuǎn)換量程和標度
在測量數(shù)據(jù)的過程中,每一種參數(shù)都有相應(yīng)的單位,為了方便數(shù)據(jù)處理,需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號。標度轉(zhuǎn)換是必不可少的,為了加強系統(tǒng)的管理和監(jiān)測,需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線性參數(shù)標度變換,參數(shù)標度變換,量程轉(zhuǎn)換,這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過程中較為常見。當(dāng)計算過程遇到困難,可以結(jié)合其他的標度轉(zhuǎn)換方法進行數(shù)據(jù)處理。
3.5 非線性補償計算法
3.5.1 線性插值計算方法
信號的輸入和輸出往往會存在一定的關(guān)系。曲線的斜率和誤差之間存在正相關(guān)關(guān)系,斜率越大,誤差越大。由此可見,這一計算方法僅僅適用于處理變化不大的數(shù)據(jù)。當(dāng)曲線繪制選用的數(shù)據(jù)越多,曲線的準確程度越高,偏差越小。
3.5.2 拋物線計算方法
拋物線計算方法是一種常用的數(shù)據(jù)處理方法,只需要采集三組數(shù)據(jù),就可以連成一條拋物線。相比于直線,拋物線更加接近真實的曲線,從而提高數(shù)據(jù)的準確度。拋物線計算法的過程,只需要求出最后兩步計算中的M值,就能夠直接輸入數(shù)據(jù)得出結(jié)果。
3.6 數(shù)據(jù)長度的處理
當(dāng)輸入數(shù)據(jù)和輸出數(shù)據(jù)的長度不一,需要對其進行轉(zhuǎn)換,使數(shù)據(jù)長度達到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同,因此,當(dāng)輸入位數(shù)大于輸出位數(shù),可以通過移位的方法使位數(shù)變成相同。相反,當(dāng)輸入位數(shù)少于輸出位數(shù)時,可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。
4 結(jié)語
本文對聯(lián)機分析技術(shù)進行了詳細的論述,該技術(shù)的應(yīng)用對于評價教學(xué)效果有著重要的意義。在物理公共課程中,教學(xué)數(shù)據(jù)數(shù)量巨大,如果利用傳統(tǒng)的方法對其進行分析,將會耗費大量的人力物力,而采用OLAP技術(shù)則能更加快速準確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評估教學(xué)質(zhì)量必經(jīng)的過程,而使用QLAP技術(shù)是為了能夠多層次,全方位地分析各個因素對教學(xué)質(zhì)量的影響,從而更好地改進高校教育中存在的不足。除了分析物理課程數(shù)據(jù),聯(lián)機分析技術(shù)同樣適用于其他課程的數(shù)據(jù)處理和分析。
參考文獻:
1.1信息安全分析引入大數(shù)據(jù)的必要性
大數(shù)據(jù)具有“4V”的特點:Volume、Variety、Velocity和Value,可實現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級增長。數(shù)據(jù)源豐富、數(shù)據(jù)種類多、數(shù)據(jù)分析維度廣;同時,數(shù)據(jù)生成的速度更快,對信息安全分析應(yīng)答能力要求也相應(yīng)增長。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報等進行關(guān)聯(lián)分析?;诹髁康陌踩治鰬?yīng)用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計、主機入侵檢測等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類預(yù)測模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場景自身產(chǎn)生的數(shù)據(jù)、通過某種活動或內(nèi)容“創(chuàng)建”出來的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問題。
1.2安全大數(shù)據(jù)分析方法
安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過對海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對不同安全場景設(shè)計針對性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲和分析的優(yōu)勢,從豐富的數(shù)據(jù)源中進行深度挖掘,進而挖掘出安全問題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲和檢索:基于大數(shù)據(jù)采集、存儲、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對數(shù)據(jù)進行存儲和分析;針對格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數(shù)據(jù)進行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲和NoSQL數(shù)據(jù)庫提升了數(shù)據(jù)分析和查詢的效率,從海量數(shù)據(jù)中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計建模工具(如回歸分析、時間序列預(yù)測、多元統(tǒng)計分析理論)、機器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機場)等。常用的大數(shù)據(jù)分析思路有先驗分析方法、分類預(yù)測分析方法、概率圖模型、關(guān)聯(lián)分析方法等??墒褂肕ahout和MLlib等分析工具對數(shù)據(jù)進行挖掘分析。綜上,一個完備的安全大數(shù)據(jù)分析平臺應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報信息等多源異構(gòu)數(shù)據(jù)進行分布式融合分析,針對不同場景搭建分析模型,最終實現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢。
2安全大數(shù)據(jù)分析的典型應(yīng)用
2.1基于用戶行為的不良信息治理
中國移動開展了基于大數(shù)據(jù)的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數(shù)據(jù)分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺,采集用戶的行為數(shù)據(jù),構(gòu)建用戶行為分析模型;分別提出了異常行為分類預(yù)測模型、統(tǒng)計預(yù)測分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶的行為數(shù)據(jù)輸入到模型中,可以精準地挖掘出違規(guī)電話號碼,并且發(fā)現(xiàn)違規(guī)號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構(gòu)建多維度的用戶畫像數(shù)據(jù)庫,支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識別等。實踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號碼,是對現(xiàn)有系統(tǒng)的有效補充。除此之外,中國移動還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢感知、手機惡意軟件檢測和釣魚網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。
2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析
在互聯(lián)網(wǎng)出口進行旁路流量監(jiān)控,使用Hadoop存儲及Storm、Spark流分析技術(shù),通過大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協(xié)議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。
2.3基于安全日志的大數(shù)據(jù)分析
基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機服務(wù)器日志、數(shù)據(jù)庫日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場景?;诎踩罩镜拇髷?shù)據(jù)分析已經(jīng)在國際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個設(shè)備端點和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進行標準化,以區(qū)別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級等。ZettaSet海量事件數(shù)據(jù)倉庫來分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉庫)。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲。SDW于2011年BlackHat網(wǎng)絡(luò)安全會議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對于一個月的數(shù)據(jù)負載,傳統(tǒng)SIEM搜索需要20~60min,Hive運行查詢只需1min左右。
2.4基于DNS的安全大數(shù)據(jù)分析
基于DNS的安全大數(shù)據(jù)分析通過對DNS系統(tǒng)的實時流量、日志進行大數(shù)據(jù)分析,對DNS流量的靜態(tài)及動態(tài)特征進行建模,提取DNS報文特征:DNS分組長、DNS響應(yīng)時間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構(gòu)建異常行為模型,來檢測針對DNS系統(tǒng)的各類流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網(wǎng)站域名等。
2.5APT攻擊大數(shù)據(jù)分析
高級可持續(xù)性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征?,F(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅?!罢鹁W(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪問日志、數(shù)據(jù)日志、資產(chǎn)庫及Web滲透知識庫等,提取系統(tǒng)指紋、攻擊種類、攻擊時間、黑客關(guān)注度、攻擊手段類型、行為歷史等事件特征,再基于大數(shù)據(jù)機器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強事中環(huán)節(jié)的威脅感知能力,同時支撐調(diào)查取證。
中圖分類號TP392 文獻標識碼A 文章編號 1674-6708(2013)86-0119-02
在科學(xué)技術(shù)飛速進步的當(dāng)今世界,石油一直是世界上最主要的供能能源,隨著石油化工產(chǎn)業(yè)的不斷進步與發(fā)展,石油化工檢測也迅速成長起來。在化工領(lǐng)域里,石油化工原料也被廣泛的應(yīng)用于各個部門,它是決定各個部門發(fā)展進度的至關(guān)重要的因素。因此,石油化工檢測的發(fā)展與成長也是必然的結(jié)果。
1 石油化工檢測
石油化工檢測是一門復(fù)合技術(shù),其將電子、自動化、信息處理、控制工程、計算機等多門學(xué)科有機的融為一體,并將其廣泛的應(yīng)用于生產(chǎn)自動化過程以及石油化工領(lǐng)域自動化裝備中。在石油化工原料的生產(chǎn)過程中,有毒或者易燃易爆氣體隨時都存在泄露的危險,有些嚴重的泄露事件甚至?xí){工人的生命財產(chǎn)安全,所以石油化工產(chǎn)業(yè)亦是一個高危產(chǎn)業(yè)。面對這些不容忽視的安全問題,嚴密的檢測程序在石油化工生產(chǎn)的過程中是必不可少的一個重要環(huán)節(jié)。隨著科學(xué)信息技術(shù)的飛速發(fā)展,檢測手段也在不斷的進行推陳出新,在其有機的結(jié)合了化學(xué)、物理、電機學(xué)、計算機和現(xiàn)代光學(xué)技術(shù)后,檢測技術(shù)也有了質(zhì)的飛躍。
如今在石油化工檢測的過程當(dāng)中,出現(xiàn)了許多如無損失檢測等的新設(shè)備,這些現(xiàn)代化科技設(shè)備的廣泛投入與應(yīng)用,無一不說明了石油化工產(chǎn)業(yè)的重要性。在如今的石油化工產(chǎn)業(yè)中,一個新興的概念正在逐步被人們所接受,它就是安全檢測體系以及安全評價。其中安全評價是經(jīng)由安全系統(tǒng)工程原理以及工程技術(shù)方法,對系統(tǒng)中有可能存在的危險性或固有危險性進行全面分析,也稱風(fēng)險評價和危險性評價,其包含危險性確認以及危險性評價兩個方面。我們也應(yīng)當(dāng)全面深入的找尋其可能存在的危險源,并對其進行認真的校對與考核。與此同時,我們還應(yīng)該對可能產(chǎn)生的后果進行分析與預(yù)測,并與當(dāng)今社會上工人的安全指標進行認真比對,其值若在安全值范圍以內(nèi),便可認為其安全;若在安全值以外,則認為其不安全,我們應(yīng)當(dāng)對其采取適當(dāng)?shù)拇胧?,從而減少或者避免危險發(fā)生的可能性。
2數(shù)據(jù)檢測方法
2.1安全檢查表法數(shù)據(jù)分析
石油化工產(chǎn)品系數(shù)一般在一個安全的系數(shù)范圍之內(nèi),根據(jù)實驗發(fā)現(xiàn),這些所測的數(shù)據(jù)互相獨立,互不影響,所以這些數(shù)據(jù)呈現(xiàn)正態(tài)分布,所以檢測的數(shù)據(jù)應(yīng)該在該分布范圍之內(nèi)。所謂安全檢查表法,就是通過抽樣數(shù)據(jù),通過SPSS軟件計算出各數(shù)據(jù)之間的平均值以及標準方差,通過比較所測數(shù)據(jù)是否在平均值所在的標準方差范圍之內(nèi)。通過檢驗數(shù)據(jù)核對來衡量該數(shù)據(jù)值是否在安全檢測范圍之內(nèi)。在分析的過程中,可以將其與標準平均值的偏差與安全檢測標準方差的比值對其進行賦分,如果大于1說明偏差太大,產(chǎn)品不在安全范圍之內(nèi),如果為0,則產(chǎn)品在安全范圍之內(nèi)。
2.2預(yù)先危險性數(shù)據(jù)分析
在數(shù)據(jù)統(tǒng)計過程中,有一種分析方法為數(shù)據(jù)擬合,可對數(shù)據(jù)回歸分析,利用回歸分析函數(shù),預(yù)見系統(tǒng)的危險性。常用的數(shù)據(jù)回歸分析方法為二元Logistic回歸分析與曲線擬合分析。比如通過統(tǒng)計分析先前發(fā)生的事故的傳統(tǒng)安全數(shù)據(jù)系數(shù),對安全系數(shù)數(shù)據(jù)進行二元回歸擬合,得到輸入函數(shù),通過輸入函數(shù)來預(yù)見產(chǎn)品的危險性,以此來對產(chǎn)品做出相關(guān)的概括性評價統(tǒng)計,對于有害成分,觸發(fā)條件進行評價。預(yù)先危險性數(shù)據(jù)分析可以應(yīng)用到石油原油品質(zhì)分析中去。
2.3故障影響因素數(shù)據(jù)分析
在石油化工作業(yè)中,經(jīng)常會出現(xiàn)一些故障,這些故障發(fā)生的概率隨著工藝過程,各不相同,對于發(fā)生某次故障,或者發(fā)生變質(zhì)產(chǎn)品,肯定會有主要因素,但是如何才能得到主要因素,可以利用方差分析,利用方差分析是以兩個樣本作為比對對象,通過比對對象,來得到在一定置信區(qū)間內(nèi)的主要影響因素,分析的數(shù)據(jù)統(tǒng)計量需要滿足,各統(tǒng)計量之間符合正態(tài)分布,顯然影響因素之間是相對獨立,符合方差分析要求。通過統(tǒng)計數(shù)據(jù),進行方差分析,可以得到影響故障的主要因素,繼而對其進行評價。方差分析可以利用到石油管道故障,自動化儀表故障的主要因素分析中去。
2.頻率分析
石油化工檢測過程中,往往會發(fā)生不同類事故,多次發(fā)生,我們可以統(tǒng)計這些數(shù)據(jù)的頻率,通過頻率分析,進行參數(shù)估計,歸納其分布狀態(tài),可以看出其是否在置問之內(nèi)。常用的方法為頻率分析法。頻率分析,可以檢測發(fā)生事件的集中趨勢,離散程度以及分布偏度與峰度,通過模擬分布圖,可以有效判斷事件發(fā)生的合法性概率。事件頻率分析應(yīng)用較廣,可應(yīng)用到成品油質(zhì)量分析以及主要設(shè)備故障分析中。
3 結(jié)論
數(shù)據(jù)分析應(yīng)用較廣,如今的市場上存在著許多工作原理大同小異的有關(guān)于石油化工檢測的設(shè)備,這些設(shè)備最終的目的均是為了保障石油化工的安全生產(chǎn),但其實這只是石油化工檢測的冰山一隅。怎樣使正在上升的石油化工產(chǎn)業(yè)進行相對安全的生產(chǎn),使其事故率降到最低,是石油化工產(chǎn)業(yè)在未來發(fā)展中,至關(guān)重要的核心問題。為了能更好的適應(yīng)我國石油化工檢測的發(fā)展,我們可以針對我國石油化工產(chǎn)業(yè)發(fā)展的特點進行軟件開發(fā)。在其開發(fā)以及研究發(fā)展的過程中,國家應(yīng)當(dāng)出臺一些相應(yīng)的傾斜優(yōu)惠政策,這樣便會是這個新興的、充滿活力的產(chǎn)業(yè)迅速茁壯成長起來。
參考文獻
[1]李建,余昌斌.淺論石油化工檢驗概況[J].科學(xué)之友,2010(4).
[2]魏天飛. 展望先進的產(chǎn)品檢測技術(shù)——訪梅特勒-托利多產(chǎn)品檢測部門銷售經(jīng)理John Coleman[J].中國包裝工業(yè),2011(9).
隨著時間的推移,用電信息采集系統(tǒng)中存儲的數(shù)據(jù)總量會線性遞增,龐大的信息儲備在反映信息愈加全面的同時增加了信息分類和處理的難度,所以其分析和處理技術(shù)需要隨著時代的發(fā)展不斷深化。
1 用電信息采集系統(tǒng)數(shù)據(jù)分析
由于用電信息采集系統(tǒng)內(nèi)的信息會隨著時間的推移而不斷增多,所以需要通過分類處理的形式對龐大的信息量進行逐層處理,這樣才可以提升系統(tǒng)對數(shù)據(jù)庫的處理效率,目前用電信息采集系統(tǒng)以時間為劃分標準,將信息分為以下三類:1類數(shù)據(jù)實時數(shù)據(jù)不具有時間序列屬性,通常只針對其更新而很少查詢,由于數(shù)據(jù)量龐大,其通常只具有15分鐘的實效,總加數(shù)據(jù)、測量點數(shù)據(jù)、終端數(shù)據(jù)是其主要形式,在存儲的過程中應(yīng)根據(jù)其不同的物理對象選擇與其相應(yīng)的存儲表;2類數(shù)據(jù)其主要顯示用電戶在過去一段時間內(nèi)的用電信息,為預(yù)付費管理、用電情況統(tǒng)計等工作提供數(shù)據(jù)支持,其與1類數(shù)據(jù)不同具有時間序列屬性,而且更新少而查詢多,15分鐘至1小時,1日、一個月等都可根據(jù)實際需要作為周期,其在存儲的過程中也可以根據(jù)不同的物理對象,選擇不同的存儲表;3類數(shù)據(jù)包括參數(shù)丟失或變更、回路異常、電能表顯示出現(xiàn)偏差等情況,由于其不同時間的發(fā)生頻率、使用方式等都存在差異,所以在存儲的過程中應(yīng)單獨分表,將用電信息按照屬性進行劃分極大地提升了采集系統(tǒng)的工作效率。
2 用電信息采集系統(tǒng)數(shù)據(jù)處理技術(shù)
用電信息采集系統(tǒng)其要同時對多種通信通道和終端進行管理,從而實現(xiàn)對用電戶用電信息管理、負荷及預(yù)付費控制,所以其并非單一計算機節(jié)點可獨立完成,需要以下技術(shù)輔助其實現(xiàn)如圖1所示。
2.1 集群技術(shù)
主要應(yīng)用于系統(tǒng)中的核心部位,例如數(shù)據(jù)庫、數(shù)據(jù)采集等,其主要是將多個獨立但都處于高速網(wǎng)絡(luò)中的計算機連接成一個整體,并通過單一系統(tǒng)對整體進行管理控制,利用集群技術(shù)可以實現(xiàn)大運量計算,目前主要應(yīng)用的集群技術(shù)主要有主/主和主/從兩種狀態(tài),其主要區(qū)別是當(dāng)一個節(jié)點處于正常工作狀態(tài)時是否需要有另一個節(jié)點處于備用狀態(tài),利用集群技術(shù)大幅度的提升了系統(tǒng)對數(shù)據(jù)的計算能力,從而提升了系統(tǒng)的數(shù)據(jù)處理效率及準確性。網(wǎng)絡(luò)負載均衡技術(shù),在實際操作中系統(tǒng)要處理大量的數(shù)據(jù),用戶等待系統(tǒng)反應(yīng)的時間通常較長,而網(wǎng)絡(luò)負載均衡技術(shù)的出現(xiàn)實現(xiàn)了對大量并發(fā)訪問、數(shù)據(jù)流量合理均等的分配至多臺節(jié)點設(shè)備,從而實現(xiàn)多臺設(shè)備同時進行數(shù)據(jù)處理,使原本復(fù)雜的數(shù)據(jù)處理任務(wù)被合理分化,不僅縮短了處理時間,而且有效的降低了系統(tǒng)在處理過程中出現(xiàn)信道堵塞的概率,提升了系統(tǒng)數(shù)據(jù)處理的性能,在響應(yīng)請求方面得到優(yōu)化。
2.2 內(nèi)存數(shù)據(jù)庫技術(shù)
是優(yōu)化系統(tǒng)數(shù)據(jù)處理能力的重要途徑,內(nèi)存數(shù)據(jù)庫技術(shù)實現(xiàn)了采集的信息直接在內(nèi)存中存儲,從而利用內(nèi)存隨機訪問的特點,在信息讀寫速度方面進行優(yōu)化,使數(shù)據(jù)信息的訪問性能得到提升,此項技術(shù)在數(shù)據(jù)緩存、數(shù)據(jù)算法等方面進行了針對性的設(shè)計,使系統(tǒng)的信息處理速度提升十倍以上,為實時查詢提供了可能,極大地促進了后付費和預(yù)付費的融合,使系統(tǒng)數(shù)據(jù)處理性能得到完善。批量數(shù)據(jù)處理技術(shù),由于在實際工作中由于系統(tǒng)需要對大量的數(shù)據(jù)進行分類處理,逐個信息處理的可行性非常低,需要對大批量數(shù)據(jù)進行集中處理,但在應(yīng)用批量數(shù)據(jù)處理技術(shù)的同時要對數(shù)據(jù)庫的表結(jié)構(gòu)、SQL語句進行優(yōu)化處理并對數(shù)據(jù)庫中的數(shù)據(jù)表合理管理,例如將個體數(shù)據(jù)表的數(shù)據(jù)量限制在2GB以內(nèi),確保其訪問性能不受影響;將數(shù)據(jù)按照分類存儲于不同的磁盤,保證查詢質(zhì)量;在優(yōu)化SQL語句時盡量保證帶有參數(shù)等,只有數(shù)據(jù)庫性能良好,批量數(shù)據(jù)處理技術(shù)才可以應(yīng)用,不然會適得其反。
2.3 SAN存儲技術(shù)
隨著系統(tǒng)采集數(shù)據(jù)量的增加,以服務(wù)器為中心的處理模式會嚴重影響網(wǎng)絡(luò)性能,從而影響系統(tǒng)對數(shù)據(jù)的處理效率,所以將備份和傳輸不占用局域網(wǎng)資源的SAN技術(shù)引入到系統(tǒng)處理中非常具有現(xiàn)實意義,其以光纖通道為途徑,使信息存儲不再受距離和容量的限制,系統(tǒng)的信息采集性能得到有效提升。ODI技術(shù),在實際工作中有時需要對某一類信息進行集中處理,而系統(tǒng)中的數(shù)據(jù)復(fù)雜散落不易處理,所以需要將同類信息按模塊分類存儲,ODI存儲技術(shù)恰好是以模塊或儲存庫為核心而展開的應(yīng)用技術(shù),它將系統(tǒng)的數(shù)據(jù)庫分為一個主存儲庫和多個有關(guān)聯(lián)的工作存儲庫,數(shù)據(jù)處理人員利用ODI存儲技術(shù)可以根據(jù)實際情況制定存儲模塊或?qū)Υ鎯δK內(nèi)部信息進行更改,從而實現(xiàn)批量數(shù)據(jù)處理腳本的集中管理,使批量處理的效率大幅度提升。
3 結(jié)論
目前電力用戶用電信息采集系統(tǒng)不僅要實現(xiàn)準確、全面、及時的采集數(shù)據(jù),而且要高效、準確的對采集的信息進行計算處理,以供相關(guān)部門的查詢和應(yīng)用,所以在優(yōu)化系統(tǒng)存儲空間的同時,要加大系統(tǒng)對數(shù)據(jù)處理的能力。
參考文獻
[1]朱彬若,杜衛(wèi)華,李蕊.電力用戶用電信息采集系統(tǒng)數(shù)據(jù)分析與處理技術(shù)[J].華東電力,2011,12(10):162-166.
[2]董俐君,張芊.數(shù)據(jù)處理與智能分析技術(shù)在用電信息采集系統(tǒng)中的應(yīng)用[J].華東電力,2013,12(27):255-256.
所謂大數(shù)據(jù),一方面是指在一定時間內(nèi)無法被常規(guī)信息技術(shù)和傳統(tǒng)數(shù)據(jù)庫管理軟硬件工具感知、獲取和處理的巨量數(shù)據(jù)集合;另一方面,是指形成、管理、挖掘大數(shù)據(jù), 快速搜集、處理、分析大數(shù)據(jù)的技術(shù)和能力。
大數(shù)據(jù)的主要特點是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實時處理。大數(shù)據(jù)技術(shù),或大數(shù)據(jù)分析技術(shù),就是對這些數(shù)量巨大的海量數(shù)據(jù)進行搜索、整理、分析、加工,以便獲得有價值的產(chǎn)品和服務(wù),以及提煉出具有深刻見解和潛在價值信息的技術(shù)和手段。
1 大數(shù)據(jù)分析在公共交通中的應(yīng)用
交通擁堵日益嚴重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問題,科學(xué)分析交通管理體系成為改善城市交通的關(guān)鍵所在。因此,高效、準確地獲取交通數(shù)據(jù)是構(gòu)建合理城市交通管理體系的前提,而這一難題可以通過大數(shù)據(jù)管理得到解決。
大數(shù)據(jù)分析技術(shù)改變了傳統(tǒng)公共交通的路徑:大數(shù)據(jù)可以跨越行政區(qū)域的限制;大數(shù)據(jù)可以高效地整合交通信息;大數(shù)據(jù)可以較好地配置公共交通資源;大數(shù)據(jù)可以促進公共交通均衡性發(fā)展。在大數(shù)據(jù)中,隨著數(shù)據(jù)庫攝入更多數(shù)據(jù),所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準。大數(shù)據(jù)在公共交通中的應(yīng)用表現(xiàn)在:一旦某個路段發(fā)生問題,能立刻從大數(shù)據(jù)中調(diào)出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數(shù)據(jù)具有較高預(yù)測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態(tài)性給予實時監(jiān)控。因此,在駕駛者無法預(yù)知交通擁堵的可能性時,大數(shù)據(jù)可幫助用戶預(yù)先了解。
2 大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域中的應(yīng)用
在醫(yī)學(xué)領(lǐng)域,我們正處在一醫(yī)學(xué)信息爆炸的時代?;蛐蛄小⒏鞣N醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時代。如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問題,構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過互聯(lián)網(wǎng)連接,實現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享。將醫(yī)療數(shù)據(jù)存于專門的數(shù)據(jù)庫中,在信息協(xié)作平臺上將各種醫(yī)療信息分類整合,建立成一個相互共享的網(wǎng)絡(luò),從而實現(xiàn)醫(yī)療數(shù)據(jù)信息的共享。
大數(shù)據(jù)技術(shù)的核心就是預(yù)測,使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準確率,對有效地治療疾病具有重要價值。其中最好地體現(xiàn)在傳染病預(yù)測上,因為傳染病的發(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟全球化背景下,自然環(huán)境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預(yù)測、預(yù)警具有重要意義。利用大數(shù)據(jù)可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現(xiàn)對傳染病的流行趨勢及影響范圍進行預(yù)測、預(yù)警,對提高傳染病防控的針對性、預(yù)見性和主動性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。
3 大數(shù)據(jù)分析在移動通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用
當(dāng)前的大數(shù)據(jù)技術(shù)面臨著數(shù)據(jù)過大和安全隱患越多這兩個問題。在移動通信網(wǎng)絡(luò)發(fā)展的過程中,網(wǎng)上用戶在不斷增加,通信網(wǎng)絡(luò)的范圍在不斷擴大, 而移動通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量也在不斷上升。大數(shù)據(jù)技術(shù)和移動通信網(wǎng)絡(luò)的安全問題密切相關(guān),一旦技術(shù)出現(xiàn)漏洞,移動通信網(wǎng)絡(luò)的數(shù)據(jù)就會出現(xiàn)安全隱患。大數(shù)據(jù)技術(shù)中存儲功能的是云儲存技術(shù),它將大量的網(wǎng)絡(luò)數(shù)據(jù)放在統(tǒng)一的平臺之上,加大了數(shù)據(jù)丟失的風(fēng)險,影響移動通信網(wǎng)絡(luò)的安全。
優(yōu)化移動通信網(wǎng)絡(luò),需要運用大數(shù)據(jù)技術(shù)的儲存功能。移動通信網(wǎng)絡(luò)的用戶在不斷變化,每天都要更新大量的數(shù)據(jù),而且這些數(shù)據(jù)都需要進行妥善管理和保存。在這一過程中,可以應(yīng)用大數(shù)據(jù)技術(shù)的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。
優(yōu)化移動通信網(wǎng)絡(luò),需要獲取相關(guān)的數(shù)據(jù)信息。移動通信網(wǎng)絡(luò)的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網(wǎng)絡(luò)留下的海量的數(shù)據(jù)信息,使數(shù)據(jù)獲取工作難以繼續(xù)。在進行數(shù)據(jù)的獲取和收集工作時,移動通信網(wǎng)絡(luò)可以應(yīng)用大數(shù)據(jù)技術(shù),減少人力和物力的投入,同時增加數(shù)據(jù)的準確度。
4 結(jié)語
本文是大數(shù)據(jù)技術(shù)在實際生活領(lǐng)域的應(yīng)用,分別闡述了大數(shù)據(jù)分析技術(shù)在公共交通、醫(yī)藥領(lǐng)域、移動通信網(wǎng)絡(luò)優(yōu)化中的具體運用。借助大數(shù)據(jù)技術(shù)的即時性、準確性和預(yù)測性,將其應(yīng)用到人們的日常生活領(lǐng)域,提高了人們的生活質(zhì)量。
參考文獻
[1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用[J]. 圖書與情報,2012(06):22-28.
[2]張春麗,成.大數(shù)據(jù)分析技術(shù)及其在醫(yī)藥領(lǐng)域中的應(yīng)用[J].標記免疫分析與臨床,2016(03):327-333.
[3]汪敏,廖名揚.大數(shù)據(jù)分析在移動通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用研究[J].通訊世界,2017(02):123.
[4]祝興平.大數(shù)據(jù)分析技術(shù)及其在數(shù)字出版中的應(yīng)用[J].出版發(fā)行研究,2014(04):13-16.
[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報,2014(09):1889-1908.
作者簡介
中圖分類號:TM76 文獻標識碼:A 文章編號:1007-9416(2017)02-0117-01
1 云計算在大數(shù)據(jù)分析技術(shù)探究
1.1 SQL語句
云計算系統(tǒng)的使用中,主要應(yīng)用SQL語句對電力系統(tǒng)中的信息資源進行存儲,例如:電力供應(yīng)系統(tǒng)中檢測電力輸送系統(tǒng)中,電流應(yīng)用總量,電流輸送區(qū)域的大小[1],電力時速送管理人員為了達到電力供應(yīng)的合理性分配,應(yīng)用云計算進行電流輸送的系統(tǒng)化分配,云計算系統(tǒng)結(jié)合計算機應(yīng)用系統(tǒng)的相關(guān)數(shù)據(jù),實現(xiàn)電力系統(tǒng)的資源供應(yīng)與電力資源區(qū)域性分配快速處理,從而到達電力供應(yīng)系統(tǒng)的資源供應(yīng)的數(shù)據(jù)信息處理結(jié)構(gòu)科學(xué)性的劃分。此外,SQL語句執(zhí)行電力系統(tǒng)的大數(shù)據(jù)信息時系統(tǒng)主要采用相對完善的SQL系統(tǒng)化程序,避免系統(tǒng)數(shù)據(jù)的應(yīng)用信息安全,避免應(yīng)用信息在使用受到外界病毒的直接入,實現(xiàn)了電力系統(tǒng)信息資源處理的安全性、系統(tǒng)性、科學(xué)性發(fā)展。
1.2 分層次處理技術(shù)
云計算系統(tǒng)的應(yīng)用,采用分層次處理技術(shù)對計算機處理系統(tǒng)進行系統(tǒng)處理,實現(xiàn)電力系統(tǒng)中建立的電力信息收集、電力信息存儲、電力數(shù)據(jù)應(yīng)用的結(jié)構(gòu)化管理,依據(jù)電力供應(yīng)中大數(shù)據(jù)管理系統(tǒng)進行系統(tǒng)分支化管理,從而達到電力系統(tǒng)資源在電力供應(yīng)各個系統(tǒng)之間相互聯(lián)系,又相互對立,云計算強大的SQL系統(tǒng)可以實現(xiàn)電力系統(tǒng)的大數(shù)據(jù)同一時間內(nèi)的分析計算。大大提高了電力供應(yīng)系統(tǒng)的數(shù)據(jù)處理速率,同時也保障我國電力系統(tǒng)數(shù)據(jù)處理的層次化管理[2]。
1.3 數(shù)據(jù)處理檢測技術(shù)
云計算在電力系統(tǒng)大數(shù)據(jù)處理技術(shù)中的應(yīng)用,采用算機數(shù)據(jù)處理檢測技術(shù),云計算系統(tǒng)中計算機應(yīng)用處理技術(shù)采用計算機自動化處理系統(tǒng),系統(tǒng)內(nèi)部能夠依據(jù)電力系統(tǒng)的處理信息,形成SQL系統(tǒng)語句檢測系統(tǒng),完善計算機自動化處理空間,使電力供應(yīng)系統(tǒng)的數(shù)據(jù)處理結(jié)構(gòu)可以得到應(yīng)用系統(tǒng)的數(shù)據(jù)應(yīng)用保障,實現(xiàn)我國電力管理系統(tǒng)的進一步智能化發(fā)展。
2 從云計算的優(yōu)勢分析應(yīng)用
2.1 處理速率快
云計算是現(xiàn)代計算機系統(tǒng)逐步開發(fā)的重要體現(xiàn)。云計算系統(tǒng)的運行以計算機內(nèi)部數(shù)據(jù)處理系統(tǒng)為基礎(chǔ),同時結(jié)合虛擬數(shù)據(jù)挖掘,進行計算機系統(tǒng)的進一步完善,虛擬空間的綜合性應(yīng)用,實現(xiàn)了云計算在電力大數(shù)據(jù)信息處理中,云計算的系統(tǒng)計算處理速率快,云計算的實現(xiàn)避免了傳統(tǒng)計算機大數(shù)據(jù)的整體性計算,而是采用計算機系統(tǒng)中SQL語句[3],保障計算機系統(tǒng)運行中,將整體化大數(shù)據(jù)分割成不同層次數(shù)據(jù),從而實現(xiàn)系統(tǒng)數(shù)據(jù)的綜合性運行,大大提高了計算機系統(tǒng)運行的計算縮率。
2.2 兼容性強
云計算在電力供應(yīng)中的應(yīng)用,實現(xiàn)了電力系統(tǒng)供應(yīng)中大數(shù)據(jù)處理技術(shù)的兼容性提高,云計算的計算方式主要應(yīng)用分布式處理系統(tǒng)對大數(shù)據(jù)信息進行控制,從而可以實現(xiàn)多種電力處理系統(tǒng)的信息管理資源在整體應(yīng)用中的綜合性探索[4],例如:當(dāng)電力大數(shù)據(jù)分析系統(tǒng)中的輸送電力系統(tǒng)的信息資源在初期存儲中受到嚴重的損壞,無法對后期的電力系統(tǒng)信息處理提供完善的信息資源,云計算能夠通過語句處理,實現(xiàn)對電力供應(yīng)系統(tǒng)的大數(shù)據(jù)分析系統(tǒng)進行調(diào)節(jié)與控制,系統(tǒng)中也可以將電力系統(tǒng)中,多種電力輸送系統(tǒng)的資源形式在同一種電力大數(shù)據(jù)處理系統(tǒng)中進行調(diào)節(jié)控制,完善不同的信息資源處理。由此可見,云計算在電力大數(shù)據(jù)處理系統(tǒng)中的應(yīng)用,為提高電力系統(tǒng)的信息應(yīng)用范圍額進一步完善提供新的技術(shù)支持。
2.3 數(shù)據(jù)存儲空間性大
云計算技術(shù)電力系統(tǒng)大數(shù)據(jù)處理中的應(yīng)用,擁有數(shù)據(jù)存儲空間性大的特點。電力資源作為社會發(fā)展的主要動力之一,在社會中的應(yīng)用范圍得到進一步提高,較大的電力資源容量為電力系統(tǒng)建設(shè)的進一步完善帶來問題。云計算采用虛擬空間存儲技術(shù),數(shù)據(jù)計算的存儲空間也主要應(yīng)用虛擬空間,為電力系統(tǒng)的大數(shù)據(jù)處理系統(tǒng)的綜合性應(yīng)用提供了較大的存儲空間,能夠保障逐步擴大的電力系統(tǒng)中大數(shù)據(jù)處理的完整性[5]。
3 結(jié)語
云計算系統(tǒng)是現(xiàn)代計算機系統(tǒng)的主要分支,云計算中應(yīng)用SQL系統(tǒng),分層次處理系統(tǒng)以及數(shù)據(jù)智能化檢測系統(tǒng)實現(xiàn)了系統(tǒng)資源的綜合性應(yīng)用,對云計算在電力大數(shù)據(jù)分析技術(shù)的探究,實現(xiàn)了電力系統(tǒng)的信息管理結(jié)構(gòu)逐步完善,為我國電力管理系統(tǒng)的進一步發(fā)展提供技術(shù)支持。
參考文獻
[1]彭小圣,鄧迪元,程時杰,文勁宇,李朝暉,牛林.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J/OL].中國電機工程學(xué)報,2015(03).
[2]吳凱峰,劉萬濤,李彥虎,蘇伊鵬,肖政,裴旭斌,虎嵩林.基于云計算的電力大數(shù)據(jù)分析技術(shù)與應(yīng)用[J].中國電力,2015,02:111-116+127.
中圖分類號:TP393 文獻標識碼:A
1 引言
在信息時代,信息技術(shù)的快速發(fā)展對社會各個領(lǐng)域都產(chǎn)生了一定的影響,在電子商務(wù)中反映尤為突出。對于學(xué)校教務(wù)系統(tǒng)的應(yīng)用相對較晚,但教務(wù)數(shù)據(jù)對學(xué)校而言,是最基本的數(shù)據(jù),這些數(shù)據(jù)的保留是學(xué)校運作的根本。對教務(wù)數(shù)據(jù)的分析也是對學(xué)校教學(xué)效果的評定,能夠從龐大的教務(wù)數(shù)據(jù)中挖掘出更潛在的信息,既是對學(xué)校運行狀況的更深入了解,又有利于學(xué)校對未來發(fā)展方向的決策。
2 教務(wù)管理狀況分析
教務(wù)管理不僅是處理學(xué)校的日常事務(wù),它更重要的作用體現(xiàn)在可以反映學(xué)校的教學(xué)效果和分析學(xué)校培養(yǎng)方向的正確性,并以此幫助學(xué)校向更好的方向發(fā)展。教務(wù)數(shù)據(jù)分析的處理到目前為止經(jīng)歷了人工和計算機處理的兩大階段。
2.1 人工處理階段
為了反映較大范圍教務(wù)情況的整體特征,教務(wù)部門通常要付出龐大的人力和物力收集和分析大量數(shù)據(jù)。這個數(shù)據(jù)的收集通常要經(jīng)歷一個較長的時間,間隔一段時間還必須重復(fù)執(zhí)行。比如開課計劃、學(xué)生成績、教室使用情況等。然而,分析收集來的海量數(shù)據(jù)更是教務(wù)部門頭疼的一件事。
還沒有出現(xiàn)計算機前,光靠人工來處理數(shù)據(jù)有時還會面臨這樣的窘境:上一期的數(shù)據(jù)結(jié)果還沒分析出來,下一期的數(shù)據(jù)收集又要開始了,因此整個數(shù)據(jù)收集和分析工作變得沒有任何意義。另外,有些數(shù)據(jù)需要間隔一段時間重新收集,然后進行短期和長期的分析數(shù)據(jù)。比如成績分析,若按照4年制本科為一個分析周期。首先,每學(xué)期教務(wù)部門要進行一次短期成績分析。其次每學(xué)年教務(wù)部門就需對即將畢業(yè)的本科前4年的所有成績做一次中長期成績分析。然而,如果學(xué)校還需了解長期以來各級學(xué)生的學(xué)習(xí)情況,則還必須知道近10年、20年、50年甚至更長時間的成績發(fā)展趨勢,那么光靠人工去翻閱以前的數(shù)據(jù)就是件很困難的工作了。所以人工處理數(shù)據(jù)階段,有許多教務(wù)數(shù)據(jù)分析工作受到很大限制。
2.2 計算機處理階段
自計算機出現(xiàn)后,許多領(lǐng)域的工作發(fā)生了翻天覆地的變化,教務(wù)管理同樣也不會忽略如此有效的技術(shù)手段。20世紀80年代以來,我國一直關(guān)注信息化在各領(lǐng)域的應(yīng)用,教務(wù)管理信息化的發(fā)展大致經(jīng)歷了以下三個階段:面向數(shù)據(jù)處理的第一代教務(wù)管理、面向信息處理的第二代教務(wù)管理、面向知識處理的第三代教務(wù)管理。在前兩個階段中,許多教務(wù)工作確實提高了效率,但是教務(wù)海量數(shù)據(jù)中隱含的價值仍不能被有效發(fā)掘與利用。正如在一大座金山中,獲取更有價值的黃金還需更細致更有效的清理和挖掘。
雖然在前些年,學(xué)校各級部門具備了一定的信息化基礎(chǔ)設(shè)施,為構(gòu)建信息化教務(wù)系統(tǒng)奠定了基礎(chǔ)。但是,由于缺乏統(tǒng)一的規(guī)劃,學(xué)校各子系統(tǒng)或多或少存在“信息孤島”的問題,也沒有有效的方法從海量數(shù)據(jù)資源中快速挖掘更有價值的知識信息。因此,耗費成本收集的數(shù)據(jù)沒有利用就被棄置了,教務(wù)數(shù)據(jù)分析僅停留在表面。
由于信息技術(shù)的發(fā)展,信息化時代逐漸進入第三展中,即有效應(yīng)用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)挖掘知識。
3 DW和DM技術(shù)
數(shù)據(jù)倉庫(DataWare,即DW)是指一個面向主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策[1]。當(dāng)大量的數(shù)據(jù)被整合在一起后,從用戶分析角度來看,使用這些數(shù)據(jù)的手段是多方面和多層次的。面向知識處理的教務(wù)系統(tǒng)應(yīng)能夠自動剔除掉不需要的數(shù)據(jù),按照用戶的要求整合雜亂的數(shù)據(jù)資源,獲取某些可用的屬性。而且,學(xué)校的決策通常是經(jīng)過觀察長期發(fā)展的狀況而制定的。其間,需要分析5年、10年,甚至幾十年的大量相關(guān)數(shù)據(jù)資源。因此,教務(wù)數(shù)據(jù)需要被長期且穩(wěn)定的存儲。在日常收集數(shù)據(jù)和整理數(shù)據(jù)時,利用數(shù)據(jù)倉庫的思想來進行,有利于我們充分發(fā)揮數(shù)據(jù)挖掘技術(shù)進行知識的挖掘。
數(shù)據(jù)挖掘(Data Mining,即DM)是指從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
首先,我們要確定數(shù)據(jù)挖掘的對象有哪些。數(shù)據(jù)資源可以從多方面獲得,如系統(tǒng)分析設(shè)計人員向不同范圍的業(yè)務(wù)對象調(diào)研獲得,或反之業(yè)務(wù)對象主動向系統(tǒng)設(shè)分析設(shè)計人員提出;在互聯(lián)網(wǎng)時代,從網(wǎng)絡(luò)中獲得數(shù)據(jù)資源更快更多了。
其次,要有效地應(yīng)用數(shù)據(jù)挖掘技術(shù),就要遵循科學(xué)的應(yīng)用流程。一般的挖掘流程是:(1)確定挖掘?qū)ο?;?)數(shù)據(jù)準備;(3)數(shù)據(jù)挖掘,即模式提取;(4)結(jié)果分析,即模式評估。[2]
數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般可以分為兩類:描述和預(yù)測。描述性挖掘任務(wù)刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預(yù)測性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進行推斷,以進行預(yù)測。數(shù)據(jù)挖掘系統(tǒng)要能夠挖掘多種類型的模式,以適應(yīng)不同的用戶需求或不同的應(yīng)用。數(shù)據(jù)挖掘功能以及它們可以發(fā)現(xiàn)的模式類型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。
4 建立面向知識處理的教務(wù)數(shù)據(jù)分析系統(tǒng)
按照上述數(shù)據(jù)挖掘的基本流程,以教務(wù)系統(tǒng)中成績分析為例介紹如何讓教務(wù)系統(tǒng)實現(xiàn)面向知識的處理。
4.1 構(gòu)建教務(wù)系統(tǒng)的數(shù)據(jù)倉庫
這部分主要分為四個任務(wù):確定教務(wù)系統(tǒng)中的數(shù)據(jù)源;Web數(shù)據(jù)的預(yù)處理;多維Web數(shù)據(jù)模式的建立;應(yīng)用OLAP技術(shù)。
4.1.1確定教務(wù)系統(tǒng)中的數(shù)據(jù)源
教務(wù)系統(tǒng)的數(shù)據(jù)主要從兩個方面獲得:
(1)各學(xué)院開課計劃、學(xué)校學(xué)計劃;
(2)教師提交的各門課程的成績。
第一方面的數(shù)據(jù)主要由學(xué)校、各學(xué)院按照培養(yǎng)計劃每學(xué)期提交,包括各專業(yè)班級的課程安排、授課教師、課時、學(xué)分等。這部分數(shù)據(jù)主要以Excel表格形式提交,教務(wù)部門對這部分的數(shù)據(jù)收集與存儲大部分停留在文檔形式。
第二方面的數(shù)據(jù)主要在學(xué)期末由授課教師分專業(yè)班級和課程提交。目前,這部分的數(shù)據(jù)收集有的以紙質(zhì)文檔形式收集,有的以Excel文檔形式收集,也有的實現(xiàn)了數(shù)據(jù)庫收集存儲。
在進行數(shù)據(jù)挖掘之前,首先要將這兩方面的數(shù)據(jù)完全實現(xiàn)數(shù)據(jù)庫收集與存儲。隨著教務(wù)數(shù)據(jù)與日俱增,還需使用數(shù)據(jù)倉庫來管理這些數(shù)據(jù)。
目前,有許多學(xué)校實現(xiàn)了在線登錄成績的信息化。那么如何對龐大的Web數(shù)據(jù)建立數(shù)據(jù)倉庫呢?
4.1.2 Web數(shù)據(jù)的預(yù)處理
通過Web收集的數(shù)據(jù)稱之為原始數(shù)據(jù),管理員可根據(jù)需要用某些字段記錄相關(guān)數(shù)據(jù)。如:專業(yè)班級名稱,教師登錄名,課程名稱,成績比例,分數(shù),提交時間等。對Web數(shù)據(jù)的預(yù)處理包括兩步。第一步:清除噪音,即去掉對知識挖掘無關(guān)的數(shù)據(jù)。第二步:轉(zhuǎn)化數(shù)據(jù),即將原始數(shù)據(jù)按照挖掘需求,通過重新組織或簡單計算轉(zhuǎn)換成規(guī)范模式。
4.1.3多維Web數(shù)據(jù)模式的建立
分為三步進行。第一步,選取維。多維數(shù)據(jù)便于我們從多個角度、多個側(cè)面對數(shù)據(jù)庫中的數(shù)據(jù)進行觀察、分析,以深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。N維數(shù)據(jù)矩陣用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i維,i=1,2,...,n, count是變量,反映數(shù)據(jù)的實際意義。
數(shù)據(jù)單元用r[A1:a1,...,An:an,count]模式表示,即為維Ai選定一個維成員ai,i=l,…,n,這些維成員的組合唯一確定了變量count的一個值。通常,需要了解成績的分布情況,可以選取專業(yè)班級維、時間維、課程維構(gòu)建數(shù)據(jù)矩陣,以形成多維視圖。
第二步,構(gòu)造多維視圖。先選取Date維(按學(xué)期組織)、Class維(按專業(yè)班級組織)用二維形式表示每個專業(yè)班級各學(xué)期的成績狀況。然后加入第三維Course維(按課程組織),進一步構(gòu)建成績分布的三維視圖。視圖顯示的事實是Course_Class_Analyse(課程專業(yè)學(xué)習(xí)情況)。
第三步,創(chuàng)建多維數(shù)據(jù)模式。最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型。最常見的模型范例是星型模式。
4.1.4應(yīng)用OLAP技術(shù)
OLAP,即在線聯(lián)機處理。應(yīng)用OLAP技術(shù)可以很方便地從Web數(shù)據(jù)矩陣中作出一些簡單的結(jié)論性分析,如回答一些問題:(1)哪些專業(yè)班級學(xué)習(xí)情況較好,哪些較差?(2)哪些專業(yè)課程成績較高,哪些較低?我們可以充分利用多維數(shù)據(jù)模型上的OLAP操作,如下鉆(drill-down)、上卷(roll-up)、切片分析(slice)和切塊分析(dice)等技術(shù)對問題進行求解。
4.2 挖掘模式的有效應(yīng)用
應(yīng)用數(shù)據(jù)挖掘技術(shù)可以自動發(fā)現(xiàn)學(xué)生學(xué)習(xí)傾向和專業(yè)發(fā)展趨勢。
4.2.1數(shù)據(jù)挖掘技術(shù)應(yīng)用的范圍
雖然現(xiàn)在已有很多學(xué)校都建立了自己的教務(wù)管理網(wǎng)站,但教職工與學(xué)生僅僅只在Web上進行成績的登錄和查詢。這樣的教務(wù)網(wǎng)站只是提供了收集數(shù)據(jù)的快捷途徑,并沒有從根本上體現(xiàn)本身應(yīng)有的應(yīng)用價值。教務(wù)系統(tǒng)希望能夠從其門戶網(wǎng)站中收集大量原始數(shù)據(jù),并依此發(fā)掘更深入的服務(wù)信息。同時,學(xué)校高層也希望能從教務(wù)系統(tǒng)中發(fā)現(xiàn)學(xué)生的學(xué)習(xí)情況,課程計劃的實施效果等。這些都需要從海量的教務(wù)數(shù)據(jù)中應(yīng)用特定的挖掘模型反映出來?;诖?,對于下一次培養(yǎng)計劃的修訂才有現(xiàn)實的數(shù)據(jù)支撐。
4.2.2應(yīng)用挖掘模式提取和分析知識
根據(jù)不同的應(yīng)用要求,在數(shù)據(jù)挖掘模式中選擇合適的方法進行計算,提取有效數(shù)據(jù),得出知識。對于教務(wù)系統(tǒng)而言,可以應(yīng)用聚類方法確定特定不同成效的學(xué)生與課程的分布,從而識別出一些問題:
(1) 對于某個專業(yè)班級,哪些課程學(xué)習(xí)效果較好;
(2) 對于學(xué)習(xí)效果較好的課程,是因為教學(xué)效果好,還是開課計劃恰當(dāng);
(3) 對比同一門課的不同專業(yè)班級,以輔助各學(xué)院分析培養(yǎng)計劃的適應(yīng)性。
5 結(jié)束語
關(guān)于DW and DW 技術(shù)對教務(wù)數(shù)據(jù)分析的應(yīng)用,還有許多值得繼續(xù)深入研究。但是,不論從哪個方向進行研究,都必須要以提高教務(wù)處理能力為宗旨,讓教務(wù)資源發(fā)揮最大的輔助決策價值。
參考文獻:
[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.
本文討論了一些站點分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉庫的相關(guān)理論知識。并對站點日志數(shù)據(jù)進行了實例分析,并指出了站點分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實行各種商務(wù)活動的總包裝,種種所謂電子商務(wù)解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務(wù)活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務(wù)的主體是我們每一個人、每一個企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務(wù)站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠的影響。
在電子商務(wù)早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分數(shù)據(jù)根本無結(jié)構(gòu),而部分數(shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤?。它是分析Web頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測的模型,提高預(yù)測結(jié)果的準確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個商品交易數(shù)據(jù)庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}{D}[2%][60%],規(guī)則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數(shù)的2%而購買A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對決策有幫助的關(guān)聯(lián)規(guī)則,相對于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。
另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問題。由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個數(shù)據(jù)源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標準化的數(shù)據(jù)基礎(chǔ)上進行的,因而這些都會嚴重破壞數(shù)據(jù)的準確性,導(dǎo)致最終決策的失誤。所有這些問題都在等待著人們?nèi)グl(fā)掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數(shù)據(jù)挖掘的模型與算法研究”,《計算機研究與發(fā)展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
中圖分類號:TP274文獻標識碼:A 文章編號:1009-3044(2009)36-10604-02
The Implement of Financial Data Analysis Module Base on SSAS Technology
HE Ying-gang, CHEN Jian-xiong
(Chengyi College, Jimei University, Xiamen 361021, China)
Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.
Key words: data mining; financial data analysis; analysis services
目前許多金融交易系統(tǒng)都為用戶提供了技術(shù)指標的編寫工具。在編寫指標計算公式時,往往有各種參數(shù)需要用戶進行選擇和設(shè)置,合理的參數(shù)組合所得出的結(jié)果可以使得用戶作出正確判斷,但是這類金融系統(tǒng)中并未提供最佳參數(shù)搜索功能,這使得用戶需要耗費許多時間對分析驗證參數(shù)。隨著數(shù)據(jù)挖掘技術(shù)的成熟和發(fā)展,為這類問題的解決提供了解決方法和途徑。
由于許多金融公司都有使用Microsoft SQL Server系列數(shù)據(jù)庫系統(tǒng)作為內(nèi)部系統(tǒng)的數(shù)據(jù)庫平臺,而微軟公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通過服務(wù)器和客戶端技術(shù)的組合為客戶提供聯(lián)機分析處理 (OLAP) 和數(shù)據(jù)挖掘功能。這使得我們可以在不改變現(xiàn)有數(shù)據(jù)庫系統(tǒng)的前提下,在原有的公司業(yè)務(wù)系統(tǒng)的基礎(chǔ)上開發(fā)數(shù)據(jù)挖掘分析模塊。基于SSAS本文提出了一種實現(xiàn)金融數(shù)據(jù)分析模塊的解決方案。
1 金融數(shù)據(jù)分析模塊的數(shù)據(jù)挖掘功能的設(shè)計
1.1 功能設(shè)計
金融數(shù)據(jù)分析模塊主要應(yīng)用于對指標參數(shù)的搜索,尋找最合適的指標參數(shù)值。所以系統(tǒng)應(yīng)具有的功能有:1)根據(jù)用戶的需要,提供指標公式設(shè)計和參數(shù)設(shè)置;2)提供靈活直觀的圖形顯示;3)用戶能夠指定數(shù)據(jù)挖掘算法的參數(shù)值,并查看數(shù)據(jù)挖掘生成的規(guī)則。
1.2 結(jié)構(gòu)設(shè)計
數(shù)據(jù)分析模塊的設(shè)計采用了三層體系結(jié)構(gòu),分別為:1)數(shù)據(jù)訪問層,實現(xiàn)對金融日志數(shù)據(jù)的采集、清理和轉(zhuǎn)換;2)數(shù)據(jù)挖掘業(yè)務(wù)層;3)分析結(jié)果表示層,表示層把各種參數(shù)組合所對應(yīng)的數(shù)據(jù)挖掘分析結(jié)果以圖形化或表格化的方式展現(xiàn)出來,方便用戶能夠?qū)Ρ雀鞣N參數(shù)組合的優(yōu)劣。為了避免對數(shù)據(jù)庫系統(tǒng)性能造成影響,模塊使用獨立的數(shù)據(jù)倉庫系統(tǒng)。開發(fā)框架如圖1所示。
2 金融數(shù)據(jù)分析模塊的數(shù)據(jù)挖掘功能模塊的實現(xiàn)和關(guān)鍵技術(shù)
指標公式參數(shù)的求解是一類系統(tǒng)優(yōu)化問題。遺傳算法是一種求最優(yōu)解或近似最優(yōu)解的全局優(yōu)化搜索算法。使用遺傳算法比傳統(tǒng)的枚舉算法和啟發(fā)式算法具有諸多優(yōu)點,例如:搜索使用評價函數(shù)啟發(fā),過程簡單;搜索從群體出發(fā),具有并行性;與問題領(lǐng)域無關(guān)的快速隨機搜索能力等等。由于SSAS所提供的數(shù)據(jù)挖掘算法中沒有包含遺傳算法,所以為了實現(xiàn)最優(yōu)參數(shù)搜索,必須在數(shù)據(jù)挖掘模塊中加入遺傳算法。本文將指標計算公式的參數(shù)作為染色體基因,一種參數(shù)組合作為一個個體。然后根據(jù)個體基因數(shù)據(jù)生成指標值,并對指標值進行數(shù)據(jù)挖掘和預(yù)測,對預(yù)測結(jié)果的準確性進行評分,預(yù)測效果最好的參數(shù)組合將作為最佳選擇提供給用戶。遺傳算法實現(xiàn)可以參考有關(guān)文獻。本文所設(shè)計的主要處理流程如圖2所示。
在圖2流程中使用SSAS對每一種參數(shù)組合計算生成的指標數(shù)據(jù)進行數(shù)據(jù)挖掘分析和預(yù)測。SSAS是基于數(shù)據(jù)挖掘模型進行處理的,數(shù)據(jù)挖掘模型是一個數(shù)據(jù)結(jié)構(gòu),包含了數(shù)據(jù)關(guān)系、多維數(shù)據(jù)的分組和預(yù)測分析、數(shù)據(jù)挖掘算法等。用SSAS進行數(shù)據(jù)挖掘過程分為三個步驟:創(chuàng)建挖掘模型、訓(xùn)練挖掘模型和利用挖掘模型生成的規(guī)則進行預(yù)測。
2.1 創(chuàng)建數(shù)據(jù)挖掘模型
開發(fā)人員可以利用Visual Studio 2005內(nèi)置Analysis Services項目模板快速創(chuàng)建數(shù)據(jù)挖掘模型,也可以利用DMX數(shù)據(jù)挖掘查詢語言創(chuàng)建和處理數(shù)據(jù)挖掘模型。下面是一個利用關(guān)聯(lián)規(guī)則算法建立的外匯利潤預(yù)測分析的挖掘模型的例子。選擇交易時間做為主鍵,該字段用來唯一表示某時間段內(nèi)外匯交易價格。
CREATE MINING MODEL DM (
Ftime Date KEY,
KvalueDoublediscrete,
DvalueDoublediscrete,
…….
ProfitLeveldiscrete PREDICT)
USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)
2.2 訓(xùn)練挖掘模型
SSAS將挖掘模型保存在數(shù)據(jù)庫服務(wù)器端,然后訓(xùn)練挖掘模型生成數(shù)據(jù)挖掘規(guī)則。AMO(Analysis Management Object)是微軟提供給開發(fā)人員使用的管理SSAS的主要接口,開發(fā)人員可以使用AMO創(chuàng)建、管理和處理挖掘模型,立方體,分區(qū)等Analysis Services對象。以下是在戶端程序中使用AMO與Analysis Services進行數(shù)據(jù)交互,訓(xùn)練挖掘模型的簡單例子。
Svr=new Server();
Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);
Db=svr.Databases.GetByName(“DM”); //獲取數(shù)據(jù)挖掘模型對象
Db.Process(ProcessType.ProcessFull); //調(diào)用訓(xùn)練和處理挖掘模型
Svr.Disconnect();
2.3 預(yù)測
挖掘模型訓(xùn)練完后,SSAS生成挖掘規(guī)則并可以用來進行預(yù)測。本文算法流程中將指標數(shù)據(jù)預(yù)留一部分用于預(yù)測,然后使用SSAS提供的SQL擴展語言,實現(xiàn)預(yù)測任務(wù)。以下是一個客端程序的預(yù)測連接例子:
AdomdConnectionConn=new AdomdConnection(……);
AdomdClient.AdomdConnand Comm=Conn.CreateCommand();
AdomdDataReader reader;
mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);
//構(gòu)建數(shù)據(jù)挖掘預(yù)測語句
Reader=Comm.ExecuteReader();
上述第四行程序語句涉及數(shù)據(jù)挖掘模型和數(shù)據(jù)測試表,使用一個實例集進行預(yù)測,返回預(yù)測結(jié)果數(shù)據(jù)表格。
3 總結(jié)
該文分析了一種金融數(shù)據(jù)分析模塊的設(shè)計方法和實現(xiàn),該模塊可以被重復(fù)開發(fā)和利用。若用戶自定義新的指標計算公式,只需要修改數(shù)據(jù)挖掘模型和預(yù)測連接語句即可運行。在實際應(yīng)用中,該系統(tǒng)模塊的原型證明能夠幫助金融分析員提高工作效率。
參考文獻:
[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.