伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

數(shù)據(jù)分析分析技術(shù)模板(10篇)

時(shí)間:2023-05-17 16:51:33

導(dǎo)言:作為寫(xiě)作愛(ài)好者,不可錯(cuò)過(guò)為您精心挑選的10篇數(shù)據(jù)分析分析技術(shù),它們將為您的寫(xiě)作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

數(shù)據(jù)分析分析技術(shù)

篇1

中圖分類(lèi)號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)1110077-01

一、引言

聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的,OLAP是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪(fǎng)問(wèn)和分析。通過(guò)對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入地觀察。OLAP的目標(biāo)是滿(mǎn)足決策支持或多維環(huán)境特定的查詢(xún)和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。

二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開(kāi)發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問(wèn)題。事實(shí)上,有許多方法可以構(gòu)造多維數(shù)據(jù)。

(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來(lái)描述一個(gè)對(duì)象,每個(gè)維彼此垂直。數(shù)據(jù)的測(cè)量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性。

這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫(kù)和面向關(guān)系數(shù)據(jù)庫(kù)的OLAP系統(tǒng)中,其主要特點(diǎn)是簡(jiǎn)化終端用戶(hù)的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。

(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個(gè)多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對(duì)維進(jìn)行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強(qiáng)的靈活性,提高了數(shù)據(jù)的分析效率。

一般來(lái)說(shuō),多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報(bào)告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲(chǔ)稀疏矩陣的一個(gè)更有效方法,并能減少計(jì)算量。因此,復(fù)雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿(mǎn)足常用的應(yīng)用需求。

許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來(lái)進(jìn)行計(jì)算,結(jié)合了超立方結(jié)構(gòu)的簡(jiǎn)化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲(chǔ)特性。

三、OLAP的多維數(shù)據(jù)分析

多維數(shù)據(jù)分析是指對(duì)以多維形式組織起來(lái)的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動(dòng)作,以求剖析數(shù)據(jù),使最終用戶(hù)能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:

(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動(dòng)作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱(chēng)為在維i上的一個(gè)切片。

按照定義1,一次切片一定是原來(lái)的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來(lái)的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個(gè)比較直觀的定義。

定義2:選定多維數(shù)組的一個(gè)二維子集的動(dòng)作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個(gè)維:維i和維j,在這兩個(gè)維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i和維j上的一個(gè)二維子集,稱(chēng)這個(gè)二維子集為多維數(shù)組在維i和維j上的一個(gè)切片,表示為(維i和維j,變量)。

按照定義2,不管原來(lái)的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個(gè)二維的“平面”。從另一個(gè)角度來(lái)講,切片就是在某個(gè)或某些維上選定一個(gè)維成員,而在某兩個(gè)維上取一定區(qū)間的維成員或全部維成員。從定義2可知:

1.一個(gè)多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個(gè)維之外的其它維的成員值確定的。

2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個(gè)維上來(lái)集中觀察數(shù)據(jù),因?yàn)槿说目臻g想象力有限,所以,對(duì)于維數(shù)較多的多維數(shù)據(jù)空間,進(jìn)行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個(gè)定義聯(lián)系起來(lái),對(duì)于一個(gè)n維數(shù)組,按定義1進(jìn)行的n-2切片的結(jié)果,就必定對(duì)應(yīng)于按定義2進(jìn)行的某一次切片的結(jié)果。

(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動(dòng)作稱(chēng)為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當(dāng)這一區(qū)間只取一個(gè)維成員時(shí),即得到一個(gè)切片。

定義2:選定多維數(shù)組的一個(gè)三維子集的動(dòng)作稱(chēng)為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個(gè)維:維i、維j、維r,在這三個(gè)維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱(chēng)這個(gè)三維子集為多維數(shù)組在維i、維j、維r上的一個(gè)切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。

(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個(gè)報(bào)告或者頁(yè)面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個(gè)行維移到列維,或是把頁(yè)面顯示中的一個(gè)維和頁(yè)面外的維進(jìn)行交換(令其成為新的行或者列的一個(gè))。

(四)鉆取。

鉆取處理是使用戶(hù)在數(shù)據(jù)倉(cāng)庫(kù)的多層數(shù)據(jù)中,能夠通過(guò)導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶(hù)鉆取至一個(gè)數(shù)據(jù)集中有更好細(xì)節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶(hù)隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。

(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來(lái)的直觀性有時(shí)是簡(jiǎn)單的數(shù)據(jù)表所無(wú)法提供的。一個(gè)OLAP系統(tǒng),應(yīng)當(dāng)采取多種不同的格式顯示數(shù)據(jù),使用戶(hù)能夠獲得最佳的觀察數(shù)據(jù)的視角。

四、結(jié)語(yǔ)

隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉(cāng)庫(kù)側(cè)重于存儲(chǔ)和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個(gè)重要特點(diǎn)是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補(bǔ)充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復(fù)雜問(wèn)題。

參考文獻(xiàn):

篇2

中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0006-03

為了提升大學(xué)物理公共課程的教學(xué)水平,更好地了解學(xué)生的學(xué)習(xí)情況,需要引用聯(lián)機(jī)數(shù)據(jù)技術(shù),通過(guò)科學(xué)建立模型對(duì)教學(xué)數(shù)據(jù)進(jìn)行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。

1 建立數(shù)據(jù)模型

建立模型是為了更加直觀地表達(dá)數(shù)據(jù)和事實(shí)。對(duì)于同一批數(shù)據(jù),人們總是會(huì)以不同的角度對(duì)其進(jìn)行觀察,這就是維度。維度模型從不同的角度分析數(shù)據(jù),最終得出一張事實(shí)表。

如圖1所示,維度模型包括了教材維度表,學(xué)期維度表,教師維度表,學(xué)生維度表和教學(xué)事實(shí)表。為了更好地分析教學(xué)效果,維度模型從四個(gè)不同的角度進(jìn)行分析,每一張維度表上都注明了詳細(xì)的數(shù)據(jù)內(nèi)容。最后,在總結(jié)四張維度表的基礎(chǔ)上,概括了最終的教學(xué)事實(shí)表。

2 OLAP技術(shù)

2.1 數(shù)據(jù)的采集

原有的Visual和SQL數(shù)據(jù)庫(kù)上儲(chǔ)存了學(xué)生的信息,教師的信息以及教學(xué)的數(shù)據(jù)等等。如圖二所示,教務(wù)數(shù)據(jù)庫(kù)中包含了課程信息表,學(xué)生信息表以及選課成績(jī)表。DTS工具能夠從不同的數(shù)據(jù)庫(kù)中自動(dòng)抽取需要進(jìn)行分析的數(shù)據(jù),并且將其全部集中在一個(gè)新的數(shù)據(jù)庫(kù)中。新的SQL數(shù)據(jù)庫(kù)既可以?xún)?chǔ)存信息,還能夠?qū)π畔⑦M(jìn)行管理。聯(lián)機(jī)分析處理技術(shù)從不同的角度分析數(shù)據(jù),有助于全面了解學(xué)生的學(xué)習(xí)情況和教師的教學(xué)質(zhì)量。

2.2 數(shù)據(jù)分析的結(jié)構(gòu)

從圖2中可以看出,數(shù)據(jù)分析的結(jié)構(gòu)包括了四層,其中最底層的是各種信息數(shù)據(jù)庫(kù)和文本文件,在此基礎(chǔ)上建立數(shù)據(jù)ETL,然后建立相應(yīng)的維度模型,最后利用聯(lián)機(jī)分析技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機(jī)分析技術(shù)的基礎(chǔ),也是必不可少的一步。多維度分析是該結(jié)構(gòu)中的最后一步,最終的結(jié)果將會(huì)把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來(lái)。

2.3 轉(zhuǎn)換數(shù)據(jù)

由于不同數(shù)據(jù)的語(yǔ)法可能存在差異,因此,把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結(jié)構(gòu)顯得尤為必要。在聯(lián)機(jī)分析技術(shù)應(yīng)用的過(guò)程中,轉(zhuǎn)換數(shù)據(jù)是關(guān)鍵的一步,能否成功轉(zhuǎn)換數(shù)據(jù),決定了維度模型的建立是否具有科學(xué)性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語(yǔ)法,語(yǔ)義結(jié)構(gòu)不同引起的問(wèn)題。

和數(shù)據(jù)語(yǔ)義不同相比,處理不同語(yǔ)法的數(shù)據(jù)顯得更為簡(jiǎn)單。如果數(shù)據(jù)本身和目標(biāo)數(shù)據(jù)之間存在語(yǔ)法結(jié)構(gòu)不同的問(wèn)題,那么只需要通過(guò)函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換即可。一般來(lái)說(shuō),數(shù)據(jù)本身的內(nèi)容并不會(huì)影響轉(zhuǎn)換過(guò)程,只要建立原數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,就能解決數(shù)據(jù)名稱(chēng)存在沖突的問(wèn)題。例如,學(xué)生數(shù)據(jù)庫(kù)本身的信息包括了學(xué)生的ID和班級(jí),這就相當(dāng)于最終目標(biāo)數(shù)據(jù)中學(xué)生對(duì)應(yīng)的名稱(chēng)和班別。如果數(shù)據(jù)類(lèi)型不同,可以運(yùn)用相應(yīng)的函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換,例如trim()函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對(duì)原數(shù)據(jù)中學(xué)生的ID,專(zhuān)業(yè)以及院名進(jìn)行轉(zhuǎn)換的過(guò)程,其轉(zhuǎn)換代碼如下:

Function Main()

DTSDestination(“ID”)=trim(DTSSourse(“名稱(chēng)”))

DTSDestination(“專(zhuān)業(yè)”)=cstr(DTSSourse(“專(zhuān)業(yè)”))

DTSDestination(“院名”)=trim(DTSSourse(“學(xué)院”))

Main=DTSTransformStat_OK

End Function

轉(zhuǎn)換不同語(yǔ)義結(jié)構(gòu)的數(shù)據(jù)是一個(gè)復(fù)雜的過(guò)程,它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此,僅僅通過(guò)一步完成數(shù)據(jù)轉(zhuǎn)換的過(guò)程是幾乎不可能的,它需要將原數(shù)據(jù)進(jìn)行一次次轉(zhuǎn)換,才能得到最終的目標(biāo)數(shù)據(jù)。例如每一個(gè)教師都有以及開(kāi)展項(xiàng)目,在原數(shù)據(jù)中只能看到項(xiàng)目的名稱(chēng)和論文的名稱(chēng),如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項(xiàng)目數(shù)量,則需要經(jīng)過(guò)兩步的數(shù)據(jù)轉(zhuǎn)換。

2.4 數(shù)據(jù)結(jié)果分析

原數(shù)據(jù)從SQL中提取出來(lái),然后通過(guò)函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換,最后利用聯(lián)機(jī)分析技術(shù)進(jìn)行數(shù)據(jù)管理和分析,從不同的角度研究數(shù)據(jù),從而全面分析學(xué)生的學(xué)習(xí)情況和教師的教學(xué)情況。數(shù)據(jù)分析的方法有很多種,其目的都是為了全方位地剖析數(shù)據(jù)。

2.4.1 高校教師教學(xué)質(zhì)量的對(duì)比分析

在教師維度表中,我們已經(jīng)按照教師的從業(yè)年齡,學(xué)歷以及職稱(chēng)對(duì)其進(jìn)行劃分,不同職稱(chēng)的教師,其教學(xué)質(zhì)量有著明顯的區(qū)別。教師的學(xué)歷不同,教齡有所差異,這都和教學(xué)效果息息相關(guān)。

2.4.2 不同時(shí)期對(duì)教學(xué)質(zhì)量的影響分析

聯(lián)機(jī)分析處理技術(shù)能夠從多角度分析數(shù)據(jù),教學(xué)質(zhì)量不可能是一成不變的,它與多個(gè)因素密不可分,時(shí)間也是其中一個(gè)因素。在不同的時(shí)期,由于政策的變動(dòng)和外界因素的影響,教師的教學(xué)質(zhì)量也會(huì)隨之而受到不同程度的影響。

2.4.3 教學(xué)質(zhì)量和其他因素息息相關(guān)

除了時(shí)間和教師的水平會(huì)對(duì)教學(xué)質(zhì)量造成一定的影響,還有其他因素同樣會(huì)影響教學(xué)效果,例如:學(xué)生的學(xué)習(xí)能力,學(xué)校選用的課本等。綜合考慮各個(gè)因素對(duì)教學(xué)效果的影響,有利于教育部門(mén)更好地作出相應(yīng)的政策調(diào)整。

3 計(jì)算機(jī)分析處理技術(shù)中的數(shù)據(jù)處理方法分析

無(wú)可置疑,計(jì)算機(jī)技術(shù)的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今,計(jì)算機(jī)技術(shù)已經(jīng)全面滲透到我們生活中和工作中的各個(gè)方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中,計(jì)算機(jī)技術(shù)都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增,這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無(wú)法滿(mǎn)足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性,這些數(shù)字在顯示之前,都必須經(jīng)過(guò)一系列的轉(zhuǎn)換,計(jì)算以及處理。首先,數(shù)據(jù)會(huì)以一種形式經(jīng)過(guò)轉(zhuǎn)換器,然后變成另一種新的形式,只有這樣計(jì)算機(jī)才能對(duì)數(shù)據(jù)進(jìn)行處理和分析。處理數(shù)據(jù)是一個(gè)復(fù)雜多變的過(guò)程,它的方法并不是單一的,根據(jù)數(shù)據(jù)處理的目標(biāo)不同,需要選擇不同的數(shù)據(jù)處理方法。例如,有的數(shù)據(jù)需要進(jìn)行標(biāo)度轉(zhuǎn)換,但有些數(shù)據(jù)只需要進(jìn)行簡(jiǎn)單計(jì)算即可,計(jì)算機(jī)技術(shù)的不斷進(jìn)步是為了更好地應(yīng)對(duì)人們對(duì)數(shù)據(jù)處理新的需要。

計(jì)算機(jī)數(shù)據(jù)處理技術(shù)的應(yīng)用離不開(kāi)系統(tǒng),它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性:

1)自動(dòng)更正功能,計(jì)算機(jī)系統(tǒng)在處理數(shù)據(jù)時(shí),對(duì)于計(jì)算結(jié)果出現(xiàn)的誤差能夠及時(shí)修正,確保結(jié)果的準(zhǔn)確度。

2)傳統(tǒng)模擬系統(tǒng)只能進(jìn)行數(shù)據(jù)的簡(jiǎn)單計(jì)算,而計(jì)算機(jī)系統(tǒng)則能夠處理復(fù)雜多變的數(shù)據(jù),其適用范圍和領(lǐng)域更加廣。

3)計(jì)算機(jī)系統(tǒng)不需要過(guò)多的硬件,只需要編寫(xiě)相應(yīng)的程序就能夠完成數(shù)據(jù)的處理,在節(jié)省空間的同時(shí)也降低了數(shù)據(jù)處理的成本。

4)計(jì)算機(jī)系統(tǒng)特有的監(jiān)控系統(tǒng),能夠隨時(shí)監(jiān)測(cè)系統(tǒng)的安全性,從而確保數(shù)據(jù)的準(zhǔn)確度。

對(duì)于不同的數(shù)據(jù),往往需要采用不同的處理方式,處理數(shù)據(jù)的簡(jiǎn)單方法包括查表,計(jì)算等。除此之外,標(biāo)度轉(zhuǎn)換,數(shù)字濾波同樣是應(yīng)用十分廣的處理技術(shù)。

3.1 數(shù)據(jù)計(jì)算

在各種數(shù)據(jù)處理方法中,計(jì)算法是最為簡(jiǎn)單的一種,利用現(xiàn)有的數(shù)據(jù)設(shè)置程序,然后直接通過(guò)計(jì)算得出最終的目標(biāo)數(shù)據(jù)。一般來(lái)說(shuō),利用這種方法處理數(shù)據(jù)需要遵循一個(gè)過(guò)程:首先,求表達(dá)式,這是計(jì)算法最基本的一步;其次,設(shè)計(jì)電路,在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來(lái);最后,利用第一步已經(jīng)求出的表達(dá)式運(yùn)算數(shù)據(jù)。

3.2 數(shù)據(jù)查表

3.2.1 按順序查表格

當(dāng)需要搜索表格中的數(shù)據(jù)時(shí),往往需要按照一定的順序和步驟。首先,明確表格的地址和長(zhǎng)度,然后再設(shè)置關(guān)鍵詞,最后按照順序進(jìn)行搜索。

3.2.2 通過(guò)計(jì)算查表格

這是一種較為簡(jiǎn)單的方法,適用范圍并不廣。只有當(dāng)數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關(guān)系時(shí),才能夠使用這種方法查表格。

3.2.3 利用程序查表格

相比于上述的兩種方法,利用程序查表格是一種相對(duì)復(fù)雜的方法,但是這種方法的優(yōu)點(diǎn)在于查找效率高,并且準(zhǔn)確度高。

3.3 數(shù)據(jù)濾波處理

采集數(shù)據(jù)并不難,但是確保每一個(gè)數(shù)據(jù)的真實(shí)性卻十分困難,尤其是在工業(yè)系統(tǒng)中,數(shù)據(jù)的測(cè)量難以確保絕對(duì)準(zhǔn)確,因?yàn)樵跍y(cè)量的過(guò)程中,外界環(huán)境對(duì)數(shù)據(jù)的影響往往是難以預(yù)估的。為了提高數(shù)據(jù)處理的精確度和準(zhǔn)確率,需要借助檢測(cè)系統(tǒng)對(duì)采集的數(shù)據(jù)進(jìn)行深加工。盡可能地讓處理的數(shù)據(jù)接近真實(shí)的數(shù)據(jù),并且在數(shù)據(jù)采集的過(guò)程中最大限度地減少外界因素對(duì)其的影響,從而提高計(jì)算結(jié)果的準(zhǔn)確度。

濾波處理技術(shù)的應(yīng)用首先要確定數(shù)據(jù)的偏差,一般來(lái)說(shuō),每?jī)蓚€(gè)測(cè)量數(shù)據(jù)之間都會(huì)存在一定的誤差,首先需要計(jì)算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值,可以認(rèn)定數(shù)據(jù)無(wú)效,只有符合偏差范圍內(nèi)的數(shù)據(jù),才能進(jìn)行下一步的處理。

為了減少由于外界影響導(dǎo)致數(shù)據(jù)失真的情況,利用程序過(guò)濾數(shù)據(jù)是很有必要的。濾波技術(shù)有幾種,根據(jù)不同的需要可以選擇相應(yīng)的數(shù)據(jù)處理技術(shù),每一種數(shù)據(jù)濾波技術(shù)都有其適用范圍和優(yōu)點(diǎn)。數(shù)據(jù)濾波技術(shù)包括算術(shù)平均值濾波,加權(quán)平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類(lèi)型的濾波技術(shù)。

3.4 轉(zhuǎn)換量程和標(biāo)度

在測(cè)量數(shù)據(jù)的過(guò)程中,每一種參數(shù)都有相應(yīng)的單位,為了方便數(shù)據(jù)處理,需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號(hào)。標(biāo)度轉(zhuǎn)換是必不可少的,為了加強(qiáng)系統(tǒng)的管理和監(jiān)測(cè),需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線(xiàn)性參數(shù)標(biāo)度變換,參數(shù)標(biāo)度變換,量程轉(zhuǎn)換,這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過(guò)程中較為常見(jiàn)。當(dāng)計(jì)算過(guò)程遇到困難,可以結(jié)合其他的標(biāo)度轉(zhuǎn)換方法進(jìn)行數(shù)據(jù)處理。

3.5 非線(xiàn)性補(bǔ)償計(jì)算法

3.5.1 線(xiàn)性插值計(jì)算方法

信號(hào)的輸入和輸出往往會(huì)存在一定的關(guān)系。曲線(xiàn)的斜率和誤差之間存在正相關(guān)關(guān)系,斜率越大,誤差越大。由此可見(jiàn),這一計(jì)算方法僅僅適用于處理變化不大的數(shù)據(jù)。當(dāng)曲線(xiàn)繪制選用的數(shù)據(jù)越多,曲線(xiàn)的準(zhǔn)確程度越高,偏差越小。

3.5.2 拋物線(xiàn)計(jì)算方法

拋物線(xiàn)計(jì)算方法是一種常用的數(shù)據(jù)處理方法,只需要采集三組數(shù)據(jù),就可以連成一條拋物線(xiàn)。相比于直線(xiàn),拋物線(xiàn)更加接近真實(shí)的曲線(xiàn),從而提高數(shù)據(jù)的準(zhǔn)確度。拋物線(xiàn)計(jì)算法的過(guò)程,只需要求出最后兩步計(jì)算中的M值,就能夠直接輸入數(shù)據(jù)得出結(jié)果。

3.6 數(shù)據(jù)長(zhǎng)度的處理

當(dāng)輸入數(shù)據(jù)和輸出數(shù)據(jù)的長(zhǎng)度不一,需要對(duì)其進(jìn)行轉(zhuǎn)換,使數(shù)據(jù)長(zhǎng)度達(dá)到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同,因此,當(dāng)輸入位數(shù)大于輸出位數(shù),可以通過(guò)移位的方法使位數(shù)變成相同。相反,當(dāng)輸入位數(shù)少于輸出位數(shù)時(shí),可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。

4 結(jié)語(yǔ)

本文對(duì)聯(lián)機(jī)分析技術(shù)進(jìn)行了詳細(xì)的論述,該技術(shù)的應(yīng)用對(duì)于評(píng)價(jià)教學(xué)效果有著重要的意義。在物理公共課程中,教學(xué)數(shù)據(jù)數(shù)量巨大,如果利用傳統(tǒng)的方法對(duì)其進(jìn)行分析,將會(huì)耗費(fèi)大量的人力物力,而采用OLAP技術(shù)則能更加快速準(zhǔn)確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評(píng)估教學(xué)質(zhì)量必經(jīng)的過(guò)程,而使用QLAP技術(shù)是為了能夠多層次,全方位地分析各個(gè)因素對(duì)教學(xué)質(zhì)量的影響,從而更好地改進(jìn)高校教育中存在的不足。除了分析物理課程數(shù)據(jù),聯(lián)機(jī)分析技術(shù)同樣適用于其他課程的數(shù)據(jù)處理和分析。

參考文獻(xiàn):

篇3

1.1信息安全分析引入大數(shù)據(jù)的必要性

大數(shù)據(jù)具有“4V”的特點(diǎn):Volume、Variety、Velocity和Value,可實(shí)現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿(mǎn)足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識(shí)別各種攻擊行為或安全事件,具有重大的研究意義和實(shí)用價(jià)值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)源豐富、數(shù)據(jù)種類(lèi)多、數(shù)據(jù)分析維度廣;同時(shí),數(shù)據(jù)生成的速度更快,對(duì)信息安全分析應(yīng)答能力要求也相應(yīng)增長(zhǎng)。傳統(tǒng)信息安全分析主要基于流量和日志兩大類(lèi)數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報(bào)等進(jìn)行關(guān)聯(lián)分析。基于流量的安全分析應(yīng)用主要包括惡意代碼檢測(cè)、僵木蠕檢測(cè)、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計(jì)、主機(jī)入侵檢測(cè)等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來(lái),通過(guò)高效的采集、存儲(chǔ)、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類(lèi)預(yù)測(cè)模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動(dòng)性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場(chǎng)景自身產(chǎn)生的數(shù)據(jù)、通過(guò)某種活動(dòng)或內(nèi)容“創(chuàng)建”出來(lái)的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問(wèn)題。

1.2安全大數(shù)據(jù)分析方法

安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過(guò)對(duì)海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對(duì)不同安全場(chǎng)景設(shè)計(jì)針對(duì)性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲(chǔ)和分析的優(yōu)勢(shì),從豐富的數(shù)據(jù)源中進(jìn)行深度挖掘,進(jìn)而挖掘出安全問(wèn)題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲(chǔ)、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲(chǔ)和檢索:基于大數(shù)據(jù)采集、存儲(chǔ)、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類(lèi)型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對(duì)不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對(duì)日志信息可采用Chukwa、Flume、Scribe等工具;針對(duì)流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和分析;針對(duì)格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲(chǔ)機(jī)制,通過(guò)MapReduce和Hive等分析方法,可以實(shí)時(shí)的對(duì)數(shù)據(jù)進(jìn)行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲(chǔ)和NoSQL數(shù)據(jù)庫(kù)提升了數(shù)據(jù)分析和查詢(xún)的效率,從海量數(shù)據(jù)中精確地挖掘安全問(wèn)題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計(jì)建模工具(如回歸分析、時(shí)間序列預(yù)測(cè)、多元統(tǒng)計(jì)分析理論)、機(jī)器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、隨機(jī)森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機(jī)場(chǎng))等。常用的大數(shù)據(jù)分析思路有先驗(yàn)分析方法、分類(lèi)預(yù)測(cè)分析方法、概率圖模型、關(guān)聯(lián)分析方法等??墒褂肕ahout和MLlib等分析工具對(duì)數(shù)據(jù)進(jìn)行挖掘分析。綜上,一個(gè)完備的安全大數(shù)據(jù)分析平臺(tái)應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過(guò)數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報(bào)信息等多源異構(gòu)數(shù)據(jù)進(jìn)行分布式融合分析,針對(duì)不同場(chǎng)景搭建分析模型,最終實(shí)現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢(shì)。

2安全大數(shù)據(jù)分析的典型應(yīng)用

2.1基于用戶(hù)行為的不良信息治理

中國(guó)移動(dòng)開(kāi)展了基于大數(shù)據(jù)的不良信息治理工作,主要針對(duì)垃圾短信和騷擾詐騙電話(huà)開(kāi)展基于異常行為的大數(shù)據(jù)分析。通過(guò)開(kāi)源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺(tái),采集用戶(hù)的行為數(shù)據(jù),構(gòu)建用戶(hù)行為分析模型;分別提出了異常行為分類(lèi)預(yù)測(cè)模型、統(tǒng)計(jì)預(yù)測(cè)分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶(hù)的行為數(shù)據(jù)輸入到模型中,可以精準(zhǔn)地挖掘出違規(guī)電話(huà)號(hào)碼,并且發(fā)現(xiàn)違規(guī)號(hào)碼與正常號(hào)碼之間存在大量相異的行為特征。通過(guò)用戶(hù)的行為,構(gòu)建多維度的用戶(hù)畫(huà)像數(shù)據(jù)庫(kù),支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識(shí)別等。實(shí)踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號(hào)碼,是對(duì)現(xiàn)有系統(tǒng)的有效補(bǔ)充。除此之外,中國(guó)移動(dòng)還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢(shì)感知、手機(jī)惡意軟件檢測(cè)和釣魚(yú)網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。

2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析

在互聯(lián)網(wǎng)出口進(jìn)行旁路流量監(jiān)控,使用Hadoop存儲(chǔ)及Storm、Spark流分析技術(shù),通過(guò)大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險(xiǎn)。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測(cè)事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點(diǎn)分析及協(xié)議還原等方法,進(jìn)行Web漏洞挖掘、CC攻擊檢測(cè)、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。

2.3基于安全日志的大數(shù)據(jù)分析

基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進(jìn)行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來(lái)挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機(jī)服務(wù)器日志、數(shù)據(jù)庫(kù)日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過(guò)規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來(lái)分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場(chǎng)景?;诎踩罩镜拇髷?shù)據(jù)分析已經(jīng)在國(guó)際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個(gè)設(shè)備端點(diǎn)和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以區(qū)別威脅和錯(cuò)誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機(jī)、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級(jí)等。ZettaSet海量事件數(shù)據(jù)倉(cāng)庫(kù)來(lái)分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉(cāng)庫(kù))。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個(gè)Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲(chǔ)。SDW于2011年BlackHat網(wǎng)絡(luò)安全會(huì)議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對(duì)于一個(gè)月的數(shù)據(jù)負(fù)載,傳統(tǒng)SIEM搜索需要20~60min,Hive運(yùn)行查詢(xún)只需1min左右。

2.4基于DNS的安全大數(shù)據(jù)分析

基于DNS的安全大數(shù)據(jù)分析通過(guò)對(duì)DNS系統(tǒng)的實(shí)時(shí)流量、日志進(jìn)行大數(shù)據(jù)分析,對(duì)DNS流量的靜態(tài)及動(dòng)態(tài)特征進(jìn)行建模,提取DNS報(bào)文特征:DNS分組長(zhǎng)、DNS響應(yīng)時(shí)間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報(bào)文特征,構(gòu)建異常行為模型,來(lái)檢測(cè)針對(duì)DNS系統(tǒng)的各類(lèi)流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚(yú)網(wǎng)站域名等。

2.5APT攻擊大數(shù)據(jù)分析

高級(jí)可持續(xù)性威脅(APT)攻擊通過(guò)周密的策劃與實(shí)施,針對(duì)特定對(duì)象進(jìn)行長(zhǎng)期的、有計(jì)劃的攻擊,具有高度隱蔽性、潛伏期長(zhǎng)、攻擊路徑和渠道不確定等特征。現(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅?!罢鹁W(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺(tái)鈾濃縮離心機(jī)故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪(fǎng)問(wèn)日志、數(shù)據(jù)日志、資產(chǎn)庫(kù)及Web滲透知識(shí)庫(kù)等,提取系統(tǒng)指紋、攻擊種類(lèi)、攻擊時(shí)間、黑客關(guān)注度、攻擊手段類(lèi)型、行為歷史等事件特征,再基于大數(shù)據(jù)機(jī)器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強(qiáng)事中環(huán)節(jié)的威脅感知能力,同時(shí)支撐調(diào)查取證。

篇4

中圖分類(lèi)號(hào)TP392 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2013)86-0119-02

在科學(xué)技術(shù)飛速進(jìn)步的當(dāng)今世界,石油一直是世界上最主要的供能能源,隨著石油化工產(chǎn)業(yè)的不斷進(jìn)步與發(fā)展,石油化工檢測(cè)也迅速成長(zhǎng)起來(lái)。在化工領(lǐng)域里,石油化工原料也被廣泛的應(yīng)用于各個(gè)部門(mén),它是決定各個(gè)部門(mén)發(fā)展進(jìn)度的至關(guān)重要的因素。因此,石油化工檢測(cè)的發(fā)展與成長(zhǎng)也是必然的結(jié)果。

1 石油化工檢測(cè)

石油化工檢測(cè)是一門(mén)復(fù)合技術(shù),其將電子、自動(dòng)化、信息處理、控制工程、計(jì)算機(jī)等多門(mén)學(xué)科有機(jī)的融為一體,并將其廣泛的應(yīng)用于生產(chǎn)自動(dòng)化過(guò)程以及石油化工領(lǐng)域自動(dòng)化裝備中。在石油化工原料的生產(chǎn)過(guò)程中,有毒或者易燃易爆氣體隨時(shí)都存在泄露的危險(xiǎn),有些嚴(yán)重的泄露事件甚至?xí){工人的生命財(cái)產(chǎn)安全,所以石油化工產(chǎn)業(yè)亦是一個(gè)高危產(chǎn)業(yè)。面對(duì)這些不容忽視的安全問(wèn)題,嚴(yán)密的檢測(cè)程序在石油化工生產(chǎn)的過(guò)程中是必不可少的一個(gè)重要環(huán)節(jié)。隨著科學(xué)信息技術(shù)的飛速發(fā)展,檢測(cè)手段也在不斷的進(jìn)行推陳出新,在其有機(jī)的結(jié)合了化學(xué)、物理、電機(jī)學(xué)、計(jì)算機(jī)和現(xiàn)代光學(xué)技術(shù)后,檢測(cè)技術(shù)也有了質(zhì)的飛躍。

如今在石油化工檢測(cè)的過(guò)程當(dāng)中,出現(xiàn)了許多如無(wú)損失檢測(cè)等的新設(shè)備,這些現(xiàn)代化科技設(shè)備的廣泛投入與應(yīng)用,無(wú)一不說(shuō)明了石油化工產(chǎn)業(yè)的重要性。在如今的石油化工產(chǎn)業(yè)中,一個(gè)新興的概念正在逐步被人們所接受,它就是安全檢測(cè)體系以及安全評(píng)價(jià)。其中安全評(píng)價(jià)是經(jīng)由安全系統(tǒng)工程原理以及工程技術(shù)方法,對(duì)系統(tǒng)中有可能存在的危險(xiǎn)性或固有危險(xiǎn)性進(jìn)行全面分析,也稱(chēng)風(fēng)險(xiǎn)評(píng)價(jià)和危險(xiǎn)性評(píng)價(jià),其包含危險(xiǎn)性確認(rèn)以及危險(xiǎn)性評(píng)價(jià)兩個(gè)方面。我們也應(yīng)當(dāng)全面深入的找尋其可能存在的危險(xiǎn)源,并對(duì)其進(jìn)行認(rèn)真的校對(duì)與考核。與此同時(shí),我們還應(yīng)該對(duì)可能產(chǎn)生的后果進(jìn)行分析與預(yù)測(cè),并與當(dāng)今社會(huì)上工人的安全指標(biāo)進(jìn)行認(rèn)真比對(duì),其值若在安全值范圍以?xún)?nèi),便可認(rèn)為其安全;若在安全值以外,則認(rèn)為其不安全,我們應(yīng)當(dāng)對(duì)其采取適當(dāng)?shù)拇胧瑥亩鴾p少或者避免危險(xiǎn)發(fā)生的可能性。

2數(shù)據(jù)檢測(cè)方法

2.1安全檢查表法數(shù)據(jù)分析

石油化工產(chǎn)品系數(shù)一般在一個(gè)安全的系數(shù)范圍之內(nèi),根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),這些所測(cè)的數(shù)據(jù)互相獨(dú)立,互不影響,所以這些數(shù)據(jù)呈現(xiàn)正態(tài)分布,所以檢測(cè)的數(shù)據(jù)應(yīng)該在該分布范圍之內(nèi)。所謂安全檢查表法,就是通過(guò)抽樣數(shù)據(jù),通過(guò)SPSS軟件計(jì)算出各數(shù)據(jù)之間的平均值以及標(biāo)準(zhǔn)方差,通過(guò)比較所測(cè)數(shù)據(jù)是否在平均值所在的標(biāo)準(zhǔn)方差范圍之內(nèi)。通過(guò)檢驗(yàn)數(shù)據(jù)核對(duì)來(lái)衡量該數(shù)據(jù)值是否在安全檢測(cè)范圍之內(nèi)。在分析的過(guò)程中,可以將其與標(biāo)準(zhǔn)平均值的偏差與安全檢測(cè)標(biāo)準(zhǔn)方差的比值對(duì)其進(jìn)行賦分,如果大于1說(shuō)明偏差太大,產(chǎn)品不在安全范圍之內(nèi),如果為0,則產(chǎn)品在安全范圍之內(nèi)。

2.2預(yù)先危險(xiǎn)性數(shù)據(jù)分析

在數(shù)據(jù)統(tǒng)計(jì)過(guò)程中,有一種分析方法為數(shù)據(jù)擬合,可對(duì)數(shù)據(jù)回歸分析,利用回歸分析函數(shù),預(yù)見(jiàn)系統(tǒng)的危險(xiǎn)性。常用的數(shù)據(jù)回歸分析方法為二元Logistic回歸分析與曲線(xiàn)擬合分析。比如通過(guò)統(tǒng)計(jì)分析先前發(fā)生的事故的傳統(tǒng)安全數(shù)據(jù)系數(shù),對(duì)安全系數(shù)數(shù)據(jù)進(jìn)行二元回歸擬合,得到輸入函數(shù),通過(guò)輸入函數(shù)來(lái)預(yù)見(jiàn)產(chǎn)品的危險(xiǎn)性,以此來(lái)對(duì)產(chǎn)品做出相關(guān)的概括性評(píng)價(jià)統(tǒng)計(jì),對(duì)于有害成分,觸發(fā)條件進(jìn)行評(píng)價(jià)。預(yù)先危險(xiǎn)性數(shù)據(jù)分析可以應(yīng)用到石油原油品質(zhì)分析中去。

2.3故障影響因素?cái)?shù)據(jù)分析

在石油化工作業(yè)中,經(jīng)常會(huì)出現(xiàn)一些故障,這些故障發(fā)生的概率隨著工藝過(guò)程,各不相同,對(duì)于發(fā)生某次故障,或者發(fā)生變質(zhì)產(chǎn)品,肯定會(huì)有主要因素,但是如何才能得到主要因素,可以利用方差分析,利用方差分析是以?xún)蓚€(gè)樣本作為比對(duì)對(duì)象,通過(guò)比對(duì)對(duì)象,來(lái)得到在一定置信區(qū)間內(nèi)的主要影響因素,分析的數(shù)據(jù)統(tǒng)計(jì)量需要滿(mǎn)足,各統(tǒng)計(jì)量之間符合正態(tài)分布,顯然影響因素之間是相對(duì)獨(dú)立,符合方差分析要求。通過(guò)統(tǒng)計(jì)數(shù)據(jù),進(jìn)行方差分析,可以得到影響故障的主要因素,繼而對(duì)其進(jìn)行評(píng)價(jià)。方差分析可以利用到石油管道故障,自動(dòng)化儀表故障的主要因素分析中去。

2.頻率分析

石油化工檢測(cè)過(guò)程中,往往會(huì)發(fā)生不同類(lèi)事故,多次發(fā)生,我們可以統(tǒng)計(jì)這些數(shù)據(jù)的頻率,通過(guò)頻率分析,進(jìn)行參數(shù)估計(jì),歸納其分布狀態(tài),可以看出其是否在置問(wèn)之內(nèi)。常用的方法為頻率分析法。頻率分析,可以檢測(cè)發(fā)生事件的集中趨勢(shì),離散程度以及分布偏度與峰度,通過(guò)模擬分布圖,可以有效判斷事件發(fā)生的合法性概率。事件頻率分析應(yīng)用較廣,可應(yīng)用到成品油質(zhì)量分析以及主要設(shè)備故障分析中。

3 結(jié)論

數(shù)據(jù)分析應(yīng)用較廣,如今的市場(chǎng)上存在著許多工作原理大同小異的有關(guān)于石油化工檢測(cè)的設(shè)備,這些設(shè)備最終的目的均是為了保障石油化工的安全生產(chǎn),但其實(shí)這只是石油化工檢測(cè)的冰山一隅。怎樣使正在上升的石油化工產(chǎn)業(yè)進(jìn)行相對(duì)安全的生產(chǎn),使其事故率降到最低,是石油化工產(chǎn)業(yè)在未來(lái)發(fā)展中,至關(guān)重要的核心問(wèn)題。為了能更好的適應(yīng)我國(guó)石油化工檢測(cè)的發(fā)展,我們可以針對(duì)我國(guó)石油化工產(chǎn)業(yè)發(fā)展的特點(diǎn)進(jìn)行軟件開(kāi)發(fā)。在其開(kāi)發(fā)以及研究發(fā)展的過(guò)程中,國(guó)家應(yīng)當(dāng)出臺(tái)一些相應(yīng)的傾斜優(yōu)惠政策,這樣便會(huì)是這個(gè)新興的、充滿(mǎn)活力的產(chǎn)業(yè)迅速茁壯成長(zhǎng)起來(lái)。

參考文獻(xiàn)

[1]李建,余昌斌.淺論石油化工檢驗(yàn)概況[J].科學(xué)之友,2010(4).

[2]魏天飛. 展望先進(jìn)的產(chǎn)品檢測(cè)技術(shù)——訪(fǎng)梅特勒-托利多產(chǎn)品檢測(cè)部門(mén)銷(xiāo)售經(jīng)理John Coleman[J].中國(guó)包裝工業(yè),2011(9).

篇5

隨著時(shí)間的推移,用電信息采集系統(tǒng)中存儲(chǔ)的數(shù)據(jù)總量會(huì)線(xiàn)性遞增,龐大的信息儲(chǔ)備在反映信息愈加全面的同時(shí)增加了信息分類(lèi)和處理的難度,所以其分析和處理技術(shù)需要隨著時(shí)代的發(fā)展不斷深化。

1 用電信息采集系統(tǒng)數(shù)據(jù)分析

由于用電信息采集系統(tǒng)內(nèi)的信息會(huì)隨著時(shí)間的推移而不斷增多,所以需要通過(guò)分類(lèi)處理的形式對(duì)龐大的信息量進(jìn)行逐層處理,這樣才可以提升系統(tǒng)對(duì)數(shù)據(jù)庫(kù)的處理效率,目前用電信息采集系統(tǒng)以時(shí)間為劃分標(biāo)準(zhǔn),將信息分為以下三類(lèi):1類(lèi)數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)不具有時(shí)間序列屬性,通常只針對(duì)其更新而很少查詢(xún),由于數(shù)據(jù)量龐大,其通常只具有15分鐘的實(shí)效,總加數(shù)據(jù)、測(cè)量點(diǎn)數(shù)據(jù)、終端數(shù)據(jù)是其主要形式,在存儲(chǔ)的過(guò)程中應(yīng)根據(jù)其不同的物理對(duì)象選擇與其相應(yīng)的存儲(chǔ)表;2類(lèi)數(shù)據(jù)其主要顯示用電戶(hù)在過(guò)去一段時(shí)間內(nèi)的用電信息,為預(yù)付費(fèi)管理、用電情況統(tǒng)計(jì)等工作提供數(shù)據(jù)支持,其與1類(lèi)數(shù)據(jù)不同具有時(shí)間序列屬性,而且更新少而查詢(xún)多,15分鐘至1小時(shí),1日、一個(gè)月等都可根據(jù)實(shí)際需要作為周期,其在存儲(chǔ)的過(guò)程中也可以根據(jù)不同的物理對(duì)象,選擇不同的存儲(chǔ)表;3類(lèi)數(shù)據(jù)包括參數(shù)丟失或變更、回路異常、電能表顯示出現(xiàn)偏差等情況,由于其不同時(shí)間的發(fā)生頻率、使用方式等都存在差異,所以在存儲(chǔ)的過(guò)程中應(yīng)單獨(dú)分表,將用電信息按照屬性進(jìn)行劃分極大地提升了采集系統(tǒng)的工作效率。

2 用電信息采集系統(tǒng)數(shù)據(jù)處理技術(shù)

用電信息采集系統(tǒng)其要同時(shí)對(duì)多種通信通道和終端進(jìn)行管理,從而實(shí)現(xiàn)對(duì)用電戶(hù)用電信息管理、負(fù)荷及預(yù)付費(fèi)控制,所以其并非單一計(jì)算機(jī)節(jié)點(diǎn)可獨(dú)立完成,需要以下技術(shù)輔助其實(shí)現(xiàn)如圖1所示。

2.1 集群技術(shù)

主要應(yīng)用于系統(tǒng)中的核心部位,例如數(shù)據(jù)庫(kù)、數(shù)據(jù)采集等,其主要是將多個(gè)獨(dú)立但都處于高速網(wǎng)絡(luò)中的計(jì)算機(jī)連接成一個(gè)整體,并通過(guò)單一系統(tǒng)對(duì)整體進(jìn)行管理控制,利用集群技術(shù)可以實(shí)現(xiàn)大運(yùn)量計(jì)算,目前主要應(yīng)用的集群技術(shù)主要有主/主和主/從兩種狀態(tài),其主要區(qū)別是當(dāng)一個(gè)節(jié)點(diǎn)處于正常工作狀態(tài)時(shí)是否需要有另一個(gè)節(jié)點(diǎn)處于備用狀態(tài),利用集群技術(shù)大幅度的提升了系統(tǒng)對(duì)數(shù)據(jù)的計(jì)算能力,從而提升了系統(tǒng)的數(shù)據(jù)處理效率及準(zhǔn)確性。網(wǎng)絡(luò)負(fù)載均衡技術(shù),在實(shí)際操作中系統(tǒng)要處理大量的數(shù)據(jù),用戶(hù)等待系統(tǒng)反應(yīng)的時(shí)間通常較長(zhǎng),而網(wǎng)絡(luò)負(fù)載均衡技術(shù)的出現(xiàn)實(shí)現(xiàn)了對(duì)大量并發(fā)訪(fǎng)問(wèn)、數(shù)據(jù)流量合理均等的分配至多臺(tái)節(jié)點(diǎn)設(shè)備,從而實(shí)現(xiàn)多臺(tái)設(shè)備同時(shí)進(jìn)行數(shù)據(jù)處理,使原本復(fù)雜的數(shù)據(jù)處理任務(wù)被合理分化,不僅縮短了處理時(shí)間,而且有效的降低了系統(tǒng)在處理過(guò)程中出現(xiàn)信道堵塞的概率,提升了系統(tǒng)數(shù)據(jù)處理的性能,在響應(yīng)請(qǐng)求方面得到優(yōu)化。

2.2 內(nèi)存數(shù)據(jù)庫(kù)技術(shù)

是優(yōu)化系統(tǒng)數(shù)據(jù)處理能力的重要途徑,內(nèi)存數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)了采集的信息直接在內(nèi)存中存儲(chǔ),從而利用內(nèi)存隨機(jī)訪(fǎng)問(wèn)的特點(diǎn),在信息讀寫(xiě)速度方面進(jìn)行優(yōu)化,使數(shù)據(jù)信息的訪(fǎng)問(wèn)性能得到提升,此項(xiàng)技術(shù)在數(shù)據(jù)緩存、數(shù)據(jù)算法等方面進(jìn)行了針對(duì)性的設(shè)計(jì),使系統(tǒng)的信息處理速度提升十倍以上,為實(shí)時(shí)查詢(xún)提供了可能,極大地促進(jìn)了后付費(fèi)和預(yù)付費(fèi)的融合,使系統(tǒng)數(shù)據(jù)處理性能得到完善。批量數(shù)據(jù)處理技術(shù),由于在實(shí)際工作中由于系統(tǒng)需要對(duì)大量的數(shù)據(jù)進(jìn)行分類(lèi)處理,逐個(gè)信息處理的可行性非常低,需要對(duì)大批量數(shù)據(jù)進(jìn)行集中處理,但在應(yīng)用批量數(shù)據(jù)處理技術(shù)的同時(shí)要對(duì)數(shù)據(jù)庫(kù)的表結(jié)構(gòu)、SQL語(yǔ)句進(jìn)行優(yōu)化處理并對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)表合理管理,例如將個(gè)體數(shù)據(jù)表的數(shù)據(jù)量限制在2GB以?xún)?nèi),確保其訪(fǎng)問(wèn)性能不受影響;將數(shù)據(jù)按照分類(lèi)存儲(chǔ)于不同的磁盤(pán),保證查詢(xún)質(zhì)量;在優(yōu)化SQL語(yǔ)句時(shí)盡量保證帶有參數(shù)等,只有數(shù)據(jù)庫(kù)性能良好,批量數(shù)據(jù)處理技術(shù)才可以應(yīng)用,不然會(huì)適得其反。

2.3 SAN存儲(chǔ)技術(shù)

隨著系統(tǒng)采集數(shù)據(jù)量的增加,以服務(wù)器為中心的處理模式會(huì)嚴(yán)重影響網(wǎng)絡(luò)性能,從而影響系統(tǒng)對(duì)數(shù)據(jù)的處理效率,所以將備份和傳輸不占用局域網(wǎng)資源的SAN技術(shù)引入到系統(tǒng)處理中非常具有現(xiàn)實(shí)意義,其以光纖通道為途徑,使信息存儲(chǔ)不再受距離和容量的限制,系統(tǒng)的信息采集性能得到有效提升。ODI技術(shù),在實(shí)際工作中有時(shí)需要對(duì)某一類(lèi)信息進(jìn)行集中處理,而系統(tǒng)中的數(shù)據(jù)復(fù)雜散落不易處理,所以需要將同類(lèi)信息按模塊分類(lèi)存儲(chǔ),ODI存儲(chǔ)技術(shù)恰好是以模塊或儲(chǔ)存庫(kù)為核心而展開(kāi)的應(yīng)用技術(shù),它將系統(tǒng)的數(shù)據(jù)庫(kù)分為一個(gè)主存儲(chǔ)庫(kù)和多個(gè)有關(guān)聯(lián)的工作存儲(chǔ)庫(kù),數(shù)據(jù)處理人員利用ODI存儲(chǔ)技術(shù)可以根據(jù)實(shí)際情況制定存儲(chǔ)模塊或?qū)Υ鎯?chǔ)模塊內(nèi)部信息進(jìn)行更改,從而實(shí)現(xiàn)批量數(shù)據(jù)處理腳本的集中管理,使批量處理的效率大幅度提升。

3 結(jié)論

目前電力用戶(hù)用電信息采集系統(tǒng)不僅要實(shí)現(xiàn)準(zhǔn)確、全面、及時(shí)的采集數(shù)據(jù),而且要高效、準(zhǔn)確的對(duì)采集的信息進(jìn)行計(jì)算處理,以供相關(guān)部門(mén)的查詢(xún)和應(yīng)用,所以在優(yōu)化系統(tǒng)存儲(chǔ)空間的同時(shí),要加大系統(tǒng)對(duì)數(shù)據(jù)處理的能力。

參考文獻(xiàn)

[1]朱彬若,杜衛(wèi)華,李蕊.電力用戶(hù)用電信息采集系統(tǒng)數(shù)據(jù)分析與處理技術(shù)[J].華東電力,2011,12(10):162-166.

[2]董俐君,張芊.數(shù)據(jù)處理與智能分析技術(shù)在用電信息采集系統(tǒng)中的應(yīng)用[J].華東電力,2013,12(27):255-256.

篇6

所謂大數(shù)據(jù),一方面是指在一定時(shí)間內(nèi)無(wú)法被常規(guī)信息技術(shù)和傳統(tǒng)數(shù)據(jù)庫(kù)管理軟硬件工具感知、獲取和處理的巨量數(shù)據(jù)集合;另一方面,是指形成、管理、挖掘大數(shù)據(jù), 快速搜集、處理、分析大數(shù)據(jù)的技術(shù)和能力。

大數(shù)據(jù)的主要特點(diǎn)是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實(shí)時(shí)處理。大數(shù)據(jù)技術(shù),或大數(shù)據(jù)分析技術(shù),就是對(duì)這些數(shù)量巨大的海量數(shù)據(jù)進(jìn)行搜索、整理、分析、加工,以便獲得有價(jià)值的產(chǎn)品和服務(wù),以及提煉出具有深刻見(jiàn)解和潛在價(jià)值信息的技術(shù)和手段。

1 大數(shù)據(jù)分析在公共交通中的應(yīng)用

交通擁堵日益嚴(yán)重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問(wèn)題,科學(xué)分析交通管理體系成為改善城市交通的關(guān)鍵所在。因此,高效、準(zhǔn)確地獲取交通數(shù)據(jù)是構(gòu)建合理城市交通管理體系的前提,而這一難題可以通過(guò)大數(shù)據(jù)管理得到解決。

大數(shù)據(jù)分析技術(shù)改變了傳統(tǒng)公共交通的路徑:大數(shù)據(jù)可以跨越行政區(qū)域的限制;大數(shù)據(jù)可以高效地整合交通信息;大數(shù)據(jù)可以較好地配置公共交通資源;大數(shù)據(jù)可以促進(jìn)公共交通均衡性發(fā)展。在大數(shù)據(jù)中,隨著數(shù)據(jù)庫(kù)攝入更多數(shù)據(jù),所消耗的計(jì)算工作量反而遞減,配置成本也隨之減小,但所做的計(jì)算則更加精準(zhǔn)。大數(shù)據(jù)在公共交通中的應(yīng)用表現(xiàn)在:一旦某個(gè)路段發(fā)生問(wèn)題,能立刻從大數(shù)據(jù)中調(diào)出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數(shù)據(jù)具有較高預(yù)測(cè)能力,可降低誤報(bào)和漏報(bào)的概率, 可隨時(shí)針對(duì)公共交通的動(dòng)態(tài)性給予實(shí)時(shí)監(jiān)控。因此,在駕駛者無(wú)法預(yù)知交通擁堵的可能性時(shí),大數(shù)據(jù)可幫助用戶(hù)預(yù)先了解。

2 大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域中的應(yīng)用

在醫(yī)學(xué)領(lǐng)域,我們正處在一醫(yī)學(xué)信息爆炸的時(shí)代?;蛐蛄?、各種醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗(yàn)等,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時(shí)代。如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問(wèn)題,構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過(guò)互聯(lián)網(wǎng)連接,實(shí)現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享。將醫(yī)療數(shù)據(jù)存于專(zhuān)門(mén)的數(shù)據(jù)庫(kù)中,在信息協(xié)作平臺(tái)上將各種醫(yī)療信息分類(lèi)整合,建立成一個(gè)相互共享的網(wǎng)絡(luò),從而實(shí)現(xiàn)醫(yī)療數(shù)據(jù)信息的共享。

大數(shù)據(jù)技術(shù)的核心就是預(yù)測(cè),使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準(zhǔn)確率,對(duì)有效地治療疾病具有重要價(jià)值。其中最好地體現(xiàn)在傳染病預(yù)測(cè)上,因?yàn)閭魅静〉陌l(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟(jì)全球化背景下,自然環(huán)境及人類(lèi)社會(huì)活動(dòng)對(duì)傳染病的影響越來(lái)越重要。因此,時(shí)間和空間信息對(duì)傳染病的預(yù)測(cè)、預(yù)警具有重要意義。利用大數(shù)據(jù)可對(duì)傳染病疫情的時(shí)間、空間信息進(jìn)行多維搜索,檢索、處理和分析這些疫情信息可實(shí)現(xiàn)對(duì)傳染病的流行趨勢(shì)及影響范圍進(jìn)行預(yù)測(cè)、預(yù)警,對(duì)提高傳染病防控的針對(duì)性、預(yù)見(jiàn)性和主動(dòng)性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。

3 大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用

當(dāng)前的大數(shù)據(jù)技術(shù)面臨著數(shù)據(jù)過(guò)大和安全隱患越多這兩個(gè)問(wèn)題。在移動(dòng)通信網(wǎng)絡(luò)發(fā)展的過(guò)程中,網(wǎng)上用戶(hù)在不斷增加,通信網(wǎng)絡(luò)的范圍在不斷擴(kuò)大, 而移動(dòng)通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量也在不斷上升。大數(shù)據(jù)技術(shù)和移動(dòng)通信網(wǎng)絡(luò)的安全問(wèn)題密切相關(guān),一旦技術(shù)出現(xiàn)漏洞,移動(dòng)通信網(wǎng)絡(luò)的數(shù)據(jù)就會(huì)出現(xiàn)安全隱患。大數(shù)據(jù)技術(shù)中存儲(chǔ)功能的是云儲(chǔ)存技術(shù),它將大量的網(wǎng)絡(luò)數(shù)據(jù)放在統(tǒng)一的平臺(tái)之上,加大了數(shù)據(jù)丟失的風(fēng)險(xiǎn),影響移動(dòng)通信網(wǎng)絡(luò)的安全。

優(yōu)化移動(dòng)通信網(wǎng)絡(luò),需要運(yùn)用大數(shù)據(jù)技術(shù)的儲(chǔ)存功能。移動(dòng)通信網(wǎng)絡(luò)的用戶(hù)在不斷變化,每天都要更新大量的數(shù)據(jù),而且這些數(shù)據(jù)都需要進(jìn)行妥善管理和保存。在這一過(guò)程中,可以應(yīng)用大數(shù)據(jù)技術(shù)的存儲(chǔ)功能, 將存儲(chǔ)虛擬化作為解決存儲(chǔ)問(wèn)題的有效策略。

優(yōu)化移動(dòng)通信網(wǎng)絡(luò),需要獲取相關(guān)的數(shù)據(jù)信息。移動(dòng)通信網(wǎng)絡(luò)的用戶(hù)非常多,而且其所跨越的時(shí)間、空間維度都很大,這些用戶(hù)在移動(dòng)通信網(wǎng)絡(luò)留下的海量的數(shù)據(jù)信息,使數(shù)據(jù)獲取工作難以繼續(xù)。在進(jìn)行數(shù)據(jù)的獲取和收集工作時(shí),移動(dòng)通信網(wǎng)絡(luò)可以應(yīng)用大數(shù)據(jù)技術(shù),減少人力和物力的投入,同時(shí)增加數(shù)據(jù)的準(zhǔn)確度。

4 結(jié)語(yǔ)

本文是大數(shù)據(jù)技術(shù)在實(shí)際生活領(lǐng)域的應(yīng)用,分別闡述了大數(shù)據(jù)分析技術(shù)在公共交通、醫(yī)藥領(lǐng)域、移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的具體運(yùn)用。借助大數(shù)據(jù)技術(shù)的即時(shí)性、準(zhǔn)確性和預(yù)測(cè)性,將其應(yīng)用到人們的日常生活領(lǐng)域,提高了人們的生活質(zhì)量。

參考文獻(xiàn)

[1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用[J]. 圖書(shū)與情報(bào),2012(06):22-28.

[2]張春麗,成.大數(shù)據(jù)分析技術(shù)及其在醫(yī)藥領(lǐng)域中的應(yīng)用[J].標(biāo)記免疫分析與臨床,2016(03):327-333.

[3]汪敏,廖名揚(yáng).大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用研究[J].通訊世界,2017(02):123.

[4]祝興平.大數(shù)據(jù)分析技術(shù)及其在數(shù)字出版中的應(yīng)用[J].出版發(fā)行研究,2014(04):13-16.

[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào),2014(09):1889-1908.

作者簡(jiǎn)介

篇7

中圖分類(lèi)號(hào):TM76 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)02-0117-01

1 云計(jì)算在大數(shù)據(jù)分析技術(shù)探究

1.1 SQL語(yǔ)句

云計(jì)算系統(tǒng)的使用中,主要應(yīng)用SQL語(yǔ)句對(duì)電力系統(tǒng)中的信息資源進(jìn)行存儲(chǔ),例如:電力供應(yīng)系統(tǒng)中檢測(cè)電力輸送系統(tǒng)中,電流應(yīng)用總量,電流輸送區(qū)域的大小[1],電力時(shí)速送管理人員為了達(dá)到電力供應(yīng)的合理性分配,應(yīng)用云計(jì)算進(jìn)行電流輸送的系統(tǒng)化分配,云計(jì)算系統(tǒng)結(jié)合計(jì)算機(jī)應(yīng)用系統(tǒng)的相關(guān)數(shù)據(jù),實(shí)現(xiàn)電力系統(tǒng)的資源供應(yīng)與電力資源區(qū)域性分配快速處理,從而到達(dá)電力供應(yīng)系統(tǒng)的資源供應(yīng)的數(shù)據(jù)信息處理結(jié)構(gòu)科學(xué)性的劃分。此外,SQL語(yǔ)句執(zhí)行電力系統(tǒng)的大數(shù)據(jù)信息時(shí)系統(tǒng)主要采用相對(duì)完善的SQL系統(tǒng)化程序,避免系統(tǒng)數(shù)據(jù)的應(yīng)用信息安全,避免應(yīng)用信息在使用受到外界病毒的直接入,實(shí)現(xiàn)了電力系統(tǒng)信息資源處理的安全性、系統(tǒng)性、科學(xué)性發(fā)展。

1.2 分層次處理技術(shù)

云計(jì)算系統(tǒng)的應(yīng)用,采用分層次處理技術(shù)對(duì)計(jì)算機(jī)處理系統(tǒng)進(jìn)行系統(tǒng)處理,實(shí)現(xiàn)電力系統(tǒng)中建立的電力信息收集、電力信息存儲(chǔ)、電力數(shù)據(jù)應(yīng)用的結(jié)構(gòu)化管理,依據(jù)電力供應(yīng)中大數(shù)據(jù)管理系統(tǒng)進(jìn)行系統(tǒng)分支化管理,從而達(dá)到電力系統(tǒng)資源在電力供應(yīng)各個(gè)系統(tǒng)之間相互聯(lián)系,又相互對(duì)立,云計(jì)算強(qiáng)大的SQL系統(tǒng)可以實(shí)現(xiàn)電力系統(tǒng)的大數(shù)據(jù)同一時(shí)間內(nèi)的分析計(jì)算。大大提高了電力供應(yīng)系統(tǒng)的數(shù)據(jù)處理速率,同時(shí)也保障我國(guó)電力系統(tǒng)數(shù)據(jù)處理的層次化管理[2]。

1.3 數(shù)據(jù)處理檢測(cè)技術(shù)

云計(jì)算在電力系統(tǒng)大數(shù)據(jù)處理技術(shù)中的應(yīng)用,采用算機(jī)數(shù)據(jù)處理檢測(cè)技術(shù),云計(jì)算系統(tǒng)中計(jì)算機(jī)應(yīng)用處理技術(shù)采用計(jì)算機(jī)自動(dòng)化處理系統(tǒng),系統(tǒng)內(nèi)部能夠依據(jù)電力系統(tǒng)的處理信息,形成SQL系統(tǒng)語(yǔ)句檢測(cè)系統(tǒng),完善計(jì)算機(jī)自動(dòng)化處理空間,使電力供應(yīng)系統(tǒng)的數(shù)據(jù)處理結(jié)構(gòu)可以得到應(yīng)用系統(tǒng)的數(shù)據(jù)應(yīng)用保障,實(shí)現(xiàn)我國(guó)電力管理系統(tǒng)的進(jìn)一步智能化發(fā)展。

2 從云計(jì)算的優(yōu)勢(shì)分析應(yīng)用

2.1 處理速率快

云計(jì)算是現(xiàn)代計(jì)算機(jī)系統(tǒng)逐步開(kāi)發(fā)的重要體現(xiàn)。云計(jì)算系統(tǒng)的運(yùn)行以計(jì)算機(jī)內(nèi)部數(shù)據(jù)處理系統(tǒng)為基礎(chǔ),同時(shí)結(jié)合虛擬數(shù)據(jù)挖掘,進(jìn)行計(jì)算機(jī)系統(tǒng)的進(jìn)一步完善,虛擬空間的綜合性應(yīng)用,實(shí)現(xiàn)了云計(jì)算在電力大數(shù)據(jù)信息處理中,云計(jì)算的系統(tǒng)計(jì)算處理速率快,云計(jì)算的實(shí)現(xiàn)避免了傳統(tǒng)計(jì)算機(jī)大數(shù)據(jù)的整體性計(jì)算,而是采用計(jì)算機(jī)系統(tǒng)中SQL語(yǔ)句[3],保障計(jì)算機(jī)系統(tǒng)運(yùn)行中,將整體化大數(shù)據(jù)分割成不同層次數(shù)據(jù),從而實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)的綜合性運(yùn)行,大大提高了計(jì)算機(jī)系統(tǒng)運(yùn)行的計(jì)算縮率。

2.2 兼容性強(qiáng)

云計(jì)算在電力供應(yīng)中的應(yīng)用,實(shí)現(xiàn)了電力系統(tǒng)供應(yīng)中大數(shù)據(jù)處理技術(shù)的兼容性提高,云計(jì)算的計(jì)算方式主要應(yīng)用分布式處理系統(tǒng)對(duì)大數(shù)據(jù)信息進(jìn)行控制,從而可以實(shí)現(xiàn)多種電力處理系統(tǒng)的信息管理資源在整體應(yīng)用中的綜合性探索[4],例如:當(dāng)電力大數(shù)據(jù)分析系統(tǒng)中的輸送電力系統(tǒng)的信息資源在初期存儲(chǔ)中受到嚴(yán)重的損壞,無(wú)法對(duì)后期的電力系統(tǒng)信息處理提供完善的信息資源,云計(jì)算能夠通過(guò)語(yǔ)句處理,實(shí)現(xiàn)對(duì)電力供應(yīng)系統(tǒng)的大數(shù)據(jù)分析系統(tǒng)進(jìn)行調(diào)節(jié)與控制,系統(tǒng)中也可以將電力系統(tǒng)中,多種電力輸送系統(tǒng)的資源形式在同一種電力大數(shù)據(jù)處理系統(tǒng)中進(jìn)行調(diào)節(jié)控制,完善不同的信息資源處理。由此可見(jiàn),云計(jì)算在電力大數(shù)據(jù)處理系統(tǒng)中的應(yīng)用,為提高電力系統(tǒng)的信息應(yīng)用范圍額進(jìn)一步完善提供新的技術(shù)支持。

2.3 數(shù)據(jù)存儲(chǔ)空間性大

云計(jì)算技術(shù)電力系統(tǒng)大數(shù)據(jù)處理中的應(yīng)用,擁有數(shù)據(jù)存儲(chǔ)空間性大的特點(diǎn)。電力資源作為社會(huì)發(fā)展的主要?jiǎng)恿χ?,在社?huì)中的應(yīng)用范圍得到進(jìn)一步提高,較大的電力資源容量為電力系統(tǒng)建設(shè)的進(jìn)一步完善帶來(lái)問(wèn)題。云計(jì)算采用虛擬空間存儲(chǔ)技術(shù),數(shù)據(jù)計(jì)算的存儲(chǔ)空間也主要應(yīng)用虛擬空間,為電力系統(tǒng)的大數(shù)據(jù)處理系統(tǒng)的綜合性應(yīng)用提供了較大的存儲(chǔ)空間,能夠保障逐步擴(kuò)大的電力系統(tǒng)中大數(shù)據(jù)處理的完整性[5]。

3 結(jié)語(yǔ)

云計(jì)算系統(tǒng)是現(xiàn)代計(jì)算機(jī)系統(tǒng)的主要分支,云計(jì)算中應(yīng)用SQL系統(tǒng),分層次處理系統(tǒng)以及數(shù)據(jù)智能化檢測(cè)系統(tǒng)實(shí)現(xiàn)了系統(tǒng)資源的綜合性應(yīng)用,對(duì)云計(jì)算在電力大數(shù)據(jù)分析技術(shù)的探究,實(shí)現(xiàn)了電力系統(tǒng)的信息管理結(jié)構(gòu)逐步完善,為我國(guó)電力管理系統(tǒng)的進(jìn)一步發(fā)展提供技術(shù)支持。

參考文獻(xiàn)

[1]彭小圣,鄧迪元,程時(shí)杰,文勁宇,李朝暉,牛林.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J/OL].中國(guó)電機(jī)工程學(xué)報(bào),2015(03).

[2]吳凱峰,劉萬(wàn)濤,李彥虎,蘇伊鵬,肖政,裴旭斌,虎嵩林.基于云計(jì)算的電力大數(shù)據(jù)分析技術(shù)與應(yīng)用[J].中國(guó)電力,2015,02:111-116+127.

篇8

中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言

在信息時(shí)代,信息技術(shù)的快速發(fā)展對(duì)社會(huì)各個(gè)領(lǐng)域都產(chǎn)生了一定的影響,在電子商務(wù)中反映尤為突出。對(duì)于學(xué)校教務(wù)系統(tǒng)的應(yīng)用相對(duì)較晚,但教務(wù)數(shù)據(jù)對(duì)學(xué)校而言,是最基本的數(shù)據(jù),這些數(shù)據(jù)的保留是學(xué)校運(yùn)作的根本。對(duì)教務(wù)數(shù)據(jù)的分析也是對(duì)學(xué)校教學(xué)效果的評(píng)定,能夠從龐大的教務(wù)數(shù)據(jù)中挖掘出更潛在的信息,既是對(duì)學(xué)校運(yùn)行狀況的更深入了解,又有利于學(xué)校對(duì)未來(lái)發(fā)展方向的決策。

2 教務(wù)管理狀況分析

教務(wù)管理不僅是處理學(xué)校的日常事務(wù),它更重要的作用體現(xiàn)在可以反映學(xué)校的教學(xué)效果和分析學(xué)校培養(yǎng)方向的正確性,并以此幫助學(xué)校向更好的方向發(fā)展。教務(wù)數(shù)據(jù)分析的處理到目前為止經(jīng)歷了人工和計(jì)算機(jī)處理的兩大階段。

2.1 人工處理階段

為了反映較大范圍教務(wù)情況的整體特征,教務(wù)部門(mén)通常要付出龐大的人力和物力收集和分析大量數(shù)據(jù)。這個(gè)數(shù)據(jù)的收集通常要經(jīng)歷一個(gè)較長(zhǎng)的時(shí)間,間隔一段時(shí)間還必須重復(fù)執(zhí)行。比如開(kāi)課計(jì)劃、學(xué)生成績(jī)、教室使用情況等。然而,分析收集來(lái)的海量數(shù)據(jù)更是教務(wù)部門(mén)頭疼的一件事。

還沒(méi)有出現(xiàn)計(jì)算機(jī)前,光靠人工來(lái)處理數(shù)據(jù)有時(shí)還會(huì)面臨這樣的窘境:上一期的數(shù)據(jù)結(jié)果還沒(méi)分析出來(lái),下一期的數(shù)據(jù)收集又要開(kāi)始了,因此整個(gè)數(shù)據(jù)收集和分析工作變得沒(méi)有任何意義。另外,有些數(shù)據(jù)需要間隔一段時(shí)間重新收集,然后進(jìn)行短期和長(zhǎng)期的分析數(shù)據(jù)。比如成績(jī)分析,若按照4年制本科為一個(gè)分析周期。首先,每學(xué)期教務(wù)部門(mén)要進(jìn)行一次短期成績(jī)分析。其次每學(xué)年教務(wù)部門(mén)就需對(duì)即將畢業(yè)的本科前4年的所有成績(jī)做一次中長(zhǎng)期成績(jī)分析。然而,如果學(xué)校還需了解長(zhǎng)期以來(lái)各級(jí)學(xué)生的學(xué)習(xí)情況,則還必須知道近10年、20年、50年甚至更長(zhǎng)時(shí)間的成績(jī)發(fā)展趨勢(shì),那么光靠人工去翻閱以前的數(shù)據(jù)就是件很困難的工作了。所以人工處理數(shù)據(jù)階段,有許多教務(wù)數(shù)據(jù)分析工作受到很大限制。

2.2 計(jì)算機(jī)處理階段

自計(jì)算機(jī)出現(xiàn)后,許多領(lǐng)域的工作發(fā)生了翻天覆地的變化,教務(wù)管理同樣也不會(huì)忽略如此有效的技術(shù)手段。20世紀(jì)80年代以來(lái),我國(guó)一直關(guān)注信息化在各領(lǐng)域的應(yīng)用,教務(wù)管理信息化的發(fā)展大致經(jīng)歷了以下三個(gè)階段:面向數(shù)據(jù)處理的第一代教務(wù)管理、面向信息處理的第二代教務(wù)管理、面向知識(shí)處理的第三代教務(wù)管理。在前兩個(gè)階段中,許多教務(wù)工作確實(shí)提高了效率,但是教務(wù)海量數(shù)據(jù)中隱含的價(jià)值仍不能被有效發(fā)掘與利用。正如在一大座金山中,獲取更有價(jià)值的黃金還需更細(xì)致更有效的清理和挖掘。

雖然在前些年,學(xué)校各級(jí)部門(mén)具備了一定的信息化基礎(chǔ)設(shè)施,為構(gòu)建信息化教務(wù)系統(tǒng)奠定了基礎(chǔ)。但是,由于缺乏統(tǒng)一的規(guī)劃,學(xué)校各子系統(tǒng)或多或少存在“信息孤島”的問(wèn)題,也沒(méi)有有效的方法從海量數(shù)據(jù)資源中快速挖掘更有價(jià)值的知識(shí)信息。因此,耗費(fèi)成本收集的數(shù)據(jù)沒(méi)有利用就被棄置了,教務(wù)數(shù)據(jù)分析僅停留在表面。

由于信息技術(shù)的發(fā)展,信息化時(shí)代逐漸進(jìn)入第三展中,即有效應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)挖掘知識(shí)。

3 DW和DM技術(shù)

數(shù)據(jù)倉(cāng)庫(kù)(DataWare,即DW)是指一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來(lái)支持管理人員的決策[1]。當(dāng)大量的數(shù)據(jù)被整合在一起后,從用戶(hù)分析角度來(lái)看,使用這些數(shù)據(jù)的手段是多方面和多層次的。面向知識(shí)處理的教務(wù)系統(tǒng)應(yīng)能夠自動(dòng)剔除掉不需要的數(shù)據(jù),按照用戶(hù)的要求整合雜亂的數(shù)據(jù)資源,獲取某些可用的屬性。而且,學(xué)校的決策通常是經(jīng)過(guò)觀察長(zhǎng)期發(fā)展的狀況而制定的。其間,需要分析5年、10年,甚至幾十年的大量相關(guān)數(shù)據(jù)資源。因此,教務(wù)數(shù)據(jù)需要被長(zhǎng)期且穩(wěn)定的存儲(chǔ)。在日常收集數(shù)據(jù)和整理數(shù)據(jù)時(shí),利用數(shù)據(jù)倉(cāng)庫(kù)的思想來(lái)進(jìn)行,有利于我們充分發(fā)揮數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)的挖掘。

數(shù)據(jù)挖掘(Data Mining,即DM)是指從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。

首先,我們要確定數(shù)據(jù)挖掘的對(duì)象有哪些。數(shù)據(jù)資源可以從多方面獲得,如系統(tǒng)分析設(shè)計(jì)人員向不同范圍的業(yè)務(wù)對(duì)象調(diào)研獲得,或反之業(yè)務(wù)對(duì)象主動(dòng)向系統(tǒng)設(shè)分析設(shè)計(jì)人員提出;在互聯(lián)網(wǎng)時(shí)代,從網(wǎng)絡(luò)中獲得數(shù)據(jù)資源更快更多了。

其次,要有效地應(yīng)用數(shù)據(jù)挖掘技術(shù),就要遵循科學(xué)的應(yīng)用流程。一般的挖掘流程是:(1)確定挖掘?qū)ο螅唬?)數(shù)據(jù)準(zhǔn)備;(3)數(shù)據(jù)挖掘,即模式提??;(4)結(jié)果分析,即模式評(píng)估。[2]

數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類(lèi)型。數(shù)據(jù)挖掘任務(wù)一般可以分為兩類(lèi):描述和預(yù)測(cè)。描述性挖掘任務(wù)刻畫(huà)數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘系統(tǒng)要能夠挖掘多種類(lèi)型的模式,以適應(yīng)不同的用戶(hù)需求或不同的應(yīng)用。數(shù)據(jù)挖掘功能以及它們可以發(fā)現(xiàn)的模式類(lèi)型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。

4 建立面向知識(shí)處理的教務(wù)數(shù)據(jù)分析系統(tǒng)

按照上述數(shù)據(jù)挖掘的基本流程,以教務(wù)系統(tǒng)中成績(jī)分析為例介紹如何讓教務(wù)系統(tǒng)實(shí)現(xiàn)面向知識(shí)的處理。

4.1 構(gòu)建教務(wù)系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)

這部分主要分為四個(gè)任務(wù):確定教務(wù)系統(tǒng)中的數(shù)據(jù)源;Web數(shù)據(jù)的預(yù)處理;多維Web數(shù)據(jù)模式的建立;應(yīng)用OLAP技術(shù)。

4.1.1確定教務(wù)系統(tǒng)中的數(shù)據(jù)源

教務(wù)系統(tǒng)的數(shù)據(jù)主要從兩個(gè)方面獲得:

(1)各學(xué)院開(kāi)課計(jì)劃、學(xué)校學(xué)計(jì)劃;

(2)教師提交的各門(mén)課程的成績(jī)。

第一方面的數(shù)據(jù)主要由學(xué)校、各學(xué)院按照培養(yǎng)計(jì)劃每學(xué)期提交,包括各專(zhuān)業(yè)班級(jí)的課程安排、授課教師、課時(shí)、學(xué)分等。這部分?jǐn)?shù)據(jù)主要以Excel表格形式提交,教務(wù)部門(mén)對(duì)這部分的數(shù)據(jù)收集與存儲(chǔ)大部分停留在文檔形式。

第二方面的數(shù)據(jù)主要在學(xué)期末由授課教師分專(zhuān)業(yè)班級(jí)和課程提交。目前,這部分的數(shù)據(jù)收集有的以紙質(zhì)文檔形式收集,有的以Excel文檔形式收集,也有的實(shí)現(xiàn)了數(shù)據(jù)庫(kù)收集存儲(chǔ)。

在進(jìn)行數(shù)據(jù)挖掘之前,首先要將這兩方面的數(shù)據(jù)完全實(shí)現(xiàn)數(shù)據(jù)庫(kù)收集與存儲(chǔ)。隨著教務(wù)數(shù)據(jù)與日俱增,還需使用數(shù)據(jù)倉(cāng)庫(kù)來(lái)管理這些數(shù)據(jù)。

目前,有許多學(xué)校實(shí)現(xiàn)了在線(xiàn)登錄成績(jī)的信息化。那么如何對(duì)龐大的Web數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)呢?

4.1.2 Web數(shù)據(jù)的預(yù)處理

通過(guò)Web收集的數(shù)據(jù)稱(chēng)之為原始數(shù)據(jù),管理員可根據(jù)需要用某些字段記錄相關(guān)數(shù)據(jù)。如:專(zhuān)業(yè)班級(jí)名稱(chēng),教師登錄名,課程名稱(chēng),成績(jī)比例,分?jǐn)?shù),提交時(shí)間等。對(duì)Web數(shù)據(jù)的預(yù)處理包括兩步。第一步:清除噪音,即去掉對(duì)知識(shí)挖掘無(wú)關(guān)的數(shù)據(jù)。第二步:轉(zhuǎn)化數(shù)據(jù),即將原始數(shù)據(jù)按照挖掘需求,通過(guò)重新組織或簡(jiǎn)單計(jì)算轉(zhuǎn)換成規(guī)范模式。

4.1.3多維Web數(shù)據(jù)模式的建立

分為三步進(jìn)行。第一步,選取維。多維數(shù)據(jù)便于我們從多個(gè)角度、多個(gè)側(cè)面對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行觀察、分析,以深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。N維數(shù)據(jù)矩陣用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i維,i=1,2,...,n, count是變量,反映數(shù)據(jù)的實(shí)際意義。

數(shù)據(jù)單元用r[A1:a1,...,An:an,count]模式表示,即為維Ai選定一個(gè)維成員ai,i=l,…,n,這些維成員的組合唯一確定了變量count的一個(gè)值。通常,需要了解成績(jī)的分布情況,可以選取專(zhuān)業(yè)班級(jí)維、時(shí)間維、課程維構(gòu)建數(shù)據(jù)矩陣,以形成多維視圖。

第二步,構(gòu)造多維視圖。先選取Date維(按學(xué)期組織)、Class維(按專(zhuān)業(yè)班級(jí)組織)用二維形式表示每個(gè)專(zhuān)業(yè)班級(jí)各學(xué)期的成績(jī)狀況。然后加入第三維Course維(按課程組織),進(jìn)一步構(gòu)建成績(jī)分布的三維視圖。視圖顯示的事實(shí)是Course_Class_Analyse(課程專(zhuān)業(yè)學(xué)習(xí)情況)。

第三步,創(chuàng)建多維數(shù)據(jù)模式。最流行的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型是多維數(shù)據(jù)模型。最常見(jiàn)的模型范例是星型模式。

4.1.4應(yīng)用OLAP技術(shù)

OLAP,即在線(xiàn)聯(lián)機(jī)處理。應(yīng)用OLAP技術(shù)可以很方便地從Web數(shù)據(jù)矩陣中作出一些簡(jiǎn)單的結(jié)論性分析,如回答一些問(wèn)題:(1)哪些專(zhuān)業(yè)班級(jí)學(xué)習(xí)情況較好,哪些較差?(2)哪些專(zhuān)業(yè)課程成績(jī)較高,哪些較低?我們可以充分利用多維數(shù)據(jù)模型上的OLAP操作,如下鉆(drill-down)、上卷(roll-up)、切片分析(slice)和切塊分析(dice)等技術(shù)對(duì)問(wèn)題進(jìn)行求解。

4.2 挖掘模式的有效應(yīng)用

應(yīng)用數(shù)據(jù)挖掘技術(shù)可以自動(dòng)發(fā)現(xiàn)學(xué)生學(xué)習(xí)傾向和專(zhuān)業(yè)發(fā)展趨勢(shì)。

4.2.1數(shù)據(jù)挖掘技術(shù)應(yīng)用的范圍

雖然現(xiàn)在已有很多學(xué)校都建立了自己的教務(wù)管理網(wǎng)站,但教職工與學(xué)生僅僅只在Web上進(jìn)行成績(jī)的登錄和查詢(xún)。這樣的教務(wù)網(wǎng)站只是提供了收集數(shù)據(jù)的快捷途徑,并沒(méi)有從根本上體現(xiàn)本身應(yīng)有的應(yīng)用價(jià)值。教務(wù)系統(tǒng)希望能夠從其門(mén)戶(hù)網(wǎng)站中收集大量原始數(shù)據(jù),并依此發(fā)掘更深入的服務(wù)信息。同時(shí),學(xué)校高層也希望能從教務(wù)系統(tǒng)中發(fā)現(xiàn)學(xué)生的學(xué)習(xí)情況,課程計(jì)劃的實(shí)施效果等。這些都需要從海量的教務(wù)數(shù)據(jù)中應(yīng)用特定的挖掘模型反映出來(lái)?;诖?,對(duì)于下一次培養(yǎng)計(jì)劃的修訂才有現(xiàn)實(shí)的數(shù)據(jù)支撐。

4.2.2應(yīng)用挖掘模式提取和分析知識(shí)

根據(jù)不同的應(yīng)用要求,在數(shù)據(jù)挖掘模式中選擇合適的方法進(jìn)行計(jì)算,提取有效數(shù)據(jù),得出知識(shí)。對(duì)于教務(wù)系統(tǒng)而言,可以應(yīng)用聚類(lèi)方法確定特定不同成效的學(xué)生與課程的分布,從而識(shí)別出一些問(wèn)題:

(1) 對(duì)于某個(gè)專(zhuān)業(yè)班級(jí),哪些課程學(xué)習(xí)效果較好;

(2) 對(duì)于學(xué)習(xí)效果較好的課程,是因?yàn)榻虒W(xué)效果好,還是開(kāi)課計(jì)劃恰當(dāng);

(3) 對(duì)比同一門(mén)課的不同專(zhuān)業(yè)班級(jí),以輔助各學(xué)院分析培養(yǎng)計(jì)劃的適應(yīng)性。

5 結(jié)束語(yǔ)

關(guān)于DW and DW 技術(shù)對(duì)教務(wù)數(shù)據(jù)分析的應(yīng)用,還有許多值得繼續(xù)深入研究。但是,不論從哪個(gè)方向進(jìn)行研究,都必須要以提高教務(wù)處理能力為宗旨,讓教務(wù)資源發(fā)揮最大的輔助決策價(jià)值。

參考文獻(xiàn):

[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.

篇9

本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)理論知識(shí)。并對(duì)站點(diǎn)日志數(shù)據(jù)進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。

一、緒論

互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟(jì)帶來(lái)新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對(duì)廣大網(wǎng)民的信息載體,企業(yè)通過(guò)這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線(xiàn)。

電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現(xiàn)各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統(tǒng)。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過(guò)程就是對(duì)人們的生活、企業(yè)的運(yùn)行的一種模式的一個(gè)巨大改變的過(guò)程。對(duì)于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對(duì)它們而言,站點(diǎn)的訪(fǎng)問(wèn)率絕對(duì)不僅僅是一個(gè)數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機(jī)。

電子商務(wù)站點(diǎn)用戶(hù)行為的分析這一問(wèn)題也因此成為現(xiàn)如今的熱門(mén)話(huà)題,被人們普遍關(guān)心起來(lái),尤其是被眾商家所重視。Web站點(diǎn)的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長(zhǎng)。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(shí)(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。

在此情況下,站點(diǎn)用戶(hù)行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對(duì)比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。另外,還可根據(jù)不同的頁(yè)面內(nèi)容來(lái)分類(lèi)瀏覽者,以便做出更合理的頁(yè)面分類(lèi),促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對(duì)互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對(duì)信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。

在電子商務(wù)早期階段時(shí),Web站點(diǎn)數(shù)據(jù)流分析通常是在主頁(yè)上安裝計(jì)數(shù)器以及在一個(gè)外部日志文件上運(yùn)行簡(jiǎn)單的統(tǒng)計(jì)程序記錄點(diǎn)擊率。但是,簡(jiǎn)單的點(diǎn)擊計(jì)數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營(yíng)銷(xiāo)目的所需的詳細(xì)程度。因此,各公司開(kāi)始尋找更先進(jìn)的分析工具,這類(lèi)工具可以提供誰(shuí)在訪(fǎng)問(wèn)公司W(wǎng)eb站點(diǎn)以及訪(fǎng)問(wèn)者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。站點(diǎn)開(kāi)始分析的地方是Web服務(wù)器的訪(fǎng)問(wèn)日志。每當(dāng)用戶(hù)在站點(diǎn)上請(qǐng)求一個(gè)網(wǎng)頁(yè)時(shí),這個(gè)請(qǐng)求就被記錄在訪(fǎng)問(wèn)日志中。如:目前有多少用戶(hù)正在訪(fǎng)問(wèn)站點(diǎn)、他們正在看哪些網(wǎng)頁(yè)以及他們?cè)谡军c(diǎn)中呆了多長(zhǎng)時(shí)間。顯然,日志分析和行為概況的正確組合可以對(duì)Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線(xiàn)收集到。Web數(shù)據(jù)流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶(hù)和他們習(xí)慣的詳細(xì)報(bào)告。

二、站點(diǎn)信息統(tǒng)計(jì)方法

Web頁(yè)面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢(shì)。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒(méi)有模式的無(wú)序數(shù)據(jù)之間,在查詢(xún)前無(wú)法預(yù)先確定其具體的類(lèi)型和格式;同時(shí)它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒(méi)有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進(jìn)行抽取。而有時(shí),盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的

主要特點(diǎn):

1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類(lèi)型或不同的結(jié)構(gòu)表示。

2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。

3.結(jié)構(gòu)是部分的,有時(shí)部分?jǐn)?shù)據(jù)根本無(wú)結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。

4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫(kù)使用嚴(yán)格的分類(lèi)策略來(lái)保護(hù)數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對(duì)結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價(jià)是要頻繁修改結(jié)構(gòu)。

5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過(guò)當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱(chēng)之為事后模式引導(dǎo)。模式有時(shí)可被忽略,同時(shí)數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。

三、數(shù)據(jù)分析的方法

Web頁(yè)面的數(shù)據(jù)通常是利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)分析的。使用的模型有線(xiàn)性分析和非線(xiàn)性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統(tǒng)計(jì)分析工具能提供可視化功能和分析功能來(lái)尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來(lái)分析、解釋數(shù)據(jù)。并通過(guò)交互式過(guò)程和迭代過(guò)程用來(lái)求精模型,最終開(kāi)發(fā)出最具適應(yīng)性的模型來(lái)將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。

知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢(shì)并發(fā)掘?qū)嵤K欠治鯳eb頁(yè)面數(shù)據(jù)的重要方法。知識(shí)發(fā)現(xiàn)與模式識(shí)別的算法有以下幾種:

1.依賴(lài)性分析

依賴(lài)性分析算法搜索數(shù)據(jù)倉(cāng)庫(kù)的條目和對(duì)象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴(lài)關(guān)系。利用依賴(lài)性分析算法可以從某一數(shù)據(jù)對(duì)象的信息來(lái)推斷另一數(shù)據(jù)對(duì)象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因?yàn)榻?jīng)過(guò)依賴(lài)性分析,商店認(rèn)為:很大一部分買(mǎi)飲料的顧客如果在取飲料的路上看到椒鹽餅干的話(huà)就會(huì)購(gòu)買(mǎi),因而此種分析影響了商店布局。

2.聚類(lèi)和分類(lèi)

在某些情況下,無(wú)法界定要分析的數(shù)據(jù)類(lèi),用聚類(lèi)算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類(lèi)或懷疑的數(shù)據(jù)類(lèi)。聚類(lèi)的過(guò)程是以某一特定時(shí)間為依據(jù),找出一個(gè)共享一些公共類(lèi)別的群體,它稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)。分類(lèi)過(guò)程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時(shí)間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類(lèi)很少在關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行定義,因而規(guī)范的數(shù)據(jù)模型中沒(méi)有它們的位置。最典型的例子是信用卡核準(zhǔn)過(guò)程,可確定能否按商品價(jià)格和其它標(biāo)準(zhǔn)把某一購(gòu)買(mǎi)者歸入可接受的那一類(lèi)中。分類(lèi)又稱(chēng)為有監(jiān)督學(xué)習(xí)。

3.神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型。它對(duì)隱式類(lèi)型進(jìn)行分類(lèi)。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線(xiàn)性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個(gè)層次組成:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫(kù)示例來(lái)訓(xùn)練和學(xué)習(xí)、校正預(yù)測(cè)的模型,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。

4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個(gè)商品交易數(shù)據(jù)庫(kù),一條記錄表示用戶(hù)一次購(gòu)買(mǎi)的商品種類(lèi),每個(gè)屬性(A、B……)代表一種商品,每個(gè)屬性都是布爾類(lèi)型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}{D}[2%][60%],規(guī)則的含義是“如果用戶(hù)購(gòu)買(mǎi)商品A和B,那么也可能購(gòu)買(mǎi)商品D,因?yàn)橥瑫r(shí)購(gòu)買(mǎi)商品A、B和D的交易記錄占總交易數(shù)的2%而購(gòu)買(mǎi)A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿(mǎn)足用戶(hù)定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個(gè)交易是否包含某商品,而對(duì)交易量沒(méi)有定量描述,這種布爾類(lèi)型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱(chēng)為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對(duì)決策有幫助的關(guān)聯(lián)規(guī)則,相對(duì)于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱(chēng)為定量關(guān)聯(lián)規(guī)則。

另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問(wèn)題。由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)源,而在合并中存在很多障礙,如:沒(méi)有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說(shuō)明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,因而這些都會(huì)嚴(yán)重破壞數(shù)據(jù)的準(zhǔn)確性,導(dǎo)致最終決策的失誤。所有這些問(wèn)題都在等待著人們?nèi)グl(fā)掘更好的解決方法。

參考資料

1.周斌,吳泉源,高洪奎:“用戶(hù)訪(fǎng)問(wèn)模式數(shù)據(jù)挖掘的模型與算法研究”,《計(jì)算機(jī)研究與發(fā)展》,1999 vol.36 No.7 P.870-875;

2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;

3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;

篇10

中圖分類(lèi)號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)36-10604-02

The Implement of Financial Data Analysis Module Base on SSAS Technology

HE Ying-gang, CHEN Jian-xiong

(Chengyi College, Jimei University, Xiamen 361021, China)

Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.

Key words: data mining; financial data analysis; analysis services

目前許多金融交易系統(tǒng)都為用戶(hù)提供了技術(shù)指標(biāo)的編寫(xiě)工具。在編寫(xiě)指標(biāo)計(jì)算公式時(shí),往往有各種參數(shù)需要用戶(hù)進(jìn)行選擇和設(shè)置,合理的參數(shù)組合所得出的結(jié)果可以使得用戶(hù)作出正確判斷,但是這類(lèi)金融系統(tǒng)中并未提供最佳參數(shù)搜索功能,這使得用戶(hù)需要耗費(fèi)許多時(shí)間對(duì)分析驗(yàn)證參數(shù)。隨著數(shù)據(jù)挖掘技術(shù)的成熟和發(fā)展,為這類(lèi)問(wèn)題的解決提供了解決方法和途徑。

由于許多金融公司都有使用Microsoft SQL Server系列數(shù)據(jù)庫(kù)系統(tǒng)作為內(nèi)部系統(tǒng)的數(shù)據(jù)庫(kù)平臺(tái),而微軟公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通過(guò)服務(wù)器和客戶(hù)端技術(shù)的組合為客戶(hù)提供聯(lián)機(jī)分析處理 (OLAP) 和數(shù)據(jù)挖掘功能。這使得我們可以在不改變現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng)的前提下,在原有的公司業(yè)務(wù)系統(tǒng)的基礎(chǔ)上開(kāi)發(fā)數(shù)據(jù)挖掘分析模塊。基于SSAS本文提出了一種實(shí)現(xiàn)金融數(shù)據(jù)分析模塊的解決方案。

1 金融數(shù)據(jù)分析模塊的數(shù)據(jù)挖掘功能的設(shè)計(jì)

1.1 功能設(shè)計(jì)

金融數(shù)據(jù)分析模塊主要應(yīng)用于對(duì)指標(biāo)參數(shù)的搜索,尋找最合適的指標(biāo)參數(shù)值。所以系統(tǒng)應(yīng)具有的功能有:1)根據(jù)用戶(hù)的需要,提供指標(biāo)公式設(shè)計(jì)和參數(shù)設(shè)置;2)提供靈活直觀的圖形顯示;3)用戶(hù)能夠指定數(shù)據(jù)挖掘算法的參數(shù)值,并查看數(shù)據(jù)挖掘生成的規(guī)則。

1.2 結(jié)構(gòu)設(shè)計(jì)

數(shù)據(jù)分析模塊的設(shè)計(jì)采用了三層體系結(jié)構(gòu),分別為:1)數(shù)據(jù)訪(fǎng)問(wèn)層,實(shí)現(xiàn)對(duì)金融日志數(shù)據(jù)的采集、清理和轉(zhuǎn)換;2)數(shù)據(jù)挖掘業(yè)務(wù)層;3)分析結(jié)果表示層,表示層把各種參數(shù)組合所對(duì)應(yīng)的數(shù)據(jù)挖掘分析結(jié)果以圖形化或表格化的方式展現(xiàn)出來(lái),方便用戶(hù)能夠?qū)Ρ雀鞣N參數(shù)組合的優(yōu)劣。為了避免對(duì)數(shù)據(jù)庫(kù)系統(tǒng)性能造成影響,模塊使用獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。開(kāi)發(fā)框架如圖1所示。

2 金融數(shù)據(jù)分析模塊的數(shù)據(jù)挖掘功能模塊的實(shí)現(xiàn)和關(guān)鍵技術(shù)

指標(biāo)公式參數(shù)的求解是一類(lèi)系統(tǒng)優(yōu)化問(wèn)題。遺傳算法是一種求最優(yōu)解或近似最優(yōu)解的全局優(yōu)化搜索算法。使用遺傳算法比傳統(tǒng)的枚舉算法和啟發(fā)式算法具有諸多優(yōu)點(diǎn),例如:搜索使用評(píng)價(jià)函數(shù)啟發(fā),過(guò)程簡(jiǎn)單;搜索從群體出發(fā),具有并行性;與問(wèn)題領(lǐng)域無(wú)關(guān)的快速隨機(jī)搜索能力等等。由于SSAS所提供的數(shù)據(jù)挖掘算法中沒(méi)有包含遺傳算法,所以為了實(shí)現(xiàn)最優(yōu)參數(shù)搜索,必須在數(shù)據(jù)挖掘模塊中加入遺傳算法。本文將指標(biāo)計(jì)算公式的參數(shù)作為染色體基因,一種參數(shù)組合作為一個(gè)個(gè)體。然后根據(jù)個(gè)體基因數(shù)據(jù)生成指標(biāo)值,并對(duì)指標(biāo)值進(jìn)行數(shù)據(jù)挖掘和預(yù)測(cè),對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確性進(jìn)行評(píng)分,預(yù)測(cè)效果最好的參數(shù)組合將作為最佳選擇提供給用戶(hù)。遺傳算法實(shí)現(xiàn)可以參考有關(guān)文獻(xiàn)。本文所設(shè)計(jì)的主要處理流程如圖2所示。

在圖2流程中使用SSAS對(duì)每一種參數(shù)組合計(jì)算生成的指標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析和預(yù)測(cè)。SSAS是基于數(shù)據(jù)挖掘模型進(jìn)行處理的,數(shù)據(jù)挖掘模型是一個(gè)數(shù)據(jù)結(jié)構(gòu),包含了數(shù)據(jù)關(guān)系、多維數(shù)據(jù)的分組和預(yù)測(cè)分析、數(shù)據(jù)挖掘算法等。用SSAS進(jìn)行數(shù)據(jù)挖掘過(guò)程分為三個(gè)步驟:創(chuàng)建挖掘模型、訓(xùn)練挖掘模型和利用挖掘模型生成的規(guī)則進(jìn)行預(yù)測(cè)。

2.1 創(chuàng)建數(shù)據(jù)挖掘模型

開(kāi)發(fā)人員可以利用Visual Studio 2005內(nèi)置Analysis Services項(xiàng)目模板快速創(chuàng)建數(shù)據(jù)挖掘模型,也可以利用DMX數(shù)據(jù)挖掘查詢(xún)語(yǔ)言創(chuàng)建和處理數(shù)據(jù)挖掘模型。下面是一個(gè)利用關(guān)聯(lián)規(guī)則算法建立的外匯利潤(rùn)預(yù)測(cè)分析的挖掘模型的例子。選擇交易時(shí)間做為主鍵,該字段用來(lái)唯一表示某時(shí)間段內(nèi)外匯交易價(jià)格。

CREATE MINING MODEL DM (

Ftime Date KEY,

KvalueDoublediscrete,

DvalueDoublediscrete,

…….

ProfitLeveldiscrete PREDICT)

USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)

2.2 訓(xùn)練挖掘模型

SSAS將挖掘模型保存在數(shù)據(jù)庫(kù)服務(wù)器端,然后訓(xùn)練挖掘模型生成數(shù)據(jù)挖掘規(guī)則。AMO(Analysis Management Object)是微軟提供給開(kāi)發(fā)人員使用的管理SSAS的主要接口,開(kāi)發(fā)人員可以使用AMO創(chuàng)建、管理和處理挖掘模型,立方體,分區(qū)等Analysis Services對(duì)象。以下是在戶(hù)端程序中使用AMO與Analysis Services進(jìn)行數(shù)據(jù)交互,訓(xùn)練挖掘模型的簡(jiǎn)單例子。

Svr=new Server();

Svr.Connect(@”P(pán)rovider=SQLNCLI.1;Data Source=SSASDM\Store;……”);

Db=svr.Databases.GetByName(“DM”); //獲取數(shù)據(jù)挖掘模型對(duì)象

Db.Process(ProcessType.ProcessFull); //調(diào)用訓(xùn)練和處理挖掘模型

Svr.Disconnect();

2.3 預(yù)測(cè)

挖掘模型訓(xùn)練完后,SSAS生成挖掘規(guī)則并可以用來(lái)進(jìn)行預(yù)測(cè)。本文算法流程中將指標(biāo)數(shù)據(jù)預(yù)留一部分用于預(yù)測(cè),然后使用SSAS提供的SQL擴(kuò)展語(yǔ)言,實(shí)現(xiàn)預(yù)測(cè)任務(wù)。以下是一個(gè)客端程序的預(yù)測(cè)連接例子:

AdomdConnectionConn=new AdomdConnection(……);

AdomdClient.AdomdConnand Comm=Conn.CreateCommand();

AdomdDataReader reader;

mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);

//構(gòu)建數(shù)據(jù)挖掘預(yù)測(cè)語(yǔ)句

Reader=Comm.ExecuteReader();

上述第四行程序語(yǔ)句涉及數(shù)據(jù)挖掘模型和數(shù)據(jù)測(cè)試表,使用一個(gè)實(shí)例集進(jìn)行預(yù)測(cè),返回預(yù)測(cè)結(jié)果數(shù)據(jù)表格。

3 總結(jié)

該文分析了一種金融數(shù)據(jù)分析模塊的設(shè)計(jì)方法和實(shí)現(xiàn),該模塊可以被重復(fù)開(kāi)發(fā)和利用。若用戶(hù)自定義新的指標(biāo)計(jì)算公式,只需要修改數(shù)據(jù)挖掘模型和預(yù)測(cè)連接語(yǔ)句即可運(yùn)行。在實(shí)際應(yīng)用中,該系統(tǒng)模塊的原型證明能夠幫助金融分析員提高工作效率。

參考文獻(xiàn):

[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.