伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

數(shù)據(jù)挖掘論文模板(10篇)

時(shí)間:2023-03-17 18:10:52

導(dǎo)言:作為寫作愛好者,不可錯(cuò)過為您精心挑選的10篇數(shù)據(jù)挖掘論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

數(shù)據(jù)挖掘論文

篇1

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

篇2

1.2CPU/GPU協(xié)同并行計(jì)算在諸多適用于高性能計(jì)算的體系結(jié)構(gòu)中,采用通用多核CPU與定制加速協(xié)處理器相結(jié)合的異構(gòu)體系結(jié)構(gòu)成為構(gòu)造千萬億次計(jì)算機(jī)系統(tǒng)的一種可行途徑。而在眾多異構(gòu)混合平臺(tái)中,基于CPU/GPU異構(gòu)協(xié)同的計(jì)算平臺(tái)具有很大的發(fā)展?jié)摿?。在協(xié)同并行計(jì)算時(shí),CPU和GPU應(yīng)各取所長(zhǎng),即CPU承擔(dān)程序控制,而密集計(jì)算交由GPU完成。另外,除管理和調(diào)度GPU計(jì)算任務(wù)外,CPU也應(yīng)當(dāng)承擔(dān)一部分科學(xué)計(jì)算任務(wù)[12]。新型異構(gòu)混合體系結(jié)構(gòu)對(duì)大規(guī)模并行算法研究提出了新的挑戰(zhàn),迫切需要深入研究與該體系結(jié)構(gòu)相適應(yīng)的并行算法。事實(shí)上,目前基于GPU加速的數(shù)據(jù)挖掘算法實(shí)現(xiàn)都有CPU參與協(xié)同計(jì)算,只是討論的重點(diǎn)多集中在為適應(yīng)GPU而進(jìn)行的并行化設(shè)計(jì)上。實(shí)踐中,需要找出密集計(jì)算部分并將其遷移到GPU中執(zhí)行,剩余部分仍然由CPU來完成。

1.3CUDA為了加速GPU通用計(jì)算的發(fā)展,NVIDIA公司在2007年推出統(tǒng)一計(jì)算設(shè)備架構(gòu)(ComputeUnifiedDeviceArchitecture,CUDA)[10,13]。CUDA編程模型將CPU作為主機(jī),GPU作為協(xié)處理器,兩者協(xié)同工作,各司其職。CPU負(fù)責(zé)進(jìn)行邏輯性強(qiáng)的事務(wù)處理和串行計(jì)算,GPU則專注于執(zhí)行高度線程化的并行處理任務(wù)。CUDA采用單指令多線程(SIMT)執(zhí)行模式,而內(nèi)核函數(shù)(kernel)執(zhí)行GPU上的并行計(jì)算任務(wù),是整個(gè)程序中一個(gè)可以被并行執(zhí)行的步驟。CUDA計(jì)算流程通常包含CPU到GPU數(shù)據(jù)傳遞、內(nèi)核函數(shù)執(zhí)行、GPU到CPU數(shù)據(jù)傳遞三個(gè)步驟。CUDA不需要借助于圖形學(xué)API,并采用了比較容易掌握的類C/C++語言進(jìn)行開發(fā),為開發(fā)人員有效利用GPU的強(qiáng)大性能提供了條件。CUDA被廣泛應(yīng)用于石油勘探、天文計(jì)算、流體力學(xué)模擬、分子動(dòng)力學(xué)仿真、生物計(jì)算和圖像處理等領(lǐng)域,在很多應(yīng)用中獲得了幾倍、幾十倍,乃至上百倍的加速比[13]。

1.4并行編程語言和模型過去幾十年里,人們相繼提出了很多并行編程語言和模型,其中使用最廣泛的是為可擴(kuò)展的集群計(jì)算設(shè)計(jì)的消息傳遞接口(MessagePassingInterface,MPI)和為共享存儲(chǔ)器的多處理器系統(tǒng)設(shè)計(jì)的OpenMP[14]。OpenMP最初是為CPU執(zhí)行而設(shè)計(jì)的。OpenACC[15]是計(jì)算機(jī)廠商為異構(gòu)計(jì)算系統(tǒng)提出的一種新編程模型,其主要優(yōu)勢(shì)是為抽象掉許多并行編程細(xì)節(jié)提供了編譯自動(dòng)化和運(yùn)行時(shí)系統(tǒng)支持。這使得應(yīng)用程序在不同廠商的計(jì)算機(jī)和同一廠商不同時(shí)代的產(chǎn)品中保持兼容性。然而,學(xué)習(xí)OpenACC需要理解所有相關(guān)的并行編程細(xì)節(jié)。在MPI編程模型中,集群中的計(jì)算節(jié)點(diǎn)之間相互不共享存儲(chǔ)器;節(jié)點(diǎn)之間的數(shù)據(jù)共享與交互都通過顯式傳遞消息的方式實(shí)現(xiàn)。MPI成功應(yīng)用于高性能科學(xué)計(jì)算(HPC)領(lǐng)域。現(xiàn)在很多HPC集群采用的是異構(gòu)的CPU/GPU節(jié)點(diǎn)。在集群層次上,開發(fā)人員使用MPI進(jìn)行編程,但在節(jié)點(diǎn)層次上,CUDA是非常高效的編程接口。由于計(jì)算節(jié)點(diǎn)之間缺乏共享存儲(chǔ)器機(jī)制,要把應(yīng)用程序移植到MPI中需要做大量針對(duì)性分析和分解工作。包括蘋果公司在內(nèi)的幾大公司在2009年共同開發(fā)了一套標(biāo)準(zhǔn)編程接口,稱之為OpenCL[16]。與CUDA類似,OpenCL編程模型定義了語言擴(kuò)展和運(yùn)行時(shí)API,使程序員可以在大規(guī)模并行處理中進(jìn)行并行管理和數(shù)據(jù)傳遞。與CUDA相比,OpenCL更多地依賴API,而不是語言的擴(kuò)展,這允許廠商快速調(diào)整現(xiàn)有編譯器和工具來處理OpenCL程序。OpenCL和CUDA在關(guān)鍵概念和特性上有諸多相似之處,因此CUDA程序員可以很快掌握OpenCL。

1.5MATLAB因提供豐富的庫函數(shù)庫以及諸多其他研究者貢獻(xiàn)和共享的函數(shù)庫,MATLAB是研究人員實(shí)現(xiàn)算法的常用平臺(tái)。通過封裝的數(shù)據(jù)容器(GPUArrays)和函數(shù),MATLAB允許沒有底層CUDA編程能力的研究人員可以較容易獲得GPU計(jì)算能力,因此MATLAB較OpenCL更容易上手。截止準(zhǔn)備本文時(shí),2014版本的MATLAB提供了226個(gè)內(nèi)置的GPU版本的庫函數(shù)。對(duì)于有CUDA編程經(jīng)驗(yàn)的人員,MATLAB允許直接集成CUDA內(nèi)核進(jìn)MATLAB應(yīng)用。本文第四節(jié)的實(shí)驗(yàn)亦基于MATLAB實(shí)現(xiàn)。

1.6JACKET引擎JACKET[17]是一個(gè)由AccelerEyes公司開發(fā)專門用于以MATLAB為基礎(chǔ)的基于GPU的計(jì)算引擎,其最新版本已經(jīng)包含了高層的接口,完全屏蔽了底層硬件的復(fù)雜性,并支持所有支持CUDA的GPU計(jì)算,降低了進(jìn)行CUDA開發(fā)的門檻。JACKET是MATLAB代碼在GPU上運(yùn)行的插件。JACKET允許標(biāo)準(zhǔn)的MATLAB代碼能夠在任何支持CUDA的GPU上運(yùn)行,這使得廣大的MATLAB及C/C++用戶可以直接使用GPU強(qiáng)大的計(jì)算能力進(jìn)行相關(guān)應(yīng)用領(lǐng)域的快速原型開發(fā)。JACKET包含了一套運(yùn)行于MATLAB環(huán)境中優(yōu)化并行計(jì)算的基礎(chǔ)函數(shù)庫。并且支持MATLAB數(shù)據(jù)類型,可將任何存儲(chǔ)于MATLABCPU內(nèi)存中的變量數(shù)據(jù)轉(zhuǎn)換為GPU上的數(shù)據(jù)類型,對(duì)以往的MATLAB程序來說,只需更改數(shù)據(jù)類型,就能遷移到GPU上運(yùn)行。本文的第四節(jié)的實(shí)驗(yàn)亦基于JACKET在MATLAB上實(shí)現(xiàn)。

2相關(guān)工作綜述

2.1基于CPU的數(shù)據(jù)挖掘算法實(shí)現(xiàn)數(shù)據(jù)挖掘算法的研究一直很活躍,許多成熟和經(jīng)典的算法已經(jīng)實(shí)現(xiàn)在諸多研究或商用軟件包/平臺(tái),例如開源的Weka[18]和KNIME,以及商用的IBM公司的PASWModeler(即之前SPSS公司的Clementine®)。這些軟件默認(rèn)都是單機(jī)版本,可運(yùn)行在普通PC或高性能服務(wù)器上,基于CPU的計(jì)算能力。為了適應(yīng)目前大規(guī)模的計(jì)算,出現(xiàn)了基于Google公司提出的MapReduce[19]計(jì)算框架實(shí)現(xiàn)的開源數(shù)據(jù)挖掘平臺(tái)Mahout[20]。相關(guān)的研究起源于斯坦福大學(xué)AndrewNg研究組2006年的經(jīng)典論著[21]。由于現(xiàn)有的算法需要先找到可“遷移”到MapReduce的方式,因此目前Mahout平臺(tái)上僅有幾個(gè)能支持分布式部署的數(shù)據(jù)挖掘算法,包括用于分類的樸素貝葉斯、隨機(jī)森林,用于聚類的k-Means,基于項(xiàng)目的協(xié)同過濾等。目前Mahout仍然是基于CPU的計(jì)算能力。

2.2聚類算法聚類是數(shù)據(jù)挖掘中用來發(fā)現(xiàn)數(shù)據(jù)分布和隱含模式的一種無監(jiān)督學(xué)習(xí),每個(gè)訓(xùn)練元組的類標(biāo)號(hào)是未知的,并且要學(xué)習(xí)的個(gè)數(shù)或集合也可能事先不知道。對(duì)于給定的數(shù)據(jù)集,聚類算法按照一定的度量,將數(shù)據(jù)對(duì)象分組為多個(gè)簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別很大[22-23]。k-Means算法是經(jīng)典的基于距離/劃分的聚類分析算法,也是應(yīng)用得最廣泛的算法之一,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象距離越近,其相似度就越大。k-Means算法的流程如下[24]:輸入:簇的數(shù)目k和包含n個(gè)對(duì)象數(shù)據(jù)集D。輸出:k個(gè)簇的集合。方法:1)從D中任意選擇k個(gè)對(duì)象作為初始簇中心。計(jì)算每個(gè)數(shù)據(jù)對(duì)象到各簇中心的歐氏距離,將每個(gè)數(shù)據(jù)對(duì)象分配到最相似的簇中。2)重新計(jì)算每個(gè)簇中對(duì)象的均值。3)循環(huán)執(zhí)行步驟2-3兩個(gè)步驟,直到各個(gè)簇內(nèi)對(duì)象不再變化。上述算法步驟2屬于計(jì)算密度最大的部分,且具備并行化的條件。計(jì)算各個(gè)數(shù)據(jù)對(duì)象到各簇中心的歐氏距離和將數(shù)據(jù)對(duì)象分配到最近的簇的時(shí)候,數(shù)據(jù)對(duì)象之間都是相互獨(dú)立的,不需要進(jìn)行交換,且沒有先后順序,后計(jì)算的對(duì)象不需要等待前一次計(jì)算的結(jié)果,僅在完成全部分配過程之后,才需要進(jìn)行一次數(shù)據(jù)匯總。所以文獻(xiàn)[25]的作者們使用GPU并行優(yōu)化了一維數(shù)據(jù)的k-Means算法的步驟2,并使用帶緩存機(jī)制的常數(shù)存儲(chǔ)器保存中心點(diǎn)數(shù)據(jù),能獲得更好的讀取效率。文獻(xiàn)中還展示了實(shí)驗(yàn)結(jié)果,在8600GT上取得了14倍左右的加速效果。DBSCAN屬于基于密度的聚類算法中最常被引用的,G-DBSCAN是它的一個(gè)GPU加速版本[26]。文獻(xiàn)[26]的實(shí)驗(yàn)顯示較DBSCAN可以實(shí)現(xiàn)高達(dá)112倍的加速。BIRCH是經(jīng)典的基于層次的聚類算法,文獻(xiàn)[27]中基于CUDA實(shí)現(xiàn)的GPU加速版本在實(shí)驗(yàn)中獲得了高達(dá)154倍的加速。

2.3分類算法分類是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一,至今已經(jīng)提出很多算法。分類算法[28]是一種監(jiān)督學(xué)習(xí),通過對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。分類算法是將一個(gè)未知樣本分到幾個(gè)已存在類的過程,主要包含兩個(gè)步驟:首先,根據(jù)類標(biāo)號(hào)已知的訓(xùn)練數(shù)據(jù)集,訓(xùn)練并構(gòu)建一個(gè)模型,用于描述預(yù)定的數(shù)據(jù)類集或概念集;其次,使用所獲得的模型對(duì)新的數(shù)據(jù)進(jìn)行分類。近年來,許多研究已經(jīng)轉(zhuǎn)向?qū)崿F(xiàn)基于GPU加速分類算法,包括k-NN(k近鄰)分類算法[29],支持向量機(jī)分類算法[30],貝葉斯分類算法[31-32]等。kNN算法[33]是數(shù)據(jù)挖掘中應(yīng)用最廣泛的一種分類算法,簡(jiǎn)單易實(shí)現(xiàn)。它是一種典型的基于實(shí)例的學(xué)習(xí)法,將待判定的檢驗(yàn)元組與所有的訓(xùn)練元組進(jìn)行比較,挑選與其最相似的k個(gè)訓(xùn)練數(shù)據(jù),基于相應(yīng)的標(biāo)簽和一定的選舉規(guī)則來決定其標(biāo)簽。在ShenshenLiang等人的文章[34]指出,由于kNN算法是一種惰性學(xué)習(xí)法,對(duì)于每個(gè)待分類的樣本,它都需要計(jì)算其與訓(xùn)練樣本庫中所有樣本的距離,然后通過排序,才能得到與待分類樣本最相鄰的k個(gè)鄰居。那么當(dāng)遇到大規(guī)模數(shù)據(jù)并且是高維樣本時(shí),kNN算法的時(shí)間復(fù)雜度和空間復(fù)雜度將會(huì)很高,造成執(zhí)行效率低下,無法勝任大數(shù)據(jù)分析任務(wù)。所以加速距離的計(jì)算是提高kNN算法的核心問題。因?yàn)槊總€(gè)待分類的樣本都可以獨(dú)立地進(jìn)行kNN分類,前后之間沒有計(jì)算順序上的相關(guān)性,因此可以采用GPU并行運(yùn)算方法解決kNN算法串行復(fù)雜度高的問題。將計(jì)算測(cè)試集和訓(xùn)練集中點(diǎn)與點(diǎn)之間的距離和排序一步采用GPU并行化完成,其余如判斷類標(biāo)號(hào)一步難以在GPU上高效實(shí)現(xiàn),由CPU完成。文獻(xiàn)[34]通過GPU并行化實(shí)現(xiàn)kNN算法,讓kNN算法時(shí)間復(fù)雜度大幅度減少,從而說明GPU對(duì)kNN算法的加速效果是非常明顯的。

2.4關(guān)聯(lián)分析算法關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中較成熟和重要的研究方法,旨在挖掘事務(wù)數(shù)據(jù)庫頻繁出現(xiàn)的項(xiàng)集。因此,挖掘關(guān)聯(lián)規(guī)則的問題可以歸結(jié)為挖掘頻繁項(xiàng)集[35]。關(guān)聯(lián)分析算法首先找出所有的頻繁項(xiàng)集,然后根據(jù)最小支持度和最小置信度從頻繁項(xiàng)集中產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法[36]是最有影響力的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的經(jīng)典算法。Apriori算法使用逐層搜索的迭代方法產(chǎn)生頻繁項(xiàng)目集,即利用k頻繁項(xiàng)集來產(chǎn)生(k+1)項(xiàng)集,是一種基于生成候選項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘方法。在劉瑩等人的文章[37]中指出,產(chǎn)生候選項(xiàng)和計(jì)算支持度,占據(jù)Apriori的大部分計(jì)算量。產(chǎn)生候選項(xiàng)的任務(wù)是連接兩個(gè)頻繁項(xiàng)集,而這個(gè)任務(wù)在不同線程之間是獨(dú)立的,所以這個(gè)過程適合在GPU上被并行化。通過掃描交易數(shù)據(jù)庫,計(jì)算支持度程序記錄一個(gè)候選項(xiàng)集出現(xiàn)的次數(shù)。由于每個(gè)候選項(xiàng)集的計(jì)數(shù)與其他項(xiàng)集的計(jì)數(shù)相對(duì)獨(dú)立,同樣適合于多線程并行。所以文獻(xiàn)[37]的作者們?cè)趯?shí)現(xiàn)Apriori時(shí)使用GPU并行化了產(chǎn)生候選項(xiàng)和計(jì)算支持度這兩個(gè)過程,取得了顯著的加速效果。文獻(xiàn)[38]是目前發(fā)現(xiàn)的對(duì)于在GPU上實(shí)現(xiàn)頻繁項(xiàng)集挖掘最全面細(xì)致的研究。他們使用的是早期的CUDA平臺(tái),采用了bitmap和trie兩種數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)GPU的挖掘算法,并且根據(jù)不同數(shù)據(jù)集和支持度進(jìn)行了算法性能的對(duì)比,均相對(duì)于CPU版本的算法獲得的一定的加速比。

2.5時(shí)序分析由于越來越多的數(shù)據(jù)都與時(shí)間有著密切的關(guān)系,時(shí)序數(shù)據(jù)作為數(shù)據(jù)挖掘研究的重要分支之一,越來越受到人們的重視。其研究的目的主要包括以下兩個(gè)方面:一是學(xué)習(xí)待觀察過程過去的行為特征;二是預(yù)測(cè)未來該過程的可能狀態(tài)或表現(xiàn)。時(shí)序數(shù)據(jù)挖掘主要包含以下幾個(gè)主要任務(wù):數(shù)據(jù)預(yù)處理,時(shí)序數(shù)據(jù)表示,分割,相似度度量,分類,聚類等。這些任務(wù)中很多都涉及到相當(dāng)大的計(jì)算量。由于問題規(guī)模的不斷擴(kuò)大,并且對(duì)于實(shí)時(shí)性能的要求,時(shí)序數(shù)據(jù)挖掘的任務(wù)就必須要求充分地提高計(jì)算速度或者通過優(yōu)化減少計(jì)算量。時(shí)序數(shù)據(jù)的表示有時(shí)候會(huì)采取特征來表示,這就涉及到了特征提取問題,當(dāng)特征數(shù)量龐大的時(shí)候就需要進(jìn)行維數(shù)約簡(jiǎn),主要的方法有奇異值分解法,離散小波變換。這些計(jì)算都涉及到很大的時(shí)間復(fù)雜度,為了減少計(jì)算的時(shí)間消耗,SheetalLahabar等人使用GPU加速SVD的計(jì)算,獲得了60多倍的加速效果[39]。動(dòng)態(tài)時(shí)間彎曲(DynamicTimeWarping,DTW)起初被應(yīng)用于文本數(shù)據(jù)匹配和視覺模式識(shí)別的研究領(lǐng)域,是一種相似性度量算法。研究表明這種基于非線性彎曲技術(shù)的算法可以獲得很高的識(shí)別、匹配精度。Berndt和Clifford提出了將DTW的概念引入小型時(shí)間序列分析領(lǐng)域,在初步的實(shí)驗(yàn)中取得了較好的結(jié)果[40]。隨著問題規(guī)模的擴(kuò)大,對(duì)于DTW的計(jì)算成為了時(shí)序數(shù)據(jù)挖掘的首先要處理的問題。在DTW中,搜索需要找出與訓(xùn)練數(shù)據(jù)最近距離的樣本,這就需要搜索與每個(gè)訓(xùn)練樣本的距離,這就可以很好的利用GPU進(jìn)行并行化處理。DorukSart等人在對(duì)DTW加速的處理中,獲得了兩個(gè)數(shù)量級(jí)的加速效果[41]。而對(duì)于分類和聚類任務(wù)的加速,上面已經(jīng)提到,這里不再累贅。

2.6深度學(xué)習(xí)深度學(xué)習(xí)雖然隸屬機(jī)器學(xué)習(xí),但鑒于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的緊密聯(lián)系,深度學(xué)習(xí)必定將在數(shù)據(jù)挖掘領(lǐng)域獲得越來越多的應(yīng)用。從2006年Hinton和他的學(xué)生Salakhutdinov在《科學(xué)》上發(fā)表的文章[42]開始,深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。深度學(xué)習(xí)的實(shí)質(zhì)是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類預(yù)測(cè)的準(zhǔn)確性[43]。如何在工程上利用大規(guī)模的并行計(jì)算平臺(tái)來實(shí)現(xiàn)海量數(shù)據(jù)訓(xùn)練,是各個(gè)機(jī)構(gòu)從事深度學(xué)習(xí)技術(shù)研發(fā)首先要解決的問題。傳統(tǒng)的大數(shù)據(jù)平臺(tái)如Hadoop,由于數(shù)據(jù)處理延遲太高而不適合需要頻繁迭代的深度學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)一般基于大量相似的神經(jīng)元,故本質(zhì)上可以高度并行化訓(xùn)練;通過映射到GPU,可以實(shí)現(xiàn)比單純依賴CPU顯著地提升。谷歌搭建的DistBelief是一個(gè)采用普通服務(wù)器的深度學(xué)習(xí)并行計(jì)算平臺(tái),采用異步算法,由很多計(jì)算單元獨(dú)立更新同一個(gè)參數(shù)服務(wù)器的模型參數(shù),實(shí)現(xiàn)了隨機(jī)梯度下降算法的并行化,加快了模型訓(xùn)練速度。百度的多GPU并行計(jì)算平臺(tái)克服了傳統(tǒng)SGD訓(xùn)練不能并行的技術(shù)難題,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練已經(jīng)可以在海量語料上并行展開。NVIDIA在2014年9月推出了深度學(xué)習(xí)GPU加速庫cuDNN,可以方便地嵌入高層級(jí)機(jī)器學(xué)習(xí)框架中使用,例如Caffe[45]。cuDNN支持NVIDIA的全系列GPU,包括低端的TegraK1和高端的TeslaK40,并承諾可向上支持未來的GPU。

2.7小結(jié)并行化能帶來多少倍的加速取決于算法中可并行化的部分。例如,如果可并行部分的時(shí)間占整個(gè)應(yīng)用程序執(zhí)行時(shí)間的20%,那么即使將并行部分加速100倍,總執(zhí)行時(shí)間也只能減少19.8%,整個(gè)應(yīng)用程序的加速只有1.247倍;即使無限加速也只能減少約20%的執(zhí)行時(shí)間,總加速不會(huì)超過1.25倍。對(duì)于一個(gè)數(shù)據(jù)挖掘(學(xué)習(xí)和預(yù)測(cè))算法進(jìn)行GPU加速實(shí)現(xiàn),首先要思考是否存在可并行執(zhí)行的部分,之后再結(jié)合GPU的架構(gòu)特點(diǎn)進(jìn)行針對(duì)性實(shí)現(xiàn)優(yōu)化。然而,由于數(shù)據(jù)挖掘算法普遍是數(shù)據(jù)密集型計(jì)算,而GPU片內(nèi)存儲(chǔ)容量有限,如何降低與內(nèi)存交換數(shù)據(jù)集是一個(gè)要解決的關(guān)鍵問題。通過以上相關(guān)工作的分析,可以發(fā)現(xiàn)數(shù)據(jù)挖掘算法在GPU上的加速具有數(shù)據(jù)獨(dú)立,可并行化共同特征。本文提出數(shù)據(jù)挖掘算法在GPU上加速實(shí)現(xiàn)的一種解決思路:在大數(shù)據(jù)下,分析算法的性能瓶頸,從而確定算法中耗時(shí)大,時(shí)間復(fù)雜度高的部分,將此部分在GPU上執(zhí)行,不耗時(shí)部分在CPU上串行執(zhí)行,以達(dá)到加速效果。為了更充分利用GPU的并行計(jì)算的體系結(jié)構(gòu),可深入分析耗時(shí)大的部分,將具有數(shù)據(jù)獨(dú)立,可并行化的部分在GPU上并行執(zhí)行,達(dá)到更進(jìn)一步的加速效果。

3實(shí)踐和分析:協(xié)同過濾推薦

當(dāng)前主要的協(xié)同過濾推薦算法有兩類:基于用戶(r-based)和基于項(xiàng)目(item-based)的協(xié)同過濾推薦算法?;陧?xiàng)目的協(xié)同過濾推薦算法[46-50]認(rèn)為,項(xiàng)目間的評(píng)分具有相似性,可以通過用戶對(duì)目標(biāo)項(xiàng)目的若干相似項(xiàng)目的評(píng)分來估計(jì)該項(xiàng)目的分值?;谟脩舻膮f(xié)同過濾推薦算法認(rèn)為,如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,那么他們對(duì)其他項(xiàng)目的評(píng)分也比較相似。本文根據(jù)以上總結(jié)的算法特征圍繞兩種經(jīng)典協(xié)同過濾算法的實(shí)現(xiàn),通過大規(guī)模數(shù)據(jù)的實(shí)驗(yàn)來驗(yàn)證GPU相對(duì)于傳統(tǒng)CPU的優(yōu)勢(shì)。

3.1算法實(shí)現(xiàn)

3.1.1基于CPU實(shí)現(xiàn)協(xié)同過濾推薦的兩類經(jīng)典算法本文基于MATLAB實(shí)現(xiàn)CPU版本的基于用戶和基于項(xiàng)目的兩種經(jīng)典協(xié)同過濾推薦算法。實(shí)現(xiàn)的步驟:1)數(shù)據(jù)表示:收集用戶的評(píng)分?jǐn)?shù)據(jù),并進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成一個(gè)mn的用戶-項(xiàng)目評(píng)分矩陣R,m和n分別代表矩陣中的用戶數(shù)和項(xiàng)目數(shù),矩陣中的元素代表用戶對(duì)項(xiàng)目的評(píng)分值。2)最近鄰居搜索:主要完成對(duì)目標(biāo)用戶/項(xiàng)目的最近鄰居的查找。通過計(jì)算目標(biāo)用戶/項(xiàng)目與其他用戶/項(xiàng)目之間的相似度,算出與目標(biāo)用戶/項(xiàng)目最相似的最近鄰居集。該過程分兩步完成:首先采用協(xié)同過濾推薦算法中運(yùn)用較多的度量方法“Pearson相關(guān)系數(shù)”計(jì)算用戶/項(xiàng)目之間的相似度得到相應(yīng)的相似度矩陣,其次是采用最近鄰方法找到目標(biāo)用戶/項(xiàng)目的最近的K個(gè)鄰居,這些鄰居是由與目標(biāo)相似度最高的一些用戶/項(xiàng)目組成的。3)產(chǎn)生推薦:根據(jù)之前計(jì)算好的用戶/項(xiàng)目之間的相似度,并使用相應(yīng)的預(yù)測(cè)評(píng)分函數(shù)對(duì)用戶未打分的項(xiàng)目進(jìn)行預(yù)測(cè),得到預(yù)測(cè)評(píng)分矩陣,然后選擇預(yù)測(cè)評(píng)分最高的Top-n項(xiàng)推薦給目標(biāo)用戶。4)性能評(píng)估:本研究擬采用平均絕對(duì)誤差MAE作為評(píng)價(jià)推薦系統(tǒng)預(yù)測(cè)質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)。MAE可以直觀地對(duì)預(yù)測(cè)質(zhì)量進(jìn)行度量,是最常用的一種方法。MAE通過計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際評(píng)分之間的偏差度量預(yù)測(cè)的準(zhǔn)確性;MAE越小,預(yù)測(cè)質(zhì)量越高。

3.1.2基于GPU實(shí)現(xiàn)協(xié)同過濾推薦的兩類經(jīng)典算法在大數(shù)據(jù)下,協(xié)同過濾算法中主要的時(shí)間消耗在于相似度計(jì)算模塊,占了整個(gè)算法的大部分時(shí)間,且每個(gè)用戶/項(xiàng)目之間的相似度可以被獨(dú)立計(jì)算,不依靠其他用戶/項(xiàng)目,具備并行化的條件,所以在以下的實(shí)驗(yàn)中,將相似度計(jì)算模塊在GPU上執(zhí)行,其他部分在CPU上執(zhí)行,進(jìn)而提高整個(gè)算法的執(zhí)行效率。使用MATLAB編程技術(shù)和JACKET編程技術(shù)在GPU上分別實(shí)現(xiàn)基于用戶和基于項(xiàng)目的兩種經(jīng)典協(xié)同過濾推薦算法。實(shí)現(xiàn)步驟如下:1)數(shù)據(jù)表示:收集用戶的評(píng)分?jǐn)?shù)據(jù),并進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成用戶-項(xiàng)目評(píng)分矩陣。2)將收集的數(shù)據(jù)從CPU傳輸至GPU。3)對(duì)傳輸?shù)紾PU上的數(shù)據(jù)執(zhí)行GPU操作,調(diào)用相關(guān)函數(shù)庫,采用公式(1)和(2)分別計(jì)算并獲取用戶/項(xiàng)目間的相似度矩陣。4)將GPU計(jì)算結(jié)果返回CPU中以便后續(xù)操作。5)采用公式(3)和(4)在CPU上分別獲取兩種經(jīng)典算法的評(píng)分預(yù)測(cè)矩陣。6)選擇預(yù)測(cè)評(píng)分最高的Top-n項(xiàng)推薦給目標(biāo)用戶。7)采用公式(5)求兩種經(jīng)典算法的平均絕對(duì)誤差MAE。

3.2實(shí)驗(yàn)結(jié)果與分析

3.2.1實(shí)驗(yàn)環(huán)境本實(shí)驗(yàn)所用的CPU是IntelXeonE52687W,核心數(shù)量是八核,主頻率是3.1GHz,內(nèi)存大小是32GB;所使用的GPU是NVIDIAQuadroK4000,顯存容量是3GB,顯存帶寬是134GB/s核心頻率是811MHz,流處理器數(shù)是768個(gè)。使用Windows764位操作系統(tǒng),編程環(huán)境使用最新的CUDA。

3.2.2實(shí)驗(yàn)數(shù)據(jù)本實(shí)驗(yàn)使用目前比較常用的MovieLens[56]數(shù)據(jù)集作為測(cè)試數(shù)據(jù),該數(shù)據(jù)集從MovieLens網(wǎng)站采集而來,由美國(guó)Minnesota大學(xué)的GroupLens研究小組提供,數(shù)據(jù)集1包含943個(gè)用戶對(duì)1682部電影約10萬的評(píng)分?jǐn)?shù)據(jù),數(shù)據(jù)集2包含6040個(gè)用戶對(duì)3952部電影約100萬的評(píng)分?jǐn)?shù)據(jù),其中每個(gè)用戶至少對(duì)20部電影進(jìn)行了評(píng)分。評(píng)分的范圍是1~5,1表示“很差”,5表示“很好”。實(shí)驗(yàn)需要將每個(gè)數(shù)據(jù)集劃分為一個(gè)訓(xùn)練集和一個(gè)測(cè)試集,每次隨機(jī)選出其中80%的評(píng)分?jǐn)?shù)據(jù)用作訓(xùn)練集,另20%用作測(cè)試集。

3.2.3實(shí)驗(yàn)結(jié)果與分析本文采用加速比來比較算法的CPU實(shí)現(xiàn)和GPU實(shí)現(xiàn)的運(yùn)行效率。計(jì)算加速比的方法如式(6)所示:在公式中,TimeCPU表示算法在CPU上的平均運(yùn)行時(shí)間,TimeGPU表示算法在GPU上的平均運(yùn)行時(shí)間。所有實(shí)驗(yàn)中均取最近鄰居數(shù)為20,且各實(shí)驗(yàn)結(jié)果均為5次獨(dú)立測(cè)試的平均值。圖2是關(guān)于兩個(gè)算法核心步驟的加速效果,而圖3則展示了算法整體加速效果??梢钥闯?,(1)整體加速效果取決于核心步驟的加速效果,(2)GPU版本的算法在性能上較CPU版本有較顯著地優(yōu)勢(shì),且面對(duì)大數(shù)據(jù)集的加速效果更為明顯。例如在基于100萬條數(shù)據(jù)集時(shí),Item-based的整體算法的加速比達(dá)到了14倍左右,而面對(duì)10萬條數(shù)據(jù)集時(shí),加速比不到8倍。這可以解釋為GPU的多核優(yōu)勢(shì)在面對(duì)大數(shù)據(jù)集時(shí)被更為充分地得到釋放;(3)算法對(duì)r-based和Item-based兩種算法的加速比相近。圖4是關(guān)于算法預(yù)測(cè)效果的評(píng)估,可以看出基于GPU加速的兩類經(jīng)典協(xié)同過濾算法與基于CPU的兩類經(jīng)典協(xié)同過濾算法在預(yù)測(cè)效果上相近。如果結(jié)合圖2和圖3,可獲得結(jié)論-能夠基于GPU獲得得可觀的計(jì)算加速而不犧牲應(yīng)用效果。

3.3小結(jié)

本文通過使用JACKET加快開發(fā)過程。目前國(guó)內(nèi)還缺少對(duì)JACKET的了解和應(yīng)用,JACKET的出現(xiàn)為科學(xué)領(lǐng)域進(jìn)行大規(guī)模計(jì)算仿真提供了新的研究方法,并使得研究人員可以在熟悉的MATLAB平臺(tái)上實(shí)現(xiàn)相關(guān)算法。

篇3

1.1數(shù)據(jù)庫環(huán)境的異構(gòu)型

Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個(gè)站點(diǎn)的信息和組織的不同,Web網(wǎng)站就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要對(duì)這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個(gè)站點(diǎn)之間的異構(gòu)數(shù)據(jù)集成,提供用戶統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識(shí)。其次,有關(guān)Web上的數(shù)據(jù)查詢。

1.2數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化

Web上的數(shù)據(jù)比較復(fù)雜,各個(gè)站點(diǎn)的數(shù)據(jù)都獨(dú)立設(shè)計(jì),具有動(dòng)態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問題是進(jìn)行Web數(shù)據(jù)挖掘所面臨的最大困難。

2XML技術(shù)在Web數(shù)據(jù)挖掘中的優(yōu)勢(shì)

Web數(shù)據(jù)的異構(gòu)使Web數(shù)據(jù)挖掘變得十分困難,通過XML可以解決這個(gè)問題。因?yàn)閄ML文檔具有很好的自我描述性,他的元素、子元素、屬性結(jié)構(gòu)樹可以表達(dá)極為豐富的語義信息,能夠很好的描述半結(jié)構(gòu)化的數(shù)據(jù),因此在網(wǎng)絡(luò)數(shù)據(jù)集成、發(fā)送、處理和顯示的方面。開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)的處理提供了有用的途徑。利用XML,Web設(shè)計(jì)人員能夠構(gòu)建文檔類型定義的多層次互相關(guān)聯(lián)的系統(tǒng)、元數(shù)據(jù)、數(shù)據(jù)樹、樣式表和超鏈接結(jié)構(gòu)?;赬ML的Web數(shù)據(jù)挖掘技術(shù),能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,解決Web數(shù)據(jù)挖掘的難題。

2.1XML技術(shù)在Web數(shù)據(jù)挖掘中具體作用利用XML技術(shù)我們?cè)赪eb數(shù)據(jù)挖掘中可以完成以下幾點(diǎn):

2.1.1集成異構(gòu)數(shù)據(jù)源

XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以完成和關(guān)系數(shù)據(jù)庫中的屬性一一對(duì)應(yīng),從而實(shí)施精確地查詢與模型抽取。XML可以搜索多個(gè)不同數(shù)據(jù)庫的問題,以實(shí)現(xiàn)集成。

2.1.2和異構(gòu)數(shù)據(jù)進(jìn)行交換

在Web數(shù)據(jù)挖掘程中,用戶需要和異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換,XML通過自定義性及可擴(kuò)展性來標(biāo)識(shí)各種數(shù)據(jù),從而描述從各站點(diǎn)搜集到的Web頁中的數(shù)據(jù)。XML的出現(xiàn)解決了數(shù)據(jù)查詢的統(tǒng)一接口。

2.1.3過濾信息并顯示

XML描述數(shù)據(jù)本身,可以使得定義的數(shù)據(jù)以不同的方式顯示,對(duì)獲取的信息進(jìn)行裁減和編輯以適應(yīng)不同用戶的需求。以不同的瀏覽形式提供給不同的用戶。

3基于XML的Web數(shù)據(jù)挖掘模型

我們通過對(duì)XML及Web數(shù)據(jù)挖掘的分析,設(shè)計(jì)了一個(gè)基于XML的Web數(shù)據(jù)挖掘模型通過提供一個(gè)Web數(shù)據(jù)挖掘的集成環(huán)境,提高數(shù)據(jù)挖掘系統(tǒng)的整體性能。工作流程如下:系統(tǒng)根據(jù)用戶要求搜集Web資源,經(jīng)數(shù)據(jù)轉(zhuǎn)換器處理成相應(yīng)的XML數(shù)據(jù)存儲(chǔ),提供給挖掘器使用;挖掘器則根據(jù)要求從選取相應(yīng)的算法挖掘,輸出挖掘結(jié)果;用戶根據(jù)自己的滿意度,獲得需要的挖掘結(jié)果,調(diào)整挖掘要求進(jìn)入新一輪數(shù)據(jù)挖掘。通過系統(tǒng)的維護(hù)我們可以加入新的挖掘算法,實(shí)現(xiàn)升級(jí)。

3.1各模塊具體功能

3.1.1數(shù)據(jù)收集

從Web站點(diǎn)上采集數(shù)據(jù)并存儲(chǔ),獲得挖掘內(nèi)容。針對(duì)異構(gòu)數(shù)據(jù)源,可以多種方式提出相關(guān)需求,挖掘的重點(diǎn)是Web內(nèi)容和Web使用的數(shù)據(jù)。把用戶訪問網(wǎng)站留下原始日志數(shù)據(jù)進(jìn)行清洗、過濾和轉(zhuǎn)換處理,轉(zhuǎn)變成統(tǒng)一處理的數(shù)據(jù)結(jié)構(gòu),構(gòu)建日志數(shù)據(jù)庫。

3.1.2轉(zhuǎn)換器

對(duì)檢索得到的數(shù)據(jù)用XML技術(shù)進(jìn)行預(yù)處理,建立半結(jié)構(gòu)化數(shù)據(jù)模型,抽取其特征的元數(shù)據(jù),用結(jié)構(gòu)化的形式保存,為挖掘模塊提供所需的數(shù)據(jù)。

3.1.3挖掘器

不同的挖掘算法有不同適用情況,挖掘綜合器根據(jù)具體的需求和挖掘方法的不同選擇策略到挖掘算法庫中去選擇挖掘算法或種組合算法執(zhí)行挖掘任務(wù)。隨著應(yīng)用的深入,知識(shí)庫中的算法和規(guī)則不斷的豐富。挖掘算法庫是挖掘分析方法的綜合庫,以插拔的形式組織存放各種挖掘算法。314結(jié)果生成與評(píng)估以直觀的方式提交挖掘結(jié)果,便于用戶的評(píng)估。通過模式分析和興趣度度量,若結(jié)果使得用戶滿意,數(shù)據(jù)挖掘結(jié)束,輸出用戶感興趣的內(nèi)容;否則可以在此重新提出挖掘要求,重新挖掘。

3.2系統(tǒng)各模塊實(shí)現(xiàn)方法

3.2.1數(shù)據(jù)收集

數(shù)據(jù)的收集也涉及數(shù)據(jù)挖掘的技術(shù),其過程是:通過人工輸入辦法,給出查詢主題,找到相關(guān)的Web頁,然后,通過相應(yīng)的數(shù)據(jù)挖掘的算法對(duì)訓(xùn)練數(shù)據(jù)集提煉,利用提煉出的數(shù)據(jù)模式,進(jìn)行更大范圍的搜索,以獲取更多的數(shù)據(jù)源。最終形成較新和有效XML文檔。

3.2.2數(shù)據(jù)的轉(zhuǎn)換處理

數(shù)據(jù)抽取轉(zhuǎn)換是模型實(shí)現(xiàn)一個(gè)重要環(huán)節(jié),其主要方法是把現(xiàn)有的Web頁面轉(zhuǎn)換成XML格式,并使用相關(guān)工具處理XML結(jié)構(gòu)數(shù)據(jù)檢要把HTML中含有的與主題無關(guān)的標(biāo)記過濾掉,然后轉(zhuǎn)化到XML的格式存儲(chǔ)。目前Web頁面到XML文檔的轉(zhuǎn)換,有兩部分?jǐn)?shù)據(jù)構(gòu)成:一是XML數(shù)據(jù),二是非XML數(shù)據(jù)。XML數(shù)據(jù),可以直接將它們提交給下一個(gè)模塊。對(duì)于非XML數(shù)據(jù),本文的實(shí)現(xiàn)方法是用到Tidy以改正HTML文檔中的常見錯(cuò)誤并生成格式編排良好的等價(jià)文檔,還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構(gòu)造相應(yīng)的Java類完成將數(shù)據(jù)從HTML到XML的轉(zhuǎn)換。

3.2.3挖掘方法

(1)文本分類:文本分類是指按預(yù)先定義的主題類別,把集合中的每個(gè)文檔確定一個(gè)所屬類別。這樣,用戶能夠方便地瀏覽文檔,并限制搜索范圍來使查找更為容易。利用文本分類技術(shù)對(duì)大量文檔進(jìn)行快速、有效地自動(dòng)分類。有關(guān)的算法通常采用TFIDF和NaiveBayes等方法。

(2)文本聚類:文本聚類與分類的不同之處在于,聚類不需要預(yù)先定義好的主題類別,它是將把文檔集合分成若干個(gè)簇,要求同簇內(nèi)文檔內(nèi)容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設(shè),即與用戶查詢相關(guān)的文檔通常會(huì)聚類比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)文檔??梢岳梦谋揪垲惣夹g(shù)把搜索引擎檢索結(jié)果分成若干個(gè)簇,用戶只要考慮那些相關(guān)的簇,就能夠縮小所需要瀏覽的結(jié)果數(shù)量。目前,常用的文本聚類算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。

(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指從文檔集合中發(fā)現(xiàn)不同詞語之間關(guān)系Brin提出一種從大量文檔中查找一對(duì)詞語出現(xiàn)模式算法,在Web上尋找作者和書名的模式,從而發(fā)現(xiàn)數(shù)千本在Amazon網(wǎng)站上查找不到的新書。

(4)模式評(píng)價(jià):Web數(shù)據(jù)挖掘中十分重要的過程就是模式評(píng)價(jià)。常用的方法有預(yù)留法和交叉實(shí)驗(yàn)法,將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集兩部分,學(xué)習(xí)和測(cè)試反復(fù)進(jìn)行,最后用一個(gè)平均質(zhì)量模型來確定模型質(zhì)量的好壞。

(5)預(yù)留法:從數(shù)據(jù)集合隨機(jī)抽取預(yù)定大小一個(gè)子集作為測(cè)試集,其他數(shù)據(jù)則作為訓(xùn)練集。

(6)交叉驗(yàn)證法:把整個(gè)數(shù)據(jù)集合按照所要進(jìn)行的學(xué)習(xí)測(cè)試循環(huán)次數(shù)分成一定數(shù)目的子集,在每次循環(huán)中,選取其一個(gè)子集作為測(cè)試集,其它子集并集則作為訓(xùn)練集。

篇4

二、在部隊(duì)食品采購系統(tǒng)中的應(yīng)用以及其價(jià)值評(píng)價(jià)

在部隊(duì)食品采購系統(tǒng)實(shí)際應(yīng)用工程中,其實(shí)可以運(yùn)用MicrosoftSQLServerAnalysisServices來對(duì)數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過程中對(duì)多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因?yàn)槎嗑S數(shù)據(jù)比較復(fù)雜,增長(zhǎng)的也比較快,因此,進(jìn)行手動(dòng)查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計(jì)算模式可以很好的對(duì)數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊(duì)食品采購倉庫數(shù)據(jù)的時(shí)候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個(gè)主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對(duì)人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊(duì)的實(shí)際情況,利用數(shù)據(jù)挖掘技術(shù)對(duì)部隊(duì)人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊(duì)人員的訓(xùn)練和健康情況與部隊(duì)飲食之間內(nèi)在關(guān)系,以便于為部隊(duì)食品采購提供合理的、有效的保障,從而提高部隊(duì)整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對(duì)提高我國(guó)部隊(duì)?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。

篇5

1.1數(shù)據(jù)信息的準(zhǔn)備準(zhǔn)備部分又可以分成數(shù)據(jù)的選取、數(shù)據(jù)信息的預(yù)處理.對(duì)數(shù)據(jù)進(jìn)行選取的主要目的就是對(duì)操作對(duì)象進(jìn)行確定,即是對(duì)目標(biāo)數(shù)據(jù)進(jìn)行確定,所謂的目標(biāo)數(shù)據(jù)是在經(jīng)過對(duì)用戶的需要進(jìn)行細(xì)致分析之后,對(duì)最有可能得到有利用價(jià)值的信息的那些從數(shù)據(jù)庫中抽取出來的數(shù)據(jù).獲取到這些數(shù)據(jù)以后需要進(jìn)行預(yù)處理,主要包含數(shù)據(jù)的去噪、計(jì)算缺值數(shù)據(jù)的推導(dǎo)、數(shù)據(jù)類型的轉(zhuǎn)換,數(shù)據(jù)類型轉(zhuǎn)換舉個(gè)例子來說比如把連續(xù)型數(shù)據(jù)轉(zhuǎn)化成離散數(shù)據(jù),以方便進(jìn)行符號(hào)的歸納.

1.2挖掘過程數(shù)據(jù)信息的挖掘階段是在上一步的基礎(chǔ)之上,即在目標(biāo)數(shù)據(jù)已經(jīng)確定,并且已經(jīng)完成了初始化的基礎(chǔ)之上,需要確定數(shù)據(jù)挖掘的目的與挖掘的類型.在對(duì)挖掘任務(wù)的目標(biāo)確定之后,要根據(jù)數(shù)據(jù)挖掘的知識(shí)類型選取合適的數(shù)據(jù)挖掘方法,最終完成數(shù)據(jù)挖掘具體操作即采用特定的數(shù)據(jù)挖掘方法從數(shù)據(jù)倉庫中抽取所需的挖掘目標(biāo).

1.3挖掘結(jié)果的解釋和評(píng)價(jià)數(shù)據(jù)挖掘的結(jié)果的解釋和評(píng)價(jià)是在完成數(shù)據(jù)挖掘階段之后對(duì)發(fā)現(xiàn)的知識(shí),進(jìn)行評(píng)估,對(duì)于冗余或者無關(guān)的知識(shí)要進(jìn)行刪除;對(duì)于獲得的知識(shí)不符合用戶的要求的要進(jìn)行重新的挖掘.與此同時(shí),因?yàn)閿?shù)據(jù)挖掘需要面臨用戶,所以,在得到目標(biāo)知識(shí)以后還需要對(duì)所挖掘的知識(shí)附加相關(guān)解釋,來用一種便于用戶理解的方式供用戶使用.綜上所述,整個(gè)數(shù)據(jù)信息的挖掘在實(shí)際情況下是一個(gè)不斷地循環(huán)與反復(fù)的過程,所以要對(duì)所挖掘出來的知識(shí)不斷求精和深化,最終要獲得用戶所需要的結(jié)果.

2電子商務(wù)中數(shù)據(jù)挖掘的特點(diǎn)

由于電子商務(wù)自身的某些獨(dú)特的特點(diǎn),同其他的應(yīng)用于普通商業(yè)領(lǐng)域中的數(shù)據(jù)挖掘相比,應(yīng)用于電子商務(wù)的數(shù)據(jù)挖掘具有如下幾個(gè)特點(diǎn):(1)應(yīng)用于電子商務(wù)的數(shù)據(jù)挖掘的最終目的主要表現(xiàn)在企業(yè)與客戶之間的關(guān)系管理方面,電子商務(wù)利用因特網(wǎng)的技術(shù)能夠使企業(yè)和客戶之間的關(guān)系處理變得更加方便.所以,其主要的功能是怎樣使企業(yè)采用這些頻繁的交流信息,快速的掌握客戶的趨向、改善與客戶交流情況或者獲取交流方向等;(2)電子商務(wù)本身就是一個(gè)信息化程度比較高的系統(tǒng),其自身累積的數(shù)據(jù)信息會(huì)存放在電子商務(wù)數(shù)據(jù)庫內(nèi),用戶可以比較便捷地得到這些信息,所以對(duì)于電子商務(wù)的數(shù)據(jù)挖掘的數(shù)據(jù)信息的準(zhǔn)備階段的相關(guān)工作就變得相對(duì)容易;(3)電子商務(wù)領(lǐng)域的數(shù)據(jù)挖掘的主要目標(biāo)一般是使電子商務(wù)系統(tǒng)得到有效的改進(jìn).例如為客戶提供個(gè)性化頁面、把用戶比較感興趣的信息展現(xiàn)在網(wǎng)站首頁或得到哪一些商品比較受到客戶的歡迎等.

3電子商務(wù)中的數(shù)據(jù)挖掘運(yùn)用

首先要講的是關(guān)聯(lián)規(guī)則在電子商務(wù)中的運(yùn)用,利用比較通俗的語言來講,從一個(gè)事件的發(fā)生與否方面進(jìn)行解釋,所謂的關(guān)聯(lián)規(guī)則法在大量的事件發(fā)生或者不發(fā)生的條件下,對(duì)這些事件中的任意兩個(gè)或者多個(gè)事件提取出來,通過一定的統(tǒng)計(jì)分析算法,最終確定兩個(gè)或者多個(gè)事件的發(fā)生與否是否存在著某種關(guān)系,而這種可能存在的管理,我們稱之為關(guān)聯(lián)規(guī)則.列舉一個(gè)有趣的故事,就是在一個(gè)超市里面,店家把小孩的尿布同啤酒放到了一起,來供購買者進(jìn)行購買,結(jié)果是二者的銷量都提升了一倍,其實(shí)這就是因?yàn)槎咧g有著某種潛在聯(lián)系,店家通過數(shù)據(jù)挖掘的方法發(fā)現(xiàn)的這個(gè)規(guī)則,并對(duì)這一關(guān)聯(lián)規(guī)則進(jìn)行了實(shí)際的運(yùn)用,從中得到了益處.同樣在電子商務(wù)中通過數(shù)據(jù)挖掘得到關(guān)聯(lián)規(guī)則,有著類似的意義.其次在電子商務(wù)中數(shù)據(jù)挖掘聚類分析方法的應(yīng)用.在大量數(shù)據(jù)倉庫中,數(shù)據(jù)與數(shù)據(jù)之間,往往會(huì)有某些性質(zhì)的類型相似,同樣也會(huì)有某些性質(zhì)或者特點(diǎn)相異,我們把這些性質(zhì)或者特點(diǎn)稱為觀察指標(biāo),聚類分析就是對(duì)于某一個(gè)特點(diǎn)指標(biāo)而言,把指標(biāo)相差不多的數(shù)據(jù)劃分為同一個(gè)類型,若相差較大則要?jiǎng)澐譃椴煌念愋?、這種操作的主要意義就是將具有某種特定的相似特性的客戶或者數(shù)據(jù)分成一個(gè)類.在電子商務(wù)活動(dòng)中,這一方法的應(yīng)用主要集中在市場(chǎng)細(xì)分的工作之中.分類分析系統(tǒng)的建立以生物的遺傳算法為基礎(chǔ),屬于其中的自學(xué)習(xí)的一種,它一般會(huì)包含三個(gè)子系統(tǒng),第一個(gè)是以串規(guī)則為基礎(chǔ)的并行生成子系統(tǒng)、第二個(gè)是規(guī)則評(píng)價(jià)子系統(tǒng).第三個(gè)是遺傳算法子系統(tǒng).分類分析可以說是電子商務(wù)中運(yùn)用到數(shù)據(jù)挖掘最多的一種挖掘方式.主要原因就是在于其能夠形成一種預(yù)測(cè)模型能夠?qū)σ恍I(yíng)銷方式或者其他的一些商業(yè)措施做出正確的預(yù)測(cè).

4數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用

更高效的利用企業(yè)現(xiàn)有資源以及開發(fā)新資源是當(dāng)代企業(yè)發(fā)展的關(guān)鍵.電子商務(wù)通過采用數(shù)據(jù)挖掘的技術(shù),能夠更加及時(shí)和正確的獲得企業(yè)當(dāng)前所有資源的具體使用情況,而且通過數(shù)據(jù)挖掘的技術(shù)可以分析以往的各種企業(yè)數(shù)據(jù),比如說企業(yè)財(cái)務(wù)數(shù)據(jù)、企業(yè)庫存數(shù)據(jù)或者企業(yè)交易數(shù)據(jù),能夠較為及時(shí)的發(fā)現(xiàn)企業(yè)資源過度消耗的主要問題所在,或者能夠得到各種商務(wù)活動(dòng)的投入與產(chǎn)出的比例,來為企業(yè)領(lǐng)導(dǎo)進(jìn)行經(jīng)營(yíng)決策提供有力的根據(jù)[6].另外在企業(yè)的經(jīng)營(yíng)過程中,人們不斷推崇“以客戶為中心”的經(jīng)營(yíng)理念,在這一趨勢(shì)下,如何正確快速的分析和了解客戶的需求已成為企業(yè)提高自身市場(chǎng)競(jìng)爭(zhēng)力的一大課題.通過把數(shù)據(jù)挖掘應(yīng)用到電子商務(wù)之中,能夠使企業(yè)最準(zhǔn)確的分析客戶資源并最有效的利用企業(yè)客戶資源,通過對(duì)已有客戶行為進(jìn)行相關(guān)性分析,可以形成潛在客戶資源的預(yù)測(cè)模型.除此之外在企業(yè)經(jīng)營(yíng)過程中,利用數(shù)據(jù)挖掘可以解決另外一個(gè)嚴(yán)重影響了商業(yè)正常秩序的重要問題.即當(dāng)前時(shí)區(qū)商務(wù)活動(dòng)中的地下的信用狀況問題,這一問題的嚴(yán)重程度已經(jīng)引起了人們的廣泛關(guān)注.在電子商務(wù)經(jīng)營(yíng)過程中,因?yàn)榫W(wǎng)上詐騙公司或者企業(yè)財(cái)務(wù)的現(xiàn)象屢見不鮮,信用危機(jī)已經(jīng)成為影響其快速正常發(fā)展的一個(gè)重要因素.而通過在電子商務(wù)中采用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對(duì)企業(yè)經(jīng)營(yíng)活動(dòng)的跟蹤,在此基礎(chǔ)上實(shí)現(xiàn)企業(yè)的資產(chǎn)評(píng)估、利潤(rùn)收益分析以及發(fā)展?jié)摿︻A(yù)測(cè)分析等,為電子商務(wù)在經(jīng)營(yíng)過程中提供了完善的安全保障體系,同時(shí)利用數(shù)據(jù)挖掘?qū)崿F(xiàn)企業(yè)網(wǎng)上全程監(jiān)控.另外通過實(shí)現(xiàn)基于數(shù)據(jù)挖掘的信用評(píng)估模型,可以在很大程度上進(jìn)行防范或者化解信用風(fēng)險(xiǎn),從而提高企業(yè)的信用度以及應(yīng)對(duì)風(fēng)險(xiǎn)能力.

篇6

由于信息技術(shù)的迅速發(fā)展,現(xiàn)代的檔案管理模式與過去相比,也有了很大的變化,也讓如今的檔案管理模式有了新的挑戰(zhàn)。讓人們對(duì)信息即時(shí)、大量地獲取是目前檔案管理工作和檔案管理系統(tǒng)急切需要解決的問題。

一、數(shù)據(jù)挖掘概述

(一)數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是指從大量的、不規(guī)則、亂序的數(shù)據(jù)中,進(jìn)行分析歸納,得到隱藏的,未知的,但同時(shí)又含有較大價(jià)值的信息和知識(shí)。它主要對(duì)確定目標(biāo)的有關(guān)信息,使用自動(dòng)化和統(tǒng)計(jì)學(xué)等方法對(duì)信息進(jìn)行預(yù)測(cè)、偏差分析和關(guān)聯(lián)分析等,從而得到合理的結(jié)論。在檔案管理中使用數(shù)據(jù)挖掘技術(shù),能夠充分地發(fā)揮檔案管理的作用,從而達(dá)到良好的檔案管理工作效果。(二)數(shù)據(jù)挖掘技術(shù)分析。數(shù)據(jù)挖掘技術(shù)分析的方法是多種多樣的,其主要方法有以下幾種:1.關(guān)聯(lián)分析。指從已經(jīng)知道的信息數(shù)據(jù)中,找到多次展現(xiàn)的信息數(shù)據(jù),由信息的說明特征,從而得到具有相同屬性的事物特征。2.分類分析。利用信息數(shù)據(jù)的特征,歸納總結(jié)相關(guān)信息數(shù)據(jù)的數(shù)據(jù)庫,建立所需要的數(shù)據(jù)模型,從而來識(shí)別一些未知的信息數(shù)據(jù)。3.聚類分析。通過在確定的數(shù)據(jù)中,找尋信息的價(jià)值聯(lián)系,得到相應(yīng)的管理方案。4.序列分析。通過分析信息的前后因果關(guān)系,從而判斷信息之間可能出現(xiàn)的聯(lián)系。

二、數(shù)據(jù)挖掘的重要性

在進(jìn)行現(xiàn)代檔案信息處理時(shí),傳統(tǒng)的檔案管理方法已經(jīng)不能滿足其管理的要求,數(shù)據(jù)挖掘技術(shù)在這方面確有著顯著的優(yōu)勢(shì)。首先,檔案是較為重要的信息記錄,甚至有些檔案的重要性大到無價(jià),因此對(duì)于此類的珍貴檔案,相關(guān)的檔案管理人員也是希望檔案本身及其價(jià)值一直保持下去。不過越是珍貴的檔案,其使用率自然也就越高,所以其安全性就很難得到保障,在檔案管理中運(yùn)用數(shù)據(jù)挖掘技術(shù),可以讓檔案的信息數(shù)據(jù)得到分析統(tǒng)計(jì),歸納總結(jié),不必次次實(shí)物查閱,這樣就極大地提升了檔案相關(guān)內(nèi)容的安全性,降低檔案的磨損率。并且可以對(duì)私密檔案進(jìn)行加密,進(jìn)行授權(quán)查閱,進(jìn)一步提高檔案信息的安全性。其次,對(duì)檔案進(jìn)行鑒定與甄別,這也是檔案工作中較困難的過程,過去做好這方面的工作主要依靠管理檔案管理員自己的能力和水平,主觀上的因素影響很大,但是數(shù)據(jù)挖掘技術(shù)可以及時(shí)對(duì)檔案進(jìn)行編碼和收集,對(duì)檔案進(jìn)行數(shù)字化的管理和規(guī)劃,解放人力資源,提升檔案利用的服務(wù)水平。第三,數(shù)據(jù)挖掘技術(shù)可以減少檔案的收集和保管成本,根據(jù)檔案的特點(diǎn)和規(guī)律建立的數(shù)據(jù)模型能為之后的工作人員建立一種標(biāo)準(zhǔn),提升了檔案的鑒定效率。

三、檔案管理的數(shù)據(jù)挖掘運(yùn)用

(一)檔案信息的收集。在實(shí)施檔案管理工作時(shí),首先需要對(duì)檔案信息數(shù)據(jù)的收集??梢赃\(yùn)用相關(guān)檔案數(shù)據(jù)庫的數(shù)據(jù)資料,進(jìn)行科學(xué)的分析,制定科學(xué)的說明方案,對(duì)確定的數(shù)據(jù)集合類型和一些相關(guān)概念的模型進(jìn)行科學(xué)說明,利用這些數(shù)據(jù)說明,建立準(zhǔn)確的數(shù)據(jù)模型,并以此數(shù)據(jù)模型作為標(biāo)準(zhǔn),為檔案信息的快速分類以及整合奠定基礎(chǔ)。例如,在體育局的相關(guān)網(wǎng)站上提供問卷,利用問卷來得到的所需要的信息數(shù)據(jù),導(dǎo)入數(shù)據(jù)庫中,讓數(shù)據(jù)庫模型中保有使用者的相關(guān)個(gè)人信息,通過對(duì)使用者的信息數(shù)據(jù)進(jìn)行說明,從而判斷使用者可能的類型,提升服務(wù)的準(zhǔn)確性。因此,數(shù)據(jù)挖掘技術(shù)為檔案信息的迅速有效收集,為檔案分類以及后續(xù)工作的順利展開,提供了有利條件,為個(gè)性化服務(wù)的實(shí)現(xiàn)提供了保證。(二)檔案信息的分類。數(shù)據(jù)挖掘技術(shù)具有的屬性分析能力,可以將數(shù)據(jù)庫中的信息進(jìn)行分門別類,將信息的對(duì)象通過不同的特征,規(guī)劃為不同的分類。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中時(shí),可以簡(jiǎn)單快速地找到想要的檔案數(shù)據(jù),能根據(jù)數(shù)據(jù)中使用者的相關(guān)數(shù)據(jù),找尋使用者在數(shù)據(jù)庫中的信息,使用數(shù)據(jù)模型的分析能力,分析出使用者的相關(guān)特征。利如,在使用者上網(wǎng)使用網(wǎng)址時(shí),數(shù)據(jù)挖掘技術(shù)可以充分利用使用者的搜索數(shù)據(jù)以及網(wǎng)站的訪問記錄,自動(dòng)保存用戶的搜索信息、搜索內(nèi)容、下載次數(shù)、時(shí)間等,得到用戶的偏好和特征,對(duì)用戶可能存在的需求進(jìn)行預(yù)測(cè)和分類,更加迅速和準(zhǔn)確的,為用戶提供個(gè)性化的服務(wù)。(三)檔案信息的整合。數(shù)據(jù)挖掘技術(shù)可以對(duì)新舊檔案的信息進(jìn)行整合處理,可以較為簡(jiǎn)單地將“死檔案”整合形成為“活檔案”,提供良好的檔案信息和有效的檔案管理。例如,對(duì)于企事業(yè)單位而言,培訓(xùn)新員工的成本往往比聘請(qǐng)老員工的成本要高出很多。對(duì)老員工的檔案信息情況進(jìn)行全體整合,使檔案資源充分發(fā)揮作用,將檔案數(shù)據(jù)進(jìn)行總結(jié)和規(guī)劃,根據(jù)數(shù)據(jù)之間的聯(lián)系確定老員工流失的原因,然后建立清晰、明白的數(shù)據(jù)庫,這樣可以防止人才流失,也能大大提高檔案管理的效率。

四、結(jié)語

綜上所述,在這個(gè)信息技術(shù)迅速跳躍發(fā)展的時(shí)代,將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理工作中是時(shí)展的需求與必然結(jié)果。利用數(shù)據(jù)挖掘技術(shù),可以使檔案管理工作的效率大大提升,不僅減少了搜索檔案信息的時(shí)間,節(jié)省人力物力,避免資源的浪費(fèi),還能幫助用戶在海量的信息數(shù)據(jù)中,快速找到所需的檔案數(shù)據(jù)信息。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,使靜態(tài)的檔案信息變成了可以“主動(dòng)”為企事業(yè)單位的發(fā)展,提供有效的個(gè)性化服務(wù)的檔案管家,推動(dòng)了社會(huì)的快速發(fā)展。

作者:于然 單位:揚(yáng)州市體育局辦公室

【參考文獻(xiàn)】

篇7

1.1Hadoop平臺(tái)的具體操作流程

(1)對(duì)物聯(lián)網(wǎng)中的RFID數(shù)據(jù)進(jìn)行過濾、轉(zhuǎn)換、合并的處理,并在分布式系統(tǒng)HDFS中保存PML文件形式的數(shù)據(jù)。同時(shí),可采取副本策略來處理PML文件,在同一機(jī)構(gòu)的不同節(jié)點(diǎn)或不同機(jī)構(gòu)的某一節(jié)點(diǎn)上保存PML文件中的2-3個(gè)副本,進(jìn)而可實(shí)現(xiàn)對(duì)存儲(chǔ)、處理、節(jié)點(diǎn)失效問題的有效解決。

(2)在執(zhí)行任務(wù)過程中,創(chuàng)建和管理控制是Master(主控程序)的主要工作,當(dāng)Worker處于空閑狀態(tài)時(shí)會(huì)接收到有關(guān)的分配任務(wù),需與Map/Reduce互相合作實(shí)現(xiàn)操作處理,處理的最終結(jié)果由Master來歸并,同時(shí)將反饋結(jié)果傳送給用戶。

1.2Map/Reduce的具體操作流程

(1)根據(jù)參數(shù)在Map/Reduce思想指導(dǎo)下對(duì)輸入文件進(jìn)行分割處理,使其細(xì)化為M塊(16-64M大小范圍)。

(2)Master、Worker、Map操作(M個(gè))、Reduce操作(R個(gè))是構(gòu)成執(zhí)行程序的主要部分,其中Map/Reduce的處理任務(wù)會(huì)由Master伴隨物聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,人們可以有效利用物聯(lián)網(wǎng)來實(shí)現(xiàn)信息交換和通信的目的,不過物聯(lián)網(wǎng)海量數(shù)據(jù)的日益增多大大降低了物聯(lián)網(wǎng)服務(wù)的質(zhì)量。在此,對(duì)基于Apriori算法進(jìn)行物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究。摘要將其分配給空閑的Worker。

(3)在處理Map任務(wù)時(shí),Worker會(huì)讀取處理中的數(shù)據(jù),并向Map函數(shù)傳送<key,value>,而后產(chǎn)生中間結(jié)果在內(nèi)存中緩存且定時(shí)向本地硬盤傳送。此外,依據(jù)分區(qū)函數(shù)將中間結(jié)果分割為R塊區(qū),利用Master將本地硬盤接收到的數(shù)據(jù)位置信息傳送給Reduce函數(shù)。

(4)ReduceWorker根據(jù)Master所傳送的文件信息采用遠(yuǎn)程讀取方式來操作,以在本地文件中找到對(duì)應(yīng)的文件,對(duì)文件的中間key進(jìn)行有序排列,并利用遠(yuǎn)程發(fā)送信息給具體執(zhí)行的Reduce。

(5)ReduceWorker依據(jù)key排序后的中間數(shù)據(jù)向Reduce函數(shù)傳送與key對(duì)應(yīng)的中間結(jié)果集,而最后的結(jié)果需采取最終輸出文件來進(jìn)行編寫。

(6)當(dāng)Map、Reduce的任務(wù)全部完成之后,MapReduce將回歸到用戶程序的調(diào)用點(diǎn)處,同時(shí)以Master對(duì)用戶程序進(jìn)行激活。

2基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘

2.1Apriori數(shù)據(jù)挖掘原理和操作流程

Apriori是提升物聯(lián)網(wǎng)數(shù)據(jù)挖掘功能的一種最有效算法,其原理是在K項(xiàng)集中以逐層搜索迭代的方式來探索。具體的操作流程包括:

(1)掃描數(shù)據(jù)集以生成頻繁1-項(xiàng)集L1。

(2)通過L1來探索頻繁項(xiàng)集L2,采用不斷迭代的方式來持續(xù)探索,直至頻繁項(xiàng)集是空集。

2.2K次循環(huán)搜索后的數(shù)據(jù)挖掘流程

當(dāng)已完成了K次循環(huán)搜索時(shí),還需要進(jìn)行2個(gè)數(shù)據(jù)挖掘的操作流程:(1)在LK-1生成CK(候選集)之后,開展JOIN操作。(2)支持度統(tǒng)計(jì)和剪枝的操作依據(jù)Apriori性質(zhì)來進(jìn)行,而后使得CK生成LK(頻繁集)。為提高物聯(lián)網(wǎng)數(shù)據(jù)挖掘的效率,節(jié)省系統(tǒng)的時(shí)間和內(nèi)存消耗,在Apriori算法基礎(chǔ)上還需要借鑒和移植云計(jì)算平臺(tái)的分布式并行計(jì)算性質(zhì)。如此以實(shí)現(xiàn)Hadoop架構(gòu)的建立,在掃描數(shù)據(jù)庫查找頻繁項(xiàng)集中得到的并聯(lián)規(guī)則需要存儲(chǔ)在Hadoop架構(gòu)中。同時(shí),為取得各個(gè)計(jì)算節(jié)點(diǎn)上的局部頻繁項(xiàng)集,各個(gè)DataNode節(jié)點(diǎn)需要經(jīng)歷并行操作的掃描處理,并使用Master來統(tǒng)計(jì)和確定實(shí)際全局的支持度、頻繁項(xiàng)集。

2.3Apriori算法Map/Reduce化的處理流程

上述提及基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘需借助于Map/Reduce模式,其數(shù)據(jù)挖掘功能的實(shí)現(xiàn)還應(yīng)Map/Reduce化Apriori算法。主要的處理流程包括:

(1)用戶提出挖掘服務(wù)的請(qǐng)求,且由用戶來設(shè)置Apriori所需的數(shù)據(jù),如最小支持度、置信度。

(2)當(dāng)Master接收到請(qǐng)求后,通過NameNode來進(jìn)行PML文件的申請(qǐng),而后逐步完成訪問空閑節(jié)點(diǎn)列表、向空閑的DataNode分配任務(wù)、調(diào)度和并行處理各個(gè)DataNode需要的存儲(chǔ)節(jié)點(diǎn)算法。

(3)運(yùn)用Map函數(shù)來處理每個(gè)DataNode的<key,value>對(duì)映射、新鍵值對(duì),以CnK(用1表示每一個(gè)CnK的支持度)來表示所產(chǎn)生的一個(gè)局部候選頻繁K項(xiàng)集。

(4)通過Reduce函數(shù)來實(shí)現(xiàn)調(diào)用計(jì)算,對(duì)每個(gè)DataNode節(jié)點(diǎn)上相同候選項(xiàng)集的支持度進(jìn)行累加,以產(chǎn)生一個(gè)實(shí)際的支持度,將其與最小支持度(用戶申請(qǐng)時(shí)所設(shè)置)進(jìn)行比較,進(jìn)而用LnK表示所生成的局部頻繁K項(xiàng)集的集合。

(5)對(duì)所有的處理結(jié)果進(jìn)行合并,從而實(shí)現(xiàn)全局頻繁K項(xiàng)集LK的生成。

篇8

發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)能夠被接受、理解和運(yùn)用。也就是發(fā)現(xiàn)全部相對(duì)的知識(shí),是具有特定前提與條件,面向既定領(lǐng)域的,同時(shí)還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點(diǎn)為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價(jià)值的商業(yè)數(shù)據(jù)。簡(jiǎn)單來說,其實(shí)數(shù)據(jù)挖掘是一種對(duì)數(shù)據(jù)進(jìn)行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘?yàn)椋焊鶕?jù)企業(yè)設(shè)定的工作目標(biāo),探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識(shí)包括:

1.1.1廣義知識(shí)體現(xiàn)相同事物共同性質(zhì)的知識(shí),是指類別特點(diǎn)的概括描述知識(shí)。按照數(shù)據(jù)的微觀特點(diǎn)對(duì)其表征的、具有普遍性的、極高概念層次的知識(shí)積極發(fā)現(xiàn),是對(duì)數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識(shí)的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。

1.1.2關(guān)聯(lián)知識(shí)體現(xiàn)一個(gè)事件與其他事件之間形成的關(guān)聯(lián)知識(shí)。假如兩項(xiàng)或者更多項(xiàng)之間形成關(guān)聯(lián),則其中一項(xiàng)的屬性數(shù)值就能夠借助其他屬性數(shù)值實(shí)行預(yù)測(cè)。

1.1.3分類知識(shí)體現(xiàn)相同事物共同特點(diǎn)的屬性知識(shí)與不同事物之間差異特點(diǎn)知識(shí)。

1.2數(shù)據(jù)挖掘過程

1.2.1明確業(yè)務(wù)對(duì)象對(duì)業(yè)務(wù)問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預(yù)測(cè)的,但是研究的問題是可預(yù)見的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會(huì)體現(xiàn)出盲目性,通常也不會(huì)獲得成功。基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級(jí)職業(yè)技術(shù)學(xué)校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn),基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會(huì)解決大量現(xiàn)實(shí)問題,為企業(yè)確定目標(biāo)市場(chǎng)、完善決策、獲得最大競(jìng)爭(zhēng)優(yōu)勢(shì),其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競(jìng)爭(zhēng)力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過程、用戶細(xì)分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。

1.2.2數(shù)據(jù)準(zhǔn)備第一選擇數(shù)據(jù):是按照用戶的挖掘目標(biāo),對(duì)全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對(duì)數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計(jì)算機(jī)丟失的數(shù)據(jù),清除重復(fù)記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對(duì)象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。

1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個(gè)分析模型。這一分析模型是相對(duì)于挖掘算法構(gòu)建的。構(gòu)建一個(gè)與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點(diǎn)??梢岳猛队皵?shù)據(jù)庫的相關(guān)操作對(duì)數(shù)據(jù)維度有效降低,進(jìn)一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。

1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟(jì)轉(zhuǎn)化的數(shù)據(jù)。除了對(duì)選擇科學(xué)挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對(duì)某些挖掘參數(shù)能夠積極控制。

1.2.5評(píng)價(jià)挖掘結(jié)果這個(gè)過程劃分為兩個(gè)步驟:表達(dá)結(jié)果和評(píng)價(jià)結(jié)果。第一表達(dá)結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對(duì)挖掘結(jié)果積極理解。第二評(píng)價(jià)結(jié)果:用戶與機(jī)器對(duì)數(shù)據(jù)挖掘獲得的模式有效評(píng)價(jià),對(duì)冗余或者無關(guān)的模式及時(shí)刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對(duì)挖掘過程科學(xué)執(zhí)行,直到獲得用戶滿意為止。

2用戶細(xì)分理論

用戶細(xì)分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價(jià)值的細(xì)分理論,其不僅包含了用戶為企業(yè)貢獻(xiàn)歷史利潤(rùn),還包含未來利潤(rùn),也就是在未來用戶為企業(yè)可能帶來的利潤(rùn)總和。基于用戶價(jià)值的細(xì)分理論選擇客戶當(dāng)前價(jià)值與客戶潛在價(jià)值兩個(gè)因素評(píng)價(jià)用戶。用戶當(dāng)前價(jià)值是指截止到目前用戶對(duì)企業(yè)貢獻(xiàn)的總體價(jià)值;用戶潛在價(jià)值是指未來用戶可能為企業(yè)創(chuàng)造的價(jià)值總和。每個(gè)因素還能夠劃分為兩個(gè)高低檔次,進(jìn)一步產(chǎn)生一個(gè)二維的矩陣,把用戶劃分為4組,價(jià)值用戶、次價(jià)值用戶、潛在價(jià)值用戶、低價(jià)值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應(yīng)當(dāng)形成對(duì)應(yīng)的方法,投入不同的資源。很明顯對(duì)于企業(yè)來說價(jià)值用戶最重要,被認(rèn)為是企業(yè)的玉質(zhì)用戶;其次是次價(jià)值用戶,被認(rèn)為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤(rùn);其他則是低價(jià)值用戶,對(duì)企業(yè)來說價(jià)值最小,成為鉛質(zhì)用戶,另外一類則是潛在價(jià)值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價(jià)值有限,甚至很小。需要我們注意的是潛在價(jià)值用戶利用再造用戶關(guān)系,將來極有可能變成價(jià)值用戶。從長(zhǎng)期分析,潛在價(jià)值用戶可以是企業(yè)的隱形財(cái)富,是企業(yè)獲得利潤(rùn)的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對(duì)這4類用戶特點(diǎn)有效挖掘。

3電子商務(wù)數(shù)據(jù)挖掘分析

3.1設(shè)計(jì)問卷

研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價(jià)值用戶特征、次價(jià)值用戶特征、潛在價(jià)值用戶特征,對(duì)電子商務(wù)用戶的認(rèn)知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對(duì)象的個(gè)人信息,包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點(diǎn)、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對(duì)用戶對(duì)電子商務(wù)的了解、需求、使用情況的指標(biāo)設(shè)計(jì)。

3.2調(diào)查方式

本次調(diào)查的問卷主體是電腦上網(wǎng)的人群,采用隨機(jī)抽象的方式進(jìn)行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請(qǐng)其填寫問卷。

3.3數(shù)據(jù)挖掘和結(jié)果

(1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。

(2)用戶數(shù)據(jù)分析

1)電子商務(wù)用戶認(rèn)知度分析按照調(diào)查問卷的問題“您知道電子商務(wù)嗎?”得到對(duì)電子商務(wù)用戶認(rèn)知情況的統(tǒng)計(jì),十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒有聽過電子商務(wù)。對(duì)調(diào)查問卷問題“您聽過電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報(bào)刊雜志上知道電子商務(wù)的并且對(duì)其進(jìn)行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。

2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對(duì)應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務(wù),你覺得其用途怎樣,假如沒有使用過,你覺得其對(duì)自己有用嗎?”得到了認(rèn)為需要和十分需要的數(shù)據(jù),覺得電子商務(wù)有用的用戶為40.7%,不清楚是否對(duì)自己有用的用戶為56.7%,認(rèn)為不需要的僅有2.4%。

3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費(fèi)者對(duì)某一產(chǎn)品服務(wù)進(jìn)行應(yīng)用或者購買的一種心理欲望。按照問題“假如可以滿足你所關(guān)心的因素,未來你會(huì)繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時(shí),將來一年之內(nèi)會(huì)應(yīng)用電子商務(wù)的用戶為78.2%,一定不會(huì)應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強(qiáng)烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好?;谟脩籼卣鞯碾娮由虅?wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過這一結(jié)果能夠更好地實(shí)行營(yíng)銷和推廣,對(duì)潛在用戶積極定位,提高用戶體驗(yàn),積極挖掘用戶價(jià)值。分析為企業(yè)準(zhǔn)確營(yíng)銷和推廣企業(yè)提供了一個(gè)有效的借鑒。

篇9

二、最小二乘法擬合直線

最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù)。它以某一社會(huì)、經(jīng)濟(jì)或自然現(xiàn)象為對(duì)象,尋找一擬合曲線,以滿足給定對(duì)象系統(tǒng)的一組觀測(cè)數(shù)據(jù)。通常要求選擇的擬合曲線會(huì)使各觀測(cè)數(shù)據(jù)到擬合曲線的誤差的平方和最小。

本文研究銷售企業(yè)(如商場(chǎng))異常客戶的性質(zhì)。設(shè)一段時(shí)期內(nèi)客戶的累計(jì)消費(fèi)金額為y,對(duì)應(yīng)的消費(fèi)時(shí)期為x。假定測(cè)得客戶的n個(gè)數(shù)據(jù)(x1,y1),…,(xn,yn),則在XOY平面上可以得到n個(gè)實(shí)驗(yàn)點(diǎn):Pi(xi,yi)(i=1,…n),這種圖形稱為“散點(diǎn)圖”(如圖1,圖2)。在利用最小二乘法進(jìn)行分析時(shí),各種非線性關(guān)系的擬合曲線均可線性化,因此此處選擇直線y=ax+b作為擬合直線,尋求x與y之間近似線性關(guān)系時(shí)的經(jīng)驗(yàn)公式。其中a為直線的斜率,b為直線在y軸上的截距。

如果Pi(i=1,…n)全部位于同一條直線上,則可認(rèn)為變量之間的關(guān)系為y=ax+b,但一般情況下不會(huì)如此。記估計(jì)值=axi+b,則各實(shí)驗(yàn)點(diǎn)與擬合直線之間的誤差為εi=-yi=(axi+b)-yi,它反映了用直線y=ax+b來描述(xi,yi)時(shí),估計(jì)值與觀測(cè)值yi之間的偏差大小。則有:

要求偏差越小越好。但由于εi可正可負(fù),簡(jiǎn)單求和可能將很大的誤差抵消掉,只有平方和才能反映二者在總體上的接近程度,這就是最小二乘原則。于是問題歸結(jié)為根據(jù)這一要求來確定y=ax+b中的a和b,使得最小。因?yàn)镕(a,b)是關(guān)于a、b的二次函數(shù)并且非負(fù),所以其極小值總是存在的。根據(jù)羅彼塔法則,F(xiàn)取最小值時(shí),有:

于是得到了符合最小二乘原則的相應(yīng)解:

三、基于斜率的異??蛻敉诰蛩惴?/p>

1.問題描述

本文的目的是研究某一消費(fèi)時(shí)期內(nèi),異??蛻舻南M(fèi)傾向。取異??蛻粢荒陜?nèi)各月份的累計(jì)消費(fèi)金額為參考,記錄的數(shù)據(jù)如下(表1,表2)。根據(jù)其散點(diǎn)圖(圖1,圖2)可以看出,客戶的累計(jì)消費(fèi)金額隨時(shí)間都呈上升趨勢(shì),所以難以觀察出該客戶是否對(duì)商場(chǎng)保持持久的忠誠(chéng)度,是否有轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手的可能?;谛甭实漠惓?蛻敉诰蛩惴ㄕ且鉀Q識(shí)別客戶性質(zhì)這一問題。

2.算法描述

算法:Outlier_Analysis。根據(jù)輸出的a值來判斷異常客戶的性質(zhì):積極的或消極的。

輸入:客戶數(shù)據(jù),即參考點(diǎn),由有序點(diǎn)對(duì)(xi,yi)表示;參考點(diǎn)的個(gè)數(shù)n。

輸出:a(直線的斜率),b(直線在y軸上的截距)。

方法:

(1)初始化a、b。

(2)對(duì)客戶的n個(gè)觀測(cè)數(shù)據(jù)(即n個(gè)記錄點(diǎn))進(jìn)行相關(guān)數(shù)據(jù)計(jì)算:

(3)ifa<0then

客戶購買金額呈減少趨勢(shì),為消極客戶

else

篇10

2空間數(shù)據(jù)挖掘應(yīng)用模型的實(shí)現(xiàn)

2.1模型設(shè)計(jì)

城市空間布局及發(fā)展具有規(guī)范性,因此,對(duì)避難場(chǎng)所進(jìn)行選址需要遵循城市發(fā)展戰(zhàn)略及人口增長(zhǎng)規(guī)律。

1)數(shù)據(jù)挖掘預(yù)處理。對(duì)研究區(qū)各行政區(qū)劃的人口數(shù)據(jù)、面積、土地利用類型、已建應(yīng)急避難場(chǎng)所等數(shù)據(jù)進(jìn)行統(tǒng)計(jì),建立txt文本,進(jìn)行空間數(shù)據(jù)挖掘,創(chuàng)建數(shù)據(jù)字典。

2)數(shù)據(jù)矢量化。在ArcGIS10平臺(tái)中,以合肥市地圖為底圖,對(duì)行政區(qū)劃進(jìn)行數(shù)字化,并結(jié)合合肥市最新規(guī)劃圖及遙感影像圖,對(duì)元數(shù)據(jù)進(jìn)行矢量化,并編輯地物的屬性,形成ShapeFile文件。

3)建立數(shù)據(jù)庫。將空間數(shù)據(jù)中的屬性信息錄入屬性數(shù)據(jù)庫。

4)空間分析。結(jié)合矢量化的人口密度專題圖和現(xiàn)有場(chǎng)地點(diǎn)狀分布圖,重點(diǎn)對(duì)服務(wù)區(qū)覆蓋范圍外人口進(jìn)行分析,通過對(duì)空間數(shù)據(jù)進(jìn)行緩沖區(qū)分析、柵格分析、重分類、疊加分析、地圖運(yùn)算等過程,確定應(yīng)急避難場(chǎng)所綜合評(píng)價(jià)方案,最終確定新場(chǎng)所地址。

5)可視化。根據(jù)最終新場(chǎng)所的ShapeFile文件,結(jié)合人口密度分布圖,制作新場(chǎng)所分布圖。

2.2文本及地理信息數(shù)據(jù)挖掘

1)地理空間特征提取。依據(jù)《安徽省應(yīng)急避難場(chǎng)所分級(jí)技術(shù)標(biāo)準(zhǔn)(試行)》的場(chǎng)所分級(jí)和選址要求[1,2],從紙質(zhì)地圖、規(guī)劃圖、統(tǒng)計(jì)數(shù)據(jù)等地理文本中抽取符合條件的元數(shù)據(jù)。

2)地理數(shù)據(jù)分類。從挖掘后的地理空間數(shù)據(jù)中提取道路、土地利用類型、人口密度、新居民地等地物數(shù)據(jù)及各類地物的空間特征信息。

3)空間數(shù)據(jù)挖掘:對(duì)空間特征信息進(jìn)行評(píng)價(jià),將符合選址條件的用地?cái)?shù)據(jù)以及影響避難場(chǎng)所選址的主要因素進(jìn)行分類、提取,建立相應(yīng)的空間位置、屬性信息,并繪制矢量圖層。

3數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)

研究模型的數(shù)據(jù)庫由空間數(shù)據(jù)庫和屬性數(shù)據(jù)庫組成,統(tǒng)一存放在關(guān)系數(shù)據(jù)庫中,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。

1)空間數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)。將要矢量化的合肥市地圖進(jìn)行掃描,加載到ArcMap中,打開ArcCatalog,在目標(biāo)文件夾下新建ShapeFile文件。通過對(duì)需要矢量化的地物進(jìn)行分析,將現(xiàn)有應(yīng)急避難場(chǎng)所歸為點(diǎn)圖層,將城市主、次干道、斷裂歸為線圖層,將土地利用類型、河流、湖泊、人口密度、現(xiàn)有居民地等要素歸為面圖層。

2)屬性數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)。在ArcMap中打開表,進(jìn)行地物屬性庫的編輯,對(duì)照空間屬性庫表,分別添加地物的屬性字段,并輸入屬性信息。

4應(yīng)急避難場(chǎng)所的空間優(yōu)化和選取

4.1影響選址的主要因素

本文依據(jù)《地震應(yīng)急避難場(chǎng)所選址及配套設(shè)施要求》,對(duì)影響選址的主要因素進(jìn)行分類、量化。

4.1.1場(chǎng)地的安全性

選址應(yīng)具有地質(zhì)、水文及自然環(huán)境方面的抗震安全保障。新建場(chǎng)地距離斷層必須有一定的距離,利用GIS的緩沖區(qū)分析,建立斷層的6層緩沖區(qū),分別賦予不同的評(píng)價(jià)指標(biāo)。

4.1.2現(xiàn)有避難場(chǎng)地

按照安徽省地震應(yīng)急避難場(chǎng)所及配套設(shè)施要求,地震應(yīng)急避難場(chǎng)所分為3類,其服務(wù)范圍分別為5km、1km、0.5km。以此為標(biāo)準(zhǔn),對(duì)研究區(qū)現(xiàn)有27個(gè)應(yīng)急避難場(chǎng)所進(jìn)行類型劃分,并建立服務(wù)范圍屬性表。應(yīng)用ArcMap的緩沖區(qū)分析功能,分別建立以5km、1km、0.5km為服務(wù)半徑的緩沖區(qū),生成服務(wù)范圍矢量圖,并轉(zhuǎn)換為柵格圖像,進(jìn)行重分類。

4.1.3土地利用現(xiàn)狀

新選址的區(qū)域覆蓋合肥市主、副城區(qū)范圍,城市區(qū)域用地多數(shù)被建設(shè)用地覆蓋,其中有些地塊不適于建造避難場(chǎng)地,例如工業(yè)用地。土地利用現(xiàn)狀評(píng)價(jià)指標(biāo)

4.1.4現(xiàn)有居民點(diǎn)空間分布

避難場(chǎng)地的位置距離居民點(diǎn)有距離限制。以居民點(diǎn)為研究對(duì)象,進(jìn)行鄰近區(qū)分析。對(duì)合肥市居民點(diǎn)進(jìn)行以100m為層次的緩沖區(qū)分析,并把矢量數(shù)據(jù)轉(zhuǎn)為柵格數(shù)據(jù)。