伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

數(shù)據(jù)挖掘技術(shù)研究模板(10篇)

時(shí)間:2023-03-01 16:37:18

導(dǎo)言:作為寫(xiě)作愛(ài)好者,不可錯(cuò)過(guò)為您精心挑選的10篇數(shù)據(jù)挖掘技術(shù)研究,它們將為您的寫(xiě)作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

篇1

空間數(shù)據(jù)挖掘(spatial Data Mining,簡(jiǎn)稱(chēng)SDM),是指從空間數(shù)據(jù)庫(kù)中提取用戶(hù)感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過(guò)程。空間數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫(kù)技術(shù),可用于對(duì)空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識(shí)庫(kù)的構(gòu)造以及空間數(shù)據(jù)庫(kù)的重組和查詢(xún)的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識(shí),發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。

空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫(kù)應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來(lái)說(shuō),空間數(shù)據(jù)挖掘可分成空間分類(lèi)、空間聚類(lèi)、空間趨勢(shì)分析和空間關(guān)聯(lián)規(guī)則四類(lèi)??臻g分類(lèi)的目的是在空間數(shù)據(jù)庫(kù)對(duì)象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類(lèi)規(guī)則,是近年來(lái)空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹(shù)??臻g聚類(lèi)是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類(lèi)方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法??臻g趨勢(shì)分析指離開(kāi)一個(gè)給定的起始對(duì)象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來(lái)越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢(shì)的變化趨勢(shì),空間趨勢(shì)分析需要使用回歸和相關(guān)的分析方法??臻g關(guān)聯(lián)規(guī)則是指空間鄰接圖中對(duì)象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對(duì)初始空間數(shù)據(jù)庫(kù)進(jìn)行一次挖掘,然后再在裁剪過(guò)的數(shù)據(jù)庫(kù)上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。

空間數(shù)據(jù)挖掘過(guò)程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶(hù)的要求從空間數(shù)據(jù)庫(kù)中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶(hù)所需的知識(shí))、模式評(píng)估(根據(jù)某種興趣度度量并識(shí)別表示知識(shí)的真正有趣的模式),知識(shí)表示(使用可視化技術(shù)和知識(shí)表示技術(shù),向用戶(hù)提供挖掘的知識(shí))等階段(見(jiàn)圖1)??臻g數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過(guò)程。

2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用

空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱(chēng)外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫(kù)看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語(yǔ)言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱(chēng)內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶(hù)自行開(kāi)發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。

利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)如下幾種主要類(lèi)型的知識(shí):普遍的幾何知識(shí)、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類(lèi)規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R(shí)。目前,這些知識(shí)已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測(cè)和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場(chǎng)分析、企業(yè)客戶(hù)關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開(kāi)發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。

3 空間數(shù)據(jù)挖掘面臨的問(wèn)題

(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來(lái),并沒(méi)有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)??臻g數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪(fǎng)問(wèn)方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對(duì)象。

(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對(duì)海量的數(shù)據(jù)庫(kù)系統(tǒng),在空間數(shù)據(jù)挖掘過(guò)程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問(wèn)題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識(shí)發(fā)現(xiàn)、去除與任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問(wèn)題的維數(shù),設(shè)計(jì)出更有效的知識(shí)發(fā)現(xiàn)算法。

(3) 沒(méi)有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢(xún)語(yǔ)言。數(shù)據(jù)庫(kù)技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢(xún)語(yǔ)言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。

(4) 空間數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識(shí)發(fā)現(xiàn)過(guò)程中很難充分有效地利用領(lǐng)域?qū)<抑R(shí),用戶(hù)不能很好掌控空間數(shù)據(jù)挖掘過(guò)程。

(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對(duì)某個(gè)特定的問(wèn)題,因而能夠發(fā)現(xiàn)的知識(shí)有限。

(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識(shí)發(fā)現(xiàn)過(guò)程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開(kāi)發(fā)的知識(shí)系統(tǒng)僅局限于數(shù)據(jù)庫(kù)領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識(shí),知識(shí)發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、專(zhuān)家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。

上述問(wèn)題使得從空間數(shù)據(jù)庫(kù)中提取知識(shí)比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中提取知識(shí)更為困難,這給空間數(shù)據(jù)挖掘研究帶來(lái)了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來(lái)的發(fā)展中,還有很多理論和方法有待深入研究。

4 空間數(shù)據(jù)挖掘的發(fā)展趨勢(shì)

(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究。空間關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類(lèi)技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。

(2) 多源空間數(shù)據(jù)的預(yù)處理??臻g數(shù)據(jù)內(nèi)容包括數(shù)字線(xiàn)劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。

篇2

當(dāng)今社會(huì)已經(jīng)進(jìn)入了人工智能時(shí)代,人工智能的應(yīng)用,大大改善了我們的生活。大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,不論是從數(shù)據(jù)的使用,挖掘,處理等方面,都為人工智能的應(yīng)用起到了基礎(chǔ)和保障。

1人工智能

1.1人工智能的定義。人工智能(ArtificialIntelligence),簡(jiǎn)稱(chēng)AI。屬于計(jì)算機(jī)學(xué)科下的分支,顧名思義,它是一門(mén)專(zhuān)門(mén)研究類(lèi)人化的智能機(jī)器學(xué)科,即利用現(xiàn)階段科學(xué)的研究方法和技術(shù),研制出具有模仿、延伸和擴(kuò)展人類(lèi)智能的機(jī)器或智能系統(tǒng),從而實(shí)現(xiàn)利用機(jī)器模仿人類(lèi)智能的一切行為。1.2人工智能的研究背景。在1956年的達(dá)特矛斯會(huì)議上,“人工智能”這一術(shù)語(yǔ)正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進(jìn)行了許多的研究和開(kāi)發(fā),人工智能這個(gè)話(huà)題也取得了飛速的發(fā)展。人工智能是一門(mén)極具挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人必須了解計(jì)算機(jī)知識(shí)、心理學(xué)和哲學(xué)理念。人工智能的研究包涵廣泛的科學(xué)知識(shí),以及其他領(lǐng)域的知識(shí),如機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等。一般來(lái)說(shuō),人工智能研究的主要目標(biāo)是使機(jī)器能夠做一些通常需要人工智能完成復(fù)雜工作的機(jī)器。1.3人工智能的研發(fā)歷程。早期研究領(lǐng)域:人工智能專(zhuān)家系統(tǒng),機(jī)器學(xué)習(xí),模式識(shí)別,自然語(yǔ)言理解,自動(dòng)定理證明,自動(dòng)編程,機(jī)器人,游戲,人工神經(jīng)網(wǎng)絡(luò)等,現(xiàn)在涉及以下研究領(lǐng)域:數(shù)據(jù)挖掘,智能決策系統(tǒng),知識(shí)工程,分布式人工智能等。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到廣泛的發(fā)展。以下簡(jiǎn)要介紹其中的幾個(gè)重要部分:(1)專(zhuān)家系統(tǒng)。所謂專(zhuān)家系統(tǒng)就是控制計(jì)算的智能化程序系統(tǒng),通過(guò)研發(fā)人員總結(jié)歸納了專(zhuān)業(yè)學(xué)科知識(shí)和日常經(jīng)驗(yàn),能夠知道計(jì)算機(jī)完成某個(gè)領(lǐng)域內(nèi)的專(zhuān)業(yè)性活動(dòng)或者解決某些專(zhuān)業(yè)級(jí)別的問(wèn)題。人工智能技術(shù)可以合理利用已知的經(jīng)驗(yàn)體系在復(fù)雜環(huán)境中,解決和處理復(fù)雜問(wèn)題。(2)機(jī)器系統(tǒng)。機(jī)器系統(tǒng)簡(jiǎn)單說(shuō)就是機(jī)器人通過(guò)人造神經(jīng)系統(tǒng),借助于網(wǎng)絡(luò)或者存儲(chǔ)系統(tǒng)汲取系統(tǒng)的知識(shí)進(jìn)行開(kāi)發(fā)研究。(3)感知仿生。感知仿生系統(tǒng)通過(guò)模擬人類(lèi)的感官,感知生物學(xué)特征,通過(guò)人工智能機(jī)器的感部件對(duì)外界外部環(huán)境進(jìn)行感知,識(shí)別,判斷,分析的能力。能夠更好的適應(yīng)環(huán)境,做出判斷。(4)數(shù)據(jù)重組和發(fā)掘。是指通過(guò)人工智能系統(tǒng),結(jié)合當(dāng)前先進(jìn)的理念,對(duì)大數(shù)據(jù)的總結(jié)歸納,識(shí)別存儲(chǔ),調(diào)取等應(yīng)用。通過(guò)數(shù)據(jù)的加工處理,能夠主動(dòng)做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統(tǒng)利用系統(tǒng)有效的規(guī)避和克服系統(tǒng)資源在某段時(shí)間內(nèi)的局限性,并能有效地改善因資源造成的時(shí)間和空間不均衡問(wèn)題。它具備,模式自動(dòng)轉(zhuǎn)換,并行處理,開(kāi)放啟發(fā)方式,冗余且容錯(cuò)糾錯(cuò)的能力。

2數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(DataMining,DM)是揭示數(shù)據(jù)中存在的模式和數(shù)據(jù)關(guān)系的學(xué)科,強(qiáng)調(diào)處理大型可觀(guān)察數(shù)據(jù)庫(kù)。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到了廣泛的發(fā)展。這里包括數(shù)據(jù)挖掘和智能信息提取過(guò)程,前者從大量復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)中挖掘出未知和有價(jià)值的模式或規(guī)則,后者是知識(shí)的比較,選擇和總結(jié)出來(lái)的原則和規(guī)則,形成一個(gè)智能系統(tǒng)。2.2數(shù)據(jù)挖掘的研究現(xiàn)狀。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面??此茝V泛,實(shí)際應(yīng)用還遠(yuǎn)沒(méi)有普及。而據(jù)Gartner的報(bào)告也指出,數(shù)據(jù)挖掘會(huì)成為未來(lái)10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開(kāi)始成為一門(mén)獨(dú)立的專(zhuān)業(yè)學(xué)科。2.3數(shù)據(jù)挖掘的研究發(fā)展。具體發(fā)展趨勢(shì)和應(yīng)用方向主要有:性能方面:數(shù)據(jù)挖掘設(shè)計(jì)的數(shù)據(jù)量會(huì)更大,處理的效率會(huì)更高,結(jié)果也會(huì)更精確。工具方面:挖掘工具越來(lái)越強(qiáng)大,算法收斂越來(lái)越多,預(yù)測(cè)算法將吸收新穎性算法(支持向量機(jī)(SVM),粗糙集,云模型,遺傳算法等),并實(shí)現(xiàn)自動(dòng)化的實(shí)現(xiàn)算法,選擇和自動(dòng)調(diào)諧參數(shù)。應(yīng)用:數(shù)據(jù)挖掘的應(yīng)用除了應(yīng)用于大型專(zhuān)門(mén)問(wèn)題外,還將走向嵌入式,更加智能化。例如進(jìn)一步研究知識(shí)發(fā)現(xiàn)方法,對(duì)貝葉斯定理和Boosting方法的研究和改進(jìn),以及對(duì)商業(yè)工具軟件不斷的生成和改進(jìn),著重建立整體系統(tǒng)來(lái)解決問(wèn)題,如Weka等軟件。在先進(jìn)理論的指導(dǎo)下,按照國(guó)內(nèi)形態(tài)發(fā)展,至少需要20年的時(shí)間,才能改進(jìn)數(shù)據(jù)挖掘的發(fā)展。

3數(shù)據(jù)挖掘與人工智能技術(shù)的聯(lián)系

數(shù)據(jù)挖掘?qū)儆谌斯ぶ悄苤歇?dú)立系統(tǒng)。它于人工智能的存在關(guān)系屬于,并存聯(lián)系,且獨(dú)立運(yùn)行,互不從屬。此設(shè)計(jì)體系一方面可以有效促進(jìn)人工智能提升學(xué)習(xí)能力,增進(jìn)分析能力,另一方面還對(duì)分析,統(tǒng)計(jì),OLSP,以及決策支持系統(tǒng)模塊等起到推動(dòng)作用。在收挖掘應(yīng)用領(lǐng)域,處理可以對(duì)WEB挖掘,還能夠有效進(jìn)行文本,數(shù)據(jù)庫(kù),知識(shí)庫(kù),不同領(lǐng)域不同學(xué)科的信息進(jìn)行序列矩陣模式挖掘?;跀?shù)據(jù)本身的分類(lèi),辨識(shí),關(guān)聯(lián)規(guī)則,聚類(lèi)算法更加博大精深。因此,獨(dú)立于人工智能的數(shù)據(jù)挖掘,更加便于科研團(tuán)體或者領(lǐng)域?qū)?shù)據(jù)的使用和分析。數(shù)據(jù)挖掘是人工智能領(lǐng)域的一部分。首先,高智能是數(shù)據(jù)挖掘和人工智能的最終目標(biāo),正是由于這個(gè)目標(biāo),人工智能和數(shù)據(jù)挖掘有很多關(guān)聯(lián)。其次,數(shù)據(jù)挖掘和人工智能是各種技術(shù)的整合。數(shù)據(jù)挖掘和人工智能是許多學(xué)科的跨學(xué)科學(xué)科。最后,數(shù)據(jù)挖掘的出現(xiàn)逐漸發(fā)展壯大,加強(qiáng)了人工智能,因此可以說(shuō),它們兩者是不可分割的。

4人工智能和數(shù)據(jù)挖掘技術(shù)的發(fā)展前景

在當(dāng)前環(huán)境下,人工智能和數(shù)據(jù)挖掘技術(shù)具有以下發(fā)展前景:(1)在大數(shù)據(jù)互聯(lián)網(wǎng)中的應(yīng)用。將人工智能的技術(shù)應(yīng)用于互聯(lián)網(wǎng)中將會(huì)使網(wǎng)絡(luò)技術(shù)帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來(lái)便利。還可以提高網(wǎng)絡(luò)運(yùn)行效率、增加網(wǎng)絡(luò)安全性等。(2)智能化服務(wù)的研究。人工智能和數(shù)據(jù)挖掘都很注重對(duì)智能化服務(wù)的研究,例如很多智能機(jī)器人便應(yīng)運(yùn)而生,它們已經(jīng)能勝任許多簡(jiǎn)單的工作,可以為人們提供人性化的服務(wù)。高度的智能化是數(shù)據(jù)挖掘和人工智能研究最終追求的目標(biāo),也是二者最終合而為一的標(biāo)志。(3)使知識(shí)產(chǎn)生經(jīng)濟(jì)化。在現(xiàn)階段的知識(shí)經(jīng)濟(jì)時(shí)代,人工智能和數(shù)據(jù)挖掘勢(shì)必受到經(jīng)濟(jì)的影響,這決定了人工智能和數(shù)據(jù)挖掘?qū)⒕哂薪?jīng)濟(jì)特征。人工智能和數(shù)據(jù)挖掘技術(shù)作為無(wú)形資產(chǎn)可以直接帶來(lái)經(jīng)濟(jì)效益,通過(guò)交流,教育,生產(chǎn)和創(chuàng)新的無(wú)形資產(chǎn)將成為知識(shí)經(jīng)濟(jì)時(shí)代的主要資本??梢灶A(yù)期未來(lái)的人工智能和數(shù)據(jù)挖掘技術(shù)將更加經(jīng)濟(jì)實(shí)用。(4)交叉學(xué)科的技術(shù)融合。各行各業(yè)的理論和方法都已經(jīng)開(kāi)始融入了人工智能和數(shù)據(jù)挖掘之中。未來(lái)的人工智能和數(shù)據(jù)挖掘技術(shù)必將是一個(gè)融合眾多領(lǐng)的復(fù)合學(xué)科。當(dāng)今,我們已經(jīng)在逐漸使用人工智能與數(shù)據(jù)挖掘技術(shù),去攻克更多難題,解決更多問(wèn)題,造福人類(lèi),改善生活,近在眼前。

作者:喻正夫 單位:漢江師范學(xué)院

參考文獻(xiàn):

[1]萬(wàn)璞,王麗莎.數(shù)據(jù)挖掘與人工智能技術(shù)研究[J].無(wú)線(xiàn)互聯(lián)科技,2016(10):113-114.

[2]王翔.試論如何利用大數(shù)據(jù)挖掘技術(shù)推動(dòng)人工智能繼續(xù)發(fā)展[J/OL].科技創(chuàng)新報(bào),2017,14(01).

[3]秦益文.微博數(shù)據(jù)挖掘中人工智能推理引擎的應(yīng)用[J].中小企業(yè)管理與科技(中旬刊),2017(02).

[4]蒲東齊.數(shù)據(jù)挖掘在人工智能上的應(yīng)用[J].信息與電腦(理論版),2016(19).

篇3

關(guān)鍵詞:

大數(shù)據(jù)大數(shù)據(jù)分析大數(shù)據(jù)挖掘可視分析

隨著云計(jì)算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,各種移動(dòng)設(shè)備、傳感網(wǎng)絡(luò)、電商網(wǎng)站、社交網(wǎng)絡(luò)時(shí)時(shí)刻刻都在生成各種各樣類(lèi)型的數(shù)據(jù),大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。大數(shù)據(jù)即數(shù)據(jù)體量巨大、數(shù)據(jù)類(lèi)型多樣、數(shù)據(jù)的質(zhì)量低、處理速度迅速的數(shù)據(jù)。大數(shù)據(jù)分析的核心是從大量數(shù)據(jù)中獲取有價(jià)值的內(nèi)容,更準(zhǔn)確、更深層次的知識(shí),而不是對(duì)數(shù)據(jù)簡(jiǎn)單的統(tǒng)計(jì)和分析。

1大數(shù)據(jù)的定義與特征

大數(shù)據(jù)已經(jīng)進(jìn)入了我們每個(gè)人的生活,各行各業(yè)都在討論如何發(fā)展和運(yùn)用大數(shù)據(jù),那么什么是大數(shù)據(jù),大數(shù)據(jù)的特征是什么?大數(shù)據(jù)是指所涉及的數(shù)據(jù)規(guī)模巨大到無(wú)法通過(guò)目前主流的軟件工具在合理時(shí)間內(nèi)擷取、管理、處理、挖掘這些數(shù)據(jù),并整理成為企業(yè)經(jīng)營(yíng)決策有用的信息。IBM提出大數(shù)據(jù)的4V特征,得到了業(yè)界的廣泛認(rèn)可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級(jí)別躍升到PB級(jí)別;第二,多樣性(Variety),即數(shù)據(jù)類(lèi)型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包含來(lái)自互聯(lián)網(wǎng)的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價(jià)值性(Veracity),即追求高質(zhì)量的數(shù)據(jù)。大數(shù)據(jù)具有4V特征,給人們帶來(lái)了新的機(jī)遇與挑戰(zhàn)。

2大數(shù)據(jù)挖掘與分析的意義

在大數(shù)據(jù)處理的過(guò)程中,數(shù)據(jù)分析是核心,因?yàn)榇髷?shù)據(jù)的價(jià)值全部在數(shù)據(jù)分析過(guò)程中產(chǎn)生?;ヂ?lián)網(wǎng)、硬件等技術(shù)迅猛發(fā)展,加深了人們對(duì)數(shù)據(jù)分析的需求。如果大數(shù)據(jù)是一種產(chǎn)業(yè),賺錢(qián)的重點(diǎn)在于如何提高數(shù)據(jù)的分析能力,通過(guò)分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價(jià)值。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析是數(shù)據(jù)價(jià)值發(fā)現(xiàn)的最重要環(huán)節(jié),也是決策的決定性元素。傳統(tǒng)的數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),且已經(jīng)形成一整套非常有效果的分析體系。但是在大數(shù)據(jù)時(shí)代,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的快速增長(zhǎng),給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的挑戰(zhàn)和沖擊。大數(shù)據(jù)分析于傳統(tǒng)數(shù)據(jù)分析有哪些區(qū)別呢?

3大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)

大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)實(shí)時(shí)處理、大數(shù)據(jù)可視化和應(yīng)用等。

3.1大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。智能感知層重點(diǎn)攻克針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)?;A(chǔ)支撐層重點(diǎn)攻克提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器、數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等處理技術(shù)。

3.2大數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理是指在大數(shù)據(jù)挖掘前期對(duì)大數(shù)據(jù)進(jìn)行的一些提前處理。預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等幾種方法(表1)。大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大,但并沒(méi)有增加數(shù)據(jù)價(jià)值,相反增多了數(shù)據(jù)噪音,有很多數(shù)據(jù)放在存儲(chǔ)器里就沒(méi)再用過(guò)。數(shù)據(jù)量的突然增加,各種媒體數(shù)據(jù)被任意碎片化。在應(yīng)對(duì)處理大數(shù)據(jù)的技術(shù)挑戰(zhàn)中,大數(shù)據(jù)的降噪與清洗技術(shù)值得高度重視。早期主要是結(jié)構(gòu)化數(shù)據(jù)的挖掘,可從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)時(shí)序知識(shí)、關(guān)聯(lián)知識(shí)和分類(lèi)知識(shí)等。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)庫(kù)已經(jīng)不能滿(mǎn)足人們的需求了。大數(shù)據(jù)中數(shù)據(jù)類(lèi)型繁多,我們進(jìn)入了一個(gè)非結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。因此,非結(jié)構(gòu)化數(shù)據(jù)模型是大數(shù)據(jù)預(yù)處理的重要研究方向。

3.3大數(shù)據(jù)管理大數(shù)據(jù)不斷地從復(fù)雜的應(yīng)用系統(tǒng)中產(chǎn)生,并且將會(huì)以更多、更復(fù)雜、更多樣化的方式持續(xù)增長(zhǎng)。多樣化的物聯(lián)網(wǎng)傳感設(shè)備不斷地感知著海量的具有不同格式的數(shù)據(jù)。物聯(lián)網(wǎng)系統(tǒng)中大數(shù)據(jù)的復(fù)雜化和格式多樣化,決定了物聯(lián)網(wǎng)系統(tǒng)中針對(duì)大數(shù)據(jù)的應(yīng)用場(chǎng)景和服務(wù)類(lèi)型的多樣化,從而要求物聯(lián)網(wǎng)大數(shù)據(jù)管理系統(tǒng)必須采用特定技術(shù)來(lái)處理各種格式的大數(shù)據(jù),而現(xiàn)在針對(duì)特定數(shù)據(jù)類(lèi)型和業(yè)務(wù)的系統(tǒng)已經(jīng)無(wú)法滿(mǎn)足多樣化需求,因此,設(shè)計(jì)新的具有可擴(kuò)展性的系統(tǒng)架構(gòu)已經(jīng)成為大數(shù)據(jù)管理的研究熱點(diǎn)。

3.4大數(shù)據(jù)實(shí)時(shí)處理根據(jù)大數(shù)據(jù)速度快的特點(diǎn),時(shí)間越長(zhǎng),數(shù)據(jù)的價(jià)值也在不斷衰減,因此很多領(lǐng)域需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。大數(shù)據(jù)時(shí)代,伴隨著各種應(yīng)用場(chǎng)景的數(shù)據(jù)分析從離線(xiàn)轉(zhuǎn)向了在線(xiàn),實(shí)時(shí)處理的需求不斷提高。大數(shù)據(jù)的實(shí)時(shí)處理面臨著一些新的挑戰(zhàn),主要體現(xiàn)在數(shù)據(jù)處理模式和算法的選擇及改進(jìn)。

3.5大數(shù)據(jù)可視分析大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)挖掘的同時(shí),融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,利用人機(jī)交互技術(shù)和可視化界面,獲得大規(guī)模復(fù)雜數(shù)據(jù)集的分析能力。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)可視化是必須盡快解決的關(guān)鍵問(wèn)題,為大數(shù)據(jù)服務(wù)的研究指明了方向。

4結(jié)語(yǔ)

傳統(tǒng)數(shù)據(jù)處理方法已經(jīng)不能滿(mǎn)足大數(shù)據(jù)挖掘與分析的需求。近年來(lái),大數(shù)據(jù)挖掘與分析領(lǐng)域已經(jīng)出現(xiàn)了很多新技術(shù),并成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的堅(jiān)實(shí)基礎(chǔ)。但是對(duì)大數(shù)據(jù)分析的價(jià)值尚缺少深入的理解,大數(shù)據(jù)分析中的很多重要技術(shù)還不成熟,還有很多其他關(guān)鍵技術(shù)難題需要去繼續(xù)研究。

參考文獻(xiàn)

[1]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué)博士學(xué)位論文,2013.

[2]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(09):1889-1908.

[3]任磊,杜一,馬帥等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014,25(09):1909-1936.

篇4

在當(dāng)前的時(shí)代背景下,很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念,這既給計(jì)算機(jī)產(chǎn)業(yè)帶來(lái)了發(fā)展機(jī)遇,也帶來(lái)了挑戰(zhàn)。因?yàn)橄胍龊么髷?shù)據(jù)挖掘的相關(guān)工作,就一定要掌握數(shù)據(jù)分類(lèi)算法,而數(shù)據(jù)分類(lèi)算法可稱(chēng)得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入,人們開(kāi)發(fā)了多種多樣的分類(lèi)算法,用以不斷減輕其難度。通常都是以數(shù)據(jù)分類(lèi)器為基準(zhǔn),進(jìn)行相應(yīng)的數(shù)據(jù)分類(lèi),包括決策樹(shù)類(lèi)、Bayes類(lèi)、基于關(guān)聯(lián)規(guī)則類(lèi)以及利用數(shù)據(jù)庫(kù)技術(shù)類(lèi),本文將對(duì)它們進(jìn)行簡(jiǎn)單的闡述。

1 決策樹(shù)分類(lèi)算法

1.1 傳統(tǒng)算法

C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類(lèi)算法,有著很明顯的優(yōu)點(diǎn),如規(guī)則簡(jiǎn)單易懂,實(shí)際操作易于上手。但是隨著計(jì)算機(jī)的不斷普及,數(shù)據(jù)的規(guī)模變的越來(lái)越龐大,其復(fù)雜程度也是日漸增長(zhǎng)。C4.5已經(jīng)逐漸無(wú)法滿(mǎn)足新時(shí)期的數(shù)據(jù)分類(lèi)處理工作了。并且由于決策樹(shù)分類(lèi)算法的規(guī)則,決定了在數(shù)據(jù)分類(lèi)的過(guò)程中,要對(duì)數(shù)據(jù)進(jìn)行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹(shù)的時(shí)候,這種缺點(diǎn)更加明顯。這不僅會(huì)影響數(shù)據(jù)分析的速度,也浪費(fèi)了更多的系統(tǒng)資源。對(duì)于大數(shù)據(jù)挖掘來(lái)說(shuō),C4.5更加無(wú)法勝任,因?yàn)镃4.5算法的適用范圍十分有限,只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù),對(duì)于內(nèi)存無(wú)法保留的過(guò)于龐大的數(shù)據(jù)集,C4.5甚至?xí)霈F(xiàn)無(wú)法運(yùn)行的情況。

1.2 衍生算法

(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來(lái),在其基礎(chǔ)上做了一些技術(shù)性的完善,例如增強(qiáng)了數(shù)據(jù)的排序技術(shù),并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個(gè)數(shù),并具有相當(dāng)優(yōu)秀的可擴(kuò)展性,為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點(diǎn),由于它是以C4.5算法為基礎(chǔ)的,因此在進(jìn)行數(shù)據(jù)處理時(shí),仍需要將數(shù)據(jù)集保留在內(nèi)存中,這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長(zhǎng)度一旦超過(guò)了排序的預(yù)定長(zhǎng)度,SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。

(2)SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問(wèn)題而開(kāi)發(fā)出來(lái)的。SPRINT 算法重新定義了決策樹(shù)算法的數(shù)據(jù)分析結(jié)構(gòu),改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是,它沒(méi)有像SLIQ 算法那樣講數(shù)據(jù)列表存儲(chǔ)在內(nèi)存當(dāng)中,而是將其融合到了每個(gè)數(shù)據(jù)集的屬性列表中,這樣既避免了數(shù)據(jù)查詢(xún)時(shí)重復(fù)掃描造成的速度緩慢,又釋放了內(nèi)存的壓力。特別是在進(jìn)行大數(shù)據(jù)挖掘時(shí),由于數(shù)據(jù)的基數(shù)過(guò)大,在每個(gè)數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時(shí)間,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點(diǎn),對(duì)于不具有可分裂屬性的數(shù)據(jù)列表,由于它只能在數(shù)據(jù)集內(nèi)進(jìn)行分析,結(jié)果可能不是十分準(zhǔn)確,導(dǎo)致其拓展性受到了限制。

2 其他分類(lèi)算法

2.1 Bayes分類(lèi)算法

Bayes分類(lèi)算法是利用概率統(tǒng)計(jì)學(xué)而開(kāi)發(fā)出來(lái)的一種算法,在目前數(shù)據(jù)分類(lèi)中應(yīng)用比較廣泛。但是其缺點(diǎn)也比較明顯,由于Bayes分類(lèi)算法需要在分析之前對(duì)數(shù)據(jù)的特性做出一定的假設(shè),而這種假設(shè)往往缺少實(shí)際數(shù)據(jù)的理論支持,因此在數(shù)據(jù)分析過(guò)程中就很難做到準(zhǔn)確有效。在此之上,TAN算法又被開(kāi)發(fā)出來(lái),它是為了提高Bayes分類(lèi)算法的假設(shè)命題的準(zhǔn)確率,也就是降低了NB任意屬性之間獨(dú)立的假設(shè)。

2.2 CBA分類(lèi)數(shù)據(jù)算法

基于關(guān)聯(lián)規(guī)則的分類(lèi)算法就是CBA分類(lèi)數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類(lèi)器,在數(shù)據(jù)分析的過(guò)程中,先搜索到所有的右部為類(lèi)別的類(lèi)別關(guān)聯(lián)規(guī)則,這被稱(chēng)為CAR;然后再?gòu)腃AR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù),它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面,方便進(jìn)行歸納整理。但是由于其在進(jìn)行數(shù)據(jù)分類(lèi)時(shí)容易出現(xiàn)疏漏,因此經(jīng)常采用設(shè)置最小支持度為0的辦法來(lái)減少遺漏的數(shù)據(jù),這就造成了算法的優(yōu)化作用不能完全發(fā)揮,降低了運(yùn)行效率。

2.3 MIND和GAC-RDB算法分類(lèi)算法

在大數(shù)據(jù)挖掘的背景下,未來(lái)數(shù)據(jù)分類(lèi)算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ)的的分類(lèi)算法。盡管很久之前就已經(jīng)有一些專(zhuān)門(mén)研究數(shù)據(jù)庫(kù)的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫(kù)技術(shù)的分類(lèi)算法,但是并沒(méi)有得到實(shí)際運(yùn)用。因?yàn)樵谶M(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時(shí)候,很難將其與數(shù)據(jù)庫(kù)的系統(tǒng)集成,目前來(lái)說(shuō),MIND和GAC-RDB算法還能夠較好地解決這個(gè)問(wèn)題。

2.3.1 MIND算法

MIND算法與決策樹(shù)算法有些相似,都是通過(guò)構(gòu)造數(shù)據(jù)分類(lèi)器來(lái)進(jìn)行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語(yǔ)句來(lái)與數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)關(guān)聯(lián)。在進(jìn)行數(shù)據(jù)分析時(shí),UDF方法能夠大大縮短對(duì)每個(gè)節(jié)點(diǎn)的數(shù)據(jù)特性進(jìn)行分析的時(shí)間,這樣就在為數(shù)據(jù)庫(kù)的集成提供了理論基礎(chǔ)。SQL語(yǔ)句是通過(guò)對(duì)數(shù)據(jù)集的屬性進(jìn)行分析,以便從中選擇出最合適的分裂屬性,然后給數(shù)據(jù)排序,這樣就節(jié)省了數(shù)據(jù)分類(lèi)的時(shí)間。但是MIND算法還不能直接在數(shù)據(jù)庫(kù)系統(tǒng)中實(shí)現(xiàn)查詢(xún)功能,更重要的是,該算法的維護(hù)成本過(guò)高,不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基礎(chǔ)上進(jìn)行了更多的改進(jìn),能夠充分利用數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行聚集運(yùn)算,也就是實(shí)現(xiàn)了數(shù)據(jù)庫(kù)系統(tǒng)的集成。該算法擁有分類(lèi)準(zhǔn)確,分析迅速,執(zhí)行更快的優(yōu)點(diǎn),同時(shí)可拓展性也比較出色。更重要的是,它可以充分利用數(shù)據(jù)庫(kù)提供的查詢(xún)功能,從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象,縮短了分析的時(shí)間,節(jié)約了系統(tǒng)資源。只要在自動(dòng)確定參數(shù)取值的技術(shù)上進(jìn)行一些改進(jìn),該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。

3 總結(jié)

大數(shù)據(jù)挖掘是時(shí)展的潮流,因此數(shù)據(jù)分類(lèi)算法的重要性也將隨著顯現(xiàn)。通過(guò)分析幾種不同的算法,能夠在數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性上進(jìn)行比較,從而選擇最適合的數(shù)據(jù)分類(lèi)算法。它們都在不同程度上有著各自的優(yōu)缺點(diǎn),因此要繼續(xù)深入研究以開(kāi)發(fā)出更好的分類(lèi)算法。

參考文獻(xiàn)

[1]錢(qián)雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類(lèi)算法的綜述,2014(13).

篇5

要讓數(shù)據(jù)電子化,首先要搭建適用的網(wǎng)絡(luò)平臺(tái),網(wǎng)絡(luò)平臺(tái)的搭建分為2個(gè)過(guò)程。如果需要收集數(shù)據(jù),則需要搭建一個(gè)面向?qū)ο蟮木W(wǎng)絡(luò)平臺(tái)。在對(duì)大學(xué)生社會(huì)體系和人際關(guān)系的研究中,采用的是在WEB上自動(dòng)收集量表數(shù)據(jù),首先將量表轉(zhuǎn)換為匯編語(yǔ)言編寫(xiě)的網(wǎng)頁(yè),再采用將量表轉(zhuǎn)換后的電子版網(wǎng)頁(yè)與數(shù)據(jù)庫(kù)中的表相連接,這樣,只要被試登錄指定網(wǎng)站,就可以在網(wǎng)上完成量表的填寫(xiě),數(shù)據(jù)則直接存入數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)管理系統(tǒng)使用的是SQLServer2000,在網(wǎng)絡(luò)成癮和注意關(guān)系偏向的研究中,也采用了同樣的方法。如果對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行分析,則可以略過(guò)數(shù)據(jù)收集這個(gè)步驟,直接將數(shù)據(jù)輸入數(shù)據(jù)處理軟件中。在對(duì)于青少年同伴關(guān)系的研究中,創(chuàng)建了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)存放現(xiàn)有數(shù)據(jù),選用SQLServer2000作為數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建平臺(tái)。由于青少年同伴關(guān)系的研究中的維度不是太多,維度層次也不復(fù)雜,出于對(duì)查詢(xún)效率和使用者是否容易理解的角度考慮,決定使用星型結(jié)構(gòu)來(lái)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),青少年同伴關(guān)系研究的星型結(jié)構(gòu)。最后一種方法是直接將數(shù)據(jù)輸入SPSS中,這種方法這樣需要大量人力物力,而且效率難以提高,存在誤錄的可能。

1.2數(shù)據(jù)挖掘分析

將數(shù)據(jù)轉(zhuǎn)換為需要的電子文本格式以后,進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理。在剔除了部分缺失或者明顯錯(cuò)誤的數(shù)據(jù)后,就可以進(jìn)行數(shù)據(jù)挖掘工作了。數(shù)據(jù)挖掘的常用算法為關(guān)聯(lián)規(guī)則挖掘、決策樹(shù)算法和聚類(lèi)挖掘算法。在此選用關(guān)聯(lián)規(guī)則挖掘算法做詳細(xì)說(shuō)明,在大學(xué)生社會(huì)網(wǎng)絡(luò)和人際關(guān)系研究中,選取被試人際關(guān)系滿(mǎn)意度為例進(jìn)行關(guān)聯(lián)規(guī)則挖掘。表1被試人際關(guān)系滿(mǎn)意度關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘的步驟如下:

①選擇數(shù)據(jù)根據(jù)關(guān)聯(lián)規(guī)則挖掘的目標(biāo),選擇如上表所示的屬性,通過(guò)下面的sql語(yǔ)句選擇數(shù)據(jù),并將jibenxinxi表和zongjie表通過(guò)學(xué)號(hào)連接起來(lái)。select性別,是否獨(dú)生子女,你對(duì)自己的人際關(guān)系滿(mǎn)意嗎,你對(duì)自己與父母的關(guān)系滿(mǎn)意嗎,你對(duì)自己與同伴的關(guān)系滿(mǎn)意嗎,你對(duì)自己與老師的關(guān)系滿(mǎn)意嗎,你認(rèn)為比較了解你的人會(huì)對(duì)你的人際關(guān)系給出一個(gè)怎樣的評(píng)價(jià),你對(duì)自己人際關(guān)系的關(guān)注程度f(wàn)romjibenxinxia,zongjiebwherea.學(xué)號(hào)=b.學(xué)號(hào);

②保存選擇的數(shù)據(jù):首先將第一步選擇的數(shù)據(jù)插入到一張表中,sql語(yǔ)句如下:insertintoguanlianguize1select性別,是否獨(dú)生子女,你對(duì)自己的人際關(guān)系滿(mǎn)意嗎,你對(duì)自己與父母的關(guān)系滿(mǎn)意嗎,你對(duì)自己與同伴的關(guān)系滿(mǎn)意嗎,你對(duì)自己與老師的關(guān)系滿(mǎn)意嗎,你認(rèn)為比較了解你的人會(huì)對(duì)你的人際關(guān)系給出一個(gè)怎樣的評(píng)價(jià),你對(duì)自己人際關(guān)系的關(guān)注程度f(wàn)romjibenxinxia,zongjiebwherea.學(xué)號(hào)=b.學(xué)號(hào);

③構(gòu)造滿(mǎn)足關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫(kù)在guanlianguize1表中增加一個(gè)屬性item,通過(guò)下面的sql語(yǔ)句給item賦值。注意各屬性的數(shù)據(jù)挖掘映射代碼如上表所示。新建表social_guanlian_1作為數(shù)據(jù)挖掘的事務(wù)數(shù)據(jù)庫(kù),導(dǎo)入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上關(guān)聯(lián)規(guī)則挖掘的結(jié)果,結(jié)果表明:對(duì)自己圖人際關(guān)系評(píng)價(jià)較高的大學(xué)生,同時(shí)對(duì)自己人際關(guān)系的滿(mǎn)意度也較高。對(duì)自己人際關(guān)系評(píng)價(jià)較低的大學(xué)生,同時(shí)對(duì)自己人際關(guān)系的滿(mǎn)意度也較低。對(duì)人際關(guān)系關(guān)注程度較低的同學(xué),人際關(guān)系滿(mǎn)意度也較低。這些數(shù)據(jù)之間是互相有關(guān)聯(lián)的,因此呼吁大學(xué)生多關(guān)注人際關(guān)系和人際交往的法則,有利于他們及早的認(rèn)識(shí)到自己在人際交往方面的不足,為以后步入社會(huì),創(chuàng)造更大的社會(huì)價(jià)值打好基礎(chǔ)。除此以外,對(duì)于教育學(xué)中的很多課題,例如青少年同伴關(guān)系的研究,網(wǎng)絡(luò)成癮與注意偏向關(guān)系的研究,學(xué)生成績(jī)的分析等等都可以用數(shù)據(jù)挖掘來(lái)進(jìn)行科學(xué)的數(shù)據(jù)分析,數(shù)據(jù)挖掘技術(shù)在教育學(xué)領(lǐng)域正發(fā)揮著越來(lái)越大的作用。

篇6

1.1.1將文本對(duì)比作為基礎(chǔ)的方式采用計(jì)算機(jī)軟件系統(tǒng)中的對(duì)比程序代碼中所包含的語(yǔ)句行展開(kāi)進(jìn)一步的判斷過(guò)程,這種方法在進(jìn)行后期的改進(jìn)過(guò)程中針對(duì)的是對(duì)字符串的匹配效率進(jìn)行提升,提升的辦法有很多,最為主要的就是通過(guò)Hash函數(shù)技術(shù)進(jìn)行匹配效率優(yōu)化,在這個(gè)過(guò)程中最為常用的工具為Duploc。

1.1.2將標(biāo)識(shí)符對(duì)比作為基礎(chǔ)的方式將標(biāo)識(shí)符對(duì)比作為基礎(chǔ)的方式,最具代表性的方式是對(duì)由分詞所組成的標(biāo)識(shí)符序列構(gòu)造前綴樹(shù),并將其作為依據(jù)然后進(jìn)行對(duì)比,將標(biāo)識(shí)符對(duì)比作為基礎(chǔ)的方式的工具主要有CCFinder、Dup等[3]。

1.2計(jì)算機(jī)軟件數(shù)據(jù)檢索挖掘數(shù)據(jù)檢索挖掘與克隆代碼一樣,同樣是計(jì)算機(jī)軟件工程中最為原始的數(shù)據(jù)挖掘需求之一,對(duì)于計(jì)算機(jī)軟件數(shù)據(jù)檢索挖掘來(lái)說(shuō)其主要分為以下三步:第一步,為數(shù)據(jù)信息的錄入。所謂的數(shù)據(jù)信息錄入實(shí)際上指的是對(duì)于要檢索的信息進(jìn)行錄入的過(guò)程,針對(duì)使用者的需求將使用者所需要的數(shù)據(jù)信息輸入到檢索信息錄入框中進(jìn)行數(shù)據(jù)的查找。第二步,為數(shù)據(jù)信息的查找過(guò)程。當(dāng)客戶(hù)所需要的信息進(jìn)入到數(shù)據(jù)檢索錄入框中時(shí),進(jìn)行確認(rèn)后數(shù)據(jù)挖掘系統(tǒng)將會(huì)根據(jù)數(shù)據(jù)信息中所涵蓋的數(shù)據(jù)信息內(nèi)容進(jìn)行數(shù)據(jù)庫(kù)中的查找,并且根據(jù)不同的分類(lèi),對(duì)查找信息的數(shù)據(jù)信息資料進(jìn)行羅列[4]。第三步,為數(shù)據(jù)信息資料內(nèi)容的導(dǎo)出和查看,在查找到相關(guān)的客戶(hù)需要數(shù)據(jù)內(nèi)容時(shí),客戶(hù)可以根據(jù)自己本身的實(shí)際需要,進(jìn)行數(shù)據(jù)信息的導(dǎo)出或者是在線(xiàn)查看,在數(shù)據(jù)信息資料導(dǎo)出后,需要應(yīng)用相關(guān)的數(shù)據(jù)信息查看軟件進(jìn)行查看。并且客戶(hù)在導(dǎo)出數(shù)據(jù)信息時(shí),會(huì)在中形成一定的歷史記錄,對(duì)客戶(hù)及時(shí)查找的數(shù)據(jù)信息進(jìn)行記錄與保存,當(dāng)客戶(hù)想要再次進(jìn)行查找時(shí)能夠更為方便與快捷的找到其所需要的數(shù)據(jù)信息內(nèi)容。

篇7

0 引言

網(wǎng)絡(luò)輿情作為一種十分重要的輿情表現(xiàn)形式,是公眾在互聯(lián)網(wǎng)上對(duì)某種社會(huì)現(xiàn)象或社會(huì)問(wèn)題公開(kāi)表達(dá)的具有一定影響力和傾向性的共同意見(jiàn)。要加強(qiáng)對(duì)網(wǎng)絡(luò)輿情信息的分析,及時(shí)發(fā)現(xiàn)輿情熱點(diǎn),及時(shí)對(duì)民意走勢(shì)做出正確引導(dǎo)。在此情況下,我們引入Web數(shù)據(jù)挖掘技術(shù)來(lái)提高對(duì)輿情的處理和分析的效率以及質(zhì)量,實(shí)現(xiàn)網(wǎng)絡(luò)輿情的分析。

1 Web挖掘

Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,它是一種綜合使用自然語(yǔ)言處理、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等技術(shù)的智能分析方法。根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可以分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘三個(gè)方面。相比于傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法,Web挖掘可以用更短的時(shí)間了解網(wǎng)絡(luò)輿情的狀況和走向以及與之相關(guān)聯(lián)的熱點(diǎn)問(wèn)題,為網(wǎng)絡(luò)輿情的深入分析提供了技術(shù)支持。

1.1Web內(nèi)容挖掘。Web內(nèi)容挖掘是指從Web文檔的內(nèi)容或者Web搜索的結(jié)果中獲取知識(shí)的過(guò)程。由于網(wǎng)頁(yè)的內(nèi)容錯(cuò)綜復(fù)雜不易于計(jì)算機(jī)理解,Web內(nèi)容挖掘可以有效的對(duì)大量的Web文本集合進(jìn)行總結(jié)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析,以及利用Web文本進(jìn)行趨勢(shì)預(yù)測(cè)。在網(wǎng)絡(luò)輿情分析中,Web內(nèi)容挖掘可以發(fā)現(xiàn)與事件主題相關(guān)的知識(shí)內(nèi)容和語(yǔ)義關(guān)聯(lián)模式。

1.2Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是指對(duì)Web組織結(jié)構(gòu)、Web頁(yè)面的鏈接關(guān)系等進(jìn)行挖掘并從中提取出潛在的有用的知識(shí)的過(guò)程。Web鏈接信息包括了大量的關(guān)于Web內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,為網(wǎng)絡(luò)輿情的分析的提供了重要資源。通過(guò)Web結(jié)構(gòu)挖掘,可以獲得與輿情主題高度相關(guān)的鏈接以及鏈接邏輯結(jié)構(gòu)的語(yǔ)義知識(shí),從而幫助輿情分析人員確定重要輿情源和中心頁(yè)面,有助于深入挖掘輿情信息。

1.3Web使用挖掘。Web使用挖掘是指通過(guò)挖掘Web服務(wù)器上的日志信息來(lái)提取瀏覽者的訪(fǎng)問(wèn)記錄,獲取有價(jià)值的信息的過(guò)程。這些信息包括網(wǎng)絡(luò)服務(wù)器訪(fǎng)問(wèn)記錄、服務(wù)器日志記錄、瀏覽器日志記錄、用戶(hù)信息、注冊(cè)記錄、用戶(hù)對(duì)話(huà)或交易信息、用戶(hù)提問(wèn)等。通過(guò)上述信息可以發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式以及行為偏好,可以更好地理解用戶(hù)行為從而提供智能化的服務(wù)。通過(guò)Web使用挖掘,可以確定輿情熱點(diǎn)和焦點(diǎn),從而更準(zhǔn)確地預(yù)測(cè)網(wǎng)民行為。

2 基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析

2.1數(shù)據(jù)層。輿情信息采集的主要任務(wù)是提取與熱點(diǎn)相關(guān)度高的信息,為下面的輿情挖掘和分析做好準(zhǔn)備工作。輿情信息采集由以下5步完成。

(1)確定主題和選擇采集地點(diǎn)。為了使采集效果更好,必須以主題的形式對(duì)信息需求進(jìn)行描述。

(2)利用自動(dòng)采集軟件采集數(shù)據(jù)。數(shù)據(jù)采集軟件可以自動(dòng)采集相關(guān)信息,并下載到本地進(jìn)行分析。

(3)頁(yè)面分析。采集完頁(yè)面之后,對(duì)頁(yè)面進(jìn)行分析,提取重要信息,以便進(jìn)行后續(xù)的過(guò)濾和處理。

(4)URL與主題的相關(guān)性判斷。在采集過(guò)程中增加過(guò)濾機(jī)制以便提高采集數(shù)據(jù)的質(zhì)量。

(5)頁(yè)面過(guò)濾。對(duì)采集頁(yè)面進(jìn)行主題相關(guān)性評(píng)價(jià),去除相關(guān)性低的頁(yè)面,從而提高采集頁(yè)面的準(zhǔn)確性。

2.2 挖掘?qū)印M诰驅(qū)又饕烧Z(yǔ)義信息集成和Web挖掘引擎兩部分組成,而且語(yǔ)義信息集成為Web挖掘引擎提供經(jīng)預(yù)處理后的結(jié)構(gòu)化信息,簡(jiǎn)化并加速 了Web挖掘處理。

(1)語(yǔ)義信息集成。由于數(shù)據(jù)層的數(shù)據(jù)來(lái)自于不同的媒介,因而在結(jié)構(gòu)和語(yǔ)義上都存在很多的不同,需要對(duì)其進(jìn)行統(tǒng)一處理,并根據(jù)需要利用智能信息處理技術(shù)進(jìn)行深入的預(yù)分析,從而提高挖掘引擎的效能和健壯性。

(2)Web挖掘引擎。Web挖掘引擎是網(wǎng)絡(luò)輿情分析的動(dòng)力部分,執(zhí)行Web挖掘任務(wù)。它定義了Web挖掘模型語(yǔ)言,選取了合適的挖掘算法和工具。其主要目的是從大量的網(wǎng)絡(luò)輿情信息中提取規(guī)律,并預(yù)測(cè)事件的發(fā)展趨勢(shì)??筛鶕?jù)網(wǎng)絡(luò)輿情信息源的特點(diǎn),從多個(gè)方面更加深入的進(jìn)行挖掘處理。

2.3分析層。分析層是核心部分,其主要技術(shù)應(yīng)用于對(duì)網(wǎng)絡(luò)輿情信息的智能分析,該分析從六個(gè)層面進(jìn)行,分別是:主體類(lèi)聚分析、語(yǔ)義關(guān)聯(lián)分析、概念描述、趨勢(shì)預(yù)測(cè)分析、主題識(shí)別探測(cè)和傾向性分析。其功能主要是將經(jīng)過(guò)挖掘處理后的知識(shí)進(jìn)行描述,并生成網(wǎng)絡(luò)輿情分析報(bào)告來(lái)輔助決策機(jī)構(gòu)。

2.4應(yīng)用層。應(yīng)用層的出現(xiàn)首先方便了與用戶(hù)之間的交互。用戶(hù)可以通過(guò)軟件來(lái)指導(dǎo)網(wǎng)絡(luò)輿情信息的采集、挖掘和分析處理,從而發(fā)現(xiàn)隱藏的規(guī)律和發(fā)展趨勢(shì),同時(shí)也更易于輿情信息的理解和分析結(jié)果的應(yīng)用。其次,為后續(xù)工作提供接口。由于計(jì)算機(jī)不能對(duì)隨機(jī)出現(xiàn)的各種警情進(jìn)行判斷,因此需要提供系統(tǒng)交互接口,可以讓專(zhuān)家進(jìn)行分析,實(shí)現(xiàn)人機(jī)互動(dòng),從而提高輿情分析的準(zhǔn)確性。

3 基于Web挖掘的網(wǎng)絡(luò)輿情分析系統(tǒng)實(shí)例分析

本文以方正智思輿情預(yù)警輔助決策支持系統(tǒng)為例,討論Web挖掘技術(shù)在網(wǎng)絡(luò)輿情分析中的應(yīng)用。正智思輿情預(yù)警輔助決策支持系統(tǒng)是一款由北大方正技術(shù)研究院研發(fā)而成的中文智能信息挖掘與處理的平臺(tái)軟件。其核心技術(shù)為中文信息處理技術(shù)與Web挖掘技術(shù),采用B/S結(jié)構(gòu),利用J2EE技術(shù)框架,實(shí)現(xiàn)基于瀏覽器的瘦客戶(hù)、服務(wù)器模式。它不僅能對(duì)輿情信息進(jìn)行全方位采集,還能對(duì)輿情信息進(jìn)行智能分析處理。其實(shí)時(shí)響應(yīng)、智能分析、輔助傾向性判斷等特點(diǎn)為相關(guān)職能部門(mén)全面掌握網(wǎng)絡(luò)輿論動(dòng)態(tài),作出正確引導(dǎo),提供分析依據(jù),從而提高各級(jí)政府應(yīng)對(duì)突發(fā)事件的能力。

4 結(jié)語(yǔ)

Web挖掘是一種綜合使用自然語(yǔ)言處理、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等技術(shù)的智能分析方法。實(shí)踐表明,將Web挖掘融入網(wǎng)絡(luò)輿情分析中,可以充分發(fā)揮Web挖掘技術(shù)從海量信息中發(fā)現(xiàn)隱藏的規(guī)律,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情信息全方面深入的分析,從而輔助相關(guān)職能部門(mén)正確引導(dǎo)民意。在網(wǎng)絡(luò)輿情中應(yīng)用Web挖掘技術(shù),可以有效地提高網(wǎng)絡(luò)輿情分析結(jié)果的正確性,也是其未來(lái)的發(fā)展方向。

參考文獻(xiàn):

[1]付業(yè)勤,鄭向敏. 國(guó)內(nèi)外網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 編輯之友,2013,12:56-58.

篇8

中圖分類(lèi)號(hào):TP311.13

隨著因特網(wǎng)的發(fā)展,數(shù)據(jù)信息來(lái)源種類(lèi)逐漸增多,相應(yīng)的信息復(fù)雜性也在增加,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和處理方式已經(jīng)不能很好的滿(mǎn)足實(shí)際使用與研究的需求,XML作為一種半結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),已經(jīng)開(kāi)始被越來(lái)越廣泛的應(yīng)用,而對(duì)于此類(lèi)結(jié)構(gòu)化數(shù)據(jù)的挖掘也為我們的日常研究提供了一個(gè)方向。

對(duì)于半結(jié)構(gòu)化數(shù)據(jù)源的挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)類(lèi)型工整,數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),為完全的結(jié)構(gòu)化數(shù)據(jù),因此對(duì)于此類(lèi)數(shù)據(jù)處理較為簡(jiǎn)單,只需要按照其規(guī)律進(jìn)行分析即可。而對(duì)于半結(jié)構(gòu)化的數(shù)據(jù)則因其表現(xiàn)形式的多樣性,所以對(duì)其挖掘要比對(duì)于單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜。

1半結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)有兩種,一種是指該數(shù)據(jù)在物理層面上缺少結(jié)構(gòu),另外一種是指該數(shù)據(jù)在邏輯層上缺少結(jié)構(gòu)。在現(xiàn)有的Web環(huán)境中,有一些結(jié)構(gòu)化的數(shù)據(jù),為了用于網(wǎng)頁(yè)頁(yè)面顯示而采用了與HTML語(yǔ)言標(biāo)記符號(hào)嵌套的方式,因此就構(gòu)成了第一種物理上的半結(jié)構(gòu)化數(shù)據(jù)。另外網(wǎng)絡(luò)中有眾多的Web頁(yè)面,頁(yè)面上有著豐富的數(shù)據(jù)內(nèi)容,這些數(shù)據(jù)大多都以HTML文件的方式存在,并沒(méi)有嚴(yán)格的結(jié)構(gòu)和類(lèi)型定義,這樣的數(shù)據(jù)都屬于第二類(lèi)的邏輯層的半結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)絡(luò)頁(yè)面上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)不同,傳統(tǒng)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)都有一定的數(shù)據(jù)模型,每個(gè)特定的數(shù)據(jù)都可以根據(jù)模型來(lái)進(jìn)行描述,而網(wǎng)絡(luò)頁(yè)面上的數(shù)據(jù)很復(fù)雜,并且不能按照特定的模型進(jìn)行描述,每一個(gè)站點(diǎn)的數(shù)據(jù)都遵循其獨(dú)立的設(shè)計(jì)規(guī)則,并且它的數(shù)據(jù)本身具有自我描述的特性和動(dòng)態(tài)的可變性。因此網(wǎng)絡(luò)頁(yè)面上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但是其因?yàn)榫哂凶允鰧哟蔚拇嬖?,因此屬于一種非完全結(jié)構(gòu)化的數(shù)據(jù),也稱(chēng)為半結(jié)構(gòu)化數(shù)據(jù)。

2半結(jié)構(gòu)化數(shù)據(jù)的來(lái)源

(1)在Internet上因?yàn)閷?duì)所存儲(chǔ)的數(shù)據(jù)沒(méi)有嚴(yán)格模式的限制而產(chǎn)生的半機(jī)構(gòu)化數(shù)據(jù),常見(jiàn)的有HTML、XML、SGML等類(lèi)型的文件。

(2)在電子郵件、電子商務(wù)文件、文獻(xiàn)資料等文件中,由于沒(méi)有嚴(yán)格的格式要求,所以存在著大量結(jié)構(gòu)與內(nèi)容不固定的半結(jié)構(gòu)化數(shù)據(jù)。

(3)在包含有異構(gòu)信息源集成的情況下,由于信息源集成范圍廣泛,對(duì)于信息源的存取范圍包括各類(lèi)數(shù)據(jù)庫(kù)、電子圖書(shū)館、知識(shí)庫(kù)和文件系統(tǒng)等,因此也會(huì)產(chǎn)生半結(jié)構(gòu)化數(shù)據(jù)。

3半結(jié)構(gòu)化數(shù)據(jù)的幾個(gè)特點(diǎn)

(1)包含有隱藏的模式信息。雖然說(shuō)半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu),但是由于數(shù)據(jù)和結(jié)構(gòu)混合在一起,所以并沒(méi)有明顯的模式定義。

(2)結(jié)構(gòu)不規(guī)則。半結(jié)構(gòu)化數(shù)據(jù)的一個(gè)數(shù)據(jù)集合可以由不同結(jié)構(gòu)的元素組成,或者在某些情況下使用不同類(lèi)型的數(shù)據(jù)來(lái)表示相同的信息。

(3)類(lèi)型約束不嚴(yán)格。半結(jié)構(gòu)化數(shù)據(jù)由于沒(méi)有預(yù)先確定的表達(dá)模式,并且數(shù)據(jù)在結(jié)構(gòu)上沒(méi)有遵循相同的規(guī)則,因此會(huì)導(dǎo)致其缺乏對(duì)于數(shù)據(jù)的嚴(yán)格約束。

基于以上幾個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型的特點(diǎn)可以看出半結(jié)構(gòu)化數(shù)據(jù)缺乏嚴(yán)格、完整的數(shù)據(jù)結(jié)構(gòu),但是這類(lèi)數(shù)據(jù)并非沒(méi)有結(jié)構(gòu),但是它們的結(jié)構(gòu)可能是隱藏的、并不完整的,并且可能是需要不斷進(jìn)行修改的。

半結(jié)構(gòu)化數(shù)據(jù)的模式與以往的關(guān)系數(shù)據(jù)模式或者面向?qū)ο蟮臄?shù)據(jù)模式最大的區(qū)別在于半結(jié)構(gòu)化數(shù)據(jù)是現(xiàn)有數(shù)據(jù)然后再有模式。不對(duì)數(shù)據(jù)的結(jié)構(gòu)進(jìn)行強(qiáng)制性的約束,只需要描述出數(shù)據(jù)的結(jié)構(gòu)信息,并且它只描述數(shù)據(jù)部分結(jié)構(gòu)的非精確模式,在應(yīng)用中隨著數(shù)據(jù)對(duì)象的不斷更新而動(dòng)態(tài)修改其描述,據(jù)此分析半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)特點(diǎn)和它所產(chǎn)生的原因,半結(jié)構(gòu)化數(shù)據(jù)源的挖掘是能夠?qū)崿F(xiàn)的。

半結(jié)構(gòu)化數(shù)據(jù)源挖掘技術(shù)首先要解決的是數(shù)據(jù)遠(yuǎn)模型及其查詢(xún)與集成的問(wèn)題。要解決網(wǎng)頁(yè)頁(yè)面上的異構(gòu)數(shù)據(jù)的集成與查詢(xún),就必須要有一個(gè)適當(dāng)?shù)哪P蛠?lái)對(duì)這些數(shù)據(jù)進(jìn)行清晰的描述,因此如何創(chuàng)建這個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型就成為了解決問(wèn)題的關(guān)鍵所在。首先我們需要定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型,其次我們還需要一種適用于此模型的半結(jié)構(gòu)化模型挖掘技術(shù)用來(lái)的從現(xiàn)有的數(shù)據(jù)中自動(dòng)挖掘半結(jié)構(gòu)化模型。對(duì)于網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)的挖掘就必須以此半結(jié)構(gòu)化數(shù)據(jù)模型和半結(jié)構(gòu)化數(shù)據(jù)模型挖掘技術(shù)為手段來(lái)建立相應(yīng)的數(shù)據(jù)庫(kù)。

在針對(duì)多數(shù)據(jù)源的數(shù)據(jù)庫(kù)進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)提取、表示和查詢(xún)的處理一般采用包裝的方式來(lái)進(jìn)行。首先把信息源的數(shù)據(jù)通過(guò)包裝轉(zhuǎn)換成為目標(biāo)數(shù)據(jù)庫(kù)所使用的格式和類(lèi)型。同時(shí)處理過(guò)程中負(fù)責(zé)監(jiān)視的部分將自動(dòng)監(jiān)測(cè)信息中的數(shù)據(jù)變化,如果發(fā)現(xiàn)數(shù)據(jù)有變化則將這些變化上報(bào),這些變化經(jīng)過(guò)分析發(fā)現(xiàn)有新的數(shù)據(jù)源連接倉(cāng)庫(kù)系統(tǒng)或者信息源發(fā)生變化時(shí),那么系統(tǒng)就會(huì)把這些有變化的數(shù)據(jù)進(jìn)行過(guò)濾、匯總,并把這些信息源進(jìn)行匯總處理,并將收集到數(shù)據(jù)庫(kù)中。

此系統(tǒng)對(duì)半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理的過(guò)程中所面臨的主要問(wèn)題就是如何將其轉(zhuǎn)化為更易于處理的結(jié)構(gòu)化信息。但是對(duì)這些半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行轉(zhuǎn)換的目標(biāo)是龐大的網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)源,如果依靠人工手段針對(duì)每個(gè)數(shù)據(jù)源編寫(xiě)相應(yīng)的轉(zhuǎn)換方式的話(huà)工作量非常代價(jià)。因此,我們需要一種能夠快速建造并且直至自動(dòng)維護(hù)的轉(zhuǎn)換工具。目前這類(lèi)工具還不是很多,并且使用上并不十分完善。但是,隨著近年來(lái)XML及其應(yīng)用技術(shù)的發(fā)展為處理半結(jié)構(gòu)化數(shù)據(jù)提供了很好的工具和方法。

4XML有如下幾個(gè)特點(diǎn)

(1)XML語(yǔ)法具有嚴(yán)格的標(biāo)記規(guī)定;

(2)XML對(duì)于各元素之間的順序有著嚴(yán)格的先后順序,是按照相應(yīng)的解釋模式來(lái)排列的;

(3)XML中的元素可以包含有多個(gè)屬性值?;谝陨蠋讉€(gè)特點(diǎn),如今XML已經(jīng)成為正式規(guī)范,開(kāi)發(fā)人員已經(jīng)開(kāi)始使用XML格式的標(biāo)記和交換數(shù)據(jù)。XML在網(wǎng)頁(yè)數(shù)據(jù)挖掘中可以用于建立信息源層的數(shù)據(jù)集成,即構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)),也可以用于將信息處理結(jié)果以XML的形勢(shì)發(fā)往數(shù)據(jù)倉(cāng)庫(kù),也可以基于數(shù)據(jù)倉(cāng)庫(kù)將數(shù)據(jù)進(jìn)行挖掘和分析處理,還可以將半結(jié)構(gòu)化數(shù)據(jù)挖掘處理的結(jié)果送往應(yīng)用層。

基于XML的網(wǎng)頁(yè)頁(yè)面信息提取一般包括頁(yè)面捕獲、頁(yè)面預(yù)處理和半結(jié)構(gòu)化數(shù)據(jù)提取等方面。其中頁(yè)面捕獲有多種方法,一種是直接利用OCX控件,根據(jù)提供的入口參數(shù)URL來(lái)獲取頁(yè)面超文本內(nèi)容;另外一種是利用開(kāi)發(fā)工具所提供的支持網(wǎng)頁(yè)文本獲取的功能接口來(lái)獲取。

XML為基于Web的應(yīng)用提供了強(qiáng)大的功能和廣泛的靈活性,它能為開(kāi)發(fā)者帶來(lái)更多的好處,例如Web數(shù)據(jù)可以按照XML的格式進(jìn)行唯一性的表示,因此可以進(jìn)行更有意義的搜索。有了XML之后,搜索軟件可以不必了解每個(gè)數(shù)據(jù)庫(kù)都是如何構(gòu)建的。在使用XML之前由于每個(gè)數(shù)據(jù)庫(kù)描述數(shù)據(jù)的格式幾乎都不相同并且數(shù)據(jù)來(lái)源廣泛,所以針對(duì)不同來(lái)源數(shù)據(jù)進(jìn)行搜索幾乎是不可能的。但是XML語(yǔ)言能夠?qū)⒉煌瑏?lái)源的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)合,相關(guān)應(yīng)用集成上可以使用中間層服務(wù)器對(duì)采集上來(lái)的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,然后將處理后的數(shù)據(jù)發(fā)送到最終用戶(hù)或者其他服務(wù)器做進(jìn)一步的處理。

XML的豐富擴(kuò)展性和靈活性使它能夠描述不同類(lèi)型應(yīng)用中的數(shù)據(jù),并且XML文檔因?yàn)槭菍?duì)象模式,因此它允許使用腳本或者其它程語(yǔ)言進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)計(jì)算不需要返回到服務(wù)器就可以操作。在Web中XML可以被用來(lái)分離使用者瀏覽的數(shù)據(jù)頁(yè)面,可以用簡(jiǎn)單靈活和開(kāi)放的格式為Web創(chuàng)建功能強(qiáng)大的云應(yīng)用,通過(guò)創(chuàng)建高效的云計(jì)算平臺(tái)來(lái)為用戶(hù)服務(wù),而以前此類(lèi)軟件只能依靠高端數(shù)據(jù)庫(kù)來(lái)構(gòu)建。

5結(jié)束語(yǔ)

XML作為一種結(jié)構(gòu)化數(shù)據(jù)的工作也標(biāo)準(zhǔn),為廣大組織、開(kāi)發(fā)者、網(wǎng)站和終端使用者提供了有利的條件,隨著XML作為WEB上進(jìn)行數(shù)據(jù)交換的一種標(biāo)準(zhǔn)方式的逐步發(fā)展,基于XML的半結(jié)構(gòu)化數(shù)據(jù)挖掘?qū)?huì)變得越來(lái)越輕松。

參考文獻(xiàn):

[1]李效東,顧毓清.基于DOM的Web信息提取[J].計(jì)算機(jī)學(xué)報(bào),2002(5):526-533.

篇9

中圖分類(lèi)號(hào): TN711?34; TP393.08 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)12?0059?04

Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.

Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining

0 引 言

隨著電子信息技術(shù)的普及和不斷發(fā)展,大型計(jì)算機(jī)網(wǎng)絡(luò)隨之產(chǎn)生,越來(lái)越多的網(wǎng)民能夠更為便捷地享受各種信息資源,現(xiàn)如今,網(wǎng)絡(luò)已成為人們生活中不可缺少的一部分。大型計(jì)算機(jī)網(wǎng)絡(luò)在為人們提供便利的同時(shí),也造成了一定的困擾,網(wǎng)絡(luò)入侵事件時(shí)有發(fā)生[1]。若想有效維護(hù)大型計(jì)算機(jī)網(wǎng)絡(luò)安全,需要將其中的非正常數(shù)據(jù)準(zhǔn)確、高效地挖掘出來(lái),相關(guān)組織已開(kāi)始著手進(jìn)行大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘技術(shù)的研究工作[2]。

1 非正常數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是指依據(jù)特定任務(wù),將重要的隱含知識(shí)從具有一定干擾存在下的隨機(jī)數(shù)據(jù)集群中提煉出來(lái)[3]。數(shù)據(jù)挖掘技術(shù)是一項(xiàng)交匯科目,經(jīng)其挖掘出來(lái)的數(shù)據(jù)具有一定的輔助決策作用。將這種技術(shù)用于進(jìn)行大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)的挖掘工作中,能夠自動(dòng)控制大量初始數(shù)據(jù),為用戶(hù)提供更多的便利[4]。

所提大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法的挖掘流程如圖1所示。

由圖1可知,所提方法先對(duì)大型計(jì)算機(jī)網(wǎng)絡(luò)中的初始數(shù)據(jù)集群進(jìn)行統(tǒng)一處理,處理過(guò)程包括數(shù)據(jù)洗滌和格式變換。數(shù)據(jù)洗滌的目的是將初始數(shù)據(jù)集群中的噪音、重疊參數(shù)和缺失重要特征的數(shù)據(jù)除去,再經(jīng)由格式變換,使洗滌后的數(shù)據(jù)集群特征更加明顯,提高對(duì)非正常數(shù)據(jù)的挖掘準(zhǔn)確性。

當(dāng)數(shù)據(jù)處理完畢,所提方法隨即開(kāi)始進(jìn)行模式挖掘。所謂模式挖掘,是指通過(guò)對(duì)比分析方式獲取大型計(jì)算機(jī)網(wǎng)絡(luò)中數(shù)據(jù)之間共有特征的過(guò)程,所獲取到的共有特征即為數(shù)據(jù)挖掘技術(shù)中的“知識(shí)”[5]。

將模式挖掘定義成向的映射,和均是大型計(jì)算機(jī)網(wǎng)絡(luò)中初始數(shù)據(jù)集群的一部分,并且,。在中隨機(jī)定義一個(gè)數(shù)據(jù)集群,此時(shí)可以將和在中出現(xiàn)的幾率設(shè)為向映射的知識(shí),用表示,則有:

設(shè)置和的取值范圍可使所提大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常稻萃誥蚍椒具有收斂性。若無(wú)特殊規(guī)定,可將二者的取值范圍均設(shè)置在0~100%之間。如果用戶(hù)需要對(duì)某一特定的非正常數(shù)據(jù)進(jìn)行精準(zhǔn)挖掘,也可隨時(shí)變更取值范圍。

取值范圍設(shè)定成功后,本文將式(1)和式(2)中的重疊部分輸出,用來(lái)表示大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)的挖掘結(jié)果。

2 非正常數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)

2.1 系統(tǒng)總體設(shè)計(jì)

現(xiàn)使用所提大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法設(shè)計(jì)數(shù)據(jù)挖掘系統(tǒng),以實(shí)現(xiàn)對(duì)大型計(jì)算機(jī)網(wǎng)絡(luò)安全的有效維護(hù)。

所設(shè)計(jì)的系統(tǒng)由數(shù)據(jù)挖掘器、分析模塊和數(shù)據(jù)庫(kù)組成,如圖2所示。數(shù)據(jù)挖掘器被安放在大型計(jì)算機(jī)網(wǎng)絡(luò)的特定節(jié)點(diǎn)上,用來(lái)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)工作的非正常情況,并進(jìn)行數(shù)據(jù)處理。分析模塊負(fù)責(zé)對(duì)數(shù)據(jù)挖掘器處理過(guò)的數(shù)據(jù)進(jìn)行分析,進(jìn)而挖掘出大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)。數(shù)據(jù)庫(kù)為數(shù)據(jù)挖掘器和分析模塊提供數(shù)據(jù)的處理和挖掘方案。

2.2 系統(tǒng)具體設(shè)計(jì)

在所設(shè)計(jì)的大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘系統(tǒng)中,數(shù)據(jù)挖掘器可看作是大型計(jì)算機(jī)網(wǎng)絡(luò)初始數(shù)據(jù)集群的接收端,用于獲取數(shù)據(jù)挖掘技術(shù)中的“知識(shí)”,其工作流程如圖3所示。

由圖3可知,在數(shù)據(jù)挖掘器開(kāi)始工作前,數(shù)據(jù)庫(kù)會(huì)事先根據(jù)大型計(jì)算機(jī)網(wǎng)絡(luò)初始數(shù)據(jù)集群的特征制定數(shù)據(jù)挖掘器的具體挖掘方案,并對(duì)其實(shí)施驅(qū)動(dòng)。數(shù)據(jù)挖掘器根據(jù)挖掘方案對(duì)數(shù)據(jù)進(jìn)行洗滌和格式轉(zhuǎn)換等處理。處理結(jié)果將被存儲(chǔ)。

值得一提的是,數(shù)據(jù)挖掘器具有自檢功能,如果處理結(jié)果不符合用戶(hù)所設(shè)定的置信度,那么該結(jié)果將會(huì)被保留到數(shù)據(jù)挖掘器的緩存器中。一旦緩存器中有新鮮數(shù)據(jù)進(jìn)入,數(shù)據(jù)庫(kù)便會(huì)重新驅(qū)動(dòng)數(shù)據(jù)挖掘器,直至處理結(jié)果成功通過(guò)自檢。隨后,所設(shè)計(jì)大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘系統(tǒng)的分析模塊將對(duì)數(shù)據(jù)挖掘器的處理結(jié)果進(jìn)行分析。為了增強(qiáng)系統(tǒng)的可擴(kuò)展性,應(yīng)充分利用系統(tǒng)計(jì)算節(jié)點(diǎn)的性能,并縮減節(jié)點(diǎn)失效率,為此,給分析模塊設(shè)計(jì)出一種“二次激活”方式[6],以延長(zhǎng)系統(tǒng)計(jì)算節(jié)點(diǎn)的使用壽命,如圖4所示。二次激活是指當(dāng)系統(tǒng)計(jì)算節(jié)點(diǎn)出現(xiàn)疲勞狀態(tài)時(shí),分析模塊將自動(dòng)放出替補(bǔ)節(jié)點(diǎn),使疲勞節(jié)點(diǎn)擁有足夠的時(shí)間去休整。休整后的計(jì)算節(jié)點(diǎn)將替換下替補(bǔ)節(jié)點(diǎn),繼續(xù)進(jìn)行數(shù)據(jù)挖掘工作。

在分析模塊中,每個(gè)計(jì)算節(jié)點(diǎn)均有多個(gè)替補(bǔ)節(jié)點(diǎn),如果節(jié)點(diǎn)即將失效并且未能尋找到下一個(gè)合適的計(jì)算節(jié)點(diǎn),將采取替補(bǔ)節(jié)點(diǎn)與性能相似節(jié)點(diǎn)同時(shí)工作的分析方式,以保證所設(shè)計(jì)大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘系統(tǒng)的可擴(kuò)展性,并使挖掘結(jié)果更加準(zhǔn)確。

3 實(shí)驗(yàn)驗(yàn)證

3.1 方法收斂性驗(yàn)證

在大型計(jì)算機(jī)網(wǎng)絡(luò)中,只有具有較好收斂性的非正常數(shù)據(jù)挖掘方法才能有效保證挖掘結(jié)果的準(zhǔn)確性。為了驗(yàn)證本文所提方法收斂性的優(yōu)劣,需要進(jìn)行一次實(shí)驗(yàn)。本次實(shí)驗(yàn)在某大型計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)室中進(jìn)行。用于進(jìn)行數(shù)據(jù)挖掘的主機(jī)配置為:3 GB內(nèi)存、四核i7處理器、500 GB硬盤(pán)。實(shí)驗(yàn)中,于主機(jī)寫(xiě)入本文方法,并向大型計(jì)算機(jī)網(wǎng)絡(luò)中加入兩種類(lèi)型的大數(shù)據(jù)集群,兩集群中的數(shù)據(jù)節(jié)點(diǎn)[7?8]分別為4萬(wàn)個(gè)和80萬(wàn)個(gè)。當(dāng)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)不出現(xiàn)波動(dòng)時(shí),表示本文方法已進(jìn)入收斂狀態(tài),此時(shí)主機(jī)便不會(huì)再向下一節(jié)點(diǎn)傳遞數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如圖5所示。

從圖5可明確看出,本文方法具有收斂性,并且大數(shù)據(jù)集群中的數(shù)據(jù)節(jié)點(diǎn)越多,方法的收斂時(shí)間就越短。在兩種大數(shù)據(jù)集群中,本文方法的收斂時(shí)間分別為1.2 s和4.3 s。據(jù)統(tǒng)計(jì),其他方法的收斂時(shí)間大多在10.8 s左右,這顯示出本文方法具有較好的收斂性。

3.2 系統(tǒng)可擴(kuò)展性驗(yàn)證

為了驗(yàn)證經(jīng)本文方法設(shè)計(jì)出的數(shù)據(jù)挖掘系統(tǒng)是否能夠合理應(yīng)對(duì)大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)的更新,需要對(duì)本文系統(tǒng)的可擴(kuò)展性進(jìn)行驗(yàn)證。實(shí)驗(yàn)選出的對(duì)比系統(tǒng)有基于Hadoop的數(shù)據(jù)挖掘系統(tǒng)和基于并行圖算法的數(shù)據(jù)挖掘系統(tǒng)。

在第3.1節(jié)實(shí)驗(yàn)的基礎(chǔ)上,只保留大數(shù)據(jù)集群2,并分別以橫向和縱向方式向集群的數(shù)據(jù)節(jié)點(diǎn)中隨機(jī)寫(xiě)入30 000個(gè)非正常數(shù)據(jù)。使用三種系統(tǒng)對(duì)大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)進(jìn)行挖掘,所得實(shí)驗(yàn)結(jié)果如圖6~圖8所示。

由圖6~圖8可知,三個(gè)系統(tǒng)在縱向?qū)懭胂碌目蓴U(kuò)展性均低于橫向?qū)懭?。與其他兩個(gè)系統(tǒng)相比,本文系統(tǒng)參與進(jìn)行非正常數(shù)據(jù)挖掘的節(jié)點(diǎn)數(shù)量更多,并且節(jié)點(diǎn)失效率最少,證明使用本文方法設(shè)計(jì)出的數(shù)據(jù)挖掘系統(tǒng)具有較強(qiáng)的可擴(kuò)展性。

4 結(jié) 論

本文提出一種新型的大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法,并使用該方法設(shè)計(jì)數(shù)據(jù)挖掘系統(tǒng)。數(shù)據(jù)挖掘技術(shù)是指依據(jù)特定任務(wù),將重要的隱含知識(shí)從具有一定干擾存在下的隨機(jī)數(shù)據(jù)集群中挖掘出來(lái)。將數(shù)據(jù)挖掘技術(shù)用于進(jìn)行大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘工作中,能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行自動(dòng)控制,為用戶(hù)提供更多便利。實(shí)驗(yàn)結(jié)果表明,本文方法具有較好的收斂性,使用本文方法設(shè)計(jì)出的數(shù)據(jù)挖掘系統(tǒng)也具有較強(qiáng)的可擴(kuò)展性,可將大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)準(zhǔn)確、高效地挖掘出來(lái)。

參考文獻(xiàn)

[1] 吳嘉瑞,唐仕歡,郭位先,等.基于稻萃誥虻拿老中醫(yī)經(jīng)驗(yàn)傳承研究述評(píng)[J].中國(guó)中藥雜志,2014,39(4):614?617.

[2] 李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目模型研究[J].圖書(shū)館論壇,2014,34(2):78?83.

[3] 丁騁騁,邱瑾.性別與信用:非法集資主角的微觀(guān)個(gè)體特征―基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的分析[J].財(cái)貿(mào)經(jīng)濟(jì),2016,37(3):78?94.

[4] 楊丹丹.搜索引擎及網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù)研究[J].數(shù)字化用戶(hù),2014,20(11):126.

[5] 王元卓,賈巖濤,劉大偉,等.基于開(kāi)放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):456?474.

篇10

中圖分類(lèi)號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):16727800(2017)004018503

0引言

充分利用企I信息系統(tǒng)集成中所產(chǎn)生的生產(chǎn)業(yè)務(wù)信息數(shù)據(jù)成為企業(yè)的關(guān)鍵技術(shù),數(shù)據(jù)挖掘技術(shù)則是企業(yè)系統(tǒng)中使用的技術(shù)之一。數(shù)據(jù)挖掘指對(duì)數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)進(jìn)行過(guò)程復(fù)雜的數(shù)據(jù)分析,從而獲得其中隱含信息的過(guò)程。根據(jù)用戶(hù)需求,選擇比較切合的數(shù)據(jù)挖掘算法,成為挖掘技術(shù)成功的關(guān)鍵。通過(guò)研究各種數(shù)據(jù)挖掘算法,筆者在眾多算法中選擇了K均值算法作為本文數(shù)據(jù)挖掘的基礎(chǔ)算法。

1K均值算法概述

1.1K均值算法概念

聚類(lèi)問(wèn)題是將給定的數(shù)據(jù)集合D劃分成一組聚類(lèi):{C1,C2,…},Ci∈D,使不同種類(lèi)中的數(shù)據(jù)盡可能不相似(或距離較遠(yuǎn)),同一種類(lèi)中的數(shù)據(jù)盡可能相似(或距離較近)。聚類(lèi)是一種無(wú)監(jiān)督的學(xué)習(xí),所謂無(wú)監(jiān)督學(xué)習(xí)指事先并不知道要找的內(nèi)容,即沒(méi)有目標(biāo)變量,它將相似的對(duì)象歸到同一個(gè)簇中[13]。K均值(Kmeans)算法在聚類(lèi)算法中使用最為廣泛。首先根據(jù)分類(lèi)的個(gè)數(shù)k,隨機(jī)地選取k個(gè)初始的聚類(lèi)中心,當(dāng)然這個(gè)k值是難以確定的,并把每個(gè)對(duì)象分配給離它最近的中心,分別得到起始的聚類(lèi)點(diǎn)。然后,將當(dāng)前每個(gè)聚類(lèi)的中心作為新的聚類(lèi)中心,并把每個(gè)對(duì)象重新分配到最近的中心。不斷地循環(huán)迭代,直到目標(biāo)函數(shù)的最小值,即最終的聚類(lèi)中心點(diǎn)沒(méi)有移動(dòng)。其中,目標(biāo)函數(shù)通常采用平方誤差準(zhǔn)則,即:其中,E表示所有聚類(lèi)對(duì)象的平方誤差和,S是聚類(lèi)對(duì)象,Mi是類(lèi)Ci的各聚類(lèi)對(duì)象的平均值,即:

其中,|Ci|表示類(lèi)Ci的聚類(lèi)對(duì)象數(shù)目。每一次迭代時(shí),每一個(gè)點(diǎn)都要計(jì)算一遍它和各聚類(lèi)中心的距離,并取最短距離的類(lèi)作為該點(diǎn)所屬的類(lèi)。直到E獲取最小值,最終表現(xiàn)為最后的聚類(lèi)中心無(wú)法移動(dòng)。一般k的典型取值為2~10。

1.2K均值算法計(jì)算模型

假設(shè)在一片小區(qū)域中有若干數(shù)據(jù)點(diǎn),如圖1所示。先假設(shè)k=2,即最終這些數(shù)據(jù)點(diǎn)會(huì)聚類(lèi)成兩個(gè)類(lèi)。K均值算法具體解釋如下: (1)由于k=2,任意的兩個(gè)數(shù)據(jù)點(diǎn)被選作初始類(lèi)的聚類(lèi)中心(圖中用點(diǎn)F、G表示),如圖1(a)所示。 (2)將其余的各個(gè)點(diǎn)分配到距離最近的聚類(lèi)中心點(diǎn)(本例中為F點(diǎn)、G點(diǎn))所代表的類(lèi)中,即求圖中所有點(diǎn)到各個(gè)聚類(lèi)中心的距離。如果Si距離Ci近, 則Si屬于Ci聚類(lèi)。如圖1(b)所示,A、B點(diǎn)與F點(diǎn)的距離相對(duì)G點(diǎn)更近,所以屬于F點(diǎn)聚類(lèi),C、D、E點(diǎn)與G點(diǎn)相對(duì)F點(diǎn)距離更近,所以屬于G點(diǎn)聚類(lèi)。 (3)將聚類(lèi)中心點(diǎn)F點(diǎn)、G點(diǎn)移動(dòng)到“自己”的聚類(lèi)中心,如圖1(c)、圖1(d)所示。 (4)重復(fù)步驟(2)、(3),直到每個(gè)類(lèi)中的聚類(lèi)對(duì)象(如圖1(e)中的點(diǎn))不再重新分布為止,第一個(gè)點(diǎn)聚合了A、B、C,第二個(gè)點(diǎn)聚合了D、E,此時(shí)重復(fù)循環(huán)的迭代過(guò)程結(jié)束。

2.1系統(tǒng)概述

通過(guò)對(duì)K均值算法的介紹及其算法處理模型,筆者結(jié)合某制造型企業(yè)的信息化系統(tǒng)平臺(tái)用戶(hù)實(shí)際需求建立數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上使用數(shù)據(jù)挖掘中的K均值算法對(duì)大量數(shù)據(jù)進(jìn)行潛在信息的挖掘,并開(kāi)發(fā)出基于K均值算法的挖掘器,輔助決策者進(jìn)行決策。假如數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)于產(chǎn)品信息生成了k個(gè)聚類(lèi)中心,即k個(gè)中心點(diǎn)point,將其余的各個(gè)點(diǎn)分配到距離最近的聚類(lèi)中心點(diǎn)所代表的類(lèi)中,距離為distance,并獲取距聚類(lèi)中心距離最小的距離min2,將該元素歸類(lèi)于距離聚類(lèi)中心點(diǎn)最近的那個(gè)聚類(lèi)中,核心代碼如下:

private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //將聚類(lèi)中心點(diǎn)移動(dòng)到自己的聚類(lèi)中心,求兩點(diǎn)誤差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求兩點(diǎn)誤差平方”的方法,計(jì)算誤差平方和準(zhǔn)則 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //設(shè)置新的聚類(lèi)中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //對(duì)第2、3步進(jìn)行重復(fù)迭代,直至得到算法最終結(jié)果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }

2.2零部件市場(chǎng)需求分析

在銷(xiāo)售系統(tǒng)“零部件市場(chǎng)需求分析”模塊,主要針對(duì)銷(xiāo)售信息以及產(chǎn)品信息所建立的數(shù)據(jù)倉(cāng)庫(kù)中的信息進(jìn)行數(shù)據(jù)挖掘。合同中記載了所銷(xiāo)售的產(chǎn)品圖號(hào)、數(shù)量、客戶(hù)相關(guān)信息等,同時(shí)根據(jù)產(chǎn)品圖號(hào)可以得到產(chǎn)品BOM信息。 產(chǎn)品BOM信息即該產(chǎn)品的設(shè)計(jì)信息,包括零件信息、物料進(jìn)貨方式及加工作業(yè)方式、工藝信息、圖紙信息、層次碼、總數(shù)量等。其中零件信息主要有:零件圖號(hào)、零件名稱(chēng)、材料、牌號(hào)、外形尺寸等;物料進(jìn)貨方式及加工作業(yè)方式主要包括:物料類(lèi)別(如:配套件、緊固件)、物料進(jìn)場(chǎng)狀態(tài)(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工內(nèi)容(如:金工、電工);工藝信息即零部件加工的工藝信息;圖紙信息包括圖紙幅面等;層次碼主要用來(lái)標(biāo)注該零部件在產(chǎn)品中的所處位置;總數(shù)量即表明該零部件在產(chǎn)品中該層次碼下的個(gè)數(shù)。 相同產(chǎn)品可能會(huì)有處于不同層次的相同零部件,不同產(chǎn)品可能會(huì)有相同零部件。因此,在所建立的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上,使用數(shù)據(jù)挖掘技術(shù)挖掘出查詢(xún)條件,從銷(xiāo)售的產(chǎn)品中具體細(xì)化到銷(xiāo)售需求較多的零部件,從而在企業(yè)決策時(shí)察覺(jué)出該情況。通過(guò)針對(duì)性地制定預(yù)投生產(chǎn)計(jì)劃、增加庫(kù)存,能夠幫助企業(yè)提高生產(chǎn)效率,對(duì)于市場(chǎng)快速反應(yīng),以提高市場(chǎng)占有率。 對(duì)于該部分功能,首先可以進(jìn)行條件查詢(xún)。查詢(xún)屬性有:產(chǎn)品圖號(hào)、產(chǎn)品型號(hào)、代號(hào)、名稱(chēng)、規(guī)格尺寸、長(zhǎng)度寬度、材料、牌號(hào)、年份和客戶(hù)編號(hào)。 從查詢(xún)屬性看,這是多種搜索條件的組合;從數(shù)據(jù)挖掘角度看,這是在K-均值聚類(lèi)算法設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上開(kāi)發(fā)出來(lái)的一個(gè)數(shù)據(jù)挖掘工具。此項(xiàng)功能設(shè)計(jì)時(shí)是從月份出發(fā),將每年的銷(xiāo)量按照月份呈現(xiàn),因此“年份”是必選項(xiàng),其余條件用戶(hù)可以自由組合。例如:選擇“2012年”,查詢(xún)結(jié)果如圖2所示。

該圖表示在2012年的銷(xiāo)售產(chǎn)品里對(duì)零部件數(shù)量進(jìn)行匯總的結(jié)果。通過(guò)該數(shù)據(jù)挖掘器,提出了銷(xiāo)量最領(lǐng)先的4個(gè)零部件。曲線(xiàn)代表其在各月的銷(xiāo)售總數(shù)及市場(chǎng)需求總數(shù),單位以“百”計(jì)。每條曲線(xiàn)代表的零部件圖號(hào)在圖右側(cè)進(jìn)行了說(shuō)明。該表示方法直觀(guān)、清晰,可以給決策者提供明確的零部件市場(chǎng)需求變化曲線(xiàn)圖。通過(guò)聚類(lèi)結(jié)果可知,“零件圖號(hào)”為“8UE.016.0211”的零件,從八月開(kāi)始銷(xiāo)量減少,并且其它3種零件在六月開(kāi)始需求量變大,從而可使決策者在來(lái)年制定更合理的方案,以提高企業(yè)競(jìng)爭(zhēng)力。

2.3廢料統(tǒng)計(jì)情況分析

廢料統(tǒng)計(jì)情況分析主要是針對(duì)生產(chǎn)中由于工人誤操作、材料劣質(zhì)、機(jī)器故障等各種原因造成所領(lǐng)物料報(bào)廢,需要重新領(lǐng)料進(jìn)行加工的情況進(jìn)行統(tǒng)計(jì)分析。 物料是一個(gè)統(tǒng)稱(chēng),它包括可以直接領(lǐng)的成品、需要再加工的半成品,以及需要加工的原材料。因此,對(duì)于物料有一個(gè)物料編碼,專(zhuān)門(mén)對(duì)所有可領(lǐng)的成品、半成品、原材料進(jìn)行唯一標(biāo)示。物料編碼根據(jù)零件圖號(hào)、零件名稱(chēng)、材料、牌號(hào)、外形尺寸、物料進(jìn)場(chǎng)狀態(tài)、物料類(lèi)別、加工方式8個(gè)字段進(jìn)行唯一性區(qū)分。根據(jù)編碼方式,產(chǎn)生唯一的物料碼,例如“A00B021”。該企業(yè)的物料有“定額”和“非定額”兩種情況?!岸~”即可以用個(gè)數(shù)來(lái)統(tǒng)計(jì)的零部件物料;“非定額”指無(wú)法用個(gè)數(shù)來(lái)統(tǒng)計(jì)的物料,如:5米長(zhǎng)的銅線(xiàn)等。具體而言,本文主要研究針對(duì)某個(gè)工作令從生產(chǎn)開(kāi)始到生產(chǎn)結(jié)束,所有定額物料的生產(chǎn)料廢情況。在工作令系統(tǒng)和領(lǐng)料單系統(tǒng)的基礎(chǔ)數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)。工作令系統(tǒng)的數(shù)據(jù)庫(kù)中存有工作令號(hào)、起始生產(chǎn)日期、結(jié)束生產(chǎn)日期及其它工作令的基本信息。領(lǐng)料單系統(tǒng)數(shù)據(jù)庫(kù)中的廢料表中存有料廢的物料編碼、材料、數(shù)量等信息。查詢(xún)屬性有:工作令號(hào)、合同號(hào)、起始時(shí)間和終止時(shí)間。 填入工作令號(hào)“2B7-1D044205”,點(diǎn)擊“查詢(xún)”按鈕,會(huì)通過(guò)數(shù)據(jù)挖掘方法統(tǒng)計(jì)該工作令下的所有零件材料料廢情況,如表1所示。

表1清晰表明了該工作令號(hào)“2B7-1D044205”中各個(gè)物料損失的比重。從表中可以看出,以廢料“A03B004”、

“D03E334”和“E17B231”為聚類(lèi)中心的廢料占多數(shù),從而可以使企業(yè)決策者從這些材料損失中發(fā)現(xiàn)問(wèn)題,分析物料損耗原因,如:采購(gòu)質(zhì)量問(wèn)題、工人操作失誤,還是其它可避免的各類(lèi)原因。因此,該基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)掘挖掘器,有利于輔助企業(yè)決策者從實(shí)際生產(chǎn)中找出各類(lèi)潛在問(wèn)題,從而制定合理的政策,降低生產(chǎn)損失,提高企業(yè)競(jìng)爭(zhēng)力。

3結(jié)語(yǔ)

本文采用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)庫(kù)中積累的大量數(shù)據(jù)進(jìn)行了分析處理,系統(tǒng)雖然實(shí)現(xiàn)了將基于K均值算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用于信息化系統(tǒng)集成平臺(tái)中,但也只是實(shí)現(xiàn)了部分輔助決策功能。根據(jù)企業(yè)的具體使用情況,決策者肯定不會(huì)滿(mǎn)足于系統(tǒng)中已經(jīng)提供的決策支持功能,如何更近一步地發(fā)揮系統(tǒng)集成能力,開(kāi)發(fā)更多決策支持功能,提高數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)速度,以滿(mǎn)足企業(yè)決策者更多需求,是下一階段研究的主要方向。

參考文獻(xiàn):

[1]王欣,徐騰飛,唐連章,等.SQL Server2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京:中國(guó)水利水電出版社,2008:15.

[2]李銳,,曲亞?wèn)|,等.機(jī)器學(xué)習(xí)實(shí)踐[M].北京:人民郵電出社,2013:184199.

[3]彭木根.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002:321.

[4]陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].第2版.北京:清華大學(xué)出版社,2011:190.

[5]孫水華,趙釗林,劉建華.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:清華大學(xué)出版社,2012:122.