時間:2022-02-07 02:08:09
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據挖掘總結,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
中圖分類號:TN 文獻標識碼:A 文章編號:1009-914X(2015)23-0208-01
一 概述
客戶決定企業(yè)命運。企業(yè)關注重點從產品逐步轉換到客戶,逐漸形成客戶為中心的客戶關系管理理念??蛻絷P系管理是信息技術和商業(yè)發(fā)展過程中得出的理論體系,客戶管理需要客戶的支持??蛻絷P系管理是企業(yè)利用信息技術和企業(yè)生產銷售相結的產物。客戶關系管理核心價值就是實現客戶價值??蛻絷P系管理利用計算機技術,實現市場信息化、銷售自動化過程、對客戶分析的全過程??蛻絷P系管理可以使企業(yè)及時了解客戶實際情況,增強客戶對企業(yè)歸屬感和信任感。它是一種全新的管理客戶模式。數據挖掘在客戶關系管理研究與實踐,大大促進客戶價值實現。數據挖掘對客戶挖掘結果會給企業(yè)帶來指導意見,決定企業(yè)未來發(fā)展方向。
聯(lián)通的客戶關系管理系統(tǒng)是基于客戶戰(zhàn)略的,它為企業(yè)傳遞的是一種新的客戶服務理念,是聯(lián)通客戶需求的風向標,它直接影響聯(lián)通如何認識客戶以及如何對待客戶, 也直接影響聯(lián)通公司的客戶服務形象。通過數據挖掘系統(tǒng)與客戶管理系統(tǒng)的結合,可以有效的實現對客戶消費模式和客戶市場推廣的分析,實現對客戶的動態(tài)防欺詐、流失分析及競爭對手分析。正確有效的運用數據挖掘意義重大。
二 數據挖掘的步驟
1.理解數據和數據的來源,進行數據收集
大量全面豐富的數據是數據挖掘的前提,沒有數據,數據挖掘也就無從做起。數據挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數據挖掘的過程中,有80%的時間和精力是花費在數據預處理階段,其中包括數據的凈化、數據格式轉換、變量整合,以及數據表的鏈接。可見,在進行數據挖掘技術的分析之前,還有許多準備工作要完成。數據收集是數據挖掘的首要步驟。
2.整合與檢查數據
收集到的數據必須是有用的,避免可能存在自身的不一致性,或者有缺失數據的存在等,因此數據的整理是必須的。同時,通過數據整理,可以對數據做簡單的泛化處理,從而在原始數據的基礎上得到更為豐富的數據信息,進而便于下一步數據挖掘的順利進行。
3.利建立模型和假設
主要采用時序算法、聚類算法、關聯(lián)算法等,根據采集數據建立模型。
4.模型評估
模型建立完畢后,需要驗證模型的正確性,并進行調整。應該利用未參與建模的數據對模型進行檢驗。這樣做的原因是按照使用建模的數據進行檢驗,由于模型就是按照這些數據建立的,檢驗結果自然會很好。但是一旦運用到實際數據中,就會產生很大的偏差。檢驗的方法是對已知客戶狀態(tài)的數據利用模型進行預測,并將所得到的模型預測值,和實際的客戶狀態(tài)相比較,預測正確值最多的模型就是最優(yōu)模型。不斷重復進行數據挖掘一評估過程,多次的循環(huán)反復,以達到預期的效果。
5.決策分析
數據挖掘的最終目的是輔助決策。決策者可以根據數據挖掘的結果,結合實際情況,調整競爭策略等。
三.數據挖掘在聯(lián)通客戶管理業(yè)務中的作用
1 數據總結
數據總結目的是對大量的數據進行濃縮,將數據庫中的有關數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。是數據挖掘的基本作用。用統(tǒng)計學中的方法計算出數據庫的各個數據項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量,或者通過利用統(tǒng)計圖形工具,對數據制作直方圖、餅狀圖等,是最簡單的數據總結方法。另一種廣泛使用的數據總結方法是聯(lián)機分析處理,是對用戶當前及歷史數據進行分析、輔助領導決策,主要通過多維數據的查詢、旋轉、鉆取和切片等關鍵技術對數據進行分析和報表。
2 關聯(lián)分析
數據庫中的數據一般都存在著關聯(lián)關系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。
3 分類
分析數據的各種屬性,一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中,并預測新數據將屬于哪一個組。
4 聚類
聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。
四.數據挖掘技術在聯(lián)通客戶管理管理方面的應用
1.客戶市場推廣分析
通過優(yōu)惠策略預測仿真的方法,利用數據挖掘技術實現優(yōu)惠策略的仿真。根據數據挖掘模型,進行模擬計費和模擬出賬,其仿真結果可以揭示優(yōu)惠策略中存在的問題,并進行相應的調整優(yōu)化,以達到優(yōu)惠促銷活動的收益最大化。
2.客戶消費模式分析
客戶分類是客戶數據分析基礎,數據挖據對客戶分類使用聚類和分類。通過分類可以發(fā)現不同客戶群體的習慣和規(guī)律,找到客戶價值點,準確預測客戶消費方向??蛻舴诸愖屖袌鰻I銷活動更有目的性,提高市場營銷效率,企業(yè)合理配置企業(yè)資源??蛻舴诸惤Y果實現客戶利益最大化。如固話及移動話費行為分析,是對客戶歷年來長話、市話、信息臺的大量詳單數據以及客戶檔案資料等相關數據進行關聯(lián)分析,增值業(yè)務話費分析,結合客戶的分類,可以從消費能力、消費習慣、消費周期等諸方面對客戶的話費行為進行分析和預測,從而為聯(lián)通全業(yè)務運營商的相關經營決策提供依據。
3.客戶流失分析
這是根據已有的客戶流失數據,建立客戶屬性、服務屬性、客戶消費情況等數據與客戶流失概率相關聯(lián)的數學模型,找出這些數據之間的關系,給出明確的數學公式,并根據此模型來監(jiān)控客戶流失的可能性。如果客戶流失的可能性過高,可通過促銷等手段來提高客戶忠誠
度,防止客戶流失的發(fā)生,這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現客戶關懷等狀況。
4.對客戶欠費進行分析和動態(tài)防欺詐
通過數據挖掘,總結現存的各種騙費及其欠費行為的內在規(guī)律,并建立一套防欺詐和防欠費行為的規(guī)則庫,當客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關部門采取措施,從而降低運營商的損失風險。
5.競爭對手分析
一、數據挖掘的基本原理
數據挖掘就是利用數學模型、統(tǒng)計和人工智能技術等方法,把一些高深、復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,因而可專注于自己所要解決的問題。數據挖掘按其功能可分為:描述性數據挖掘方法和預測性數據挖掘方法。
1描述性數據挖掘
在取得大量的數據之后,首先要對數據進行總結,也即數據的泛化;在泛化的基礎上再對數據進行高層次的處理,包括數據的聚集、關聯(lián)分析等。
(1)數據總結:數據總結的目的是對數據進行濃縮,給出它們的緊湊描述。數據泛化是一種將數據庫中的有關數據從低層次抽象到高層次的過程。
(2)聚集:聚集的目的是要盡量縮小屬于同一類別的個體之間的距離,而盡可能擴大不同類別個體間的距離。層次法、密度法、網格法、神經元網絡和K-均值是比較常用的聚集算法。
(3)關聯(lián)分析:關聯(lián)分析是尋找數據的相關性。關聯(lián)規(guī)則是尋找在同一個事件中出現的不同項的相關性,其核心是使用Apriori算法,找出事物的相應支持度和置信度,最后找到相應的關聯(lián)規(guī)則。
2預測型數據挖掘
在預言模型中,把我們要預測的值或所屬類別稱為響應變量、依賴變量或目標變量;用于預測的輸入變量是預測變量或獨立變量。主要通過分類、回歸分析、時間序列來建立預測模型。
二、商品銷售領域數據挖掘的依據
在商品銷售領域采用數據挖掘是商品銷售發(fā)展到一定階段的必然要求,它有助于提高商品銷售效率,降低商品銷售成本。其理論依據有消費者消費行為、細分市場理論、顧客關系、顧客數據庫和直接商品銷售。
在制定商品銷售計劃之前,商品銷售者需要研究消費者市場和消費者行為。在分析消費者市場時,公司需要了解市場情況,購買對象,購買目的等因素。通過搜集顧客消費數據,采用數據挖掘技術,可以簡潔、明了地得到這些信息。
三、商品銷售中的數據挖掘過程
1商品銷售目標理解
在進行數據挖掘之前,必須從商品銷售角度去分析要達到的目標和需求,也即要分析什么商品銷售問題,達到什么商品銷售目標。首先對商品銷售現狀進行分析,找出存在的問題,并確定需要實現的營銷目標,再將商品銷售目標轉換成數據挖掘目標,然后將這種知識轉換成一種數據挖掘的問題定義,并設計一個達到目標的初步計劃。
2數據理解
先搜集初步的數據,然后進行熟悉數據的各種活動,包括識別數據的質量問題,找到對數據的基本觀察,或假設隱含的信息來檢測感興趣的數據子集。
3數據準備
首先進行數據抽樣,從大量數據中篩選出一些相關的樣板數據子集。通過對數據樣本的精選,不僅能減少數據處理量,節(jié)省系統(tǒng)資源,使數據更加具有規(guī)律性。然后,進行數據探索,通常是所進行的對數據深入調查的過程,從樣本數據集中找出規(guī)律和趨勢,用聚類分析法區(qū)分類別,最終要達到的目的就是搞清多因素相互影響的復雜關系,發(fā)現因素之間的相關性。最后,需要對數據進行調整,通過上述兩個步驟的操作,對數據的狀態(tài)和趨勢有了進一步的了解,這時要盡可能對解決問題的要求進行明確化和進一步的量化。
4建模
社會的不斷進步,高端科學技術在社會上的廣泛應用,人們生活質量也在不斷提高。同樣教育行業(yè)的教學質量也在不斷地提升,教學方法和手段不斷處于更新?lián)Q代過程中。近幾年來,數據挖掘技術在教育領域中不斷地得到應用,為學校、教師、學生都提供了便利的教學條件,而對于數據挖掘技術在教育領域的應用也受到廣泛的關注,本技術在大學英語考試結果中的應用屬于重要的一方面。
一、數據挖掘的定義
數據挖掘屬于數據分析的一種,即在大量的數據信息資料中的篩選出與人們特定的要求相符和的數據內容。數據挖掘就是通過全智能化的途徑,在眾多的、不確定的、海量的信息中總結和分析出,原本就存在的但不易被人們感知,具有總結性特點的相關內容。
二、數據挖掘的方法和步驟
1.數據挖掘的分析方法。數據挖掘分析方法主要包括聚類分析、決策樹和人工神經網絡。
(1)聚類分析就是將具有相同或相似特點的研究對象進行整合,通過數據挖掘技術的分析過濾,在無序的、混亂的研究對象中,輸出其中被隱藏的、不明顯的的行的特點結果。
(2)決策樹是數據挖掘中的另一方面,具有對研究對象進行分類和預測的作用。也就是對眾多分析對象按照一定的要求進行重新分組,并達到對某些事項預測結果的目的。
(3)人工神經網絡是指類似于人的大腦的神經分布與信息處理的一種分析方法。
如圖1所示。
2.數據挖掘的步驟。數據挖掘涵蓋了四個部分:目標定義、數據收集、數據分析、數據挖掘結果評析。
(1)數據挖掘的目標定義是指人們利用數據挖掘技術所要的達到的最終目的和預期結果。
(2)數據收集是指確定了數據挖掘目標以后,所要進行的對相關數據的收集和整理,即人們所說的對研究對象的集中。
(3)數據分析是指在完成數據收集之后,通過使用數據挖掘技術,運用上述三種方法對研究對象進行集中處理。
(4)數據挖掘結果評析是指數據挖掘的最終的結果的輸出,即預期目標的實現。如圖2所示
三、數據挖掘技術在大學英語考試中的應用
在大學英語考試中,數據挖掘技術的應用主要體現在對于學生的身份、考試內容、考試成績結果等方面。按學生的學號、姓名、年級、指導教教師等標準,進行數據挖掘,分析學生的分布情況??荚噧热菔侵羔槍τ诳荚噧热莸碾y易層次、答題正確率情況,進行數據收集,通過數據挖掘技術,分析學生考試成績高中低的大體情況,從而確定以后考試試題的難易程度,對應不同層次的學生。
整個考試流程的最終目的是,通過數據挖掘技術,對考試成績進行分析評估,提取出學生各個層次學生對教學過程中英語知識的掌握程度,進行有針對性的教學,改善教育方法,提高教育水平。
語言是人們與外界溝通的最重要的媒介。英語作為世界上應用最廣泛的語言,英語的學習最為關鍵。大學英語考試是大學教學對大學生的英語接收程度的一種考核方法,大學英語考試結果運用數據挖掘技術,有助于提升教師對考試結果了解效率,化解教與學之間的隔閡,優(yōu)化大學英語教育方法,提高教學水平。
參考文獻:
[1]張和華,向華,吳旋.數據挖掘技術在醫(yī)療設備行業(yè)中的應用研究[J].中國醫(yī)學裝備,2015,10(01):48-50.
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-914X(2014)29-0354-01
數據挖掘技術是近年來興起的被各方關注的技術之一,其在實際應用中的顯著優(yōu)勢。我國零售業(yè)在近幾年的發(fā)展速度越來越快,對零售業(yè)中的量級較大的數據及信息需要專業(yè)化、科學化、有笑話的提取方法以供零售業(yè)行業(yè)的持續(xù)發(fā)展。
一、 零售業(yè)領域中數據挖掘技術應用概況
數據挖掘技術以數據庫技術、人工智能、機器學習、統(tǒng)計分析、模糊邏輯等多門學科的理論為基礎依托,結合不斷的探索、實踐、規(guī)律總結不斷演化出來的具有高端應用價值的技術。
(一)零售業(yè)數據挖掘技術的發(fā)展歷程
從數據挖掘技術的發(fā)展可以清晰看出人類對社會認知的轉變歷程。就數據挖掘技術而言,其核心技術在于數理統(tǒng)計理論,人們對于數據、信息的敏感程度可以對數據挖掘技術的不斷提升有所幫助。鑒于數據挖掘技術的優(yōu)點,零售業(yè)領域中復雜多樣的數據屬性,不斷與該項技術融合,促進零售業(yè)領域企業(yè)的商業(yè)利益最大化。
在應用數據挖掘技術的眾多行業(yè)中,零售業(yè)可以說是最早將此項具有現代化意義的技術應用于自身行業(yè)中的領軍行業(yè)。從摸索階段到現如今的已有基本規(guī)律的狀態(tài),數據挖掘技術的應有優(yōu)勢愈發(fā)凸顯,零售業(yè)相關企業(yè)期待著更好利用數據挖掘技術促進企業(yè)做出有利決策。比如在零售業(yè)領域中關于數據挖掘技術的經典例子包括沃爾瑪超市對啤酒和尿布在銷售方面的規(guī)律的提煉,以及臺風天氣對巧克力等食品的更多需求的研究。
在零售業(yè)領域嘗到數據挖掘技術的顯著優(yōu)勢后,包括制造業(yè)、財務金融保險業(yè)、醫(yī)療企業(yè)等多個其余行業(yè)也紛紛開始效仿,鑒于數據挖掘技術鮮明的實用性及可操作性,一些公司運用數據挖掘的成功案例,充分顯示了這項技術的強大生命力。
(二)零售業(yè)數據挖掘技術研究的意義
在零售業(yè)領域中,條形碼管理、銷售管理系統(tǒng)、客戶資料管理系統(tǒng)等關于商品信息、客戶信息、供應商信息、店鋪信息、會員信息等海量數據,以零散狀態(tài)呈現在人們面前,表面看,這些類別的數據之間毫無關聯(lián),但透過數據挖掘的眼光便可以清晰看出這些類別數據之間、同一類別數據之間存在著千絲萬縷的聯(lián)系。大數據理論提出以來,零售業(yè)領域研究者們變采取研究手段探究領域內海量數據與商品銷售、客戶群體選擇等眾多零售商們頭疼的問題之間的關系。實踐證明,利用數據挖掘技術可以幫助零售商們解決上述看似無解決方法的疑難雜癥。比如,購物籃分析可以探究商品搭配方式與用戶訴求之間的匹配程度、消費者對于商品擺放樣式的好感度等。
從反方向看數據挖掘技術對于零售業(yè)領域的應用意義,對于零售業(yè)領域內的規(guī)律,人們僅憑經驗、人工查找總結的方法將很難實現,缺乏有效數據挖掘手段的零售業(yè)領域的規(guī)律的探究的可能性非常小。而數據挖掘技術恰恰可以迎合人們這一需求,省去了人工查找的麻煩與困擾。特別是在銷售相關數據越來越多的環(huán)境中,依靠人工積累的方法很難實現行業(yè)發(fā)展的突破,對于海量數據問題的解決,數據挖掘技術是非常好的選擇。
可見,零售業(yè)領域中數據挖掘技術的應用不僅歷史久遠,并且成果顯著。但人們不能將眼光僅僅停留在數據挖掘技術給零售業(yè)領域帶來的已有成功影響,隨著社會的不斷發(fā)展、市場經濟環(huán)境的不斷變化,業(yè)內人士需要對于社會市場體系未來的發(fā)展要素予以準確把握,并將此作為零售業(yè)領域內數據挖掘技術研究的方向。本文的議題設置初衷也在于此。
二、零售業(yè)領域中數據挖掘技術的應用范圍
查閱大量相關資料、整合已有成功經驗后,可以發(fā)現,數據挖掘技術在零售業(yè)領域內的功能性體現在三個方面:
首先,數據挖掘技術以海量數據為基礎的技術要求恰恰符合了零售業(yè)領域內超大數量級的數據現狀。數據挖掘技術利用計算機設備的準確、快速的算法更新技術,實現了短時間內對零售業(yè)領域內的數據進行聚類、提煉規(guī)律性成果的可能。
其次,數據挖掘神經網絡算法的出現,進一步提升了零售業(yè)領域內數據挖掘的應用效率。這一新型算法的出現有效緩解了外部商業(yè)競爭對于零售業(yè)領域發(fā)展的影響。零售業(yè)領域內企業(yè)的發(fā)展離不開高端有效的數據挖掘技術。
再次,數據挖掘技術令企業(yè)充分了解客戶對于商品銷售的喜好及興趣,幫助企業(yè)有效、準確、及時了解并掌握市場的動態(tài)變化,可以做到及時針對市場環(huán)境的變化調整自身企業(yè)的銷售模式及銷售方案。在對市場動態(tài)變化的及時掌握中,零售業(yè)企業(yè)可以及時洞察市場上的新商機,謀求企業(yè)緊急效益。
三、零售業(yè)領域中數據挖掘技術應用存在的問題及未來的發(fā)展趨勢
第一,零售業(yè)中數據挖掘技術在分析變量的選擇上仍有不足。數據挖掘的技術關鍵在于聚類方式的確定,而就相對更加復雜的零售業(yè)領域內的有關數據信息而言,其在分析變量的確定方式上仍舊需要持續(xù)關注實踐結果進行及時調整。選擇合適的數據挖掘分析變量,可以明顯提升數據挖掘技術在零售業(yè)領域中的應用效率。
第二,數據挖掘技術所依托的數據抽取方式需要結合用戶需要進行及時調整。抽取數據的目的在于從眾多雜亂數據中提煉有用信息,減少不必要的工作量。比如求和、平均值、方差、直方圖、餅狀圖等方式都可以結合實際情況嘗試。
第三,數據挖掘技術的數據趨勢需要有效預測。在紛繁復雜的數據信息中,也是有一些規(guī)律性的趨勢可以預測的。在零售業(yè)領域中,數據趨勢的預測工作十分重要。
四、結語
截至目前,真正適合零售業(yè)領域的數據挖掘模型還缺乏統(tǒng)一化,真正具有意義、有效性的數據模型的應用范圍應該是在各個行業(yè)中都具有互通性的,即便行業(yè)在特點方面存在差異,但符合當前社會發(fā)展形勢的數據挖掘技術需要往統(tǒng)一化中帶有特色化的方向發(fā)展。因此,要保障數據挖掘的基礎數據模型可靠。數據模型包括的種類很多,比如概念數據模型、邏輯數據模型、物理模型、采集模型、處理模型、其他模型等。但目前情況看,上述模型的可靠性均需要經過時間的考驗,因此,在零售業(yè)領域中的數據挖掘技術需要加大對模型可靠性的研究力度。
學習內容分析
本課是蘇科版七年級初中信息技術第三章第3節(jié)的內容,主要包括“數據挖掘的作用”和“數據挖掘的過程”兩個部分,可深入細分為“什么是數據挖掘”“數據準備”“數據挖掘”“規(guī)律表示”四個內容。教學中,為了讓學生深刻體會數據挖掘的意義和價值,教師應鼓勵他們對數據進行多角度加工與分析,找到規(guī)律或有用的信息,用恰當的方式直觀地表達出來,學會搜集、分析身邊的數據,用數據說話,讓數據挖掘更好地服務于生活與學習。
教學目標
知識與技能目標:理解數據挖掘的概念,體會數據挖掘的作用。
過程與方法目標:嘗試進行數據挖掘,經歷數據挖掘的一般過程。
情感態(tài)度與價值觀目標:樹立用數據說話、用數據指導生活的思想意識。
教學重難點
重點:數據挖掘的概念及數據挖掘的一般過程。
難點:數據準備及挖掘的過程。
教學策略
數據挖掘是一種強大的分析數據的方法,因涉及到專業(yè)軟件和統(tǒng)計學術語、數學模型等,會讓學生難以理解。而日常使用的WPS表格,作為數據挖掘的有效工具,可以讓學生在分析具體數據的過程中,掌握數據挖掘的方法。因此,本節(jié)課教學應讓學生從已有經驗出發(fā),運用WPS表格中的簡單工具,學習數據挖掘的一般方法。
“數據挖掘”對學生而言,是一個全新的概念,概念的建構需要一步步地不斷累積,從表層到內涵,逐步深化。學生只有在了解了“數據挖掘”的基本含義,并嘗試挖掘的基礎上,才能體會其作用和意義。所以,筆者設計了層層遞進的學習活動(情境再現,感受數據挖掘―案例研習,認識數據挖掘―比較空氣質量,嘗試數據挖掘―同比空氣質量,再探數據挖掘―暢想未來,展望數據挖掘),并且在活動中適時搭建學習所需的“支架”,來幫助學生完成知識的建構。筆者通過一系列的活動,讓學生在做中學,在學中思,在思中用,在情境化的技術活動中,歸納出數據挖掘的方法,從而樹立用數據說話、用數據指導生活的思想意識。
教學過程
1.情境再現,感受數據挖掘
活動1:情境再現,感受數據挖掘。
①猜一猜:不同的人群瀏覽同一個網頁時,所看到的內容是否一致。
②觀察鳳凰網的廣告區(qū)域截圖,在組內交流(如下頁圖1,不同人群瀏覽的同一網頁,推送的廣告不同)。
③京東為什么能夠根據個人喜好推送商品?
小結:京東在挖掘和分析用戶瀏覽行為的基礎上,進行定向產品推廣。
設計意圖:思維總是由問題開始的,激發(fā)問題,能讓學生積極主動地參與到學習活動中。以京東廣告推送功能來設置情境,把兩種不同的瀏覽行為對照比較,設置懸念,第一時間抓住學生,激發(fā)學生學習新知識、新技術的渴望。
2.案例研習,認識數據挖掘
活動2:學生觀看視頻,并思考、總結。
①安保為什么使用熱力圖(如圖2)?(對百度的定位數據、搜索數據進行挖掘,把握人群密集點動態(tài)趨勢,幫助警方提前疏導、化解安全風險)
②百度大數據對旅游有什么作用(如圖3)?(對用戶搜索數據深入挖掘,預測熱門旅游景點)
③導航是如何規(guī)劃路徑的(如圖4)?(對道路環(huán)境、天氣情況、特征日等數據進行挖掘和分析,得出每條道路在不同環(huán)境或不同時間的路況規(guī)律,確定最優(yōu)的交通路線)
師生對數據進行分析、總結(如表1)。
小結:數據挖掘是指從大量數據中尋找其規(guī)律的技術。數據挖掘的目的主要有三個:把握趨勢、預測和求最優(yōu)解。
設計意圖:選取日常生活中運用數據挖掘的三個典型事例視頻――熱力圖、旅游預測、導航,借助半成品表格作為輸出支架,歸納出數據挖掘的概念和數據挖掘的三個目的。體會挖掘數據價值性的同時,認識數據加工的重要性,為數據挖掘的學習做好鋪墊。
3.比較空氣質量,嘗試數據挖掘
師:圖5中空氣質量預報實現了數據挖掘的哪一種目標?(把握趨勢)鹽城市空氣質量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質量狀況。
活動3:比較鹽城、秦州、淮安等周邊城市空氣質量狀況。
①登錄中國空氣質量在線監(jiān)測分析平臺(http:///historydata/),建立鹽城周邊三市空氣質量狀況工作表(如圖6)。
影響空氣質量的因素很多,AQI指數是衡量空氣質量的重要指標。
教師演示:瀏覽數據,提取數據,組成工作表(如圖7)。
②計算各市4月份空氣質量指數AQI的平均數。(提示:AVERAGE公式使用方法以及自動填充柄的使用)
③比較4月份空氣質量狀況。(結論:質量指數平均值大小依次是鹽城、秦州、淮安)
師:根據質量指數,利用函數工具計算平均數,得出空氣質量狀況,其實就是數據的挖掘。數據挖掘的一般過程如圖8所示。
設計意圖:從全國空氣質量在線監(jiān)測分析平臺搜集數據,選擇WPS函數工具挖掘數據,并對挖掘結果加以解釋,來建構數據挖掘的一般過程。在嘗試數據挖掘的過程中,學會運用計算思維解決問題,借助流程圖總結挖掘過程,有助于學生從整體上把握知識,進一步促進認知體系的構建。
4.同比空氣質量,再探數據挖掘
師:通過挖掘比較,我們得出鹽城市4月份空氣質量在周邊城市當中最好,各市以前的空氣質量狀況如何?
活動4:比較各市2014年、2015年空氣質量數據,說明哪一年空氣質量更好(如圖9)。
①在選定城市后,思考如何同比質量。
②選取函數或圖表工具,完成挖掘。
③規(guī)律表示。
④從“我的數據分析報告”中的各組中任選城市,從“2014年數據、2015年數據”工作表中,選取數據到“同比空氣質量”進行分析(如下頁表2)。
小組匯報挖掘過程和得出的結論,形成對數據挖掘的新認識。
小結:用平均數比較,各市兩年的數據基本相同,但是合格月份數不一定相同,同比AQI低的月份數也不相同。學生同比之后發(fā)現,2015年空氣質量好于2014年。
設計意圖:學生借助分析報告,以分組合作的形式,再次經歷挖掘數據的過程,找到規(guī)律或有用的信息,加深對挖掘過程的理解。鼓勵學生對數據進行多角度的加工與分析,選擇合適的工具進行挖掘,體現了多元化的思想。
5.暢想未來,展望數據挖掘
觀看視頻(如上頁圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測序的視頻截圖),想象:數據挖掘技術的廣泛應用,對生活會產生怎樣的影響?
如今,數據挖掘改變了傳統(tǒng)的生活模式,未來將會產生更加深遠的影響。因此,我們應學會搜集、分析身邊的數據,用數據說話,挖掘數據創(chuàng)造出更智慧的生活方式。
設計意圖:通過視頻播放,讓學生深度感受“數據挖掘”與生活息息相關,挖掘數據將給人們生活帶來的改變,培養(yǎng)學生搜集、分析身邊的數據,用數據說話的意識。
點 評
數據挖掘在目前的信息社會環(huán)境下利用十分的普遍,而所謂的數據挖掘實際上就是利用數據所表現出來的特點以及關聯(lián)性將其他的因素做帶入性分析,這樣,無論是產業(yè)發(fā)展還是產品的生產,其最終的結果都會具有綜合性。就軟件工程行業(yè)的具體實踐分析來看,軟件開發(fā)需要大量的數據,而且數據信息之間的聯(lián)系需要明確,這樣,具體軟件開發(fā)的時候設計和考慮會更加的全面,最終的軟件適用性效果會更加突出?;诖?,分析研究軟件工程行業(yè)中數據挖掘的具體應用有突出的現實價值。
一、數據挖掘的一般流程分析
數據挖掘是一個動態(tài)的過程,就目前的分析來看,數據挖掘需要經歷三個基本的步驟:(1)數據的預處理。數據預處理是數據挖掘最基礎的部分,也是數據挖掘關鍵性的步驟,其主要包括四項基本的內容,分別是原始數據獲取、數據清洗、數據抽取和數據交換。通過數據的預處理,數據之間的邏輯關系會更加清晰,數據的具體利用價值會有明顯性提升。(2)數據挖掘。在數據預處理的基礎上進行數據挖掘需要經過兩個步驟,其一是對挖掘的任務進行明確,具體包括數據的分類、數據總結等等。其二是對數據挖掘的算法進行確定,這樣,數據挖掘的效率性和質量性會更好。(3)模式評估和知識表示。在數據挖掘中不同的模式有不同的效果,因此對當前確定的數據挖掘模式做有效性評估,這樣可以確定模式利用的最終價值。
二、軟件工程行業(yè)中的數據挖掘應用
在軟件工程行業(yè),數據挖掘的應用十分的廣泛,總結分析目前軟件工程行業(yè)中數據挖掘的主要應用,這可以為數據挖掘的深入推廣提供可靠的參考。
(一)軟件版本信息挖掘
就當前軟件工程行業(yè)中數據挖掘的具體應用分析來看,最為廣泛的對象之一便是軟件工程版型控制信息的挖掘。就現階段的分析來看,對軟件工程版本進行控制,其目的是對軟件工程開發(fā)人員在軟件工程開發(fā)過程中所編輯的信息進行統(tǒng)一化的管理,這樣,軟件開發(fā)過程中數據的更新進度可以更好的保持一致性。分析研究當前環(huán)境下的軟件工程系統(tǒng)版本信息控制,利用數據挖掘技術可以將軟件開發(fā)過程中的具體變更信息做更加全面的掌握,這樣,在探討同一軟件平臺不同程序模塊的聯(lián)系和差異方面,具體的信息分析結果會更加的準確,而利用具體的結果對軟件開發(fā)中需要解決的系統(tǒng)漏洞問題做處理,軟件的開發(fā)會更具完善性。簡言之,在軟件版本的更新設計中利用數據挖掘技術,版本更新設計的整體質量會更加突出。
(二)軟件漏洞檢測挖掘
在軟件工程行業(yè),數據挖掘的應用還廣泛分布在軟件漏洞檢測方面。從軟件的具體應用來看,漏洞的檢測和修復是軟件利用需要重點注意的內容,因為這關系著軟件利用的綜合實效和安全性。就當前軟件漏洞具體檢測中的數據挖掘分析來看,其主要包括5個方面的內容:(1)軟件漏洞檢測項目的明確,有了明確的檢測項目,具體的數據挖掘范圍也會得到確定,這樣,數據挖掘的效果會更突出。(2)對軟件功能漏洞檢測數據信息做深入獲取,并就獲取的信息做清理和轉換工作,這樣可以提煉更多有用的知識和信息。(3)對軟件工程合適的數據挖掘信息做科學合理的選擇,這樣可以使數據信息的驗證效果更加突出。(4)對軟件工程中存在的系統(tǒng)平臺缺陷和漏洞做科學劃分并予以描述和定位。(5)基于挖掘的信息數據進行系統(tǒng)測試工作。
(三)開源軟件代碼挖掘
軟件工程行業(yè)中的數據挖掘應用還體現在開源軟件代碼挖掘中。從現階段的分析來看,開源軟件代碼挖掘可歸結為對象挖掘類型,其應用最為廣泛的是代碼的克隆檢測,而克隆檢測工程在軟件代碼以及系統(tǒng)應用數據的復制和拷貝中進行使用。通過系統(tǒng)中具體的代碼源檢測操作能夠將軟件工程中存在的代碼漏洞問題做有效解決,這樣軟件工程在后期的運行維護方面效果會有極大的提升。
(四)軟件執(zhí)行記錄挖掘
數據挖掘在軟件工程行業(yè)中的突出利用還體現在軟件執(zhí)行記錄的挖掘方面。在軟件執(zhí)行記錄當中使用數據挖掘技術,可以借助對軟件執(zhí)行的記錄做有效的大數據分析,這樣,不同的軟件或者是相同的軟件在不同模塊代碼間的關聯(lián)關系會得到全面性的分析,基于此分析,數據執(zhí)行的路徑等可以得到跟蹤,逆向建模的最終效果會更加的突出。簡言之,在軟件執(zhí)行記錄中利用數據挖掘會對軟件的系統(tǒng)代碼維護等起到突出的作用,這樣,軟件工程的穩(wěn)定性效果會更加突出。
三、結束語
綜上所述,在軟件工程行業(yè)中,具體的軟件開發(fā)需要對多方面的數據進行利用,更要對各方面數據表現出來的關聯(lián)性以及數據應用結果做分析,這樣,軟件最終開發(fā)需要考慮的內容和避免的問題會更加的清楚。文章就軟件工程行業(yè)中數據挖掘的一般步驟和具體內容做分析,最終的目的是為軟件工程行業(yè)的實踐活動開展提供幫助,從而提升軟件開發(fā)的綜合性,提高軟件在具體生活實踐中的利用價值和效果,達到軟件開發(fā)的最終目的。
參考文獻
[1]呂品,于文兵,汪鑫等.數據挖掘挑戰(zhàn)賽驅動的本科生大數據分析能力培養(yǎng)——以上海電機學院軟件工程專業(yè)學生為例[J].計算機教育,2017(11):36-39.
一、引言
客戶保有的前提是理解客戶行為,電信運營商已經積累了大量的客戶行為信息,有效結合數據挖掘技術,對已有的無規(guī)則客戶行為信息進行分析識別,并通過各類算法歸納總結出客戶流失的規(guī)律及特點,最終建立起數據挖掘模型,經過不斷的校驗,可以預測客戶流失傾向,并將預測結果轉化為企業(yè)客戶保有行為,為企業(yè)的營銷工作提供幫助、指導,為企業(yè)決策提供支持,最終實現電信企業(yè)客戶保有及價值提升的目的。
二、數據挖掘概述
(1)數據挖掘概念。數據挖掘是指從大量的、隨機的、不規(guī)則的應用數據中通過算法(如分類、總結、關聯(lián)規(guī)則、聚類等)搜索隱藏于其中的不為人知的、但潛在的有用知識的過程。數據挖掘提供預測性的信息,質上是一個歸納推理的過程,不是驗證一個假定模型的正確性,而是在數據庫中自己尋找模型。數據挖掘是多學科的產物,包含數據庫技術、統(tǒng)計學、可視化、高性能計算、人工智能、機器學習。數據挖掘的三個過程,即數據整理、數據挖掘和結果的解釋評估。(2)數據挖掘方法。數據挖掘常用的方法有關聯(lián)分析、分類、聚類、回歸分析、神經網絡等,這些方法從不同的角度對數據進行挖掘分析,可以應用到企業(yè)客戶行為分析、決策支撐等不同階段和領域。
三、電信客戶流失預警中數據挖掘的實施步驟
(1)明確目標。要充分發(fā)揮數據挖掘的作用,必須明確目標。電信客戶流失預警的重要目標就是提前預知客戶流失風險,從而指導維系人員準確定位目標客戶,及時給與流失干預,提升電信客戶保有率。(2)建立數據挖掘庫。我們需要從各類海量電信客戶數據庫中抽取與客戶流失相關數據內容,建立獨立的客戶流失預警挖掘數據庫,該數據庫可以是已有數據倉庫的一個邏輯子集,而不一定非要是物理上獨立的數據庫。單獨設立的客戶預警數據庫可以提高分析效率、避免由于數據巨大帶來的數據沖突問題的解決。通過對客戶流失關鍵點的數據抽取、精選,可以極大的減少數據處理量,節(jié)約系統(tǒng)資源,更好的輔助數據分析目標的達成。(3)數據分析。需要從海量客戶、海量信息、海量數據中找到客戶流失的關鍵點,不斷從流失數據挖掘庫中找到相應的規(guī)律和潛在趨勢,使用聚類分析的方法進行客戶信息類別區(qū)分,逐步梳理出影響客戶流失的眾多因素,并進行重要性分析,找出這些因素之間相互影響、牽連的關系,從而發(fā)現因素之間的相關性。(4)準備及調整數據。通過數據分析步驟,將符合分析要求數據進行數據庫導入,并對數據進行進一步的調整,關鍵是實現進一層次的明確及量化,為模型化奠定基礎。(5)建立模型。建立模型是數據挖掘的核心環(huán)節(jié),在分析數據,并對數據進行系統(tǒng)調整的基礎上即可以開始建立模型。通常我們利用聚類分析、時間序列分析等方法來實現建模。(6)評價及解釋。從之前的步驟中我們已經很明確的得出客戶流失的一系列分析數據及模型,我們會得出對客戶流失問題多種描述,綜合各類描述的規(guī)律性,提供合理的分析支持信息。
四、數據挖掘在電信客戶維系中的應用
1、流失客戶分析及建模
以往運營商服務模型基本圍繞全生命周期時間軸主線,重點描述單客戶服務動作,缺少客戶聚類特征總結。結合客戶流失特征,運用聚類統(tǒng)計分析方法將客戶進行特征聚類,區(qū)分為入網半年內客戶群、入網半年至一年客戶群、入網一年以上客戶群,其客戶流失特征及原因存在區(qū)隔,入網半年內客戶的流失與前期客戶發(fā)展質量關系密切,主要取決于在新發(fā)展客戶營銷過程中存在的問題或弊端;而入網半年至一年客戶群的流失與功能性的服務感知相關;入網一年以上或更長時間的客戶流失與后期客戶持續(xù)提供的服務及感知密切相關。同時三大聚類客戶群又分別具有三個流失關鍵點,我們可以運用數據挖掘技術“信息熵理論”、“二元分類模型”,找到幾個聚類群體流失相關因子,從而構建針對性精準的維系模型,如圖1所示。
在基于聚類模型構建起精準的客戶維系體系后,對應影響三個聚類群體的核心因子及模型分析,針對性制定標準化維系動作及強化服務方案,增強原有的客戶服務體系,從而達到提升客戶感知及粘性的目的。
結合三個關鍵點,從現有的海量客戶行為數據中找到維系因子,對影響用戶群流失的因子做聚類分析,梳理出關鍵因子,并進行重要性分析,選定對整體流失影響力較大的因子作為高危挽留的重點突破口,如表1所示。
通過高危因子重要度的區(qū)分,每月月初系統(tǒng)自動預警,為客戶挽留提供數據支持。
2、客戶挽留流程
(1)挽留機會分析。根據三大聚類客戶群特點,對三類客戶流失傾向進行評價,按風險的高低進行評判,入網初期客戶流失風險最高,其次是高危客戶流失傾向明顯,一年以上到期合約客戶也存在流失風險,根據風險度及入網時間的不同,進行流失客戶預測,從而及時找到挽留機會。(2)挽留策略的制定。通過高危因子重要度分析,系統(tǒng)自動預警圈定需要挽留的客戶群,對不同因子客戶進行分析逐一制定挽留策略。針對新入網客戶流失分析,梳理主要流失原因,制定相應的入網門檻,并配合相應酬金發(fā)放機制,在入網半年內分批分比例發(fā)放酬金,提升入網質量;針對入網半年以上客戶,結合高危因子,梳理不同因子客戶群流失原因,針對性制定挽留策略,如合約計劃、網齡升級計劃、流量回饋等;對于一年以上合約到期客戶,制定老客戶合約續(xù)費政策,提升合約續(xù)費率。(3)采取保有行為并反饋。通過以上兩個步驟,找到挽留機會,并制定相應策略后,需將挽留行為分配給不同的渠道人員實施,新入網客戶的入網策略由各發(fā)展渠道落實并反饋客戶信息;半年以上中期高??蛻艏耙荒暌陨虾霞s到期客戶的挽留與維系需由維系中心與各實體渠道相互配合,由維系中心進行電話回訪式維系,實體渠道配合通過理財專席等方式在日常業(yè)務辦理中提高客戶在網粘性。
五、結束語
事實上,流失模型的建立不可能直接帶來客戶流失率的減少,但基于數據挖掘的客戶流失預警模型的應用,可以很大程度上提升客戶維系與挽留的有效性,有效的預警、預測結合針對性的挽留策略及有效的挽留行為,才能夠真正實現客戶流失率的降低,達到提升客戶感知及粘性的最終目的。
中圖分類號:TP311.13
隨著經濟的發(fā)展和科技的進步,手機、電腦在中國隨處可見,互聯(lián)網甚至是移動互聯(lián)網融入了人們的日常生活,互聯(lián)網中無法估量的大量數據不斷增長,愈演愈烈,面對著海一般的數據信息,人們不能準確的找到自己想要的數據,像手機APP,手游等移動互聯(lián)網產品,每天都承載著非常多的數據,對運營商而言,如何進行數據分析以及數據挖掘成為一個亟待解決的難題。
較于傳統(tǒng)數據處理系統(tǒng),云計算系統(tǒng)的出現讓人眼前一亮,基于云的數據挖掘平臺的建構為數據挖掘開辟了一條新路,云計算提供一個虛擬的平臺,用戶可以在任何地區(qū)運用任何終端選擇自己想要的數據,而大規(guī)模的數據本身就存在一些問題,數據挖掘存在難度,本文就云計算的數據挖掘進行具體的分析如下:
1 云計算概述
一直以來云計算都沒有一個統(tǒng)一明確的定義,根據多數人對云計算的定義,總結出以下兩方面:(1)云計算通俗一點說就是一個資源盤,其擁有數以萬計的可用虛擬資源,有些虛擬資源擁有不同的負載量,云計算的優(yōu)勢就是可用將這些負載量不同的資源進行新的合理分配;(2)就用戶而言云計算的服務是方便簡單的,且透明化,用戶的最終目的是在云計算中獲取想要的數據和服務,用戶不用在意云計算本身的運行機制,然而云計算的系統(tǒng)也是存在隱患的,如果一個規(guī)模龐大的計算機群在運作的過程中仍然不間斷的增加計算機的數量,那么云計算系統(tǒng)可能會出錯甚至系統(tǒng)崩潰,可見單純依靠硬件設施是不可取的,此時需要可靠的軟件發(fā)揮作用,需使用冗余和分布式存儲的方式,云計算系統(tǒng)另一個優(yōu)勢就是擁有自我檢測系統(tǒng)模式,該模式在不影響正常運行的情況下,可以檢測出無效節(jié)點并進行刪除,總之,云計算系統(tǒng)數據多、存儲能力強、計算能力快且準確率高,給用戶帶來高效、優(yōu)質的服務。
經過一直以來對云計算的研究總結其特點有五個方面,分別是虛擬化、通用性、擴展性強且規(guī)模大、可靠性高、經濟性好等特點,具體來說就是云計算不是個實物,是個虛擬的擁有海量數據的平臺,用戶可以在世界的任何位置通過任何終端獲取想要的數據信息和服務;云計算沒有局限性,在云計算下可以構建出不同的應用,而且這些應用可同時運行;在不影響用戶正常使用的情況下,云計算是可以擴展的,而且是動態(tài)擴展,現今最多可擴展幾十萬臺電腦,整個擴展過程用戶是可以看到的,是對外的;為了保證服務的質量和可靠性,云計算運用了多種方法如多副本容錯和多計算節(jié)點同構可互換等;云計算由于自身的優(yōu)勢運用大量廉價節(jié)點構成云,采用自動化集中式管理機制,解決企業(yè)高昂的數據中心成本,較于傳統(tǒng)系統(tǒng)云計算系統(tǒng)成本較低。
2 數據挖掘的方式
數據挖掘是一個循環(huán)反復、不斷調整和修改的過程,這個過程漫長且復雜。從數據預處理到數據挖掘再到評估和表示這是數據挖掘的整個過程,數據挖掘的過程中方法很多,歸納如下:(1)廣義知識挖掘,廣義知識被挖掘出來后,與可視化技術相結合,用戶可以直觀的通過圖表形式來了解;(2)關聯(lián)知識挖掘;(3)類知識挖掘,分分類和聚類兩種。決策樹、神經網絡、貝葉斯分類、支持向量機、遺傳算法與進化理論、粗糙集、關聯(lián)分類、類比學習、模糊集等為分類法。聚類法包括五種,分別是基于劃分、密度、層次、模型及網格的不同方法;(4)預測型知識挖掘,包括一些方法和技術,方法有經典的統(tǒng)計方法,技術包括神經網絡和機器學習技術;(5)特異型知識挖掘,所謂特異型指特殊的背離常規(guī)的異常規(guī)律。包括三個類別,分別是孤立點分析、序列異常分析和特異規(guī)則發(fā)現;(6)自定義數據挖掘算法。
數據挖掘的過程以及方法可以通過圖1直觀的了解。
3 基于云的數據挖掘平臺架構
針對傳統(tǒng)數據挖掘平臺而言,云計算的產生對其影響很大,云計算的分布式存儲和計算使數據挖掘開始變革,數據挖掘云服務只有基于云計算平臺才能得以實現,其設計思想是分層設計,思路是面向組件設計,整個平臺自下向上分為三層,最下面一層也是最基礎的一層是云計算支撐平臺層,再往上一層是數據挖掘能力層,最頂層是數據挖掘云服務層。
云計算支撐平臺層的功能主要是提供數據的分布式存儲和計算,最底層構建可以以企業(yè)自主研發(fā)的云計算平臺為基礎 ,也可以以第三方提供的云計算平臺為基礎。
數據挖掘能力層的能力有算法服務管理、調度引起、數據并行處理框架等,這些都是基礎能力,數據挖掘能力層支撐著它的上一層(數據挖掘云服務層)。這層不但支持內部數據挖掘算法和推薦算法庫,對于外在的第三方數據挖掘算數法也可以接入。
最頂層數據挖掘云服務層的主要功能是為外在企業(yè)和個人提供數據挖掘云服務,其涵蓋多種多樣的服務能力封裝的接口形式,例如針對于簡單對象的訪問協(xié)議簡稱SOAP的XML等,本地應用程序編程接口也是其形式之一,基于結構化查詢語言語句的訪問在數據挖掘云服務層也是支持的,同時此層還提供解析引擎和自動調用云服務。
總之,基于云計算的數據挖掘平臺從很多方面是優(yōu)于傳統(tǒng)數據挖掘平臺的,如大規(guī)模數據處理能力、數據動態(tài)擴展能力以及低廉的云服務和成本等。
4 云計算關鍵技術
如今大量數據挖掘最直接有效的方法是分布式計算方法,這個方法包括兩部分一部分是分布式數據存儲,一部分是分布式并行計算,現在的云計算平臺已經涵蓋了這兩部分的能力,這兩部分是云計算數據挖掘平臺的核心支撐能力,GFS、KFS、HDFS等三種分布式文件系統(tǒng)是目前比較受歡迎的分布式文件系統(tǒng),Google公司的分布式文件系統(tǒng)理論是三者的理論基礎,KFS、HDFS兩種分布式文件系統(tǒng)多被用于商業(yè)和學術領域。
分布式并行計算框架在分布式計算方法中非常重要,其在計算過程中封裝了一些技術細節(jié),如任務調度、任務容錯等,這樣便捷了用戶,用戶只要把握好任務間的邏輯關系,不必注意這些技術細節(jié),目前較為廣泛應用的分布式計算框架有并行計算框架Mapreduce和迭代處理計算框架Pregel這兩者都由谷歌公司提出,還有微軟公司研發(fā)的Dryad。
5 結束語
隨著互聯(lián)網和移動互聯(lián)網時代的到來,海量復雜的數據處理與數據挖掘困擾著各大運營商,與傳統(tǒng)數據系統(tǒng)相比,云計算優(yōu)勢明顯,強大動態(tài)擴展能力、獨特的分布式存儲和計算方法、以及低廉的成本優(yōu)勢吸引了越來越多企業(yè)和個人,基于云的數據挖掘平臺,企業(yè)和運行商都因此減少了數據挖掘方面的資金投入,對這些企業(yè)來說無疑是減小了生產成本。
參考文獻:
中圖分類號TP392 文獻標識碼A 文章編號 1674-6708(2013)102-0222-02
所謂數據挖掘,就是將那些隱含的在數據中的、不能先知以及包含潛在價值的大量信息,從數據中提煉出來以供技術人員參考分析。通過數據挖掘理論所得到的信息,可以為地理信息的測繪提供依據,并且還具有預測和決策的功能。為了能夠得到更加精確的信息,我們建立了數據采集平臺。數據采集平臺側重于數據的收集,將大量的數據進行有效的匯總,使之轉化成有助于測繪地理信息管理和決策的有效信息。我們在實際工作中,常常可以看到,由于對數據沒有進行系統(tǒng)科學的分析,使得一些潛在的威脅留在了我們要做的工程中,甚至會為此喪失掉很多利益。如果我們不能夠盡力把威脅清除掉,后果可能不堪設想,數據表面,看不出東西(即其隱藏的信息量),絕對是關鍵所在。因此,我們不僅要做好數據采集工作,更要有效的利用好數據挖掘理論,做好數據分析工作,充分挖掘出這些數據背后所帶來的意義。
1數據挖掘的功能
在測繪地理信息技術領域,數據挖掘理論能夠將采集的數據轉化為我們需要的知識。下面就數據挖掘的功能,并結合其在數據采集中的運用,我概括了幾點,主要功能有以下幾點:1)聚類功能。即按照數據內在的規(guī)則,把數據聚合分類;2)關聯(lián)分析功能。關聯(lián)分析是從數據庫中發(fā)現知識的一類重要方法。當建立在多次檢測的基礎上的某兩個或多個數據之間算出來的數據相似,差異極小的時候, 那么我們就說這些事件之間存在著某種關聯(lián), 能夠建立起這些關聯(lián)項的關聯(lián)規(guī)則;3)分類功能。將不同數據按照不同的分類標準進行分類組合;4)偏差檢測功能。對那些不常見,極端的特例進行歸檔分析, 并揭示其發(fā)生偏差的原因,以便以后好做調整;5)預測功能。通過數據信息所顯示的一些潛在的知識,我們能夠做好對未來測繪數據的預測。實踐證明,事物的聯(lián)系是普遍存在的,即數據挖掘的各項功能協(xié)調組合,以便發(fā)揮更大的作用。數據挖掘通過對數據的總結、分類、聚類和關聯(lián)等分析, 對采集的數據進行深層次的剖析,把那些潛在的東西給挖掘出來,便于技術人員的管理與預測。
2 “數據挖掘”理論在數據采集平臺上的應用基礎
2.1數據采集平臺的建立
由于科技發(fā)展的需要,數據采集平臺應勢而生。數據采集平臺,是一個擁有大量數據的數據庫。據最新的統(tǒng)計數據顯示,整個平臺采集一次便可產生多達50萬以上的數據量。數據采集平臺最大的作用就是能夠產生巨大的數據。
我們知道數據本身就是數據而已,不能夠得到對我們有幫助的東西。而數據挖掘理論,基于相應的知識,做出極具準確性的預測性,能夠把單純的數據,通過總結、分類、聚類、偏差檢測和關聯(lián)等功能可以把那些分散在數據庫里面的各種數據,進行綜合分析整合。數據挖掘理論,是以對數據的分析作為基礎的,其功能與分析方法對數據采集平臺管理和運用,有著不可估量的作用和意義。
2.2“數據挖掘”理論應用基礎
由于科技的不斷發(fā)展,數據庫不斷充實,數據采集平臺也在不斷的完善和發(fā)展中。在國家政策,和科技不斷發(fā)展的趨勢下,數據采集平臺近幾年來,其結構和采集信息量上也發(fā)生了翻天覆地的改變。主要表現在版本、匯總部分字段以及采集字段上。即:版本不斷的更新,由原先的“08c版”一直發(fā)展到現在的“10a001版”; 匯總部分字段和采集字段的增加,使得數據庫里的數據成海量的增長,甚至多達數十萬。這樣使得數據采集平臺更加規(guī)?;瑫r也加強了數據與數據之間的聯(lián)系,這也使得采集的數據成了 “數據挖掘”的數據基礎,給了“數據挖掘”一個更好的平臺。也為技術人員運用數據挖掘理論提供了數據來源。
3 “數據挖掘”理論在數據采集平臺上的實際應用
在上面我籠統(tǒng)的介紹了數據挖掘的基本功能,即分類、估計、關聯(lián)、聚類、偏差檢測和預測。在這里我具體的介紹一下“關聯(lián)規(guī)則挖掘” 理論。通過“關聯(lián)規(guī)則挖掘”理論,我們知道,如果僅僅是單獨、孤立的數據,那是形成不了重要信息的,但是,如果我們將那些相互關聯(lián)的數據集中起來,并從不同的角度,不同的方面去分析這些數據,那么潛伏在這些數據表面以下的部分就會浮出表面,這樣我們就能看到事物的全部。這對我們做決策有著重要的意義。所以我們要可以通過“關聯(lián)規(guī)則挖掘”理論辨證的去分析事物內部所蘊含的關系。相反,如果只是盲目的看到表面的數據,甚至割裂地、孤立地去看待數據,這樣不僅找不到數據與數據之間關聯(lián)關系,更不能通過聚合這些相互關聯(lián)的數據,這不能做出科學有效的決策。在測繪地理信息的時候,“關聯(lián)規(guī)則挖掘”的理論,為我們提供了更廣闊的分析方法和思維模式,為我們做出正確合理的決策提供了理論依據。在實際操作中,我們感覺到任何一個重要問題的分析,我們都要依賴“關聯(lián)規(guī)則挖掘”理論,對具體的數據進行科學分析,以呈現其數據和事物之間的關聯(lián)性。
4 結論
結合個人的工作經驗和實際操作,就數據挖掘理論在數據采集中的應用展開了探討和研究。介紹了數據挖掘的功能;“數據挖掘”理論在數據采集平臺上的應用基礎:數據采集平臺的建立和“數據挖掘”理論應用基礎;以及“數據挖掘”理論在數據采集平臺上的實際應用。但是由于自身學識和理解的局限性,說的不是很全面,只是希望大家可以關注一下數據挖掘理論在數據采集中的應用,并能在你所在的領域內有所應用。
參考文獻
[1]譚廣宇.數據挖掘理論在狀態(tài)數據采集平臺上的應用[J].廣西教育,2011(6).
[2]蔣盛益,李霞,鄭琪.數據挖掘原理與實踐[J].圖書,2011(8).
在社會的發(fā)展之下,網絡已經成為人們生活與生產中必不可少的工具,但是網絡中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網絡信息檢索在檢準率與檢全率方面依然難以滿足人們的需求,而將網絡數據挖掘技術應用在其中即可很好的解決這一問題。
1 數據挖掘技術簡介
數據挖掘技術就是從大量模糊、隨機、不完全、有噪聲信息中提出有用信息的一個過程,與數據挖掘技術相關的技術還有數據分析技術、數據融合技術、知識發(fā)現技術等等,在技術水平的發(fā)展下,統(tǒng)計學方法、決策樹、關聯(lián)分析等一些新型數據挖掘技術也相繼出現。與數據挖掘不同,信息檢索實質上是一種信息發(fā)現任務,也是知識發(fā)展過程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項靜態(tài)信息,但是難以分析到數據間的關系及其未來發(fā)展趨勢。而應用數據挖掘技術則可以有效提升系統(tǒng)檢索能力,預測出未來的走勢,因此,將數據挖掘技術應用在搜索引擎中也是大勢所趨。
2 搜索引擎與網絡數據挖掘
網絡數據挖掘是一種將數據挖掘技術與網絡融合的一種新模式,網絡數據挖掘也能夠稱之為Web挖掘,網絡數據的頁面復雜、數據內容繁雜,文章也具有不規(guī)則性,將數據挖掘技術應用在數據挖掘中可以有效的解決上述問題,根據處理對象,網絡數據挖掘任務有三種類型,即網絡內容挖掘、網絡使用挖掘與網絡結構挖掘。
2.1 網絡內容的挖掘
網絡內容挖掘就是從網絡數據、網絡內容與網絡文檔中挖掘信息,很多網絡信息是能夠在網絡中過去的,但是依然有很大一部分數據難以采用該種方法獲取,如使用PHP、JSP與ASP的動態(tài)網頁,拒絕訪問的網站,商業(yè)數據庫中的數據。這些內容都能夠使用網絡內容挖掘法來獲取,這可以使用兩個方法:網絡頁面內容挖掘法與搜索結果再挖掘法。
2.2 網絡結構挖掘法
網絡結構挖掘法強調挖掘網頁中的鏈接結構,并從中推導相關的知識,這種挖掘法與引文分析有著密切的關系,網絡中的鏈接信息能夠為數據挖掘提供全面的支持,為了獲取到理想的效果,可以來分析網頁鏈接與鏈接數量,并建立起鏈接結構模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。
2.3 網絡使用挖掘法
網絡使用挖掘法就是通過日志發(fā)現來訪問頁面的一種模式,與網絡內容挖掘模式和網絡結構挖掘模式不同,網絡使用挖掘法的挖掘對象非是網絡與用戶交互中的二手數據,這些數據大多來自Cookies或者Web服務器中的信息、系統(tǒng)交互信息與訪問記錄。
3 數據挖掘技術在網絡信息檢索中的應用作用
目前,人們已經進入了一個信息爆炸時代,雖然眾多搜索引擎網絡可以滿足人們對于信息檢索的基本需求,但是還是有很多地方不到位,目前,網絡挖掘技術已經開始在網絡領域中得到了應用,也取得了一定的成效。實踐顯示,將數據挖掘技術應用在網絡信息檢索中能夠取得如下的效用:
3.1 提升標引準確性
標引能夠準確選擇出文獻的檢索標示,網絡信息范圍廣、復雜性高、數量多,使用人工標引很難取得理想的檢索效果,因此,必須要使用自動標引。將網絡數據挖掘技術應用在其中能夠深刻的揭示出相關信息的聯(lián)系,幫助用戶在文檔中進行標注,提升信息攝取的準確性。而以此為基礎來應用加權算法則能夠得出具體的信息關聯(lián),對于提升檢索效果有著十分積極的效用。
3.2 可以對檢索結果進行分類
在網絡世界中,各個網站之間的轉載情況嚴重,用戶在使用搜索引擎時必然會檢索出大量的重復信息,這不僅會降低檢索效率,也會浪費資源。將數據挖掘技術應用在檢索工作中就能夠挖掘出網頁中的語義內容,有效提升檢索效率。此外,數據挖掘技術也可以有效提升檢索質量,該種方法是建立在層次法與劃分法基礎上,如果檢索文檔相似性大,即可進行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據自己的需要自行選擇,這就有效減少了瀏覽數量。
3.3 能夠提升自動摘要質量
自動摘要即利用網絡來分析文章結構、主題語句的方式,自動摘要可以有效幫助用戶來加工與整合信息,與自動摘要相比,人工編制摘要會浪費大量的時間,將網絡數據挖掘技術應用在搜索引擎中能夠提升自動摘要的質量,該種技術是通過文檔內容來總結文本信息,能夠將Web中的重要內容總結起來,并提取出摘要。這對于優(yōu)化網絡信息資源的處理質量有著十分積極的意義。
4 結語
總而言之,將數據網絡挖掘技術應用在搜索引擎中已經成為了一個大勢所趨,采用該種技術可以有效提升標引、自動分類、自動摘要以及自動聚類的準確性,可以根據用戶的具體需求來建立模型,從而為用戶提供出更加針對性的信息支持。其中,最為常用的技術就是自由分類法,自由分類法能夠將難以用傳統(tǒng)方式細化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應用在小范圍網絡中,相信在不久的將來,網絡數據挖掘技術定可以在搜索引擎中得到更加廣泛的使用。
參考文獻: