期刊在線咨詢服務(wù),立即咨詢
時(shí)間:2023-01-12 18:57:22
導(dǎo)言:作為寫(xiě)作愛(ài)好者,不可錯(cuò)過(guò)為您精心挑選的10篇數(shù)據(jù)挖掘課程,它們將為您的寫(xiě)作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀(jì)70年代,由國(guó)際勞工組織引入教學(xué)之中,開(kāi)發(fā)出以現(xiàn)場(chǎng)教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國(guó)家得到廣泛應(yīng)用。由于該教學(xué)法具有針對(duì)性、靈活性、現(xiàn)實(shí)性等特點(diǎn),越來(lái)越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究,本課程的知識(shí)點(diǎn)細(xì)化分為兩個(gè)層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度,針對(duì)較為復(fù)雜的算法進(jìn)行的知識(shí)點(diǎn)劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門(mén)的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級(jí)主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進(jìn)行靈活處理,可強(qiáng)調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級(jí)主題模塊,可以作為擴(kuò)展材料介紹應(yīng)用,或?yàn)楦信d趣同學(xué)提供算法介紹;課程實(shí)踐模塊包含數(shù)據(jù)倉(cāng)庫(kù)建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實(shí)驗(yàn)步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進(jìn)行重要知識(shí)點(diǎn)的模塊化分析
重要知識(shí)點(diǎn)內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個(gè)算法,不同算法的在難度上有漸進(jìn)層次,同一種算法也有很大改進(jìn)研究空間,講授彈性比較大。因此,適合使用模塊化方法進(jìn)行處理,并且需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的內(nèi)容和難度。基礎(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹(shù)作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹(shù)算法有多種分類,需要進(jìn)行按照難易程度進(jìn)行選擇;最后要根據(jù)難度選擇其他分類算法進(jìn)行介紹。
【關(guān)鍵詞】 網(wǎng)絡(luò)課程;數(shù)據(jù)挖掘;挖掘模式
【中圖分類號(hào)】 G40-034 【文獻(xiàn)標(biāo)識(shí)碼】 A 【文章編號(hào)】 1009―458x(2014)09―0068―04
一、引言
隨著互聯(lián)網(wǎng)以及移動(dòng)設(shè)備的迅速普及,人們使用網(wǎng)絡(luò)的時(shí)長(zhǎng)在不斷增加,通過(guò)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的需求及能力也在迅速提高。據(jù)美國(guó)Ambient Insight研究報(bào)告指出,2009年美國(guó)中學(xué)以后的教育機(jī)構(gòu)中,有44%的學(xué)生通過(guò)網(wǎng)絡(luò)進(jìn)行課程學(xué)習(xí),預(yù)計(jì)到2018年,美國(guó)通過(guò)網(wǎng)絡(luò)學(xué)習(xí)的學(xué)生人數(shù)將超過(guò)面授學(xué)生的總?cè)藬?shù)。在韓國(guó),78%的高校都提供網(wǎng)絡(luò)教學(xué)(Allen et al. 2008)。在中國(guó),教育部于2011年10月啟動(dòng)了國(guó)家開(kāi)放課程建設(shè)工作,教育部《教育信息化十年發(fā)展規(guī)劃》(2011-2020年)中也明確提出了“推動(dòng)信息技術(shù)與高等教育融合,創(chuàng)新人才培養(yǎng)模式”的要求,融合的關(guān)鍵就是要選擇有效的網(wǎng)絡(luò)教學(xué)模式,因此,對(duì)網(wǎng)絡(luò)教學(xué)的質(zhì)量和有效性研究正被人們所關(guān)注。
本文以Moodle網(wǎng)絡(luò)課程平臺(tái)為基礎(chǔ),分析并提出有針對(duì)性的數(shù)據(jù)挖掘方法構(gòu)架,以達(dá)到對(duì)課程建設(shè)情況和學(xué)生學(xué)習(xí)應(yīng)用情況的跟蹤分析,為教師改進(jìn)教學(xué)策略、提高網(wǎng)絡(luò)課程教學(xué)質(zhì)量提供有力支持。
二、選擇Moodle網(wǎng)絡(luò)課程平臺(tái)的理由
之所以選擇Moodle課程管理系統(tǒng)建設(shè)網(wǎng)絡(luò)課程平臺(tái),是由于Moodle課程管理系統(tǒng)是一個(gè)開(kāi)源免費(fèi)軟件,更主要的是其模塊化的設(shè)計(jì)非常易于課程的創(chuàng)建,能使課程教師擺脫課程網(wǎng)站建設(shè)的技術(shù)屏障,還可以使教師從課程內(nèi)容的設(shè)計(jì)者轉(zhuǎn)變?yōu)榻虒W(xué)資源與活動(dòng)的組織者。[1]
在國(guó)外Moodle系統(tǒng)的應(yīng)用得到了迅速推廣。有數(shù)據(jù)顯示,使用Moodle的國(guó)家和地區(qū)有200多個(gè),注冊(cè)使用機(jī)構(gòu)有67,000多所,注冊(cè)用戶數(shù)量達(dá)5,800萬(wàn),運(yùn)行課程有600多萬(wàn)門(mén)。注冊(cè)用戶最多的前五位國(guó)家分別是美國(guó)、西班牙、巴西、英國(guó)和德國(guó)。[2]
三、教師所關(guān)注問(wèn)題調(diào)查
根據(jù)教育部頒布的《CELTS-31教育資源建設(shè)技術(shù)規(guī)范》,將教育資源建設(shè)分為素材、課程、評(píng)價(jià)和資源管理系統(tǒng)開(kāi)發(fā)四個(gè)層次。其中素材與課程是網(wǎng)絡(luò)教育資源建設(shè)的基礎(chǔ),評(píng)價(jià)和資源管理系統(tǒng)則分別是確保質(zhì)量與實(shí)現(xiàn)資源建設(shè)的工具與手段。[3]對(duì)于建設(shè)網(wǎng)絡(luò)課程的教師需要了解它的使用情況,從而分析課程結(jié)構(gòu)是否合理,調(diào)整課程內(nèi)容的分布情況,優(yōu)化網(wǎng)絡(luò)課程的設(shè)計(jì),提高教學(xué)效果。
為了解教師使用網(wǎng)絡(luò)課程的期待值和目的性,我們采取目的抽樣和隨機(jī)抽樣相結(jié)合的方式,樣本來(lái)自筆者所在的三個(gè)教師專用QQ群人員。調(diào)查問(wèn)卷設(shè)計(jì)從了解教師對(duì)網(wǎng)絡(luò)課程的需求、認(rèn)識(shí)、應(yīng)用三個(gè)主要層面展開(kāi),具體的問(wèn)卷內(nèi)容為四個(gè)部份:了解參與問(wèn)卷教師的基本情況;了解教師對(duì)網(wǎng)絡(luò)技術(shù)應(yīng)用的需求情況;了解教師對(duì)網(wǎng)絡(luò)課程的認(rèn)識(shí)及使用困難所在;了解教師希望網(wǎng)絡(luò)課程能幫助解決教學(xué)中的哪些問(wèn)題。問(wèn)卷在公共專業(yè)問(wèn)卷調(diào)查網(wǎng)站(問(wèn)卷星)上,一周后回收有效問(wèn)卷159份。數(shù)據(jù)分析基本報(bào)告可見(jiàn)鏈接:http:///report/3234099.aspx。
筆者所在院校為云南普通高校,與問(wèn)卷的地圖分布情況相吻合,應(yīng)該更能代表云南普通高校的普遍情況(見(jiàn)圖1)。
圖1 問(wèn)卷來(lái)源地理分布比率圖
問(wèn)卷中有96.61%的教師認(rèn)為應(yīng)該在教學(xué)中整合網(wǎng)絡(luò)技術(shù),有38.98%的教師因?yàn)榧夹g(shù)應(yīng)用能力的不足,不夠明確如何使用網(wǎng)絡(luò)技術(shù)(見(jiàn)圖2),這說(shuō)明我們建設(shè)網(wǎng)絡(luò)課程應(yīng)該選擇如同Moodle這樣簡(jiǎn)單易用的課程管理系統(tǒng)。
對(duì)于建設(shè)網(wǎng)絡(luò)課程,教師關(guān)注度較高的前4個(gè)方面是:學(xué)生學(xué)習(xí)過(guò)程參與的情況、網(wǎng)絡(luò)資源的使用情況、學(xué)生在線學(xué)習(xí)時(shí)間以及學(xué)生參與討論的頻度情況(見(jiàn)圖3)。
圖2 教師對(duì)網(wǎng)絡(luò)技術(shù)與教學(xué)融合的意見(jiàn)
圖3 教師關(guān)注信息統(tǒng)計(jì)
四、網(wǎng)絡(luò)課程數(shù)據(jù)挖掘模式構(gòu)架
數(shù)據(jù)挖掘技術(shù)是獲取相關(guān)信息的有效技術(shù)手段。對(duì)于教師所關(guān)心的幾個(gè)方面內(nèi)容,這里提供幾種可借鑒的方法:
1. 學(xué)生學(xué)習(xí)過(guò)程分析
美國(guó)教育評(píng)價(jià)專家斯克里文(G F. Scriven)在1967年所著的《評(píng)價(jià)方法論》中,提出形成性評(píng)價(jià)是為正在進(jìn)行的教育活動(dòng)提供反饋信息,以提高正在進(jìn)行的教育活動(dòng)質(zhì)量的評(píng)價(jià),是一種對(duì)學(xué)習(xí)進(jìn)程的動(dòng)態(tài)評(píng)價(jià)。教師和學(xué)生可以依據(jù)獲取的反饋信息了解學(xué)習(xí)狀態(tài),及時(shí)調(diào)整教學(xué)或?qū)W習(xí)。[4]
在Moodle平臺(tái)中具備學(xué)生學(xué)習(xí)進(jìn)展跟蹤功能。
方法一:通過(guò)設(shè)置“課程進(jìn)度跟蹤”,了解學(xué)生各項(xiàng)學(xué)習(xí)活動(dòng)的完成情況。
如圖4所示,進(jìn)入課程,在“課程管理”/“課程進(jìn)度跟蹤”進(jìn)行跟蹤條件設(shè)置,然后再選擇“課程管理”/“報(bào)表”/“課程進(jìn)度”,就會(huì)顯示選修該門(mén)課程的所有學(xué)生的各項(xiàng)學(xué)習(xí)活動(dòng)的完成情況。
圖4 課程進(jìn)度跟蹤設(shè)置
方法二:分析學(xué)生各項(xiàng)學(xué)習(xí)活動(dòng)的參與度。
通過(guò)選擇“課程管理”/“報(bào)表”/“課程成員”,可以詳細(xì)地顯示各項(xiàng)課程活動(dòng)學(xué)生的參與情況,以及參與的次數(shù),更清楚地分析學(xué)生的學(xué)習(xí)努力程度。如圖5所示,列出了數(shù)據(jù)庫(kù)原理及應(yīng)用這門(mén)課程的“第一部分測(cè)驗(yàn)”活動(dòng)、每個(gè)學(xué)生參與的次數(shù)。
方法三:采用數(shù)據(jù)挖掘手段,了解學(xué)生的學(xué)習(xí)風(fēng)格。
此方法要求具備一定的數(shù)據(jù)挖掘知識(shí)及應(yīng)用能力。通過(guò)Mysql系統(tǒng)提取Moodle后臺(tái)數(shù)據(jù)庫(kù)(\server\mysql\data\mysql)進(jìn)行關(guān)聯(lián)規(guī)則分析。
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)行為之間的關(guān)系,通過(guò)對(duì)學(xué)生的某兩類網(wǎng)絡(luò)學(xué)習(xí)行為之間取值關(guān)系進(jìn)行分析就可以得出它們之間的關(guān)聯(lián)性,進(jìn)而預(yù)測(cè)學(xué)生將要進(jìn)行的下一個(gè)行為,從而挖掘網(wǎng)絡(luò)學(xué)生學(xué)習(xí)行為之間的關(guān)系,使得學(xué)生學(xué)習(xí)風(fēng)格顯性化。[5]
2. 課程資源利用情況分析
課程資源建設(shè)是影響網(wǎng)絡(luò)教學(xué)應(yīng)用質(zhì)量的重要因素。甘振韜等通過(guò)SQL Server的Analysis Services 工具,對(duì)網(wǎng)絡(luò)課程的資源配置情況,包括資源配置指數(shù)和訪問(wèn)量進(jìn)行分析。[6]
Moodle平臺(tái)能很直觀地呈現(xiàn)課程各項(xiàng)資源的訪問(wèn)情況。
方法:選擇“課程管理”/“報(bào)表”/“課程活動(dòng)”,課程設(shè)計(jì)的各項(xiàng)活動(dòng)被訪問(wèn)量被詳細(xì)統(tǒng)計(jì)出,如圖6所示,教師可以清楚了解課程資源的利用率情況,分析學(xué)生的學(xué)習(xí)喜好,適當(dāng)調(diào)整各活動(dòng)資源的配比。
圖6 課程資源訪問(wèn)情況
3. 學(xué)生在線學(xué)習(xí)時(shí)間分析
對(duì)于某門(mén)課程,通過(guò)分析學(xué)生的日志,可以掌握學(xué)生的在線學(xué)習(xí)時(shí)間,以及學(xué)習(xí)時(shí)段的分布情況。
方法:點(diǎn)擊“課程管理”/“報(bào)表”/“日志”,其中可以設(shè)定查看所有成員或是某一個(gè)成員、所有活動(dòng)或是某一項(xiàng)活動(dòng),以及所有日期或是某一天,學(xué)生的在線學(xué)習(xí)情況。如圖7所示。
圖7 學(xué)生日志
4. 學(xué)生參與討論的頻度分析
學(xué)生參與課程討論的頻度,可以反映學(xué)生的學(xué)習(xí)主動(dòng)性,教師通過(guò)觀察可以即時(shí)進(jìn)行有針對(duì)性的教學(xué)干預(yù)。
方法:選擇“課程管理”/“報(bào)表”/“課程成員”,如圖8所示,學(xué)生參與“課程聊吧”活動(dòng)的情況。
圖8 學(xué)生參與討論活動(dòng)的頻度
5. 學(xué)習(xí)成績(jī)分析
學(xué)生的最終學(xué)習(xí)情況需要一個(gè)成績(jī)?cè)u(píng)定,Moodle平臺(tái)的設(shè)計(jì)理念中非常強(qiáng)調(diào)過(guò)程性評(píng)價(jià),它能夠記錄學(xué)生學(xué)習(xí)過(guò)程中的各項(xiàng)活動(dòng)成績(jī),包括師生、生生相互評(píng)價(jià)的成績(jī),匯總成學(xué)生的最終成績(jī)。
方法一:查看教學(xué)活動(dòng)的單項(xiàng)成績(jī)情況。
直接使用Moodle平臺(tái)所提供的課程管理功能,點(diǎn)擊“課程管理”/“成績(jī)”選項(xiàng),打開(kāi)成績(jī)管理菜單,再選擇“類別和項(xiàng)”下的“簡(jiǎn)略視圖”(如圖9),可以查看教學(xué)活動(dòng)過(guò)程各項(xiàng)匯總成績(jī)。并可以設(shè)置學(xué)習(xí)過(guò)程中各部分占總成績(jī)的比率。
方法二:對(duì)測(cè)驗(yàn)試題結(jié)構(gòu)分析。
在Moodle中若選擇測(cè)驗(yàn),則出現(xiàn)“測(cè)驗(yàn)管理”,再選擇“測(cè)驗(yàn)管理”/“統(tǒng)計(jì)”,可以得到本次測(cè)驗(yàn)的統(tǒng)計(jì)分析報(bào)告。包括此測(cè)驗(yàn)的標(biāo)準(zhǔn)偏差、測(cè)驗(yàn)的分?jǐn)?shù)分布偏度、分?jǐn)?shù)的分布峰度等。還有此測(cè)驗(yàn)試題的結(jié)構(gòu)分析結(jié)果,包括容易度指數(shù)、試題的標(biāo)準(zhǔn)偏差等(如圖10),能讓教師科學(xué)地調(diào)整測(cè)驗(yàn)的結(jié)構(gòu)組成,試題的難易程度和分?jǐn)?shù)的布局等。
圖10 測(cè)驗(yàn)試題結(jié)構(gòu)
方法三:在成績(jī)管理菜單下選擇“導(dǎo)出”為Excel、OpenDocument電子表格或其它文檔,再進(jìn)行統(tǒng)計(jì)分析。
6. 群組分析(分組)
學(xué)生分組開(kāi)展學(xué)習(xí),可以促進(jìn)學(xué)生的集體意識(shí)及合作能力的培養(yǎng),但如何分組?各分組成員真的能很好地協(xié)作嗎?這需要教師特別注意,需要考慮如何分組才能更好地激發(fā)學(xué)生的學(xué)習(xí)積極性。
方法一:選擇“課程管理”/“用戶”/“小組”,可以自主創(chuàng)建小組,也可以用“自動(dòng)創(chuàng)建小組”方式創(chuàng)建,如圖11所示,就是以自動(dòng)方式創(chuàng)建的小組,其中還可以指定小組數(shù)量或是每個(gè)小組成員數(shù)。這種方式設(shè)置的小組較為隨機(jī),如果希望分組能考慮成員的凝聚性可以選擇方法二進(jìn)行。
方法二:應(yīng)用社會(huì)網(wǎng)絡(luò)分析軟件,如UCINET等,可以開(kāi)展學(xué)習(xí)社群的關(guān)系距離及中心性分析,以及小團(tuán)體分析等分析。通過(guò)收集學(xué)生在討論區(qū)或是聊天室中的問(wèn)答的關(guān)系情況獲得分析數(shù)據(jù)。對(duì)于社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的特征分析可以輔助判斷師生交互網(wǎng)絡(luò)發(fā)展的成熟程度。
五、小結(jié)
本文基于Moodle網(wǎng)絡(luò)課程管理系統(tǒng),介紹了教師關(guān)心的幾個(gè)方面的數(shù)據(jù)分析方法,為想要分析自己網(wǎng)絡(luò)課程使用情況的教師提供方法借鑒,從而教師能夠更好地調(diào)整網(wǎng)絡(luò)課程的內(nèi)容組成、結(jié)構(gòu)布局,以及教學(xué)方法策略的調(diào)整。同時(shí),本研究也適當(dāng)突破Moodle網(wǎng)絡(luò)課程平臺(tái),提供了在其它網(wǎng)絡(luò)課程平臺(tái)中進(jìn)行數(shù)據(jù)挖掘分析的方法和思路。通過(guò)幾個(gè)方面數(shù)據(jù)分析方法的整合,目的是提供一種進(jìn)行網(wǎng)絡(luò)課程數(shù)據(jù)挖掘模式架構(gòu)的研究。今后,研究還應(yīng)深入底層數(shù)據(jù)的分析,提供更具通用性的網(wǎng)絡(luò)課程數(shù)據(jù)挖掘模式方法。
[參考文獻(xiàn)]
[1] 黎加厚. 信息化課程設(shè)計(jì)――Moodle 信息化學(xué)習(xí)環(huán)境創(chuàng)設(shè)[M]. 上海:華東師范大學(xué)出版社,2007.
[2] 張偉遠(yuǎn),段承貴. 網(wǎng)絡(luò)教學(xué)平臺(tái)發(fā)展的全球合作和共建共享[J]. 中國(guó)遠(yuǎn)程教育,2012,(10):32-36.
[3] 鄧康橋. workflow技術(shù)在網(wǎng)絡(luò)課程開(kāi)發(fā)管理系統(tǒng)中的應(yīng)用研究[J].中國(guó)遠(yuǎn)程教育,2013,(4):63-68.
[4] 劉納. 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)學(xué)習(xí)形成性評(píng)價(jià)研究[D]. 上海:華東師范大學(xué),2012.
[5] 李素珍. 基于網(wǎng)絡(luò)學(xué)習(xí)行為分析的網(wǎng)絡(luò)學(xué)習(xí)風(fēng)格與學(xué)習(xí)偏好挖掘模型研究[D]. 武漢:華中師范大學(xué),2009.
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2014)04-59-03
Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.
Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation
0 引言
近年來(lái),傳統(tǒng)科學(xué)研究(如天文物理學(xué)、生物醫(yī)學(xué)等)、電子商務(wù)、網(wǎng)絡(luò)搜索引擎(如GOOGLE和百度等)和物聯(lián)網(wǎng)等產(chǎn)生的數(shù)據(jù)已經(jīng)以PB或ZB(10的21次方)來(lái)計(jì)算。以分布式數(shù)據(jù)倉(cāng)庫(kù)、流計(jì)算的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為代表的最新數(shù)據(jù)存儲(chǔ)技術(shù),讓全世界的數(shù)據(jù)存儲(chǔ)量越來(lái)越大,由人、機(jī)、物三元素高度融合構(gòu)成的信息化的社會(huì)引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng)和數(shù)據(jù)處理模式的高度復(fù)雜化,大數(shù)據(jù)(Big Data)時(shí)代已經(jīng)到來(lái)[1]。因此,數(shù)據(jù)具有越來(lái)越強(qiáng)的可視性、可操作性和可用性,能夠越來(lái)越細(xì)致、精準(zhǔn)、全面和及時(shí)地反映人的思維、行為和情感,以及事物的特性和發(fā)展規(guī)律,要想讓這些大數(shù)據(jù)以更加有效的方式為提升人類各方面的生產(chǎn)力和生活質(zhì)量服務(wù),離不開(kāi)以非平凡的方法發(fā)現(xiàn)蘊(yùn)藏在大量數(shù)據(jù)集中的有用知識(shí)為根本目的數(shù)據(jù)挖掘技術(shù)的支撐。
市場(chǎng)上對(duì)于有大數(shù)據(jù)背景知識(shí)又懂?dāng)?shù)據(jù)挖掘技術(shù)的專業(yè)人才的需求也將越來(lái)越大,作為一名高校計(jì)算機(jī)專業(yè)教師,根據(jù)自己三年來(lái)研究生數(shù)據(jù)挖掘課程的授課經(jīng)歷,結(jié)合當(dāng)前大數(shù)據(jù)的時(shí)代背景,對(duì)數(shù)據(jù)挖掘課程教學(xué)進(jìn)行了新的思考和探索。
1 明確大數(shù)據(jù)背景下學(xué)習(xí)數(shù)據(jù)挖掘知識(shí)的重要性
1.1 大數(shù)據(jù)的定義
“大數(shù)據(jù)”是最近幾年才出現(xiàn)的新名詞,尚無(wú)統(tǒng)一的概念,維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。
1.2 大數(shù)據(jù)的特征
大數(shù)據(jù)的特征可以總結(jié)為四方面,即4V。
⑴ 數(shù)據(jù)量浩大(Volume)――數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級(jí),甚至開(kāi)始以EB和ZB來(lái)計(jì)數(shù)。例如:1立方毫米電子顯微鏡重建出的大腦突觸網(wǎng)絡(luò)的圖像數(shù)據(jù)就超過(guò)1PB。
⑵ 模態(tài)繁多、異構(gòu)(Variety)――大數(shù)據(jù)面向的是一切計(jì)算機(jī)可以存儲(chǔ)的數(shù)據(jù)格式,類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),包括互聯(lián)網(wǎng)上的各種網(wǎng)頁(yè)、圖片、音頻、視頻、文檔、報(bào)表,以及搜索引擎中輸入的關(guān)鍵詞、社交網(wǎng)絡(luò)中的留言、喜好和各種傳感器自動(dòng)收集的監(jiān)控結(jié)果等等。
⑶ 生成快速(Velocity)――大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,同時(shí),數(shù)據(jù)自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。
⑷ 價(jià)值巨大(Value)――數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無(wú)所不在,將對(duì)信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的研究和應(yīng)用起到革命性的作用,價(jià)值巨大[2]。
Gartner、IBM和牛津大學(xué)2012年聯(lián)合的關(guān)于大數(shù)據(jù)的研究報(bào)告指出:交易數(shù)據(jù)、記錄數(shù)據(jù)、事件和電子郵件是四大主要數(shù)據(jù);數(shù)據(jù)挖掘,數(shù)據(jù)可視化,預(yù)測(cè),建模與數(shù)據(jù)優(yōu)化是五大數(shù)據(jù)能力[3]。大數(shù)據(jù)的潛在價(jià)值只有通過(guò)數(shù)據(jù)挖掘才能顯現(xiàn),因此,國(guó)外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國(guó)內(nèi)的騰訊、百度、新浪、淘寶等知名企業(yè)已經(jīng)開(kāi)始著眼大數(shù)據(jù),從不同角度進(jìn)行數(shù)據(jù)挖掘,以便改善自身服務(wù),創(chuàng)造更大的商業(yè)價(jià)值。所以,作為高校教師,首先要讓學(xué)生了解大數(shù)據(jù)的基本特點(diǎn),明確數(shù)據(jù)挖掘知識(shí)和技術(shù)對(duì)當(dāng)今社會(huì)的重要意義。
2 利用概念圖,構(gòu)建數(shù)據(jù)挖掘課程的知識(shí)體系結(jié)構(gòu)
在大學(xué)里,設(shè)置一門(mén)課程,不能只關(guān)注這門(mén)課程所含的內(nèi)容,更要考慮教育培養(yǎng)學(xué)生基本專業(yè)能力、可持續(xù)發(fā)展能力等本質(zhì)性的問(wèn)題。
數(shù)據(jù)挖掘是一門(mén)結(jié)合數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多門(mén)學(xué)科知識(shí)的交叉學(xué)科[4]。而且,該課程既包括各種理論知識(shí),又離不開(kāi)相關(guān)的實(shí)踐技術(shù),整個(gè)教學(xué)過(guò)程是培養(yǎng)和提高學(xué)生的創(chuàng)新能力和綜合解決問(wèn)題能力的重要途徑。因此,針對(duì)計(jì)算機(jī)專業(yè)的學(xué)生,教學(xué)的首要任務(wù)是構(gòu)建起整個(gè)課程的核心知識(shí)結(jié)構(gòu)(如圖1所示),同時(shí),簡(jiǎn)單介紹相關(guān)的統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等計(jì)算機(jī)專業(yè)學(xué)生不太了解的非專業(yè)知識(shí)。
課程核心知識(shí)結(jié)構(gòu)是教學(xué)的主線,是學(xué)生必須要掌握的。首先,讓學(xué)生明確數(shù)據(jù)挖掘前要先經(jīng)過(guò)預(yù)處理,再存入數(shù)據(jù)倉(cāng)庫(kù);其次,針對(duì)具體情況利用相關(guān)的挖掘工具和挖掘算法進(jìn)行挖掘;最后,挖掘結(jié)果以可視化的形式有效地展示給用戶。教學(xué)的重點(diǎn)是挖掘算法和挖掘工具。對(duì)于挖掘算法,以數(shù)據(jù)挖掘國(guó)際會(huì)議ICDM(the IEEE International Conference on Data Mining)的專家評(píng)選出的十大經(jīng)典算法(見(jiàn)表1)為主[5],結(jié)合相關(guān)實(shí)例給學(xué)生介紹各種算法的基本思想和相關(guān)概念,重點(diǎn)介紹使用較多的分類、聚類、關(guān)聯(lián)、序列和機(jī)器學(xué)習(xí)這幾種算法,先為學(xué)生打下良好的理論基礎(chǔ)。
3 以實(shí)例為切入點(diǎn),注重理論結(jié)合實(shí)踐
數(shù)據(jù)挖掘課程主要針對(duì)我校研究生開(kāi)設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場(chǎng)需求,以及課程本身實(shí)踐性強(qiáng)的特點(diǎn),在教學(xué)過(guò)程中要注重理論結(jié)合實(shí)踐,注意培養(yǎng)學(xué)生解決實(shí)際問(wèn)題的能力。因此,在給學(xué)生介紹目前常用的數(shù)據(jù)挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎(chǔ)上,結(jié)合市場(chǎng)應(yīng)用需求,以實(shí)例為切入點(diǎn),分別分析數(shù)據(jù)挖掘在互聯(lián)網(wǎng)日志分析、電子郵件分析、互聯(lián)網(wǎng)廣告挖掘、電子商務(wù)、移動(dòng)互聯(lián)網(wǎng)等各大領(lǐng)域中的實(shí)際應(yīng)用情況和成功案例(表2)。同時(shí),還可以從內(nèi)容挖掘、結(jié)構(gòu)挖掘和用戶訪問(wèn)模式挖掘這三個(gè)方面簡(jiǎn)單介紹WEB挖掘的基本知識(shí)[6]。這樣,課程本身就脫離了枯燥的理論,讓學(xué)生對(duì)數(shù)據(jù)挖掘有了感性認(rèn)識(shí),激發(fā)學(xué)習(xí)興趣。
⑵ 過(guò)濾垃圾郵件。\&互聯(lián)網(wǎng)廣告\&⑴ 通過(guò)大數(shù)據(jù)挖掘,精準(zhǔn)定位各類客戶的廣告形式;
⑵ 準(zhǔn)確評(píng)估廣告效果。\&電子商務(wù)\&用數(shù)據(jù)提升整體營(yíng)銷;通過(guò)日志挖掘做客戶分析;用序列算法分析商品上架時(shí)間;用聚類算法對(duì)商品分類、提升會(huì)員管理。\&移動(dòng)互聯(lián)網(wǎng)\&⑴ 鎖定用戶的數(shù)據(jù)價(jià)值,通過(guò)地理位置信息挖掘出有價(jià)值的東西;
⑵ 文本挖掘。\&]
在教學(xué)過(guò)程中,貫穿以“能力培養(yǎng)為目標(biāo)”的實(shí)踐教學(xué)理念,提供有效的網(wǎng)絡(luò)資源,讓學(xué)生自己動(dòng)手動(dòng)腦,分析成功案例,完成教師給定的虛擬挖掘任務(wù),強(qiáng)化學(xué)生參與意識(shí),教師在以學(xué)生為主體的教學(xué)過(guò)程中當(dāng)好指導(dǎo)者和激勵(lì)者,從而充分調(diào)動(dòng)學(xué)生的主觀能動(dòng)性,掌握不同應(yīng)用領(lǐng)域大數(shù)據(jù)的挖掘問(wèn)題的基本解決方法,培養(yǎng)學(xué)生的創(chuàng)新能力。例如,給學(xué)生一個(gè)文本挖掘的分類題目,讓他們熟悉從原始數(shù)據(jù)的清洗、預(yù)處理、降維、建立模型、測(cè)試、得到結(jié)論等一系列環(huán)節(jié)。
4 改革教學(xué)評(píng)價(jià),實(shí)施分類化評(píng)價(jià)
數(shù)據(jù)挖掘課程是一門(mén)融合了多個(gè)學(xué)科的實(shí)踐性很強(qiáng)的課程,對(duì)應(yīng)的考核方式應(yīng)該與其他專業(yè)課程有所區(qū)別,應(yīng)該更重視學(xué)生學(xué)習(xí)過(guò)程中的表現(xiàn)和能力的提升。
理論知識(shí)的考核注重學(xué)生對(duì)數(shù)據(jù)挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數(shù)量比例,采用統(tǒng)一考核方式和評(píng)判標(biāo)準(zhǔn)。對(duì)于實(shí)踐技能的考核,主要強(qiáng)調(diào)的是學(xué)生對(duì)不同類型數(shù)據(jù)進(jìn)行挖掘時(shí)應(yīng)掌握的相關(guān)軟件使用技能的考查,考核時(shí)除了要體現(xiàn)學(xué)生對(duì)實(shí)驗(yàn)原理的掌握外,更重要的是要反映出學(xué)生在實(shí)驗(yàn)方法的掌握、設(shè)計(jì)、操作過(guò)程中的實(shí)際能力,我們?nèi)∠艘酝岩淮涡钥荚嚱Y(jié)果作為總成績(jī)的方法,而把學(xué)生平時(shí)課堂實(shí)驗(yàn)成績(jī)作為總成績(jī)的主要部分,考核成績(jī)占課程總成績(jī)一定比例。
教師教學(xué)質(zhì)量的評(píng)價(jià)與學(xué)生考核成績(jī)相對(duì)應(yīng),可采用單獨(dú)評(píng)價(jià)和統(tǒng)一評(píng)價(jià)兩種方式。單獨(dú)評(píng)價(jià)是指將社會(huì)實(shí)踐作為一個(gè)獨(dú)立的質(zhì)量評(píng)價(jià)過(guò)程對(duì)教師教學(xué)質(zhì)量進(jìn)行考核;統(tǒng)一評(píng)價(jià)是指將教師實(shí)踐教學(xué)與理論教學(xué)綜合起來(lái)統(tǒng)一考核,以一定比例計(jì)入教師總體評(píng)價(jià)。
無(wú)論是對(duì)學(xué)生,還是對(duì)教師,這種分類化的教學(xué)評(píng)價(jià)方式,不僅有利于學(xué)生實(shí)際能力的培養(yǎng),而且對(duì)教師的教學(xué)水平也是一種促進(jìn),有利于課程教學(xué)質(zhì)量的不斷提高。
5 結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代,誰(shuí)能發(fā)掘出數(shù)據(jù)背后的巨大商業(yè)和社會(huì)價(jià)值,誰(shuí)就能在激烈的市場(chǎng)競(jìng)爭(zhēng)中處于優(yōu)勢(shì)。數(shù)據(jù)挖掘作為計(jì)算機(jī)應(yīng)用專業(yè)的研究生核心課程之一,也是學(xué)生今后就業(yè)必需的專業(yè)技能之一。以往的教學(xué)過(guò)程理論性強(qiáng),枯燥乏味,考核形式單一,學(xué)生學(xué)習(xí)熱情普遍不高,不利于學(xué)生專業(yè)能力的培養(yǎng)。本文結(jié)合當(dāng)前大數(shù)據(jù)的時(shí)代背景,在構(gòu)架課程核心知識(shí)體系的前提下,結(jié)合實(shí)際應(yīng)用領(lǐng)域和案例,分析數(shù)據(jù)挖掘常見(jiàn)算法和常用工具,強(qiáng)調(diào)學(xué)生的參與和主觀能動(dòng)性的發(fā)揮,而采用分類化的教學(xué)評(píng)價(jià)又能比較客觀、公正地評(píng)價(jià)學(xué)生對(duì)課程知識(shí)和專業(yè)實(shí)踐技能的掌握情況以及教師的教學(xué)效果。課程開(kāi)設(shè)三年來(lái)的教學(xué)實(shí)踐證明,學(xué)生綜合運(yùn)用計(jì)算機(jī)專業(yè)知識(shí)的能力得到提高,理論與實(shí)踐結(jié)合的創(chuàng)新能力得到鍛煉,教師在教學(xué)過(guò)程中不斷完善了自身的知識(shí)結(jié)構(gòu),提高了教學(xué)水平,實(shí)現(xiàn)了教學(xué)相長(zhǎng),得到了學(xué)生的好評(píng)。
參考文獻(xiàn):
[1] Anand Rajaraman, Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].人民郵電出版社,2012.
[2] 李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012.8:8-15
[3] Jiawei Han,Micheline Kamber,Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機(jī)械工業(yè)出版社,2012.
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)
數(shù)據(jù)挖掘課程是一門(mén)綜合性很強(qiáng)的前沿學(xué)科,對(duì)計(jì)算機(jī)軟硬件、數(shù)據(jù)庫(kù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)算法、優(yōu)化算法等基礎(chǔ)知識(shí)都有較高的要求。因此該門(mén)課程開(kāi)設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識(shí)的基礎(chǔ),又為大四做畢業(yè)設(shè)計(jì)提供了一種思路。信息管理專業(yè)是計(jì)算機(jī)與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開(kāi)發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對(duì)信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問(wèn)題中的應(yīng)用以及常用數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開(kāi)發(fā)。
三、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個(gè)人興趣和職業(yè)取向在不同模塊之間進(jìn)行選擇和搭配,從而實(shí)現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究的。商務(wù)智能方法本身非常豐富,實(shí)踐應(yīng)用也是課程的主要特點(diǎn)之一,因此十分適合使用模塊化的知識(shí)分解方式。本課程的知識(shí)點(diǎn)模塊管理分為兩個(gè)層次,一是從宏觀角度設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度針對(duì)較為復(fù)雜的教學(xué)內(nèi)容進(jìn)行的知識(shí)點(diǎn)劃分。
1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的基本知識(shí)、數(shù)據(jù)倉(cāng)庫(kù)的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則、分類與預(yù)測(cè)、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡(jiǎn)單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級(jí)主題之間;第九、十章可以算做課程的高級(jí)主題模塊;另外,課程的實(shí)踐模塊既包含數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級(jí)主題之間。
2.復(fù)雜知識(shí)點(diǎn)的模塊化管理。從微觀角度對(duì)知識(shí)點(diǎn)進(jìn)行設(shè)計(jì)主要針對(duì)的是上述的高級(jí)主題、以及難度介于基礎(chǔ)內(nèi)容與高級(jí)主題之間的章節(jié),由于這些章節(jié)知識(shí)點(diǎn)在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門(mén)課程都會(huì)介紹分類算法的概念和基本原理;接著開(kāi)始介紹分類算法的基礎(chǔ)算法———決策樹(shù),而決策樹(shù)算法中又包含ID3等多種算法,并且除了決策樹(shù)外,還有其他更高級(jí)的分類算法;在真正使用分類法進(jìn)行預(yù)測(cè)時(shí),還要分析預(yù)測(cè)準(zhǔn)確度;最終要將所學(xué)知識(shí)加以應(yīng)用。這樣就形成了一個(gè)結(jié)構(gòu)清晰、難度循序漸進(jìn)的知識(shí)點(diǎn)模塊的層次關(guān)系。在宏觀角度、微觀角度對(duì)教學(xué)內(nèi)容進(jìn)行分類的前提下進(jìn)行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。
四、授課與考核方法設(shè)計(jì)
對(duì)不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識(shí)點(diǎn)的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計(jì)時(shí)充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對(duì)于高級(jí)算法和實(shí)現(xiàn)部分,通??梢赃x擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個(gè)基本教學(xué)單元為專題,學(xué)生自主研究作為知識(shí)傳遞的基本形式,將多種靈活的教學(xué)方式綜合運(yùn)用到教學(xué)環(huán)節(jié)的教學(xué)方法。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對(duì)學(xué)生調(diào)研的情況,實(shí)踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進(jìn)行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法??梢葬槍?duì)學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識(shí)的掌握情況,選擇合適的工具為學(xué)生設(shè)計(jì)綜合性實(shí)驗(yàn)。實(shí)驗(yàn)中給出部分操作步驟,并在實(shí)驗(yàn)后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)、進(jìn)行數(shù)據(jù)挖掘、并對(duì)挖掘結(jié)果進(jìn)行多種形式的展示。
中圖分類號(hào):G642 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2014)11-65-02
Course construction of data mining course for IT specialty in application-oriented university
Li Zhong, Li Shanshan
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.
Key words: data mining; course content system; IT specialty; teaching effectiveness
0 引言
毋庸置疑,我們正處在信息時(shí)代。根據(jù)國(guó)際互聯(lián)網(wǎng)管理機(jī)構(gòu)2012年的數(shù)據(jù),每天全球互聯(lián)網(wǎng)流量累計(jì)達(dá)1EB(即10億GB),這意味著每天產(chǎn)生的信息量可以刻滿1.88億張DVD光盤(pán)[1]。要想在如此浩瀚的數(shù)字海洋里尋找有用的信息,簡(jiǎn)直是大海撈針!因此數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。大概十幾年前,微軟創(chuàng)始人比爾?蓋茨就預(yù)言,數(shù)據(jù)挖掘技術(shù)將是未來(lái)計(jì)算機(jī)發(fā)展的重要方向之一,事實(shí)也的確如此。
數(shù)據(jù)挖掘技術(shù)誕生于20世紀(jì)80年代末,是統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、知識(shí)發(fā)現(xiàn)、專家系統(tǒng)、信息檢索、高性能計(jì)算、可視化以及面向?qū)ο蟪绦蛟O(shè)計(jì)等若干學(xué)科知識(shí),在商業(yè)、金融、保險(xiǎn)、體育、勘探、生物技術(shù)等領(lǐng)域獲得廣泛應(yīng)用。也正因?yàn)樵撜n程涉及的內(nèi)容寬泛,要求知識(shí)面寬廣、數(shù)學(xué)基礎(chǔ)扎實(shí)等,前幾年主要在研究生階段開(kāi)設(shè)。但是隨著信息技術(shù)的快速發(fā)展,本科生能力要求提高,知識(shí)傳授的重心下移,很多高校已在本科階段開(kāi)設(shè)數(shù)據(jù)挖掘課程,以提高大學(xué)生解決實(shí)際問(wèn)題的能力,進(jìn)而為課程設(shè)計(jì)和畢業(yè)設(shè)計(jì)打下必要的基礎(chǔ)[2]。
1 國(guó)內(nèi)高校本科數(shù)據(jù)挖掘課程開(kāi)設(shè)現(xiàn)狀
通過(guò)院校實(shí)地交流,結(jié)合網(wǎng)絡(luò)搜索,我們已經(jīng)收集了十幾所高校的數(shù)據(jù)挖掘課程教學(xué)大綱,開(kāi)設(shè)專業(yè)包含有計(jì)算機(jī)類專業(yè)、經(jīng)濟(jì)統(tǒng)計(jì)類專業(yè)、電氣自動(dòng)化類專業(yè)、生物技術(shù)專業(yè)等,各專業(yè)根據(jù)自己的人才培養(yǎng)目標(biāo)制訂教學(xué)大綱、教學(xué)計(jì)劃、考試大綱等,其內(nèi)容存在很大差異。其中985、211高校主要以英語(yǔ)授課,采用國(guó)外原版教材,課程內(nèi)容涉及算法、編程較多;而一般院校多采用中文教材,根據(jù)專業(yè)不同,內(nèi)容也有很大差異。
經(jīng)濟(jì)統(tǒng)計(jì)類專業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程,要求學(xué)生了解什么是數(shù)據(jù)挖掘,以及如何用數(shù)據(jù)挖掘來(lái)解決實(shí)際問(wèn)題,了解如何通過(guò)幾種數(shù)據(jù)挖掘技術(shù)建立數(shù)學(xué)模型,了解主流數(shù)據(jù)挖掘系統(tǒng)的特點(diǎn),能夠安裝、使用,要求能夠熟練使用典型的挖掘工具對(duì)實(shí)際數(shù)據(jù)進(jìn)行分析,具備從數(shù)據(jù)資源提取信息與知識(shí)并進(jìn)行輔助決策的基本能力。
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)30-0240-03
隨著數(shù)據(jù)挖掘、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,亟需對(duì)信息管理專業(yè)的本科生加強(qiáng)對(duì)相關(guān)知識(shí)的介紹,此時(shí)進(jìn)行課程改革,調(diào)整、增加授課學(xué)時(shí)和實(shí)踐環(huán)節(jié)有重要意義。數(shù)據(jù)挖掘是一門(mén)與多學(xué)科交叉的新興計(jì)算機(jī)專業(yè)課程,其課程內(nèi)容豐富、應(yīng)用范圍廣、實(shí)踐工具類型繁多。在有限授課時(shí)間內(nèi),如何選擇適合于信息管理專業(yè)的本科生的課程內(nèi)容、案例與軟件工具,選用何種有針對(duì)性的教學(xué)方法,是進(jìn)行數(shù)據(jù)挖掘課程設(shè)計(jì)需要解決的主要問(wèn)題。
一、國(guó)內(nèi)外數(shù)據(jù)挖掘類課程建設(shè)研究分析
近年來(lái),數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國(guó)外相關(guān)研究,尤其是ACM SIGKDD課程委員會(huì)對(duì)數(shù)據(jù)挖據(jù)課程建設(shè)建議,對(duì)進(jìn)行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國(guó)計(jì)算機(jī)協(xié)會(huì))于1998年成立了SIGKDD(知識(shí)發(fā)現(xiàn)興趣小組),致力于知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACM SIGKDD課程委員會(huì)連續(xù)多年多次更新其主要課程――數(shù)據(jù)挖據(jù)課程的建議,其中委員會(huì)將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級(jí)主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級(jí)主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級(jí)算法的介紹。國(guó)外很多大學(xué)的計(jì)算機(jī)科學(xué)學(xué)院、商學(xué)院都開(kāi)設(shè)了數(shù)據(jù)挖掘類課程并同時(shí)進(jìn)行相關(guān)研究。波士頓大學(xué)開(kāi)設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國(guó)外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國(guó)內(nèi)很多學(xué)校都開(kāi)設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國(guó)大多數(shù)高校的課程大綱內(nèi)容與國(guó)外大致相同,只是在實(shí)踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開(kāi)課學(xué)院和專業(yè)選擇合適的實(shí)例。
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)
數(shù)據(jù)挖掘課程是一門(mén)綜合性很強(qiáng)的前沿學(xué)科,對(duì)計(jì)算機(jī)軟硬件、數(shù)據(jù)庫(kù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)算法、優(yōu)化算法等基礎(chǔ)知識(shí)都有較高的要求。因此該門(mén)課程開(kāi)設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識(shí)的基礎(chǔ),又為大四做畢業(yè)設(shè)計(jì)提供了一種思路。信息管理專業(yè)是計(jì)算機(jī)與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開(kāi)發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對(duì)信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問(wèn)題中的應(yīng)用以及常用數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開(kāi)發(fā)。
三、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個(gè)人興趣和職業(yè)取向在不同模塊之間進(jìn)行選擇和搭配,從而實(shí)現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求[1,2]。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究的。商務(wù)智能方法本身非常豐富,實(shí)踐應(yīng)用也是課程的主要特點(diǎn)之一,因此十分適合使用模塊化的知識(shí)分解方式。本課程的知識(shí)點(diǎn)模塊管理分為兩個(gè)層次,一是從宏觀角度設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度針對(duì)較為復(fù)雜的教學(xué)內(nèi)容進(jìn)行的知識(shí)點(diǎn)劃分。
1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的基本知識(shí)、數(shù)據(jù)倉(cāng)庫(kù)的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則、分類與預(yù)測(cè)、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡(jiǎn)單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級(jí)主題之間;第九、十章可以算做課程的高級(jí)主題模塊;另外,課程的實(shí)踐模塊既包含數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級(jí)主題之間。
2.復(fù)雜知識(shí)點(diǎn)的模塊化管理。從微觀角度對(duì)知識(shí)點(diǎn)進(jìn)行設(shè)計(jì)主要針對(duì)的是上述的高級(jí)主題、以及難度介于基礎(chǔ)內(nèi)容與高級(jí)主題之間的章節(jié),由于這些章節(jié)知識(shí)點(diǎn)在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門(mén)課程都會(huì)介紹分類算法的概念和基本原理;接著開(kāi)始介紹分類算法的基礎(chǔ)算法――決策樹(shù),而決策樹(shù)算法中又包含ID3等多種算法,并且除了決策樹(shù)外,還有其他更高級(jí)的分類算法;在真正使用分類法進(jìn)行預(yù)測(cè)時(shí),還要分析預(yù)測(cè)準(zhǔn)確度;最終要將所學(xué)知識(shí)加以應(yīng)用。這樣就形成了一個(gè)結(jié)構(gòu)清晰、難度循序漸進(jìn)的知識(shí)點(diǎn)模塊的層次關(guān)系。在宏觀角度、微觀角度對(duì)教學(xué)內(nèi)容進(jìn)行分類的前提下進(jìn)行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。
四、授課與考核方法設(shè)計(jì)
對(duì)不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識(shí)點(diǎn)的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計(jì)時(shí)充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對(duì)于高級(jí)算法和實(shí)現(xiàn)部分,通??梢赃x擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個(gè)基本教學(xué)單元為專題,學(xué)生自主研究作為知識(shí)傳遞的基本形式,將多種靈活的教學(xué)方式綜合運(yùn)用到教學(xué)環(huán)節(jié)的教學(xué)方法[3]。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對(duì)學(xué)生調(diào)研的情況,實(shí)踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進(jìn)行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法??梢葬槍?duì)學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識(shí)的掌握情況,選擇合適的工具為學(xué)生設(shè)計(jì)綜合性實(shí)驗(yàn)。實(shí)驗(yàn)中給出部分操作步驟,并在實(shí)驗(yàn)后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)、進(jìn)行數(shù)據(jù)挖掘、并對(duì)挖掘結(jié)果進(jìn)行多種形式的展示。
五、結(jié)論
本文通過(guò)國(guó)內(nèi)外數(shù)據(jù)挖掘課程內(nèi)容、分類、教學(xué)方法的分析,針對(duì)信管專業(yè)本科生的培養(yǎng)要求,研究了數(shù)據(jù)挖掘課程建設(shè)的主要內(nèi)容,并針對(duì)知識(shí)點(diǎn)的不同模塊,實(shí)行不同的授課方式,使學(xué)生更加明確重點(diǎn)、難點(diǎn)和擴(kuò)展內(nèi)容,提高了學(xué)生的聽(tīng)課效率,對(duì)教學(xué)內(nèi)容的模塊化分類、以及相應(yīng)的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進(jìn)行更深入的研究和實(shí)踐。
參考文獻(xiàn):
[1]韋艷艷,張超群.模塊化教學(xué)與學(xué)習(xí)遷移[J].當(dāng)代教育論壇,2018,(5).
[2]鄭浩,陶虎,王曉輝.高校模塊化教學(xué)模式及其效果評(píng)價(jià)方法[J].科技信息,2012,(25).
摘 要:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代產(chǎn)生的一門(mén)新興交叉的課程。針對(duì)該課程的特點(diǎn),將CDIO工程教學(xué)理念融合到教學(xué)過(guò)程,重新設(shè)置了教學(xué)目標(biāo)與大綱、調(diào)整了教學(xué)內(nèi)容、改進(jìn)了教學(xué)方法,總結(jié)了數(shù)據(jù)挖掘課程教學(xué)實(shí)踐的一般流程并給出具體的實(shí)驗(yàn)教學(xué)設(shè)計(jì)方案。
關(guān)鍵詞 :教學(xué)改革;數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘;CDIO
中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A doi:10.3969/j.issn.1665-2272.2015.09.040
收稿日期:2015-03-15
1 CDIO簡(jiǎn)介
CDIO工程教育模式是基于項(xiàng)目的學(xué)習(xí)的一種模式。CDIO中,C(Conceive)構(gòu)思,根據(jù)工程實(shí)踐,讓學(xué)生掌握專業(yè)知識(shí)的基本原理,確定未來(lái)發(fā)展方向;D(Design)設(shè)計(jì),以產(chǎn)品設(shè)計(jì)與規(guī)劃為核心,解決具體問(wèn)題;I(Implement)執(zhí)行,以制造為核心,組織一體化的課程實(shí)踐,其中包括學(xué)生必須掌握的理論知識(shí)與實(shí)踐能力;O(Operate)運(yùn)作,即產(chǎn)品應(yīng)用的各個(gè)環(huán)節(jié)。它以產(chǎn)品的研發(fā)到運(yùn)行的生命周期為載體,通過(guò)系統(tǒng)的產(chǎn)品設(shè)計(jì)讓學(xué)生以主動(dòng)的、實(shí)踐的、課程有機(jī)聯(lián)系的方式學(xué)習(xí)。CDIO代表工程項(xiàng)目生命全周期,是產(chǎn)業(yè)轉(zhuǎn)型升級(jí)對(duì)創(chuàng)新人才需求的形勢(shì)。
CDIO培養(yǎng)大綱將工程畢業(yè)生的能力分為技術(shù)知識(shí)與推理、個(gè)人專業(yè)能力和素質(zhì)、團(tuán)隊(duì)合作與溝通能力、在企業(yè)和社會(huì)環(huán)境下CDIO系統(tǒng)四個(gè)層面,大綱要求以綜合的培養(yǎng)方式達(dá)到這四個(gè)層面的預(yù)定目標(biāo)。其精髓在于:以工程項(xiàng)目設(shè)計(jì)為導(dǎo)向、工程能力培養(yǎng)為目標(biāo)的工程教育模式。
2 “數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程概況
當(dāng)今的大數(shù)據(jù)時(shí)代,人們處理數(shù)據(jù)的能力大大增強(qiáng),快速增長(zhǎng)的海量數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出人們的理解能力,因此數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)得到了廣泛關(guān)注,有效地挖掘和運(yùn)用海量數(shù)據(jù),獲得有價(jià)值的知識(shí)和信息,從而幫助人們制定正確的決策。很多高校為工程類專業(yè)本科生開(kāi)設(shè)這門(mén)專業(yè)課,研究如何將信息處理技術(shù)運(yùn)用于企業(yè)管理決策的具體實(shí)際。
本工程課程涉及到數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與構(gòu)建技術(shù)、聯(lián)機(jī)分析處理OLAP技術(shù)、分類與預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則算法、數(shù)據(jù)挖掘應(yīng)用綜合項(xiàng)目技術(shù)等多方面的知識(shí)和技能。通過(guò)課程的學(xué)習(xí),不僅要求學(xué)生掌握在數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘方面的知識(shí),還要求培養(yǎng)學(xué)生的工程CDIO能力。
但是目前許多高校在工程教育采用的教學(xué)方式存在以下問(wèn)題:培養(yǎng)目標(biāo)不清楚,學(xué)術(shù)化傾向嚴(yán)重;人才培養(yǎng)模式單一,缺乏多樣性和適應(yīng)性;工程性缺失和實(shí)踐環(huán)節(jié)薄弱;課程體系與產(chǎn)業(yè)結(jié)構(gòu)調(diào)整不適應(yīng)等。在教學(xué)過(guò)程中,強(qiáng)調(diào)教師的主導(dǎo)作用,卻忽視了學(xué)生的主體作用,忽視了學(xué)生的工程意識(shí)、工程素質(zhì)和工程實(shí)踐能力的培養(yǎng)。這與高校培養(yǎng)創(chuàng)新性應(yīng)用型人才的目標(biāo)相悖。因此,改革勢(shì)在必行。
3 “數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程改革實(shí)踐
3.1 基于CDIO理念的教學(xué)目標(biāo)與大綱
CDIO教育理念所提倡的工程畢業(yè)生的能力分為技術(shù)知識(shí)與推理、個(gè)人專業(yè)能力和素質(zhì)、團(tuán)隊(duì)合作與溝通能力、在企業(yè)和社會(huì)環(huán)境下CDIO系統(tǒng)四個(gè)層面,四個(gè)層面上進(jìn)行綜合培養(yǎng)的教學(xué)模式。在CDIO能力培養(yǎng)目標(biāo)方面,課程在四個(gè)能力層面上建立培養(yǎng)目標(biāo)。
針對(duì)“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述”內(nèi)容,知識(shí)點(diǎn)是數(shù)據(jù)倉(cāng)庫(kù)的含義與特征、數(shù)據(jù)挖掘的任務(wù)、多維數(shù)據(jù)模型。講授數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)、構(gòu)成以及數(shù)據(jù)挖掘和數(shù)據(jù)處理的基本知識(shí),使學(xué)生有一個(gè)初步的理解。培養(yǎng)學(xué)生技術(shù)知識(shí)與推理能力。
針對(duì)“聯(lián)機(jī)分析處理OLAP”內(nèi)容,知識(shí)點(diǎn)是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、基于多維數(shù)據(jù)模型的數(shù)據(jù)分析。本階段如果不結(jié)合直觀的舉例講解,學(xué)生就失去了興趣,因此筆者要布置一些思考題,教會(huì)學(xué)生自主學(xué)習(xí),自己查閱教材、網(wǎng)絡(luò)等資源資料,從中提煉出結(jié)論。培養(yǎng)個(gè)人分析問(wèn)題、解決問(wèn)題的能力、所學(xué)知識(shí)的靈活應(yīng)用能力;
針對(duì)“分類與預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則”內(nèi)容,知識(shí)點(diǎn)是數(shù)據(jù)采集、關(guān)聯(lián)規(guī)則算法的設(shè)計(jì)、結(jié)果分析。在這個(gè)階段經(jīng)常會(huì)是“數(shù)據(jù)的堆砌”,講了很廣泛的算法知識(shí)卻沒(méi)有足夠的時(shí)間進(jìn)行深入理解。因此應(yīng)抓住關(guān)鍵的概念、能力,引導(dǎo)學(xué)生提出問(wèn)題,并學(xué)會(huì)調(diào)查研究,為學(xué)生提供深層學(xué)習(xí)的機(jī)會(huì),并把在第一層面所學(xué)的知識(shí)運(yùn)用到對(duì)問(wèn)題的解決之中去。這樣,學(xué)習(xí)的焦點(diǎn)就從“覆蓋”的方式過(guò)渡到以學(xué)生為中心的學(xué)習(xí)方式。培養(yǎng)數(shù)據(jù)獲取能力、程序設(shè)計(jì)能力、問(wèn)題表達(dá)能力;
針對(duì)“數(shù)據(jù)挖掘應(yīng)用綜合項(xiàng)目”內(nèi)容,知識(shí)點(diǎn)是項(xiàng)目的準(zhǔn)備、進(jìn)度管理、文檔管理和項(xiàng)目設(shè)計(jì)和實(shí)現(xiàn)。實(shí)際工作牽涉到企業(yè)或者組織的各個(gè)部門(mén)多類人員,所有團(tuán)隊(duì)成員之間協(xié)同、合作,會(huì)有分工、溝通、協(xié)調(diào),甚至?xí)型讌f(xié),這就要求在運(yùn)用實(shí)例的過(guò)程中一定要具有團(tuán)隊(duì)合作精神。培養(yǎng)工程系統(tǒng)能力和人際團(tuán)隊(duì)能力。
3.2 改革教學(xué)內(nèi)容
在教學(xué)內(nèi)容中安排了兩級(jí)項(xiàng)目:多種初級(jí)項(xiàng)目和一個(gè)高級(jí)項(xiàng)目。初級(jí)項(xiàng)目是將課程內(nèi)容分成各種項(xiàng)目,數(shù)據(jù)主要來(lái)源于SQL Server 2008的示例數(shù)據(jù)倉(cāng)庫(kù)Adventure Works DW,以項(xiàng)目實(shí)現(xiàn)促進(jìn)理論學(xué)習(xí);高級(jí)項(xiàng)目是綜合性項(xiàng)目:“卷煙產(chǎn)品銷售規(guī)律挖掘”,利用卷煙產(chǎn)品歷史銷售數(shù)據(jù)中蘊(yùn)含的信息,采用數(shù)據(jù)挖掘技術(shù)對(duì)各個(gè)卷煙品種銷售的關(guān)聯(lián)關(guān)系進(jìn)行分析并預(yù)測(cè),以制定更加合理的卷煙產(chǎn)品營(yíng)銷策略。具體項(xiàng)目設(shè)置如下:
項(xiàng)目一:基于SQL Server 2008的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)及多維數(shù)據(jù)模型設(shè)計(jì)。步驟如下:分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)組織需求調(diào)研,收集分析需求采用信息包圖法設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的概念模型利用星型圖設(shè)計(jì)邏輯模型物理模型設(shè)計(jì)構(gòu)建多維數(shù)據(jù)模型。本項(xiàng)目旨在個(gè)人能力的培養(yǎng)(分析問(wèn)題、解決問(wèn)題的能力、所學(xué)知識(shí)的靈活運(yùn)用能力等)。
項(xiàng)目二:關(guān)聯(lián)規(guī)則挖掘。使用商業(yè)智能開(kāi)發(fā)工具進(jìn)行購(gòu)物籃分析,以達(dá)到重新設(shè)計(jì)網(wǎng)站功能,提高產(chǎn)品的零售量。
項(xiàng)目三:潛在客戶分析即分類及預(yù)測(cè)。使用商業(yè)智能開(kāi)發(fā)工具分析購(gòu)買(mǎi)自行車的潛在客戶。
項(xiàng)目四:K-Means聚類分析。使用商業(yè)智能開(kāi)發(fā)工具分析客戶購(gòu)買(mǎi)自行車情況分析。
項(xiàng)目五:貝葉斯網(wǎng)絡(luò)應(yīng)用。使用商業(yè)智能開(kāi)發(fā)工具解決一個(gè)簡(jiǎn)單的預(yù)測(cè)和診斷問(wèn)題。
項(xiàng)目二至五旨在培養(yǎng)學(xué)生個(gè)人能力(數(shù)據(jù)獲取能力、程序設(shè)計(jì)能力等)和人際團(tuán)隊(duì)能力(問(wèn)題表達(dá)能力、人際交流能力),倡導(dǎo)學(xué)生樂(lè)于探究、勤于動(dòng)手。
高級(jí)項(xiàng)目:數(shù)據(jù)挖掘應(yīng)用綜合項(xiàng)目“卷煙產(chǎn)品銷售規(guī)律挖掘”。將一個(gè)相對(duì)獨(dú)立的項(xiàng)目交由學(xué)生自己處理,從信息的收集,方案的設(shè)計(jì),到項(xiàng)目實(shí)施及最終評(píng)價(jià),都由學(xué)生自己負(fù)責(zé),學(xué)生通過(guò)該項(xiàng)目的進(jìn)行,了解并把握整個(gè)過(guò)程及每一個(gè)環(huán)節(jié)中的基本要求。通過(guò)綜合項(xiàng)目,學(xué)生完成了CDIO的四個(gè)階段,提升CDIO所提倡的四大能力,具體體現(xiàn)如表1所示。
3.3 改革教學(xué)方法
在課程教學(xué)方法是項(xiàng)目教學(xué)法為主,任務(wù)驅(qū)動(dòng)法和案例教學(xué)法為輔的教學(xué)模式,起到很好的教學(xué)效果。
4 結(jié)語(yǔ)
CDIO工程教育模式由麻省理工學(xué)院和瑞典皇家工程學(xué)院提出,包括構(gòu)思、設(shè)計(jì)、實(shí)現(xiàn)和運(yùn)作四個(gè)環(huán)節(jié),是國(guó)際流行的工程人才培養(yǎng)理念,強(qiáng)調(diào)對(duì)學(xué)生創(chuàng)新思維、實(shí)踐能力和團(tuán)隊(duì)協(xié)作精神的培養(yǎng)。本文體現(xiàn)了CDIO理念的能力培養(yǎng)要求,將數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)開(kāi)發(fā)方法和數(shù)據(jù)挖掘技術(shù)融入具有較強(qiáng)工程背景與應(yīng)用價(jià)值的項(xiàng)目設(shè)計(jì)與開(kāi)發(fā)中,理論與實(shí)踐緊密結(jié)合,推動(dòng)課程建設(shè)和課程教學(xué)改革。
參考文獻(xiàn)
1 顧佩華,沈民奮,陸小華譯.重新認(rèn)識(shí)工程教育—國(guó)際CDIO培養(yǎng)模式與方法[M].北京:高等教育出版社,2009
2 郭長(zhǎng)虹. 重構(gòu)CDIO特色的工程圖學(xué)課程體系[J].圖文學(xué)報(bào),2013(3)
關(guān)鍵詞: 數(shù)據(jù)挖掘技術(shù);課程;教學(xué)
Key words: data mining technology;course;teaching
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2011)25-0155-01
0 引言
數(shù)據(jù)挖掘技術(shù)是電子商務(wù)專業(yè)的一門(mén)重要專業(yè)課程,它是信息化時(shí)代對(duì)信息與數(shù)據(jù)管理的必然要求。一方面,在生產(chǎn)、生活和商業(yè)活動(dòng)中,我們產(chǎn)生了海量的數(shù)據(jù),這些數(shù)據(jù)有著不同的表現(xiàn)形式,如最常見(jiàn)的超市記錄單、各種各樣的公司或商業(yè)數(shù)據(jù)庫(kù),還包括音頻、視頻等;另一方面,我們需要從這些數(shù)據(jù)中尋求規(guī)律,對(duì)數(shù)據(jù)進(jìn)行“挖掘”,使數(shù)據(jù)發(fā)揮更大的作用[1]。數(shù)據(jù)挖掘正是從大量的數(shù)據(jù)中提取出隱含的、以前不為人所知的、可信而有效的知識(shí)[2]。數(shù)據(jù)挖掘技術(shù)教學(xué)的目的就是要使學(xué)生掌握典型的數(shù)據(jù)挖掘技術(shù),并能夠運(yùn)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問(wèn)題,為今后運(yùn)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問(wèn)題打下扎實(shí)的基礎(chǔ)。
1 數(shù)據(jù)挖掘技術(shù)課程特點(diǎn)
數(shù)據(jù)挖掘技術(shù)具有自己獨(dú)特的課程特點(diǎn):
1.1 新穎性 1995年,在加拿大召開(kāi)了第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議(International Conference on Knowledge Discovery and Data Mining),由于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)形象地比喻為“礦床”,“數(shù)據(jù)挖掘”一詞很快流傳開(kāi)來(lái)[3]。數(shù)據(jù)挖掘的發(fā)展僅有10余年的時(shí)間,數(shù)據(jù)挖掘技術(shù)課程是一門(mén)新興學(xué)科。
1.2 內(nèi)容廣 數(shù)據(jù)挖掘包括關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、特征規(guī)則挖掘、時(shí)序規(guī)則挖掘、偏差規(guī)則挖掘、聚類規(guī)則挖掘和預(yù)測(cè)這七大任務(wù),相應(yīng)的,每種任務(wù)都有自己專門(mén)的挖掘技術(shù)[4],如關(guān)聯(lián)規(guī)則挖掘的典型技術(shù)為Apriori算法及其衍生技術(shù),分類規(guī)則挖掘的典型技術(shù)為ID3或C4.5決策樹(shù)算法及其改進(jìn)算法等。
1.3 有深度 數(shù)據(jù)挖掘技術(shù)作為一門(mén)計(jì)算機(jī)與數(shù)據(jù)處理相結(jié)合的新興學(xué)科,具有一定的難度。其中的任何一個(gè)技術(shù)都可以獨(dú)立成篇,如粗糙集分類算法自原理至實(shí)例推廣就是一門(mén)單獨(dú)的課程;作為數(shù)據(jù)處理的重要內(nèi)容,聚類算法同樣可以獨(dú)立成籍。
1.4 交叉性 誠(chéng)如前面所述,數(shù)據(jù)挖掘技術(shù)有著廣泛的支撐背景,既包括信息論方法和集合論方法等歸納學(xué)習(xí)類技術(shù),又包括神經(jīng)網(wǎng)絡(luò)方法、遺傳算法方法、蟻群算法等仿生物技術(shù),還包括成熟的統(tǒng)計(jì)分析技術(shù)和模糊數(shù)學(xué)技術(shù),此外還有公式發(fā)現(xiàn)類技術(shù)和可視化技術(shù)等??梢赃@樣說(shuō),數(shù)據(jù)挖掘總是在廣泛吸取其他各門(mén)學(xué)科的先進(jìn)技術(shù),并加以轉(zhuǎn)化、發(fā)展的。
2 數(shù)據(jù)挖掘技術(shù)教學(xué)過(guò)程存在的問(wèn)題剖析
數(shù)據(jù)挖掘技術(shù)作為一門(mén)新學(xué)科、新課程,發(fā)展迅速,但是其缺點(diǎn)也是不言而喻的,主要包括:
2.1 課程教材不統(tǒng)一 目前,數(shù)據(jù)挖掘技術(shù)的教材層出不窮,這些教材盡管總體涵蓋內(nèi)容相近,均自成體系,但是有的細(xì)節(jié)卻并不一致,如多數(shù)教材主張采用E-R圖進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)(數(shù)據(jù)挖掘通常總是與數(shù)據(jù)倉(cāng)庫(kù)連接在一起的)設(shè)計(jì),但也有教材持反駁態(tài)度[3];對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)說(shuō)法也不盡一致,不同的教材給出不同的體系結(jié)構(gòu),有的甚至將數(shù)據(jù)結(jié)構(gòu)等同于體系結(jié)構(gòu)[5]。這主要是由于學(xué)科和課程的新穎性導(dǎo)致的,使得教材的編寫(xiě)多帶有研究探索的性質(zhì),未能達(dá)成統(tǒng)一。
2.2 教學(xué)重點(diǎn)不統(tǒng)一 教材的不統(tǒng)一和學(xué)時(shí)的不統(tǒng)一(如有的院校是36課時(shí),有的是48課時(shí))導(dǎo)致教學(xué)重點(diǎn)也不統(tǒng)一,有的考慮到學(xué)生掌握知識(shí)的淺顯性,將重點(diǎn)放在統(tǒng)計(jì)分析技術(shù),而對(duì)神經(jīng)網(wǎng)絡(luò)技術(shù)和遺傳算法技術(shù)等相對(duì)較難的技術(shù)一筆帶過(guò);有的則考慮到體系的完整性,對(duì)所有數(shù)據(jù)挖掘技術(shù)等同對(duì)待,均勻筆墨。
2.3 教學(xué)方式不統(tǒng)一 數(shù)據(jù)挖掘技術(shù)是一門(mén)實(shí)驗(yàn)技術(shù)較強(qiáng)的課程,但是有的教師在安排授課時(shí),僅設(shè)置理論課時(shí),沒(méi)有實(shí)驗(yàn)課時(shí);有的教師則將課程直接放在實(shí)驗(yàn)室來(lái)上,偏重于對(duì)學(xué)生實(shí)驗(yàn)技巧的掌握。當(dāng)然,更多的是將實(shí)驗(yàn)課時(shí)與理論課時(shí)交錯(cuò)進(jìn)行的。對(duì)實(shí)驗(yàn)安排的處理也不盡相同,有的分組進(jìn)行,有的則由學(xué)生獨(dú)立完成。
3 提高數(shù)據(jù)挖掘技術(shù)課程效果的對(duì)策建議
3.1 精心編排課程講義 課程教材是授課的首要基礎(chǔ),一本好的教材不僅便于教師的備課、授課,更有利于學(xué)生的理解。當(dāng)然,教材與課時(shí)、教學(xué)大綱有著密切關(guān)系,教師在選擇教材時(shí)應(yīng)充分考慮學(xué)生的學(xué)科基礎(chǔ)、授課課時(shí)數(shù)、教學(xué)大綱規(guī)定的培養(yǎng)目標(biāo)等各種因素,從大量層出不窮的教材中選擇最理想的教材,適當(dāng)?shù)臅r(shí)候也可根據(jù)相關(guān)教材,整理一份恰當(dāng)?shù)闹v義教材,組織學(xué)生使用。
3.2 合理安排教學(xué)內(nèi)容 數(shù)據(jù)挖掘技術(shù)的教學(xué)內(nèi)容應(yīng)考到學(xué)科體系的完整性,既要為學(xué)生打牢理論基礎(chǔ),又要突出學(xué)生實(shí)踐能力的培養(yǎng)。因此要以“掌握理論、強(qiáng)化應(yīng)用、突出能力”作為數(shù)據(jù)挖掘技術(shù)課程的培養(yǎng)目標(biāo),通過(guò)精選具有充分代表性、源于實(shí)際問(wèn)題的典型例題與案例,使它們能基本覆蓋在實(shí)際中最常見(jiàn)的數(shù)據(jù)挖掘問(wèn)題,在講解這些從實(shí)踐中抽取并經(jīng)過(guò)精心改造和設(shè)計(jì)的例題和案例的過(guò)程中,逐步地建立起學(xué)生應(yīng)該掌握的數(shù)據(jù)挖掘技術(shù)理論框架。
4 結(jié)束語(yǔ)
數(shù)據(jù)挖掘技術(shù)教學(xué)具有十分重要的現(xiàn)實(shí)意義,通過(guò)科學(xué)講述數(shù)據(jù)挖掘技術(shù),有助于培養(yǎng)學(xué)生對(duì)理論知識(shí)的現(xiàn)實(shí)應(yīng)用轉(zhuǎn)化能力,培養(yǎng)學(xué)生從現(xiàn)實(shí)世界出發(fā)提出問(wèn)題、分析問(wèn)題和解決問(wèn)題的能力。數(shù)據(jù)挖掘技術(shù)的教學(xué)應(yīng)以培養(yǎng)學(xué)生能力為主線,精心組織教學(xué)內(nèi)容,有效采用多種方式,增進(jìn)學(xué)生對(duì)知識(shí)的理解與掌握,顯著提高教學(xué)效果與質(zhì)量。
參考文獻(xiàn):
[1]陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2006.
[2]Jiawei Han,Micheline Kamber著.范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)16-21267-03
Data Mining Based Course Competence Development of C Programming Language for Vocational College
GUO Xiao-chen1,2
(Chenzhou Vocational Technical College,Chenzhou 423000,China)
Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.
Key words: data mining; concept description;class comparision; C Programming Language
1 引言
C語(yǔ)言程序設(shè)計(jì)課程是計(jì)算機(jī)應(yīng)用和電子信息工程專業(yè)的必修程序設(shè)計(jì)課,是知識(shí)性、技能性和實(shí)踐性很強(qiáng)的課程。主要培養(yǎng)學(xué)生利用計(jì)算機(jī)來(lái)處理實(shí)際問(wèn)題的能力和培養(yǎng)學(xué)生程序設(shè)計(jì)的思維能力,使學(xué)生能夠掌握C語(yǔ)言的基本語(yǔ)法和算法,能利用C語(yǔ)言進(jìn)行基本的程序設(shè)計(jì)。
C語(yǔ)言程序設(shè)計(jì)主要由數(shù)據(jù)描述、程序控制兩大模塊組成,包括基礎(chǔ)數(shù)據(jù)類型、流程控制、函數(shù)和復(fù)雜數(shù)據(jù)類型等四個(gè)單元的內(nèi)容。筆者從事多年的C語(yǔ)言程序設(shè)計(jì)教學(xué)工作,如何利用有效數(shù)據(jù)分析工具,將所積累的豐富的數(shù)據(jù)轉(zhuǎn)換為有價(jià)值的知識(shí),了解和分析學(xué)生的知識(shí)掌握及能力培養(yǎng)情況,并采用相應(yīng)的教學(xué)改革。
2 數(shù)據(jù)挖掘技術(shù)的概念和內(nèi)涵
數(shù)據(jù)挖掘(DataMining)是對(duì)大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù),進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,從而提取能輔助決策的關(guān)鍵性數(shù)據(jù),并能結(jié)合應(yīng)用領(lǐng)域的特點(diǎn),推導(dǎo)出有用的知識(shí)的過(guò)程;簡(jiǎn)而言之,數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。通常采用概念/類描述、關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析及演變分析等方法來(lái)完成數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過(guò)程是一個(gè)線性的過(guò)程,依據(jù)不同信息平臺(tái)的數(shù)據(jù)類型,采用面向環(huán)境的管理方式,實(shí)現(xiàn)面向環(huán)境要求的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過(guò)程一般由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋與評(píng)估四個(gè)階段組成。
3 數(shù)據(jù)挖掘技術(shù)在《C語(yǔ)言程序設(shè)計(jì)》課程能力培養(yǎng)分析中的應(yīng)用
3.1 數(shù)據(jù)倉(cāng)庫(kù)的建立
挖掘所需要的數(shù)據(jù)來(lái)源于某高職院校近3年來(lái)計(jì)算機(jī)應(yīng)用和電子信息工程兩專業(yè)近860名學(xué)生的C語(yǔ)言程序設(shè)計(jì)這門(mén)課程的期末考試成績(jī)、實(shí)驗(yàn)成績(jī)及實(shí)習(xí)成績(jī),給定屬性學(xué)號(hào)(ID)、姓名(name)、性別(gender)、專業(yè)(major)、科類(section)、成績(jī)(result)。成績(jī)部分包括考試成績(jī)(test_result簡(jiǎn)稱為t_r)、實(shí)驗(yàn)成績(jī)(experimental_result簡(jiǎn)稱為e_r) 、實(shí)習(xí)成績(jī)(practice_result簡(jiǎn)稱為p_r)及總分?jǐn)?shù)(total_score簡(jiǎn)稱為t_s),其中總分?jǐn)?shù)=考試成績(jī)×70%+實(shí)習(xí)成績(jī)×20%+實(shí)驗(yàn)成績(jī)×10%。通過(guò)對(duì)考試試卷的分析統(tǒng)計(jì),基礎(chǔ)數(shù)據(jù)類型(Foundation Data Type簡(jiǎn)稱為FDT)、流程控制(Process Control簡(jiǎn)稱為PC)、函數(shù)(Function簡(jiǎn)稱為F)和復(fù)雜數(shù)據(jù)類型(Complicated Data Type簡(jiǎn)稱為CDT)四個(gè)單元的分?jǐn)?shù)比重分別為20%,30%,20%,30%,綜合考慮各單元的內(nèi)容,匯總統(tǒng)計(jì)出各單元的滿分分值為14,21,14,21。
該數(shù)據(jù)挖掘任務(wù)可以用DMQL表示如下:
Define cub discretmath〔ID,name,gender,section,major,result〕。
total_score=sum (result);
define dimension result(test_result,Programes_result,practice_ result);
define dimension test_result(FDT,PC,F, CDT)。
數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)如表1:
3.2 數(shù)據(jù)的預(yù)處理
由于現(xiàn)實(shí)中的數(shù)據(jù)多半是不完整的、有噪聲的、不一致的,某些學(xué)生的成績(jī)會(huì)因教師個(gè)人感情或其它因素而分?jǐn)?shù)偏高或偏低,從而導(dǎo)致現(xiàn)有分?jǐn)?shù)含有一定偏差的噪聲數(shù)據(jù),對(duì)此可以通過(guò)數(shù)據(jù)的預(yù)處理技術(shù)改進(jìn)數(shù)據(jù)的質(zhì)量,提高其后的挖掘過(guò)程的精度和性能。本文利用數(shù)據(jù)清理中的聚類中K_平均算法找出孤立點(diǎn),并利用分箱技術(shù)將噪聲去掉。表2為經(jīng)過(guò)數(shù)據(jù)預(yù)處理的二維視圖。
以上數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),就是經(jīng)過(guò)預(yù)處理后,得到的是集成的、概念分層的、不含有噪聲的數(shù)據(jù),該數(shù)據(jù)可以用來(lái)進(jìn)行準(zhǔn)確的數(shù)據(jù)挖掘工作。
3.3概念/類描述
3.3.1數(shù)據(jù)概化
數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象通常包含原始概念層的細(xì)節(jié)信息,在多數(shù)情況下,感興趣的一般是在不同抽象層上得到的數(shù)據(jù)的量化信息或統(tǒng)計(jì)信息。因此,首先采用解析特征化進(jìn)行屬性相關(guān)分析,來(lái)幫助識(shí)別不相關(guān)或弱相關(guān)屬性,將它們排除在概念描述過(guò)程之外。概化過(guò)程如下:
1)收集目標(biāo)類數(shù)據(jù),它由計(jì)算機(jī)專業(yè)的集合組成,對(duì)比類數(shù)據(jù)取電子信息工程專業(yè)的集合;
2)用保守的屬性概化閾值進(jìn)行面向?qū)傩缘臍w納,通過(guò)屬性刪除和屬性概化進(jìn)行預(yù)相關(guān)分析。
ID:由于ID存在大量不同值,并且其上沒(méi)有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒(méi)有概化操作符,該屬性被刪除;gender:由于gender只有兩個(gè)不同值,該屬性保留,并且不對(duì)其進(jìn)行概化;major:假定已定義了一個(gè)概念分層,允許將屬性major概化到值{計(jì)算機(jī)應(yīng)用,電子信息工程};section:假定已定義了一個(gè)概念分層,允許將屬性科類概化到值{理科,文科,對(duì)口};total_score:該屬性存在大量不同值,因此應(yīng)當(dāng)概化它。假定存在total的概念分層,將分?jǐn)?shù)數(shù)值區(qū)間{100_85,84一70,69_60,59_0}按等級(jí)(grade){A,B,C,D}分組,這樣該屬性可以被概化。
表3通過(guò)對(duì)表2的數(shù)據(jù)進(jìn)行概化得到的關(guān)系
3.3.2類比較的實(shí)現(xiàn)
通過(guò)概化處理,數(shù)據(jù)倉(cāng)庫(kù)中的屬性基本已經(jīng)得到了單個(gè)類的描述。但我們希望挖掘一個(gè)描述是它能將一個(gè)類與其它可比較的類相區(qū)分,因此采用挖掘類比較來(lái)實(shí)現(xiàn)。現(xiàn)給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。
1)專業(yè)類別分析
首先確定目標(biāo)類與對(duì)比類為屬性major中計(jì)算機(jī)應(yīng)用和電子信息工程兩個(gè)不同專業(yè)的學(xué)生;其次,對(duì)兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表4所示。
從表4可以看出,與電子信息工程專業(yè)相比,計(jì)算機(jī)應(yīng)用專業(yè)的學(xué)生趨向平均分、實(shí)習(xí)成績(jī)及實(shí)驗(yàn)成績(jī)這三部分分?jǐn)?shù)較高,體現(xiàn)出學(xué)生在知識(shí)應(yīng)用能力和計(jì)算機(jī)編程能力上較強(qiáng),但對(duì)知識(shí)掌握出現(xiàn)兩極分化嚴(yán)重,針對(duì)這部分基礎(chǔ)知識(shí)掌握不牢固的學(xué)生,教師在執(zhí)教時(shí)就應(yīng)考慮加強(qiáng)基礎(chǔ)知識(shí)的鞏固。相對(duì)而言電子信息工程專業(yè)的學(xué)生對(duì)基礎(chǔ)知識(shí)的掌握基本較好,但對(duì)該課程的靈活應(yīng)用有所欠缺,這就使得在教學(xué)過(guò)程中應(yīng)適當(dāng)注重培養(yǎng)學(xué)生的應(yīng)用能力,加強(qiáng)對(duì)他們編程、實(shí)驗(yàn)及實(shí)習(xí)的輔導(dǎo)。
2)性別類別分析
首先確定目標(biāo)類與對(duì)比類為屬性gender中的男和女;其次,對(duì)兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表5所示。
表4 主類(計(jì)算機(jī)應(yīng)用)與目標(biāo)類(電子信息工程)關(guān)系 表5 主類(男)與目標(biāo)類(女)關(guān)系
從表5可以看出,與女生相比,男生從總體上對(duì)該門(mén)課程的學(xué)習(xí)效果較差,不及格率較高,且優(yōu)秀率低,基礎(chǔ)知識(shí)掌握不牢固,體現(xiàn)出不少男生學(xué)習(xí)態(tài)度不端正,目的不明確,缺乏學(xué)習(xí)的積極性。而女生這門(mén)課的成績(jī)比男生好,優(yōu)秀率高,及格率高,對(duì)基礎(chǔ)知識(shí)掌握牢固,但在知識(shí)的應(yīng)用能力方面欠佳不能很好地靈活運(yùn)用;由此可見(jiàn),教師在教學(xué)過(guò)程中須考慮學(xué)生的性別差異,因材施教。
3)科類類別分析
首先確定目標(biāo)類與對(duì)比類為屬性section中文科類、理科類和對(duì)口類;其次,對(duì)兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表6所示:
從表6可以看出,與理科類、文科類相比,通過(guò)對(duì)口高招進(jìn)來(lái)的學(xué)生不管對(duì)理論知識(shí)的掌握還是在實(shí)踐技能上都比較突出,且目的性非常強(qiáng)。而文科類與理科類相比, 文科類對(duì)基礎(chǔ)知識(shí)的學(xué)習(xí)優(yōu)于理科類,但在知識(shí)的應(yīng)用能力上較差,理科類則恰恰相反??梢?jiàn),教師在教學(xué)過(guò)程中除了考慮普遍學(xué)生存在的問(wèn)題外,還需要注意學(xué)生的差異,對(duì)于對(duì)口類學(xué)生而言應(yīng)多準(zhǔn)備一些相對(duì)大的項(xiàng)目,讓其能“吃飽”,而對(duì)于理科類和文科類學(xué)生一方面要加強(qiáng)理論基礎(chǔ)知識(shí)的學(xué)習(xí)指導(dǎo),另一方面要適當(dāng)注意培養(yǎng)其應(yīng)用能力,加強(qiáng)對(duì)編程及實(shí)踐方面的輔導(dǎo)。
4 結(jié)論
利用多年的C語(yǔ)言程序設(shè)計(jì)課程的成績(jī)的數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘技術(shù)探索和發(fā)現(xiàn)兩個(gè)專業(yè)學(xué)生對(duì)這門(mén)課程的知識(shí)掌握及能力培養(yǎng)的情況,可以有針對(duì)性地進(jìn)行教學(xué)內(nèi)容和教學(xué)方式的改革,使得學(xué)生更好地掌握C語(yǔ)言程序設(shè)計(jì)這門(mén)課的知識(shí),培養(yǎng)各方面的能力,為以后的課程學(xué)習(xí)、專業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。
參考文獻(xiàn):
[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.
[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科技大學(xué)出版社,2O02.
[3] 張錦祥.高級(jí)程序設(shè)計(jì)語(yǔ)言課程教學(xué)改革與實(shí)踐[J].浙江教育學(xué)院學(xué)報(bào),2007(4)71-76.
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術(shù)公選課面向全校各年級(jí)各專業(yè)本科生開(kāi)課,因此選修本課程的學(xué)生來(lái)源較復(fù)雜,其計(jì)算機(jī)基礎(chǔ)參差不齊。過(guò)往統(tǒng)一步調(diào)的授課模式滿足不了不同層次學(xué)生的需求,所以從2011年開(kāi)始,本門(mén)課程實(shí)施教學(xué)改革,以多媒體技術(shù)在線學(xué)習(xí)平臺(tái)為基礎(chǔ),結(jié)合課堂授課開(kāi)展個(gè)性化教學(xué),把多媒體技術(shù)包含的四大媒體技術(shù)課程:圖像處理、音頻處理、視頻處理和動(dòng)畫(huà)制作做成講座的形式,每一門(mén)課程分別包含兩到三次的講座,學(xué)生根據(jù)自己的情況選聽(tīng)選學(xué)。每門(mén)媒體技術(shù)不同難易度的學(xué)習(xí)資料都放在學(xué)習(xí)平臺(tái)里,學(xué)生可以自由選擇學(xué)習(xí)資源,并通過(guò)網(wǎng)絡(luò)或課堂與同學(xué)和老師進(jìn)行學(xué)習(xí)交流??己朔绞綖槊恳婚T(mén)課程最后一次講座講完后在學(xué)習(xí)平臺(tái)上進(jìn)行隨堂考試,要求每位學(xué)生至少選考其中三門(mén)。本門(mén)課程期末考試也在學(xué)習(xí)平臺(tái)上進(jìn)行,要求全體學(xué)生都必須參加。本教改實(shí)施五年來(lái),學(xué)生反應(yīng)良好,同時(shí)多媒體技術(shù)學(xué)習(xí)平臺(tái)網(wǎng)站上存在著大量學(xué)生成績(jī)和教師教學(xué)及管理過(guò)程中的相關(guān)數(shù)據(jù),那么這些數(shù)據(jù)之間存在著怎樣的聯(lián)系,是否蘊(yùn)藏著教與學(xué)之間的知識(shí)和規(guī)律?由于數(shù)據(jù)挖掘技術(shù)能夠發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在聯(lián)系和規(guī)則,從而預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)[1],因此我們把該技術(shù)引入學(xué)習(xí)平臺(tái)中的信息資源管理系統(tǒng),把大量積累的教學(xué)基礎(chǔ)數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)[2],在這基礎(chǔ)上運(yùn)用數(shù)據(jù)挖掘手段從中快速準(zhǔn)確地提取出重要的信息和有價(jià)值的知識(shí),找出影響學(xué)習(xí)成績(jī)的因素,為進(jìn)一步改善個(gè)性化教學(xué)的教學(xué)質(zhì)量提供數(shù)據(jù)支持和決策參考。
1 數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型的建立
數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型是多維數(shù)據(jù)模型。目前使用的多維數(shù)據(jù)模型主要有星型模型和雪花模型。一個(gè)典型的星型模式包括一個(gè)大型的事實(shí)表和一組邏輯上圍繞這個(gè)事實(shí)表的維度表[3]。雪花模型是對(duì)星型模型的擴(kuò)展,將星型模型的維度表進(jìn)一步層次化,原來(lái)的各維度表被擴(kuò)展為小的事實(shí)表,形成一些局部的層次區(qū)域[3-4]。建立本課程數(shù)據(jù)倉(cāng)庫(kù)時(shí),為了減少數(shù)據(jù)冗余,改善查詢性能我們采用雪花模型結(jié)構(gòu),如圖1所示。建立以學(xué)生選課為中心的選課事實(shí)表,三個(gè)主維度表“學(xué)生表”、“成績(jī)表”和“時(shí)間表”分別通過(guò)“學(xué)生鍵”、“成績(jī)鍵”和“時(shí)間鍵”與事實(shí)表直接關(guān)聯(lián)。其中,主維度表中的“學(xué)生表”和“成績(jī)表”都有各自的二級(jí)維度表,與事實(shí)表間接關(guān)聯(lián)[5]。
2 采用Apriori算法的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則用于揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關(guān)系,即在給定的一個(gè)事物數(shù)據(jù)庫(kù)D,在基于支持度-置信度框架中,發(fā)現(xiàn)數(shù)據(jù)與項(xiàng)目之間大量有趣的相關(guān)聯(lián)系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘算法歸結(jié)為下面兩個(gè)問(wèn)題:(1)找到所有支持度大于等于最小支持度(min_sup)的項(xiàng)目集(Item Sets),即頻繁項(xiàng)目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項(xiàng)目集,產(chǎn)生期望的規(guī)則。兩步中,第(2)步是在第(1)步的基礎(chǔ)上進(jìn)行的,工作量非常小,因此挖掘的重點(diǎn)在步驟(1)上,即查找數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)目集和它的支持度[4]。本課題對(duì)多媒體技術(shù)課程學(xué)習(xí)平臺(tái)中所有考試成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,采用Apriori算法查找頻繁項(xiàng)目集。
Apriori算法通過(guò)逐層迭代來(lái)找出所有的頻繁項(xiàng)目集L。用戶需要輸入事物數(shù)據(jù)庫(kù)D和最小支持度閥值min_sup。實(shí)現(xiàn)過(guò)程為:
1)單次掃描數(shù)據(jù)庫(kù)D計(jì)算出各個(gè)1項(xiàng)集的支持度,得到頻繁1項(xiàng)集構(gòu)成的集合L1。
2)連接:為了產(chǎn)生頻繁K項(xiàng)集構(gòu)成的集合,通過(guò)連接運(yùn)算預(yù)先生成一個(gè)潛在頻繁k項(xiàng)集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項(xiàng)集必定不是頻繁k項(xiàng)集的子集”的性質(zhì),從Ck中刪除掉含有非頻繁子集的那些潛在k項(xiàng)集。
4)再次掃描數(shù)據(jù)庫(kù)D,計(jì)算Ck中各個(gè)項(xiàng)集的支持度。
5)剔除Ck中不滿足最小支持度的項(xiàng)集,得到由頻繁k項(xiàng)集構(gòu)成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項(xiàng)集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項(xiàng)集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項(xiàng)集L后,1)對(duì)于L中的每一個(gè)頻繁項(xiàng)目集l,產(chǎn)生l的所有非空子集。2)對(duì)于l的每一個(gè)非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規(guī)則:SL-S[4]。
本課題對(duì)近五年選修多媒體技術(shù)的學(xué)生所有成績(jī)數(shù)據(jù)進(jìn)行清洗,填補(bǔ)空缺值,去噪,類型轉(zhuǎn)換,集成等處理后放入數(shù)據(jù)倉(cāng)庫(kù)中,系統(tǒng)采用Apriori算法找出所有的頻繁項(xiàng)集。為了便于進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,對(duì)成績(jī)數(shù)據(jù)進(jìn)行離散化處理,轉(zhuǎn)變成標(biāo)稱型變量[5]。成績(jī)score(簡(jiǎn)化為“s”)在85-100區(qū)間的表示“優(yōu)秀”,標(biāo)記為“1”,在70-84區(qū)間的表示“中等”,標(biāo)記為“2”,在60-70區(qū)間的表示“合格”,標(biāo)記為“3”。多媒體技術(shù)每門(mén)媒體技術(shù)課程:圖像處理、音頻處理、視頻處理、動(dòng)畫(huà)制作和最后的期末考試分別用A、B、C、D、E表示。學(xué)生的學(xué)號(hào)用StudentID表示,那么每個(gè)學(xué)生選修的N門(mén)課和最后期末考試的成績(jī)可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學(xué)號(hào)為2011204543021的學(xué)生,選修了圖像處理,音頻處理和動(dòng)畫(huà)制作這三門(mén)媒體技術(shù),其中圖像處理成績(jī)?yōu)楹细?,音頻處理成績(jī)?yōu)閮?yōu)秀,動(dòng)畫(huà)制作成績(jī)?yōu)楹细?,期末考試成?jī)?yōu)楹细?,該名學(xué)生沒(méi)有選修視頻處理,故沒(méi)有這門(mén)科目的成績(jī)。
設(shè)定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統(tǒng)采用Apriori算法進(jìn)行數(shù)據(jù)挖掘,得到滿足最小置信度閥值的規(guī)則和相應(yīng)的置信度如表1。
挖掘結(jié)果分析:表1的關(guān)聯(lián)規(guī)則體現(xiàn)學(xué)生選修的媒體技術(shù)課程種類、科目數(shù)量與期末考試成績(jī)之間的相互關(guān)系??梢钥吹狡谀┛荚嚦煽?jī)屬于中等(E2)或合格(E3)級(jí)別的,學(xué)生全選四門(mén)媒體技術(shù)比只選學(xué)三門(mén)的置信度高,即選課數(shù)量多的較容易及格或獲得中等的期末成績(jī)。另外,在選課種類方面,選B這門(mén)課,即選音頻處理的學(xué)生比較多,是一個(gè)概率比較高的事件,可能這門(mén)課內(nèi)容比較少和易掌握,因此選學(xué)選考的學(xué)生就多。但這門(mén)課的成績(jī)對(duì)期末考試成績(jī)影響不明顯,說(shuō)明教師這門(mén)課出的考題區(qū)分度低,沒(méi)能反映出學(xué)生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動(dòng)畫(huà)制作)這幾門(mén)課并獲得優(yōu)秀成績(jī)(A1,C1,D1)的很少,即小概率事件被過(guò)濾掉了,沒(méi)能挖掘出它們與期末成績(jī)之間的關(guān)聯(lián)性。但這幾門(mén)課程成績(jī)中等或合格與期末成績(jī)存在內(nèi)在關(guān)系,也就是說(shuō)如果這幾門(mén)課成績(jī)都是中等的,期末考試成績(jī)大部分都為中等,一小部分可以達(dá)到優(yōu)秀。如果這幾門(mén)課成績(jī)都是合格,期末考試成績(jī)就是合格。說(shuō)明這幾門(mén)課程的考題比較真實(shí)反映出學(xué)生掌握技能的實(shí)際水平,致使期末綜合性的考試成績(jī)與學(xué)生平時(shí)掌握程度相符合。這也意味著個(gè)性化教學(xué)具有一定的成效。
本課題對(duì)近五年的學(xué)生多媒體技術(shù)每科成績(jī)與期末成績(jī)進(jìn)行聚類分析,把學(xué)生劃分到若干不同的類中,分析各個(gè)類的特征,從而考察實(shí)施個(gè)性化教學(xué)后的效果。設(shè)定85分,75分和65分為三個(gè)初始的聚類中心,對(duì)學(xué)生的所有成績(jī)進(jìn)行聚類分析,找出同一類別學(xué)生的學(xué)號(hào),以此為索引,查找到該類中各個(gè)學(xué)生的專業(yè)與年級(jí),繪制出餅狀圖,再繪制出該類學(xué)生所選各門(mén)媒體技術(shù)的平均分柱狀圖,通過(guò)這幾個(gè)圖表考察不同專業(yè)不同年級(jí)學(xué)生在本門(mén)課程優(yōu)秀中等合格若干成績(jī)區(qū)間的分布情況,從而檢查實(shí)施個(gè)性化教學(xué)的效果,為今后的改進(jìn)方案提供參考。例如調(diào)整后得到的最終聚類中心為82分的學(xué)生,各門(mén)媒體技術(shù)的平均分和專業(yè)、年級(jí)分布如圖3~圖5所示。
從上面幾個(gè)圖可以看出,成績(jī)?yōu)閮?yōu)秀的學(xué)生主要來(lái)自美術(shù)、計(jì)算機(jī)和電信這幾個(gè)專業(yè),大三、大四的學(xué)生比較多。分析其中的原因,主要是美術(shù)學(xué)院很多專業(yè)課需要用二維、三維圖像軟件或視頻軟件進(jìn)行制作和處理,他們對(duì)這門(mén)課程已經(jīng)有一定的基礎(chǔ),所以學(xué)起來(lái)比較輕松,也容易取得高分。而計(jì)算機(jī)和電信專業(yè)中高年級(jí)的學(xué)生學(xué)習(xí)和使用軟件的能力比較強(qiáng),因此掌握多媒體技術(shù)各個(gè)媒體軟件較其他專業(yè)學(xué)生快,并且能夠靈活運(yùn)用,因而較易取得比較優(yōu)異的成績(jī)。
最終聚類中心為64分的學(xué)生,各門(mén)媒體技術(shù)的平均分和專業(yè)、年級(jí)分布如圖6~圖8所示。