首頁 > 優(yōu)秀范文 > 數(shù)據(jù)挖掘課程
時(shí)間:2022-02-03 15:39:41
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘課程范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!
【中圖分類號】G642 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-4810(2015)33-0063-02
我們生活在一個(gè)信息爆炸的時(shí)代,更具體地說我們生活在一個(gè)數(shù)據(jù)爆炸的時(shí)代。每天,來自商業(yè)、社會、科學(xué)、互聯(lián)網(wǎng)、移動設(shè)備等各個(gè)領(lǐng)域的數(shù)據(jù)以爆炸的方式增長著。巨大的數(shù)據(jù)中蘊(yùn)藏著重要的信息和知識,因此我們需要強(qiáng)大和通用的工具,從海量的數(shù)據(jù)中發(fā)現(xiàn)這些有價(jià)值的信息,把數(shù)據(jù)轉(zhuǎn)化為知識,因此導(dǎo)致了數(shù)據(jù)挖掘的誕生?!皵?shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程。數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)?!?/p>
隨著越來越多的企事業(yè)單位認(rèn)識到數(shù)據(jù)挖掘的重要性,對數(shù)據(jù)挖掘人才的需要近兩年也呈現(xiàn)快速增長的態(tài)勢,大數(shù)據(jù)分析師更是被媒體稱為“未來最具發(fā)展?jié)摿Φ穆殬I(yè)之一”。因此很多高校開設(shè)了數(shù)據(jù)挖掘課程。通過本課程的學(xué)習(xí),使學(xué)生了解數(shù)據(jù)挖掘技術(shù)的整體概貌,了解數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用及當(dāng)前的研究熱點(diǎn)問題,了解數(shù)據(jù)挖掘技術(shù)的發(fā)展方向,掌握最基本的概念、算法原理和技術(shù)方法,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘解決實(shí)際問題的能力。本文分析了在本科階段開設(shè)數(shù)據(jù)挖掘課程的特點(diǎn),闡述了教學(xué)內(nèi)容和教學(xué)方法,對數(shù)據(jù)挖掘課程教學(xué)進(jìn)行了新的思考和探索
一 數(shù)據(jù)挖掘課程特點(diǎn)
1.大數(shù)據(jù)背景
“大數(shù)據(jù)”成為近年來比較熱門的詞語,同時(shí)也反映數(shù)據(jù)的爆炸式增長給我們帶來的機(jī)遇和挑戰(zhàn)。大數(shù)據(jù)在維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。大數(shù)據(jù)的四個(gè)特征是:數(shù)據(jù)量浩大;模態(tài)繁多、異構(gòu);生成快速;價(jià)值巨大?!按髷?shù)據(jù)”分析的需求導(dǎo)致了數(shù)據(jù)挖掘的產(chǎn)生,也同時(shí)給數(shù)據(jù)挖掘帶來了巨大的發(fā)展前景。
2.學(xué)科發(fā)展快,內(nèi)容豐富
數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代后期,90年代之后開始突飛猛進(jìn)的發(fā)展,新的和改進(jìn)的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應(yīng)用領(lǐng)域逐漸擴(kuò)大。比如數(shù)據(jù)類型,有流、序列、圖、時(shí)間序列、生物序列、空間、音頻、圖像和視頻數(shù)據(jù)等。數(shù)據(jù)挖掘的模型和算法豐富,比如關(guān)聯(lián)規(guī)則的挖掘有Apriori算法,分類規(guī)則的挖掘有決策樹、神經(jīng)元網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)等,聚類規(guī)則挖掘,時(shí)間序列挖掘等。
3.學(xué)科交叉,難度大
數(shù)據(jù)挖掘課程作為一門多學(xué)科交叉的專業(yè)課程,涉及的學(xué)科較多。如統(tǒng)計(jì)學(xué),多元統(tǒng)計(jì)學(xué),時(shí)間序列,統(tǒng)計(jì)推斷等;機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)等;數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫、計(jì)算機(jī)軟件編程和開發(fā)、Web搜索引擎。眾多的學(xué)科交叉增加了課程的教學(xué)難度,因此需要合理地規(guī)劃課程內(nèi)容和重點(diǎn),循序漸進(jìn)地展開教學(xué)內(nèi)容。
二 教學(xué)探索
1.課程內(nèi)容體系
數(shù)據(jù)挖掘是一門多學(xué)科交叉的前沿學(xué)科,它結(jié)合了數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、知識系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多問學(xué)科的知識。然而在目前的大學(xué)課程體系中,很難在有限的時(shí)間內(nèi)開設(shè)這些課程。
――――――――――――――――――――――――
* 韓山師范學(xué)院2014年校級優(yōu)質(zhì)網(wǎng)絡(luò)課程――數(shù)學(xué)模型資助項(xiàng)目,通訊作者:李承耕
特別是對于數(shù)學(xué)與統(tǒng)計(jì)學(xué)院的學(xué)生,數(shù)學(xué)基礎(chǔ)理論比較好,但是在數(shù)據(jù)庫技術(shù)、計(jì)算機(jī)軟件算法和編程方面比較薄弱,大部分的同學(xué)沒有編程經(jīng)驗(yàn)和數(shù)據(jù)處理分析能力。針對這些問題,我們數(shù)據(jù)挖掘課程的授課對象為大三或大四應(yīng)用型專業(yè)的學(xué)生,并在前期課程中開設(shè)數(shù)學(xué)分析、高等代數(shù)、概率與統(tǒng)計(jì)、多元統(tǒng)計(jì)學(xué)等數(shù)學(xué)類課程,同時(shí)開設(shè)c語言、java語言、數(shù)值分析、數(shù)據(jù)庫原理等計(jì)算機(jī)課程,這些課程的開設(shè)為數(shù)據(jù)挖掘授課打下了必要的理論基礎(chǔ)。
數(shù)據(jù)挖掘的內(nèi)容豐富,包含的知識點(diǎn)很多,我們構(gòu)建了課程的核心知識結(jié)構(gòu)。核心知識為三部分:(1)數(shù)據(jù)預(yù)處理,主要任務(wù)包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)規(guī)約;(2)數(shù)據(jù)倉庫,主要包括數(shù)據(jù)倉庫的基本概念,數(shù)據(jù)立方體,數(shù)據(jù)立方體的設(shè)計(jì)與實(shí)現(xiàn);(3)數(shù)據(jù)挖掘,主要包括數(shù)據(jù)挖掘的基本流程,數(shù)據(jù)挖掘的主要算法,數(shù)據(jù)挖掘的常用工具及數(shù)據(jù)挖掘的應(yīng)用實(shí)例??紤]到數(shù)學(xué)與統(tǒng)計(jì)學(xué)院學(xué)生的特點(diǎn)和教學(xué)課時(shí)的限制,教學(xué)重點(diǎn)為數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫的基本概念、數(shù)據(jù)挖掘的主要模型三個(gè)方面,特別是數(shù)據(jù)挖掘的模型是重點(diǎn)講授的內(nèi)容。由于數(shù)據(jù)挖掘的模型和算法非常多,我們采用首先講解數(shù)據(jù)挖掘的基本流程,然后重點(diǎn)講解數(shù)據(jù)挖掘中關(guān)聯(lián)分析、分類、聚類三個(gè)方面的模型。
我們采用理論講解、實(shí)驗(yàn)操作、模型應(yīng)用三個(gè)步驟來講解每個(gè)模型。理論講解使學(xué)生掌握數(shù)據(jù)挖掘模型的基本理論和算法流程。在實(shí)驗(yàn)操作階段,學(xué)生要親手實(shí)現(xiàn)模型的基本算法,我們使用的編程語言是python,通過算法的實(shí)現(xiàn),鞏固和加深學(xué)生對模型的理解。模型應(yīng)用步驟要求學(xué)生綜合應(yīng)用所學(xué)的數(shù)據(jù)挖掘模型知識,選擇一個(gè)應(yīng)用領(lǐng)域,應(yīng)用自己學(xué)習(xí)的算法解決這個(gè)實(shí)際問題,并按照數(shù)據(jù)挖掘的流程完成實(shí)驗(yàn)報(bào)告。實(shí)驗(yàn)報(bào)告要求按照數(shù)據(jù)說明、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示等幾個(gè)部分完成,使學(xué)生掌握數(shù)據(jù)挖掘的全過程,充分認(rèn)識數(shù)據(jù)挖掘各個(gè)階段要完成的工作。通過這三個(gè)階段的學(xué)習(xí)和實(shí)踐,學(xué)生基本掌握了數(shù)據(jù)挖掘的算法并具備了基本的模型應(yīng)用能力。
2.以應(yīng)用為背景,用案例教學(xué)方式組織教學(xué)
案例教學(xué)法是教師以具有鮮明代表性的案例為學(xué)生創(chuàng)設(shè)問題情境,引導(dǎo)學(xué)生通過對案例進(jìn)行分析討論,在情境中掌握理論知識并總結(jié)規(guī)律,創(chuàng)造性地將知識與實(shí)踐相結(jié)合,找到更多的實(shí)際生活范例或提出解決實(shí)際問題的思路與方法。數(shù)據(jù)挖掘本身就是一門應(yīng)用性很強(qiáng)的學(xué)科,課程內(nèi)容非常適合進(jìn)行案例教學(xué)。
數(shù)據(jù)挖掘課程主要針對數(shù)學(xué)與統(tǒng)計(jì)學(xué)院應(yīng)用型本科專業(yè)開設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場需求,以及課程本身實(shí)踐性強(qiáng)的特點(diǎn),在教學(xué)過程中注重理論結(jié)合實(shí)踐,培養(yǎng)學(xué)生解決實(shí)際問題的能力。因此,在向?qū)W生介紹目前常用的數(shù)據(jù)挖掘基本模型的基礎(chǔ)上,結(jié)合市場需求,以實(shí)例為切入點(diǎn),采用案例教學(xué)的方式組織教學(xué)。案例的來源豐富,有醫(yī)療、商業(yè)、航空、環(huán)保等眾多領(lǐng)域,案例全部來自于真實(shí)的數(shù)據(jù)挖掘項(xiàng)目,每個(gè)案例有背景與挖掘目標(biāo)、數(shù)據(jù)預(yù)處理、構(gòu)建模型、模型評價(jià)、上機(jī)實(shí)驗(yàn)幾個(gè)部分組成。通過講解真實(shí)案例,讓學(xué)生了解數(shù)據(jù)挖掘的算法在實(shí)際中是如何應(yīng)用的,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘的思想,使學(xué)生對數(shù)據(jù)挖掘有了感性認(rèn)識,激發(fā)其學(xué)習(xí)興趣。具體采用的案例如下表所示。
三 結(jié)束語
數(shù)據(jù)挖掘是一門多學(xué)科交叉的應(yīng)用型學(xué)科,在數(shù)學(xué)與統(tǒng)計(jì)學(xué)院開設(shè)數(shù)據(jù)挖掘課程有現(xiàn)實(shí)意義,同時(shí)對教師和學(xué)生也是一個(gè)挑戰(zhàn)。因此通過將理論教學(xué)和實(shí)踐相結(jié)合,使用案例教學(xué)的方式組織教學(xué),激發(fā)學(xué)生的學(xué)習(xí)興趣,提高課堂教學(xué)效率,增強(qiáng)學(xué)生實(shí)踐能力,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘的基本方法解決實(shí)際問題的能力。同時(shí),數(shù)據(jù)挖掘也是一個(gè)快速發(fā)展的學(xué)科,因此也要不斷更新教學(xué)案例,不斷學(xué)習(xí)和總結(jié),使教學(xué)更加完善合理。
參考文獻(xiàn)
[1]〔美〕Jiawei Han、Micheline Kamber、Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)(范明、孟小峰譯)[M].北京:機(jī)械工業(yè)出版社,2012
[2]張良均等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版,2015
[3]譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013
中圖分類號:G712 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2014)40-0069-02
一、前言
近年來,數(shù)據(jù)獲取和數(shù)據(jù)存儲技術(shù)快速發(fā)展,各種數(shù)據(jù)庫、數(shù)據(jù)倉庫中存儲的數(shù)據(jù)量飛速增長。人們關(guān)注的焦點(diǎn)要從噪聲、模糊的隨機(jī)數(shù)據(jù)中提取重要的信息、知識,數(shù)據(jù)挖掘的出現(xiàn),提供了一種有效解決“數(shù)據(jù)豐富而知識貧乏”問題的方法。
數(shù)據(jù)挖掘作為統(tǒng)計(jì)專業(yè)的核心課程,是學(xué)生必須掌握的職業(yè)能力課程。根據(jù)高職生的知識結(jié)構(gòu)體系和培養(yǎng)目標(biāo),我們采用案例驅(qū)動教學(xué)方法,以學(xué)生為主體,案例為主線,教師為主導(dǎo),對案例進(jìn)行分析,學(xué)習(xí)案例所涉及的相關(guān)知識點(diǎn),從而會利用相關(guān)軟件工具對數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)間的知識。
二、數(shù)據(jù)挖掘中案例驅(qū)動教學(xué)的實(shí)施
(一)合理高職高專統(tǒng)計(jì)專業(yè)數(shù)據(jù)挖掘課程教學(xué)目標(biāo)
數(shù)據(jù)挖掘是集數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、模式識別、可視化等學(xué)科的一個(gè)新興交叉學(xué)科,又包含了聚類分析、關(guān)聯(lián)規(guī)則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實(shí)踐性及綜合性較強(qiáng)的課程。其知識內(nèi)容豐富,內(nèi)容深淺不一,各種方法變化快,新方法層出不窮,這對師生都提出了嚴(yán)峻的挑戰(zhàn)。
高職高專將培養(yǎng)高等技術(shù)應(yīng)用型專門人才為根本任務(wù),以適應(yīng)社會行業(yè)發(fā)展需求為基本目標(biāo),結(jié)合本院統(tǒng)計(jì)專業(yè)學(xué)生的專業(yè)技能特點(diǎn),我們將本門課程的教學(xué)目標(biāo)定位為:掌握數(shù)據(jù)挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數(shù)據(jù)信息中利用有效的軟件工具CLEMENTINE進(jìn)行知識“挖掘”;要根據(jù)實(shí)際情況制定合理完整的數(shù)據(jù)模型并進(jìn)行評估,這些評估要具有可視性,才能有效地解決問題,而使數(shù)據(jù)挖掘更具有合理性。
(二)如何驅(qū)動教學(xué)來設(shè)計(jì)數(shù)據(jù)挖掘案例
1.介紹案例驅(qū)動教學(xué)法。案例驅(qū)動法是在“哈佛大學(xué)”的情境案例教學(xué)課起源,是一種探索性和協(xié)作性學(xué)習(xí)的教學(xué)模式。整個(gè)授課過程圍繞著同一個(gè)目標(biāo)和幾項(xiàng)任務(wù)“教授”,學(xué)生通過對課程的學(xué)習(xí)、資料的查找和知識的整合,通過充分思考和與實(shí)踐相結(jié)合,提高自身能力。這種案例驅(qū)動的教學(xué)法可以讓學(xué)生提高學(xué)習(xí)興趣,發(fā)展學(xué)生自身的能力。同時(shí)能讓教師更好地發(fā)揮促進(jìn)學(xué)生學(xué)習(xí)、引導(dǎo)學(xué)生成功的功能。
案例驅(qū)動法是把教學(xué)內(nèi)容和目標(biāo)通過一個(gè)任務(wù)來體現(xiàn),把教材內(nèi)容重新整合,老師的授課和學(xué)生的接受都圍繞這個(gè)任務(wù)完成。
案例驅(qū)動法可以充分發(fā)揮學(xué)生的主體地位,從而改變傳統(tǒng)的關(guān)于師生關(guān)系的觀念,讓學(xué)生從被動學(xué)習(xí)到主動學(xué)習(xí),真正愛上學(xué)習(xí),提高自己的創(chuàng)新、自學(xué)和實(shí)踐能力,同時(shí)要求老師在授課中給予學(xué)生正確的引導(dǎo)、促進(jìn)、組織和控制,這樣可以增強(qiáng)同學(xué)間的協(xié)作精神和學(xué)生的獨(dú)立意識。通過學(xué)生的自主學(xué)習(xí)和探索,可以改變原來枯燥的學(xué)習(xí)方式。對于數(shù)據(jù)挖掘這門課程,內(nèi)容深?yuàn)W,既要求學(xué)習(xí)一定的理論知識,又要求掌握數(shù)據(jù)挖掘的使用方法,因此我們引入使用案例驅(qū)動的教學(xué)方法。
2.數(shù)據(jù)挖掘案例教學(xué)的實(shí)施規(guī)劃。利用CLEMENTINE軟件工具進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘看成一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式數(shù)據(jù)探索過程,該過程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、方案評估和方案實(shí)施六大部分。因此,在教學(xué)過程中,我們圍繞數(shù)據(jù)挖掘的六大部分,在每一部分,講解基本的數(shù)據(jù)挖掘技術(shù)原理;對于數(shù)據(jù)挖掘算法,只要求掌握相關(guān)算法使用的方法和使用的場合,并會使用專業(yè)的數(shù)據(jù)挖掘工具CLEMENTINE,此應(yīng)用的前提條件要求對學(xué)生進(jìn)行數(shù)據(jù)挖掘;將教學(xué)的亮點(diǎn)和重點(diǎn)放在案例分析和實(shí)際應(yīng)用上,要對學(xué)生進(jìn)行動手能力的訓(xùn)練。
在教學(xué)的過程中,最重要的是案例的選取。通過參考教學(xué)大綱和教學(xué)目標(biāo),對教學(xué)案例進(jìn)行精心設(shè)計(jì),可以提高學(xué)生的分析能力,提高學(xué)生發(fā)現(xiàn)問題和解決問題的能力,才能更好地將教案落實(shí),并形成具體的項(xiàng)目。根據(jù)數(shù)據(jù)挖掘課程的特點(diǎn)和具體內(nèi)容,我們通過某些小案例引入一些相關(guān)知識,并且采用學(xué)生能夠接受的一個(gè)大案例讓學(xué)生使用成績數(shù)據(jù)模型組織整個(gè)教學(xué)過程。
我們的課程內(nèi)容按數(shù)據(jù)挖掘過程分為六大部分,按照每一部分的教學(xué)目標(biāo)我們設(shè)計(jì)了多個(gè)不同的小案例如下。
(1)藥物研究數(shù)據(jù)和學(xué)生參加社會活動數(shù)據(jù)案例:通過這兩個(gè)數(shù)據(jù)模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項(xiàng)卡的多種節(jié)點(diǎn)讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數(shù)據(jù),掌握讀入數(shù)據(jù)的數(shù)據(jù)類型,掌握APPEND節(jié)點(diǎn)、MERGE節(jié)點(diǎn)合并數(shù)據(jù)的方法。
(2)移動客戶數(shù)據(jù)案例:通過利用移動數(shù)據(jù)讓學(xué)生掌握TYPE節(jié)點(diǎn)進(jìn)行變量說明的方法,會使用該節(jié)點(diǎn)進(jìn)行有限變量值和無效值的調(diào)整,會使用DATA AUDIT節(jié)點(diǎn)對數(shù)據(jù)質(zhì)量進(jìn)行評估和調(diào)整;掌握數(shù)據(jù)中對離群點(diǎn)、極端值和缺失值的調(diào)整,對數(shù)據(jù)進(jìn)行質(zhì)量管理;會使用AGGREATE對數(shù)據(jù)進(jìn)行分類匯總;利用FILLER節(jié)點(diǎn)對變量值重新計(jì)算,會用RECLASSIFY節(jié)點(diǎn)實(shí)現(xiàn)變量值進(jìn)行調(diào)整;會對數(shù)據(jù)進(jìn)行篩選、樣本子集劃分等處理;了解數(shù)據(jù)分析特征,把握數(shù)據(jù)間相關(guān)性強(qiáng)弱的基本手段;利用壓縮樣本量、簡約變量值或變量降維等方法對樣本量龐大的數(shù)據(jù)進(jìn)行精簡。
(3)決策樹模型案例:了解C5.0決策樹算法,會建立決策樹模型,學(xué)會歸納和提煉現(xiàn)有數(shù)據(jù)包含的規(guī)律,建立分類預(yù)測模型,會分析結(jié)論,用于對未來新數(shù)據(jù)的預(yù)測。
(4)人工神經(jīng)網(wǎng)絡(luò)模型案例:了解人工神經(jīng)網(wǎng)絡(luò)算法,掌握人工神經(jīng)網(wǎng)絡(luò)建立的步驟,建立B-P反向神經(jīng)網(wǎng)絡(luò)模型,預(yù)測分析結(jié)果。
(5)貝葉斯模型案例:了解貝葉斯網(wǎng)絡(luò)算法,掌握貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的組成和構(gòu)建,會用TAN貝葉斯和馬爾科夫毯網(wǎng)絡(luò)解決從龐大數(shù)據(jù)中尋找輸入變量之間的相關(guān)性,輸入變量的組合取值對輸出變量的影響,用網(wǎng)絡(luò)結(jié)構(gòu)直觀展示它們的關(guān)系。
在設(shè)計(jì)小案例的同時(shí),我們還選擇學(xué)生既熟悉又感興趣的綜合項(xiàng)目案例選題:學(xué)生成績數(shù)據(jù)、圖書管理數(shù)據(jù)、電信服務(wù)數(shù)據(jù)等,讓學(xué)生帶著問題進(jìn)一步學(xué)習(xí)課程,在學(xué)習(xí)中尋找方法解決項(xiàng)目中遇到的問題。當(dāng)課程結(jié)束后,各項(xiàng)目組呈交項(xiàng)目數(shù)據(jù)模型和報(bào)告,且項(xiàng)目組長要向所有同學(xué)按數(shù)據(jù)挖掘的六大部分講解分析報(bào)告。
3.案例驅(qū)動教學(xué)的成效。圍繞案例進(jìn)行教學(xué)的“數(shù)據(jù)挖掘”課程除了采用案例驅(qū)動教學(xué)法,還要增加學(xué)生的實(shí)際訓(xùn)練能力,都取得了明顯的效果,從以下五個(gè)方面體現(xiàn):①學(xué)生要主動提出問題,同時(shí)積極主動地參與課堂教學(xué),才能提高學(xué)生分析和處理問題的能力;②增強(qiáng)學(xué)生的自主學(xué)習(xí)能力,要求學(xué)生通過小組討論的形式和實(shí)際訓(xùn)練讓學(xué)生以積極主動的態(tài)度處理和解決一些技術(shù)問題,從而提高自學(xué)能力;③學(xué)生間要注意培養(yǎng)團(tuán)隊(duì)合作能力的,也要具有競爭意識;④課程學(xué)習(xí)結(jié)束后,普遍反映對利用CLEMENTIME軟件工具進(jìn)行數(shù)據(jù)挖掘的自信心提高,能夠進(jìn)一步提高對專業(yè)的認(rèn)知,獨(dú)立解決一些數(shù)據(jù)統(tǒng)計(jì)分析的問題。
三、結(jié)束語
數(shù)據(jù)挖掘是統(tǒng)計(jì)專業(yè)的專業(yè)課程,其內(nèi)容繁多、深?yuàn)W,把基于案例驅(qū)動的教學(xué)模式引入《數(shù)據(jù)挖掘》課程,學(xué)生在學(xué)習(xí)過程中,實(shí)現(xiàn)了整個(gè)數(shù)據(jù)挖掘的流程,在基于項(xiàng)目的技術(shù)應(yīng)用中深入理解了數(shù)據(jù)挖掘的理論知識。學(xué)生要將所學(xué)的理論知識和實(shí)踐相結(jié)合,從而有效提高自己的操作技能和知識水平,培養(yǎng)了自己應(yīng)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問題的應(yīng)用能力和創(chuàng)新實(shí)踐能力。
從教學(xué)效果來看,通過將理論教學(xué)和實(shí)踐相結(jié)合,案例教學(xué)法整合了各種學(xué)習(xí)工具和教學(xué)資源,這樣才能充分發(fā)揮學(xué)生的主觀能動性,培養(yǎng)和提高學(xué)生的主觀能動性,同時(shí)增強(qiáng)學(xué)生分析和處理問題的能力,今后,我們將繼續(xù)完善數(shù)據(jù)挖掘的教學(xué)案例,研究和總結(jié)教學(xué)經(jīng)驗(yàn),使整個(gè)教學(xué)環(huán)節(jié)更加完善合理。
參考文獻(xiàn):
[1]劉云霞.統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010,(26).
[2]覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體會與創(chuàng)新[J].科技信息,2012,(10).
[3]李國榮.培養(yǎng)統(tǒng)計(jì)專業(yè)學(xué)生動手能力和創(chuàng)新能力的探索[J].統(tǒng)計(jì)教育,2007,(9).
[4]白忠喜,魯越青,梁偉,等.校政企共建基地開展基于項(xiàng)目驅(qū)動的實(shí)踐教學(xué)改革[J].中國大學(xué)教學(xué),2011,(2).
1.1 大數(shù)據(jù)含義 大數(shù)據(jù)是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段出現(xiàn)的新興名詞,是指數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的集合,大數(shù)據(jù)是以云計(jì)算的共享平臺為基礎(chǔ),通過數(shù)據(jù)的交叉復(fù)用,形成新的智力資源和知識服務(wù)能力。大數(shù)據(jù)處理需要分布式計(jì)算機(jī)構(gòu)架才能完成,僅依靠單臺的計(jì)算機(jī)無法實(shí)現(xiàn)大數(shù)據(jù)處理,因此大數(shù)據(jù)處理就是借助云計(jì)算的分布式處理、分布式數(shù)據(jù)庫、虛擬存儲技術(shù)對大量數(shù)據(jù)進(jìn)行整合處理的過程。
1.2 大數(shù)據(jù)特征 大數(shù)據(jù)具有數(shù)量大(Volume)、類型多(Variety)、價(jià)值高(Value)和速度快(Velocity)的特點(diǎn),簡稱為“4V”。大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模不斷擴(kuò)大,已經(jīng)由GB、TB級擴(kuò)展到EB或ZB級,這是普通計(jì)算機(jī)硬盤容量所無法達(dá)到的;大數(shù)據(jù)對象包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),存儲對象由傳統(tǒng)的文本內(nèi)容擴(kuò)展到了音頻數(shù)據(jù)、視頻數(shù)據(jù)、搜索引擎中關(guān)鍵詞等,其數(shù)據(jù)的類型繁多復(fù)雜;數(shù)據(jù)之間的關(guān)聯(lián)性不斷加強(qiáng),已經(jīng)對社會經(jīng)濟(jì)、系統(tǒng)、信息學(xué)、網(wǎng)絡(luò)學(xué)以及心理學(xué)等多個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響;大數(shù)據(jù)的產(chǎn)生形式以數(shù)據(jù)流為主,能瞬時(shí)產(chǎn)生,具有很強(qiáng)的動態(tài)性和時(shí)效性。
2 《數(shù)據(jù)挖掘》課程教學(xué)探討
2.1 教學(xué)內(nèi)容 《數(shù)據(jù)挖掘》是一門綜合性的學(xué)科,學(xué)科內(nèi)涉及的主要內(nèi)容有數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、信息檢索、計(jì)算機(jī)技術(shù)以及可視化技術(shù)等,需要不同的學(xué)科交叉學(xué)習(xí),因此,該課程具有很高的理論性和實(shí)踐性。在教學(xué)過程中,不僅要注重基礎(chǔ)理論知識的培養(yǎng),還要加強(qiáng)對學(xué)生創(chuàng)新能力以及問題解決能力的培養(yǎng)。課程的知識結(jié)構(gòu)可按照表1所示組建。
數(shù)據(jù)挖掘前需要進(jìn)行預(yù)處理,然后才能存入數(shù)據(jù)倉庫,再利用相關(guān)的挖掘工具和算法,按照挖掘流程進(jìn)行數(shù)據(jù)挖掘,最后將挖掘結(jié)果以可視化的形式展示出來。在整個(gè)教學(xué)過程中,教學(xué)重點(diǎn)是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和專用挖掘工具兩類,而挖掘算法則包括分類法、關(guān)聯(lián)分析法、聚類法等10種方法。學(xué)生不僅要了解各類算法的相關(guān)概念,還要能利用算法對實(shí)例進(jìn)行分析。
2.2 《數(shù)據(jù)挖掘》課程教學(xué)探索
2.2.1 培養(yǎng)數(shù)據(jù)意識 《數(shù)據(jù)挖掘》是以數(shù)據(jù)為驅(qū)動的理論分析和應(yīng)用課程,具有抽象性和具體性,抽象性是指數(shù)據(jù)挖掘過程中的理論、技術(shù)和方法具有很強(qiáng)的抽象性,學(xué)生在有限的時(shí)間內(nèi)無法理解和消化;具體性是指研究內(nèi)容比較客觀,具有一定的解釋性和理解性。針對以上特點(diǎn),教師在組織教學(xué)時(shí),應(yīng)先培養(yǎng)學(xué)生的學(xué)習(xí)興趣,使學(xué)生產(chǎn)生一定的數(shù)據(jù)意識。具體安排時(shí),可先安排2-4個(gè)學(xué)時(shí)講解數(shù)據(jù)及其主要應(yīng)用,讓學(xué)生對大數(shù)據(jù)的產(chǎn)生、影響和應(yīng)用等內(nèi)容做初步了解,使學(xué)生對該課程的學(xué)習(xí)目的和實(shí)際意義產(chǎn)生客觀認(rèn)識。
2.2.2 深化基礎(chǔ),加強(qiáng)理論體系 大數(shù)據(jù)特征對數(shù)據(jù)分析技術(shù)提出了更高的要求,現(xiàn)有的數(shù)據(jù)分析技術(shù)難以滿足實(shí)際需求,這就說明了數(shù)據(jù)挖掘技術(shù)的應(yīng)用和發(fā)展將面臨更嚴(yán)峻的考驗(yàn)。數(shù)據(jù)挖掘技術(shù)涉及的知識內(nèi)容較多,在大學(xué)課程體系中難以全部開設(shè),給學(xué)生的學(xué)習(xí)帶來很大阻礙。為解決以上問題,開封大學(xué)采取措施:將《數(shù)據(jù)挖掘》課程授課對象設(shè)定為高年級學(xué)生,經(jīng)過兩年或三年基礎(chǔ)課程的學(xué)習(xí),學(xué)生已經(jīng)具備了一定的理論基礎(chǔ),在學(xué)習(xí)《數(shù)據(jù)挖掘》課程中,就可節(jié)約大量時(shí)間學(xué)習(xí)課程的核心內(nèi)容。
2.2.3 教學(xué)方式多樣化 理論來源于實(shí)踐,也可以指導(dǎo)實(shí)踐;實(shí)踐是檢驗(yàn)理論的唯一途徑。《數(shù)據(jù)挖掘》具有很強(qiáng)的抽象性,學(xué)生無法在有限的學(xué)習(xí)時(shí)間內(nèi)對眾多概念產(chǎn)生足夠清晰的認(rèn)識,只能借助實(shí)踐教學(xué)使學(xué)生明白課程內(nèi)容的原理及其實(shí)用價(jià)值。在講解基本概念、原理或者算法時(shí),可采取案例教學(xué)法、任務(wù)驅(qū)動教學(xué)法、項(xiàng)目教學(xué)法等,將理論與實(shí)踐相結(jié)合,提高學(xué)生的學(xué)習(xí)興趣和操作能力。因此教師應(yīng)在教學(xué)過程中注意教學(xué)方法的選擇和使用,充分體現(xiàn)出學(xué)生的主體地位和教師的主導(dǎo)作用,通過一系列理實(shí)一體化教學(xué)方式,提高教學(xué)效果。
加強(qiáng)實(shí)驗(yàn)教學(xué),增強(qiáng)學(xué)生動手能力
信息與計(jì)算科學(xué)專業(yè)是以信息領(lǐng)域?yàn)楸尘?,?shù)學(xué)與信息、管理相結(jié)合的交叉學(xué)科專業(yè)。該專業(yè)培養(yǎng)的學(xué)生具有良好的數(shù)學(xué)基礎(chǔ),能熟練地使用計(jì)算機(jī),初步具備在信息與計(jì)算科學(xué)領(lǐng)域的某個(gè)方向上從事科學(xué)研究,解決實(shí)際問題,設(shè)計(jì)開發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門、高等院校、行政管理和經(jīng)濟(jì)管理部門,從事科研、教學(xué)和計(jì)算機(jī)應(yīng)用軟件的開發(fā)和管理工作,也可以繼續(xù)攻讀信息與計(jì)算科學(xué)及相關(guān)學(xué)科的碩士學(xué)位。從信息與計(jì)算科學(xué)專業(yè)的培養(yǎng)目標(biāo)可以看出信息與計(jì)算科學(xué)專業(yè)的本科生不但需要掌握理論知識,還需要具有將所學(xué)知識用來解決實(shí)際問題的能力。數(shù)據(jù)挖掘作為一門應(yīng)用性較強(qiáng)的課程,需要學(xué)生能夠運(yùn)用數(shù)據(jù)挖掘知識分析和解決實(shí)際問題,要求學(xué)生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計(jì),以便在將來的就業(yè)中具有更好的適應(yīng)性,因此實(shí)驗(yàn)環(huán)節(jié)的教學(xué)有著其必要性。基于這些原因,我們在這門課中引入實(shí)驗(yàn)環(huán)節(jié),并將其納入考核要求。我們實(shí)驗(yàn)所用的基本軟件是SAS統(tǒng)計(jì)分析軟件。SAS軟件是一個(gè)集統(tǒng)計(jì)分析、報(bào)表圖形、信息系統(tǒng)開發(fā)和大型數(shù)據(jù)庫管理等多種強(qiáng)大功能為一體的大型軟件系統(tǒng),是目前國際上主流的統(tǒng)計(jì)分析軟件之一。我們信息專業(yè)在大三時(shí)開設(shè)這門課程,之前已經(jīng)學(xué)過C語言和JAVA等程序設(shè)計(jì)方法,有了一定的編程基礎(chǔ),因此學(xué)習(xí)使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學(xué)們的使用。我們在平時(shí)的學(xué)習(xí)中,將一些SAS軟件的基本程序設(shè)計(jì)基礎(chǔ)知識先發(fā)給同學(xué)們,讓他們利用課后時(shí)間自己在個(gè)人電腦上進(jìn)行熟悉,從而使得他們熟悉基本SAS程序設(shè)計(jì)方法,這樣可以在實(shí)驗(yàn)課上直接運(yùn)用SAS軟件進(jìn)行數(shù)據(jù)挖掘程序的編寫。在實(shí)驗(yàn)課上,我們主要將要實(shí)驗(yàn)的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學(xué),要求同學(xué)自己用數(shù)據(jù)挖掘的知識和SAS軟件進(jìn)行編程實(shí)現(xiàn),并寫出實(shí)驗(yàn)分析和小結(jié)。另外,在實(shí)驗(yàn)中,我們也要求學(xué)生盡可能將一些實(shí)驗(yàn)結(jié)果用圖表的形式如崖底碎石圖等表示出來,以利于進(jìn)一步分析。對于少部分學(xué)有余力的同學(xué),我們也引導(dǎo)他們自編相關(guān)的程序。比如說在SAS軟件中進(jìn)行K-均值聚類用fastclus這個(gè)函數(shù)就可以了,但是學(xué)生對程序具體實(shí)現(xiàn)過程可能不是很清楚。如果學(xué)生能夠?qū)⒊绦騅-均值聚類詳細(xì)程序步驟自己編寫出來,就可以表明學(xué)生對所K-均值聚類算法也有了較清楚的認(rèn)識。另外,對于屬于數(shù)學(xué)建模協(xié)會的同學(xué),我們也引導(dǎo)他們將數(shù)據(jù)挖掘的知識和數(shù)學(xué)建模中某些問題相結(jié)合起來,對于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識分析的問題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識對其進(jìn)行分析和求解,通過這樣的方式,可以這樣拓展這些同學(xué)的思路,也為數(shù)學(xué)建模培養(yǎng)了人才。
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A
文章編號:1672-5913(2007)14-0027-03
1引言
數(shù)據(jù)挖掘是一門綜合性的交叉學(xué)科,它融合了概率統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫、人工智能、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)結(jié)構(gòu)、高性能計(jì)算、數(shù)據(jù)可視化以及面向?qū)ο蠹夹g(shù)等,在保險(xiǎn)業(yè)、電信業(yè)、交通業(yè)、零售業(yè)、銀行業(yè)正在被越來越廣泛深入地使用,同時(shí)在生物學(xué)、天文學(xué)、地理學(xué)等領(lǐng)域也逐漸顯現(xiàn)出技術(shù)優(yōu)勢,特別是在客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站設(shè)計(jì)、電子商務(wù)系統(tǒng)、搜索引擎等方面數(shù)據(jù)挖掘技術(shù)顯示出了獨(dú)特的魅力。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著計(jì)算機(jī)應(yīng)用的方式。
從最近計(jì)算機(jī)技術(shù)的發(fā)展以及學(xué)生就業(yè)方面來看,對本校的應(yīng)用性本科生開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程迫在眉睫。但數(shù)據(jù)挖掘給人的感覺就是“高深莫測”,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域主要是博士生、碩士生研究的領(lǐng)域,數(shù)據(jù)挖掘課程也只在一些重點(diǎn)大學(xué)的研究生或高年級的本科生中開設(shè),應(yīng)用型本科院校以及一些高職高專幾乎都沒有開設(shè)此類課程。這限定了數(shù)據(jù)挖掘作為一門既有理論又有實(shí)踐價(jià)值學(xué)科的應(yīng)用和推廣,筆者認(rèn)為很可惜。從計(jì)算機(jī)專業(yè)的學(xué)生的畢業(yè)設(shè)計(jì)以及就業(yè)角度分析,相當(dāng)多的同學(xué)以后會從事電子商務(wù)類軟件的開發(fā),而這類應(yīng)用目前都漸漸基于Web作為應(yīng)用平臺,面對的是海量的數(shù)據(jù)信息,因此讓學(xué)生掌握數(shù)據(jù)挖掘的思想和方法對提高計(jì)算機(jī)素養(yǎng)很有必要。即使將來從事控制、通信、游戲、圖像處理等軟件開發(fā),數(shù)據(jù)挖掘的思想和方法也很容易找到用武之地。
2數(shù)據(jù)挖掘課程開設(shè)的可行性分析
從計(jì)算機(jī)技術(shù)發(fā)展以及學(xué)生就業(yè)反饋的信息,筆者覺得數(shù)據(jù)挖掘的思想、方法以及算法對應(yīng)用型本科生是很重要的,并且讓學(xué)生掌握好這門課程也是完全可能的。我校從1998年以來一直在高年級本科生中開設(shè)了“人工智能”課程,但從教學(xué)效果上來看,很不理想?!皵?shù)據(jù)挖掘技術(shù)”這門課程在不少地方很像“人工智能”,“數(shù)據(jù)挖掘技術(shù)”課程中的一些思想就是從“人工智能”中發(fā)展過來的,但是“數(shù)據(jù)挖掘技術(shù)”課程與“人工智能”課程有一個(gè)本質(zhì)的區(qū)別,就是數(shù)據(jù)挖掘從誕生的一開始就是面向大量的、實(shí)際的數(shù)據(jù)庫信息,因此,具有極強(qiáng)的應(yīng)用性,如果將“數(shù)據(jù)挖掘技術(shù)”課程看做是“數(shù)據(jù)庫技術(shù)”課程的自然延伸,同時(shí)充分利用數(shù)據(jù)結(jié)構(gòu)、人工智能、面向?qū)ο蠹夹g(shù)與方法、Web技術(shù)、概率統(tǒng)計(jì)等課程的基礎(chǔ),就能夠?qū)ⅰ皵?shù)據(jù)挖掘技術(shù)”課程開設(shè)好。于是兩年前,筆者在應(yīng)用型本科生中做了嘗試,就是取消原來的“人工智能”課程,取而代之的是“數(shù)據(jù)挖掘技術(shù)”課程,從兩年的教學(xué)實(shí)踐以及教學(xué)效果上看,行之有效。并且在教學(xué)中發(fā)現(xiàn),雖然數(shù)據(jù)挖掘技術(shù)要用到人工智能的一些思想和方法,但沒有“人工智能”課程作為前導(dǎo)課程,沒有任何影響,因?yàn)?,?shù)據(jù)挖掘中的一些人工智能思想在“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)中是自成體系的,并且是以比“人工智能”中的方法更加簡單、更加直接、更加面向應(yīng)用的方式。開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程必須以下列的課程作為基礎(chǔ)(前導(dǎo)課程),當(dāng)然這些課程都是一些常規(guī)課程。
1) 必須深入學(xué)習(xí)一門程序設(shè)計(jì)語言,通過這門語言的學(xué)習(xí)可以掌握程序設(shè)計(jì)的基礎(chǔ)知識,并且掌握面向?qū)ο笏枷腴_發(fā)的精髓,能夠進(jìn)行可視化程序設(shè)計(jì)。學(xué)習(xí)程序設(shè)計(jì)絕不是記住程序設(shè)計(jì)語言的語法就行了,而要努力做到將應(yīng)用中的思想變?yōu)槌绦颉_@一點(diǎn)是計(jì)算機(jī)專業(yè)學(xué)生的基本素養(yǎng)。這一環(huán)節(jié)沒有做好,其余的計(jì)算機(jī)專業(yè)的專業(yè)課程,如數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫原理、編譯原理、軟件工程等就無法學(xué)習(xí),即使學(xué)了,也不能真正掌握。筆者從計(jì)算機(jī)發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java,要求對C++的模板以及STL或Java的數(shù)據(jù)結(jié)構(gòu)類(在Java的util包中)能夠較好掌握。
2) 掌握“數(shù)據(jù)結(jié)構(gòu)”課程,特別是“數(shù)據(jù)結(jié)構(gòu)”課程中的樹的特點(diǎn)和應(yīng)用。在“數(shù)據(jù)結(jié)構(gòu)”課程中,樹主要以二叉樹為主,對于一般的樹,在當(dāng)前的“數(shù)據(jù)結(jié)構(gòu)”課程的教學(xué)中都是將一般的樹轉(zhuǎn)化為二叉樹來進(jìn)行處理的,但是在數(shù)據(jù)挖掘中這樣不太方便。數(shù)據(jù)挖掘中的很多算法都涉及到樹的應(yīng)用,并且大多都是不太規(guī)則的樹,在數(shù)據(jù)挖掘中,采用樹的思想與Java中的數(shù)據(jù)結(jié)構(gòu)類或C++中的STL相結(jié)合的方法,能夠得到很好的效果。
3) 掌握“數(shù)據(jù)庫技術(shù)”課程中數(shù)據(jù)庫操作的特點(diǎn)和應(yīng)用。數(shù)據(jù)挖掘的對象主要是數(shù)據(jù)庫中的數(shù)據(jù),但作為數(shù)據(jù)挖掘?qū)ο蟮臄?shù)據(jù)庫的數(shù)據(jù)信息量往往很大,因此,為了提高挖掘的效率,需要建立數(shù)據(jù)倉庫,或者需要在算法上加工,盡量減少掃描數(shù)據(jù)庫的次數(shù)。
4) 掌握“Web技術(shù)”。這是因?yàn)镮nternet已經(jīng)廣泛應(yīng)用并且深入人心,未來的軟件相當(dāng)多的都是基于Web平臺之上,因此,對于Web挖掘不僅重要,而且具有直接的應(yīng)用價(jià)值。當(dāng)前Internet上的軟件如一些知名網(wǎng)站、搜索引擎以及一些電子商務(wù)系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù),得到了很多有價(jià)值的信息或提高了個(gè)性化能力,大大增強(qiáng)了企業(yè)的競爭力。因此,掌握“Web技術(shù)”課程對Web挖掘很有裨益。
5) 熟悉“概率統(tǒng)計(jì)”課程中的思維方式,對各種分布以及條件概率能夠熟練掌握,在數(shù)據(jù)挖掘中的分類、關(guān)聯(lián)規(guī)則等領(lǐng)域很多挖掘方法都靈活運(yùn)用了概率統(tǒng)計(jì)中的思想和方法。
從“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)實(shí)踐中明顯看出,主要需要以上幾門課程,并且教學(xué)結(jié)束后發(fā)現(xiàn),學(xué)生不僅能夠掌握數(shù)據(jù)挖掘的思想、方法以及算法,通過對一些主要的挖掘算法的實(shí)現(xiàn),對“數(shù)據(jù)庫技術(shù)”、“程序設(shè)計(jì)語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”掌握得更加深刻,將“數(shù)據(jù)挖掘技術(shù)”作為“數(shù)據(jù)庫技術(shù)”的自然延伸,是“程序設(shè)計(jì)語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”的綜合運(yùn)用得到良好效果。
3 “數(shù)據(jù)挖掘技術(shù)”課程的設(shè)置
一門課程的設(shè)置,不僅要根據(jù)當(dāng)前計(jì)算機(jī)技術(shù)的發(fā)展,同時(shí)也要根據(jù)當(dāng)前學(xué)生的就業(yè)需求,充分考慮到應(yīng)用型本科學(xué)生的特點(diǎn)。兩年前,經(jīng)過多方面的考慮以及參考了各種國內(nèi)國外數(shù)據(jù)挖掘的教材以及論文后決定,“數(shù)據(jù)挖掘技術(shù)”課程教學(xué)學(xué)時(shí)定為32課時(shí),講課22學(xué)時(shí),上機(jī)實(shí)驗(yàn)10學(xué)時(shí)。在這個(gè)總的學(xué)時(shí)定下來之后,就是對“數(shù)據(jù)挖掘技術(shù)”課程的內(nèi)容設(shè)計(jì),這是最重要的環(huán)節(jié)。精選出的內(nèi)容不僅要反映數(shù)據(jù)挖掘的特點(diǎn)以及最新發(fā)展,還要結(jié)合應(yīng)用型本科生的特點(diǎn),要具有很強(qiáng)的針對性,重點(diǎn)要突出,要能夠“學(xué)以致用”。最后“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)內(nèi)容如下:
1) 數(shù)據(jù)挖掘綜述2學(xué)時(shí)。本講側(cè)重于從兩、三個(gè)具體應(yīng)用領(lǐng)域進(jìn)行分析得出采用數(shù)據(jù)挖掘技術(shù)的重要性與必要性,可以選取客戶關(guān)系管理、體育競技、信息安全和商業(yè)欺詐等作為案例,然后給出完整的數(shù)據(jù)挖掘定義和數(shù)據(jù)挖掘技術(shù)的分類,以及數(shù)據(jù)挖掘需要的一些前導(dǎo)課程的知識要點(diǎn)。
2) 數(shù)據(jù)挖掘過程及當(dāng)前數(shù)據(jù)挖掘的軟件工具2學(xué)時(shí)。數(shù)據(jù)挖掘的過程是數(shù)據(jù)抽取與集成、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)的選擇與整理、數(shù)據(jù)挖掘以及結(jié)論評估。本講重點(diǎn)講解挖掘的過程,強(qiáng)調(diào)數(shù)據(jù)預(yù)處理對挖掘的重要意義,對于缺省的值、殘缺的值等的處理方法。讓學(xué)生對數(shù)據(jù)挖掘的整體過程有清楚的理解。然后介紹一下當(dāng)前流行的商品化數(shù)據(jù)挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學(xué)的DBMiner。
3) 關(guān)聯(lián)規(guī)則挖掘與序列模式挖掘6學(xué)時(shí)。在介紹關(guān)聯(lián)規(guī)則原理的基礎(chǔ)上,主要介紹著名算法Apriori及其改進(jìn)、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個(gè)算法需要2學(xué)時(shí),對每個(gè)算法要進(jìn)行徹底分析,不僅能夠理解算法的原理、思想以及過程,還要分析算法提出人為什么會提出這種算法,在日常生活中的含義是什么,算法的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及如何用Java或C++來編程實(shí)現(xiàn)該算法。最后,對多層次關(guān)聯(lián)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘做個(gè)簡單介紹即可。
4) 分類技術(shù)4學(xué)時(shí)。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡單介紹一下BP神經(jīng)網(wǎng)絡(luò)的分類。對于C4.5要求能夠從原理上把握整個(gè)算法,能夠進(jìn)行連續(xù)值的離散化處理,理解C4.5比ID3的優(yōu)勢所在;對于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網(wǎng)絡(luò)的工作原理。特別的,對于FP_TREE以及C4.5算法的實(shí)現(xiàn),需要用到不規(guī)則樹,提出用C++或Java解決這種不規(guī)則樹的方法。
5) 聚類技術(shù)4學(xué)時(shí)。在介紹聚類的重要性和分類的基礎(chǔ)上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對于當(dāng)前重要的聚類STING和CLIQUE做個(gè)簡單介紹。最后,比較聚類和分類的不同之處。
6) Web挖掘與個(gè)性化推薦技術(shù)4學(xué)時(shí)。對于Web挖掘從內(nèi)容挖掘、訪問行為挖掘和結(jié)構(gòu)挖掘三個(gè)方面進(jìn)行講解,重點(diǎn)講解個(gè)性化技術(shù)。對基于最小關(guān)聯(lián)規(guī)則集的個(gè)性化推薦以及基于協(xié)作篩的個(gè)性化推薦作深入剖析,并指出在當(dāng)今網(wǎng)站設(shè)計(jì)中的重要意義。
7) 上機(jī)實(shí)驗(yàn)設(shè)計(jì)。精選五個(gè)上機(jī)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是關(guān)聯(lián)規(guī)則的Apriori算法或FP_Tree算法的實(shí)現(xiàn),兩個(gè)任選一個(gè),如果選擇Apriori的話,需要采取一些效率改進(jìn)措施;第二個(gè)實(shí)驗(yàn)是序列模式挖掘中的AprioriSome算法;第三個(gè)實(shí)驗(yàn)是分類技術(shù)中的ID3或C4.5算法,這兩個(gè)算法的主體相同,任做一個(gè)即可;第四個(gè)實(shí)驗(yàn)是聚類中的PAM或DBSCAN算法,兩個(gè)任選一個(gè);第五個(gè)實(shí)驗(yàn)是利用協(xié)作篩進(jìn)行個(gè)性化網(wǎng)站的智能推薦。以上五個(gè)實(shí)驗(yàn)每個(gè)實(shí)驗(yàn)2學(xué)時(shí),建議編程語言采用Java或C++,最后挖掘結(jié)果具有可理解性。
當(dāng)然,以上的課程內(nèi)容設(shè)計(jì)會隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,不斷進(jìn)行微調(diào),以適應(yīng)不斷變化的計(jì)算機(jī)技術(shù)發(fā)展與社會需求。
4 “數(shù)據(jù)挖掘技術(shù)”教學(xué)實(shí)踐總結(jié)
兩年前,雖然已對“數(shù)據(jù)挖掘技術(shù)”課程作了充分準(zhǔn)備,但在剛開設(shè)這門課程的時(shí)候,很擔(dān)心這門“高深莫測”的課程的教學(xué)效果。但經(jīng)過兩年的教學(xué)實(shí)踐發(fā)現(xiàn),這門課程的教學(xué)效果比預(yù)想的還要好。通過對該門課程的學(xué)習(xí),學(xué)生不僅基本掌握了數(shù)據(jù)挖掘的基本原理和算法,同時(shí)對以前的一些主干課程如數(shù)據(jù)結(jié)構(gòu)的理解和運(yùn)用有了非常深刻的認(rèn)識。更為重要的是,本課程的五個(gè)實(shí)驗(yàn)都是數(shù)據(jù)挖掘領(lǐng)域中最經(jīng)典、最重要的算法,通過對這些算法的編程實(shí)現(xiàn),不僅理解了數(shù)據(jù)挖掘關(guān)鍵算法的精髓,同時(shí),這些數(shù)據(jù)挖掘算法實(shí)現(xiàn)的程序經(jīng)過不斷改進(jìn)、加工,性能不斷提高,由于都是源代碼,可以將這些算法應(yīng)用到一些實(shí)用的軟件系統(tǒng)如客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站中去,收到良好效果。此外,在網(wǎng)上的一些數(shù)據(jù)挖掘論壇中,經(jīng)??吹揭恍┏鯇W(xué)數(shù)據(jù)挖掘的研究生或技術(shù)人員很想看一看數(shù)據(jù)挖掘經(jīng)典算法的具體程序?qū)崿F(xiàn),我們也將這兩年不斷改進(jìn)的程序源代碼作為免費(fèi)資源贈送給了不少同行,也為數(shù)據(jù)挖掘的推廣應(yīng)用貢獻(xiàn)了微薄之力。
5結(jié)束語
“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)嘗試目前主要針對的是本校應(yīng)用型計(jì)算機(jī)專業(yè)本科生,雖然收到了良好的效果,但“數(shù)據(jù)挖掘技術(shù)”絕不僅僅是計(jì)算機(jī)專業(yè)學(xué)生才需要掌握的課程,對于我校通信系、電力系、自動化系等工科專業(yè),經(jīng)濟(jì)系、管理系甚至一些文科類的學(xué)生也很有價(jià)值,因此,怎樣在非計(jì)算機(jī)專業(yè)的應(yīng)用型本科生中開設(shè)好這門新興課程,甚至在高職高專學(xué)生中也開設(shè)好這門課程,則是需要作進(jìn)一步的探索和嘗試。
參考文獻(xiàn):
[1] 毛國君. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社,2005.
[2] 陳文偉. 數(shù)據(jù)挖掘技術(shù)[M]. 北京工業(yè)大學(xué)出版社,2002.
[3] 余力. 電子商務(wù)個(gè)性化[M]. 北京:清華大學(xué)出版社,2007.
A Test to Applied College Students on Teaching Data Mining
XU Jin-bao
(Dept. of Computer Engineering, Nanjing Institute of Technology,
Nanjing 211100,China)
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)23-5561-03
Research on Application of Data Mining Technology in Network Curriculum Teaching Platform
LIU Yan-qing
(Center of Computer Network, Ningxia University, Yinchuan 750021, China)
Abstract: Aiming at the deficiency of the traditional network management method, a new scheme of data mining based on the C4.5 algorithm of decision tree are proposed,F(xiàn)irstly, In this paper it introduced the Data Mining Technology,Secondly, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform,In the end ,With the application of students’ scores as example, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform.
Key words: data mining; network curriculum; decision tree; C4.5 algorithm; Related regulation; clustering analysis
由于Internet技術(shù)的快速發(fā)展,遠(yuǎn)程網(wǎng)絡(luò)教育獲得了飛速的發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)逐漸成為人們關(guān)注的熱點(diǎn), 網(wǎng)絡(luò)課程作為網(wǎng)絡(luò)教育的載體,是決定網(wǎng)絡(luò)教育質(zhì)量的一個(gè)關(guān)鍵要素,每學(xué)期隨著班級、專業(yè)以及課程的不同,所有課程信息必須更新,管理系統(tǒng)形成的海量數(shù)據(jù)為課程管理決策應(yīng)用的效率并不高,難以適應(yīng)遠(yuǎn)程網(wǎng)絡(luò)教育的發(fā)展需要,因此,為了實(shí)現(xiàn)科學(xué)、高效的課程管理,文中將數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)課程管理中,通過對日常教學(xué)管理中的數(shù)據(jù)進(jìn)行分類挖掘,找出隱藏在數(shù)據(jù)后面的信息,這些信息可以幫助學(xué)校更好地對學(xué)生的培養(yǎng)管理,可以幫助教師更加有效地開展教學(xué)活動,進(jìn)而進(jìn)一步提高教學(xué)質(zhì)量。
1 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)課程管理中的應(yīng)用
網(wǎng)絡(luò)課程管理系統(tǒng)通常由以下幾部分組成:信息錄入(含課程信息、院系部信息、教師教輔人員信息、學(xué)生信息)、信息查詢(含院系部信息、教師教輔人員信息、課程信息)、統(tǒng)計(jì)分析(含部門統(tǒng)計(jì)、課程統(tǒng)計(jì)、學(xué)生學(xué)習(xí)情況統(tǒng)計(jì)、成績統(tǒng)計(jì))、導(dǎo)出數(shù)據(jù)(課程信息導(dǎo)出、學(xué)生成績導(dǎo)出)、資源下載、課程展示、課程檢索、師生互動、學(xué)生評價(jià)和系統(tǒng)管理。
網(wǎng)絡(luò)課程管理系統(tǒng)中存放著大量的數(shù)據(jù),根據(jù)各種需要,可以對這些數(shù)據(jù)進(jìn)行不同的組合分析,從這些數(shù)據(jù)中發(fā)現(xiàn)隱含的、有用的模式或關(guān)系用于指導(dǎo)教學(xué)與管理。在網(wǎng)絡(luò)課程管理系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)可以應(yīng)用在以下幾個(gè)方面:
1)關(guān)聯(lián)分析:如學(xué)習(xí)資料之間的關(guān)聯(lián)及課程之間的關(guān)聯(lián),將這些關(guān)聯(lián)分析應(yīng)用于課程設(shè)置中,可以幫助教學(xué)管理人員合理安排課程,還可以根據(jù)學(xué)生查閱資料的特點(diǎn)將經(jīng)常一起查閱的資料歸類在一起,從而節(jié)省學(xué)生在課程網(wǎng)站上查找資料的時(shí)間;
2)聚類分析:通過聚類分析,把學(xué)生分組組成協(xié)作學(xué)習(xí)小組, 找出他們具有共同特點(diǎn),針對不同的聚類,教師可以采用不同的教學(xué)方法;
3)分類與預(yù)測:可以利用C4.5分類算法構(gòu)造綜合素質(zhì)測評分類器,評價(jià)指標(biāo)有學(xué)習(xí)成績、思想品德、參加活動、學(xué)習(xí)實(shí)踐情況等,得出學(xué)習(xí)成績與教師職稱、教師學(xué)歷、學(xué)生生源地及學(xué)生性別之間的關(guān)系,以改進(jìn)綜合測評的方法,促進(jìn)學(xué)生全面發(fā)展。
4)時(shí)序模式:通過對學(xué)生訪問數(shù)據(jù)統(tǒng)計(jì),利用WEB挖掘技術(shù),使用數(shù)據(jù)挖掘的序列模式挖掘方法對文檔進(jìn)行分類,提高學(xué)生檢索信息的速度,可依據(jù)學(xué)生訪問的數(shù)據(jù)進(jìn)行挖掘分析,對訪問數(shù)據(jù)進(jìn)行聚類分析,了解學(xué)生感興趣的內(nèi)容,訪問站點(diǎn)之間的關(guān)聯(lián),分析學(xué)生訪問習(xí)慣及興趣點(diǎn),并在有關(guān)聯(lián)關(guān)系的頁面之間設(shè)置超鏈接等來改善網(wǎng)站的結(jié)構(gòu)。
2 學(xué)生成績數(shù)據(jù)挖掘過程
學(xué)生成績是評估教學(xué)質(zhì)量的重要依據(jù),是評價(jià)學(xué)生對所學(xué)知識掌握程度的重要標(biāo)志,通過對現(xiàn)有學(xué)生成績數(shù)據(jù)庫中的成績數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,根據(jù)決策樹的結(jié)果來判斷各門課程的成績與外在因素的關(guān)系,以及對發(fā)現(xiàn)的關(guān)系進(jìn)一步量化,并把決策結(jié)果通過可視化軟件顯示給教輔人員查閱,以便他們根據(jù)這些問題對教學(xué)做出相應(yīng)的調(diào)整,從而提高學(xué)生學(xué)習(xí)質(zhì)量。
2.1 確定挖掘任務(wù)
傳統(tǒng)的成績統(tǒng)計(jì)方法,通常是計(jì)算均值、方差、信度、效度和區(qū)別顯著性檢驗(yàn)等,對成績的分析處理方法通常是統(tǒng)計(jì)成績?yōu)閮?yōu)、良、及格、不及格等級別的人數(shù)及比分比,而很少對影響學(xué)生成績的因素進(jìn)行全面的了解分析,這樣不利于進(jìn)一步提高學(xué)生的成績, 因此,為了進(jìn)一步提高成績,需要對這些數(shù)據(jù)信息進(jìn)一步挖掘分析,從而得出結(jié)論,供教學(xué)使用,而按照學(xué)生成績屬性的特征進(jìn)行分類,采用決策樹方法可以從一組無次序、無規(guī)則的數(shù)據(jù)記錄中推理出決策樹表示形式的分類規(guī)則;對于教師來說,了解學(xué)生的學(xué)習(xí)興趣與差異對教學(xué)很重要,因此,本文將決策樹分析應(yīng)用在學(xué)生成績分析中,通過挖掘分析,找出影響學(xué)生成績的主要因素,以便在以后的教學(xué)活動中采取相應(yīng)的改進(jìn)措施。
2.2 準(zhǔn)備數(shù)據(jù)
在學(xué)校每學(xué)期結(jié)束時(shí),網(wǎng)絡(luò)課程管理系統(tǒng)中,保存了學(xué)生所參與課程的成績信息,而成績是與學(xué)生關(guān)聯(lián)最大的數(shù)據(jù),每學(xué)期都有新的成績數(shù)據(jù)產(chǎn)生,且隨著時(shí)間推移,成績數(shù)據(jù)庫中的數(shù)據(jù)量將越來越大。因此,為了從學(xué)生成績中提取有用的信息供教學(xué)參考,本文以歷年來的學(xué)生成績作為要分析的數(shù)據(jù),希望從學(xué)生成績信息中發(fā)現(xiàn)與提高學(xué)生學(xué)習(xí)成績有關(guān)系的一些因素。如學(xué)生的性別,教師的學(xué)歷高低,教師職稱的高低,學(xué)生生源地是城鎮(zhèn)還是農(nóng)村等與學(xué)生成績密切相關(guān)的屬性。
2.3 C4.5算法設(shè)計(jì)
本文主要是對學(xué)生成績進(jìn)行分析,而成績是數(shù)值型的數(shù)據(jù),因此在分析時(shí)所用的算法是基于信息熵的決策樹分類算法C4.5,C4.5是在ID3算法基礎(chǔ)上改進(jìn)的,其特點(diǎn)主要是根據(jù)屬性集的取值選擇實(shí)例的類別及各級決策樹,C4.5主算法描述如下:
1)在訓(xùn)練集T中,使用計(jì)算方法選取屬性作為子集T={T1,T2,T3,T4,……};
2)用C4.5 “建樹算法”對子集分裂T={T1,T2,T3,T4,……}進(jìn)行信息增益(嫡)計(jì)算,生成決策,并得到測試子集T1,Ti的信息增益,“建樹算法”為:首先對當(dāng)前訓(xùn)練集T數(shù)據(jù)計(jì)算每個(gè)樣本子集的信息增益S={S1,S2,S3,S4,……},然后, 選擇互信息S={S1,S2,S3,S4,……}中最大的特征屬性Smax作為樹(或子樹)的根結(jié)點(diǎn)Tboot,接著將那些嫡值大于平均值的樣本子集合并成一個(gè)臨時(shí)的復(fù)合樣本子集歸于同一子集,該取值作為樹的分支Tos={Tos1, Tos2, Tos3, Tos4,……},最后,對樹的分支Tos={Tos1, Tos2, Tos3, Tos4,……}中分類結(jié)果不為同一類的子集遞歸調(diào)用建樹算法, 若子集僅屬于同一類分類結(jié)果,對應(yīng)分支結(jié)束作為樹的葉結(jié)點(diǎn),返回調(diào)用處;
3)對訓(xùn)練集T1,Ti中所有屬性進(jìn)行類別判定,找出類別的分類;
4)若分類結(jié)果為同一類, 轉(zhuǎn)到步驟2)進(jìn)行,否則對子集T1,T2,T3,T4,……再分別進(jìn)行屬性分裂,取其子集T={Ti1,Ti2,Ti3,Ti4,……},轉(zhuǎn)到步驟2)進(jìn)行;
5)判定此決策樹為最后結(jié)果。
2.4 屬性選擇度量
屬性選擇度量又稱分裂規(guī)則,其是將給定的類標(biāo)記的訓(xùn)練集元組的數(shù)據(jù)“最好”地劃分成各種個(gè)體類的啟發(fā)式方法,其中具有最好度量的屬性被選作給定元組的分裂屬性,其相關(guān)計(jì)算公式如下:
原來信息: (1)
期望信息: (2)
信息增益: G(B)=f(B)-E(B)(3)
分裂信息: (4)
增益率: GR(B)=G(B)/sf(B)(5)
上式中, 假設(shè)類標(biāo)號屬性具有k個(gè)不同值,定義了k個(gè)不同類集合U={U1,U2,U3,U4,……},Bi是Ui中的樣本數(shù), B 是 Bi個(gè)訓(xùn)練集的集合, Q(Bi)是Ui的概率。
3 算法實(shí)現(xiàn)
為了驗(yàn)證上述算法的正確性,文中從英語專業(yè)的專業(yè)課成績中隨機(jī)抽取400名學(xué)生的成績組成訓(xùn)練集進(jìn)行試驗(yàn), 把其中的連續(xù)屬性平均成績經(jīng)過分類轉(zhuǎn)換為離散屬性:S1=[85,100];S2=[70,85]:S3=[60,70];S4=[0,60],并將訓(xùn)練集中的數(shù)據(jù)進(jìn)行簡化如下:學(xué)生性別={男,女},教師學(xué)歷:{ 博士研究生,碩士研究生,本科,???},教師職稱={教授,副教授,講師,助教},學(xué)生生源地性質(zhì):{ 農(nóng)村,城鎮(zhèn)},學(xué)生成績={S1,S2,S3,S4},其中, S1有160個(gè), S2有80個(gè), S3有80個(gè), S4有80個(gè),
3.1 屬性計(jì)算
學(xué)生的成績期望信息為:
下面以性別屬性計(jì)算為例:在400個(gè)數(shù)據(jù)中, 一共有220個(gè)女同學(xué), 分別是:S1有80個(gè), S2有40個(gè), S3有60個(gè), S4有40個(gè),有180個(gè)男同學(xué),分別是S1有80個(gè), S2有40個(gè), S3有20個(gè), S4有40個(gè);按照公式⑵計(jì)算期望信息,
于是,性別的信息增益為:G(B)=1.922-1.891=0.031;
按照公式⑷計(jì)算性別屬性的分裂信息為:
按照公式⑸計(jì)算性別屬性的增益率是; GR(B)=G(B)/sf(B)=0.031/0.993=0.0312;
按照此方法依次可以計(jì)算出,
教師職稱增益率為 GR(B)=G(B)/sf(B) =0.0435;
教師學(xué)歷的增益率為 GR(B)=G(B)/sf(B)=0.0403;
學(xué)生生源地的增益率GR(B)=G(B)/sf(B)=0.0278。
3.2 決策規(guī)則的生成
利用決策樹形成的各種分類模型, 利用IF.THEN語法形成分類規(guī)則, 在IF.THEN分類規(guī)則中,從根到樹葉的每一條路徑都創(chuàng)建一條規(guī)則,THEN部分用該決策樹中葉點(diǎn)所標(biāo)記的類別表示,IF部分用決策樹中一條路徑所形成的屬性值表示;決策樹從一種表示形式到另一種表示形式的轉(zhuǎn)換是非常簡單直接的,就可以得到相應(yīng)的THEN部分結(jié)論,就可以得知這個(gè)學(xué)生成績是屬性哪個(gè)分類。
從上面的學(xué)生成績系統(tǒng)中抽取教師的學(xué)歷、學(xué)生所學(xué)的專業(yè)、教師的職稱、學(xué)生的性別、學(xué)生生源地性質(zhì)和平均成績進(jìn)行建樹分析,從構(gòu)造的學(xué)生成績的決策樹中,可分析得知影響學(xué)生成績的最重要的因素是教師職稱,其次是教師學(xué)歷,學(xué)生性別和學(xué)生生源地性質(zhì),這棵樹的構(gòu)成是很符合現(xiàn)實(shí)要求的。
4 結(jié)束語
數(shù)據(jù)挖掘技術(shù)已在多個(gè)領(lǐng)域得到很好的應(yīng)用,學(xué)校各部門多年來積累了大量的數(shù)據(jù),但這些數(shù)據(jù)只是簡單的存儲在數(shù)據(jù)庫中,沒有得到深層次地分析與利用。本文對數(shù)據(jù)挖掘技術(shù)在分析高校網(wǎng)絡(luò)課程相關(guān)數(shù)據(jù)中的應(yīng)用進(jìn)行了討論,并通過C4.5算法在分析學(xué)生成績中的應(yīng)用, 揭示了成績背后的深層意義,找出了隱藏著的教學(xué)信息與規(guī)律,通過加強(qiáng)對這些教學(xué)信息與規(guī)律的教學(xué)管理,提高學(xué)生的學(xué)習(xí)成績,有助于網(wǎng)絡(luò)教學(xué)質(zhì)量的動態(tài)管理。
參考文獻(xiàn):
[1] 周曦.數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)營銷中的作用[J].電腦知識與技術(shù),2011(11).
[2] 施曉華.數(shù)據(jù)挖掘技術(shù)在圖書館學(xué)科數(shù)據(jù)館藏分析中的應(yīng)用[J].情報(bào)雜志,2011(1).
[3] 廖燕玲.數(shù)據(jù)挖掘在學(xué)生職業(yè)能力分析中的應(yīng)用[J].電腦知識與技術(shù),2010(33).
中圖分類號:G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2014)06-0248-02
近年來,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于多個(gè)行業(yè)和領(lǐng)域,因而,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程也順應(yīng)實(shí)際應(yīng)用的需要,成為高校計(jì)算機(jī)教育的專業(yè)課程[1]。針對數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程的特點(diǎn),利用低廉成本的移動終端和便捷快速的移動網(wǎng)絡(luò)搭建實(shí)驗(yàn)教學(xué)平臺,配合已有的基于校園網(wǎng)的實(shí)驗(yàn)教學(xué)[2],可以更好地達(dá)到數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程的實(shí)驗(yàn)?zāi)康?。因此,基于移動終端開發(fā)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的特色實(shí)驗(yàn)平臺有著極大的意義和價(jià)值。
一、Android相關(guān)技術(shù)簡介
Android應(yīng)用程序有4大組件:Activity,Service,Broadcast Receiver,Content Provider。開發(fā)者可以根據(jù)自己的需要選擇這些組件的組合來進(jìn)行開發(fā)。Activity是Android組件中最基本也是最為常見的組件,用戶通過Activity與應(yīng)用程序進(jìn)行交互。Service組件可以理解為剝離了界面的Activity,Service組件一般在后臺長時(shí)間運(yùn)行,處理一些不為用戶所知的后臺業(yè)務(wù)。Broadcast Receiver是用戶接受廣播通知的組件。Content Provider是用來實(shí)現(xiàn)應(yīng)用程序之間數(shù)據(jù)共享的類。Android應(yīng)用程序的核心組件之間的通信的過程,被稱為Intent,它允許在你的應(yīng)用程序與其它的應(yīng)用程序間傳遞Intent來執(zhí)行動作和產(chǎn)生事件。本系統(tǒng)中用到的另一核心技術(shù)就是Android系統(tǒng)的網(wǎng)絡(luò)傳輸方式。系統(tǒng)采用基于http協(xié)議的Android網(wǎng)絡(luò)編程方式。先獲得與服務(wù)器端的http連接,然后獲取輸入輸出流,將要用到的參數(shù)放入流中,發(fā)送http請求,之后判斷請求是否成功,如果成功則讀取返回結(jié)果,最后將返回結(jié)果用Activity顯示給用戶,或者傳遞給后臺進(jìn)行需要的邏輯處理。
二、平臺架構(gòu)設(shè)計(jì)
平臺的總體架構(gòu)由服務(wù)器端和Android客戶端組成,如圖1所示。服務(wù)器端通過Tomcat部署Web網(wǎng)站,使用MySQL作數(shù)據(jù)存儲??蛻舳说恼埱蟮竭_(dá)并處理后,通過http數(shù)據(jù)傳輸將處理后的回復(fù)數(shù)據(jù)傳回客戶端,如圖2所示。
Android客戶端通過新建HttpPost的方式,指定服務(wù)器端URL,添加所需參數(shù),然后執(zhí)行HttpPost,對返回的HttpReponse進(jìn)行判斷,成功則讀取返回?cái)?shù)據(jù),然后通過Android的Activity組件呈現(xiàn)給用戶,如圖3所示。
三、平臺Android客戶端功能實(shí)現(xiàn)
與實(shí)驗(yàn)平臺web版類似,本系統(tǒng)實(shí)現(xiàn)了課程介紹、實(shí)驗(yàn)平臺、資料下載和在線交流等模塊,各個(gè)模塊在使用的過程中數(shù)據(jù)與web端服務(wù)器保持一致,系統(tǒng)的功能設(shè)計(jì)如圖4所示。
下面,就重點(diǎn)介紹本系統(tǒng)的功能設(shè)計(jì)。
1.課程(實(shí)驗(yàn))介紹功能。本平臺客戶端旨在為用戶提供課程實(shí)驗(yàn)的環(huán)境。這個(gè)部分將提供大量關(guān)于課程和實(shí)驗(yàn)的背景數(shù)據(jù)以及要點(diǎn)信息。課程顯示的實(shí)現(xiàn)通過在WEB部署靜態(tài)html網(wǎng)頁,然后新建一個(gè)WebView,調(diào)用webview.loadUrl(url)函數(shù),將服務(wù)器端的頁面顯示在Android設(shè)備的activity呈現(xiàn)給用戶。用戶在查看了這些信息后,實(shí)驗(yàn)才能夠順利地進(jìn)行。
2.實(shí)驗(yàn)平臺功能。對于本平臺來說,提供實(shí)驗(yàn)的環(huán)境正是其主旨和核心需求。它將為用戶提供一個(gè)完成實(shí)驗(yàn)的場所,而這些實(shí)驗(yàn)往往需要用戶通過編寫代碼來完成。用戶可以將課程介紹模塊的源代碼,通過Android自帶的復(fù)制粘貼功能復(fù)制到此處運(yùn)行,然后在此基礎(chǔ)上修改,這一操作對于手機(jī)用戶來講并不繁瑣。
3.資源上傳/下載功能。資源上傳與下載也是教學(xué)過程中經(jīng)常需要完成的。因此,為了方便教學(xué)的這個(gè)環(huán)節(jié),通過Android客戶端,教師可以一些相關(guān)課件供學(xué)生下載,而學(xué)生也可以通過上傳來向其它學(xué)生展示自己的優(yōu)秀作品,方便互相學(xué)習(xí)。
當(dāng)今高校的計(jì)算機(jī)教學(xué)條件越來越豐富,各種用于提高學(xué)生動手實(shí)踐能力的平臺越來越多,作為這些平臺的輔助,移動的客戶端能大大提高用戶使用平臺的頻率,也是十分必要的。
中圖分類號:G64 文獻(xiàn)標(biāo)識碼:B 文章編號:1672-5913(2007)02-0057-03
1程序設(shè)計(jì)課程與數(shù)據(jù)挖掘技術(shù)概述
程序設(shè)計(jì)課程是培養(yǎng)學(xué)生軟件開發(fā)能力的一門課程。目前國內(nèi)的理工類學(xué)校或相關(guān)專業(yè)普遍都為學(xué)生開設(shè)了程序設(shè)計(jì)課程。一直以來,如何了解多數(shù)學(xué)生在學(xué)習(xí)程序設(shè)計(jì)中所遇到的困難,如何幫助學(xué)生克服學(xué)習(xí)中的障礙,都要靠教師多年的教學(xué)經(jīng)驗(yàn)來解決。這種傳統(tǒng)的教學(xué)方法顯然不能滿足知識更新迅速的計(jì)算機(jī)教學(xué)過程。因此需要研究如何從學(xué)生提交的程序作業(yè)中利用數(shù)據(jù)庫技術(shù)及時(shí)發(fā)現(xiàn)問題和解決問題。數(shù)據(jù)挖掘(Data Mining)技術(shù)是近年來新興的數(shù)據(jù)管理與分析技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)中隱藏的線索,輔助人們進(jìn)行科學(xué)分析和決策。數(shù)據(jù)挖掘普遍需要三個(gè)階段:數(shù)據(jù)準(zhǔn)備、挖掘操作和結(jié)果表達(dá)。下面以C語言為例介紹在程序設(shè)計(jì)課程教學(xué)中,對學(xué)生程序作業(yè)進(jìn)行數(shù)據(jù)挖掘的一種應(yīng)用方案。
2程序設(shè)計(jì)課程的數(shù)據(jù)挖掘過程
2.1 數(shù)據(jù)準(zhǔn)備
根據(jù)程序設(shè)計(jì)課程的教學(xué)特點(diǎn),我們按錯(cuò)誤的嚴(yán)重程度將所有學(xué)生提交的程序作業(yè)的評閱結(jié)果歸納為以下5類,即題目錯(cuò)誤、編譯時(shí)語法錯(cuò)誤、編譯時(shí)語法警告、編譯后運(yùn)行結(jié)果不完全正確、編譯后運(yùn)行結(jié)果完全正確。為了對學(xué)生程序作業(yè)中的問題進(jìn)一步分析原因,我們對以下8類數(shù)據(jù)進(jìn)行分析,即功能模塊函數(shù)序列、邏輯結(jié)構(gòu)序列、語句類型序列、表達(dá)式序列、運(yùn)算符序列、標(biāo)識符序列、數(shù)值常量序列以及簡化的字符常量序列。
要將文件形式的源程序分解為以上8項(xiàng)數(shù)據(jù),就需要按語法規(guī)則完成以下步驟:
(1) 過濾程序中的注釋信息和空白字符,產(chǎn)生預(yù)處理元素序列;
(2) 根據(jù)#include和#define等標(biāo)記替換用戶指定的包含文件和宏定義等預(yù)處理元素;
(3) 對照語法元素表,進(jìn)一步將程序分解為關(guān)鍵字、標(biāo)識符、常量、運(yùn)算符、定界符等語法元素序列;
(4) 將數(shù)值常量以空格為連接符連接為一個(gè)數(shù)值常量序列;
(5) 將字符及字符串常量保留%d等格式字符和\n等轉(zhuǎn)義字符后刪去多余字符,以空格為連接符連接為一個(gè)簡化的字符常量序列;
(6) 將所有運(yùn)算符以空格為連接符連接為一個(gè)運(yùn)算符序列;
(7) 將用戶變量名和函數(shù)名統(tǒng)一編碼后與程序中的關(guān)鍵字構(gòu)成標(biāo)識符序列;
(8) 將運(yùn)算符與標(biāo)識符及常量以空格為連接符連接為一個(gè)表達(dá)式序列;
(9) 將程序中的語句分類為表達(dá)式語句、函數(shù)調(diào)用語句、空語句、復(fù)合語句、if語句、else語句、switch語句、case語句、while語句、do語句、for語句、break語句、continue語句、return語句和goto語句,并組織成語句類型序列;
(10) 對語句按分號和大括號等定界符劃分為模塊函數(shù)序列;
(11) 將模塊內(nèi)語句按順序、選擇、循環(huán)的分類構(gòu)成邏輯結(jié)構(gòu)序列。
2.2 挖掘操作的過程
由于篇幅所限,下面僅以程序設(shè)計(jì)教學(xué)中的典型題目“溫度轉(zhuǎn)換”的數(shù)值常量序列和運(yùn)算符序列為考察數(shù)據(jù)具體描述挖掘過程。
(1)數(shù)據(jù)清理
首先將數(shù)據(jù)準(zhǔn)備階段的各類數(shù)據(jù)與評閱結(jié)果組成一個(gè)數(shù)據(jù)記錄集(如表1所示)。由于分析的目的是找出教學(xué)中造成學(xué)生程序錯(cuò)誤的主要因素,而題目錯(cuò)誤僅僅是因?yàn)閷W(xué)生操作馬虎,與掌握程序設(shè)計(jì)的能力并不相關(guān),因此把評閱結(jié)果全部正確的和題目錯(cuò)誤的記錄過濾掉,只保留評閱結(jié)果為語法錯(cuò)誤、語法警告和運(yùn)行錯(cuò)誤的記錄(如表2所示)。
(2)構(gòu)造1項(xiàng)侯選集,發(fā)現(xiàn)頻繁1項(xiàng)集
將所有數(shù)據(jù)作為1項(xiàng)集中的元素,構(gòu)造1項(xiàng)侯選集,并計(jì)算不同元素的數(shù)量,如表3所示。保留其中數(shù)量較多的元素,濾掉其它元素,得到頻繁1項(xiàng)集,如表4所示。
(3)構(gòu)造2項(xiàng)侯選集,發(fā)現(xiàn)頻繁2項(xiàng)集
將所有頻繁1項(xiàng)集元素兩兩組合,構(gòu)成侯選2項(xiàng)集,并計(jì)算組合后的數(shù)量,如表5所示。保留其中數(shù)量比較多的元素,濾掉其它元素,得到頻繁2項(xiàng)集{=/*(-),編譯警告}。
2.3 結(jié)果表達(dá)和解釋
保留下來的2項(xiàng)集的兩個(gè)元素分別代表了錯(cuò)誤類型和造成該類型錯(cuò)誤的主要語法元素序列,即現(xiàn)有數(shù)據(jù)表明(輸入函數(shù)中)未使用取地址運(yùn)算符是造成編譯警告的主要原因。
3數(shù)據(jù)挖掘應(yīng)用效果
在現(xiàn)實(shí)的教學(xué)過程中,我們對2005級8個(gè)班275名學(xué)生的5385個(gè)程序進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)題目錯(cuò)誤的比例約占1.49%,編譯錯(cuò)誤的比例約占3.38%,編譯時(shí)警告的比例約占1.21%,運(yùn)行錯(cuò)誤的比例約占8.10%,運(yùn)行正確的比例約占85.82%。其中造成編譯錯(cuò)誤的主要原因是注釋信息或各級括號定界符未配對;造成編譯警告的主要原因是格式輸入函數(shù)調(diào)用時(shí)缺少地址運(yùn)算符或用戶變量定義后未使用;造成運(yùn)行錯(cuò)誤的主要原因是除法運(yùn)算符兩側(cè)運(yùn)算量為整型常量。下面的圖表反映了在程序設(shè)計(jì)課程的教學(xué)中沒有使用數(shù)據(jù)挖掘技術(shù)和使用了數(shù)據(jù)挖掘技術(shù)的教學(xué)效果對比。
圖1為未采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評閱結(jié)果統(tǒng)計(jì)圖,其中靠上的折線表示每次學(xué)生作業(yè)的平均分?jǐn)?shù),靠下的折線表示每次學(xué)生作業(yè)的嚴(yán)重語法錯(cuò)誤發(fā)生率??梢园l(fā)現(xiàn),學(xué)生每次作業(yè)的平均成績基本呈水平小波動隨機(jī)形狀,表明學(xué)生成績在學(xué)習(xí)過程中沒有明顯變化,同樣嚴(yán)重語法錯(cuò)誤發(fā)生率也沒有明顯變化。圖2為一直采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評閱結(jié)果統(tǒng)計(jì)圖,可以發(fā)現(xiàn)學(xué)生的成績隨著系統(tǒng)的使用時(shí)間增加而穩(wěn)定的上升。在第三次作業(yè)以后基本保持在90分以上的水平,同時(shí)嚴(yán)重語法錯(cuò)誤的比例也快速的下降,在第二次作業(yè)以后就控制在5%以下。以上對比說明本方法比較準(zhǔn)確地發(fā)現(xiàn)了學(xué)生程序中的語法錯(cuò)誤和算法錯(cuò)誤的主要因素,使學(xué)生得到及時(shí)地反饋并在以后的程序設(shè)計(jì)中避免相似的錯(cuò)誤,從而明顯的改善了教學(xué)效果。
參考文獻(xiàn):
[1] 李建中,王珊 . 數(shù)據(jù)庫系統(tǒng)原理[M] . 北京:電子工業(yè)出版社,2004.
[2] Richard J. Roiger,Michael W.Geatz . 數(shù)據(jù)挖掘教程[M] .北京:清華大學(xué)出版社,2003.
【中圖分類號】G 【文獻(xiàn)標(biāo)識碼】A
【文章編號】0450-9889(2016)10C-0068-02
如今,大數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于各領(lǐng)域,在知識發(fā)現(xiàn)、信息決策等方面發(fā)揮著越來越重要的作用。高職教育教學(xué)改革正在如火如荼地進(jìn)行,在教育模式、教學(xué)方法、課程建設(shè)等改革中取得了一定的成績。在改革的步伐中,高職院校試圖利用數(shù)據(jù)挖掘技術(shù)尋找新的改革契機(jī),論證和完善改革成果,讓數(shù)據(jù)先行,為改革提供有力的依據(jù)。教育教學(xué)改革碩果累累的同時(shí),專業(yè)基礎(chǔ)課的改革卻顯緩慢,遠(yuǎn)遠(yuǎn)地落后于專業(yè)改革的進(jìn)程。
一、高職院校專業(yè)基礎(chǔ)課程改革的現(xiàn)狀
(一)專業(yè)基礎(chǔ)課程改革的必要性
專業(yè)基礎(chǔ)課程是為學(xué)習(xí)專業(yè)課程打基礎(chǔ)的課程,把學(xué)生由淺入深地逐漸領(lǐng)進(jìn)專業(yè),為學(xué)生將來的專業(yè)學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ)。但一直以來,專業(yè)基礎(chǔ)課程的教學(xué)仍沿用以理論知識講授為主,實(shí)驗(yàn)驗(yàn)證為輔的教學(xué)模式,已經(jīng)遠(yuǎn)遠(yuǎn)落后于現(xiàn)有高職教育的改革實(shí)踐。專業(yè)基礎(chǔ)課程的改革勢在必行,改革要想有成效,就要符合學(xué)生的成長規(guī)律。專業(yè)基礎(chǔ)課程的改革創(chuàng)新是推動高職教育從本質(zhì)上進(jìn)行改革創(chuàng)新、更新舊模式的基礎(chǔ),只有根基牢固了才能更進(jìn)一步促進(jìn)專業(yè)更新、改革與發(fā)展。
(二)專業(yè)基礎(chǔ)課程建設(shè)存在的問題
當(dāng)前專業(yè)基礎(chǔ)課程的建設(shè)還存在諸多的問題,主要表現(xiàn)有:首先,高職改革中學(xué)校的精力更多的放在專業(yè)課程的建設(shè)和改革中,對專業(yè)基礎(chǔ)課的建設(shè)重視度不夠。對于專業(yè)基礎(chǔ)課程,大多數(shù)人認(rèn)為已經(jīng)成熟、經(jīng)驗(yàn)豐富,再建設(shè)也難以出成果,所以學(xué)校大多會把更多精力、更好的資源放在發(fā)展專業(yè)課程建設(shè)、實(shí)驗(yàn)實(shí)訓(xùn)的建設(shè)等方面,因?yàn)楦芰⒏鸵娪?、立見成效,卻都忽視了幾乎所有專業(yè)基礎(chǔ)課程一直以來都還在沿用本科教學(xué)的方式、方法,少有的一些改革也只是在內(nèi)容上進(jìn)行修剪,事實(shí)上,專業(yè)基礎(chǔ)課程的建設(shè)和改革一直都是欠缺的。
再者,為配合專業(yè)建設(shè),學(xué)校會在專業(yè)人才選拔中精挑細(xì)選,卻大多忽略了專業(yè)基礎(chǔ)課師資建設(shè)的重要性。大多學(xué)校其實(shí)也意識到了專業(yè)基礎(chǔ)課程在專業(yè)發(fā)展中的重要性,于是把承擔(dān)專業(yè)基礎(chǔ)課程的師資劃分入各專業(yè),目的是為了更好地讓專業(yè)基礎(chǔ)課服務(wù)于專業(yè)。但在此過程中卻忽視了政策的引導(dǎo),部分專業(yè)基礎(chǔ)課教師實(shí)際并沒有很好地融入專業(yè)及團(tuán)隊(duì)。
另外,專業(yè)基礎(chǔ)課程課時(shí)大量縮減以補(bǔ)貼專業(yè)課程的建設(shè)。學(xué)校為了保證學(xué)生的全面發(fā)展,公共基礎(chǔ)課程的課時(shí)基本固定了下來。因此,專業(yè)建設(shè)時(shí)難免會把注意力集中在如何削減專業(yè)基礎(chǔ)課課時(shí)上。針對專業(yè)基礎(chǔ)課程建設(shè)中存在的諸多問題,如何在現(xiàn)有政策、資源、師資和學(xué)時(shí)的基礎(chǔ)上,把專業(yè)基礎(chǔ)課程建設(shè)好,是目前亟待解決的問題。
二、數(shù)據(jù)挖掘在專業(yè)基礎(chǔ)課程中的應(yīng)用
數(shù)據(jù)挖掘(Data Mining,DM)是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD)的同義詞,是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn),它是從數(shù)據(jù)庫的大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程。通過數(shù)據(jù)挖掘技術(shù),從大量的數(shù)據(jù)中尋找有價(jià)值的信息,用以信息管理、查詢優(yōu)化、決策支持等。近些年,數(shù)據(jù)挖掘技術(shù)也逐漸被引入學(xué)校,在課程建設(shè)、專業(yè)建設(shè)、制度改革等方面發(fā)揮了重要的作用。
(一)挖掘?qū)I(yè)基礎(chǔ)課程與專業(yè)課程之間的知識聯(lián)系
為了適應(yīng)發(fā)展削減專業(yè)基礎(chǔ)課程的課時(shí)無可厚非,在課時(shí)減少的情況下,專業(yè)基礎(chǔ)課程還得更好地服務(wù)于專業(yè),這就得對課程知識修剪,這方面的工作一般由任課老師根據(jù)經(jīng)驗(yàn)對知識點(diǎn)進(jìn)行篩選,如果任課老師對專業(yè)知識非常熟悉,篩選的知識大多應(yīng)該是有效的,但如果是缺乏經(jīng)驗(yàn)的老師,或許就難以做到。所以在制定教學(xué)大綱和計(jì)劃時(shí),教學(xué)知識應(yīng)更多的考慮將來學(xué)生在專業(yè)學(xué)習(xí)中的可持續(xù)性。利用數(shù)據(jù)挖掘技術(shù)發(fā)掘?qū)I(yè)基礎(chǔ)課與專業(yè)課程知識體系之間的關(guān)聯(lián)性,利用關(guān)聯(lián)規(guī)則、決策樹等方法找到哪些知識與專業(yè)有關(guān),哪些知識與專業(yè)關(guān)聯(lián)度不大,制定大綱和計(jì)劃時(shí)把關(guān)聯(lián)度大的作為重點(diǎn),把不相關(guān)的知識作為擴(kuò)展,或者自學(xué)知識。這樣就可以合理地利用有限的課時(shí),教授學(xué)生將來在專業(yè)學(xué)習(xí)中急需的知識,獲取效率最大化。
(二)尋找影響學(xué)生學(xué)習(xí)專業(yè)基礎(chǔ)課程的主要因素
高職學(xué)校的生源一般基礎(chǔ)會稍有欠缺,理論知識不扎實(shí),學(xué)習(xí)積極性受過打擊。學(xué)生在學(xué)習(xí)理論性偏強(qiáng)的課程時(shí),尤其表現(xiàn)出排斥。教學(xué)中教師很難抓住學(xué)生的特點(diǎn)來授課,就會造成學(xué)生厭惡學(xué)習(xí)的惡性循環(huán)。利用數(shù)據(jù)挖掘技術(shù)尋找學(xué)生在學(xué)習(xí)過程中的主要影響因素,比如生源、高考成績、公共基礎(chǔ)學(xué)習(xí)情況、專業(yè)基礎(chǔ)課程(先行)學(xué)習(xí)情況、學(xué)習(xí)態(tài)度、教師等多方面因素,也可運(yùn)用關(guān)聯(lián)規(guī)則等方法分析學(xué)生學(xué)習(xí)專業(yè)基礎(chǔ)課程受到哪些因素的影響,然后根據(jù)這些影響因素找到學(xué)生學(xué)習(xí)的規(guī)律,適時(shí)調(diào)整授課方法、進(jìn)度等。
(三)發(fā)現(xiàn)影響學(xué)生學(xué)知識點(diǎn)的主要因素
考量學(xué)生在學(xué)教學(xué)知識點(diǎn)時(shí)的影響因素,以便教師在授課時(shí)采取相應(yīng)的措施。收集歷屆學(xué)生學(xué)習(xí)此類知識點(diǎn)的情況,教師授課的情況,挖掘出學(xué)生對于某知識點(diǎn)的學(xué)習(xí)規(guī)律,及適合的學(xué)習(xí)方法、授課方法等,精確找到適合每個(gè)知識點(diǎn)、某一小節(jié)、某一章節(jié)的教學(xué)方法。這樣就不會造成所有的教學(xué)決策全憑任課教師的主觀決斷,尊重了學(xué)生的成長規(guī)律,提高了教師的授課效率,由于有針對性地找到了適合學(xué)生學(xué)習(xí)的方法,學(xué)生學(xué)習(xí)效率也會大大提高。
(四)完善知識評價(jià)體系
知識評價(jià)體系是評估教學(xué)質(zhì)量、學(xué)生學(xué)習(xí)成果等的重要途徑,制定合理的知識評價(jià)體系也會反推教學(xué)質(zhì)量,促進(jìn)教學(xué)活動的有效展開,激勵(lì)學(xué)生端正學(xué)習(xí)態(tài)度。知識評價(jià)包括理論評價(jià)和實(shí)踐能力等的評價(jià),需要根據(jù)課程核心能力要求、學(xué)生能力培養(yǎng)要求、與后續(xù)課程的銜接等多方面來制定考核辦法。制定完善的評價(jià)體系是一個(gè)困難的過程,初期可以結(jié)合往屆評價(jià)方法設(shè)計(jì)一些調(diào)查問卷,分別對學(xué)生、相關(guān)專業(yè)教師進(jìn)行調(diào)查,利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析,總結(jié)出合適的評價(jià)體系。經(jīng)過實(shí)施以后,再根據(jù)學(xué)生的情況、教師的反饋進(jìn)行完善與調(diào)整。
同時(shí),根據(jù)數(shù)據(jù)挖掘?qū)Ω髦R聯(lián)接的分析結(jié)論,結(jié)合專業(yè)教師的討論意見,專業(yè)基礎(chǔ)課程教師可以根據(jù)后續(xù)專業(yè)學(xué)習(xí)的需要挑揀出合適的知識,重新編制適合本專業(yè)學(xué)生學(xué)習(xí)的教材。對于專業(yè)基礎(chǔ)課程教師的培養(yǎng),條件允許的情況下,讓專業(yè)基礎(chǔ)課程教師融入專業(yè),熟悉專業(yè)課程有利于更好地結(jié)合專業(yè)需求、現(xiàn)場案例詮釋基礎(chǔ)知識,學(xué)生從心理上來說,因?yàn)橛袑I(yè)的支撐,也能更好地接受復(fù)雜又繁瑣的專業(yè)基礎(chǔ)知識。
【參考文獻(xiàn)】
[1]周麗娟.大數(shù)據(jù)時(shí)代下的當(dāng)代職業(yè)教育研究[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015(4)
[2]段向紅,張飛舟.數(shù)據(jù)挖掘技術(shù)及其在職業(yè)教育中的應(yīng)用探討[J].職業(yè)教育研究,2007(7)
[3]仁,何業(yè)軍,王桂蓮.高職電工基礎(chǔ)類課程教學(xué)改革的探索與實(shí)踐[J].職業(yè)技術(shù),2014(7)
中圖分類號:G642 文獻(xiàn)標(biāo)志碼:A
Abstract: According to the traditional teaching method in data warehouse and data mining course exists disadvantages such as theoretical knowledge is difficult to digest, experiment too modeled and there is a gap between the teaching content and students' skills and software enterprise requirements, the paper puts forward the task drive case teaching, selects tasks of close to the enterprise project , explains the key points in the task through the case , develops the students' innovation ability, and explaints that task drive case method implementation process and the matters needing attention.
Key words: Task Driven Teaching Model; Teaching Practice; Data Warehouse; Data Mining
0. 引言
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)出現(xiàn)于2O世紀(jì)8O年代,90年代有了突飛猛進(jìn)的發(fā)展。這是信息和數(shù)據(jù)深度處理的必然需要,也是體現(xiàn)信息價(jià)值的重要工具,在當(dāng)前信息社會有廣泛的應(yīng)用?!皵?shù)據(jù)倉庫與數(shù)據(jù)挖掘”作為一門既有理論基礎(chǔ)又有實(shí)際應(yīng)用價(jià)值的課程,已經(jīng)成為很多信息類專業(yè)本科生的學(xué)習(xí)課程。
“任務(wù)驅(qū)動”作為一種教學(xué)方法,適用于學(xué)習(xí)操作類的知識和技能,尤其適用于學(xué)習(xí)計(jì)算機(jī)應(yīng)用方面的知識和技能。
本課程具有較強(qiáng)的理論性和實(shí)踐性,任務(wù)驅(qū)動的案例教學(xué)適合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘這樣的課程,沒有完整的案例貫通課程,學(xué)生無法將所學(xué)的理論知識融會貫通,也無法實(shí)際應(yīng)用。案例教學(xué)可以培養(yǎng)學(xué)生解決問題的能力,通過案例,學(xué)生可以帶著問題去學(xué)習(xí),在學(xué)習(xí)中逐步分析問題并最終解決問題,從而提高創(chuàng)新能力;案例教學(xué)能夠增強(qiáng)學(xué)生對實(shí)際問題建模的邏輯思維能力,激發(fā)學(xué)生主動參與學(xué)習(xí)過程,縮小理論和實(shí)踐的落差。
1. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學(xué)現(xiàn)狀
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是針對計(jì)算機(jī)專業(yè)高年級學(xué)生開設(shè)的一門專業(yè)課,以培養(yǎng)學(xué)生如何創(chuàng)造性解決實(shí)際決策問題的能力。該課程不僅有很強(qiáng)的理論性,更有實(shí)用性,它要求學(xué)生有較強(qiáng)的邏輯思維和編程開發(fā)能力。作為一門前沿性學(xué)科,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘有許多技術(shù)和方法是開放式、或仍處于探索階段的。因此,學(xué)生除了掌握基本的概念與方法之外,對該門學(xué)科中許多面臨的問題、有待拓展的研究方向應(yīng)有所了解,這樣有助于為學(xué)生提供對該學(xué)科的一個(gè)廣博且適度的概覽,提高自主學(xué)習(xí)的能力,并為有志于在該領(lǐng)域進(jìn)行深入研究的學(xué)生提供一個(gè)學(xué)習(xí)的機(jī)會。
1.1 目前課程規(guī)劃不合理,學(xué)生理論知識難以融會貫通
目前,大多數(shù)開設(shè)計(jì)算機(jī)專業(yè)的高校中,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘這門課都是在幾乎所有課程學(xué)完之后開設(shè),而這門課程本身是一門既有理論又有實(shí)踐的高級編程課程,即使是在設(shè)計(jì)思路和方法上有較大不同,與其他面向?qū)ο蟮恼Z言也是有很大聯(lián)系的,而這種孤立的授課安排缺乏科學(xué)性。
從教學(xué)內(nèi)容上看,案例教學(xué)適合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘這樣的知識結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng)的課程教學(xué),沒有一個(gè)完整的案例,學(xué)生無法將所學(xué)的眾多理論知識融會貫通,也無法理解一些復(fù)雜專業(yè)術(shù)語的實(shí)際應(yīng)用。
1.2目前課內(nèi)實(shí)驗(yàn)過于模式化,難于培養(yǎng)學(xué)生的創(chuàng)造性思維
從教學(xué)目標(biāo)來看,案例教學(xué)可以培養(yǎng)學(xué)生解決問題的能力,通過案例,學(xué)生可以帶著問題去學(xué)習(xí),在學(xué)習(xí)中逐步分析問題并最終解決問題,從而提高創(chuàng)新力;從教學(xué)對象來看,案例教學(xué)能夠增強(qiáng)學(xué)生對實(shí)際問題建模的邏輯思維的能力,這樣學(xué)生主動參與學(xué)習(xí)過程,不僅可以激發(fā)學(xué)生探索學(xué)習(xí)新知識的熱情,也可以縮小理論和實(shí)踐的落差。
1.3 目前課程教學(xué)內(nèi)容與學(xué)生的技能與軟件企業(yè)要求存在差距
(一)知識發(fā)現(xiàn)的研究綜述
知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國底特律召開的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上[1]。1996年,知識發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數(shù)據(jù)庫的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的效率,從機(jī)器學(xué)習(xí)的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的有效性,從統(tǒng)計(jì)分析的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的正確性,從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的最大效用。KDD過程是多個(gè)步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過程[3],基本流程包括:
(1)限定學(xué)習(xí)領(lǐng)域,儲備預(yù)先知識、確定學(xué)習(xí)目標(biāo);
(2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;
(3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;
(4)數(shù)據(jù)轉(zhuǎn)換;
(5)確定數(shù)據(jù)挖掘功能法則;
(6)獲得知識信息、運(yùn)用知識成果并重新選定學(xué)習(xí)目標(biāo)。
在創(chuàng)新的過程中,單單依靠顯性知識已經(jīng)不足以支撐整個(gè)思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長,傳統(tǒng)數(shù)據(jù)庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來不及整理、分析或利用就已“時(shí)過境遷”成為無效信息,而且被長期積壓在數(shù)據(jù)庫中浪費(fèi)存儲資源。為了及時(shí)消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對數(shù)據(jù)進(jìn)行深度挖掘,使得大量被隱藏的、有價(jià)值的信息得到有效利用。
(二)數(shù)據(jù)挖掘的理論探索
數(shù)據(jù)挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發(fā)現(xiàn)過程的一個(gè)重要步驟。數(shù)據(jù)挖掘融合了機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)理論、人工智能及信息管理系統(tǒng)等多門學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實(shí)型數(shù)據(jù)和研究模式。
根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。而所要挖掘的對象則可以分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機(jī)器、統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。
(三)小結(jié)
綜上,知識發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價(jià)值量,而數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的重要一環(huán)是與實(shí)踐應(yīng)用緊密相連的,兩者不僅僅是對數(shù)據(jù)的簡單檢索調(diào)用,而是從數(shù)據(jù)集合中自動提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進(jìn)而對未來可能發(fā)生的行為進(jìn)行預(yù)測,為決策者提供有力支持。
二、高校成績管理與學(xué)科建設(shè)
成績是學(xué)生在校學(xué)習(xí)期間對所學(xué)知識理解掌握情況和教師教學(xué)質(zhì)量評價(jià)的原始記錄,對學(xué)校的教學(xué)管理和教學(xué)改革措施評價(jià)具有重要的參考價(jià)值[5]。成績管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個(gè)環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),
通過學(xué)生的實(shí)際量化考核分?jǐn)?shù)來進(jìn)行統(tǒng)計(jì)、查閱和分析的綜合性數(shù)據(jù)處理過程。該過程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實(shí)際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢下,該項(xiàng)工作被素質(zhì)教育賦予更加深遠(yuǎn)的現(xiàn)實(shí)意義。本文所指學(xué)科成績不僅限于學(xué)生的筆試成績,還包括了學(xué)生參加各種校內(nèi)外實(shí)習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。
(一)高校成績管理所面臨的新形勢
從宏觀上講,隨著國家高等教育普及工作的不斷推進(jìn),以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時(shí)刻都更加繁重。
首先,院校擴(kuò)建和學(xué)生擴(kuò)招為學(xué)科成績管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴(kuò)充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績管理上則是成績數(shù)據(jù)的時(shí)空容量同時(shí)增長。每多出一個(gè)學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績資料都會相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。