首頁 > 優(yōu)秀范文 > 數(shù)據(jù)挖掘技術(shù)應(yīng)用
時間:2023-01-26 06:59:49
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗,特別為您篩選了11篇數(shù)據(jù)挖掘技術(shù)應(yīng)用范文。如果您需要更多原創(chuàng)資料,歡迎隨時與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
一、數(shù)據(jù)挖掘在市場營銷的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的應(yīng)用,它是以市場營銷學(xué)的市場細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。
通過收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對所識別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營銷,這與傳統(tǒng)的不區(qū)分消費(fèi)者對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。
就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時也可以顯示出顧客會對什么產(chǎn)品感興趣。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。
二、入侵檢測中數(shù)據(jù)挖掘技術(shù)的引入
入侵檢測技術(shù)是對(網(wǎng)絡(luò))系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。
根據(jù)數(shù)據(jù)分析方法(也就是檢測方法)的不同,我們可以將入侵檢測系統(tǒng)分為兩類:(1)誤用檢測(Misuse? Detection)。又稱為基于特征的檢測,它是根據(jù)已知的攻擊行為建立一個特征庫,然后去匹配已發(fā)生的動作,如果一致則表明它是一個入侵行為。(2)異常檢測(Anomaly Detection)。又稱為基于行為的檢測,它是建立一個正常的特征庫,根據(jù)使用者的行為或資源使用狀況來判斷是否入侵。
將這兩種分析方法結(jié)合起來,可以獲得更好的性能。異常檢測可以使系統(tǒng)檢測新的、未知的攻擊或其他情況;誤用檢測通過防止耐心的攻擊者逐步改變行為模式使得異常檢測器將攻擊行為認(rèn)為是合法的,從而保護(hù)異常檢測的完整性。
三、算法在入侵檢測中的具體使用
(一)基于誤用的檢測型。
首先從網(wǎng)絡(luò)或是主機(jī)上獲取原始二進(jìn)制的數(shù)據(jù)文件,再把這些數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換成ASCII碼表示的數(shù)據(jù)分組形式。再經(jīng)過預(yù)處理模塊將這些網(wǎng)絡(luò)數(shù)據(jù)表示成連接記錄的形式,每個連接記錄都是由選定的特征屬性表示的。再進(jìn)行完上面的工作后,對上述的由特征屬性組成的模式記錄進(jìn)行處理,總結(jié)出其中的統(tǒng)計特征,包括在一時間段內(nèi)與目標(biāo)主機(jī)相同的連接記錄的次數(shù)、發(fā)生SYN錯誤的連接百分比、目標(biāo)端口相同的連接所占的百分比等等一系列的統(tǒng)計特征。最后,就可以進(jìn)行下面的檢測分析工作,利用分類算法,比如RIPPER 、C4.5等建立分類模型。只有這樣才能建立一個實用性較強(qiáng)、效果更好的分類模型。
(二)基于異常的入侵模型。
異常檢測的主要工作就是通過構(gòu)造正?;顒蛹?,然后利用得到的一組觀察數(shù)值的偏離程度來判斷用戶行為的變化,以此來覺得是否屬于入侵的一種檢測技術(shù)。異常檢測的優(yōu)點(diǎn)在于它具有檢測未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測模型依然可以通過檢測它與已知模式集合之間的差異來判斷用戶的行為是否異常。
在異常檢測中主要用到的兩個算法就是模式比較和聚類算法:(1)模式比較。在模式比較算法中首先通過關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過模式比較算法來區(qū)別正常行為和入侵行為。(2)聚類算法。聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數(shù)目應(yīng)遠(yuǎn)大于入侵行為數(shù)目的條件,因此能夠?qū)?shù)據(jù)集劃分為不同的類別,由此分辨出正常和異常行為來檢測入侵。數(shù)據(jù)挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等?;诰垲惖娜肭謾z測是一種無監(jiān)督的異常檢測算法,通過對未標(biāo)識數(shù)據(jù)進(jìn)行訓(xùn)練來檢測入侵。該方法不需要手工或其他的分類,也不需要進(jìn)行訓(xùn)練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。
四、結(jié)論
入侵檢測中數(shù)據(jù)挖掘技術(shù)方面的研究已經(jīng)有很多,發(fā)表的論文也已經(jīng)有好多,但是應(yīng)用難點(diǎn)在于如何根據(jù)具體應(yīng)用的要求,從用于安全的先驗知識出發(fā),提取出可以有效反映系統(tǒng)特性的屬性,并應(yīng)用合適的算法進(jìn)行數(shù)據(jù)挖掘。另一技術(shù)難點(diǎn)在于如何將數(shù)據(jù)挖掘結(jié)果自動應(yīng)用到實際IDS中。
入侵檢測采用的技術(shù)有多種類型,其中基于數(shù)據(jù)挖掘技術(shù)的入侵檢測技術(shù)成為當(dāng)前入侵檢測技術(shù)發(fā)展的一個熱點(diǎn),但數(shù)據(jù)挖掘還處于發(fā)展時期,因此有必要對它進(jìn)行更深入的研究。
(作者單位:湖北工業(yè)大學(xué) 計算機(jī)學(xué)院)
參考文獻(xiàn):
1 數(shù)據(jù)挖掘技術(shù)的方法
數(shù)據(jù)挖掘技術(shù)的方法主要分為統(tǒng)計、聚類和遺傳分析[1]。統(tǒng)計方法可以滿足數(shù)據(jù)庫處理分析,包括:有線、非線、回歸等多項統(tǒng)計方法;聚類方法應(yīng)用于數(shù)據(jù)挖掘的內(nèi)部處理,梳理內(nèi)部數(shù)據(jù)的關(guān)系,基于聚類方法的存在,數(shù)據(jù)挖掘技術(shù)可以滿足經(jīng)濟(jì)、模擬等多項數(shù)據(jù)領(lǐng)域的需求;遺傳分析是數(shù)據(jù)挖掘方法的重點(diǎn),以生物進(jìn)化為導(dǎo)向,將重組、變異導(dǎo)入到數(shù)據(jù)庫內(nèi),推進(jìn)數(shù)據(jù)的后續(xù)發(fā)展,將后續(xù)模擬的數(shù)據(jù),應(yīng)用在現(xiàn)代數(shù)據(jù)庫的某個部分,發(fā)揮同樣作用,遺傳算法高度模擬生物進(jìn)化的方式,結(jié)合繁殖、基因、突變、重組的概念,引入新數(shù)據(jù),促使數(shù)據(jù)庫中新個體的形成,所以數(shù)據(jù)挖掘中的遺傳算法,既可以作為數(shù)據(jù)分析的方法,也可以體現(xiàn)預(yù)算和評估的特點(diǎn)。
2 數(shù)據(jù)挖掘的技術(shù)支持
2.1 神經(jīng)網(wǎng)絡(luò)技術(shù)
神經(jīng)網(wǎng)絡(luò)主要以數(shù)學(xué)模型為主,重點(diǎn)針對復(fù)雜數(shù)據(jù),快速完成數(shù)據(jù)抽取。神經(jīng)網(wǎng)絡(luò)技術(shù)處理的能力,可以超出計算機(jī)的分析水平,保障輸入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)屬于數(shù)值型,即可快速導(dǎo)出趨勢性變化的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)技術(shù)通過模擬大腦的神經(jīng)元結(jié)構(gòu),利用MP,實現(xiàn)非線性規(guī)劃,根據(jù)數(shù)據(jù)信息的特性,決定信息的存儲位置,實現(xiàn)自主處理。神經(jīng)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)挖掘中,不僅可以實現(xiàn)數(shù)據(jù)的快速分類,還可以對數(shù)據(jù)進(jìn)行模擬預(yù)測,促使數(shù)據(jù)挖掘處于優(yōu)化的狀態(tài),完成難度聚類。神經(jīng)網(wǎng)絡(luò)技術(shù)的代表為RBF和BP。
2.2 決策樹技術(shù)
此技術(shù)以模擬離散函數(shù)為主,借助樹木模型,對實際案例進(jìn)行綜合分類處理。決策樹的葉子,代表不同結(jié)點(diǎn),而結(jié)點(diǎn)則是組成實例不同屬性的測試,未來枝葉的分支,表示可能覆蓋的屬性預(yù)測[2]。決策樹在根部向枝葉推進(jìn)的過程中,蘊(yùn)含豐富的數(shù)據(jù)挖掘,目的是得出有價值的屬性信息,所以決策樹理論支持?jǐn)?shù)據(jù)挖掘的分析和分類,對相同屬性的數(shù)據(jù)進(jìn)行歸類存儲,進(jìn)而挖掘數(shù)據(jù)分類中遵循的規(guī)則。
3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域
3.1 通信服務(wù)行業(yè)
在數(shù)據(jù)挖掘技術(shù)的帶動和參與下,通信服務(wù)行業(yè)逐漸趨向于“三網(wǎng)融合”,即:電信、互聯(lián)和電視,勢必涉及諸多數(shù)據(jù)運(yùn)營,數(shù)據(jù)挖掘技術(shù)可以針對三網(wǎng)狀態(tài),實行模式分析,挖掘商業(yè)潛能。例如:數(shù)據(jù)挖掘技術(shù)可以對通信數(shù)據(jù)進(jìn)行分析,得出通信系統(tǒng)實時運(yùn)行的參數(shù)和狀態(tài),以聚類的方式,歸類系統(tǒng)數(shù)據(jù),還可直接分析用戶的實際行為,拓寬業(yè)務(wù)途徑,同時發(fā)現(xiàn)發(fā)展機(jī)遇,提升通信服務(wù)行業(yè)的社會效益。
3.2 高校管理系統(tǒng)
數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用較為明顯,例如:學(xué)生信息管理系統(tǒng)、教務(wù)評價系統(tǒng)、成績查詢系統(tǒng)、選課系統(tǒng)等,都可體現(xiàn)數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn)。高校學(xué)生數(shù)量較多,通過數(shù)據(jù)挖掘技術(shù),可以為學(xué)生提供一體化服務(wù),學(xué)生在入學(xué)之際,即可將信息錄入在管理系統(tǒng)內(nèi),整個在校期間,都可通過管理系統(tǒng),查詢個人信息,管理者也可以根據(jù)管理系統(tǒng),快速調(diào)取學(xué)生信息,如:圖書借閱、飯卡充值等,隨時關(guān)注學(xué)生的信息動態(tài)[3]。高校在數(shù)據(jù)管理方面,已經(jīng)實現(xiàn)多系統(tǒng)的融合發(fā)展,在數(shù)據(jù)挖掘技術(shù)的支持下,將不同功能的數(shù)據(jù)系統(tǒng),兼容于統(tǒng)一系統(tǒng),不論是學(xué)生,還是教務(wù)人員,利用獨(dú)立賬號、密碼,都可實現(xiàn)個人信息管理或查詢,對數(shù)據(jù)挖掘技術(shù)提供更高的發(fā)展要求。
3.3 醫(yī)學(xué)領(lǐng)域
醫(yī)學(xué)領(lǐng)域不僅涉及大量的信息數(shù)據(jù),而且數(shù)據(jù)的編排、匯總非常復(fù)雜,大量數(shù)據(jù)同時出現(xiàn)的過程中,幾乎不會出現(xiàn)相同數(shù)據(jù),因此,醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)管理,具備一定難度。數(shù)據(jù)挖掘技術(shù)成功應(yīng)用于醫(yī)院數(shù)據(jù)管理中,特別是在病歷管理、醫(yī)藥信息管理方面,例如:數(shù)據(jù)挖掘技術(shù)可以整合醫(yī)藥信息,將醫(yī)藥信息存儲于數(shù)據(jù)庫系統(tǒng)內(nèi),醫(yī)務(wù)人員可以通過檢索的方式,在管理系統(tǒng)內(nèi),迅速獲得所需信息,避免信息篩選錯誤,提高信息識別的能力。由此,醫(yī)務(wù)人員在信息管理和校對方面,提高操作效率,確保數(shù)據(jù)挖掘的質(zhì)量。
3.4 金融行業(yè)
金融行業(yè)中的數(shù)據(jù)分類比較明確,如:信貸數(shù)據(jù)、儲蓄數(shù)據(jù)等,需對數(shù)據(jù)采取合理的分配和管理。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中,為數(shù)據(jù)管理提供可靠的空間,成為管理金融數(shù)據(jù)的最佳方式[4]。數(shù)據(jù)挖掘技術(shù)具備獨(dú)立分析的能力,可以在數(shù)據(jù)庫中,設(shè)置多維參考點(diǎn),對不同類型的數(shù)據(jù)實行嚴(yán)格區(qū)分,根據(jù)數(shù)據(jù)的異同性質(zhì),實行準(zhǔn)確處理,發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢,維持金融數(shù)據(jù)的運(yùn)行。數(shù)據(jù)挖掘技術(shù)還可以根據(jù)金融數(shù)據(jù)的動態(tài)變化,有效發(fā)現(xiàn)影響金融活動的不良因素,防止金融行業(yè)出現(xiàn)數(shù)據(jù)漏洞,造成管理弊端。
綜上所述,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在行業(yè)領(lǐng)域中的應(yīng)用越來越廣泛,為數(shù)據(jù)運(yùn)行提供強(qiáng)大的技術(shù)支持。數(shù)據(jù)挖掘技術(shù)可以迅速獲取有效信息,體現(xiàn)準(zhǔn)確識別的能力,改善數(shù)據(jù)運(yùn)行,因此,數(shù)據(jù)挖掘技術(shù)成為行業(yè)發(fā)展與進(jìn)步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價值,同時提高行業(yè)信息技術(shù)水平。
[參考文獻(xiàn)]
[1]羅斌.數(shù)據(jù)挖掘研究進(jìn)展[J].中國水運(yùn),2012(07):90-92.
中圖分類號:TP311.13
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概念
所謂數(shù)據(jù)挖掘,簡單理解就是從海量數(shù)據(jù)中挖掘出對用戶有利用價值的信息,并根據(jù)分析結(jié)果判斷數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。人們利用數(shù)據(jù)技術(shù)的主要目的就在于從混亂的數(shù)據(jù)信息中分析出能夠?qū)ξ磥斫?jīng)營策略有用的信息,進(jìn)而能夠更好更高效的經(jīng)營企業(yè),獲得更多經(jīng)營利潤。
1.2 數(shù)據(jù)挖掘技術(shù)分類
關(guān)于數(shù)據(jù)挖掘針對其挖掘的對象,大致的可以做出以下分類,具體分為時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫(Object-Oriented Database)、空間數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對性的挖掘?qū)ο?。針對?shù)據(jù)挖掘的方法大致的可以歸納為:計算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò) Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。
1.3 數(shù)據(jù)挖掘應(yīng)用分析
隨著當(dāng)前計算機(jī)技術(shù)和信息技術(shù)的飛速發(fā)展,數(shù)據(jù)分析已經(jīng)成為當(dāng)前各行各業(yè)的重要研究內(nèi)容,數(shù)據(jù)挖掘技術(shù)可以說是時展的產(chǎn)物。傳統(tǒng)意義上的數(shù)據(jù)收集已經(jīng)很難以應(yīng)付當(dāng)前數(shù)據(jù)信息瞬息萬變的局面,企業(yè)需要發(fā)展就需要高價值率的數(shù)據(jù)庫作保證。企業(yè)在市場競爭中,只有掌握了最為準(zhǔn)確的市場分析數(shù)據(jù),才能夠更好的去確定未來的發(fā)展方向,才能夠更好的提高資金利用率。高層次數(shù)據(jù)分析是很多企業(yè)所面臨的重點(diǎn)問題,不管是行政決策還是市場預(yù)判,均需要這類數(shù)據(jù)來提供可靠參考。所以,研究數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法具有非常重要的現(xiàn)實意義。
2 時態(tài)約束關(guān)聯(lián)規(guī)則挖掘問題及算法
2.1 聚焦挖掘任務(wù),提高挖掘效率
早期的數(shù)據(jù)挖掘理論主要研究方向是模型建立及挖掘算法設(shè)計,不同企業(yè)所收集數(shù)據(jù)類型不同,所以在實際使用過程中模型及算法的確定也不同。傳統(tǒng)數(shù)據(jù)挖掘過程,首先需要做的是對提供的數(shù)據(jù)庫進(jìn)行全面分析,然后再結(jié)合用戶需求進(jìn)行更為深入細(xì)致的研究,制定出最佳數(shù)據(jù)挖掘模型,如果最終所得到的分析結(jié)果并未達(dá)到用戶滿意,則重新分析研究制定模型進(jìn)行二次數(shù)據(jù)挖掘。算法也是影響數(shù)據(jù)挖掘結(jié)果的關(guān)鍵,不同算法在不同模型下所得到的結(jié)果也不同,因此制定數(shù)據(jù)挖掘模型及算法是用戶是否能夠得到預(yù)期結(jié)果的重要參數(shù)。
2.2 保證挖掘的精確性
雖然數(shù)據(jù)挖掘的目的是為了能夠幫助用戶獲得更多有價值的參考結(jié)論,但其結(jié)果具有不可預(yù)測性的特點(diǎn)。數(shù)據(jù)挖掘過程中算法的運(yùn)用還會設(shè)計很多問題,這些問題的出現(xiàn)肯定會對最終的結(jié)果可靠性造成一定影響,因此必須要在算法中加入反饋機(jī)制,以便于在計算過程中對結(jié)果進(jìn)行測試和修正。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎(chǔ)比較成熟的算法――Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個數(shù)
如果在事務(wù)處理過程中去除長度小于k的項目集,那么在后期計算過程中肯定不會再出現(xiàn)長度為k+1的項目集。因此,在數(shù)據(jù)挖掘過程中我們可以通過算法直接將無用事務(wù)濾除,以便于在下輪掃描過程中簡化操作過程,提高數(shù)據(jù)挖掘效率。
3.2 基于劃分的方法
這類算法的比較典型的是頻繁項目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項目集;而對于怎樣將數(shù)據(jù)進(jìn)入存儲中,可以把需要處理的分塊放入計算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于采樣的方法
數(shù)據(jù)庫抽樣計算的目的是獲得更直接的規(guī)則,進(jìn)而能夠方便于后期的數(shù)據(jù)挖掘過程,通過抽樣檢驗我們可以更為直觀的判斷關(guān)聯(lián)規(guī)則是否有效,是否能夠更加簡便的獲得用戶所需目標(biāo)?;诓蓸拥臄?shù)據(jù)挖掘算法在實現(xiàn)方法上要容易一些,而且還可以最大限度的降低數(shù)據(jù)挖掘過程所需要提供的I/O成本。但同時這種算法也會使得抽樣數(shù)據(jù)隨機(jī)性大大增加,進(jìn)而使得數(shù)據(jù)挖掘過程中出現(xiàn)的問題增多,給數(shù)據(jù)挖掘帶來額外負(fù)擔(dān)。基于統(tǒng)計學(xué)理論的抽樣算法,雖然在計算精度上無法與其他算法相媲美,但如果我們結(jié)合相關(guān)數(shù)據(jù)挖掘理論進(jìn)行更為深入的分析研究,還是能夠在精度上進(jìn)行一定的彌補(bǔ)。
4 交互式的可視化方法
關(guān)聯(lián)規(guī)則可視化研究是當(dāng)前關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘技術(shù)走向?qū)嵱没闹匾獌?nèi)容之一,通過直觀的、易懂的方式展現(xiàn)給用戶是關(guān)聯(lián)規(guī)則挖掘是否能夠高效應(yīng)用的關(guān)鍵。當(dāng)前社會上可視化方法中使用最為廣泛的是有向圖、2D矩陣、3D顯示等幾種,這些方法中已經(jīng)在實際生活中得到了廣泛認(rèn)可。但它們均有一個共同的特點(diǎn)就是將數(shù)據(jù)挖掘所得到的所有結(jié)果一次性通過不同顏色或者不同形狀展現(xiàn)在表或者圖中,這種頁面顯示必然會存在一定的混亂性,以致于其顯示效果大打折扣。正是在這種前提下,交互式可視化方法受到了研究人員的關(guān)注。交互式可視化方法顯示方式為:
第一,從宏觀上來把握項與項之間存在的關(guān)系,通過不同圖形或者顏色來達(dá)到視覺突出的效果,進(jìn)而能夠讓用戶更加直觀的看到數(shù)據(jù)挖掘結(jié)果。關(guān)聯(lián)規(guī)則挖掘所得到的結(jié)果中不同項與項之間是使用線條連接起來的,在這種情況下,用戶可以通過了解某一個項其內(nèi)部的關(guān)聯(lián)信息,進(jìn)而解決由于線條過多而造成的頁面混亂情況。
第二,從微觀上更加精確的把握每一個關(guān)聯(lián)規(guī)則的支持度和信任度,通過數(shù)字化的形式來給出挖掘結(jié)果的表示比,進(jìn)而幫助用戶更直觀更準(zhǔn)確的獲得數(shù)據(jù)挖掘結(jié)果。
第三,從分類顯示的角度出發(fā),將數(shù)據(jù)挖掘所得出的沒有使用價值的規(guī)則剔除,通過不同圖形或者顏色來增加視覺效果,這樣從根本上提高了數(shù)據(jù)挖掘可視化目的。
5 結(jié)束語
數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價值的研究成果。
參考文獻(xiàn):
[1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計[J].計算機(jī)與現(xiàn)代化,2013(01):8-11.
[2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,2013(05):26-29+33.
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)05-0000-00
1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析
“數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問題,由此而誕生的數(shù)據(jù)挖掘技術(shù)其實就是用以處理這一尷尬問題的技術(shù)。數(shù)據(jù)挖掘?qū)嶋H上是相對比較新型的一門學(xué)科,在幾十年的發(fā)展過程中,已經(jīng)不可同日而語。其實數(shù)據(jù)挖掘技術(shù)的本質(zhì)就是人工智能技術(shù),而數(shù)據(jù)挖掘技術(shù)的利用相對應(yīng)的就是指人工智能技術(shù)的開發(fā)與應(yīng)用,也就是說數(shù)據(jù)挖掘其實是依賴技術(shù)的提升來實現(xiàn)數(shù)據(jù)的整體創(chuàng)新的技術(shù),所以,整個數(shù)據(jù)挖掘技術(shù)實際上是非常具有信息價值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準(zhǔn)確率,是非常重要的知識憑證,能夠在一定程度上提高當(dāng)下企業(yè)的整體競爭力。
數(shù)據(jù)挖掘技術(shù)的核心就是分析,通過分析方法的不同來解決不同類別的問題,以實現(xiàn)數(shù)據(jù)挖掘的潛在內(nèi)容。簡單來說就是對癥下藥以保證藥到病除。
1.1聚類分析法
簡單來說聚類分析就是通過將數(shù)據(jù)對象進(jìn)行聚類分組,然后形成板塊,將毫無邏輯的數(shù)據(jù)變成了有聯(lián)系性的分組數(shù)據(jù),然后從其中獲取具有一定價值的數(shù)據(jù)內(nèi)容進(jìn)行進(jìn)一步的利用。由于這種分析方法不能夠較好的就數(shù)據(jù)類別、屬性進(jìn)行分類,所以聚類分析法一般都運(yùn)用在心理學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)識別等方面。
1.2人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是通過大批量的數(shù)據(jù)進(jìn)行分析,而這種數(shù)據(jù)分析方式本身是建立在一定的數(shù)據(jù)模型基礎(chǔ)上的,因此通常都可以隨時根據(jù)數(shù)據(jù)需求進(jìn)行分類,所以人工神經(jīng)網(wǎng)絡(luò)也是當(dāng)下數(shù)據(jù)挖掘技術(shù)中最常用的一種數(shù)據(jù)分析方式之一。
1.3關(guān)聯(lián)性分析法
有時數(shù)據(jù)本身存在一定的隱蔽性使得很難通過普通的數(shù)據(jù)分析法進(jìn)行數(shù)據(jù)挖掘和利用,這就需要通過關(guān)聯(lián)性分析法完成對于數(shù)據(jù)信息的關(guān)聯(lián)性識別,來幫助人力完成對于數(shù)據(jù)分辨的任務(wù),這種數(shù)據(jù)分析方法通常是帶著某種目的性進(jìn)行的,因此比較適用于對數(shù)據(jù)精準(zhǔn)度相對較高的信息管理工作。
1.4特征性數(shù)據(jù)分析法
網(wǎng)絡(luò)數(shù)據(jù)隨著信息時代的到來變成了數(shù)據(jù)爆炸式,其數(shù)據(jù)資源十分廣泛并且得到了一定的普及,如何就網(wǎng)絡(luò)爆炸式數(shù)據(jù)進(jìn)行關(guān)于特性的分類就成為了當(dāng)下數(shù)據(jù)整理分類的主要內(nèi)容。在上文中提到的人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析也屬于這其中的一種,此外還有很多方法都是通過計算機(jī)來進(jìn)行虛擬數(shù)據(jù)的分類,尋找數(shù)據(jù)之間存在的普遍規(guī)律性完成數(shù)據(jù)的特性分析從而進(jìn)行進(jìn)一步分類。
2大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用
數(shù)據(jù)挖掘技術(shù)的具體流程就是先通過對于海量數(shù)據(jù)的保存,然后就已有數(shù)據(jù)中進(jìn)行分析、整理、選擇、轉(zhuǎn)換等,數(shù)據(jù)的準(zhǔn)備工作是數(shù)據(jù)挖掘技術(shù)的前提,也是決定數(shù)據(jù)挖掘技術(shù)效率及質(zhì)量的主要因素。在完成數(shù)據(jù)準(zhǔn)備工作后進(jìn)一步對數(shù)據(jù)進(jìn)行挖掘,然后對數(shù)據(jù)進(jìn)行評估,最后實現(xiàn)運(yùn)用。因此,數(shù)據(jù)挖掘能夠運(yùn)用到很多方面。
2.1市場營銷領(lǐng)域
市場營銷其實就是數(shù)據(jù)挖掘技術(shù)最早運(yùn)用的領(lǐng)域,通常根據(jù)客戶的具體需求,進(jìn)行客戶分析,將不同的消費(fèi)習(xí)慣和消費(fèi)特點(diǎn)的客戶進(jìn)行簡單的分類管理,以此來保證商品能夠順利銷售,并提高個人銷售的成功率和業(yè)績。而銷售的范圍也從最初的超市購物擴(kuò)展到了包括保險、銀行、電信等各個方面。
2.2科學(xué)研究領(lǐng)域
科學(xué)研究與實驗測試等都需要對數(shù)據(jù)進(jìn)行關(guān)系分析為進(jìn)一步的實驗和總結(jié)失敗做準(zhǔn)備,而實驗測試和科學(xué)研究產(chǎn)生的數(shù)據(jù)往往是巨大的,因此數(shù)據(jù)挖掘技術(shù)在科學(xué)研究領(lǐng)域也得以廣泛運(yùn)用。通常都是通過科學(xué)研究內(nèi)容選擇數(shù)據(jù)挖掘技術(shù)分析法進(jìn)行計算來找到數(shù)據(jù)中存在的規(guī)律,實現(xiàn)數(shù)據(jù)挖掘的部分價值――科學(xué)知識的分析與運(yùn)用。
2.3電信業(yè)領(lǐng)域
隨著信息化時代的到來,電信產(chǎn)業(yè)也飛速發(fā)展起來,到目前為止,電信產(chǎn)業(yè)已經(jīng)形成了一個巨大的網(wǎng)絡(luò)信息載體,如何將其中信息數(shù)據(jù)進(jìn)行整合就成為電信產(chǎn)業(yè)發(fā)展過程中的重要問題。而數(shù)據(jù)挖掘技術(shù)的運(yùn)用則在一定程度上解決了這一問題,大量的數(shù)據(jù)通過數(shù)據(jù)挖掘技術(shù)得到了有效分類,并在這個過程中通過運(yùn)算得出數(shù)據(jù)之間的關(guān)聯(lián)性,運(yùn)用規(guī)律進(jìn)一步進(jìn)行數(shù)據(jù)分類。
2.4教育教學(xué)領(lǐng)域
教學(xué)評價、教學(xué)資源、學(xué)生個人基本信息等組成了教育教學(xué)領(lǐng)域的數(shù)據(jù)庫,利用數(shù)據(jù)挖掘技術(shù)來實現(xiàn)教學(xué)資源的優(yōu)化配置,對學(xué)生的個人信息整理歸檔,從而保證教育教學(xué)領(lǐng)域中數(shù)據(jù)整理的良好運(yùn)作。
3結(jié)語
綜上所述,數(shù)據(jù)挖掘技術(shù)對于當(dāng)今社會的發(fā)展有著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率就成為了數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。本文通過對于數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析和大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用兩個方面對于數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡要的闡述和分析,相信在未來伴隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)挖掘技術(shù)也將更加強(qiáng)大。
參考文獻(xiàn)
在生物信息學(xué)的成果的理論基礎(chǔ)之上,通過統(tǒng)計的方法查找未知的生物化學(xué)功能的疾病基因的位置。這個方法預(yù)先通過患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來尋找基因[1]。
數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展?fàn)顩r
現(xiàn)今所采用的是分子生物學(xué)與微電子技術(shù)相結(jié)合的核酸分析檢測技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點(diǎn)/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個位點(diǎn)上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標(biāo)記的待測樣品DNA,RNA或cDNA在芯片上進(jìn)行雜交,然后用激光共聚焦顯微鏡對芯片進(jìn)行掃描,并配合計算機(jī)系統(tǒng)對雜交信號做出比較和檢測,從而迅速得出所需的信息。
基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預(yù)測分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對是將多個蛋白質(zhì)或核酸同時進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對核酸序列的預(yù)測方法:針對核酸序列的預(yù)測就是在核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等過程。在此過程中,確認(rèn)一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內(nèi)的某個位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進(jìn)而對其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。對基因的數(shù)據(jù)挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。
方法的選擇:筆者在設(shè)計中選用單純的DNA序列進(jìn)行比較,基因在計算機(jī)的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進(jìn)行對基因工作者的提取成果創(chuàng)建一級數(shù)據(jù)庫,使用文件修整的方法進(jìn)行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級數(shù)據(jù)庫中的一致性。同時在文件比較過程中,生成某兩個數(shù)據(jù)文件的差異狀況,保存在二級數(shù)據(jù)庫庫中,進(jìn)一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統(tǒng)計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認(rèn)為這個位置的某個類型引起疾病的發(fā)生。從醫(yī)學(xué)院得到一些基因片段文件信息和患者(所有者)患病情況。
系統(tǒng)的實現(xiàn):基因片段在計算機(jī)中以文件形式存儲,用文件名標(biāo)識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機(jī)數(shù)據(jù)庫中。在程序測試過程中,將片段復(fù)制成40份,對其中部分文件的序列進(jìn)行稍作修改,對所有患者的患病狀況進(jìn)行稍作修改,以創(chuàng)造測試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。
其中一個文件所存儲的基因信息,見圖1。
啟動統(tǒng)計程序界面,單擊清空數(shù)據(jù)庫中的臨時用表數(shù)據(jù),將數(shù)據(jù)庫中有可能的雜音信息去掉。并對其中的所有文件進(jìn)行統(tǒng)計前片段剪切,使所有片段的起始地址和長度都相同,避免發(fā)生序列移位。
沒有進(jìn)行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進(jìn)行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統(tǒng)計文件的所有信息都被統(tǒng)計。
單擊結(jié)果顯示按鈕,可以見到程序以表格和條形圖標(biāo)方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統(tǒng)計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。
如果用戶想要在初步統(tǒng)計結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫中所有者的疾病狀況進(jìn)行詳細(xì)統(tǒng)計的話,單擊菜單欄的詳細(xì)統(tǒng)計按鈕,選擇按疾病詳細(xì)統(tǒng)計,則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據(jù)本系統(tǒng)所給出的預(yù)測對弱視遺傳疾病與序列中的特定位置,選擇適當(dāng)算法進(jìn)行進(jìn)一步的計算及檢驗,證明預(yù)測結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗證等問題。
結(jié) 論
對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠(yuǎn)沒有達(dá)到成熟的地步,因此需要不斷探索及研究。
參考文獻(xiàn)
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速傳播、知識飛速更新的今天,圖書館只有正確合理地進(jìn)行圖書采購,才能夠更好地實現(xiàn)其“在最恰當(dāng)?shù)臅r機(jī),將最合適的圖書,提供給最需要的讀者”的目標(biāo)。采用目前流行的數(shù)據(jù)挖掘技術(shù),可以很好地對圖書館讀者實際借閱情況進(jìn)行分析,從而得出能夠正確指導(dǎo)圖書采購策略制定的信息,以保證圖書館能夠更好地為讀者服務(wù)。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘是一門涉及人工智能、數(shù)理統(tǒng)計、數(shù)據(jù)庫、可視化、并行計算等多領(lǐng)域的交叉性新興學(xué)科。數(shù)據(jù)挖掘就是將隱藏在大量數(shù)據(jù)信息中的那些對用戶有用的信息提取出來的過程,這些信息通常會以:規(guī)則、概念、規(guī)律以及模式等形式展現(xiàn)出來,而提取的過程往往要采用一些特殊手段的非平凡過程,即數(shù)據(jù)挖掘技術(shù)。提取出來的信息可以幫助決策者分析歷史的和當(dāng)前的數(shù)據(jù),發(fā)現(xiàn)隱藏在其中的聯(lián)系和規(guī)律,從而對未來可能發(fā)生的情況進(jìn)行合理地判斷和預(yù)測[1]。
2 基于數(shù)據(jù)挖掘的圖書采購策略
描述式數(shù)據(jù)挖掘和預(yù)測式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的兩種形式。描述式數(shù)據(jù)挖掘又稱概念描述,是數(shù)據(jù)挖掘的最基本形式,以簡明扼要的形式來描述給定的數(shù)據(jù)集,體現(xiàn)了數(shù)據(jù)的特征。我們使用特征化描述方式的數(shù)據(jù)挖掘方法,根據(jù)讀者借書的歷史記錄,發(fā)現(xiàn)并描述讀者的真正需求。實現(xiàn)特征化描述主要有準(zhǔn)備數(shù)據(jù)、相關(guān)分析、歸納特征屬性、表示和使用挖掘結(jié)果幾個基本階段[2]。
圖1 流程圖
2.1 準(zhǔn)備數(shù)據(jù)
獲得有關(guān)數(shù)據(jù)、對數(shù)據(jù)進(jìn)行初步處理和準(zhǔn)備。具體步驟如下:
(1)獲取主要字段:讀者類型、專業(yè)、書名、主題、編著者、出版社、出版時間、價格、索書號、條碼等。
(2)整合數(shù)據(jù)歸納成庫,保證相同字段的數(shù)據(jù)在類型格式上一致。
(3)拆分“主題”字段,限制1本書最多包含3個主題詞,即3個主題字段,其他忽略。
(4)拆分合并后的數(shù)據(jù)庫,按學(xué)科不同分成各學(xué)科的子庫(這在數(shù)據(jù)挖掘過程中稱為數(shù)據(jù)分組),對各個子庫分別進(jìn)行處理。
2.2 相關(guān)分析
對待挖掘數(shù)據(jù)庫中的字段進(jìn)行分析,剔除掉那些相關(guān)性不足的字段。具體步驟如下:
(1)選用恰當(dāng)?shù)姆椒▽傩宰侄芜M(jìn)行分析;
(2)將待挖掘數(shù)據(jù)庫中的相關(guān)性不足字段剔除掉;
(3)整理保留的字段,主要有:讀者類型、主題1、主題2、主題3、編著者、出版社。
2.3 歸納特征屬性
根據(jù)實際情況,只進(jìn)行單因素分析,即只計算比較單一屬性值域讀者需求的關(guān)聯(lián)程度。
2.4 表示和使用結(jié)果
使用條形圖、曲線圖以及餅分圖等圖表形式將分析結(jié)果表現(xiàn)出來。用圖書借閱次數(shù)來表示圖書的人氣系數(shù),人氣系數(shù)越高表明該類型的圖書越受讀者歡迎,計算公式為:
式中P為任一主題總的人氣系數(shù),m為主題在挖掘數(shù)據(jù)庫中出現(xiàn)的次數(shù),rj為主題的權(quán)系數(shù),rj∈{3,2,1},Ki為借閱頻率系數(shù)[3]。
3 數(shù)據(jù)挖掘在圖書采購中的應(yīng)用
這里筆者以所在學(xué)院的圖書館為研究對象進(jìn)行研究。
3.1 統(tǒng)計數(shù)據(jù)
為了能夠較真實地反應(yīng)學(xué)院師生對圖書借閱的情況,筆者設(shè)計了一份調(diào)查問卷,對學(xué)院電氣系和汽車系的圖書借閱者進(jìn)行訪問。該調(diào)查問卷包括單選題和多選題,內(nèi)容涵蓋了職業(yè)、系別、圖書種類等(見表1)。
表1 借閱者借閱圖書類別調(diào)查問卷
3.2 定義變量
對數(shù)據(jù)的定義筆者采用多項選擇的二分法(Multiple dichotomy method),即將所有因素都設(shè)成一個變量,每個變量只有“1”和“0”兩個水平值,代表“是”和“否”。例如用1來代表教師,0代表學(xué)生;專業(yè)方面用1表示電氣系,0表示汽車系;圖書類別中用1表示“經(jīng)常借閱”,0表示“不經(jīng)常借閱”。
3.3 分析數(shù)據(jù)
在這里選用SPSS統(tǒng)計分析軟件對數(shù)據(jù)進(jìn)行分析。
3.3.1 多重反應(yīng)頻數(shù)分析(見表2和表3)
3.3.2 多重反應(yīng)列聯(lián)表分析(見表4~7)
根據(jù)這些分析結(jié)果,圖書采購人員就能夠很好地制定出恰當(dāng)適用的圖書采購計劃[4]。
4 結(jié)束語
以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對實際圖書館中讀者的借閱情況進(jìn)行問卷調(diào)查,再利用SPSS軟件對所調(diào)查問卷進(jìn)行系統(tǒng)分析,雖然問卷數(shù)目較少,但對圖書館分析讀者借閱需求指導(dǎo)圖書采購提高服務(wù)能力有一定的幫助。
參考文獻(xiàn)
[1] JiaweiHan, MichelineKamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
數(shù)據(jù)挖掘(Data Mining),從名字來看就是從大量復(fù)雜的數(shù)據(jù)信息中挖掘出有利用價值的信息。通常,這些大量的復(fù)雜的數(shù)據(jù)信息都被認(rèn)為是隨機(jī)的、模糊的、不完全的、有噪音的,完全沒有進(jìn)行處理的信息。然而經(jīng)過挖掘之后,這些原本看似沒有任何利用價值的信息,就會呈現(xiàn)出一種新穎、有效、潛在有用的狀態(tài),最終為人們的生活與生產(chǎn)提供便利。這種信息數(shù)據(jù)的處理變化過程,就常常被稱作是數(shù)據(jù)挖掘。它也可以理解成是在一些觀察數(shù)據(jù)或事實的集合中找正確模式的決策支持過程。數(shù)據(jù)挖掘是一門涉及面極其廣大的交叉學(xué)科,它可以簡單的認(rèn)為是經(jīng)濟(jì)信息轉(zhuǎn)換的一個過程,同時它還包含了機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫、數(shù)理統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)等相關(guān)技術(shù)。
數(shù)據(jù)挖掘的大體步驟是:數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的挖掘、結(jié)果的分析。在這樣一個完整的過程中,處于核心地位的就是數(shù)據(jù)的挖掘。而它的功能主要包括數(shù)據(jù)的聚類、模型的預(yù)測、分析等。除此之外,在挖掘信息數(shù)據(jù)的過程中,通常還會牽涉到其它方面的技術(shù),比如鏈接分析、聚集檢測、關(guān)聯(lián)規(guī)則等。
數(shù)據(jù)挖掘主要功能有:預(yù)測模型、分類、數(shù)據(jù)聚類、數(shù)據(jù)總結(jié)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、序列模式發(fā)現(xiàn)等。根據(jù)數(shù)據(jù)挖掘技術(shù)的作用和特點(diǎn)來看,它具備的優(yōu)點(diǎn)是:它具有自動找出有價值的數(shù)據(jù)信息的功能;它能夠處理大量的數(shù)據(jù)信息;它反映數(shù)據(jù)信息快速有效;它能夠有效的對數(shù)據(jù)信息進(jìn)行分析與評判,描繪過去和未來。
2、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計中的體現(xiàn)
對于經(jīng)濟(jì)統(tǒng)計問題,對于我們所要探究的問題一定要定義,并且確定此次數(shù)據(jù)挖掘的目的。1.數(shù)據(jù)準(zhǔn)備。就是對我們即將要面對的經(jīng)濟(jì)問題中所涉及到的數(shù)據(jù)進(jìn)行相應(yīng)的采集,做好預(yù)處理這些工作,最終使數(shù)據(jù)得到簡化,使后續(xù)工作能順利進(jìn)行。2.數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)的類型選擇相適應(yīng)的算法,利用統(tǒng)計、人工智能等方法,去挖掘有利用價值的信息3.結(jié)果分析。對第二步得到的結(jié)果進(jìn)行充分的分析和評估,同時也是通過這一步驟反過來去調(diào)整上面,來得到更好的方法,從而讓結(jié)果更加真實。4.知識的運(yùn)用。將得到的最符合實際的結(jié)果應(yīng)用到現(xiàn)實的經(jīng)濟(jì)問題中去,使得經(jīng)濟(jì)能更好的運(yùn)行和發(fā)展。
3、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計中的可行性研究
3.1 能為經(jīng)濟(jì)統(tǒng)計提供有效的服務(wù)
數(shù)據(jù)挖掘技術(shù)雖然經(jīng)歷的時間不是很長,然而,它的研究與應(yīng)用水平已達(dá)到了一種相對穩(wěn)定的狀態(tài)。隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)在各國也普遍受到關(guān)注,特別是在經(jīng)濟(jì)統(tǒng)計領(lǐng)域。數(shù)據(jù)挖掘技術(shù)能夠這樣的的迅速發(fā)展,在很大程度上也是依賴于它對經(jīng)濟(jì)統(tǒng)計的有效服務(wù)。
3.2 能夠為經(jīng)濟(jì)統(tǒng)計的不同需要提供不同的需求
目前,最常見的數(shù)據(jù)挖掘工具主要有綜合工具、通用型工具、和面向特定應(yīng)用的工具。綜合工具,不僅能夠為處于商業(yè)中的經(jīng)濟(jì)體拿出有效的管理報告,并且還能夠?qū)ζ胀ń?jīng)濟(jì)結(jié)構(gòu)中的數(shù)據(jù)信息經(jīng)行深入挖掘。通用型工,在市場上占最大比例,在應(yīng)用方面最為成熟的挖掘工具。面向特定應(yīng)用工具,從字面來理解,這種工具就是針對特定領(lǐng)域來提供服務(wù)的,具有很強(qiáng)的特別性。
3.3 建立宏觀經(jīng)濟(jì)數(shù)據(jù)庫,為數(shù)據(jù)挖掘的應(yīng)用提供了良好的電子平臺
在目前的情況下,全國范圍內(nèi)的大部分經(jīng)濟(jì)統(tǒng)計部門主要使用的還是應(yīng)用統(tǒng)計系統(tǒng)。大部分經(jīng)濟(jì)統(tǒng)計的數(shù)據(jù)信息都處于一種不相聚分散的狀態(tài),并沒有形成一套有效的管理系統(tǒng)。經(jīng)濟(jì)統(tǒng)計過程中一旦出現(xiàn)問題,嚴(yán)重的就會導(dǎo)致經(jīng)濟(jì)數(shù)據(jù)的有效性與準(zhǔn)確性受到影響。然而,當(dāng)建立了宏觀經(jīng)濟(jì)數(shù)據(jù)庫以后,以上問題就可以尋找到有效的解決辦法。當(dāng)宏觀經(jīng)濟(jì)數(shù)據(jù)庫與數(shù)據(jù)挖掘技術(shù)一起合理運(yùn)用,就能保證挖掘到的信息準(zhǔn)確、真實。這樣的情況下,在經(jīng)濟(jì)統(tǒng)計中數(shù)據(jù)挖掘技術(shù)就能為其提供更好的服務(wù),不僅滿足了現(xiàn)實中經(jīng)濟(jì)發(fā)展的需要,同時也為經(jīng)濟(jì)決策的制定提供了準(zhǔn)確、重要的依據(jù)。
4、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計中的應(yīng)用
正是由于對數(shù)據(jù)的大量收集、數(shù)據(jù)算法的產(chǎn)生、經(jīng)濟(jì)數(shù)據(jù)庫的出現(xiàn)、先進(jìn)的計算機(jī)技術(shù)、對數(shù)據(jù)進(jìn)行精深統(tǒng)計方法計算的能力、數(shù)據(jù)訪問速度的提升等一系列東西的出現(xiàn),使得數(shù)據(jù)挖掘技術(shù)的作用越來越廣泛。由于經(jīng)濟(jì)統(tǒng)計中數(shù)據(jù)的實用性和準(zhǔn)確性的需要,數(shù)據(jù)挖掘技術(shù)也開始慢慢在經(jīng)濟(jì)統(tǒng)計中大展身手。數(shù)據(jù)挖掘技術(shù)的主要方法有:
4.1 統(tǒng)計分析法
經(jīng)濟(jì)數(shù)據(jù)庫字段項之間存在兩種關(guān)系,相關(guān)關(guān)系和函數(shù)關(guān)系。就是對于數(shù)據(jù)庫中的信息利用統(tǒng)計學(xué)原理來進(jìn)行分析。
4.2 決策樹
決策樹一般用于預(yù)測模型,通過對大量復(fù)雜無順序的數(shù)據(jù)有目的分類,找到有價值的信息。同時,正是因為描述簡單,分類速度快,特別適合運(yùn)用于經(jīng)濟(jì)運(yùn)行過程中出現(xiàn)的大規(guī)模數(shù)據(jù)的處理。
4.3 遺傳算法
它是一種根據(jù)生物遺傳機(jī)理和自然選擇的隨機(jī)搜索算法,其主要思路是依據(jù)特定的社會問題,然后在指定對象中去采集相關(guān)信息,最后通過對信息中隱含部分的歸整、分析,進(jìn)而得到結(jié)果。經(jīng)濟(jì)問題不是固定不變的,相反它是一個不斷發(fā)展變化的問題,內(nèi)部的聯(lián)系千絲萬縷,改變其中一項其他的也會相應(yīng)改變。按照遺傳算法的步驟,從源頭開始,我們就一步步向下探索,去提取信息數(shù)據(jù),對整體進(jìn)行分析,這樣就能把經(jīng)濟(jì)問題目標(biāo)化、具體化、直接化,使得在研究問題時可以更加直觀,把隱性的表現(xiàn)出來,使得經(jīng)濟(jì)統(tǒng)計工作更加直白、簡單。
4.4 粗集理論法
這是一種探究不確定知識、不精確的數(shù)學(xué)工具,它通過上下集比較而出來結(jié)果。它易于操作,算法簡單;簡化輸入信息的表達(dá)空間;不需要給出額外信息。特別適合那些不確定的經(jīng)濟(jì)因素,同時正是通過這種原則,才能使得制定的經(jīng)濟(jì)決策與需求更加接近,為獲得最大利益化給予了強(qiáng)有力支持。
4.5 神經(jīng)網(wǎng)絡(luò)法
中圖分類號:TP311.13
計算機(jī)數(shù)據(jù)挖掘技術(shù)對于龐大的數(shù)據(jù)有著整理分析的作用,這不僅僅對于企業(yè)的工作產(chǎn)生了巨大的作用,還對學(xué)校生活也提供重要的幫助。我們在接下來就要探究西夏計算機(jī)數(shù)據(jù)挖掘技術(shù)在學(xué)校、企業(yè)、軍事方面等不同領(lǐng)域的應(yīng)用情況。
1 在學(xué)校的實際應(yīng)用情況
1.1 根據(jù)已有的數(shù)據(jù)進(jìn)行預(yù)測。在學(xué)校里,我們學(xué)校通常都會對學(xué)生進(jìn)行月考,這樣使得學(xué)校會存有學(xué)生每月考試的成績,在最后的期末考試前,學(xué)??梢岳糜嬎銠C(jī)數(shù)據(jù)挖掘技術(shù)根據(jù)學(xué)生每月的月考成績,預(yù)測出學(xué)生期末大概的考核成績。這樣,教師可以在期末考試前根據(jù)預(yù)測出來的成績提醒學(xué)生著重復(fù)習(xí)哪一科目。這樣不僅僅可以使得學(xué)生在期末更具有針對性的復(fù)習(xí),還能使學(xué)校更好的掌握學(xué)生的學(xué)習(xí)情況,更好的對學(xué)生“因材施教”。
1.2 對學(xué)校食堂餐飲有著重要作用。學(xué)校由于人口眾多,尤其是各個高校。學(xué)校的食堂也擁有著許多的流動人口,學(xué)校要想管好食堂的餐飲,就必須利用新興的計算機(jī)數(shù)據(jù)挖掘技術(shù)。計算機(jī)挖掘技術(shù)由于對數(shù)據(jù)有著整理分析能力,所以,學(xué)校的食堂可以利用計算機(jī)技術(shù)整理食堂倉庫的數(shù)據(jù),這樣使得工作人員很便捷的可以了解食堂的所需物品的數(shù)量,可以直接應(yīng)用數(shù)據(jù)挖掘技術(shù)便可隨時隨地了解食堂所需物品的剩余量,從而及時的補(bǔ)給短缺的食材。學(xué)校食堂還可以利用計算機(jī)數(shù)據(jù)挖掘技術(shù)充分的配置不同的菜式菜樣,保障營養(yǎng)均衡,同時,還可以對學(xué)生家鄉(xiāng)進(jìn)行統(tǒng)計,這樣可以提供不同地區(qū)特色的飲食,在最大的限度下滿足不同地區(qū)學(xué)生的飲食習(xí)慣。讓學(xué)生在學(xué)校里也能品嘗到家鄉(xiāng)的味道,從而提高學(xué)生的親切感。從而,讓不同區(qū)域的學(xué)生可以在學(xué)校里安心讀書,努力認(rèn)真的學(xué)習(xí)。
1.3 對學(xué)生學(xué)習(xí)生活有很大的幫助。計算機(jī)數(shù)據(jù)挖掘技術(shù)也可以對大量的數(shù)據(jù)進(jìn)行整合,學(xué)校教師可以充分利用這一特點(diǎn),將學(xué)生的學(xué)習(xí)資料通過篩選整合后到校園網(wǎng)上,這樣不僅僅使得學(xué)生查找資料時方便快捷,不必做過多的“無用功”,還使得學(xué)校的教育方式得到更新,與新信息技術(shù)接軌,提高了教學(xué)質(zhì)量。在大學(xué)校園內(nèi),學(xué)校還可以利用數(shù)據(jù)挖掘技術(shù)的調(diào)節(jié)功能來調(diào)節(jié)學(xué)生選課情況,任何專業(yè)和自選課程都具有熱門和冷門之分,這時候,學(xué)??梢岳糜嬎銠C(jī)數(shù)據(jù)挖掘技術(shù)對學(xué)生報考的專業(yè)和課程進(jìn)行調(diào)劑,這樣,可以將學(xué)生平均分配。也可以調(diào)節(jié)冷門、熱門專業(yè)課程的人數(shù),從而做大限度讓所有學(xué)生滿意。學(xué)校還可以將計算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到我們的圖書館建設(shè)中。這樣,使得圖書館在借閱管理方面就更加的便捷了。
1.4 在高校管理方面的應(yīng)用。高校由于專業(yè)的繁多,以至于在院系下還細(xì)分出不同的專業(yè),現(xiàn)在隨著藝術(shù)類的出現(xiàn)、新型技術(shù)的出現(xiàn),也使得高校又多了專業(yè)的劃分。這對于高校的管理者來說,是一個巨大的挑戰(zhàn)。所以,為了便于學(xué)校的管理,很多學(xué)校都利用計算機(jī)數(shù)據(jù)挖掘技術(shù)進(jìn)行管理,從而使得高校管理者在管理學(xué)校的時候提高了工作效率,也節(jié)省了很多的人力物力。所以,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校的管理中,是一項正確多的決定。
2 計算機(jī)數(shù)據(jù)挖掘技術(shù)在企業(yè)的應(yīng)用
2.1 在金融企業(yè)的應(yīng)用及重要作用。金融企業(yè)是具有一定風(fēng)險的企業(yè),其重要的就是要對投資的風(fēng)險做出評估,這樣,才能在我們金融企業(yè)進(jìn)行投資時把風(fēng)險降到最低。這時,金融企業(yè)就利用計算機(jī)數(shù)據(jù)挖掘技術(shù)對我們的投資項目進(jìn)行評估預(yù)測。如:在企業(yè)收購股票時,就要根據(jù)這只股票歷史走向的數(shù)據(jù)做,從而做出評估,在做出較為精準(zhǔn)的判斷和選擇。在金融業(yè)涉及到借貸款的問題時,企業(yè)要根據(jù)貸款對象日常的誠信做出調(diào)查,然后再進(jìn)行數(shù)據(jù)的挖掘統(tǒng)計,從而判斷出貸款對象是屬于低風(fēng)險還是高風(fēng)險。由此可見,計算機(jī)數(shù)據(jù)挖掘技術(shù)對金融企業(yè)的投資、貸款有著重要的作用。
2.2 電子商務(wù)企業(yè)的應(yīng)用。電子商務(wù)企業(yè)最注重的便是網(wǎng)站的瀏覽量和點(diǎn)擊率及與客戶的成交單子的數(shù)量。企業(yè)如何提高網(wǎng)站的瀏覽量和點(diǎn)擊率和用戶的交易數(shù)量就成了問題的核心。電子商務(wù)企業(yè)可以根據(jù)用戶在瀏覽網(wǎng)頁時的收藏物品的情況、購物車的情況、成交記錄的情況進(jìn)行物品的推薦。這就需要應(yīng)用技術(shù)數(shù)據(jù)挖掘技術(shù)對用戶的一系列情況做出數(shù)據(jù)的整合。通過數(shù)據(jù)的分析推薦的商品,及時客戶最終沒有購買,也會增加該物品的瀏覽量,這也使得我們電子商務(wù)的瀏覽量得到提升,從而增加企業(yè)在該行業(yè)的競爭力。
2.3 企業(yè)競爭的應(yīng)用。社會經(jīng)濟(jì)在不斷的發(fā)展進(jìn)步,隨著而來的相同企業(yè)的數(shù)量也在不斷的增加,如何在眾多相同的企業(yè)里脫穎而出是所有企業(yè)思考的問題。一個企業(yè)除了要具有自己的特色之外,還要充分了解對手的情況,這時,就需要我們的企業(yè)利用計算機(jī)數(shù)據(jù)挖掘技術(shù)對競爭企業(yè)進(jìn)行系統(tǒng)的分析調(diào)差,這樣,才能做到充分了解對手。吸取競爭對手的長處,在看到企業(yè)的短處時,也要使自己的企業(yè)避免相似的問題出現(xiàn)。所以,計算機(jī)數(shù)據(jù)挖掘技術(shù)在企業(yè)相互競爭時起著不可忽視的重大作用。
2.4 在煤礦性質(zhì)企業(yè)的應(yīng)用。煤礦企業(yè)一般來說是要科學(xué)合理的對地下資源進(jìn)行挖掘,但由于種種原因,使得人們不能僅僅憑靠自己的力量就做出相應(yīng)的判斷。這時,就需要利用我們的計算機(jī)數(shù)據(jù)挖掘技術(shù)對地下煤礦進(jìn)行數(shù)據(jù)的勘測,然后整合,我們可以依靠這個數(shù)據(jù)進(jìn)行正確的判斷。從而做到科學(xué)、合理的利用自然資源。計算機(jī)數(shù)據(jù)挖掘技術(shù)還能對煤礦企業(yè)的后期發(fā)展情況做出合理的預(yù)測。這除了需要運(yùn)用到新型的媒體技術(shù),還需要在煤礦企業(yè)經(jīng)營的過程中正確的記錄數(shù)據(jù),保存數(shù)據(jù)。才能對企業(yè)的后期經(jīng)營情況做出更好的判斷。
3 在軍事上的應(yīng)用
隨著社會逐漸的信息化,科技的不斷進(jìn)步,軍事涉及的不單單只是以往的關(guān)注點(diǎn),更是要注重利用新興媒體技術(shù)對于數(shù)據(jù)進(jìn)行收集、分析、整理。這樣,不僅僅可以充分的掌握自己國家的軍事實力,還能有效的監(jiān)管外國敵對勢力的部分情況。在科學(xué)技術(shù)的不斷發(fā)展,使得人們對于傳統(tǒng)的軍事理解又上升到一個新的層面。這有利用數(shù)據(jù)精確的分析出敵對的勢力在做些什么,才能更好的做出準(zhǔn)備。只有利用高科技對于敵對勢力的經(jīng)濟(jì)、政治、軍事有了一個總體的把握,才能在戰(zhàn)爭真正開始的時候掌握主動權(quán),更有可能取得戰(zhàn)爭的勝利。所以,任何一個國家,在軍事當(dāng)面,把計算機(jī)數(shù)據(jù)挖掘技術(shù)看的十分重要。這不僅僅需要高能力的計算機(jī)人才,更是需要具備國家榮譽(yù)感的人士。只有這樣,才能清楚的把握住敵人的情況,在戰(zhàn)爭中做出正確的作戰(zhàn)方式。由此可見,在軍事方面,計算機(jī)數(shù)據(jù)挖掘技術(shù)的作用是最不容忽視的。
4 結(jié)束語
社會的科技在不斷的發(fā)展進(jìn)步,而計算機(jī)數(shù)據(jù)挖掘技術(shù)在我們的社會生活中的不同領(lǐng)域都發(fā)揮著其最大的作用。由此可見,我們的國家應(yīng)當(dāng)重視計算機(jī)數(shù)據(jù)挖掘技術(shù),讓其能在各行各業(yè)中發(fā)揮最大的作用,從而更好的為人民服務(wù)。企業(yè)要多利用計算機(jī)數(shù)據(jù)挖掘技術(shù)進(jìn)行利益的最大化。學(xué)校要使得計算機(jī)數(shù)據(jù)挖掘技術(shù)發(fā)揮最大作用,給學(xué)生的生活、學(xué)校的管理帶來便利。在軍事方面,國家應(yīng)當(dāng)引起強(qiáng)烈的重視,培養(yǎng)出更好的人才來為國家效力,保衛(wèi)國家的安全。
參考文獻(xiàn):
[1]盧明波,付亞平,德力.關(guān)于煤炭企業(yè)CRM與ERP系統(tǒng)整合應(yīng)用的思考[J].煤炭技術(shù),2009(12).
0引言
互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展很大程度改變了人類的生活習(xí)慣,與之有關(guān)的網(wǎng)絡(luò)和互聯(lián)網(wǎng)信息也日益豐富和復(fù)雜。一般而言,WEB發(fā)揮著在大數(shù)據(jù)庫中提煉有用信息的功能,而WEB挖掘技術(shù)則發(fā)揮著從挖掘出的信息之間發(fā)現(xiàn)其相關(guān)性和怎樣將其應(yīng)用于具體問題解決之中的功能。目前,大量數(shù)據(jù)很難在一臺計算機(jī)上進(jìn)行處理分析,為了滿足技術(shù)進(jìn)步和社會發(fā)展的需求,云計算隨之出現(xiàn)并快速發(fā)展,其憑借較強(qiáng)的信息存儲能力、安全性能以及數(shù)據(jù)處理分析能力等,受到各行各業(yè)的廣泛關(guān)注。
1云計算的應(yīng)用現(xiàn)狀和技術(shù)分析
1.1應(yīng)用現(xiàn)狀
WEB的發(fā)展經(jīng)過了一個漫長的過程,隨著信息技術(shù)的發(fā)展和電子商務(wù)的興起,人們對互聯(lián)網(wǎng)的應(yīng)用日益頻繁和依賴性日益加強(qiáng),掀起了一股WEB2.0的發(fā)展熱潮。對于互聯(lián)網(wǎng)企業(yè)而言,信息需求分析能力已成為衡量企業(yè)競爭水平的重要指標(biāo),特別是根據(jù)用戶需求建設(shè)的這類網(wǎng)站,比如視頻網(wǎng)站就需通過數(shù)據(jù)分析來進(jìn)行網(wǎng)站功能設(shè)計。總之,云計算的產(chǎn)生和應(yīng)用有效解決了網(wǎng)絡(luò)技術(shù)的一些發(fā)展難題。在國內(nèi)網(wǎng)民數(shù)量巨大且持續(xù)增長的背景下,越來越多的大型企業(yè)通過云計算來進(jìn)行數(shù)據(jù)加工處理和分析應(yīng)用。
1.2技術(shù)特征
通常來講,云計算主要針對數(shù)據(jù)管理,主要對象是數(shù)據(jù)信息,其和信息技術(shù)有顯著差異,具體有以下幾點(diǎn):(1)廣泛性。存儲技術(shù)是云計算的關(guān)鍵技術(shù)之一,采取分布式存儲模式來提升存儲容量和存儲安全性,且性價比較高,實用性較強(qiáng);(2)數(shù)據(jù)管理能力較強(qiáng)。云計算可實時監(jiān)控大數(shù)據(jù),可隨時隨地進(jìn)行數(shù)據(jù)處理分析,同時可有目的地篩選出有用數(shù)據(jù)信息,技術(shù)先進(jìn),效率較高;(3)編程技術(shù)的先進(jìn)性。技術(shù)元素是衡量云計算能否滿足客戶需求的重要指標(biāo),是維持云計算系統(tǒng)正常運(yùn)轉(zhuǎn)的核心元素,由此可見,編程技術(shù)所發(fā)揮的作用無可取代。當(dāng)前,Map-Reduce編程技術(shù)應(yīng)用最為廣泛,初期以樹狀結(jié)構(gòu)呈現(xiàn),分支之后還需其他編程技術(shù)來維護(hù);(4)虛擬技術(shù)的應(yīng)用。虛擬技術(shù)在云計算中的應(yīng)用較多,這是由于虛擬技術(shù)能有效配置網(wǎng)絡(luò)資源,脫離各分支系統(tǒng)獨(dú)立存在,在將各分支系統(tǒng)獨(dú)立化的同時,還將數(shù)據(jù)信息也分割成大量的獨(dú)立部分。這種模式使得云計算系統(tǒng)的彈性較大,能靈活運(yùn)用動態(tài)的虛擬資源,有效降低成本費(fèi)用,提高網(wǎng)絡(luò)資源管理的安全性。
2WEB數(shù)據(jù)挖掘技術(shù)的發(fā)展
2.1WEB數(shù)據(jù)挖掘技術(shù)的定義
WEB數(shù)據(jù)挖掘技術(shù)是結(jié)合WEB、信息技術(shù)、網(wǎng)絡(luò)技術(shù)等對挖掘信息進(jìn)行全面分析處理,WEB和數(shù)據(jù)挖掘的有效融合反映了較強(qiáng)的綜合性,主要可分為基于內(nèi)容、架構(gòu)、應(yīng)用等幾種WEB數(shù)據(jù)挖掘技術(shù)。就內(nèi)容方面而言,是在WEB環(huán)境下,通過人工模式從相關(guān)文件夾中提煉有用信息;就架構(gòu)方面而言,是采取人工方式挖掘不同的數(shù)據(jù)結(jié)構(gòu),再采取有關(guān)手段來提煉有用信息;就應(yīng)用方面而言,是將挖掘主體存儲在日志文件之中,再據(jù)此來挖掘出站點(diǎn)的用戶信息。因此,所謂的數(shù)據(jù)挖掘,即采取有關(guān)技術(shù)來提煉WEB文檔中的有用信息,并據(jù)此來分析預(yù)測其未來發(fā)展趨勢。總而言之,WEB挖掘技術(shù)并非是一項簡單的技術(shù),而是多種技術(shù)的有效融合和廣泛應(yīng)用。
2.2WEB數(shù)據(jù)挖掘技術(shù)的種類
通常來講,關(guān)于WEB數(shù)據(jù)挖掘技術(shù)的種類有多種分類依據(jù),一般是根據(jù)其對象類別劃分為基于內(nèi)容、架構(gòu)、應(yīng)用的三種WEB數(shù)據(jù)挖掘技術(shù)。就內(nèi)容角度而言,其主要對象是WEB文檔中數(shù)據(jù)信息,比如提煉出的圖像、音頻、視頻等具體信息,且還可細(xì)分為純文本數(shù)據(jù)挖掘和多媒體數(shù)據(jù)挖掘兩種;就結(jié)構(gòu)角度而言,其主要對象是數(shù)據(jù)架構(gòu),發(fā)揮著區(qū)分?jǐn)?shù)據(jù)架構(gòu)是組織架構(gòu)還是頁面架構(gòu)的功能,并且還要對數(shù)據(jù)鏈進(jìn)行詳細(xì)分類,對WEB數(shù)據(jù)挖掘技術(shù)的效率和準(zhǔn)確性的提升有顯著作用;就應(yīng)用角度而言,通過對WEB文檔中的數(shù)據(jù)信息進(jìn)行具體分析處理,來對用戶類型進(jìn)行詳細(xì)分類,進(jìn)而挖掘出更多的潛藏用戶。
2.3WEB數(shù)據(jù)挖掘技術(shù)的流程
通常情況下,WEB挖掘技術(shù)的流程會受到較多元素的作用,和傳統(tǒng)數(shù)據(jù)挖掘方式相比,其對象和手段有顯著變化,所以其流程也有所差異。如何將數(shù)據(jù)挖掘技術(shù)和WEB相結(jié)合是目前該技術(shù)發(fā)展的主要難題,這是因為WEB數(shù)據(jù)挖掘技術(shù)并非是有關(guān)技術(shù)的簡單應(yīng)用,而是一個有機(jī)整體,需要經(jīng)過檢索信息、選擇信息、分析信息等一系列流程。檢索信息是對WEB文檔中的數(shù)據(jù)信息或網(wǎng)站上的日志、新聞等內(nèi)容進(jìn)行查詢分析;選擇信息是對上一環(huán)節(jié)查詢到的信息進(jìn)行篩選辨別,去掉一些無用的數(shù)據(jù)信息,并對有用信息進(jìn)行初步分析;分析信息是對待處理的數(shù)據(jù)信息進(jìn)行深入的篩選辨別,提煉出有價值的數(shù)據(jù)信息。關(guān)于WEB數(shù)據(jù)挖掘的整個流程,不僅需要自動化設(shè)備的輔助,還需要人工辨別的支持。
3云計算在WEB數(shù)據(jù)挖掘技術(shù)中的應(yīng)用初探
3.1以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)
WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)是由幾個節(jié)點(diǎn)相互關(guān)聯(lián)形成的,云計算發(fā)揮著使WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)各節(jié)點(diǎn)相互作用的功能,從而促進(jìn)WEB數(shù)據(jù)挖掘系統(tǒng)的完善化,具體架構(gòu)圖如圖1所示。主控節(jié)點(diǎn)是用戶和其他節(jié)點(diǎn)關(guān)聯(lián)的中樞紐帶;算法節(jié)點(diǎn)則負(fù)責(zé)保證數(shù)據(jù)分析的相關(guān)算法支撐,類似于一個算法數(shù)據(jù)庫;數(shù)據(jù)節(jié)點(diǎn)則是一個存儲數(shù)據(jù)的大數(shù)據(jù)庫;服務(wù)節(jié)點(diǎn)則發(fā)揮著控制任務(wù)進(jìn)程和反饋分析結(jié)果的功能。(1)服務(wù)層。服務(wù)層是一個結(jié)合用戶需求通過WEB數(shù)據(jù)挖掘技術(shù)來進(jìn)行數(shù)據(jù)分析,同時將結(jié)果反饋給用戶的過程;(2)控制層??刂茖邮峭ㄟ^主控節(jié)點(diǎn)來根據(jù)用戶具體需求分析,選出最恰當(dāng)?shù)乃惴ǔ绦?,保證算法程序和信息數(shù)據(jù)的契合度;(3)存儲層。存儲層主要發(fā)揮著存儲使用的算法程序、用戶需求和最終反饋結(jié)果的功能。存儲層有效降低了原始數(shù)據(jù)或算法丟失的可能性,即使是系統(tǒng)故障,后續(xù)也可在數(shù)據(jù)和算法存儲層找到相關(guān)的信息數(shù)據(jù)并且具有可恢復(fù)性;(4)業(yè)務(wù)處理層。業(yè)務(wù)處理層將數(shù)據(jù)庫中的原始信息通過主控節(jié)點(diǎn)來進(jìn)行初步分配,在數(shù)據(jù)進(jìn)行分析處理之后,再由服務(wù)節(jié)點(diǎn)將分析結(jié)果反饋到主控節(jié)點(diǎn)。
3.2以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘算法程序
一般情況下,以云計算為基礎(chǔ)的WEB數(shù)據(jù)挖掘算法程序的基本步驟如下:(1)結(jié)合用戶需求來明確可信度,這種用戶需求通常是通過WEB網(wǎng)頁傳遞過來的;(2)WEB網(wǎng)頁客戶端向主控節(jié)點(diǎn)發(fā)出服務(wù)指令,數(shù)據(jù)節(jié)點(diǎn)會向主控節(jié)點(diǎn)傳遞原始數(shù)據(jù),同時將服務(wù)節(jié)點(diǎn)分析的結(jié)果反饋到主控節(jié)點(diǎn);(3)主控節(jié)點(diǎn)將信息數(shù)據(jù)傳遞給算法節(jié)點(diǎn),從算法程序數(shù)據(jù)庫中選出最優(yōu)的數(shù)據(jù)挖掘算法程序,再分配至各服務(wù)節(jié)點(diǎn);(4)各服務(wù)節(jié)點(diǎn)會有目的的篩選數(shù)據(jù),并對信息數(shù)據(jù)進(jìn)行整理分類,通過Apriori算法得到數(shù)據(jù)庫的頻集;(5)將分析結(jié)果反饋至主控節(jié)點(diǎn),獲取整體數(shù)據(jù)庫的頻集,再將其傳遞至各服務(wù)節(jié)點(diǎn),提高節(jié)點(diǎn)上的頻集準(zhǔn)確性。如此反復(fù),再將服務(wù)節(jié)點(diǎn)的分析結(jié)果反饋至主控節(jié)點(diǎn),從而提高整體頻集的準(zhǔn)確性;(6)主控節(jié)點(diǎn)將最終結(jié)果反饋給用戶。
3.3算法結(jié)果分析
算法程序結(jié)果的檢驗有賴于實驗數(shù)據(jù)的支持,據(jù)分析結(jié)果顯示,算法效率和信息量的關(guān)系成正相關(guān),并且傳遞時間有差異,算法程序的傳輸時間要少于數(shù)據(jù)傳輸時間。與一般算法相比,WEB數(shù)據(jù)挖掘算法有顯著不同,可通過改變其他算法來獲得新算法程序?;谠朴嬎愕腤EB數(shù)據(jù)挖掘算法是一個整體算法,各節(jié)點(diǎn)聯(lián)系較強(qiáng),有效避免了有效關(guān)聯(lián)規(guī)則遺漏的問題。
4結(jié)語
總而言之,WEB數(shù)據(jù)挖掘技術(shù)是對通過WEB文檔或其他網(wǎng)絡(luò)手段提煉的信息進(jìn)一步加工處理、分析運(yùn)用的技術(shù),其可結(jié)合人們的生活習(xí)慣和模式來掌握人們的具體需要。互聯(lián)網(wǎng)的發(fā)展使得網(wǎng)絡(luò)信息量呈幾何式增長,對信息存儲容量和數(shù)據(jù)分析能力的需求也有所提高,怎樣突破技術(shù)限制來挖掘出有效的網(wǎng)絡(luò)信息是目前互聯(lián)網(wǎng)行業(yè)面臨的主要問題。而云計算較強(qiáng)的信息存儲能力和數(shù)據(jù)計算能力,使得其受到互聯(lián)網(wǎng)行業(yè)的充分重視。基于云計算的WEB數(shù)據(jù)挖掘技術(shù)可統(tǒng)一管理控制網(wǎng)絡(luò)資源,結(jié)合WEB數(shù)據(jù)挖掘系統(tǒng)來充分運(yùn)用云計算的信息存儲能力和數(shù)據(jù)計算能力,從而提升互聯(lián)網(wǎng)信息資源的利用率。
參考文獻(xiàn)
[1]孫雪凌.?dāng)?shù)據(jù)科學(xué)在高校學(xué)風(fēng)治理工作中的應(yīng)用探索[J].無線互聯(lián)科技,2016(17):129-132.
[2]沈軍霞,葛坤.新時期ERP系統(tǒng)應(yīng)用與實踐探討[J].無線互聯(lián)科技,2016(17):23-26.
[3]王光煒,薛玉倩.基于云計算的數(shù)據(jù)挖掘平臺[J].內(nèi)蒙古科技與經(jīng)濟(jì),2016(19):65-69.
[4]張玨,陳莉,田建學(xué).面向零售業(yè)的關(guān)聯(lián)規(guī)則挖掘的研究與實現(xiàn)[J].計算機(jī)技術(shù)與發(fā)展,2016(10):146-150.
[5]邵傳飛.基于數(shù)據(jù)挖掘的兵棋推演數(shù)據(jù)分析方法研究[J].通訊世界,2016(21):245-247.
[6]劉占敏,劉津伊,賈蓓.FP-Growth算法在學(xué)生成績分析中的應(yīng)用[J].信息與電腦(理論版),2016(13):85-87.
[7]高瑜,仝衛(wèi)國.基于關(guān)聯(lián)規(guī)則的一次風(fēng)機(jī)故障預(yù)警方法研究[J].電力科學(xué)與工程,2016(10):46-49.
[8]王麗格.大數(shù)據(jù)時代下的數(shù)據(jù)挖掘和分析探究[J].科技展望,2016(30):201-203.
[9]熊伯安.基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析[J].電子世界,2016(20):51-53.
[10]謝邦昌,斯介生.大數(shù)據(jù)分析中軌跡數(shù)據(jù)挖掘的現(xiàn)狀與挑戰(zhàn)[J].中國統(tǒng)計,2016(08):459-461.
中圖分類號:TP274 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2009)36-10410-02
Data Mining Technology and Application in Medicine
JIAO Rui, LI Xiang-sheng
(Department of Computer Education, Shanxi Medical University, Taiyuan 030012, China)
Abstract: Data Mining( Data Mining , DM ) is a highly technical applications. This paper describes the concept of data mining techniques, methods and processes introduced in the current data mining application of the field of medicine.
Key words: data mining; medical; application
計算機(jī)信息管理系統(tǒng)以及數(shù)據(jù)庫技術(shù)在醫(yī)療機(jī)構(gòu)的廣泛應(yīng)用,促進(jìn)了醫(yī)學(xué)信息的數(shù)字化,使得醫(yī)院數(shù)據(jù)庫的信息容量急劇增加。這些數(shù)據(jù)蘊(yùn)含了大量關(guān)于病人的病史、診斷、檢驗和治療的臨床信息、藥品管理信息、醫(yī)院管理信息等。如何才能不被信息的大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學(xué)服務(wù),已越來越為人們所關(guān)注,正是在這種背景下,醫(yī)學(xué)數(shù)據(jù)挖掘應(yīng)運(yùn)而生[1]。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘DM是知識發(fā)現(xiàn)KDD的核心部分,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中、人們事先并不知道但又是潛在有用的信息和知識的過程,誕生于二十世紀(jì)90年代,它的發(fā)展速度很快,匯聚了數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等多個學(xué)科,是多技術(shù)的綜合。
任務(wù):數(shù)據(jù)挖掘的任務(wù)常見有以下幾種。
1)數(shù)據(jù)總結(jié):其目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。它主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。
2)關(guān)聯(lián)分析:其目的是找出數(shù)據(jù)庫中隱藏的關(guān)系網(wǎng),常用的技術(shù)有回歸分析、關(guān)聯(lián)規(guī)則、信念網(wǎng)絡(luò)等。
3)聚類分析:聚類增強(qiáng)了人們對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。它是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類別。
4)分類與回歸:它是數(shù)據(jù)挖掘中非常重要的任務(wù),應(yīng)用最為廣泛。分類和回歸都可用于預(yù)測,其目的是從已知的歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定的數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。
5)偏差檢測:數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差分析包括分類中的反常實例、例外模式、觀測結(jié)果對期望值的偏離以及量值隨時間的變化等。
技術(shù):數(shù)據(jù)挖掘技術(shù)涉及到統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和模式識別等領(lǐng)域的知識,根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘技術(shù)可以分為概念描述、聚類分析、關(guān)聯(lián)規(guī)則分析、分類分析、回歸分析、序列模式分析等。選擇用某種數(shù)據(jù)挖掘技術(shù)前,首先要將待解決的問題轉(zhuǎn)化成數(shù)據(jù)挖掘任務(wù),然后根據(jù)任務(wù)來選擇具體使用哪一種或幾種數(shù)據(jù)挖掘技術(shù)[2]。
過程:數(shù)據(jù)挖掘的過程一般由三個主要的階段構(gòu)成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋,對知識的發(fā)現(xiàn)可以描述為這三個階段的反復(fù)過程。
1)數(shù)據(jù)準(zhǔn)備:這個階段又可進(jìn)一步分成三個子步驟:數(shù)據(jù)集成,數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件和多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行組合,解決語義模糊性,處理數(shù)據(jù)中的遺漏和清洗無效數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。
2)數(shù)據(jù)挖掘:這個階段進(jìn)行實際性分析工作,包括的要點(diǎn)是:先決定如何產(chǎn)生假設(shè),再選擇合適的工具進(jìn)行發(fā)掘知識的操作,最后進(jìn)行證實。
3)結(jié)果表述和解釋:根據(jù)用戶的需求對提取的信息進(jìn)行分析,挑選出有效信息,并且通過決策支持工具進(jìn)行移交。因此,這一步驟的任務(wù)不僅是把結(jié)果表述出來,還要對信息進(jìn)行過濾處理,如果不能令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過程。
2 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)中應(yīng)用的可行性和必要性
由于醫(yī)療工作自身的特點(diǎn),如病情觀察的不可間斷、各種醫(yī)療檢查結(jié)果的紛繁復(fù)雜以及大量的醫(yī)學(xué)文獻(xiàn)專著等,要想使數(shù)據(jù)真正成為有用的資源,只有充分利用它為醫(yī)療工作的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。面對“被數(shù)據(jù)淹沒,卻饑餓于信息”的挑戰(zhàn),需要引進(jìn)一門新的技術(shù)――數(shù)據(jù)挖掘和知識發(fā)現(xiàn),以解決好海量醫(yī)學(xué)信息的存儲開發(fā)與利用。因此,在醫(yī)學(xué)中應(yīng)用數(shù)據(jù)挖掘技術(shù)不但是可行的而且是必要的。
運(yùn)用數(shù)據(jù)挖掘技術(shù),支持醫(yī)院各種層次的科學(xué)決策服務(wù),現(xiàn)在已具備了充分的條件。一方面,我國的醫(yī)院信息系統(tǒng)經(jīng)過多年的自動化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。另一方面數(shù)據(jù)挖掘在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對成熟的技術(shù)體系,特別是在數(shù)據(jù)挖掘設(shè)計、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。
3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)的應(yīng)用
近年來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來越廣泛,主要表現(xiàn)在以下幾方面。
3.1 在醫(yī)院信息系統(tǒng)中的應(yīng)用
目前,我國大中型醫(yī)院均建立了醫(yī)院信息系統(tǒng)(Hospital Information System,HIS),運(yùn)用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),對醫(yī)院醫(yī)療活動過程中產(chǎn)生的海量數(shù)據(jù)進(jìn)行深度加工可從中得到長期的、系統(tǒng)的、綜合的數(shù)據(jù);同時還可以通過決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、聚類等技術(shù),對數(shù)據(jù)進(jìn)行深層次的挖掘和有效利用,得到豐富的輔助決策信息。這兩種技術(shù)的綜合應(yīng)用,能為醫(yī)院的科學(xué)管理提供支持和依據(jù),可以幫助醫(yī)院管理者預(yù)測醫(yī)院發(fā)展的趨勢,滿足更大范圍、更深層次的管理分析需求,從宏觀上把握醫(yī)院的發(fā)展方向。
3.2 在疾病輔助診斷中的應(yīng)用
醫(yī)學(xué)診斷問題是基于知識的序貫診斷問題,醫(yī)生通過一定途徑獲取知識,形成推理網(wǎng)絡(luò),而病例數(shù)據(jù)儲存在數(shù)據(jù)庫中,因此如何從病例數(shù)據(jù)庫提取診斷規(guī)則成了研究的主題。采用數(shù)據(jù)挖掘可以通過對患者資料數(shù)據(jù)庫中大量歷史數(shù)據(jù)的處理,挖掘出有價值的診斷規(guī)則,這樣根據(jù)患者的年齡、性別、生理生化指標(biāo)等就可以做出診斷結(jié)論,從而排除了人為因素的干擾。此外由于處理的數(shù)據(jù)量很大,因此所得到的診斷規(guī)則有著較好的應(yīng)用普遍性。例如利用關(guān)聯(lián)規(guī)則找出頭部創(chuàng)傷患者作CT檢查的適應(yīng)證以及將數(shù)據(jù)挖掘用于肝癌遺傳綜合征的自動檢測等等都顯示出數(shù)據(jù)挖掘技術(shù)在疾病輔助診斷的廣闊的應(yīng)用前景。
3.3 在醫(yī)學(xué)影像中的應(yīng)用
當(dāng)前醫(yī)學(xué)多媒體數(shù)據(jù)主要來自醫(yī)院中的一些成像儀器如:X光機(jī)、B超、CT、電子顯微鏡等,DICOM的出現(xiàn),促進(jìn)了醫(yī)學(xué)影像存檔與通信系統(tǒng)PACS的發(fā)展和使用,使得醫(yī)院有可能將來自不同設(shè)備的醫(yī)學(xué)影像進(jìn)行集中、統(tǒng)一的管理和使用。數(shù)據(jù)挖掘是集數(shù)據(jù)處理技術(shù)最新成果的系統(tǒng)性理論,尤其適用于醫(yī)學(xué)影像數(shù)據(jù)分析這類多維數(shù)據(jù)。
醫(yī)學(xué)影像數(shù)據(jù)挖掘的關(guān)鍵技術(shù)有數(shù)據(jù)預(yù)處理、信息融合技術(shù)等。數(shù)據(jù)挖掘在醫(yī)學(xué)影像中應(yīng)用主要在以下三點(diǎn):1)提高目標(biāo)影像質(zhì)量和邊緣提取:利用數(shù)據(jù)挖掘理論中各種數(shù)據(jù)的預(yù)處理技術(shù)去除或降低圖像噪聲的影響,提高目標(biāo)影像質(zhì)量或?qū)δ繕?biāo)進(jìn)行邊緣提取。Hsu JH等人曾利用數(shù)據(jù)挖掘技術(shù)對乳腺超聲影像的邊緣檢測算法進(jìn)行研究并探討了算法的有效性評估問題[3]。2)組織定征和概念描述:通過對目標(biāo)器官或組織進(jìn)行概念描述并概括這類對象的有關(guān)特征,從而獲得或驗證有關(guān)參數(shù)的動態(tài)范圍。3)醫(yī)學(xué)影像管理與檢索: 目前,醫(yī)學(xué)影像存檔與通信系統(tǒng)( PACS) 已經(jīng)發(fā)展成熟,基本解決了醫(yī)學(xué)影像數(shù)據(jù)的存儲管理問題, 但影像的檢索始終是研究熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供了兩種解決方案:一是由病例描述檢索醫(yī)學(xué)影像信息;二是由影像信息查詢病例可能診斷[4]。
3.4 在生物信息學(xué)中的應(yīng)用
近年來生物醫(yī)學(xué)工程研究有了迅猛發(fā)展,國內(nèi)外學(xué)者采用數(shù)據(jù)挖掘技術(shù)在DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動分析、糖尿病及心血管系統(tǒng)疾病患者多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析等方面都進(jìn)行了研究。
DNA在遺傳學(xué)研究中的重要作用已經(jīng)眾所周知,數(shù)據(jù)挖掘理論中有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘技術(shù)被認(rèn)為是DNA分析中的強(qiáng)有力工具。Jiawei Han和Micheline Ka-mher從異構(gòu)和分布式基因數(shù)據(jù)的語義集成、DNA序列間相似的搜索和比較、同時發(fā)現(xiàn)的基因序列的識別、發(fā)現(xiàn)在疾病不同階段的致病基因等方面闡述了數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析領(lǐng)域中的應(yīng)用[5]。
4 結(jié)束語
醫(yī)學(xué)數(shù)據(jù)挖掘是計算機(jī)技術(shù)、人工智能、統(tǒng)計學(xué)等與現(xiàn)代醫(yī)學(xué)信息相結(jié)合的產(chǎn)物,是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科,需要從事計算機(jī)、醫(yī)學(xué)工程及醫(yī)務(wù)工作者進(jìn)行通力合作,力爭在多屬性醫(yī)學(xué)信息的融合、挖掘算法的高效性和準(zhǔn)確性等關(guān)鍵技術(shù)方面有所突破。
參考文獻(xiàn):
[1] 曲哲,林國慶,余奎.數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影像中的應(yīng)用[J].醫(yī)療設(shè)備信息,2004,19(6):33-34.
[2] Hsu J H,Tseng SC,et al.A methodology for evaluation of boundary detection algorithmson breast ultrasound images[J].Journal of Medical Engineering & Technology,2002(25):173-177.
社會經(jīng)濟(jì)的發(fā)展,使得電力資源在其中發(fā)揮的作用也日益提高,成為支撐社會持續(xù)發(fā)展不可獲取的有力資源之一。為了更好地滿足人們不斷提高的用電需求,在電力營銷中應(yīng)用新技術(shù)、新的管理方式已經(jīng)成為眾多電力企業(yè)改革與發(fā)展的重點(diǎn)。本文主要就數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)中的應(yīng)用進(jìn)行一定的分析。
1 數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個主要步驟,它主要是指從大量的數(shù)據(jù)中自動地搜索隱藏于其中的有著特殊關(guān)系的信息的過程。通常數(shù)據(jù)挖掘與計算機(jī)科學(xué)有著緊密的關(guān)系,通過搜集、在線分析處理、情報檢索、專家系統(tǒng)、模式辨別等方法實現(xiàn)上述目標(biāo)。
1.2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)主要有聚類、關(guān)聯(lián)分析、分類、空間挖掘、時序模式、預(yù)測六項。聚類可以幫助人們更好地認(rèn)識客觀現(xiàn)實,其方法主要有統(tǒng)計分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。如果兩個或多個數(shù)據(jù)出現(xiàn)取值重復(fù)等高概率時,就說明它們之間存在一定的關(guān)系,并針對這些關(guān)系建立起一定的關(guān)聯(lián)原則,這就是數(shù)據(jù)挖掘中的關(guān)聯(lián)分析技術(shù)。分類在數(shù)據(jù)挖掘技術(shù)中是一種非常重要的任務(wù),其可以充分利用原始數(shù)據(jù),通過自動導(dǎo)出,對給定的數(shù)據(jù)進(jìn)行推廣描述,以便對未來數(shù)據(jù)進(jìn)行描述,因此分類主要被用作預(yù)測。時序模式主要是指從海量的時間序列數(shù)據(jù)中,對人們所不知的但有潛在價值的數(shù)據(jù)進(jìn)行提取,以便對社會中的各個方面進(jìn)行預(yù)測,并指導(dǎo)人們的行為。
2 電力營銷系統(tǒng)
電力營銷系統(tǒng)主要是以用電管理、電能計量、營業(yè)計費(fèi)、線損管理等項目為核心,在各個業(yè)務(wù)項目模塊之上,提供一定的服務(wù)模塊以及分析模塊。前者主要包塊電網(wǎng)服務(wù)、互聯(lián)網(wǎng)服務(wù)以及客戶服務(wù)中心等,其工作中心在于向人們提供更高質(zhì)量的服務(wù)。后者主要是通過對歷史數(shù)據(jù)的分析、計算等,為項目決策提供參考依據(jù),其工作主要側(cè)重于向電力企業(yè)提供及時準(zhǔn)確的參考依據(jù),比如提供電力系統(tǒng)診斷的相關(guān)數(shù)據(jù)、安全動態(tài)評估、異常情況數(shù)據(jù)分析等。電力營銷系統(tǒng)的數(shù)據(jù)主要呈現(xiàn)出數(shù)據(jù)多、種類繁雜、要求高等特點(diǎn)。
3 數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)中的應(yīng)用
3.1 聚類技術(shù)在電力營銷系統(tǒng)中的應(yīng)用
聚類技術(shù)在電力營銷系統(tǒng)中的應(yīng)用主要體現(xiàn)在對不良數(shù)據(jù)進(jìn)行修正、對負(fù)荷進(jìn)行預(yù)測、對變壓器故障進(jìn)行判別、對電力用戶進(jìn)行分類、對用戶信用進(jìn)行評價等。對不良數(shù)據(jù)進(jìn)行分析主要是建立在傳統(tǒng)的聚類算法基礎(chǔ)之上,對聚類過程中所應(yīng)用到的基本參數(shù)進(jìn)行分析,并對其中的相關(guān)負(fù)荷特征曲線進(jìn)行提取,對不良數(shù)據(jù)進(jìn)行修整。對用戶的用電數(shù)據(jù)通過選取最佳的角力方法,得出具有代表性的負(fù)荷曲線,使電力企業(yè)能夠?qū)τ脩舻挠秒娔J接兴私?,并制定出相?yīng)購電合同,從而增加電力企業(yè)的經(jīng)濟(jì)效益。電力企業(yè)一般根據(jù)用戶所提出的不同需求,采用聚類分析的方式,將用戶分成不同的組別,并根據(jù)分組結(jié)果對不同組別之間存在的差異進(jìn)行分析,并針對分析結(jié)果制定出不同的營銷策略,在很大程度上促進(jìn)了電力企業(yè)在經(jīng)濟(jì)效益方面的提高。對用戶信用進(jìn)行評價主要是通過建立基于聚類分析法的用戶信用評價算法,對不同的用戶組別制定不同的量化依據(jù),從而實現(xiàn)對用戶信用等級評定。
3.2 分類技術(shù)在電力營銷系統(tǒng)中的應(yīng)用
在電力營銷系統(tǒng)中,對其進(jìn)行中長期預(yù)測,除了利用傳統(tǒng)的方法之外,也可以對其采用專家系統(tǒng)、模糊理論等方式。而神經(jīng)網(wǎng)絡(luò)方法在一定程度上得到了人們的高度認(rèn)可,其主要基于競爭分類之上,對預(yù)測準(zhǔn)確度的提高有明顯的效果。決策樹技術(shù)的誕生在一定程度上也大大提高了數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)的應(yīng)用效果。決策樹的應(yīng)用不僅可以有效提高短期負(fù)荷預(yù)算的準(zhǔn)確度,其對電力營銷過程中出現(xiàn)的竊電行為也有了高效、及時的判別。通過建立分類樹,形成了內(nèi)容龐大、條理清晰的數(shù)據(jù)庫,在對SCADA系統(tǒng)的不良數(shù)據(jù)進(jìn)行評估的同時,減小了數(shù)據(jù)庫建立的規(guī)模,并大大提高了其預(yù)算的準(zhǔn)確性及計算的速度。同時,分類技術(shù)在客戶關(guān)系管理工作中也得到了廣泛應(yīng)用。
3.3 空間挖掘技術(shù)在電力營銷系統(tǒng)中的應(yīng)用
在很大程度上,電力營銷人員反應(yīng)的快慢、判斷的準(zhǔn)確度、決策的科學(xué)性對電力企業(yè)的長遠(yuǎn)發(fā)展有著至關(guān)重要的作用。特別是隨著電力體制改革的不斷深入,電力營銷市場化,決策的科學(xué)性、正確性顯得更加重要和關(guān)鍵。將電力運(yùn)行系統(tǒng)中的相關(guān)數(shù)據(jù)、負(fù)荷分布位置的具體數(shù)據(jù)以及實時發(fā)生變化的相關(guān)數(shù)據(jù)等信息融合為一體,通過空間挖掘技術(shù),對信息進(jìn)行一定處理,保證電力營銷系統(tǒng)實現(xiàn)設(shè)備跟蹤、模擬停電、故障判定、損失評估等功能。同時還可以利用空間分布規(guī)則、特征規(guī)則、聚類規(guī)則、區(qū)分規(guī)則等,得到不同類別或是相同類別的負(fù)荷分布情況。除此之前,空間挖掘技術(shù)還能廣泛地應(yīng)用于負(fù)荷管理、抄表收費(fèi)等服務(wù)項目,并能根據(jù)線路或變壓器的實際負(fù)荷情況,根據(jù)用電客戶的實際地理位置等制定出針對性強(qiáng)的負(fù)荷控制措施,從而實現(xiàn)負(fù)荷的合理應(yīng)用,對高峰、低谷時期的負(fù)荷情況采取錯峰、填谷、調(diào)峰等方式實施管理。
3.4 時序模式在電力營銷系統(tǒng)中的應(yīng)用
時序模式在電力營銷系統(tǒng)中用于進(jìn)行短期符合預(yù)算是一種最為經(jīng)典,同時也是應(yīng)用最廣、最系統(tǒng)的一種方法。一般在實際運(yùn)用中,更多是將時序模式與神經(jīng)網(wǎng)絡(luò)結(jié)合,共同對電力營銷系統(tǒng)的相關(guān)數(shù)據(jù)進(jìn)行分析。隨著科學(xué)技術(shù)的不斷發(fā)展,人們針對數(shù)據(jù)挖掘技術(shù),提出了一種基于時間窗的新的時序挖掘算法,該種技術(shù)主要被廣泛地用作對警報進(jìn)行智能處理,以便對電力營銷系統(tǒng)中出現(xiàn)的故障進(jìn)行更加準(zhǔn)確的定位與判斷,有利于電力營銷服務(wù)管理水平的大力提高,為廣大電力用戶提供更加優(yōu)質(zhì)的電力資源。
4 結(jié)束語
總之,數(shù)據(jù)挖掘技術(shù)在電力系統(tǒng)中有著非常重要的應(yīng)用價值。隨著社會經(jīng)濟(jì)的不斷發(fā)展,單一的數(shù)據(jù)挖掘技術(shù)已經(jīng)不能很好地適應(yīng)當(dāng)前社會的需求,對此應(yīng)在實際應(yīng)用過程中,對其進(jìn)行不斷改進(jìn)與創(chuàng)新,促使數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)中得到更加廣泛的應(yīng)用,從而促進(jìn)電力企業(yè)經(jīng)濟(jì)效益的穩(wěn)步提高。
參考文獻(xiàn):
[1]朱莉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)中的研究與應(yīng)用[J].東北大學(xué),2003(18).
[2]朱潔.數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)線損計算中的應(yīng)用研究[J].蘭州理工大學(xué),2011(11).