一二三区在线播放国内精品自产拍,亚洲欧美久久夜夜综合网,亚洲福利国产精品合集在线看,香蕉亚洲一级国产欧美

  • 期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書 購(gòu)物車

    首頁(yè) > 優(yōu)秀范文 > 數(shù)據(jù)挖掘技術(shù)應(yīng)用

    數(shù)據(jù)挖掘技術(shù)應(yīng)用樣例十一篇

    時(shí)間:2023-01-26 06:59:49

    序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘技術(shù)應(yīng)用范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!

    數(shù)據(jù)挖掘技術(shù)應(yīng)用

    篇1

    中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

    一、數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用

    數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明”。

    通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷,這與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷手段相比,大大節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。

    就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來(lái)圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問(wèn)題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。

    二、入侵檢測(cè)中數(shù)據(jù)挖掘技術(shù)的引入

    入侵檢測(cè)技術(shù)是對(duì)(網(wǎng)絡(luò))系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。

    根據(jù)數(shù)據(jù)分析方法(也就是檢測(cè)方法)的不同,我們可以將入侵檢測(cè)系統(tǒng)分為兩類:(1)誤用檢測(cè)(Misuse? Detection)。又稱為基于特征的檢測(cè),它是根據(jù)已知的攻擊行為建立一個(gè)特征庫(kù),然后去匹配已發(fā)生的動(dòng)作,如果一致則表明它是一個(gè)入侵行為。(2)異常檢測(cè)(Anomaly Detection)。又稱為基于行為的檢測(cè),它是建立一個(gè)正常的特征庫(kù),根據(jù)使用者的行為或資源使用狀況來(lái)判斷是否入侵。

    將這兩種分析方法結(jié)合起來(lái),可以獲得更好的性能。異常檢測(cè)可以使系統(tǒng)檢測(cè)新的、未知的攻擊或其他情況;誤用檢測(cè)通過(guò)防止耐心的攻擊者逐步改變行為模式使得異常檢測(cè)器將攻擊行為認(rèn)為是合法的,從而保護(hù)異常檢測(cè)的完整性。

    三、算法在入侵檢測(cè)中的具體使用

    (一)基于誤用的檢測(cè)型。

    首先從網(wǎng)絡(luò)或是主機(jī)上獲取原始二進(jìn)制的數(shù)據(jù)文件,再把這些數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換成ASCII碼表示的數(shù)據(jù)分組形式。再經(jīng)過(guò)預(yù)處理模塊將這些網(wǎng)絡(luò)數(shù)據(jù)表示成連接記錄的形式,每個(gè)連接記錄都是由選定的特征屬性表示的。再進(jìn)行完上面的工作后,對(duì)上述的由特征屬性組成的模式記錄進(jìn)行處理,總結(jié)出其中的統(tǒng)計(jì)特征,包括在一時(shí)間段內(nèi)與目標(biāo)主機(jī)相同的連接記錄的次數(shù)、發(fā)生SYN錯(cuò)誤的連接百分比、目標(biāo)端口相同的連接所占的百分比等等一系列的統(tǒng)計(jì)特征。最后,就可以進(jìn)行下面的檢測(cè)分析工作,利用分類算法,比如RIPPER 、C4.5等建立分類模型。只有這樣才能建立一個(gè)實(shí)用性較強(qiáng)、效果更好的分類模型。

    (二)基于異常的入侵模型。

    異常檢測(cè)的主要工作就是通過(guò)構(gòu)造正?;顒?dòng)集合,然后利用得到的一組觀察數(shù)值的偏離程度來(lái)判斷用戶行為的變化,以此來(lái)覺(jué)得是否屬于入侵的一種檢測(cè)技術(shù)。異常檢測(cè)的優(yōu)點(diǎn)在于它具有檢測(cè)未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測(cè)模型依然可以通過(guò)檢測(cè)它與已知模式集合之間的差異來(lái)判斷用戶的行為是否異常。

    在異常檢測(cè)中主要用到的兩個(gè)算法就是模式比較和聚類算法:(1)模式比較。在模式比較算法中首先通過(guò)關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過(guò)模式比較算法來(lái)區(qū)別正常行為和入侵行為。(2)聚類算法。聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數(shù)目應(yīng)遠(yuǎn)大于入侵行為數(shù)目的條件,因此能夠?qū)?shù)據(jù)集劃分為不同的類別,由此分辨出正常和異常行為來(lái)檢測(cè)入侵。數(shù)據(jù)挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等?;诰垲惖娜肭謾z測(cè)是一種無(wú)監(jiān)督的異常檢測(cè)算法,通過(guò)對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)檢測(cè)入侵。該方法不需要手工或其他的分類,也不需要進(jìn)行訓(xùn)練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。

    四、結(jié)論

    入侵檢測(cè)中數(shù)據(jù)挖掘技術(shù)方面的研究已經(jīng)有很多,發(fā)表的論文也已經(jīng)有好多,但是應(yīng)用難點(diǎn)在于如何根據(jù)具體應(yīng)用的要求,從用于安全的先驗(yàn)知識(shí)出發(fā),提取出可以有效反映系統(tǒng)特性的屬性,并應(yīng)用合適的算法進(jìn)行數(shù)據(jù)挖掘。另一技術(shù)難點(diǎn)在于如何將數(shù)據(jù)挖掘結(jié)果自動(dòng)應(yīng)用到實(shí)際IDS中。

    入侵檢測(cè)采用的技術(shù)有多種類型,其中基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)技術(shù)成為當(dāng)前入侵檢測(cè)技術(shù)發(fā)展的一個(gè)熱點(diǎn),但數(shù)據(jù)挖掘還處于發(fā)展時(shí)期,因此有必要對(duì)它進(jìn)行更深入的研究。

    (作者單位:湖北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院)

    參考文獻(xiàn):

    篇2

    1 數(shù)據(jù)挖掘技術(shù)的方法

    數(shù)據(jù)挖掘技術(shù)的方法主要分為統(tǒng)計(jì)、聚類和遺傳分析[1]。統(tǒng)計(jì)方法可以滿足數(shù)據(jù)庫(kù)處理分析,包括:有線、非線、回歸等多項(xiàng)統(tǒng)計(jì)方法;聚類方法應(yīng)用于數(shù)據(jù)挖掘的內(nèi)部處理,梳理內(nèi)部數(shù)據(jù)的關(guān)系,基于聚類方法的存在,數(shù)據(jù)挖掘技術(shù)可以滿足經(jīng)濟(jì)、模擬等多項(xiàng)數(shù)據(jù)領(lǐng)域的需求;遺傳分析是數(shù)據(jù)挖掘方法的重點(diǎn),以生物進(jìn)化為導(dǎo)向,將重組、變異導(dǎo)入到數(shù)據(jù)庫(kù)內(nèi),推進(jìn)數(shù)據(jù)的后續(xù)發(fā)展,將后續(xù)模擬的數(shù)據(jù),應(yīng)用在現(xiàn)代數(shù)據(jù)庫(kù)的某個(gè)部分,發(fā)揮同樣作用,遺傳算法高度模擬生物進(jìn)化的方式,結(jié)合繁殖、基因、突變、重組的概念,引入新數(shù)據(jù),促使數(shù)據(jù)庫(kù)中新個(gè)體的形成,所以數(shù)據(jù)挖掘中的遺傳算法,既可以作為數(shù)據(jù)分析的方法,也可以體現(xiàn)預(yù)算和評(píng)估的特點(diǎn)。

    2 數(shù)據(jù)挖掘的技術(shù)支持

    2.1 神經(jīng)網(wǎng)絡(luò)技術(shù)

    神經(jīng)網(wǎng)絡(luò)主要以數(shù)學(xué)模型為主,重點(diǎn)針對(duì)復(fù)雜數(shù)據(jù),快速完成數(shù)據(jù)抽取。神經(jīng)網(wǎng)絡(luò)技術(shù)處理的能力,可以超出計(jì)算機(jī)的分析水平,保障輸入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)屬于數(shù)值型,即可快速導(dǎo)出趨勢(shì)性變化的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)技術(shù)通過(guò)模擬大腦的神經(jīng)元結(jié)構(gòu),利用MP,實(shí)現(xiàn)非線性規(guī)劃,根據(jù)數(shù)據(jù)信息的特性,決定信息的存儲(chǔ)位置,實(shí)現(xiàn)自主處理。神經(jīng)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)挖掘中,不僅可以實(shí)現(xiàn)數(shù)據(jù)的快速分類,還可以對(duì)數(shù)據(jù)進(jìn)行模擬預(yù)測(cè),促使數(shù)據(jù)挖掘處于優(yōu)化的狀態(tài),完成難度聚類。神經(jīng)網(wǎng)絡(luò)技術(shù)的代表為RBF和BP。

    2.2 決策樹(shù)技術(shù)

    此技術(shù)以模擬離散函數(shù)為主,借助樹(shù)木模型,對(duì)實(shí)際案例進(jìn)行綜合分類處理。決策樹(shù)的葉子,代表不同結(jié)點(diǎn),而結(jié)點(diǎn)則是組成實(shí)例不同屬性的測(cè)試,未來(lái)枝葉的分支,表示可能覆蓋的屬性預(yù)測(cè)[2]。決策樹(shù)在根部向枝葉推進(jìn)的過(guò)程中,蘊(yùn)含豐富的數(shù)據(jù)挖掘,目的是得出有價(jià)值的屬性信息,所以決策樹(shù)理論支持?jǐn)?shù)據(jù)挖掘的分析和分類,對(duì)相同屬性的數(shù)據(jù)進(jìn)行歸類存儲(chǔ),進(jìn)而挖掘數(shù)據(jù)分類中遵循的規(guī)則。

    3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域

    3.1 通信服務(wù)行業(yè)

    在數(shù)據(jù)挖掘技術(shù)的帶動(dòng)和參與下,通信服務(wù)行業(yè)逐漸趨向于“三網(wǎng)融合”,即:電信、互聯(lián)和電視,勢(shì)必涉及諸多數(shù)據(jù)運(yùn)營(yíng),數(shù)據(jù)挖掘技術(shù)可以針對(duì)三網(wǎng)狀態(tài),實(shí)行模式分析,挖掘商業(yè)潛能。例如:數(shù)據(jù)挖掘技術(shù)可以對(duì)通信數(shù)據(jù)進(jìn)行分析,得出通信系統(tǒng)實(shí)時(shí)運(yùn)行的參數(shù)和狀態(tài),以聚類的方式,歸類系統(tǒng)數(shù)據(jù),還可直接分析用戶的實(shí)際行為,拓寬業(yè)務(wù)途徑,同時(shí)發(fā)現(xiàn)發(fā)展機(jī)遇,提升通信服務(wù)行業(yè)的社會(huì)效益。

    3.2 高校管理系統(tǒng)

    數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用較為明顯,例如:學(xué)生信息管理系統(tǒng)、教務(wù)評(píng)價(jià)系統(tǒng)、成績(jī)查詢系統(tǒng)、選課系統(tǒng)等,都可體現(xiàn)數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn)。高校學(xué)生數(shù)量較多,通過(guò)數(shù)據(jù)挖掘技術(shù),可以為學(xué)生提供一體化服務(wù),學(xué)生在入學(xué)之際,即可將信息錄入在管理系統(tǒng)內(nèi),整個(gè)在校期間,都可通過(guò)管理系統(tǒng),查詢個(gè)人信息,管理者也可以根據(jù)管理系統(tǒng),快速調(diào)取學(xué)生信息,如:圖書借閱、飯卡充值等,隨時(shí)關(guān)注學(xué)生的信息動(dòng)態(tài)[3]。高校在數(shù)據(jù)管理方面,已經(jīng)實(shí)現(xiàn)多系統(tǒng)的融合發(fā)展,在數(shù)據(jù)挖掘技術(shù)的支持下,將不同功能的數(shù)據(jù)系統(tǒng),兼容于統(tǒng)一系統(tǒng),不論是學(xué)生,還是教務(wù)人員,利用獨(dú)立賬號(hào)、密碼,都可實(shí)現(xiàn)個(gè)人信息管理或查詢,對(duì)數(shù)據(jù)挖掘技術(shù)提供更高的發(fā)展要求。

    3.3 醫(yī)學(xué)領(lǐng)域

    醫(yī)學(xué)領(lǐng)域不僅涉及大量的信息數(shù)據(jù),而且數(shù)據(jù)的編排、匯總非常復(fù)雜,大量數(shù)據(jù)同時(shí)出現(xiàn)的過(guò)程中,幾乎不會(huì)出現(xiàn)相同數(shù)據(jù),因此,醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)管理,具備一定難度。數(shù)據(jù)挖掘技術(shù)成功應(yīng)用于醫(yī)院數(shù)據(jù)管理中,特別是在病歷管理、醫(yī)藥信息管理方面,例如:數(shù)據(jù)挖掘技術(shù)可以整合醫(yī)藥信息,將醫(yī)藥信息存儲(chǔ)于數(shù)據(jù)庫(kù)系統(tǒng)內(nèi),醫(yī)務(wù)人員可以通過(guò)檢索的方式,在管理系統(tǒng)內(nèi),迅速獲得所需信息,避免信息篩選錯(cuò)誤,提高信息識(shí)別的能力。由此,醫(yī)務(wù)人員在信息管理和校對(duì)方面,提高操作效率,確保數(shù)據(jù)挖掘的質(zhì)量。

    3.4 金融行業(yè)

    金融行業(yè)中的數(shù)據(jù)分類比較明確,如:信貸數(shù)據(jù)、儲(chǔ)蓄數(shù)據(jù)等,需對(duì)數(shù)據(jù)采取合理的分配和管理。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中,為數(shù)據(jù)管理提供可靠的空間,成為管理金融數(shù)據(jù)的最佳方式[4]。數(shù)據(jù)挖掘技術(shù)具備獨(dú)立分析的能力,可以在數(shù)據(jù)庫(kù)中,設(shè)置多維參考點(diǎn),對(duì)不同類型的數(shù)據(jù)實(shí)行嚴(yán)格區(qū)分,根據(jù)數(shù)據(jù)的異同性質(zhì),實(shí)行準(zhǔn)確處理,發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢(shì),維持金融數(shù)據(jù)的運(yùn)行。數(shù)據(jù)挖掘技術(shù)還可以根據(jù)金融數(shù)據(jù)的動(dòng)態(tài)變化,有效發(fā)現(xiàn)影響金融活動(dòng)的不良因素,防止金融行業(yè)出現(xiàn)數(shù)據(jù)漏洞,造成管理弊端。

    綜上所述,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在行業(yè)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,為數(shù)據(jù)運(yùn)行提供強(qiáng)大的技術(shù)支持。數(shù)據(jù)挖掘技術(shù)可以迅速獲取有效信息,體現(xiàn)準(zhǔn)確識(shí)別的能力,改善數(shù)據(jù)運(yùn)行,因此,數(shù)據(jù)挖掘技術(shù)成為行業(yè)發(fā)展與進(jìn)步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價(jià)值,同時(shí)提高行業(yè)信息技術(shù)水平。

    [參考文獻(xiàn)]

    [1]羅斌.數(shù)據(jù)挖掘研究進(jìn)展[J].中國(guó)水運(yùn),2012(07):90-92.

    篇3

    中圖分類號(hào):TP311.13

    1 數(shù)據(jù)挖掘技術(shù)

    1.1 數(shù)據(jù)挖掘概念

    所謂數(shù)據(jù)挖掘,簡(jiǎn)單理解就是從海量數(shù)據(jù)中挖掘出對(duì)用戶有利用價(jià)值的信息,并根據(jù)分析結(jié)果判斷數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。人們利用數(shù)據(jù)技術(shù)的主要目的就在于從混亂的數(shù)據(jù)信息中分析出能夠?qū)ξ磥?lái)經(jīng)營(yíng)策略有用的信息,進(jìn)而能夠更好更高效的經(jīng)營(yíng)企業(yè),獲得更多經(jīng)營(yíng)利潤(rùn)。

    1.2 數(shù)據(jù)挖掘技術(shù)分類

    關(guān)于數(shù)據(jù)挖掘針對(duì)其挖掘的對(duì)象,大致的可以做出以下分類,具體分為時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)(Object-Oriented Database)、空間數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)以及web等比較具有針對(duì)性的挖掘?qū)ο蟆a槍?duì)數(shù)據(jù)挖掘的方法大致的可以歸納為:計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò) Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。

    1.3 數(shù)據(jù)挖掘應(yīng)用分析

    隨著當(dāng)前計(jì)算機(jī)技術(shù)和信息技術(shù)的飛速發(fā)展,數(shù)據(jù)分析已經(jīng)成為當(dāng)前各行各業(yè)的重要研究?jī)?nèi)容,數(shù)據(jù)挖掘技術(shù)可以說(shuō)是時(shí)展的產(chǎn)物。傳統(tǒng)意義上的數(shù)據(jù)收集已經(jīng)很難以應(yīng)付當(dāng)前數(shù)據(jù)信息瞬息萬(wàn)變的局面,企業(yè)需要發(fā)展就需要高價(jià)值率的數(shù)據(jù)庫(kù)作保證。企業(yè)在市場(chǎng)競(jìng)爭(zhēng)中,只有掌握了最為準(zhǔn)確的市場(chǎng)分析數(shù)據(jù),才能夠更好的去確定未來(lái)的發(fā)展方向,才能夠更好的提高資金利用率。高層次數(shù)據(jù)分析是很多企業(yè)所面臨的重點(diǎn)問(wèn)題,不管是行政決策還是市場(chǎng)預(yù)判,均需要這類數(shù)據(jù)來(lái)提供可靠參考。所以,研究數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法具有非常重要的現(xiàn)實(shí)意義。

    2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問(wèn)題及算法

    2.1 聚焦挖掘任務(wù),提高挖掘效率

    早期的數(shù)據(jù)挖掘理論主要研究方向是模型建立及挖掘算法設(shè)計(jì),不同企業(yè)所收集數(shù)據(jù)類型不同,所以在實(shí)際使用過(guò)程中模型及算法的確定也不同。傳統(tǒng)數(shù)據(jù)挖掘過(guò)程,首先需要做的是對(duì)提供的數(shù)據(jù)庫(kù)進(jìn)行全面分析,然后再結(jié)合用戶需求進(jìn)行更為深入細(xì)致的研究,制定出最佳數(shù)據(jù)挖掘模型,如果最終所得到的分析結(jié)果并未達(dá)到用戶滿意,則重新分析研究制定模型進(jìn)行二次數(shù)據(jù)挖掘。算法也是影響數(shù)據(jù)挖掘結(jié)果的關(guān)鍵,不同算法在不同模型下所得到的結(jié)果也不同,因此制定數(shù)據(jù)挖掘模型及算法是用戶是否能夠得到預(yù)期結(jié)果的重要參數(shù)。

    2.2 保證挖掘的精確性

    雖然數(shù)據(jù)挖掘的目的是為了能夠幫助用戶獲得更多有價(jià)值的參考結(jié)論,但其結(jié)果具有不可預(yù)測(cè)性的特點(diǎn)。數(shù)據(jù)挖掘過(guò)程中算法的運(yùn)用還會(huì)設(shè)計(jì)很多問(wèn)題,這些問(wèn)題的出現(xiàn)肯定會(huì)對(duì)最終的結(jié)果可靠性造成一定影響,因此必須要在算法中加入反饋機(jī)制,以便于在計(jì)算過(guò)程中對(duì)結(jié)果進(jìn)行測(cè)試和修正。

    3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

    對(duì)于理論基礎(chǔ)比較成熟的算法――Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。

    3.1 減少事務(wù)的個(gè)數(shù)

    如果在事務(wù)處理過(guò)程中去除長(zhǎng)度小于k的項(xiàng)目集,那么在后期計(jì)算過(guò)程中肯定不會(huì)再出現(xiàn)長(zhǎng)度為k+1的項(xiàng)目集。因此,在數(shù)據(jù)挖掘過(guò)程中我們可以通過(guò)算法直接將無(wú)用事務(wù)濾除,以便于在下輪掃描過(guò)程中簡(jiǎn)化操作過(guò)程,提高數(shù)據(jù)挖掘效率。

    3.2 基于劃分的方法

    這類算法的比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。

    3.3 基于采樣的方法

    數(shù)據(jù)庫(kù)抽樣計(jì)算的目的是獲得更直接的規(guī)則,進(jìn)而能夠方便于后期的數(shù)據(jù)挖掘過(guò)程,通過(guò)抽樣檢驗(yàn)我們可以更為直觀的判斷關(guān)聯(lián)規(guī)則是否有效,是否能夠更加簡(jiǎn)便的獲得用戶所需目標(biāo)。基于采樣的數(shù)據(jù)挖掘算法在實(shí)現(xiàn)方法上要容易一些,而且還可以最大限度的降低數(shù)據(jù)挖掘過(guò)程所需要提供的I/O成本。但同時(shí)這種算法也會(huì)使得抽樣數(shù)據(jù)隨機(jī)性大大增加,進(jìn)而使得數(shù)據(jù)挖掘過(guò)程中出現(xiàn)的問(wèn)題增多,給數(shù)據(jù)挖掘帶來(lái)額外負(fù)擔(dān)。基于統(tǒng)計(jì)學(xué)理論的抽樣算法,雖然在計(jì)算精度上無(wú)法與其他算法相媲美,但如果我們結(jié)合相關(guān)數(shù)據(jù)挖掘理論進(jìn)行更為深入的分析研究,還是能夠在精度上進(jìn)行一定的彌補(bǔ)。

    4 交互式的可視化方法

    關(guān)聯(lián)規(guī)則可視化研究是當(dāng)前關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘技術(shù)走向?qū)嵱没闹匾獌?nèi)容之一,通過(guò)直觀的、易懂的方式展現(xiàn)給用戶是關(guān)聯(lián)規(guī)則挖掘是否能夠高效應(yīng)用的關(guān)鍵。當(dāng)前社會(huì)上可視化方法中使用最為廣泛的是有向圖、2D矩陣、3D顯示等幾種,這些方法中已經(jīng)在實(shí)際生活中得到了廣泛認(rèn)可。但它們均有一個(gè)共同的特點(diǎn)就是將數(shù)據(jù)挖掘所得到的所有結(jié)果一次性通過(guò)不同顏色或者不同形狀展現(xiàn)在表或者圖中,這種頁(yè)面顯示必然會(huì)存在一定的混亂性,以致于其顯示效果大打折扣。正是在這種前提下,交互式可視化方法受到了研究人員的關(guān)注。交互式可視化方法顯示方式為:

    第一,從宏觀上來(lái)把握項(xiàng)與項(xiàng)之間存在的關(guān)系,通過(guò)不同圖形或者顏色來(lái)達(dá)到視覺(jué)突出的效果,進(jìn)而能夠讓用戶更加直觀的看到數(shù)據(jù)挖掘結(jié)果。關(guān)聯(lián)規(guī)則挖掘所得到的結(jié)果中不同項(xiàng)與項(xiàng)之間是使用線條連接起來(lái)的,在這種情況下,用戶可以通過(guò)了解某一個(gè)項(xiàng)其內(nèi)部的關(guān)聯(lián)信息,進(jìn)而解決由于線條過(guò)多而造成的頁(yè)面混亂情況。

    第二,從微觀上更加精確的把握每一個(gè)關(guān)聯(lián)規(guī)則的支持度和信任度,通過(guò)數(shù)字化的形式來(lái)給出挖掘結(jié)果的表示比,進(jìn)而幫助用戶更直觀更準(zhǔn)確的獲得數(shù)據(jù)挖掘結(jié)果。

    第三,從分類顯示的角度出發(fā),將數(shù)據(jù)挖掘所得出的沒(méi)有使用價(jià)值的規(guī)則剔除,通過(guò)不同圖形或者顏色來(lái)增加視覺(jué)效果,這樣從根本上提高了數(shù)據(jù)挖掘可視化目的。

    5 結(jié)束語(yǔ)

    數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。

    參考文獻(xiàn):

    [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.

    [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29+33.

    篇4

    中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)05-0000-00

    1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析

    “數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問(wèn)題,由此而誕生的數(shù)據(jù)挖掘技術(shù)其實(shí)就是用以處理這一尷尬問(wèn)題的技術(shù)。數(shù)據(jù)挖掘?qū)嶋H上是相對(duì)比較新型的一門學(xué)科,在幾十年的發(fā)展過(guò)程中,已經(jīng)不可同日而語(yǔ)。其實(shí)數(shù)據(jù)挖掘技術(shù)的本質(zhì)就是人工智能技術(shù),而數(shù)據(jù)挖掘技術(shù)的利用相對(duì)應(yīng)的就是指人工智能技術(shù)的開(kāi)發(fā)與應(yīng)用,也就是說(shuō)數(shù)據(jù)挖掘其實(shí)是依賴技術(shù)的提升來(lái)實(shí)現(xiàn)數(shù)據(jù)的整體創(chuàng)新的技術(shù),所以,整個(gè)數(shù)據(jù)挖掘技術(shù)實(shí)際上是非常具有信息價(jià)值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準(zhǔn)確率,是非常重要的知識(shí)憑證,能夠在一定程度上提高當(dāng)下企業(yè)的整體競(jìng)爭(zhēng)力。

    數(shù)據(jù)挖掘技術(shù)的核心就是分析,通過(guò)分析方法的不同來(lái)解決不同類別的問(wèn)題,以實(shí)現(xiàn)數(shù)據(jù)挖掘的潛在內(nèi)容。簡(jiǎn)單來(lái)說(shuō)就是對(duì)癥下藥以保證藥到病除。

    1.1聚類分析法

    簡(jiǎn)單來(lái)說(shuō)聚類分析就是通過(guò)將數(shù)據(jù)對(duì)象進(jìn)行聚類分組,然后形成板塊,將毫無(wú)邏輯的數(shù)據(jù)變成了有聯(lián)系性的分組數(shù)據(jù),然后從其中獲取具有一定價(jià)值的數(shù)據(jù)內(nèi)容進(jìn)行進(jìn)一步的利用。由于這種分析方法不能夠較好的就數(shù)據(jù)類別、屬性進(jìn)行分類,所以聚類分析法一般都運(yùn)用在心理學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)識(shí)別等方面。

    1.2人工神經(jīng)網(wǎng)絡(luò)

    人工神經(jīng)網(wǎng)絡(luò)是通過(guò)大批量的數(shù)據(jù)進(jìn)行分析,而這種數(shù)據(jù)分析方式本身是建立在一定的數(shù)據(jù)模型基礎(chǔ)上的,因此通常都可以隨時(shí)根據(jù)數(shù)據(jù)需求進(jìn)行分類,所以人工神經(jīng)網(wǎng)絡(luò)也是當(dāng)下數(shù)據(jù)挖掘技術(shù)中最常用的一種數(shù)據(jù)分析方式之一。

    1.3關(guān)聯(lián)性分析法

    有時(shí)數(shù)據(jù)本身存在一定的隱蔽性使得很難通過(guò)普通的數(shù)據(jù)分析法進(jìn)行數(shù)據(jù)挖掘和利用,這就需要通過(guò)關(guān)聯(lián)性分析法完成對(duì)于數(shù)據(jù)信息的關(guān)聯(lián)性識(shí)別,來(lái)幫助人力完成對(duì)于數(shù)據(jù)分辨的任務(wù),這種數(shù)據(jù)分析方法通常是帶著某種目的性進(jìn)行的,因此比較適用于對(duì)數(shù)據(jù)精準(zhǔn)度相對(duì)較高的信息管理工作。

    1.4特征性數(shù)據(jù)分析法

    網(wǎng)絡(luò)數(shù)據(jù)隨著信息時(shí)代的到來(lái)變成了數(shù)據(jù)爆炸式,其數(shù)據(jù)資源十分廣泛并且得到了一定的普及,如何就網(wǎng)絡(luò)爆炸式數(shù)據(jù)進(jìn)行關(guān)于特性的分類就成為了當(dāng)下數(shù)據(jù)整理分類的主要內(nèi)容。在上文中提到的人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析也屬于這其中的一種,此外還有很多方法都是通過(guò)計(jì)算機(jī)來(lái)進(jìn)行虛擬數(shù)據(jù)的分類,尋找數(shù)據(jù)之間存在的普遍規(guī)律性完成數(shù)據(jù)的特性分析從而進(jìn)行進(jìn)一步分類。

    2大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用

    數(shù)據(jù)挖掘技術(shù)的具體流程就是先通過(guò)對(duì)于海量數(shù)據(jù)的保存,然后就已有數(shù)據(jù)中進(jìn)行分析、整理、選擇、轉(zhuǎn)換等,數(shù)據(jù)的準(zhǔn)備工作是數(shù)據(jù)挖掘技術(shù)的前提,也是決定數(shù)據(jù)挖掘技術(shù)效率及質(zhì)量的主要因素。在完成數(shù)據(jù)準(zhǔn)備工作后進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)數(shù)據(jù)進(jìn)行評(píng)估,最后實(shí)現(xiàn)運(yùn)用。因此,數(shù)據(jù)挖掘能夠運(yùn)用到很多方面。

    2.1市場(chǎng)營(yíng)銷領(lǐng)域

    市場(chǎng)營(yíng)銷其實(shí)就是數(shù)據(jù)挖掘技術(shù)最早運(yùn)用的領(lǐng)域,通常根據(jù)客戶的具體需求,進(jìn)行客戶分析,將不同的消費(fèi)習(xí)慣和消費(fèi)特點(diǎn)的客戶進(jìn)行簡(jiǎn)單的分類管理,以此來(lái)保證商品能夠順利銷售,并提高個(gè)人銷售的成功率和業(yè)績(jī)。而銷售的范圍也從最初的超市購(gòu)物擴(kuò)展到了包括保險(xiǎn)、銀行、電信等各個(gè)方面。

    2.2科學(xué)研究領(lǐng)域

    科學(xué)研究與實(shí)驗(yàn)測(cè)試等都需要對(duì)數(shù)據(jù)進(jìn)行關(guān)系分析為進(jìn)一步的實(shí)驗(yàn)和總結(jié)失敗做準(zhǔn)備,而實(shí)驗(yàn)測(cè)試和科學(xué)研究產(chǎn)生的數(shù)據(jù)往往是巨大的,因此數(shù)據(jù)挖掘技術(shù)在科學(xué)研究領(lǐng)域也得以廣泛運(yùn)用。通常都是通過(guò)科學(xué)研究?jī)?nèi)容選擇數(shù)據(jù)挖掘技術(shù)分析法進(jìn)行計(jì)算來(lái)找到數(shù)據(jù)中存在的規(guī)律,實(shí)現(xiàn)數(shù)據(jù)挖掘的部分價(jià)值――科學(xué)知識(shí)的分析與運(yùn)用。

    2.3電信業(yè)領(lǐng)域

    隨著信息化時(shí)代的到來(lái),電信產(chǎn)業(yè)也飛速發(fā)展起來(lái),到目前為止,電信產(chǎn)業(yè)已經(jīng)形成了一個(gè)巨大的網(wǎng)絡(luò)信息載體,如何將其中信息數(shù)據(jù)進(jìn)行整合就成為電信產(chǎn)業(yè)發(fā)展過(guò)程中的重要問(wèn)題。而數(shù)據(jù)挖掘技術(shù)的運(yùn)用則在一定程度上解決了這一問(wèn)題,大量的數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘技術(shù)得到了有效分類,并在這個(gè)過(guò)程中通過(guò)運(yùn)算得出數(shù)據(jù)之間的關(guān)聯(lián)性,運(yùn)用規(guī)律進(jìn)一步進(jìn)行數(shù)據(jù)分類。

    2.4教育教學(xué)領(lǐng)域

    教學(xué)評(píng)價(jià)、教學(xué)資源、學(xué)生個(gè)人基本信息等組成了教育教學(xué)領(lǐng)域的數(shù)據(jù)庫(kù),利用數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)教學(xué)資源的優(yōu)化配置,對(duì)學(xué)生的個(gè)人信息整理歸檔,從而保證教育教學(xué)領(lǐng)域中數(shù)據(jù)整理的良好運(yùn)作。

    3結(jié)語(yǔ)

    綜上所述,數(shù)據(jù)挖掘技術(shù)對(duì)于當(dāng)今社會(huì)的發(fā)展有著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問(wèn)題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率就成為了數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。本文通過(guò)對(duì)于數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析和大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用兩個(gè)方面對(duì)于數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡(jiǎn)要的闡述和分析,相信在未來(lái)伴隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)挖掘技術(shù)也將更加強(qiáng)大。

    參考文獻(xiàn)

    篇5

    在生物信息學(xué)的成果的理論基礎(chǔ)之上,通過(guò)統(tǒng)計(jì)的方法查找未知的生物化學(xué)功能的疾病基因的位置。這個(gè)方法預(yù)先通過(guò)患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來(lái)尋找基因[1]。

    數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展?fàn)顩r

    現(xiàn)今所采用的是分子生物學(xué)與微電子技術(shù)相結(jié)合的核酸分析檢測(cè)技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點(diǎn)/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個(gè)位點(diǎn)上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標(biāo)記的待測(cè)樣品DNA,RNA或cDNA在芯片上進(jìn)行雜交,然后用激光共聚焦顯微鏡對(duì)芯片進(jìn)行掃描,并配合計(jì)算機(jī)系統(tǒng)對(duì)雜交信號(hào)做出比較和檢測(cè),從而迅速得出所需的信息。

    基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預(yù)測(cè)分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對(duì),通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對(duì)是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對(duì)核酸序列的預(yù)測(cè)方法:針對(duì)核酸序列的預(yù)測(cè)就是在核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等過(guò)程。在此過(guò)程中,確認(rèn)一段DNA序列是一個(gè)基因需要有多個(gè)證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個(gè)已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個(gè)DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計(jì)上的規(guī)律性,即所謂的“密碼子偏好性”,也是說(shuō)明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡(jiǎn)單序列模式如TATA Box等相匹配等。

    案例分析

    疾病是由于基因的片段內(nèi)的某個(gè)位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)基因的數(shù)據(jù)挖掘,就是對(duì)這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。

    方法的選擇:筆者在設(shè)計(jì)中選用單純的DNA序列進(jìn)行比較,基因在計(jì)算機(jī)的表示和存儲(chǔ)時(shí),可以使用一條很長(zhǎng)的字符串來(lái)表示基因的某一條序列,使用文件的形式進(jìn)行對(duì)基因工作者的提取成果創(chuàng)建一級(jí)數(shù)據(jù)庫(kù),使用文件修整的方法進(jìn)行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級(jí)數(shù)據(jù)庫(kù)中的一致性。同時(shí)在文件比較過(guò)程中,生成某兩個(gè)數(shù)據(jù)文件的差異狀況,保存在二級(jí)數(shù)據(jù)庫(kù)庫(kù)中,進(jìn)一步的操作是對(duì)差異的位置的某個(gè)類型所占的比例。最后通過(guò)事先的對(duì)患者患病信息的統(tǒng)計(jì)得到的某種疾病在群中所占的比例,與其相比較,如果這兩個(gè)比例相等,則可以認(rèn)為這個(gè)位置的某個(gè)類型引起疾病的發(fā)生。從醫(yī)學(xué)院得到一些基因片段文件信息和患者(所有者)患病情況。

    系統(tǒng)的實(shí)現(xiàn):基因片段在計(jì)算機(jī)中以文件形式存儲(chǔ),用文件名標(biāo)識(shí)其所有者(源體)。片段起始地址和長(zhǎng)度信息和所有患者患病情況保存在本機(jī)數(shù)據(jù)庫(kù)中。在程序測(cè)試過(guò)程中,將片段復(fù)制成40份,對(duì)其中部分文件的序列進(jìn)行稍作修改,對(duì)所有患者的患病狀況進(jìn)行稍作修改,以創(chuàng)造測(cè)試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。

    其中一個(gè)文件所存儲(chǔ)的基因信息,見(jiàn)圖1。

    啟動(dòng)統(tǒng)計(jì)程序界面,單擊清空數(shù)據(jù)庫(kù)中的臨時(shí)用表數(shù)據(jù),將數(shù)據(jù)庫(kù)中有可能的雜音信息去掉。并對(duì)其中的所有文件進(jìn)行統(tǒng)計(jì)前片段剪切,使所有片段的起始地址和長(zhǎng)度都相同,避免發(fā)生序列移位。

    沒(méi)有進(jìn)行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進(jìn)行比較操作的甲、乙組的文件添加,因?yàn)楸敬螠y(cè)試只檢驗(yàn)片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號(hào)那里添加為0,終止序號(hào)那里添加為175。這樣則可以保證統(tǒng)計(jì)文件的所有信息都被統(tǒng)計(jì)。

    單擊結(jié)果顯示按鈕,可以見(jiàn)到程序以表格和條形圖標(biāo)方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說(shuō)明在這些接受統(tǒng)計(jì)的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。

    如果用戶想要在初步統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫(kù)中所有者的疾病狀況進(jìn)行詳細(xì)統(tǒng)計(jì)的話,單擊菜單欄的詳細(xì)統(tǒng)計(jì)按鈕,選擇按疾病詳細(xì)統(tǒng)計(jì),則將彈出窗口。

    選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。

    由此,用戶可以根據(jù)本系統(tǒng)所給出的預(yù)測(cè)對(duì)弱視遺傳疾病與序列中的特定位置,選擇適當(dāng)算法進(jìn)行進(jìn)一步的計(jì)算及檢驗(yàn),證明預(yù)測(cè)結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗(yàn)證等問(wèn)題。

    結(jié) 論

    對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠(yuǎn)沒(méi)有達(dá)到成熟的地步,因此需要不斷探索及研究。

    參考文獻(xiàn)

    篇6

    Data mining technology in book purchase application

    Xu Yi

    Dalian vocational & technical college, Dalian, 116037, China

    Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.

    Key words: data mining; book purchases; tactic; SPSS

    在信息高速傳播、知識(shí)飛速更新的今天,圖書館只有正確合理地進(jìn)行圖書采購(gòu),才能夠更好地實(shí)現(xiàn)其“在最恰當(dāng)?shù)臅r(shí)機(jī),將最合適的圖書,提供給最需要的讀者”的目標(biāo)。采用目前流行的數(shù)據(jù)挖掘技術(shù),可以很好地對(duì)圖書館讀者實(shí)際借閱情況進(jìn)行分析,從而得出能夠正確指導(dǎo)圖書采購(gòu)策略制定的信息,以保證圖書館能夠更好地為讀者服務(wù)。

    1 數(shù)據(jù)挖掘簡(jiǎn)介

    數(shù)據(jù)挖掘是一門涉及人工智能、數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、可視化、并行計(jì)算等多領(lǐng)域的交叉性新興學(xué)科。數(shù)據(jù)挖掘就是將隱藏在大量數(shù)據(jù)信息中的那些對(duì)用戶有用的信息提取出來(lái)的過(guò)程,這些信息通常會(huì)以:規(guī)則、概念、規(guī)律以及模式等形式展現(xiàn)出來(lái),而提取的過(guò)程往往要采用一些特殊手段的非平凡過(guò)程,即數(shù)據(jù)挖掘技術(shù)。提取出來(lái)的信息可以幫助決策者分析歷史的和當(dāng)前的數(shù)據(jù),發(fā)現(xiàn)隱藏在其中的聯(lián)系和規(guī)律,從而對(duì)未來(lái)可能發(fā)生的情況進(jìn)行合理地判斷和預(yù)測(cè)[1]。

    2 基于數(shù)據(jù)挖掘的圖書采購(gòu)策略

    描述式數(shù)據(jù)挖掘和預(yù)測(cè)式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的兩種形式。描述式數(shù)據(jù)挖掘又稱概念描述,是數(shù)據(jù)挖掘的最基本形式,以簡(jiǎn)明扼要的形式來(lái)描述給定的數(shù)據(jù)集,體現(xiàn)了數(shù)據(jù)的特征。我們使用特征化描述方式的數(shù)據(jù)挖掘方法,根據(jù)讀者借書的歷史記錄,發(fā)現(xiàn)并描述讀者的真正需求。實(shí)現(xiàn)特征化描述主要有準(zhǔn)備數(shù)據(jù)、相關(guān)分析、歸納特征屬性、表示和使用挖掘結(jié)果幾個(gè)基本階段[2]。

    圖1 流程圖

    2.1 準(zhǔn)備數(shù)據(jù)

    獲得有關(guān)數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行初步處理和準(zhǔn)備。具體步驟如下:

    (1)獲取主要字段:讀者類型、專業(yè)、書名、主題、編著者、出版社、出版時(shí)間、價(jià)格、索書號(hào)、條碼等。

    (2)整合數(shù)據(jù)歸納成庫(kù),保證相同字段的數(shù)據(jù)在類型格式上一致。

    (3)拆分“主題”字段,限制1本書最多包含3個(gè)主題詞,即3個(gè)主題字段,其他忽略。

    (4)拆分合并后的數(shù)據(jù)庫(kù),按學(xué)科不同分成各學(xué)科的子庫(kù)(這在數(shù)據(jù)挖掘過(guò)程中稱為數(shù)據(jù)分組),對(duì)各個(gè)子庫(kù)分別進(jìn)行處理。

    2.2 相關(guān)分析

    對(duì)待挖掘數(shù)據(jù)庫(kù)中的字段進(jìn)行分析,剔除掉那些相關(guān)性不足的字段。具體步驟如下:

    (1)選用恰當(dāng)?shù)姆椒▽?duì)屬性字段進(jìn)行分析;

    (2)將待挖掘數(shù)據(jù)庫(kù)中的相關(guān)性不足字段剔除掉;

    (3)整理保留的字段,主要有:讀者類型、主題1、主題2、主題3、編著者、出版社。

    2.3 歸納特征屬性

    根據(jù)實(shí)際情況,只進(jìn)行單因素分析,即只計(jì)算比較單一屬性值域讀者需求的關(guān)聯(lián)程度。

    2.4 表示和使用結(jié)果

    使用條形圖、曲線圖以及餅分圖等圖表形式將分析結(jié)果表現(xiàn)出來(lái)。用圖書借閱次數(shù)來(lái)表示圖書的人氣系數(shù),人氣系數(shù)越高表明該類型的圖書越受讀者歡迎,計(jì)算公式為:

    式中P為任一主題總的人氣系數(shù),m為主題在挖掘數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),rj為主題的權(quán)系數(shù),rj∈{3,2,1},Ki為借閱頻率系數(shù)[3]。

    3 數(shù)據(jù)挖掘在圖書采購(gòu)中的應(yīng)用

    這里筆者以所在學(xué)院的圖書館為研究對(duì)象進(jìn)行研究。

    3.1 統(tǒng)計(jì)數(shù)據(jù)

    為了能夠較真實(shí)地反應(yīng)學(xué)院師生對(duì)圖書借閱的情況,筆者設(shè)計(jì)了一份調(diào)查問(wèn)卷,對(duì)學(xué)院電氣系和汽車系的圖書借閱者進(jìn)行訪問(wèn)。該調(diào)查問(wèn)卷包括單選題和多選題,內(nèi)容涵蓋了職業(yè)、系別、圖書種類等(見(jiàn)表1)。

    表1 借閱者借閱圖書類別調(diào)查問(wèn)卷

    3.2 定義變量

    對(duì)數(shù)據(jù)的定義筆者采用多項(xiàng)選擇的二分法(Multiple dichotomy method),即將所有因素都設(shè)成一個(gè)變量,每個(gè)變量只有“1”和“0”兩個(gè)水平值,代表“是”和“否”。例如用1來(lái)代表教師,0代表學(xué)生;專業(yè)方面用1表示電氣系,0表示汽車系;圖書類別中用1表示“經(jīng)常借閱”,0表示“不經(jīng)常借閱”。

    3.3 分析數(shù)據(jù)

    在這里選用SPSS統(tǒng)計(jì)分析軟件對(duì)數(shù)據(jù)進(jìn)行分析。

    3.3.1 多重反應(yīng)頻數(shù)分析(見(jiàn)表2和表3)

    3.3.2 多重反應(yīng)列聯(lián)表分析(見(jiàn)表4~7)

    根據(jù)這些分析結(jié)果,圖書采購(gòu)人員就能夠很好地制定出恰當(dāng)適用的圖書采購(gòu)計(jì)劃[4]。

    4 結(jié)束語(yǔ)

    以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對(duì)實(shí)際圖書館中讀者的借閱情況進(jìn)行問(wèn)卷調(diào)查,再利用SPSS軟件對(duì)所調(diào)查問(wèn)卷進(jìn)行系統(tǒng)分析,雖然問(wèn)卷數(shù)目較少,但對(duì)圖書館分析讀者借閱需求指導(dǎo)圖書采購(gòu)提高服務(wù)能力有一定的幫助。

    參考文獻(xiàn)

    [1] JiaweiHan, MichelineKamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.

    篇7

        數(shù)據(jù)挖掘(Data Mining),從名字來(lái)看就是從大量復(fù)雜的數(shù)據(jù)信息中挖掘出有利用價(jià)值的信息。通常,這些大量的復(fù)雜的數(shù)據(jù)信息都被認(rèn)為是隨機(jī)的、模糊的、不完全的、有噪音的,完全沒(méi)有進(jìn)行處理的信息。然而經(jīng)過(guò)挖掘之后,這些原本看似沒(méi)有任何利用價(jià)值的信息,就會(huì)呈現(xiàn)出一種新穎、有效、潛在有用的狀態(tài),最終為人們的生活與生產(chǎn)提供便利。這種信息數(shù)據(jù)的處理變化過(guò)程,就常常被稱作是數(shù)據(jù)挖掘。它也可以理解成是在一些觀察數(shù)據(jù)或事實(shí)的集合中找正確模式的決策支持過(guò)程。數(shù)據(jù)挖掘是一門涉及面極其廣大的交叉學(xué)科,它可以簡(jiǎn)單的認(rèn)為是經(jīng)濟(jì)信息轉(zhuǎn)換的一個(gè)過(guò)程,同時(shí)它還包含了機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)等相關(guān)技術(shù)。

        數(shù)據(jù)挖掘的大體步驟是:數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的挖掘、結(jié)果的分析。在這樣一個(gè)完整的過(guò)程中,處于核心地位的就是數(shù)據(jù)的挖掘。而它的功能主要包括數(shù)據(jù)的聚類、模型的預(yù)測(cè)、分析等。除此之外,在挖掘信息數(shù)據(jù)的過(guò)程中,通常還會(huì)牽涉到其它方面的技術(shù),比如鏈接分析、聚集檢測(cè)、關(guān)聯(lián)規(guī)則等。

        數(shù)據(jù)挖掘主要功能有:預(yù)測(cè)模型、分類、數(shù)據(jù)聚類、數(shù)據(jù)總結(jié)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、序列模式發(fā)現(xiàn)等。根據(jù)數(shù)據(jù)挖掘技術(shù)的作用和特點(diǎn)來(lái)看,它具備的優(yōu)點(diǎn)是:它具有自動(dòng)找出有價(jià)值的數(shù)據(jù)信息的功能;它能夠處理大量的數(shù)據(jù)信息;它反映數(shù)據(jù)信息快速有效;它能夠有效的對(duì)數(shù)據(jù)信息進(jìn)行分析與評(píng)判,描繪過(guò)去和未來(lái)。

        2、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的體現(xiàn)

        對(duì)于經(jīng)濟(jì)統(tǒng)計(jì)問(wèn)題,對(duì)于我們所要探究的問(wèn)題一定要定義,并且確定此次數(shù)據(jù)挖掘的目的。1.數(shù)據(jù)準(zhǔn)備。就是對(duì)我們即將要面對(duì)的經(jīng)濟(jì)問(wèn)題中所涉及到的數(shù)據(jù)進(jìn)行相應(yīng)的采集,做好預(yù)處理這些工作,最終使數(shù)據(jù)得到簡(jiǎn)化,使后續(xù)工作能順利進(jìn)行。2.數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)的類型選擇相適應(yīng)的算法,利用統(tǒng)計(jì)、人工智能等方法,去挖掘有利用價(jià)值的信息3.結(jié)果分析。對(duì)第二步得到的結(jié)果進(jìn)行充分的分析和評(píng)估,同時(shí)也是通過(guò)這一步驟反過(guò)來(lái)去調(diào)整上面,來(lái)得到更好的方法,從而讓結(jié)果更加真實(shí)。4.知識(shí)的運(yùn)用。將得到的最符合實(shí)際的結(jié)果應(yīng)用到現(xiàn)實(shí)的經(jīng)濟(jì)問(wèn)題中去,使得經(jīng)濟(jì)能更好的運(yùn)行和發(fā)展。

        3、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的可行性研究

        3.1 能為經(jīng)濟(jì)統(tǒng)計(jì)提供有效的服務(wù)

        數(shù)據(jù)挖掘技術(shù)雖然經(jīng)歷的時(shí)間不是很長(zhǎng),然而,它的研究與應(yīng)用水平已達(dá)到了一種相對(duì)穩(wěn)定的狀態(tài)。隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)在各國(guó)也普遍受到關(guān)注,特別是在經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域。數(shù)據(jù)挖掘技術(shù)能夠這樣的的迅速發(fā)展,在很大程度上也是依賴于它對(duì)經(jīng)濟(jì)統(tǒng)計(jì)的有效服務(wù)。

        3.2 能夠?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)的不同需要提供不同的需求

        目前,最常見(jiàn)的數(shù)據(jù)挖掘工具主要有綜合工具、通用型工具、和面向特定應(yīng)用的工具。綜合工具,不僅能夠?yàn)樘幱谏虡I(yè)中的經(jīng)濟(jì)體拿出有效的管理報(bào)告,并且還能夠?qū)ζ胀ń?jīng)濟(jì)結(jié)構(gòu)中的數(shù)據(jù)信息經(jīng)行深入挖掘。通用型工,在市場(chǎng)上占最大比例,在應(yīng)用方面最為成熟的挖掘工具。面向特定應(yīng)用工具,從字面來(lái)理解,這種工具就是針對(duì)特定領(lǐng)域來(lái)提供服務(wù)的,具有很強(qiáng)的特別性。

        3.3 建立宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù),為數(shù)據(jù)挖掘的應(yīng)用提供了良好的電子平臺(tái)

        在目前的情況下,全國(guó)范圍內(nèi)的大部分經(jīng)濟(jì)統(tǒng)計(jì)部門主要使用的還是應(yīng)用統(tǒng)計(jì)系統(tǒng)。大部分經(jīng)濟(jì)統(tǒng)計(jì)的數(shù)據(jù)信息都處于一種不相聚分散的狀態(tài),并沒(méi)有形成一套有效的管理系統(tǒng)。經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中一旦出現(xiàn)問(wèn)題,嚴(yán)重的就會(huì)導(dǎo)致經(jīng)濟(jì)數(shù)據(jù)的有效性與準(zhǔn)確性受到影響。然而,當(dāng)建立了宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù)以后,以上問(wèn)題就可以尋找到有效的解決辦法。當(dāng)宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘技術(shù)一起合理運(yùn)用,就能保證挖掘到的信息準(zhǔn)確、真實(shí)。這樣的情況下,在經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)就能為其提供更好的服務(wù),不僅滿足了現(xiàn)實(shí)中經(jīng)濟(jì)發(fā)展的需要,同時(shí)也為經(jīng)濟(jì)決策的制定提供了準(zhǔn)確、重要的依據(jù)。

        4、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用

        正是由于對(duì)數(shù)據(jù)的大量收集、數(shù)據(jù)算法的產(chǎn)生、經(jīng)濟(jì)數(shù)據(jù)庫(kù)的出現(xiàn)、先進(jìn)的計(jì)算機(jī)技術(shù)、對(duì)數(shù)據(jù)進(jìn)行精深統(tǒng)計(jì)方法計(jì)算的能力、數(shù)據(jù)訪問(wèn)速度的提升等一系列東西的出現(xiàn),使得數(shù)據(jù)挖掘技術(shù)的作用越來(lái)越廣泛。由于經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)的實(shí)用性和準(zhǔn)確性的需要,數(shù)據(jù)挖掘技術(shù)也開(kāi)始慢慢在經(jīng)濟(jì)統(tǒng)計(jì)中大展身手。數(shù)據(jù)挖掘技術(shù)的主要方法有:

        4.1 統(tǒng)計(jì)分析法

        經(jīng)濟(jì)數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系,相關(guān)關(guān)系和函數(shù)關(guān)系。就是對(duì)于數(shù)據(jù)庫(kù)中的信息利用統(tǒng)計(jì)學(xué)原理來(lái)進(jìn)行分析。

        4.2 決策樹(shù)

        決策樹(shù)一般用于預(yù)測(cè)模型,通過(guò)對(duì)大量復(fù)雜無(wú)順序的數(shù)據(jù)有目的分類,找到有價(jià)值的信息。同時(shí),正是因?yàn)槊枋龊?jiǎn)單,分類速度快,特別適合運(yùn)用于經(jīng)濟(jì)運(yùn)行過(guò)程中出現(xiàn)的大規(guī)模數(shù)據(jù)的處理。

        4.3 遺傳算法

        它是一種根據(jù)生物遺傳機(jī)理和自然選擇的隨機(jī)搜索算法,其主要思路是依據(jù)特定的社會(huì)問(wèn)題,然后在指定對(duì)象中去采集相關(guān)信息,最后通過(guò)對(duì)信息中隱含部分的歸整、分析,進(jìn)而得到結(jié)果。經(jīng)濟(jì)問(wèn)題不是固定不變的,相反它是一個(gè)不斷發(fā)展變化的問(wèn)題,內(nèi)部的聯(lián)系千絲萬(wàn)縷,改變其中一項(xiàng)其他的也會(huì)相應(yīng)改變。按照遺傳算法的步驟,從源頭開(kāi)始,我們就一步步向下探索,去提取信息數(shù)據(jù),對(duì)整體進(jìn)行分析,這樣就能把經(jīng)濟(jì)問(wèn)題目標(biāo)化、具體化、直接化,使得在研究問(wèn)題時(shí)可以更加直觀,把隱性的表現(xiàn)出來(lái),使得經(jīng)濟(jì)統(tǒng)計(jì)工作更加直白、簡(jiǎn)單。

        4.4 粗集理論法

        這是一種探究不確定知識(shí)、不精確的數(shù)學(xué)工具,它通過(guò)上下集比較而出來(lái)結(jié)果。它易于操作,算法簡(jiǎn)單;簡(jiǎn)化輸入信息的表達(dá)空間;不需要給出額外信息。特別適合那些不確定的經(jīng)濟(jì)因素,同時(shí)正是通過(guò)這種原則,才能使得制定的經(jīng)濟(jì)決策與需求更加接近,為獲得最大利益化給予了強(qiáng)有力支持。

        4.5 神經(jīng)網(wǎng)絡(luò)法

    篇8

    中圖分類號(hào):TP311.13

    計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)于龐大的數(shù)據(jù)有著整理分析的作用,這不僅僅對(duì)于企業(yè)的工作產(chǎn)生了巨大的作用,還對(duì)學(xué)校生活也提供重要的幫助。我們?cè)诮酉聛?lái)就要探究西夏計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在學(xué)校、企業(yè)、軍事方面等不同領(lǐng)域的應(yīng)用情況。

    1 在學(xué)校的實(shí)際應(yīng)用情況

    1.1 根據(jù)已有的數(shù)據(jù)進(jìn)行預(yù)測(cè)。在學(xué)校里,我們學(xué)校通常都會(huì)對(duì)學(xué)生進(jìn)行月考,這樣使得學(xué)校會(huì)存有學(xué)生每月考試的成績(jī),在最后的期末考試前,學(xué)??梢岳糜?jì)算機(jī)數(shù)據(jù)挖掘技術(shù)根據(jù)學(xué)生每月的月考成績(jī),預(yù)測(cè)出學(xué)生期末大概的考核成績(jī)。這樣,教師可以在期末考試前根據(jù)預(yù)測(cè)出來(lái)的成績(jī)提醒學(xué)生著重復(fù)習(xí)哪一科目。這樣不僅僅可以使得學(xué)生在期末更具有針對(duì)性的復(fù)習(xí),還能使學(xué)校更好的掌握學(xué)生的學(xué)習(xí)情況,更好的對(duì)學(xué)生“因材施教”。

    1.2 對(duì)學(xué)校食堂餐飲有著重要作用。學(xué)校由于人口眾多,尤其是各個(gè)高校。學(xué)校的食堂也擁有著許多的流動(dòng)人口,學(xué)校要想管好食堂的餐飲,就必須利用新興的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)。計(jì)算機(jī)挖掘技術(shù)由于對(duì)數(shù)據(jù)有著整理分析能力,所以,學(xué)校的食堂可以利用計(jì)算機(jī)技術(shù)整理食堂倉(cāng)庫(kù)的數(shù)據(jù),這樣使得工作人員很便捷的可以了解食堂的所需物品的數(shù)量,可以直接應(yīng)用數(shù)據(jù)挖掘技術(shù)便可隨時(shí)隨地了解食堂所需物品的剩余量,從而及時(shí)的補(bǔ)給短缺的食材。學(xué)校食堂還可以利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)充分的配置不同的菜式菜樣,保障營(yíng)養(yǎng)均衡,同時(shí),還可以對(duì)學(xué)生家鄉(xiāng)進(jìn)行統(tǒng)計(jì),這樣可以提供不同地區(qū)特色的飲食,在最大的限度下滿足不同地區(qū)學(xué)生的飲食習(xí)慣。讓學(xué)生在學(xué)校里也能品嘗到家鄉(xiāng)的味道,從而提高學(xué)生的親切感。從而,讓不同區(qū)域的學(xué)生可以在學(xué)校里安心讀書,努力認(rèn)真的學(xué)習(xí)。

    1.3 對(duì)學(xué)生學(xué)習(xí)生活有很大的幫助。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)也可以對(duì)大量的數(shù)據(jù)進(jìn)行整合,學(xué)校教師可以充分利用這一特點(diǎn),將學(xué)生的學(xué)習(xí)資料通過(guò)篩選整合后到校園網(wǎng)上,這樣不僅僅使得學(xué)生查找資料時(shí)方便快捷,不必做過(guò)多的“無(wú)用功”,還使得學(xué)校的教育方式得到更新,與新信息技術(shù)接軌,提高了教學(xué)質(zhì)量。在大學(xué)校園內(nèi),學(xué)校還可以利用數(shù)據(jù)挖掘技術(shù)的調(diào)節(jié)功能來(lái)調(diào)節(jié)學(xué)生選課情況,任何專業(yè)和自選課程都具有熱門和冷門之分,這時(shí)候,學(xué)校可以利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生報(bào)考的專業(yè)和課程進(jìn)行調(diào)劑,這樣,可以將學(xué)生平均分配。也可以調(diào)節(jié)冷門、熱門專業(yè)課程的人數(shù),從而做大限度讓所有學(xué)生滿意。學(xué)校還可以將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到我們的圖書館建設(shè)中。這樣,使得圖書館在借閱管理方面就更加的便捷了。

    1.4 在高校管理方面的應(yīng)用。高校由于專業(yè)的繁多,以至于在院系下還細(xì)分出不同的專業(yè),現(xiàn)在隨著藝術(shù)類的出現(xiàn)、新型技術(shù)的出現(xiàn),也使得高校又多了專業(yè)的劃分。這對(duì)于高校的管理者來(lái)說(shuō),是一個(gè)巨大的挑戰(zhàn)。所以,為了便于學(xué)校的管理,很多學(xué)校都利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)進(jìn)行管理,從而使得高校管理者在管理學(xué)校的時(shí)候提高了工作效率,也節(jié)省了很多的人力物力。所以,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校的管理中,是一項(xiàng)正確多的決定。

    2 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在企業(yè)的應(yīng)用

    2.1 在金融企業(yè)的應(yīng)用及重要作用。金融企業(yè)是具有一定風(fēng)險(xiǎn)的企業(yè),其重要的就是要對(duì)投資的風(fēng)險(xiǎn)做出評(píng)估,這樣,才能在我們金融企業(yè)進(jìn)行投資時(shí)把風(fēng)險(xiǎn)降到最低。這時(shí),金融企業(yè)就利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)我們的投資項(xiàng)目進(jìn)行評(píng)估預(yù)測(cè)。如:在企業(yè)收購(gòu)股票時(shí),就要根據(jù)這只股票歷史走向的數(shù)據(jù)做,從而做出評(píng)估,在做出較為精準(zhǔn)的判斷和選擇。在金融業(yè)涉及到借貸款的問(wèn)題時(shí),企業(yè)要根據(jù)貸款對(duì)象日常的誠(chéng)信做出調(diào)查,然后再進(jìn)行數(shù)據(jù)的挖掘統(tǒng)計(jì),從而判斷出貸款對(duì)象是屬于低風(fēng)險(xiǎn)還是高風(fēng)險(xiǎn)。由此可見(jiàn),計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)金融企業(yè)的投資、貸款有著重要的作用。

    2.2 電子商務(wù)企業(yè)的應(yīng)用。電子商務(wù)企業(yè)最注重的便是網(wǎng)站的瀏覽量和點(diǎn)擊率及與客戶的成交單子的數(shù)量。企業(yè)如何提高網(wǎng)站的瀏覽量和點(diǎn)擊率和用戶的交易數(shù)量就成了問(wèn)題的核心。電子商務(wù)企業(yè)可以根據(jù)用戶在瀏覽網(wǎng)頁(yè)時(shí)的收藏物品的情況、購(gòu)物車的情況、成交記錄的情況進(jìn)行物品的推薦。這就需要應(yīng)用技術(shù)數(shù)據(jù)挖掘技術(shù)對(duì)用戶的一系列情況做出數(shù)據(jù)的整合。通過(guò)數(shù)據(jù)的分析推薦的商品,及時(shí)客戶最終沒(méi)有購(gòu)買,也會(huì)增加該物品的瀏覽量,這也使得我們電子商務(wù)的瀏覽量得到提升,從而增加企業(yè)在該行業(yè)的競(jìng)爭(zhēng)力。

    2.3 企業(yè)競(jìng)爭(zhēng)的應(yīng)用。社會(huì)經(jīng)濟(jì)在不斷的發(fā)展進(jìn)步,隨著而來(lái)的相同企業(yè)的數(shù)量也在不斷的增加,如何在眾多相同的企業(yè)里脫穎而出是所有企業(yè)思考的問(wèn)題。一個(gè)企業(yè)除了要具有自己的特色之外,還要充分了解對(duì)手的情況,這時(shí),就需要我們的企業(yè)利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)競(jìng)爭(zhēng)企業(yè)進(jìn)行系統(tǒng)的分析調(diào)差,這樣,才能做到充分了解對(duì)手。吸取競(jìng)爭(zhēng)對(duì)手的長(zhǎng)處,在看到企業(yè)的短處時(shí),也要使自己的企業(yè)避免相似的問(wèn)題出現(xiàn)。所以,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在企業(yè)相互競(jìng)爭(zhēng)時(shí)起著不可忽視的重大作用。

    2.4 在煤礦性質(zhì)企業(yè)的應(yīng)用。煤礦企業(yè)一般來(lái)說(shuō)是要科學(xué)合理的對(duì)地下資源進(jìn)行挖掘,但由于種種原因,使得人們不能僅僅憑靠自己的力量就做出相應(yīng)的判斷。這時(shí),就需要利用我們的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)地下煤礦進(jìn)行數(shù)據(jù)的勘測(cè),然后整合,我們可以依靠這個(gè)數(shù)據(jù)進(jìn)行正確的判斷。從而做到科學(xué)、合理的利用自然資源。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)還能對(duì)煤礦企業(yè)的后期發(fā)展情況做出合理的預(yù)測(cè)。這除了需要運(yùn)用到新型的媒體技術(shù),還需要在煤礦企業(yè)經(jīng)營(yíng)的過(guò)程中正確的記錄數(shù)據(jù),保存數(shù)據(jù)。才能對(duì)企業(yè)的后期經(jīng)營(yíng)情況做出更好的判斷。

    3 在軍事上的應(yīng)用

    隨著社會(huì)逐漸的信息化,科技的不斷進(jìn)步,軍事涉及的不單單只是以往的關(guān)注點(diǎn),更是要注重利用新興媒體技術(shù)對(duì)于數(shù)據(jù)進(jìn)行收集、分析、整理。這樣,不僅僅可以充分的掌握自己國(guó)家的軍事實(shí)力,還能有效的監(jiān)管外國(guó)敵對(duì)勢(shì)力的部分情況。在科學(xué)技術(shù)的不斷發(fā)展,使得人們對(duì)于傳統(tǒng)的軍事理解又上升到一個(gè)新的層面。這有利用數(shù)據(jù)精確的分析出敵對(duì)的勢(shì)力在做些什么,才能更好的做出準(zhǔn)備。只有利用高科技對(duì)于敵對(duì)勢(shì)力的經(jīng)濟(jì)、政治、軍事有了一個(gè)總體的把握,才能在戰(zhàn)爭(zhēng)真正開(kāi)始的時(shí)候掌握主動(dòng)權(quán),更有可能取得戰(zhàn)爭(zhēng)的勝利。所以,任何一個(gè)國(guó)家,在軍事當(dāng)面,把計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)看的十分重要。這不僅僅需要高能力的計(jì)算機(jī)人才,更是需要具備國(guó)家榮譽(yù)感的人士。只有這樣,才能清楚的把握住敵人的情況,在戰(zhàn)爭(zhēng)中做出正確的作戰(zhàn)方式。由此可見(jiàn),在軍事方面,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的作用是最不容忽視的。

    4 結(jié)束語(yǔ)

    社會(huì)的科技在不斷的發(fā)展進(jìn)步,而計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在我們的社會(huì)生活中的不同領(lǐng)域都發(fā)揮著其最大的作用。由此可見(jiàn),我們的國(guó)家應(yīng)當(dāng)重視計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),讓其能在各行各業(yè)中發(fā)揮最大的作用,從而更好的為人民服務(wù)。企業(yè)要多利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)進(jìn)行利益的最大化。學(xué)校要使得計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)發(fā)揮最大作用,給學(xué)生的生活、學(xué)校的管理帶來(lái)便利。在軍事方面,國(guó)家應(yīng)當(dāng)引起強(qiáng)烈的重視,培養(yǎng)出更好的人才來(lái)為國(guó)家效力,保衛(wèi)國(guó)家的安全。

    參考文獻(xiàn):

    [1]盧明波,付亞平,德力.關(guān)于煤炭企業(yè)CRM與ERP系統(tǒng)整合應(yīng)用的思考[J].煤炭技術(shù),2009(12).

    篇9

    0引言

    互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展很大程度改變了人類的生活習(xí)慣,與之有關(guān)的網(wǎng)絡(luò)和互聯(lián)網(wǎng)信息也日益豐富和復(fù)雜。一般而言,WEB發(fā)揮著在大數(shù)據(jù)庫(kù)中提煉有用信息的功能,而WEB挖掘技術(shù)則發(fā)揮著從挖掘出的信息之間發(fā)現(xiàn)其相關(guān)性和怎樣將其應(yīng)用于具體問(wèn)題解決之中的功能。目前,大量數(shù)據(jù)很難在一臺(tái)計(jì)算機(jī)上進(jìn)行處理分析,為了滿足技術(shù)進(jìn)步和社會(huì)發(fā)展的需求,云計(jì)算隨之出現(xiàn)并快速發(fā)展,其憑借較強(qiáng)的信息存儲(chǔ)能力、安全性能以及數(shù)據(jù)處理分析能力等,受到各行各業(yè)的廣泛關(guān)注。

    1云計(jì)算的應(yīng)用現(xiàn)狀和技術(shù)分析

    1.1應(yīng)用現(xiàn)狀

    WEB的發(fā)展經(jīng)過(guò)了一個(gè)漫長(zhǎng)的過(guò)程,隨著信息技術(shù)的發(fā)展和電子商務(wù)的興起,人們對(duì)互聯(lián)網(wǎng)的應(yīng)用日益頻繁和依賴性日益加強(qiáng),掀起了一股WEB2.0的發(fā)展熱潮。對(duì)于互聯(lián)網(wǎng)企業(yè)而言,信息需求分析能力已成為衡量企業(yè)競(jìng)爭(zhēng)水平的重要指標(biāo),特別是根據(jù)用戶需求建設(shè)的這類網(wǎng)站,比如視頻網(wǎng)站就需通過(guò)數(shù)據(jù)分析來(lái)進(jìn)行網(wǎng)站功能設(shè)計(jì)??傊朴?jì)算的產(chǎn)生和應(yīng)用有效解決了網(wǎng)絡(luò)技術(shù)的一些發(fā)展難題。在國(guó)內(nèi)網(wǎng)民數(shù)量巨大且持續(xù)增長(zhǎng)的背景下,越來(lái)越多的大型企業(yè)通過(guò)云計(jì)算來(lái)進(jìn)行數(shù)據(jù)加工處理和分析應(yīng)用。

    1.2技術(shù)特征

    通常來(lái)講,云計(jì)算主要針對(duì)數(shù)據(jù)管理,主要對(duì)象是數(shù)據(jù)信息,其和信息技術(shù)有顯著差異,具體有以下幾點(diǎn):(1)廣泛性。存儲(chǔ)技術(shù)是云計(jì)算的關(guān)鍵技術(shù)之一,采取分布式存儲(chǔ)模式來(lái)提升存儲(chǔ)容量和存儲(chǔ)安全性,且性價(jià)比較高,實(shí)用性較強(qiáng);(2)數(shù)據(jù)管理能力較強(qiáng)。云計(jì)算可實(shí)時(shí)監(jiān)控大數(shù)據(jù),可隨時(shí)隨地進(jìn)行數(shù)據(jù)處理分析,同時(shí)可有目的地篩選出有用數(shù)據(jù)信息,技術(shù)先進(jìn),效率較高;(3)編程技術(shù)的先進(jìn)性。技術(shù)元素是衡量云計(jì)算能否滿足客戶需求的重要指標(biāo),是維持云計(jì)算系統(tǒng)正常運(yùn)轉(zhuǎn)的核心元素,由此可見(jiàn),編程技術(shù)所發(fā)揮的作用無(wú)可取代。當(dāng)前,Map-Reduce編程技術(shù)應(yīng)用最為廣泛,初期以樹(shù)狀結(jié)構(gòu)呈現(xiàn),分支之后還需其他編程技術(shù)來(lái)維護(hù);(4)虛擬技術(shù)的應(yīng)用。虛擬技術(shù)在云計(jì)算中的應(yīng)用較多,這是由于虛擬技術(shù)能有效配置網(wǎng)絡(luò)資源,脫離各分支系統(tǒng)獨(dú)立存在,在將各分支系統(tǒng)獨(dú)立化的同時(shí),還將數(shù)據(jù)信息也分割成大量的獨(dú)立部分。這種模式使得云計(jì)算系統(tǒng)的彈性較大,能靈活運(yùn)用動(dòng)態(tài)的虛擬資源,有效降低成本費(fèi)用,提高網(wǎng)絡(luò)資源管理的安全性。

    2WEB數(shù)據(jù)挖掘技術(shù)的發(fā)展

    2.1WEB數(shù)據(jù)挖掘技術(shù)的定義

    WEB數(shù)據(jù)挖掘技術(shù)是結(jié)合WEB、信息技術(shù)、網(wǎng)絡(luò)技術(shù)等對(duì)挖掘信息進(jìn)行全面分析處理,WEB和數(shù)據(jù)挖掘的有效融合反映了較強(qiáng)的綜合性,主要可分為基于內(nèi)容、架構(gòu)、應(yīng)用等幾種WEB數(shù)據(jù)挖掘技術(shù)。就內(nèi)容方面而言,是在WEB環(huán)境下,通過(guò)人工模式從相關(guān)文件夾中提煉有用信息;就架構(gòu)方面而言,是采取人工方式挖掘不同的數(shù)據(jù)結(jié)構(gòu),再采取有關(guān)手段來(lái)提煉有用信息;就應(yīng)用方面而言,是將挖掘主體存儲(chǔ)在日志文件之中,再據(jù)此來(lái)挖掘出站點(diǎn)的用戶信息。因此,所謂的數(shù)據(jù)挖掘,即采取有關(guān)技術(shù)來(lái)提煉WEB文檔中的有用信息,并據(jù)此來(lái)分析預(yù)測(cè)其未來(lái)發(fā)展趨勢(shì)??偠灾?,WEB挖掘技術(shù)并非是一項(xiàng)簡(jiǎn)單的技術(shù),而是多種技術(shù)的有效融合和廣泛應(yīng)用。

    2.2WEB數(shù)據(jù)挖掘技術(shù)的種類

    通常來(lái)講,關(guān)于WEB數(shù)據(jù)挖掘技術(shù)的種類有多種分類依據(jù),一般是根據(jù)其對(duì)象類別劃分為基于內(nèi)容、架構(gòu)、應(yīng)用的三種WEB數(shù)據(jù)挖掘技術(shù)。就內(nèi)容角度而言,其主要對(duì)象是WEB文檔中數(shù)據(jù)信息,比如提煉出的圖像、音頻、視頻等具體信息,且還可細(xì)分為純文本數(shù)據(jù)挖掘和多媒體數(shù)據(jù)挖掘兩種;就結(jié)構(gòu)角度而言,其主要對(duì)象是數(shù)據(jù)架構(gòu),發(fā)揮著區(qū)分?jǐn)?shù)據(jù)架構(gòu)是組織架構(gòu)還是頁(yè)面架構(gòu)的功能,并且還要對(duì)數(shù)據(jù)鏈進(jìn)行詳細(xì)分類,對(duì)WEB數(shù)據(jù)挖掘技術(shù)的效率和準(zhǔn)確性的提升有顯著作用;就應(yīng)用角度而言,通過(guò)對(duì)WEB文檔中的數(shù)據(jù)信息進(jìn)行具體分析處理,來(lái)對(duì)用戶類型進(jìn)行詳細(xì)分類,進(jìn)而挖掘出更多的潛藏用戶。

    2.3WEB數(shù)據(jù)挖掘技術(shù)的流程

    通常情況下,WEB挖掘技術(shù)的流程會(huì)受到較多元素的作用,和傳統(tǒng)數(shù)據(jù)挖掘方式相比,其對(duì)象和手段有顯著變化,所以其流程也有所差異。如何將數(shù)據(jù)挖掘技術(shù)和WEB相結(jié)合是目前該技術(shù)發(fā)展的主要難題,這是因?yàn)閃EB數(shù)據(jù)挖掘技術(shù)并非是有關(guān)技術(shù)的簡(jiǎn)單應(yīng)用,而是一個(gè)有機(jī)整體,需要經(jīng)過(guò)檢索信息、選擇信息、分析信息等一系列流程。檢索信息是對(duì)WEB文檔中的數(shù)據(jù)信息或網(wǎng)站上的日志、新聞等內(nèi)容進(jìn)行查詢分析;選擇信息是對(duì)上一環(huán)節(jié)查詢到的信息進(jìn)行篩選辨別,去掉一些無(wú)用的數(shù)據(jù)信息,并對(duì)有用信息進(jìn)行初步分析;分析信息是對(duì)待處理的數(shù)據(jù)信息進(jìn)行深入的篩選辨別,提煉出有價(jià)值的數(shù)據(jù)信息。關(guān)于WEB數(shù)據(jù)挖掘的整個(gè)流程,不僅需要自動(dòng)化設(shè)備的輔助,還需要人工辨別的支持。

    3云計(jì)算在WEB數(shù)據(jù)挖掘技術(shù)中的應(yīng)用初探

    3.1以云計(jì)算為基礎(chǔ)的WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)

    WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)是由幾個(gè)節(jié)點(diǎn)相互關(guān)聯(lián)形成的,云計(jì)算發(fā)揮著使WEB數(shù)據(jù)挖掘系統(tǒng)架構(gòu)各節(jié)點(diǎn)相互作用的功能,從而促進(jìn)WEB數(shù)據(jù)挖掘系統(tǒng)的完善化,具體架構(gòu)圖如圖1所示。主控節(jié)點(diǎn)是用戶和其他節(jié)點(diǎn)關(guān)聯(lián)的中樞紐帶;算法節(jié)點(diǎn)則負(fù)責(zé)保證數(shù)據(jù)分析的相關(guān)算法支撐,類似于一個(gè)算法數(shù)據(jù)庫(kù);數(shù)據(jù)節(jié)點(diǎn)則是一個(gè)存儲(chǔ)數(shù)據(jù)的大數(shù)據(jù)庫(kù);服務(wù)節(jié)點(diǎn)則發(fā)揮著控制任務(wù)進(jìn)程和反饋分析結(jié)果的功能。(1)服務(wù)層。服務(wù)層是一個(gè)結(jié)合用戶需求通過(guò)WEB數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行數(shù)據(jù)分析,同時(shí)將結(jié)果反饋給用戶的過(guò)程;(2)控制層??刂茖邮峭ㄟ^(guò)主控節(jié)點(diǎn)來(lái)根據(jù)用戶具體需求分析,選出最恰當(dāng)?shù)乃惴ǔ绦颍WC算法程序和信息數(shù)據(jù)的契合度;(3)存儲(chǔ)層。存儲(chǔ)層主要發(fā)揮著存儲(chǔ)使用的算法程序、用戶需求和最終反饋結(jié)果的功能。存儲(chǔ)層有效降低了原始數(shù)據(jù)或算法丟失的可能性,即使是系統(tǒng)故障,后續(xù)也可在數(shù)據(jù)和算法存儲(chǔ)層找到相關(guān)的信息數(shù)據(jù)并且具有可恢復(fù)性;(4)業(yè)務(wù)處理層。業(yè)務(wù)處理層將數(shù)據(jù)庫(kù)中的原始信息通過(guò)主控節(jié)點(diǎn)來(lái)進(jìn)行初步分配,在數(shù)據(jù)進(jìn)行分析處理之后,再由服務(wù)節(jié)點(diǎn)將分析結(jié)果反饋到主控節(jié)點(diǎn)。

    3.2以云計(jì)算為基礎(chǔ)的WEB數(shù)據(jù)挖掘算法程序

    一般情況下,以云計(jì)算為基礎(chǔ)的WEB數(shù)據(jù)挖掘算法程序的基本步驟如下:(1)結(jié)合用戶需求來(lái)明確可信度,這種用戶需求通常是通過(guò)WEB網(wǎng)頁(yè)傳遞過(guò)來(lái)的;(2)WEB網(wǎng)頁(yè)客戶端向主控節(jié)點(diǎn)發(fā)出服務(wù)指令,數(shù)據(jù)節(jié)點(diǎn)會(huì)向主控節(jié)點(diǎn)傳遞原始數(shù)據(jù),同時(shí)將服務(wù)節(jié)點(diǎn)分析的結(jié)果反饋到主控節(jié)點(diǎn);(3)主控節(jié)點(diǎn)將信息數(shù)據(jù)傳遞給算法節(jié)點(diǎn),從算法程序數(shù)據(jù)庫(kù)中選出最優(yōu)的數(shù)據(jù)挖掘算法程序,再分配至各服務(wù)節(jié)點(diǎn);(4)各服務(wù)節(jié)點(diǎn)會(huì)有目的的篩選數(shù)據(jù),并對(duì)信息數(shù)據(jù)進(jìn)行整理分類,通過(guò)Apriori算法得到數(shù)據(jù)庫(kù)的頻集;(5)將分析結(jié)果反饋至主控節(jié)點(diǎn),獲取整體數(shù)據(jù)庫(kù)的頻集,再將其傳遞至各服務(wù)節(jié)點(diǎn),提高節(jié)點(diǎn)上的頻集準(zhǔn)確性。如此反復(fù),再將服務(wù)節(jié)點(diǎn)的分析結(jié)果反饋至主控節(jié)點(diǎn),從而提高整體頻集的準(zhǔn)確性;(6)主控節(jié)點(diǎn)將最終結(jié)果反饋給用戶。

    3.3算法結(jié)果分析

    算法程序結(jié)果的檢驗(yàn)有賴于實(shí)驗(yàn)數(shù)據(jù)的支持,據(jù)分析結(jié)果顯示,算法效率和信息量的關(guān)系成正相關(guān),并且傳遞時(shí)間有差異,算法程序的傳輸時(shí)間要少于數(shù)據(jù)傳輸時(shí)間。與一般算法相比,WEB數(shù)據(jù)挖掘算法有顯著不同,可通過(guò)改變其他算法來(lái)獲得新算法程序?;谠朴?jì)算的WEB數(shù)據(jù)挖掘算法是一個(gè)整體算法,各節(jié)點(diǎn)聯(lián)系較強(qiáng),有效避免了有效關(guān)聯(lián)規(guī)則遺漏的問(wèn)題。

    4結(jié)語(yǔ)

    總而言之,WEB數(shù)據(jù)挖掘技術(shù)是對(duì)通過(guò)WEB文檔或其他網(wǎng)絡(luò)手段提煉的信息進(jìn)一步加工處理、分析運(yùn)用的技術(shù),其可結(jié)合人們的生活習(xí)慣和模式來(lái)掌握人們的具體需要?;ヂ?lián)網(wǎng)的發(fā)展使得網(wǎng)絡(luò)信息量呈幾何式增長(zhǎng),對(duì)信息存儲(chǔ)容量和數(shù)據(jù)分析能力的需求也有所提高,怎樣突破技術(shù)限制來(lái)挖掘出有效的網(wǎng)絡(luò)信息是目前互聯(lián)網(wǎng)行業(yè)面臨的主要問(wèn)題。而云計(jì)算較強(qiáng)的信息存儲(chǔ)能力和數(shù)據(jù)計(jì)算能力,使得其受到互聯(lián)網(wǎng)行業(yè)的充分重視?;谠朴?jì)算的WEB數(shù)據(jù)挖掘技術(shù)可統(tǒng)一管理控制網(wǎng)絡(luò)資源,結(jié)合WEB數(shù)據(jù)挖掘系統(tǒng)來(lái)充分運(yùn)用云計(jì)算的信息存儲(chǔ)能力和數(shù)據(jù)計(jì)算能力,從而提升互聯(lián)網(wǎng)信息資源的利用率。

    參考文獻(xiàn)

    [1]孫雪凌.?dāng)?shù)據(jù)科學(xué)在高校學(xué)風(fēng)治理工作中的應(yīng)用探索[J].無(wú)線互聯(lián)科技,2016(17):129-132.

    [2]沈軍霞,葛坤.新時(shí)期ERP系統(tǒng)應(yīng)用與實(shí)踐探討[J].無(wú)線互聯(lián)科技,2016(17):23-26.

    [3]王光煒,薛玉倩.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)[J].內(nèi)蒙古科技與經(jīng)濟(jì),2016(19):65-69.

    [4]張玨,陳莉,田建學(xué).面向零售業(yè)的關(guān)聯(lián)規(guī)則挖掘的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(10):146-150.

    [5]邵傳飛.基于數(shù)據(jù)挖掘的兵棋推演數(shù)據(jù)分析方法研究[J].通訊世界,2016(21):245-247.

    [6]劉占敏,劉津伊,賈蓓.FP-Growth算法在學(xué)生成績(jī)分析中的應(yīng)用[J].信息與電腦(理論版),2016(13):85-87.

    [7]高瑜,仝衛(wèi)國(guó).基于關(guān)聯(lián)規(guī)則的一次風(fēng)機(jī)故障預(yù)警方法研究[J].電力科學(xué)與工程,2016(10):46-49.

    [8]王麗格.大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘和分析探究[J].科技展望,2016(30):201-203.

    [9]熊伯安.基于大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及分析[J].電子世界,2016(20):51-53.

    [10]謝邦昌,斯介生.大數(shù)據(jù)分析中軌跡數(shù)據(jù)挖掘的現(xiàn)狀與挑戰(zhàn)[J].中國(guó)統(tǒng)計(jì),2016(08):459-461.

    篇10

    中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)36-10410-02

    Data Mining Technology and Application in Medicine

    JIAO Rui, LI Xiang-sheng

    (Department of Computer Education, Shanxi Medical University, Taiyuan 030012, China)

    Abstract: Data Mining( Data Mining , DM ) is a highly technical applications. This paper describes the concept of data mining techniques, methods and processes introduced in the current data mining application of the field of medicine.

    Key words: data mining; medical; application

    計(jì)算機(jī)信息管理系統(tǒng)以及數(shù)據(jù)庫(kù)技術(shù)在醫(yī)療機(jī)構(gòu)的廣泛應(yīng)用,促進(jìn)了醫(yī)學(xué)信息的數(shù)字化,使得醫(yī)院數(shù)據(jù)庫(kù)的信息容量急劇增加。這些數(shù)據(jù)蘊(yùn)含了大量關(guān)于病人的病史、診斷、檢驗(yàn)和治療的臨床信息、藥品管理信息、醫(yī)院管理信息等。如何才能不被信息的大海所淹沒(méi),從中及時(shí)發(fā)現(xiàn)有用的知識(shí),更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學(xué)服務(wù),已越來(lái)越為人們所關(guān)注,正是在這種背景下,醫(yī)學(xué)數(shù)據(jù)挖掘應(yīng)運(yùn)而生[1]。

    1 數(shù)據(jù)挖掘技術(shù)

    數(shù)據(jù)挖掘DM是知識(shí)發(fā)現(xiàn)KDD的核心部分,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中、人們事先并不知道但又是潛在有用的信息和知識(shí)的過(guò)程,誕生于二十世紀(jì)90年代,它的發(fā)展速度很快,匯聚了數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等多個(gè)學(xué)科,是多技術(shù)的綜合。

    任務(wù):數(shù)據(jù)挖掘的任務(wù)常見(jiàn)有以下幾種。

    1)數(shù)據(jù)總結(jié):其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。它主要關(guān)心從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。

    2)關(guān)聯(lián)分析:其目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)系網(wǎng),常用的技術(shù)有回歸分析、關(guān)聯(lián)規(guī)則、信念網(wǎng)絡(luò)等。

    3)聚類分析:聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。它是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類別。

    4)分類與回歸:它是數(shù)據(jù)挖掘中非常重要的任務(wù),應(yīng)用最為廣泛。分類和回歸都可用于預(yù)測(cè),其目的是從已知的歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出對(duì)給定的數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

    5)偏差檢測(cè):數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差分析包括分類中的反常實(shí)例、例外模式、觀測(cè)結(jié)果對(duì)期望值的偏離以及量值隨時(shí)間的變化等。

    技術(shù):數(shù)據(jù)挖掘技術(shù)涉及到統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和模式識(shí)別等領(lǐng)域的知識(shí),根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘技術(shù)可以分為概念描述、聚類分析、關(guān)聯(lián)規(guī)則分析、分類分析、回歸分析、序列模式分析等。選擇用某種數(shù)據(jù)挖掘技術(shù)前,首先要將待解決的問(wèn)題轉(zhuǎn)化成數(shù)據(jù)挖掘任務(wù),然后根據(jù)任務(wù)來(lái)選擇具體使用哪一種或幾種數(shù)據(jù)挖掘技術(shù)[2]。

    過(guò)程:數(shù)據(jù)挖掘的過(guò)程一般由三個(gè)主要的階段構(gòu)成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋,對(duì)知識(shí)的發(fā)現(xiàn)可以描述為這三個(gè)階段的反復(fù)過(guò)程。

    1)數(shù)據(jù)準(zhǔn)備:這個(gè)階段又可進(jìn)一步分成三個(gè)子步驟:數(shù)據(jù)集成,數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件和多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行組合,解決語(yǔ)義模糊性,處理數(shù)據(jù)中的遺漏和清洗無(wú)效數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。

    2)數(shù)據(jù)挖掘:這個(gè)階段進(jìn)行實(shí)際性分析工作,包括的要點(diǎn)是:先決定如何產(chǎn)生假設(shè),再選擇合適的工具進(jìn)行發(fā)掘知識(shí)的操作,最后進(jìn)行證實(shí)。

    3)結(jié)果表述和解釋:根據(jù)用戶的需求對(duì)提取的信息進(jìn)行分析,挑選出有效信息,并且通過(guò)決策支持工具進(jìn)行移交。因此,這一步驟的任務(wù)不僅是把結(jié)果表述出來(lái),還要對(duì)信息進(jìn)行過(guò)濾處理,如果不能令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過(guò)程。

    2 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)中應(yīng)用的可行性和必要性

    由于醫(yī)療工作自身的特點(diǎn),如病情觀察的不可間斷、各種醫(yī)療檢查結(jié)果的紛繁復(fù)雜以及大量的醫(yī)學(xué)文獻(xiàn)專著等,要想使數(shù)據(jù)真正成為有用的資源,只有充分利用它為醫(yī)療工作的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。面對(duì)“被數(shù)據(jù)淹沒(méi),卻饑餓于信息”的挑戰(zhàn),需要引進(jìn)一門新的技術(shù)――數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),以解決好海量醫(yī)學(xué)信息的存儲(chǔ)開(kāi)發(fā)與利用。因此,在醫(yī)學(xué)中應(yīng)用數(shù)據(jù)挖掘技術(shù)不但是可行的而且是必要的。

    運(yùn)用數(shù)據(jù)挖掘技術(shù),支持醫(yī)院各種層次的科學(xué)決策服務(wù),現(xiàn)在已具備了充分的條件。一方面,我國(guó)的醫(yī)院信息系統(tǒng)經(jīng)過(guò)多年的自動(dòng)化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲(chǔ)備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。另一方面數(shù)據(jù)挖掘在經(jīng)過(guò)多年的發(fā)展之后已經(jīng)形成相對(duì)成熟的技術(shù)體系,特別是在數(shù)據(jù)挖掘設(shè)計(jì)、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。

    3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)的應(yīng)用

    近年來(lái),數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,主要表現(xiàn)在以下幾方面。

    3.1 在醫(yī)院信息系統(tǒng)中的應(yīng)用

    目前,我國(guó)大中型醫(yī)院均建立了醫(yī)院信息系統(tǒng)(Hospital Information System,HIS),運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù),對(duì)醫(yī)院醫(yī)療活動(dòng)過(guò)程中產(chǎn)生的海量數(shù)據(jù)進(jìn)行深度加工可從中得到長(zhǎng)期的、系統(tǒng)的、綜合的數(shù)據(jù);同時(shí)還可以通過(guò)決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、聚類等技術(shù),對(duì)數(shù)據(jù)進(jìn)行深層次的挖掘和有效利用,得到豐富的輔助決策信息。這兩種技術(shù)的綜合應(yīng)用,能為醫(yī)院的科學(xué)管理提供支持和依據(jù),可以幫助醫(yī)院管理者預(yù)測(cè)醫(yī)院發(fā)展的趨勢(shì),滿足更大范圍、更深層次的管理分析需求,從宏觀上把握醫(yī)院的發(fā)展方向。

    3.2 在疾病輔助診斷中的應(yīng)用

    醫(yī)學(xué)診斷問(wèn)題是基于知識(shí)的序貫診斷問(wèn)題,醫(yī)生通過(guò)一定途徑獲取知識(shí),形成推理網(wǎng)絡(luò),而病例數(shù)據(jù)儲(chǔ)存在數(shù)據(jù)庫(kù)中,因此如何從病例數(shù)據(jù)庫(kù)提取診斷規(guī)則成了研究的主題。采用數(shù)據(jù)挖掘可以通過(guò)對(duì)患者資料數(shù)據(jù)庫(kù)中大量歷史數(shù)據(jù)的處理,挖掘出有價(jià)值的診斷規(guī)則,這樣根據(jù)患者的年齡、性別、生理生化指標(biāo)等就可以做出診斷結(jié)論,從而排除了人為因素的干擾。此外由于處理的數(shù)據(jù)量很大,因此所得到的診斷規(guī)則有著較好的應(yīng)用普遍性。例如利用關(guān)聯(lián)規(guī)則找出頭部創(chuàng)傷患者作CT檢查的適應(yīng)證以及將數(shù)據(jù)挖掘用于肝癌遺傳綜合征的自動(dòng)檢測(cè)等等都顯示出數(shù)據(jù)挖掘技術(shù)在疾病輔助診斷的廣闊的應(yīng)用前景。

    3.3 在醫(yī)學(xué)影像中的應(yīng)用

    當(dāng)前醫(yī)學(xué)多媒體數(shù)據(jù)主要來(lái)自醫(yī)院中的一些成像儀器如:X光機(jī)、B超、CT、電子顯微鏡等,DICOM的出現(xiàn),促進(jìn)了醫(yī)學(xué)影像存檔與通信系統(tǒng)PACS的發(fā)展和使用,使得醫(yī)院有可能將來(lái)自不同設(shè)備的醫(yī)學(xué)影像進(jìn)行集中、統(tǒng)一的管理和使用。數(shù)據(jù)挖掘是集數(shù)據(jù)處理技術(shù)最新成果的系統(tǒng)性理論,尤其適用于醫(yī)學(xué)影像數(shù)據(jù)分析這類多維數(shù)據(jù)。

    醫(yī)學(xué)影像數(shù)據(jù)挖掘的關(guān)鍵技術(shù)有數(shù)據(jù)預(yù)處理、信息融合技術(shù)等。數(shù)據(jù)挖掘在醫(yī)學(xué)影像中應(yīng)用主要在以下三點(diǎn):1)提高目標(biāo)影像質(zhì)量和邊緣提取:利用數(shù)據(jù)挖掘理論中各種數(shù)據(jù)的預(yù)處理技術(shù)去除或降低圖像噪聲的影響,提高目標(biāo)影像質(zhì)量或?qū)δ繕?biāo)進(jìn)行邊緣提取。Hsu JH等人曾利用數(shù)據(jù)挖掘技術(shù)對(duì)乳腺超聲影像的邊緣檢測(cè)算法進(jìn)行研究并探討了算法的有效性評(píng)估問(wèn)題[3]。2)組織定征和概念描述:通過(guò)對(duì)目標(biāo)器官或組織進(jìn)行概念描述并概括這類對(duì)象的有關(guān)特征,從而獲得或驗(yàn)證有關(guān)參數(shù)的動(dòng)態(tài)范圍。3)醫(yī)學(xué)影像管理與檢索: 目前,醫(yī)學(xué)影像存檔與通信系統(tǒng)( PACS) 已經(jīng)發(fā)展成熟,基本解決了醫(yī)學(xué)影像數(shù)據(jù)的存儲(chǔ)管理問(wèn)題, 但影像的檢索始終是研究熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供了兩種解決方案:一是由病例描述檢索醫(yī)學(xué)影像信息;二是由影像信息查詢病例可能診斷[4]。

    3.4 在生物信息學(xué)中的應(yīng)用

    近年來(lái)生物醫(yī)學(xué)工程研究有了迅猛發(fā)展,國(guó)內(nèi)外學(xué)者采用數(shù)據(jù)挖掘技術(shù)在DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動(dòng)分析、糖尿病及心血管系統(tǒng)疾病患者多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析等方面都進(jìn)行了研究。

    DNA在遺傳學(xué)研究中的重要作用已經(jīng)眾所周知,數(shù)據(jù)挖掘理論中有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘技術(shù)被認(rèn)為是DNA分析中的強(qiáng)有力工具。Jiawei Han和Micheline Ka-mher從異構(gòu)和分布式基因數(shù)據(jù)的語(yǔ)義集成、DNA序列間相似的搜索和比較、同時(shí)發(fā)現(xiàn)的基因序列的識(shí)別、發(fā)現(xiàn)在疾病不同階段的致病基因等方面闡述了數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析領(lǐng)域中的應(yīng)用[5]。

    4 結(jié)束語(yǔ)

    醫(yī)學(xué)數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)學(xué)等與現(xiàn)代醫(yī)學(xué)信息相結(jié)合的產(chǎn)物,是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科,需要從事計(jì)算機(jī)、醫(yī)學(xué)工程及醫(yī)務(wù)工作者進(jìn)行通力合作,力爭(zhēng)在多屬性醫(yī)學(xué)信息的融合、挖掘算法的高效性和準(zhǔn)確性等關(guān)鍵技術(shù)方面有所突破。

    參考文獻(xiàn):

    [1] 曲哲,林國(guó)慶,余奎.數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影像中的應(yīng)用[J].醫(yī)療設(shè)備信息,2004,19(6):33-34.

    [2] Hsu J H,Tseng SC,et al.A methodology for evaluation of boundary detection algorithmson breast ultrasound images[J].Journal of Medical Engineering & Technology,2002(25):173-177.

    篇11

    社會(huì)經(jīng)濟(jì)的發(fā)展,使得電力資源在其中發(fā)揮的作用也日益提高,成為支撐社會(huì)持續(xù)發(fā)展不可獲取的有力資源之一。為了更好地滿足人們不斷提高的用電需求,在電力營(yíng)銷中應(yīng)用新技術(shù)、新的管理方式已經(jīng)成為眾多電力企業(yè)改革與發(fā)展的重點(diǎn)。本文主要就數(shù)據(jù)挖掘技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用進(jìn)行一定的分析。

    1 數(shù)據(jù)挖掘

    1.1 數(shù)據(jù)挖掘的定義

    數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)主要步驟,它主要是指從大量的數(shù)據(jù)中自動(dòng)地搜索隱藏于其中的有著特殊關(guān)系的信息的過(guò)程。通常數(shù)據(jù)挖掘與計(jì)算機(jī)科學(xué)有著緊密的關(guān)系,通過(guò)搜集、在線分析處理、情報(bào)檢索、專家系統(tǒng)、模式辨別等方法實(shí)現(xiàn)上述目標(biāo)。

    1.2 數(shù)據(jù)挖掘技術(shù)

    數(shù)據(jù)挖掘技術(shù)主要有聚類、關(guān)聯(lián)分析、分類、空間挖掘、時(shí)序模式、預(yù)測(cè)六項(xiàng)。聚類可以幫助人們更好地認(rèn)識(shí)客觀現(xiàn)實(shí),其方法主要有統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。如果兩個(gè)或多個(gè)數(shù)據(jù)出現(xiàn)取值重復(fù)等高概率時(shí),就說(shuō)明它們之間存在一定的關(guān)系,并針對(duì)這些關(guān)系建立起一定的關(guān)聯(lián)原則,這就是數(shù)據(jù)挖掘中的關(guān)聯(lián)分析技術(shù)。分類在數(shù)據(jù)挖掘技術(shù)中是一種非常重要的任務(wù),其可以充分利用原始數(shù)據(jù),通過(guò)自動(dòng)導(dǎo)出,對(duì)給定的數(shù)據(jù)進(jìn)行推廣描述,以便對(duì)未來(lái)數(shù)據(jù)進(jìn)行描述,因此分類主要被用作預(yù)測(cè)。時(shí)序模式主要是指從海量的時(shí)間序列數(shù)據(jù)中,對(duì)人們所不知的但有潛在價(jià)值的數(shù)據(jù)進(jìn)行提取,以便對(duì)社會(huì)中的各個(gè)方面進(jìn)行預(yù)測(cè),并指導(dǎo)人們的行為。

    2 電力營(yíng)銷系統(tǒng)

    電力營(yíng)銷系統(tǒng)主要是以用電管理、電能計(jì)量、營(yíng)業(yè)計(jì)費(fèi)、線損管理等項(xiàng)目為核心,在各個(gè)業(yè)務(wù)項(xiàng)目模塊之上,提供一定的服務(wù)模塊以及分析模塊。前者主要包塊電網(wǎng)服務(wù)、互聯(lián)網(wǎng)服務(wù)以及客戶服務(wù)中心等,其工作中心在于向人們提供更高質(zhì)量的服務(wù)。后者主要是通過(guò)對(duì)歷史數(shù)據(jù)的分析、計(jì)算等,為項(xiàng)目決策提供參考依據(jù),其工作主要側(cè)重于向電力企業(yè)提供及時(shí)準(zhǔn)確的參考依據(jù),比如提供電力系統(tǒng)診斷的相關(guān)數(shù)據(jù)、安全動(dòng)態(tài)評(píng)估、異常情況數(shù)據(jù)分析等。電力營(yíng)銷系統(tǒng)的數(shù)據(jù)主要呈現(xiàn)出數(shù)據(jù)多、種類繁雜、要求高等特點(diǎn)。

    3 數(shù)據(jù)挖掘技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用

    3.1 聚類技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用

    聚類技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用主要體現(xiàn)在對(duì)不良數(shù)據(jù)進(jìn)行修正、對(duì)負(fù)荷進(jìn)行預(yù)測(cè)、對(duì)變壓器故障進(jìn)行判別、對(duì)電力用戶進(jìn)行分類、對(duì)用戶信用進(jìn)行評(píng)價(jià)等。對(duì)不良數(shù)據(jù)進(jìn)行分析主要是建立在傳統(tǒng)的聚類算法基礎(chǔ)之上,對(duì)聚類過(guò)程中所應(yīng)用到的基本參數(shù)進(jìn)行分析,并對(duì)其中的相關(guān)負(fù)荷特征曲線進(jìn)行提取,對(duì)不良數(shù)據(jù)進(jìn)行修整。對(duì)用戶的用電數(shù)據(jù)通過(guò)選取最佳的角力方法,得出具有代表性的負(fù)荷曲線,使電力企業(yè)能夠?qū)τ脩舻挠秒娔J接兴私?,并制定出相?yīng)購(gòu)電合同,從而增加電力企業(yè)的經(jīng)濟(jì)效益。電力企業(yè)一般根據(jù)用戶所提出的不同需求,采用聚類分析的方式,將用戶分成不同的組別,并根據(jù)分組結(jié)果對(duì)不同組別之間存在的差異進(jìn)行分析,并針對(duì)分析結(jié)果制定出不同的營(yíng)銷策略,在很大程度上促進(jìn)了電力企業(yè)在經(jīng)濟(jì)效益方面的提高。對(duì)用戶信用進(jìn)行評(píng)價(jià)主要是通過(guò)建立基于聚類分析法的用戶信用評(píng)價(jià)算法,對(duì)不同的用戶組別制定不同的量化依據(jù),從而實(shí)現(xiàn)對(duì)用戶信用等級(jí)評(píng)定。

    3.2 分類技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用

    在電力營(yíng)銷系統(tǒng)中,對(duì)其進(jìn)行中長(zhǎng)期預(yù)測(cè),除了利用傳統(tǒng)的方法之外,也可以對(duì)其采用專家系統(tǒng)、模糊理論等方式。而神經(jīng)網(wǎng)絡(luò)方法在一定程度上得到了人們的高度認(rèn)可,其主要基于競(jìng)爭(zhēng)分類之上,對(duì)預(yù)測(cè)準(zhǔn)確度的提高有明顯的效果。決策樹(shù)技術(shù)的誕生在一定程度上也大大提高了數(shù)據(jù)挖掘技術(shù)在電力營(yíng)銷系統(tǒng)的應(yīng)用效果。決策樹(shù)的應(yīng)用不僅可以有效提高短期負(fù)荷預(yù)算的準(zhǔn)確度,其對(duì)電力營(yíng)銷過(guò)程中出現(xiàn)的竊電行為也有了高效、及時(shí)的判別。通過(guò)建立分類樹(shù),形成了內(nèi)容龐大、條理清晰的數(shù)據(jù)庫(kù),在對(duì)SCADA系統(tǒng)的不良數(shù)據(jù)進(jìn)行評(píng)估的同時(shí),減小了數(shù)據(jù)庫(kù)建立的規(guī)模,并大大提高了其預(yù)算的準(zhǔn)確性及計(jì)算的速度。同時(shí),分類技術(shù)在客戶關(guān)系管理工作中也得到了廣泛應(yīng)用。

    3.3 空間挖掘技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用

    在很大程度上,電力營(yíng)銷人員反應(yīng)的快慢、判斷的準(zhǔn)確度、決策的科學(xué)性對(duì)電力企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展有著至關(guān)重要的作用。特別是隨著電力體制改革的不斷深入,電力營(yíng)銷市場(chǎng)化,決策的科學(xué)性、正確性顯得更加重要和關(guān)鍵。將電力運(yùn)行系統(tǒng)中的相關(guān)數(shù)據(jù)、負(fù)荷分布位置的具體數(shù)據(jù)以及實(shí)時(shí)發(fā)生變化的相關(guān)數(shù)據(jù)等信息融合為一體,通過(guò)空間挖掘技術(shù),對(duì)信息進(jìn)行一定處理,保證電力營(yíng)銷系統(tǒng)實(shí)現(xiàn)設(shè)備跟蹤、模擬停電、故障判定、損失評(píng)估等功能。同時(shí)還可以利用空間分布規(guī)則、特征規(guī)則、聚類規(guī)則、區(qū)分規(guī)則等,得到不同類別或是相同類別的負(fù)荷分布情況。除此之前,空間挖掘技術(shù)還能廣泛地應(yīng)用于負(fù)荷管理、抄表收費(fèi)等服務(wù)項(xiàng)目,并能根據(jù)線路或變壓器的實(shí)際負(fù)荷情況,根據(jù)用電客戶的實(shí)際地理位置等制定出針對(duì)性強(qiáng)的負(fù)荷控制措施,從而實(shí)現(xiàn)負(fù)荷的合理應(yīng)用,對(duì)高峰、低谷時(shí)期的負(fù)荷情況采取錯(cuò)峰、填谷、調(diào)峰等方式實(shí)施管理。

    3.4 時(shí)序模式在電力營(yíng)銷系統(tǒng)中的應(yīng)用

    時(shí)序模式在電力營(yíng)銷系統(tǒng)中用于進(jìn)行短期符合預(yù)算是一種最為經(jīng)典,同時(shí)也是應(yīng)用最廣、最系統(tǒng)的一種方法。一般在實(shí)際運(yùn)用中,更多是將時(shí)序模式與神經(jīng)網(wǎng)絡(luò)結(jié)合,共同對(duì)電力營(yíng)銷系統(tǒng)的相關(guān)數(shù)據(jù)進(jìn)行分析。隨著科學(xué)技術(shù)的不斷發(fā)展,人們針對(duì)數(shù)據(jù)挖掘技術(shù),提出了一種基于時(shí)間窗的新的時(shí)序挖掘算法,該種技術(shù)主要被廣泛地用作對(duì)警報(bào)進(jìn)行智能處理,以便對(duì)電力營(yíng)銷系統(tǒng)中出現(xiàn)的故障進(jìn)行更加準(zhǔn)確的定位與判斷,有利于電力營(yíng)銷服務(wù)管理水平的大力提高,為廣大電力用戶提供更加優(yōu)質(zhì)的電力資源。

    4 結(jié)束語(yǔ)

    總之,數(shù)據(jù)挖掘技術(shù)在電力系統(tǒng)中有著非常重要的應(yīng)用價(jià)值。隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,單一的數(shù)據(jù)挖掘技術(shù)已經(jīng)不能很好地適應(yīng)當(dāng)前社會(huì)的需求,對(duì)此應(yīng)在實(shí)際應(yīng)用過(guò)程中,對(duì)其進(jìn)行不斷改進(jìn)與創(chuàng)新,促使數(shù)據(jù)挖掘技術(shù)在電力營(yíng)銷系統(tǒng)中得到更加廣泛的應(yīng)用,從而促進(jìn)電力企業(yè)經(jīng)濟(jì)效益的穩(wěn)步提高。

    參考文獻(xiàn):

    [1]朱莉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在電力營(yíng)銷系統(tǒng)中的研究與應(yīng)用[J].東北大學(xué),2003(18).

    [2]朱潔.數(shù)據(jù)挖掘技術(shù)在電力營(yíng)銷系統(tǒng)線損計(jì)算中的應(yīng)用研究[J].蘭州理工大學(xué),2011(11).