本站小編為你精心準(zhǔn)備了數(shù)據(jù)挖掘應(yīng)用參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
隨著社會信息化不斷進(jìn)步發(fā)展,大量的信息充斥在我們的社會中,這就要求我們能從中及時(shí)發(fā)現(xiàn)有用的知識,做出正確的分析,從而提高決策的正確性。就是在這樣的背景下深入地分析數(shù)據(jù)挖掘的基本概念、挖掘流程及挖掘技術(shù),討論數(shù)據(jù)挖掘的一些具體應(yīng)用。
隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展,數(shù)據(jù)庫和數(shù)據(jù)倉庫已經(jīng)被廣泛地應(yīng)用于企業(yè)管理、產(chǎn)品銷售、科學(xué)計(jì)算和信息服務(wù)等領(lǐng)域,數(shù)據(jù)量的不斷增長對數(shù)據(jù)的存儲、管理和分析提出了更高的要求,急需新一代的技術(shù),能夠智能化的從大量的數(shù)據(jù)中提取出有用的信息和知識,于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,且在各行業(yè)得到了廣泛的應(yīng)用。如何從海量的數(shù)據(jù)中找到內(nèi)在的規(guī)律,如何更快更方便地傳遞、交流、獲取有用的信息,挖掘這些激增數(shù)據(jù)背后隱藏的重要信息并及時(shí)進(jìn)行信息的重組已成為當(dāng)前我們所探究的熱點(diǎn)。
一、數(shù)據(jù)挖掘概述及分類
數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種多學(xué)科交叉的全新信息技術(shù),是指從海量的數(shù)據(jù)中出潛在的、有價(jià)值的知識(模型或規(guī)則)的過程,反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型。也就是根據(jù)預(yù)定義的目標(biāo),對大量的數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的規(guī)律,并進(jìn)一步將其模型化的先進(jìn)有效的技術(shù)過程。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要探究的重要課題。
數(shù)據(jù)挖掘涉及多個(gè)學(xué)科方向,主要包括摘要:數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫類型、挖掘?qū)ο?、挖掘任?wù)、挖掘方法和技術(shù)以及應(yīng)用等幾方面進(jìn)行分類。按數(shù)據(jù)庫類型分類摘要:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘?qū)ο蠓诸愓何谋緮?shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務(wù)有摘要:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測、猜測等。按數(shù)據(jù)挖掘方法和技術(shù)分類摘要:歸納學(xué)習(xí)類、仿生物技術(shù)類、公式發(fā)現(xiàn)類、統(tǒng)計(jì)分析類、模糊數(shù)學(xué)類、可視化技術(shù)類。
二、數(shù)據(jù)挖掘的基本過程
(1)定義新問題。對目標(biāo)有一個(gè)可行、清楚和明確的定義,同時(shí)還包含對一個(gè)結(jié)果進(jìn)行衡量的標(biāo)準(zhǔn)。(2)建立數(shù)據(jù)挖掘庫。它主要是指收集數(shù)據(jù)、維護(hù)數(shù)據(jù)等工作。(3)分析數(shù)據(jù)。找到對新問題解決影響大的數(shù)據(jù)字段集和決定是否需要定義導(dǎo)出字段。(4)預(yù)備建摸數(shù)據(jù)。根據(jù)新問題的定義,對數(shù)據(jù)庫中的字段變量、記錄進(jìn)行篩選,并根據(jù)現(xiàn)有的變量進(jìn)行轉(zhuǎn)換,生成新的變量和字段。它主要是指為建立模型預(yù)備部分?jǐn)?shù)據(jù)的過程。(5)建立模型。選擇一定的挖掘算法來處理數(shù)據(jù),它需考察不同的模型用以判定和選擇解決新問題最有效、精確度較好的一種數(shù)據(jù)挖掘模式。(6)模型的評價(jià)和解釋。模型建立后,必須有一個(gè)對它的結(jié)果進(jìn)行評價(jià)、對它的價(jià)值進(jìn)行解釋的過程。(7)實(shí)施。模型建立并驗(yàn)證之后通常有兩種使用方法。一種是提供給分析人員作參考和分析這個(gè)模型之后的行動方案及建議。另一種是在應(yīng)用了模型之后,還需不斷地監(jiān)控其效果,因?yàn)槭挛镌诓粩嗟匕l(fā)展變化,有可能一段時(shí)間后,模型就不再起功能川。在以上數(shù)據(jù)挖掘的基本過程中,其中數(shù)據(jù)預(yù)備、數(shù)據(jù)選擇、預(yù)處理、數(shù)據(jù)縮減的階段主要以完成數(shù)據(jù)倉庫為主;目標(biāo)確定、算法確定、數(shù)據(jù)挖掘、模式識別和知識評價(jià)這幾個(gè)階段,主要以挖掘有用的知識為主,為知識發(fā)現(xiàn)做預(yù)備。
三、數(shù)據(jù)挖據(jù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值?,F(xiàn)在已經(jīng)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域都是信息量大、環(huán)境復(fù)雜、需要知識幫助進(jìn)行管理和決策的領(lǐng)域。下面介紹一些目前比較活躍的應(yīng)用方向摘要:
(一)在金融數(shù)據(jù)分析中的應(yīng)用。多數(shù)銀行和金融機(jī)構(gòu)都提供了豐富多樣的儲蓄,信用,投資,保險(xiǎn)等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當(dāng)有利。在具體的應(yīng)用中,采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場的變化趨向;通過特征選擇和屬性相關(guān)性計(jì)算,識別關(guān)鍵因素,進(jìn)行貸款償付猜測和客戶信用分析;利用分類和聚集的方法對用戶群體進(jìn)行識別和目標(biāo)市場分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點(diǎn)分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。
(二)在電力業(yè)的應(yīng)用。在電力行業(yè)中,數(shù)據(jù)挖掘技術(shù)主要用于指導(dǎo)設(shè)備更新、業(yè)績評估、指導(dǎo)電力企業(yè)的建設(shè)規(guī)劃、指導(dǎo)電力的生產(chǎn)和購買、指導(dǎo)電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說指導(dǎo)項(xiàng)目管理、平安管理、資源管理、投資組合管理、活動分析、銷售猜測、收入猜測、需求猜測、理賠分析等。而且當(dāng)使用數(shù)據(jù)挖掘系統(tǒng)時(shí),用戶會對模型進(jìn)行調(diào)優(yōu)和定制。這將會逐步積累符合企業(yè)自身需要的模型庫,成為企業(yè)知識庫的重要組成部分。
(三)在零售業(yè)中的應(yīng)用。零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因?yàn)榱闶蹣I(yè)積累了大量的銷售數(shù)據(jù),如顧客購買史記錄、貨物進(jìn)出、消費(fèi)和服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問技術(shù)、分類技術(shù)和猜測技術(shù),更精確地挑選潛在的顧客;識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨向,進(jìn)行關(guān)聯(lián)分析,以便更好地進(jìn)行貨架擺設(shè);改進(jìn)服務(wù)質(zhì)量,獲得更好的顧客忠誠度和滿足程度;提高貨品的銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸和分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進(jìn)行市場分析等等。
(四)在醫(yī)學(xué)上的應(yīng)用。近年來,生物醫(yī)學(xué)探究有了迅猛地發(fā)展,從新藥的開發(fā)到癌癥治療的突破,到通過大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進(jìn)行人類基因的識別和探究。在人類基因探究領(lǐng)域具有挑戰(zhàn)性的新問題是從中找出導(dǎo)致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具。利用數(shù)據(jù)挖掘技術(shù)在DNA數(shù)據(jù)的分析探究中可以進(jìn)行DNA序列間的相似搜索和比較,對同時(shí)出現(xiàn)的基因序列的相關(guān)分析,遺傳探究中的路徑分析等。近期DNA分析的探究成果已經(jīng)促成了對許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對疾病診斷、預(yù)防和治療的新藥物、新方法的發(fā)現(xiàn)。
(五)在高校和科研單位以及其他領(lǐng)域的應(yīng)用。主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價(jià)值的數(shù)據(jù)。比如在數(shù)字圖書館方面可以引入數(shù)據(jù)挖掘技術(shù)。同時(shí)還可以應(yīng)用的電子商務(wù)等等眾多領(lǐng)域。
四、結(jié)束語
本文討論了數(shù)據(jù)挖掘的概念、數(shù)據(jù)挖掘的分類、數(shù)據(jù)挖掘的基本過程等內(nèi)容,并對數(shù)據(jù)挖掘的一些具體的應(yīng)用進(jìn)行了闡述。伴隨著社會信息化的到來以及數(shù)據(jù)信息不斷地增長,數(shù)據(jù)挖掘?qū)粡V泛而深入地應(yīng)用于人類生活的各個(gè)領(lǐng)域。