數(shù)據(jù)挖掘論文范文

時(shí)間:2023-04-05 01:35:37

導(dǎo)語:如何才能寫好一篇數(shù)據(jù)挖掘論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

數(shù)據(jù)挖掘論文

篇1

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

篇2

近年來,我國(guó)的部隊(duì)管理體系已經(jīng)逐漸向著自動(dòng)化方向發(fā)展,部隊(duì)中各個(gè)部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實(shí)現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊(duì)工作的效率,但是由于外界因素與經(jīng)濟(jì)發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問題,使得部隊(duì)管理體系存在著一定問題:第一、關(guān)聯(lián)性小、系統(tǒng)比較獨(dú)立?,F(xiàn)階段,部隊(duì)采購(gòu)食品系統(tǒng)的作用以及目的比較簡(jiǎn)單,思維面也比較窄,也就是說按照清單進(jìn)行食品采購(gòu)時(shí),不能充分考慮到采購(gòu)人員的健康、效率等問題,不能達(dá)到最優(yōu)化采購(gòu)方式,因此就變得比較獨(dú)立;第二,數(shù)據(jù)功能簡(jiǎn)單,可靠性不高。現(xiàn)階段,部隊(duì)食品采購(gòu)數(shù)據(jù)只是對(duì)采購(gòu)的種類與過程進(jìn)行簡(jiǎn)單記錄,時(shí)間一久,就會(huì)被損壞或者丟失;第三,數(shù)據(jù)分散不集中。現(xiàn)階段與部隊(duì)人員健康、起居飲食、訓(xùn)練相關(guān)的數(shù)據(jù)分散在不同系統(tǒng)中,使得數(shù)據(jù)變得不一致、不完整,僅僅只能進(jìn)行簡(jiǎn)單查詢、匯總、統(tǒng)計(jì)等工作,不能對(duì)數(shù)據(jù)進(jìn)行多角度分析、關(guān)聯(lián)等,不能為采購(gòu)食品提供很好的政策支持。針對(duì)部隊(duì)采購(gòu)存在的問題,可以利用數(shù)據(jù)倉(cāng)庫(kù)以及數(shù)據(jù)挖掘技術(shù)建立多為數(shù)據(jù)庫(kù),利用數(shù)據(jù)挖掘進(jìn)技術(shù)對(duì)食品采購(gòu)數(shù)據(jù)進(jìn)行挖掘。依據(jù)現(xiàn)階段部隊(duì)的實(shí)際發(fā)展情況,建立一套新數(shù)據(jù)庫(kù)的成本代價(jià)比較高,因此,選用了目前社會(huì)上通用方法,對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據(jù),成為新的數(shù)據(jù)庫(kù)。并且選取對(duì)數(shù)據(jù)挖掘影響比較大的系統(tǒng)性分析,包括訓(xùn)練系統(tǒng),食品采購(gòu)系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對(duì)食品采購(gòu)采購(gòu)系統(tǒng)建立數(shù)據(jù)模型。

二、在部隊(duì)食品采購(gòu)系統(tǒng)中的應(yīng)用以及其價(jià)值評(píng)價(jià)

在部隊(duì)食品采購(gòu)系統(tǒng)實(shí)際應(yīng)用工程中,其實(shí)可以運(yùn)用MicrosoftSQLServerAnalysisServices來對(duì)數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過程中對(duì)多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因?yàn)槎嗑S數(shù)據(jù)比較復(fù)雜,增長(zhǎng)的也比較快,因此,進(jìn)行手動(dòng)查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計(jì)算模式可以很好的對(duì)數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊(duì)食品采購(gòu)倉(cāng)庫(kù)數(shù)據(jù)的時(shí)候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個(gè)主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對(duì)人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊(duì)的實(shí)際情況,利用數(shù)據(jù)挖掘技術(shù)對(duì)部隊(duì)人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫(kù)中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊(duì)人員的訓(xùn)練和健康情況與部隊(duì)飲食之間內(nèi)在關(guān)系,以便于為部隊(duì)食品采購(gòu)提供合理的、有效的保障,從而提高部隊(duì)整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對(duì)提高我國(guó)部隊(duì)?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。

三、結(jié)束語

篇3

物聯(lián)網(wǎng)數(shù)據(jù)挖掘處理功能需要在Hadoop平臺(tái)和Map/Reduce模式基礎(chǔ)上進(jìn)行,對(duì)此需要?jiǎng)澐?個(gè)不同層面的操作流程。

1.1Hadoop平臺(tái)的具體操作流程

(1)對(duì)物聯(lián)網(wǎng)中的RFID數(shù)據(jù)進(jìn)行過濾、轉(zhuǎn)換、合并的處理,并在分布式系統(tǒng)HDFS中保存PML文件形式的數(shù)據(jù)。同時(shí),可采取副本策略來處理PML文件,在同一機(jī)構(gòu)的不同節(jié)點(diǎn)或不同機(jī)構(gòu)的某一節(jié)點(diǎn)上保存PML文件中的2-3個(gè)副本,進(jìn)而可實(shí)現(xiàn)對(duì)存儲(chǔ)、處理、節(jié)點(diǎn)失效問題的有效解決。

(2)在執(zhí)行任務(wù)過程中,創(chuàng)建和管理控制是Master(主控程序)的主要工作,當(dāng)Worker處于空閑狀態(tài)時(shí)會(huì)接收到有關(guān)的分配任務(wù),需與Map/Reduce互相合作實(shí)現(xiàn)操作處理,處理的最終結(jié)果由Master來歸并,同時(shí)將反饋結(jié)果傳送給用戶。

1.2Map/Reduce的具體操作流程

(1)根據(jù)參數(shù)在Map/Reduce思想指導(dǎo)下對(duì)輸入文件進(jìn)行分割處理,使其細(xì)化為M塊(16-64M大小范圍)。

(2)Master、Worker、Map操作(M個(gè))、Reduce操作(R個(gè))是構(gòu)成執(zhí)行程序的主要部分,其中Map/Reduce的處理任務(wù)會(huì)由Master伴隨物聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,人們可以有效利用物聯(lián)網(wǎng)來實(shí)現(xiàn)信息交換和通信的目的,不過物聯(lián)網(wǎng)海量數(shù)據(jù)的日益增多大大降低了物聯(lián)網(wǎng)服務(wù)的質(zhì)量。在此,對(duì)基于Apriori算法進(jìn)行物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究。摘要將其分配給空閑的Worker。

(3)在處理Map任務(wù)時(shí),Worker會(huì)讀取處理中的數(shù)據(jù),并向Map函數(shù)傳送<key,value>,而后產(chǎn)生中間結(jié)果在內(nèi)存中緩存且定時(shí)向本地硬盤傳送。此外,依據(jù)分區(qū)函數(shù)將中間結(jié)果分割為R塊區(qū),利用Master將本地硬盤接收到的數(shù)據(jù)位置信息傳送給Reduce函數(shù)。

(4)ReduceWorker根據(jù)Master所傳送的文件信息采用遠(yuǎn)程讀取方式來操作,以在本地文件中找到對(duì)應(yīng)的文件,對(duì)文件的中間key進(jìn)行有序排列,并利用遠(yuǎn)程發(fā)送信息給具體執(zhí)行的Reduce。

(5)ReduceWorker依據(jù)key排序后的中間數(shù)據(jù)向Reduce函數(shù)傳送與key對(duì)應(yīng)的中間結(jié)果集,而最后的結(jié)果需采取最終輸出文件來進(jìn)行編寫。

(6)當(dāng)Map、Reduce的任務(wù)全部完成之后,MapReduce將回歸到用戶程序的調(diào)用點(diǎn)處,同時(shí)以Master對(duì)用戶程序進(jìn)行激活。

2基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘

2.1Apriori數(shù)據(jù)挖掘原理和操作流程

Apriori是提升物聯(lián)網(wǎng)數(shù)據(jù)挖掘功能的一種最有效算法,其原理是在K項(xiàng)集中以逐層搜索迭代的方式來探索。具體的操作流程包括:

(1)掃描數(shù)據(jù)集以生成頻繁1-項(xiàng)集L1。

(2)通過L1來探索頻繁項(xiàng)集L2,采用不斷迭代的方式來持續(xù)探索,直至頻繁項(xiàng)集是空集。

2.2K次循環(huán)搜索后的數(shù)據(jù)挖掘流程

當(dāng)已完成了K次循環(huán)搜索時(shí),還需要進(jìn)行2個(gè)數(shù)據(jù)挖掘的操作流程:(1)在LK-1生成CK(候選集)之后,開展JOIN操作。(2)支持度統(tǒng)計(jì)和剪枝的操作依據(jù)Apriori性質(zhì)來進(jìn)行,而后使得CK生成LK(頻繁集)。為提高物聯(lián)網(wǎng)數(shù)據(jù)挖掘的效率,節(jié)省系統(tǒng)的時(shí)間和內(nèi)存消耗,在Apriori算法基礎(chǔ)上還需要借鑒和移植云計(jì)算平臺(tái)的分布式并行計(jì)算性質(zhì)。如此以實(shí)現(xiàn)Hadoop架構(gòu)的建立,在掃描數(shù)據(jù)庫(kù)查找頻繁項(xiàng)集中得到的并聯(lián)規(guī)則需要存儲(chǔ)在Hadoop架構(gòu)中。同時(shí),為取得各個(gè)計(jì)算節(jié)點(diǎn)上的局部頻繁項(xiàng)集,各個(gè)DataNode節(jié)點(diǎn)需要經(jīng)歷并行操作的掃描處理,并使用Master來統(tǒng)計(jì)和確定實(shí)際全局的支持度、頻繁項(xiàng)集。

2.3Apriori算法Map/Reduce化的處理流程

上述提及基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘需借助于Map/Reduce模式,其數(shù)據(jù)挖掘功能的實(shí)現(xiàn)還應(yīng)Map/Reduce化Apriori算法。主要的處理流程包括:

(1)用戶提出挖掘服務(wù)的請(qǐng)求,且由用戶來設(shè)置Apriori所需的數(shù)據(jù),如最小支持度、置信度。

(2)當(dāng)Master接收到請(qǐng)求后,通過NameNode來進(jìn)行PML文件的申請(qǐng),而后逐步完成訪問空閑節(jié)點(diǎn)列表、向空閑的DataNode分配任務(wù)、調(diào)度和并行處理各個(gè)DataNode需要的存儲(chǔ)節(jié)點(diǎn)算法。

(3)運(yùn)用Map函數(shù)來處理每個(gè)DataNode的<key,value>對(duì)映射、新鍵值對(duì),以CnK(用1表示每一個(gè)CnK的支持度)來表示所產(chǎn)生的一個(gè)局部候選頻繁K項(xiàng)集。

(4)通過Reduce函數(shù)來實(shí)現(xiàn)調(diào)用計(jì)算,對(duì)每個(gè)DataNode節(jié)點(diǎn)上相同候選項(xiàng)集的支持度進(jìn)行累加,以產(chǎn)生一個(gè)實(shí)際的支持度,將其與最小支持度(用戶申請(qǐng)時(shí)所設(shè)置)進(jìn)行比較,進(jìn)而用LnK表示所生成的局部頻繁K項(xiàng)集的集合。

(5)對(duì)所有的處理結(jié)果進(jìn)行合并,從而實(shí)現(xiàn)全局頻繁K項(xiàng)集LK的生成。

3結(jié)論

篇4

合肥市是安徽省省會(huì),土地面積1.14萬km,常住人口755萬,其中城鎮(zhèn)人口486萬,農(nóng)村人口266萬人。依據(jù)合肥市主城區(qū)用地規(guī)劃圖以及合肥市2014年遙感影像圖,確定本文研究區(qū)為合肥市市轄區(qū)、功能區(qū)以及肥西、肥東縣的副城區(qū)。根據(jù)Voronoi圖的理論,在ArcGIS中生成現(xiàn)有研究區(qū)范圍避難場(chǎng)所的責(zé)任區(qū)劃分。其中,老城區(qū)的責(zé)任區(qū)分布較為均勻,而其他區(qū)域由于應(yīng)急避難場(chǎng)所數(shù)量少且較為分散,均出現(xiàn)較大面積的多邊形,且形變劇烈,說明某些應(yīng)急避難場(chǎng)所分擔(dān)的服務(wù)范圍較大,分配不合理,需要進(jìn)一步合理規(guī)劃。

2空間數(shù)據(jù)挖掘應(yīng)用模型的實(shí)現(xiàn)

2.1模型設(shè)計(jì)

城市空間布局及發(fā)展具有規(guī)范性,因此,對(duì)避難場(chǎng)所進(jìn)行選址需要遵循城市發(fā)展戰(zhàn)略及人口增長(zhǎng)規(guī)律。

1)數(shù)據(jù)挖掘預(yù)處理。對(duì)研究區(qū)各行政區(qū)劃的人口數(shù)據(jù)、面積、土地利用類型、已建應(yīng)急避難場(chǎng)所等數(shù)據(jù)進(jìn)行統(tǒng)計(jì),建立txt文本,進(jìn)行空間數(shù)據(jù)挖掘,創(chuàng)建數(shù)據(jù)字典。

2)數(shù)據(jù)矢量化。在ArcGIS10平臺(tái)中,以合肥市地圖為底圖,對(duì)行政區(qū)劃進(jìn)行數(shù)字化,并結(jié)合合肥市最新規(guī)劃圖及遙感影像圖,對(duì)元數(shù)據(jù)進(jìn)行矢量化,并編輯地物的屬性,形成ShapeFile文件。

3)建立數(shù)據(jù)庫(kù)。將空間數(shù)據(jù)中的屬性信息錄入屬性數(shù)據(jù)庫(kù)。

4)空間分析。結(jié)合矢量化的人口密度專題圖和現(xiàn)有場(chǎng)地點(diǎn)狀分布圖,重點(diǎn)對(duì)服務(wù)區(qū)覆蓋范圍外人口進(jìn)行分析,通過對(duì)空間數(shù)據(jù)進(jìn)行緩沖區(qū)分析、柵格分析、重分類、疊加分析、地圖運(yùn)算等過程,確定應(yīng)急避難場(chǎng)所綜合評(píng)價(jià)方案,最終確定新場(chǎng)所地址。

5)可視化。根據(jù)最終新場(chǎng)所的ShapeFile文件,結(jié)合人口密度分布圖,制作新場(chǎng)所分布圖。

2.2文本及地理信息數(shù)據(jù)挖掘

1)地理空間特征提取。依據(jù)《安徽省應(yīng)急避難場(chǎng)所分級(jí)技術(shù)標(biāo)準(zhǔn)(試行)》的場(chǎng)所分級(jí)和選址要求[1,2],從紙質(zhì)地圖、規(guī)劃圖、統(tǒng)計(jì)數(shù)據(jù)等地理文本中抽取符合條件的元數(shù)據(jù)。

2)地理數(shù)據(jù)分類。從挖掘后的地理空間數(shù)據(jù)中提取道路、土地利用類型、人口密度、新居民地等地物數(shù)據(jù)及各類地物的空間特征信息。

3)空間數(shù)據(jù)挖掘:對(duì)空間特征信息進(jìn)行評(píng)價(jià),將符合選址條件的用地?cái)?shù)據(jù)以及影響避難場(chǎng)所選址的主要因素進(jìn)行分類、提取,建立相應(yīng)的空間位置、屬性信息,并繪制矢量圖層。

3數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)

研究模型的數(shù)據(jù)庫(kù)由空間數(shù)據(jù)庫(kù)和屬性數(shù)據(jù)庫(kù)組成,統(tǒng)一存放在關(guān)系數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。

1)空間數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)。將要矢量化的合肥市地圖進(jìn)行掃描,加載到ArcMap中,打開ArcCatalog,在目標(biāo)文件夾下新建ShapeFile文件。通過對(duì)需要矢量化的地物進(jìn)行分析,將現(xiàn)有應(yīng)急避難場(chǎng)所歸為點(diǎn)圖層,將城市主、次干道、斷裂歸為線圖層,將土地利用類型、河流、湖泊、人口密度、現(xiàn)有居民地等要素歸為面圖層。

2)屬性數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)。在ArcMap中打開表,進(jìn)行地物屬性庫(kù)的編輯,對(duì)照空間屬性庫(kù)表,分別添加地物的屬性字段,并輸入屬性信息。

4應(yīng)急避難場(chǎng)所的空間優(yōu)化和選取

4.1影響選址的主要因素

本文依據(jù)《地震應(yīng)急避難場(chǎng)所選址及配套設(shè)施要求》,對(duì)影響選址的主要因素進(jìn)行分類、量化。

4.1.1場(chǎng)地的安全性

選址應(yīng)具有地質(zhì)、水文及自然環(huán)境方面的抗震安全保障。新建場(chǎng)地距離斷層必須有一定的距離,利用GIS的緩沖區(qū)分析,建立斷層的6層緩沖區(qū),分別賦予不同的評(píng)價(jià)指標(biāo)。

4.1.2現(xiàn)有避難場(chǎng)地

按照安徽省地震應(yīng)急避難場(chǎng)所及配套設(shè)施要求,地震應(yīng)急避難場(chǎng)所分為3類,其服務(wù)范圍分別為5km、1km、0.5km。以此為標(biāo)準(zhǔn),對(duì)研究區(qū)現(xiàn)有27個(gè)應(yīng)急避難場(chǎng)所進(jìn)行類型劃分,并建立服務(wù)范圍屬性表。應(yīng)用ArcMap的緩沖區(qū)分析功能,分別建立以5km、1km、0.5km為服務(wù)半徑的緩沖區(qū),生成服務(wù)范圍矢量圖,并轉(zhuǎn)換為柵格圖像,進(jìn)行重分類。

4.1.3土地利用現(xiàn)狀

新選址的區(qū)域覆蓋合肥市主、副城區(qū)范圍,城市區(qū)域用地多數(shù)被建設(shè)用地覆蓋,其中有些地塊不適于建造避難場(chǎng)地,例如工業(yè)用地。土地利用現(xiàn)狀評(píng)價(jià)指標(biāo)

4.1.4現(xiàn)有居民點(diǎn)空間分布

避難場(chǎng)地的位置距離居民點(diǎn)有距離限制。以居民點(diǎn)為研究對(duì)象,進(jìn)行鄰近區(qū)分析。對(duì)合肥市居民點(diǎn)進(jìn)行以100m為層次的緩沖區(qū)分析,并把矢量數(shù)據(jù)轉(zhuǎn)為柵格數(shù)據(jù)。

4.2空間數(shù)據(jù)挖掘結(jié)果的可視化

篇5

紡織品中一些纖維不易上色,只有應(yīng)用強(qiáng)酸或者強(qiáng)堿才能保證其上色的效果,我國(guó)對(duì)紡織品中PH達(dá)到的數(shù)值有著明確要求。通過對(duì)某檢測(cè)機(jī)構(gòu)pH值超標(biāo)報(bào)告的分析發(fā)現(xiàn),紡織品中各個(gè)成本pH值分布為:棉56.67,羊毛22.5%,羊絨7.5%,桑蠶絲4.17%,亞麻3.33%,聚酯纖維3.3%,粘纖1.67%,兔毛0.83%。

經(jīng)過檢驗(yàn)與對(duì)比發(fā)現(xiàn),pH超標(biāo)較為嚴(yán)重的主要是棉成分,由于棉只能在強(qiáng)堿條件下上色,所以,會(huì)使紡織品超過國(guó)家要求的pH值控制范圍。pH值超標(biāo)主要是生產(chǎn)工藝不佳造成的,為了降低pH值對(duì)人健康的影響,相關(guān)部門應(yīng)加強(qiáng)對(duì)服裝制作工藝的控制與管理。

2基于數(shù)據(jù)挖掘的色牢度分析

色牢度也是紡織品檢驗(yàn)的一項(xiàng)重要指標(biāo),在Clementine中將導(dǎo)入的數(shù)據(jù)通過過濾節(jié)點(diǎn)過濾出品牌、耐水色牢度(沾色)、耐酸色牢度(沽色)、耐堿色牢度(沾色)、耐干摩擦色牢度和主要成分之后。建立進(jìn)口紡織服裝的風(fēng)險(xiǎn)預(yù)警以及置信度規(guī)則,可以發(fā)現(xiàn),支持度和置信度都很高的規(guī)則主要涉及桑蠶絲和棉這2種成分以及甲品牌。主要成分為桑蠶絲的紡織服飾與耐堿色牢度、耐水色牢度、耐酸色牢度關(guān)系密切,而主要成分為棉的紡織服飾以及甲品牌的紡織服飾4種色牢度的不合格比例都很高。

色牢度不夠的原因除了與制作工藝有關(guān),還與染色后浮水處理有關(guān)。針對(duì)桑蠶絲與棉成分含量較高的紡織品,一定要在染色前先進(jìn)行正交試驗(yàn),還要保證染色溫度、染色液酸堿濃度的合理性,這樣才能保證桑蠶絲以及棉制品色牢度的合格性。

3結(jié)語

篇6

根據(jù)網(wǎng)絡(luò)規(guī)劃的要求,利用大數(shù)據(jù)可以從覆蓋評(píng)估,干擾評(píng)估和價(jià)值評(píng)估三個(gè)維度建立基于大數(shù)據(jù)挖掘的LTE網(wǎng)絡(luò)規(guī)劃體系,通過對(duì)現(xiàn)網(wǎng)問題的全面、準(zhǔn)確分析定位,預(yù)知LTE網(wǎng)絡(luò)規(guī)劃存在的問題,提升LTE網(wǎng)絡(luò)規(guī)劃的準(zhǔn)確性。

1.1覆蓋評(píng)估分析

良好的覆蓋是網(wǎng)絡(luò)建設(shè)的最基本要求,基站站間距過大,基站覆蓋過遠(yuǎn)會(huì)造成部分地點(diǎn)盲覆蓋或者室內(nèi)深度覆蓋不足;而站間距過小,重疊覆蓋會(huì)帶來較大干擾,同樣影響用戶感受,同時(shí)不必要的重復(fù)建站將會(huì)加大投資成本。理想的蜂窩網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該在保證用戶移動(dòng)性的前提下使小區(qū)間的交疊區(qū)域處在一個(gè)較低的水平借助現(xiàn)網(wǎng)2G/3G實(shí)測(cè)數(shù)據(jù),參考工參,掃頻及MR等大數(shù)據(jù),利用奧村-哈塔傳播方程矩陣?yán)碚撨\(yùn)算,根據(jù)不同頻段自由空間傳播模型損耗、模擬仿真覆蓋及損耗矩陣,評(píng)估規(guī)劃LTE網(wǎng)絡(luò)的覆蓋情況;同時(shí)構(gòu)建貼合現(xiàn)網(wǎng)實(shí)際的小區(qū)傳播路損模型,有效識(shí)別LTE網(wǎng)絡(luò)的弱覆蓋和過覆蓋區(qū)域,實(shí)現(xiàn)“點(diǎn)、線、面”聯(lián)合校準(zhǔn)驗(yàn)證,獲取真實(shí)、準(zhǔn)確和全面的小區(qū)覆蓋規(guī)劃數(shù)據(jù)。

1.2干擾評(píng)估分析

干擾是影響LTE網(wǎng)絡(luò)質(zhì)量的關(guān)鍵因素,我們引入干擾貢獻(xiàn)系數(shù)來評(píng)估無線網(wǎng)絡(luò)重疊覆蓋度。定義干擾鄰區(qū)的能量之和與主小區(qū)的總能量的比值為干擾貢獻(xiàn)系數(shù),用其來評(píng)估主小區(qū)A,系數(shù)越大,說明該小區(qū)對(duì)外的干擾越大,需要整改的優(yōu)先級(jí)越高。

1.3價(jià)值評(píng)估分析

傳統(tǒng)規(guī)劃主要從覆蓋與干擾兩個(gè)維度分析,不能完全識(shí)別出高價(jià)值站點(diǎn),導(dǎo)致網(wǎng)絡(luò)部署后出現(xiàn)建設(shè)偏離業(yè)務(wù)熱點(diǎn),超閑小區(qū)較多等問題。而基于大數(shù)據(jù)挖掘的LTE網(wǎng)絡(luò)規(guī)劃可基于話務(wù)熱點(diǎn)、用戶/終端及價(jià)值業(yè)務(wù)等多維度進(jìn)行關(guān)聯(lián)性分析。首先梳理出數(shù)據(jù)及話務(wù)熱點(diǎn)、智能終端/數(shù)據(jù)卡滲透高區(qū)域,判定流量?jī)r(jià)值高的區(qū)域;其次發(fā)掘出數(shù)據(jù)業(yè)務(wù)使用率高,但實(shí)際速率低,話務(wù)需求被壓制的區(qū)域;再次利用VIP/投拆用戶列表導(dǎo)出數(shù)據(jù)業(yè)務(wù)投訴用戶和VIP用戶區(qū)域,更直觀、有效的體現(xiàn)網(wǎng)絡(luò)熱點(diǎn)投訴、流量變化較大的重點(diǎn)小區(qū)數(shù)據(jù),定位重要客戶的高價(jià)值流量區(qū)域,聚焦影響用戶感知的重要問題,發(fā)掘LTE潛在高價(jià)值區(qū)域,有效指導(dǎo)LTE網(wǎng)絡(luò)規(guī)劃效益,降低網(wǎng)絡(luò)資源的管理成本。利用基于柵格的多維度價(jià)值得分評(píng)估體系,通過高流量小區(qū)選擇,實(shí)現(xiàn)用戶分布地理化關(guān)聯(lián),進(jìn)行多維度地理化綜合分析,得到多個(gè)小區(qū)構(gòu)成的柵格的價(jià)值得分,得出高優(yōu)先級(jí)建站區(qū)域。

1)統(tǒng)計(jì)各柵格流量、用戶使用TD-SCDMA的速率、用戶數(shù)量、終端分布、業(yè)務(wù)流量分布等數(shù)據(jù),當(dāng)某個(gè)柵格點(diǎn)上指標(biāo)值大于全網(wǎng)柵格該指標(biāo)平均值的k倍,即賦予該柵格價(jià)值點(diǎn)相應(yīng)的分值。

2)柵格價(jià)值點(diǎn)相應(yīng)的分值:柵格內(nèi)指標(biāo)值/(全網(wǎng)柵格點(diǎn)該指標(biāo)平均值×k),k值建議為1.2,意義為在此柵格點(diǎn)的其中某一項(xiàng)因素大于該項(xiàng)因素的平均值的1.2倍,才會(huì)進(jìn)行價(jià)值得分分析,小于該值則該柵格點(diǎn)的該項(xiàng)因素的價(jià)值得分為0。

3)單個(gè)柵格總得分=權(quán)重1×熱點(diǎn)得分+權(quán)重2×速率得分+權(quán)重3×終端得分+權(quán)重4×業(yè)務(wù)得分…。

4)統(tǒng)計(jì)基站覆蓋范圍內(nèi)包含的柵格數(shù)量以及各個(gè)柵格上的分值,最終輸出規(guī)劃基站的總柵格得分排序,排序高低反映了該基站的價(jià)值高低。

1.4評(píng)估分析流程

評(píng)估分析一般在待建站點(diǎn)資源收集后,按照價(jià)值高低,基于基站覆蓋范圍和受干擾影響程度,選擇建站順序。根據(jù)實(shí)際情況,可一方面利用2/3G舊站址,一方面建議增加符合合理網(wǎng)絡(luò)結(jié)構(gòu)的新站點(diǎn),達(dá)到良好規(guī)劃的目的。

2大數(shù)據(jù)處理思路

LTE規(guī)劃過程利用收集到的大量數(shù)據(jù),包括工參數(shù)據(jù)、性能數(shù)據(jù)、經(jīng)分口數(shù)據(jù)、MC口數(shù)據(jù)、投訴數(shù)據(jù)、測(cè)試數(shù)據(jù)等六大項(xiàng)13類數(shù)據(jù),從中提取有用信息進(jìn)行分析。

2.1基于大數(shù)據(jù)的打包清洗

根據(jù)大數(shù)據(jù)刪冗去錯(cuò)機(jī)制進(jìn)行數(shù)據(jù)清洗(見圖7),保持?jǐn)?shù)據(jù)的準(zhǔn)確性。在規(guī)劃中首先實(shí)現(xiàn)數(shù)據(jù)去冗,對(duì)話統(tǒng)過期數(shù)據(jù)、工參多余字段集中去除;其次是數(shù)據(jù)去重,去除相同路段多次測(cè)試的數(shù)據(jù),排除話統(tǒng)及性能相同的數(shù)據(jù),保證數(shù)據(jù)唯一性;再次是數(shù)據(jù)糾錯(cuò),結(jié)合數(shù)據(jù)特性,對(duì)統(tǒng)計(jì)異常、工參錯(cuò)誤等數(shù)據(jù)進(jìn)行糾錯(cuò),保證數(shù)據(jù)區(qū)間在合理范圍。

2.2基于大數(shù)據(jù)的關(guān)聯(lián)聚合

根據(jù)數(shù)據(jù)的特征、變量等進(jìn)行“數(shù)據(jù)降維”,從覆蓋,干擾和價(jià)值維度對(duì)數(shù)據(jù)進(jìn)行投影降維,簡(jiǎn)化分析數(shù)據(jù)的復(fù)雜度。同時(shí)運(yùn)用強(qiáng)關(guān)聯(lián)聚合、相近聚合、相關(guān)聚合等聚合模型進(jìn)行“關(guān)聯(lián)聚合”,比如在覆蓋評(píng)估中將道路測(cè)試、路測(cè)掃頻、用戶測(cè)量報(bào)告等信息按照關(guān)聯(lián)強(qiáng)弱聚合,在價(jià)值評(píng)估中將業(yè)務(wù)分布、用戶分布、終端分布等信息按照比例進(jìn)行關(guān)聯(lián)聚合。具體來講,以用戶的地理位置為索引,關(guān)聯(lián)其所在位置的信號(hào)強(qiáng)度,干擾情況,終端支持類型信息,業(yè)務(wù)信息以及所在位置的周圍基站分布情況,周圍環(huán)境情況,人群流動(dòng)情況等等,建立基于時(shí)間、位置、用戶、終端、應(yīng)用等多維度的用戶行為聚合模型。根據(jù)用戶行為模型,分析篩選得到絕對(duì)靜態(tài)用戶數(shù)(靜態(tài)用戶定義為單用戶在某小區(qū)有5天產(chǎn)生流量且每天在該小區(qū)產(chǎn)生流量占當(dāng)天該用戶總流量的70%以上,且產(chǎn)生的流量大于10MB/周)全省共計(jì)3.8萬人,涉及5798個(gè)小區(qū)。根據(jù)用戶在占用靜態(tài)小區(qū)時(shí)上報(bào)的用戶自身所在位置的經(jīng)緯信息(理論上精度平均誤差在55m)結(jié)合基站位置關(guān)聯(lián),發(fā)現(xiàn)定位2G/3G數(shù)據(jù)業(yè)務(wù)成熟度高的區(qū)域。通過精確定位不同用戶上網(wǎng)的地理位置,同時(shí)關(guān)聯(lián)靜態(tài)用戶終端網(wǎng)絡(luò)制式信息,用戶上網(wǎng)習(xí)慣和用戶流量,引導(dǎo)4G站點(diǎn)規(guī)劃,指導(dǎo)指導(dǎo)定向推送4G營(yíng)銷業(yè)務(wù)。

3應(yīng)用情況

基于大數(shù)據(jù)挖掘的LTE網(wǎng)絡(luò)規(guī)劃研究在山東公司LTE網(wǎng)絡(luò)一期網(wǎng)絡(luò)規(guī)劃中得到了廣泛應(yīng)用。通過高價(jià)值區(qū)域定位、干擾問題分析、覆蓋評(píng)估等維度綜合關(guān)聯(lián)性分析,借助2G/3G現(xiàn)網(wǎng)實(shí)測(cè)數(shù)據(jù)實(shí)現(xiàn)了“點(diǎn)、線、面”聯(lián)合評(píng)估,真實(shí)、準(zhǔn)確、全面地對(duì)4G網(wǎng)絡(luò)的價(jià)值流量、重疊覆蓋干擾、弱覆蓋等進(jìn)行了評(píng)估,同時(shí)輸出了LTE工參信息、站址建設(shè)優(yōu)先級(jí),站址地理化呈現(xiàn)等一系列規(guī)劃結(jié)果。通過黑、灰、白名單規(guī)則判斷,輸出了LTE網(wǎng)絡(luò)不建議規(guī)劃的黑名單小區(qū)、通過相關(guān)優(yōu)化調(diào)整后可規(guī)劃灰名單小區(qū)、直接可共址建設(shè)的白名單小區(qū),共評(píng)估一期工程規(guī)劃小區(qū)60653個(gè),發(fā)現(xiàn)低價(jià)值用戶流量少的黑小區(qū)3433個(gè);易產(chǎn)生干擾黑色小區(qū)5021個(gè),灰色站點(diǎn)1265個(gè);覆蓋問題黑色小區(qū)543個(gè),灰色小區(qū)3501個(gè)。通過規(guī)劃質(zhì)量的提高,降低了后續(xù)優(yōu)化調(diào)整的難度,共計(jì)節(jié)約資金11766×0.3=3530萬(注:每個(gè)基站年優(yōu)化費(fèi)用約0.3萬),而且原來人工規(guī)劃、勘察基站的效率大大提升,解放人力成本帶來的直接經(jīng)濟(jì)效益75×10=750萬(注:人力成本節(jié)約75人,含外包,年人均成本10萬),降低了全省網(wǎng)絡(luò)規(guī)劃優(yōu)化的管理成本。通過TD-LTE的大數(shù)據(jù)網(wǎng)絡(luò)規(guī)劃分析,有效指導(dǎo)了4G網(wǎng)絡(luò)規(guī)劃,按照以終為始、聚焦價(jià)值、提高投資收益、建設(shè)精品網(wǎng)絡(luò)的目標(biāo),提升了4G網(wǎng)絡(luò)規(guī)劃的準(zhǔn)確性、合理性。

4結(jié)語

篇7

對(duì)原燃料結(jié)算方式進(jìn)行數(shù)據(jù)挖掘的目的是為了控制結(jié)算成本,采用的方法是根據(jù)超出我方檢斤檢質(zhì)結(jié)算量屬性對(duì)原燃料進(jìn)行分類,構(gòu)建原燃料結(jié)算控制模型。

2數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)收集:需要嚴(yán)格控制我方檢斤檢質(zhì)的過程以作為判斷的依據(jù),同時(shí)盡可能多的從事物數(shù)據(jù)庫(kù)中收集各種原燃料按不同結(jié)算方式所得到的結(jié)算量屬性值。數(shù)據(jù)預(yù)處理:首先根據(jù)經(jīng)驗(yàn)去掉明顯有誤的數(shù)據(jù);其次根據(jù)原燃料結(jié)算方式,選擇與數(shù)據(jù)挖掘相關(guān)的屬性。數(shù)據(jù)變換:對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的變換,從初始特征中找出真正有用的特征。在本次數(shù)據(jù)挖掘中原燃料屬性主要包括:原燃料種類,供方檢斤檢質(zhì)結(jié)算量,我方檢斤檢質(zhì)結(jié)算量,供方檢斤檢質(zhì)與我方檢斤檢質(zhì)之間的結(jié)算量差別。然后根據(jù)我方檢斤檢質(zhì)結(jié)算量與供方檢斤檢質(zhì)結(jié)算量之間的差別作為分類的依據(jù),對(duì)上述屬性進(jìn)行歸一化[1],得到表1、表2數(shù)據(jù)。SupQty表示供方量,SupH2O表示供方水分,Qty表示我方量,H2O表示我方水分,SupInsQty表示供方檢斤檢質(zhì)量,in-sQty表示我方檢斤檢質(zhì)量,calculQty表示供方檢斤檢質(zhì)量與我方檢斤檢質(zhì)量之間的差值。

3數(shù)據(jù)挖掘

通過編程實(shí)現(xiàn)K均值聚類方法[6]來處理表2數(shù)據(jù)。此K-均值算法是發(fā)現(xiàn)給定數(shù)據(jù)集的k個(gè)簇的算法,每個(gè)簇通過其質(zhì)心(centroid),即簇中所有點(diǎn)的中心來描述。首先,隨機(jī)確定k個(gè)初始點(diǎn)作為質(zhì)心,然后將數(shù)據(jù)集中的每個(gè)點(diǎn)分配到一個(gè)簇中,具體來講,就是為每個(gè)點(diǎn)找距其最近的質(zhì)心,并將其分配給該質(zhì)心所對(duì)應(yīng)的簇。這一步完成之后,每個(gè)簇的質(zhì)心更新為該簇所有點(diǎn)的平均值。根據(jù)實(shí)際情況,本文K均值法采用3個(gè)初始點(diǎn)作為質(zhì)心,按歸一化我方檢斤檢質(zhì)和歸一化超出我方檢斤檢質(zhì)量作為分類屬性,得到3個(gè)類的質(zhì)心坐標(biāo),結(jié)果如表3,同時(shí)得到每種原燃料的分類圖,如圖1。

4結(jié)果解釋和評(píng)估

篇8

常見數(shù)據(jù)挖掘技術(shù)包括:分類樹技術(shù)、關(guān)聯(lián)發(fā)現(xiàn)技術(shù)、聚類技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、最優(yōu)集合規(guī)約技術(shù)以及可視數(shù)據(jù)挖掘技術(shù)等。軟件度量數(shù)據(jù)往往具有多維度、高耦合性,軟件工程數(shù)據(jù)挖掘中會(huì)采用一些特殊處理技術(shù),包括統(tǒng)計(jì)分析、回歸建模、分類樹以及神經(jīng)網(wǎng)絡(luò)等。在具體軟件工程實(shí)踐中,選擇何種挖掘技術(shù),其決定性因素為想要達(dá)成的目標(biāo)。

2數(shù)據(jù)挖掘?qū)崿F(xiàn)過程

通常,數(shù)據(jù)挖掘過程包括4個(gè)步驟,即選擇數(shù)據(jù)、預(yù)處理、實(shí)施挖掘以及吸收數(shù)據(jù)。數(shù)據(jù)挖掘整個(gè)過程具有交互性,有時(shí)數(shù)據(jù)需要重新選擇,有時(shí)也要對(duì)數(shù)據(jù)預(yù)處理進(jìn)行改進(jìn),也可能出現(xiàn)算法反復(fù)被調(diào)整現(xiàn)象,基于這種特征,數(shù)據(jù)挖掘時(shí)要設(shè)置反饋環(huán)。挖掘數(shù)據(jù)第1步是將管理和目標(biāo)反映到1個(gè)(或多個(gè))挖掘任務(wù)中,整個(gè)過程可主要?jiǎng)澐殖蔀榱N:1)評(píng)估、預(yù)測(cè)。評(píng)估包括對(duì)軟件產(chǎn)品、過程以及資源的屬性進(jìn)行相應(yīng)檢查就是整個(gè)評(píng)估過程,同時(shí)也需要根據(jù)這些屬性,賦值給未知屬性,當(dāng)然這些未知屬性需要進(jìn)行量化。評(píng)估工作完成后,要對(duì)屬性值進(jìn)行預(yù)測(cè)。2)分類。檢查1個(gè)特定實(shí)體屬性,根據(jù)結(jié)果將其劃分到另1個(gè)類別或范疇(事先定義好)中。3)關(guān)聯(lián)發(fā)現(xiàn)。關(guān)聯(lián)發(fā)現(xiàn)能夠識(shí)別出特定內(nèi)容中互相存在關(guān)聯(lián)某些屬性。如,可將找出在軟件開發(fā)屬性和產(chǎn)品屬性相互關(guān)聯(lián)的內(nèi)容找出來。4)聚類。將1個(gè)結(jié)構(gòu)不相同的群體劃分到另1個(gè)具有相同結(jié)構(gòu)的子群集合中,這個(gè)過程叫做聚類,它的劃分依據(jù)是成員之間具有高度相似性。5)數(shù)據(jù)可視化。數(shù)據(jù)可視化是利用可視化描述方法來定義復(fù)雜信息。6)可視數(shù)據(jù)探察??梢暬瘮?shù)據(jù)探察是對(duì)描述工作的相應(yīng)拓展,可利用數(shù)據(jù)可視化交互控制來分析和檢視海量數(shù)據(jù)[3]。它應(yīng)用具有可視化功能和數(shù)據(jù)挖掘技術(shù)來對(duì)數(shù)據(jù)進(jìn)行處理。

3挖掘技術(shù)在軟件工程中應(yīng)用

上文提及到軟件工程度量,部分可利用信息已在海量數(shù)據(jù)中被提取出來,但普遍認(rèn)為更為有效且數(shù)量眾多的數(shù)據(jù)依然在軟件工程相關(guān)數(shù)據(jù)庫(kù)中隱藏,而沒有被發(fā)現(xiàn)。實(shí)際上,數(shù)據(jù)挖掘就是1種被公認(rèn)為提升軟件工程度量的技術(shù)。圖1為數(shù)據(jù)挖掘在軟件工程中的應(yīng)用。

3.1數(shù)據(jù)挖掘繁榮原因1)計(jì)算機(jī)硬件系統(tǒng)和軟件系統(tǒng)的基礎(chǔ)設(shè)施建立具備發(fā)現(xiàn)驅(qū)動(dòng)、分析數(shù)據(jù)等功能;2)每種技術(shù)都在實(shí)際應(yīng)用中不斷得到改進(jìn),其使用能力不斷提升。如,模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等有明顯進(jìn)步趨勢(shì);3)數(shù)據(jù)存儲(chǔ)、貯藏、集成成本不高,海量數(shù)據(jù)可輕松獲得。數(shù)據(jù)挖掘技術(shù)被人們認(rèn)識(shí),并在實(shí)踐中逐漸被重視,同時(shí)也給研究和進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)提供了便利條件。

3.2面臨挑戰(zhàn)軟件工程自身存在很多數(shù)據(jù)上的特殊性,給數(shù)據(jù)挖掘領(lǐng)域研究工作帶來制約和影響,主要表現(xiàn)在以下三個(gè)方面:1)數(shù)據(jù)復(fù)雜。軟件工程數(shù)據(jù)主要分為兩個(gè)組成部分,即結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括缺陷報(bào)告、版本信息等內(nèi)容,而非結(jié)構(gòu)化數(shù)據(jù)則包含數(shù)據(jù)代碼、相應(yīng)注釋以及文檔等內(nèi)容。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并不能同時(shí)適用一種算法,而且兩種數(shù)據(jù)間還存在對(duì)應(yīng)聯(lián)系。如,1個(gè)缺陷報(bào)告中往往包括缺陷代碼段。而結(jié)構(gòu)化數(shù)據(jù)里常常涵蓋部分非結(jié)構(gòu)化信息,非結(jié)構(gòu)化數(shù)據(jù)中亦是如此,這也是今后工作中需要重點(diǎn)解決的問題之一。2)非傳統(tǒng)分析存在局限。數(shù)據(jù)挖掘最終想實(shí)現(xiàn)的目標(biāo)就是將轉(zhuǎn)化而來的信息傳達(dá)給用戶,實(shí)現(xiàn)信息共享。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在使用過程中,信息手段比較單一,如文字、圖表等表達(dá)形式。其實(shí),軟件開發(fā)商對(duì)信息的要求很高,1個(gè)統(tǒng)計(jì)結(jié)果根本不能滿足其工作需求。為促進(jìn)軟件開發(fā)不斷向上發(fā)展,開發(fā)人員需要相關(guān)信息作為參考依據(jù),包括開發(fā)實(shí)際案例、編程所需模板、系統(tǒng)缺陷定位以及軟件結(jié)構(gòu)設(shè)計(jì)等。研究數(shù)據(jù)挖掘技術(shù),提升其實(shí)際使用功能,需要不斷提交新信息、新知識(shí),并改進(jìn)相應(yīng)手方法。3)挖掘結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)不夠具體。軟件工程數(shù)據(jù)挖掘尚未形成完善的結(jié)果表示體系,其評(píng)價(jià)體系也有待加強(qiáng)。人員在軟件開發(fā)過程中需要大量信心,這些信息非常具體且復(fù)雜,表示方法不盡相同,互相之間難以做出對(duì)比,也很難用定量方法去分析挖掘結(jié)果。

4結(jié)束語

篇9

目前計(jì)算機(jī)網(wǎng)絡(luò)教學(xué)的模式可以分為如下幾種:

1)網(wǎng)絡(luò)教學(xué):包含異步學(xué)習(xí)模式與同步學(xué)習(xí)模式,泛指教師與學(xué)生都不用到傳統(tǒng)的教室去上課,只要上網(wǎng)到網(wǎng)絡(luò)教室中就可以進(jìn)行許多教與學(xué)的活動(dòng)。

2)遠(yuǎn)程教室:在各大專院校設(shè)立有許多遠(yuǎn)程教學(xué)同步視頻教室。在該教室中建置了許多視頻影音的設(shè)備,用來進(jìn)行課程的實(shí)時(shí)轉(zhuǎn)播工作。

3)網(wǎng)絡(luò)同步教室:網(wǎng)絡(luò)教學(xué)活動(dòng)可以區(qū)分為異步與同步的教學(xué)活動(dòng),其區(qū)別在于是否實(shí)時(shí)。教師和同學(xué)在約定的同一時(shí)間,通過Inter-net網(wǎng)絡(luò)進(jìn)行在線實(shí)時(shí)的課程教授的教學(xué)環(huán)境,就可稱之為網(wǎng)絡(luò)同步教室。在網(wǎng)絡(luò)同步教室中提供許多教學(xué)相關(guān)的輔助工具及互動(dòng)相關(guān)的功能,以協(xié)助課程的進(jìn)行。研究者希望通過數(shù)據(jù)挖掘的方法,來分析教師對(duì)于網(wǎng)絡(luò)教學(xué)環(huán)境的觀念,并提供教師在網(wǎng)絡(luò)同步教室中類似傳統(tǒng)教學(xué)環(huán)境的教學(xué)模式,以增加教師采用網(wǎng)絡(luò)教學(xué)的意愿。本研究將先就“傳統(tǒng)教學(xué)”、“遠(yuǎn)程教學(xué)”及“網(wǎng)絡(luò)同步教學(xué)”的環(huán)境因素、教學(xué)方式、師生互動(dòng)、學(xué)習(xí)成效等構(gòu)面進(jìn)行分析比較,來區(qū)分出這三種教學(xué)環(huán)境的優(yōu)缺點(diǎn)及差異,并將依據(jù)目前教師在傳統(tǒng)教學(xué)中的教學(xué)模式,實(shí)際應(yīng)用在網(wǎng)絡(luò)同步教室中來施行,讓參與網(wǎng)絡(luò)教學(xué)的教師可以了解如何運(yùn)用網(wǎng)絡(luò)同步教室來經(jīng)營(yíng)一門高質(zhì)量的課程。首先將推行計(jì)算機(jī)網(wǎng)絡(luò)教學(xué)遇到的問題,大致上區(qū)分成以下幾個(gè)主要因素:

1)數(shù)字教材的制作或取得不易:學(xué)校對(duì)于數(shù)字教材的取得感到憂心,大多要求學(xué)校教師自行制作,對(duì)教師而言會(huì)增加額外的負(fù)擔(dān),導(dǎo)致教師對(duì)網(wǎng)絡(luò)教學(xué)產(chǎn)生抗拒的心理。

2)教師對(duì)網(wǎng)絡(luò)教學(xué)的成效產(chǎn)生質(zhì)疑:教師普遍認(rèn)為網(wǎng)絡(luò)教學(xué)環(huán)境的教學(xué)效果沒有辦法像傳統(tǒng)教學(xué)環(huán)境一樣,可以和學(xué)生有高度的互動(dòng),不認(rèn)為網(wǎng)絡(luò)學(xué)習(xí)會(huì)比較有教學(xué)成效。

3)教師對(duì)參與網(wǎng)絡(luò)教學(xué)的意愿低落:教師必須花費(fèi)許多時(shí)間和學(xué)生互動(dòng),比往常還需要花費(fèi)更多的時(shí)間去回答學(xué)生的問題、關(guān)心學(xué)生的學(xué)習(xí)狀況,教師普遍認(rèn)為網(wǎng)絡(luò)學(xué)習(xí)對(duì)教師來說不會(huì)比較輕松。將此主要因素做成調(diào)查問卷,對(duì)數(shù)據(jù)進(jìn)行聚類分析,則可以找到主要的影響因素,獲得教師對(duì)于網(wǎng)絡(luò)教學(xué)環(huán)境的態(tài)度,進(jìn)而選擇更加有效的授課形式,以此提供類似傳統(tǒng)教學(xué)環(huán)境的教學(xué)模式,以提高教師采用網(wǎng)絡(luò)教學(xué)的意愿。

二、總結(jié)

篇10

關(guān)鍵字:數(shù)據(jù)挖掘金融數(shù)據(jù)

金融部門每天的業(yè)務(wù)都會(huì)產(chǎn)生大量數(shù)據(jù),利用目前的數(shù)據(jù)庫(kù)系統(tǒng)可以有效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。與此同時(shí),金融機(jī)構(gòu)的運(yùn)作必然存在金融風(fēng)險(xiǎn),風(fēng)險(xiǎn)管理是每一個(gè)金融機(jī)構(gòu)的重要工作。利用數(shù)據(jù)挖掘技術(shù)不但可以從這海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其后的規(guī)律,而且可以很好地降低金融機(jī)構(gòu)存在的風(fēng)險(xiǎn)。學(xué)習(xí)和應(yīng)用數(shù)扼挖掘技術(shù)對(duì)我國(guó)的金融機(jī)構(gòu)有重要意義。

一、數(shù)據(jù)挖掘概述

1.數(shù)據(jù)挖掘的定義對(duì)于數(shù)據(jù)挖掘,一種比較公認(rèn)的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)、這些知識(shí)是隱含的、事先未知的、潛在有用的信息,提取的知識(shí)表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個(gè)定義把數(shù)據(jù)挖掘的對(duì)象定義為數(shù)據(jù)庫(kù)。

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其應(yīng)用領(lǐng)域也不斷拓廣。數(shù)據(jù)挖掘的對(duì)象已不再僅是數(shù)據(jù)庫(kù),也可以是文件系統(tǒng),或組織在一起的數(shù)據(jù)集合,還可以是數(shù)據(jù)倉(cāng)庫(kù)。與此同時(shí),數(shù)據(jù)挖掘也有了越來越多不同的定義,但這些定義盡管表達(dá)方式不同,其本質(zhì)都是近似的,概括起來主要是從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。

從技術(shù)角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識(shí)的過程。它是一門廣義的交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫(kù)系統(tǒng)、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化等多學(xué)科領(lǐng)域且本身還在不斷發(fā)展。目前有許多富有挑戰(zhàn)的領(lǐng)域如文本數(shù)據(jù)挖掘、Web信息挖掘、空間數(shù)據(jù)挖掘等。

從商業(yè)角度看,數(shù)據(jù)挖掘是一種深層次的商業(yè)信息分析技術(shù)。它按照企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性并進(jìn)一步將其模型化,從而自動(dòng)地提取出用以輔助商業(yè)決策的相關(guān)商業(yè)模式。

2.數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)技術(shù)和人工智能技術(shù)發(fā)展的產(chǎn)物。從使用的技術(shù)角度,主要的數(shù)據(jù)挖掘方法包括:

2.1決策樹方法:利用樹形結(jié)構(gòu)來表示決策集合,這些決策集合通過對(duì)數(shù)據(jù)集的分類產(chǎn)生規(guī)則。國(guó)際上最有影響和最早的決策樹方法是ID3方法,后來又發(fā)展了其它的決策樹方法。

2.2規(guī)則歸納方法:通過統(tǒng)計(jì)方法歸納,提取有價(jià)值的if-then規(guī)則。規(guī)則歸納技術(shù)在數(shù)據(jù)挖掘中被廣泛使用,其中以關(guān)聯(lián)規(guī)則挖掘的研究開展得較為積極和深入。

2.3神經(jīng)網(wǎng)絡(luò)方法:從結(jié)構(gòu)上模擬生物神經(jīng)網(wǎng)絡(luò),以模型和學(xué)習(xí)規(guī)則為基礎(chǔ),建立3種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。這種方法通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測(cè)模型,可以完成分類、聚類和特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。

2.4遺傳算法:模擬生物進(jìn)化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個(gè)基本算子組成。為了應(yīng)用遺傳算法,需要將數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問題,從而發(fā)揮遺傳算法的優(yōu)化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數(shù)學(xué)家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數(shù)學(xué)工具。它特別適合于數(shù)據(jù)簡(jiǎn)化,數(shù)據(jù)相關(guān)性的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)意義,發(fā)現(xiàn)數(shù)據(jù)的相似或差別,發(fā)現(xiàn)數(shù)據(jù)模式和數(shù)據(jù)的近似分類等,近年來已被成功地應(yīng)用在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究領(lǐng)域中。

2.6K2最鄰近技術(shù):這種技術(shù)通過K個(gè)最相近的歷史記錄的組合來辨別新的記錄。這種技術(shù)可以作為聚類和偏差分析等挖掘任務(wù)。

2.7可視化技術(shù):將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢(shì)等以直觀的圖形方式表示,決策者可以通過可視化技術(shù)交互地分析數(shù)據(jù)關(guān)系??梢暬瘮?shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對(duì)數(shù)據(jù)的剖析更清楚。

二、數(shù)據(jù)挖掘在金融行業(yè)中的應(yīng)用數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于銀行和商業(yè)中,有以下的典型應(yīng)用:

1.對(duì)目標(biāo)市場(chǎng)(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲(chǔ)蓄和貨款償還行為的客戶分為一組。有效的聚類和協(xié)同過濾(collaborativefiltering)方法有助于識(shí)別客戶組,以及推動(dòng)目標(biāo)市場(chǎng)。

2..客戶價(jià)值分析。

在客戶價(jià)值分析之前一般先使用客戶分類,在實(shí)施分類之后根據(jù)“二八原則”,找出重點(diǎn)客戶,即對(duì)給銀行創(chuàng)造了80%價(jià)值的20%客戶實(shí)施最優(yōu)質(zhì)的服務(wù)。重點(diǎn)客戶的發(fā)現(xiàn)通常采用一系列數(shù)據(jù)處理、轉(zhuǎn)換過程、AI人工智能等數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)。通過分析客戶對(duì)金融產(chǎn)品的應(yīng)用頻率、持續(xù)性等指標(biāo)來判別客戶的忠誠(chéng)度;通過對(duì)交易數(shù)據(jù)的詳細(xì)分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。

3.客戶行為分析。

找到重點(diǎn)客戶之后,可對(duì)其進(jìn)行客戶行為分析,發(fā)現(xiàn)客戶的行為偏好,為客戶貼身定制特色服務(wù)??蛻粜袨榉治鲇址譃檎w行為分析和群體行為分析。整體行為分析用來發(fā)現(xiàn)企業(yè)現(xiàn)有客戶的行為規(guī)律。同時(shí),通過對(duì)不同客戶群組之間的交叉挖掘分析,可以發(fā)現(xiàn)客戶群體間的變化規(guī)律,并可通過數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清潔與集中過程,將客戶對(duì)市場(chǎng)的反饋?zhàn)詣?dòng)輸人到數(shù)據(jù)倉(cāng)庫(kù)中。通過對(duì)客戶的理解和客戶行為規(guī)律的發(fā)現(xiàn),企業(yè)可以制定相應(yīng)的市場(chǎng)策略。

4.為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)。例如,人們可能希望按月、按地區(qū)、按部門、以及按其他因素查看負(fù)債和收入的變化情況,同時(shí)希望能提供諸如最大、最小、總和、平均和其他等統(tǒng)計(jì)信息。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體,特征和比較分析,以及孤立點(diǎn)分析等,都會(huì)在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。

5.貨款償還預(yù)測(cè)和客戶信用政策分析。有很多因素會(huì)對(duì)貨款償還效能和客戶信用等級(jí)計(jì)算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關(guān)性計(jì)算,有助于識(shí)別重要的因素,別除非相關(guān)因素。例如,與貨款償還風(fēng)險(xiǎn)相關(guān)的因素包括貨款率、資款期限、負(fù)債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區(qū)、信用歷史,等等。而其中償還與收入比率是主導(dǎo)因素,受教育水平和負(fù)債率則不是。銀行可以據(jù)此調(diào)整貨款發(fā)放政策,以便將貨款發(fā)放給那些以前曾被拒絕,但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對(duì)低風(fēng)險(xiǎn)的申請(qǐng)。

6.業(yè)務(wù)關(guān)聯(lián)分析。通過關(guān)聯(lián)分析可找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),銀行存儲(chǔ)了大量的客戶交易信息,可對(duì)客戶的收人水平、消費(fèi)習(xí)慣、購(gòu)買物種等指標(biāo)進(jìn)行挖掘分析,找出客戶的潛在需求;通過挖掘?qū)蛻粜畔?,銀行可以作為廠商和消費(fèi)者之間的中介,與廠商聯(lián)手,在掌握消費(fèi)者需求的基礎(chǔ)上,發(fā)展中間業(yè)務(wù),更好地為客戶服務(wù)。

7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點(diǎn)是要把多個(gè)數(shù)據(jù)庫(kù)的信息集成起來,然后采用多種數(shù)據(jù)分析工具找出異常模式,如在某段時(shí)間內(nèi),通過某一組人發(fā)生大量現(xiàn)金流量等,再運(yùn)用數(shù)據(jù)可視化工具、分類工具、聯(lián)接工具、孤立點(diǎn)分析工具、序列模式分析工具等,發(fā)現(xiàn)可疑線索,做出進(jìn)一步的處理。

數(shù)據(jù)挖掘技術(shù)可以用來發(fā)現(xiàn)數(shù)據(jù)庫(kù)中對(duì)象演變特征或?qū)ο笞兓厔?shì),這些信息對(duì)于決策或規(guī)劃是有用的,金融

行業(yè)數(shù)據(jù)的挖掘有助于根據(jù)顧客的流量安排工作人員??梢酝诰蚬善苯灰讛?shù)據(jù),發(fā)現(xiàn)可能幫助你制定投資策略的趨勢(shì)數(shù)據(jù)。挖掘給企業(yè)帶來的潛在的投資回報(bào)幾乎是無止境的。當(dāng)然,數(shù)據(jù)挖掘中得到的模式必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。

參考文獻(xiàn):

丁秋林,力士奇.客戶關(guān)系管理.第1版.北京:清華人學(xué)出版社,2002

張玉春.數(shù)據(jù)挖掘在金融分析中的應(yīng)用.華南金融電腦.2004