云計算技術(shù)下數(shù)據(jù)挖掘探討
時間:2022-12-07 10:24:27
導語:云計算技術(shù)下數(shù)據(jù)挖掘探討一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:對于云計算而言,就是互聯(lián)網(wǎng)時代應(yīng)用而產(chǎn)生的一種新的網(wǎng)絡(luò)技術(shù)。它有著很高的效率、高容量和動態(tài)處理的優(yōu)點,并且在社會的商業(yè)與科學研究等領(lǐng)域上顯示出了非常高的使用價值。云計算時代隨著快速的發(fā)展,而云計算海量數(shù)據(jù)挖掘也已成為了一種實用、高效、可行的技術(shù),解決了傳統(tǒng)數(shù)據(jù)挖掘無法適應(yīng)日益增長的數(shù)據(jù)量的問題。為了探索云計算技術(shù)中數(shù)據(jù)挖掘平臺的構(gòu)建,基于云計算技術(shù),構(gòu)建了一個基于數(shù)量優(yōu)化的數(shù)據(jù)挖掘平臺,并且對構(gòu)建平臺的架構(gòu)和關(guān)鍵技術(shù)進行了分析。結(jié)果表明在實際的應(yīng)用之中,利用云計算技術(shù)構(gòu)建的數(shù)據(jù)挖掘平臺,不僅有助于可以突破傳統(tǒng)數(shù)據(jù)挖掘的性能瓶頸,而且還可以利用云計算技術(shù)對大數(shù)據(jù)集進行處理,并且對于數(shù)據(jù)挖掘平臺的效率也可以提高,在應(yīng)用之中能夠起到積極的作用,在實踐中可以推動該數(shù)據(jù)挖掘平臺構(gòu)建的應(yīng)用。
關(guān)鍵詞:平臺構(gòu)建;數(shù)據(jù)挖掘平臺;云計算;信息化
隨著計算機技術(shù)與計算機網(wǎng)絡(luò)的快速發(fā)展,尤其是網(wǎng)絡(luò)計算和云計算的逐步發(fā)展,已經(jīng)有越來越多的數(shù)據(jù)分布被儲存在了網(wǎng)絡(luò)之中,而對于在大規(guī)模的數(shù)據(jù)集之中如何提取有效地信息也就變得越來越重要[8]。對于數(shù)據(jù)挖掘技術(shù)來說,它可以促進人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提高到高層次的查詢,能夠在挖掘知識的同時并提供決策支持。另外,隨著各行業(yè)的業(yè)務(wù)自動化的實現(xiàn),對于商務(wù)領(lǐng)域的業(yè)務(wù)信息目標已經(jīng)不再只是通過使用簡單的數(shù)據(jù)分析來進行收集,而更多的則是借助于對商務(wù)的運作,通過對大量的數(shù)據(jù)進行深入探索分析,從而可以使企業(yè)能夠獲得經(jīng)營決策之中的有利用價值的信息,并且使競爭力得以提升,最終可以實現(xiàn)效益的最大化。對于最近幾年最熱門的云計算技術(shù)而言,其實它并不完全屬于一種全新的技術(shù),而是因為近些年來的它的快速發(fā)展和廣闊的應(yīng)用,已經(jīng)成為一項熱門的技術(shù),同時它還推動了傳統(tǒng)思維的信息提供方式與ICI系統(tǒng)交付模式向商業(yè)化形式的轉(zhuǎn)變。將目前現(xiàn)有的數(shù)據(jù)挖掘技術(shù)與云計算的高虛擬化和高可用性的特征實行有效地結(jié)合,可以讓之前的大規(guī)模數(shù)據(jù)的增加所造成的多樣化數(shù)據(jù)挖掘的需求適應(yīng)性問題得到很好的滿足,從而使大量的數(shù)據(jù)挖掘的效率和準確性得到提高。此次,通過研究分析傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的發(fā)展與云計算技術(shù)的發(fā)展現(xiàn)狀的對比,以及結(jié)合新興的互聯(lián)網(wǎng)技術(shù),從而使現(xiàn)有的模型架構(gòu)的使用難點得到解決。同時還在云計算的基礎(chǔ)之上,我們提出了對于大數(shù)據(jù)挖掘平臺模型體系架構(gòu)的研究思緒,企業(yè)或者運營商通過該模型的框架,能夠按照自己的需求來對內(nèi)部數(shù)據(jù)挖掘模式進行建設(shè),以此可以實現(xiàn)更有效的商業(yè)利用價值。
1云計算技術(shù)分析
對于云計算而言,它是通過在網(wǎng)絡(luò)計算、分布式處理、并行處理等新的計算模型,主要是屬于一種基于互聯(lián)網(wǎng)的計算。而且云計算也還屬于一項計算服務(wù),而不僅僅只是一種產(chǎn)品,它的組成主要分別為計算資源和軟件以及各種信息等[16]。另外,云計算技術(shù)所具有的特點主要有以下幾點:第一,使用云計算能夠隨時提供自助服務(wù);第二,云計算網(wǎng)絡(luò)系統(tǒng)可以通過各種各樣的網(wǎng)絡(luò)設(shè)備隨時隨地的進行訪問;第三,在云計算之中可以建立保證多人共享的資源池;第四,在云計算之中,云計算技術(shù)也可以快速地進行部署,將應(yīng)用的靈活性充分發(fā)揮出等。同時,相關(guān)的研究表明,云計算技術(shù)主要是給網(wǎng)絡(luò)之中的交易雙方而進行虛擬增值資源的供給服務(wù)[11]。并且在數(shù)據(jù)挖掘平臺的實際建設(shè)之中,通過使用云計算技術(shù),可以在應(yīng)用中起到積極的作用。
2基于云計算大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)
2.1數(shù)據(jù)采集和儲存。對于大數(shù)據(jù)的采集技術(shù)來說,可以通過使用不同的方法來獲得各類非結(jié)構(gòu)化和半結(jié)構(gòu)化與結(jié)構(gòu)化的大數(shù)據(jù),比如有RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)以及移動互聯(lián)網(wǎng)數(shù)據(jù)等方法。并且隨著科學技術(shù)的不斷發(fā)展,數(shù)據(jù)信息的增長速度也越來越快,特別是非結(jié)構(gòu)化數(shù)據(jù)。因此,要想使大數(shù)據(jù)的存儲能夠完成,則必須要具備良好的性能、高吞吐率、容量大的基礎(chǔ)設(shè)備2.2數(shù)據(jù)預(yù)處理。所謂的數(shù)據(jù)預(yù)處理指的就是在對挖掘任務(wù)進行之前需要對不規(guī)則的大數(shù)據(jù)與非標準的大數(shù)據(jù)進行的初步預(yù)先處理。而真是有效地數(shù)據(jù)則必須要有正確可靠的結(jié)果。而且在對數(shù)據(jù)進行預(yù)處理的過程當中還主要包含對數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、集成、數(shù)據(jù)規(guī)約、異常檢測等等,因此,這些大量的數(shù)據(jù)必須要在對數(shù)據(jù)進行挖掘之前就需要對其進行數(shù)據(jù)預(yù)處理,從而使得處理過后的數(shù)據(jù)質(zhì)量更高,同時數(shù)據(jù)挖掘也會更加有效可靠。2.3數(shù)據(jù)挖掘算法并行化。對于數(shù)據(jù)挖掘算法并行化的實現(xiàn),主要借助于云計算數(shù)據(jù)挖掘的最關(guān)鍵的技術(shù),能夠最大化的提高大數(shù)據(jù)挖掘的適用性,而且該技術(shù)還主要包含有并行關(guān)聯(lián)、聚類、分類和回歸算法[3]。只有通過利用數(shù)據(jù)挖掘的常用算法并行化的方法才可以是實現(xiàn)相應(yīng)的優(yōu)化,同時才能夠在云計算的平臺上來使用MapReduce計算模型,并且才可以使大數(shù)據(jù)挖掘任務(wù)在平臺上的直接運行得到滿足。因此,就有必要對數(shù)據(jù)挖掘算法的并行化的實現(xiàn)進行深入的研究,只有這樣才會使得大數(shù)據(jù)挖掘能夠得到有效的實現(xiàn)。2.4數(shù)據(jù)展現(xiàn)和應(yīng)用技術(shù)。數(shù)據(jù)的展現(xiàn)和應(yīng)用技術(shù)能夠有效地進行挖掘大規(guī)模數(shù)據(jù)當中的潛在信息和知識,并且將復(fù)雜的數(shù)據(jù)分析結(jié)果可以進行直觀、清晰地展示出來,從而可以使歷史數(shù)據(jù)的重讀與分析過程的可視化得以實現(xiàn),并且能夠讓社會經(jīng)濟集約化水平得到提高。目前,對于我國而言,大數(shù)據(jù)主要應(yīng)用的領(lǐng)域是在政府決策、公共服務(wù)、商業(yè)智能等。
3平臺構(gòu)建需求
3.1保證滿足數(shù)據(jù)挖掘的需求。目前,對于我國來說,數(shù)據(jù)的挖掘工作已經(jīng)越來越受到人們的重視,然而對傳統(tǒng)的數(shù)據(jù)挖掘管理模式的應(yīng)用,目前還不能夠完全地適應(yīng)科技信息化的快速發(fā)展的需要[18]。因此,在實際的應(yīng)用之中,讓先進的云計算技術(shù)運用到數(shù)據(jù)挖掘平臺的建設(shè)之中已經(jīng)屬于勢在必行。另外,隨著我國信息技術(shù)的不斷發(fā)展,對于網(wǎng)絡(luò)中所存在的大量的用戶數(shù)據(jù)信息,將會通過運用數(shù)據(jù)挖掘技術(shù),可以幫助大量用戶可以在數(shù)據(jù)中挖掘出有用的信息。3.2確保滿足用戶使用該平臺的需求。云計算技術(shù)與數(shù)據(jù)挖掘的結(jié)合和基于云計算技術(shù)的數(shù)據(jù)平臺的設(shè)計,可以保證用戶的運用目標的多樣性的需求得到充分滿足,從而可以保證構(gòu)建的數(shù)據(jù)平臺能夠滿足用戶的需要。在對云計算技術(shù)所支持的數(shù)據(jù)挖掘平臺的建設(shè)之中,能夠?qū)υ朴嬎愕南嚓P(guān)技術(shù)優(yōu)化應(yīng)用,為了可以在數(shù)據(jù)挖掘平臺之中構(gòu)建相應(yīng)的云計算池,還必須要進行建立網(wǎng)絡(luò)池和云計算資源池,才能夠確保在運行數(shù)據(jù)挖掘平臺之中可以有效地利用數(shù)據(jù)資源;同樣,對數(shù)據(jù)挖掘的需求可以按照行業(yè)不同選擇合理的云計算技術(shù),從而優(yōu)化云計算數(shù)據(jù)挖掘平臺的建設(shè)。3.3確保提升平臺實時性與交互性。在數(shù)據(jù)挖掘平臺的優(yōu)化建設(shè)中,基于云計算技術(shù),必須要保證系統(tǒng)的平臺能夠得到實時監(jiān)控,從而方便及時地對數(shù)據(jù)挖掘平臺的運行情況進行管理和掌握。相同的利用云計算技術(shù),必須要對數(shù)據(jù)挖掘平臺的構(gòu)建進行優(yōu)化,不僅可以提高程序自動化的水平,同時還可以使平臺中的挖掘數(shù)據(jù)信息實現(xiàn)交互共享。
4在云計算技術(shù)下構(gòu)建出數(shù)據(jù)挖掘平臺
為了能夠獲取到更加準確的結(jié)果,數(shù)據(jù)挖掘通常會使用相對較大的數(shù)據(jù)集,在高性能的計算時代,大規(guī)模的數(shù)據(jù)就必須要提高運算的速度,同時,也會增加了超級計算機的成本,最終將會無法承擔高成本。云計算技術(shù)可以通過采取并行計算技術(shù)和分布式計算技術(shù)而建設(shè)高吞吐量的計算系統(tǒng),從而可以解決上述的問題[17]。此外,云計算還具備分布式計算和分布式存儲兩方面的優(yōu)點,這與單機處理相比更加具有很大的優(yōu)勢。因此,有必要建立一個基于云計算的數(shù)據(jù)挖掘平臺,進而可以利用平臺為大數(shù)據(jù)提供存儲與挖掘的能力,同時平臺從下向上可以分為基礎(chǔ)層、服務(wù)層、業(yè)務(wù)層等三個層次。具體的平臺架構(gòu)如圖1所示。4.1平臺功能分析。在此次數(shù)據(jù)挖掘平臺的設(shè)計之中,通過使用云計算技術(shù),能夠有效地實現(xiàn)數(shù)據(jù)挖掘服務(wù),從而可以挖掘到準確可靠的信息。圖2所示為功能結(jié)構(gòu)圖。圖2功能圖它還可以使用先進的云計算技術(shù),將安全可靠性高與低碳環(huán)保的智能化數(shù)據(jù)裝置進行結(jié)合,并在高速網(wǎng)絡(luò)通信平臺的基礎(chǔ)上,對數(shù)據(jù)挖掘平臺進行優(yōu)化,以保證平臺不僅使自動數(shù)據(jù)采樣、數(shù)據(jù)挖掘和隱私保護及查詢等功能能夠完成,而且還可以按照平臺的實際需求進行設(shè)計,從而可以使實時化的只能監(jiān)控、調(diào)節(jié)和交互等功能得到保障。同時,云計算技術(shù)還可以用來優(yōu)化平臺的數(shù)據(jù)挖掘模型的建模方法,構(gòu)建一個集成的信息編程平臺,從而提供一致、可靠和完整的數(shù)據(jù)挖掘結(jié)果,而且可以保證所設(shè)計的憑條能使用戶需求得到滿足。4.2構(gòu)建云計算技術(shù)下的XML文件挖掘系統(tǒng)。在數(shù)據(jù)挖掘的平臺之中,首先對XML文件進行處理,可以使數(shù)據(jù)挖掘多個關(guān)系表中分散的數(shù)據(jù)通過利用云計算技術(shù)對數(shù)據(jù)進行重新整合,從而使這些數(shù)據(jù)能形成完整的XML文件。因此,在數(shù)據(jù)挖掘平臺的建設(shè)之中,我們應(yīng)對XML挖掘部分進行優(yōu)化和構(gòu)建,對XML的處理系統(tǒng)構(gòu)架需要簡化,同時利用面向?qū)ο蟮姆椒ǎ谠朴嬎惴椒ǖ幕A(chǔ)上進行構(gòu)建編程對象模型,方便互操作性和可擴展性得以實現(xiàn)。類似地,在數(shù)據(jù)挖掘中,通過利用平臺中關(guān)系數(shù)據(jù)庫中的XML挖掘的方法,按照XML中任意兩個節(jié)點的編碼來進行判斷兩個節(jié)點之間的關(guān)系,從而可以從中挖掘出有用的XML文件信息。4.3數(shù)據(jù)挖掘步驟。在云計算技術(shù)的數(shù)據(jù)挖掘平臺的基礎(chǔ)之上,對于大量數(shù)據(jù)的存儲平臺內(nèi)來進行數(shù)據(jù)挖掘,而且還必須和許多不一樣的智能處理算法相結(jié)合來對數(shù)據(jù)進行挖掘運算,而且對于那些挖掘出來的重要數(shù)據(jù),通過進行相關(guān)的評價和迭代分析,最終就可以得到的數(shù)據(jù)挖掘出的數(shù)據(jù)最優(yōu)。在實踐中,基于云計算技術(shù)的數(shù)據(jù)挖掘的步驟如圖3所示。第一,主要是先要對此次挖掘數(shù)據(jù)的主題確定;第二,可以利用如Clementine、Qracle數(shù)據(jù)庫等商業(yè)挖掘工具來對相關(guān)數(shù)據(jù)進行處理;第三,對數(shù)據(jù)進行采樣和選擇,然后依照數(shù)據(jù)的趨勢和分布統(tǒng)計等方法,來對數(shù)據(jù)挖掘的模型進行構(gòu)建;第四,對數(shù)據(jù)挖掘模型進行評價,從而能提取出有利的數(shù)據(jù)信息。
5結(jié)語
隨著互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展和信息的總量的高速增長,世界將會面臨著大數(shù)據(jù)的挑戰(zhàn)。然而云計算的大量數(shù)據(jù)信息和強大的計算和數(shù)據(jù)處理功能,可以為數(shù)據(jù)挖掘給予強有力的支持。鑒于云計算的數(shù)據(jù)挖掘系統(tǒng),它所具備的很多優(yōu)點是數(shù)據(jù)挖掘系統(tǒng)以前所沒有的,因此,它可以為企業(yè)用戶與個人用戶的數(shù)據(jù)挖掘任務(wù)提供一個很好的解決方法[13]。此外,通過構(gòu)建基于云計算技術(shù)下的數(shù)據(jù)挖掘平臺,使云計算技術(shù)之中的若干資源可以面向業(yè)務(wù)的數(shù)據(jù)挖掘應(yīng)用,起到了積極的作用,同時,平臺的用戶也可以獲取到大量的數(shù)據(jù)挖掘功能和大量數(shù)據(jù)的存儲功能,從而使數(shù)據(jù)管理、計算和分析的軟件與硬件的成本降低。
作者:王鵬 單位:陜西財經(jīng)職業(yè)技術(shù)學院