云計算數(shù)據(jù)挖掘平臺設計研究

時間:2022-09-15 11:09:12

導語:云計算數(shù)據(jù)挖掘平臺設計研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

云計算數(shù)據(jù)挖掘平臺設計研究

摘要:在云計算背景下,海量數(shù)據(jù)之間會相互影響,影響了既定的關聯(lián)原則,線性思維占據(jù)主導性地位,數(shù)據(jù)挖掘效果較差。簡要分析當前傳統(tǒng)思維方式下數(shù)據(jù)挖掘平臺存在的問題,并將該思維方式轉變?yōu)榉植际剿季S,介紹了在分布式思維下建立數(shù)據(jù)挖掘平臺的優(yōu)勢,并分析建立、設計方案。該方案可以有效解決冗余干擾問題,計算出區(qū)域內部的相似程度,在分布式思維數(shù)據(jù)之間產(chǎn)生關聯(lián)。

關鍵詞:分布式思維,云計算數(shù)據(jù)挖掘平臺,架構設計

云計算技術應用價值較高,具有靈活性的特點。但海量數(shù)據(jù)之間會產(chǎn)生相互干擾,影響了既定的關聯(lián)原則,需要提出一種基于分布式自適應的云計算數(shù)據(jù)挖掘算法,提高挖掘精度,改善傳統(tǒng)算法中存在的問題,完善仿真實驗性能[1]。

1線性思維下數(shù)據(jù)挖掘平臺存在的問題分析

目前,我國處于信息化時代,使用互聯(lián)網(wǎng)、移動設備端查詢信息會產(chǎn)生較多瀏覽痕跡、數(shù)據(jù)等,如何存儲、處理及挖掘數(shù)據(jù)是重要的技術問題。線性數(shù)據(jù)關聯(lián)規(guī)則挖掘算法是數(shù)據(jù)挖掘平臺設計的理論基礎,需要運用智能化方式處理數(shù)據(jù)庫中的信息,運用可視化技術、統(tǒng)計學知識、數(shù)據(jù)庫技術、模糊識別、深度學習、機器學習和人工智能等多種領域的知識解決一系列的決策問題。以線性思維為主的數(shù)據(jù)挖掘平臺的設計流程主要包含結果表達、數(shù)據(jù)挖掘及準備數(shù)據(jù)三個過程。數(shù)據(jù)挖掘平臺的建立主要分為三個步驟,首先,應確定平臺建立目標及搜集信息的方向,為尋找數(shù)據(jù)挖掘渠道、數(shù)據(jù)處理方式做鋪墊。實驗結果具有不可預測性的特征,技術人員需要熟練掌握相關知識,使得相關領域的用戶及專家明確搜索需求。其次,需要做好數(shù)據(jù)準備工作,主要包括選擇數(shù)據(jù)、預處理數(shù)據(jù)和轉化數(shù)據(jù)三個關鍵步驟??梢酝ㄟ^對數(shù)據(jù)的再加工策略提高數(shù)據(jù)挖掘質量,通過分析數(shù)據(jù)的種類,運用數(shù)學模型進行數(shù)據(jù)重建對比。再次,需要建立數(shù)據(jù)之間的關聯(lián)性,通過對比分析得到多組數(shù)據(jù)的共同點,結合用戶瀏覽信息、實際需求及潛在需求,使用算法尋找特定的模型,創(chuàng)建數(shù)據(jù)挖掘模型。利用智能化工具完成最終的挖掘任務。由此可見,在線性思維情況下,選擇某組數(shù)據(jù)進行測試時應嘗試所有可能的方式,該組數(shù)據(jù)適宜的關聯(lián)規(guī)則在計算過程中逐漸與原本的關聯(lián)規(guī)則違背,在尋求最優(yōu)化解決方案時,計算效率較低。

2分布式數(shù)據(jù)挖掘平臺結構設計分析

云計算互聯(lián)網(wǎng)平臺主要有兩個參與主體,包括云和端,可以擺脫原有架構的局限性,簡化網(wǎng)站操作人員及訪問人員的操作步驟,創(chuàng)造出更大價值[2]。

2.1內容分發(fā)網(wǎng)絡實現(xiàn)云計算的技術流派

分配內容網(wǎng)絡能夠避免受到互聯(lián)網(wǎng)中可能會對數(shù)據(jù)傳輸穩(wěn)定性造成影響的緩解,篩選出核心內容,將其傳遞到核心節(jié)點中,提高內容傳輸過程的穩(wěn)定性。從商業(yè)角度出發(fā),CDN即批發(fā)即零售帶寬及柜機資源的過程。為了降低系統(tǒng)的壓力值,需要在互聯(lián)網(wǎng)的節(jié)點處添加新資源,使得CDN廠商能夠從此處承包,也可以從各地IDC處用優(yōu)惠的價格批發(fā)各種資源,再用零售價格賣給用戶,利潤空間較大。分配內容網(wǎng)絡能夠有效突破性能平靜,確保分發(fā)內容的穩(wěn)定性與可靠性。

2.2DNS網(wǎng)關級別的超級代理

為了管理大量網(wǎng)站信息,云計算平臺可以通過DNS的智能切換技術,在使用較為普遍的CS結構兩側使用智能化技術,提高操作過程的智能化水平,優(yōu)化操作結構,縮短操作反應實踐,創(chuàng)建出新一代的云計算互聯(lián)網(wǎng)應用平臺。此外,運用云計算的方式可以創(chuàng)建出DNS服務器集群,具有較大使用價值。

2.3網(wǎng)站訪問日志分析

每個網(wǎng)站都會自主管理自己的日志訪問記錄信息,需要提升其規(guī)范性。通常情況下,一條標準日志的標準形式為“源地址—訪問時間—訪問形式—網(wǎng)址名稱—訪問類型—瀏覽器類型—操作系統(tǒng)內容—目的操作地址”。可以創(chuàng)建出一個數(shù)據(jù)倉庫,在其中存放所有網(wǎng)站及用戶的訪問信息,完成數(shù)據(jù)挖掘任務,革新分配內容形式。網(wǎng)站會分析用戶的網(wǎng)絡行為特點,制定出相應的查詢及反饋模式,增強數(shù)據(jù)結構性能,提高系統(tǒng)工作效率。

2.4網(wǎng)站內容的動態(tài)分發(fā)

除了超級大網(wǎng),普通網(wǎng)站性能會隨地域特點產(chǎn)生變化,可以根據(jù)用戶所處地理位置信息將內容分配到代理處。在完成分配任務之后,會基于云計算的方式部署互聯(lián)網(wǎng),訪問最近的地址,縮短用戶的訪問等待時間,提高用戶使用互聯(lián)網(wǎng)的效率。

2.5根據(jù)用戶行為進行智能調度

數(shù)據(jù)倉庫中儲存著大量的用戶行為特征信息。超級代理的架構將用戶的行為特點作為搜索索引,避免運用DNS解析用戶訪問過程,只有經(jīng)過多次跳轉之后才可以訪問目標網(wǎng)站。網(wǎng)絡用戶訪問網(wǎng)站具有固定性,總數(shù)量較少,可以將其操作行為作為重要依據(jù),設計出智能調度和分配機制,提高訪問速度,增強網(wǎng)站的最大承受能力,豐富網(wǎng)站功能,給用戶帶來良好的體驗感[3]。

3分布式數(shù)據(jù)挖掘平臺中相關軟件算法設計分析

冗余消除算法可對數(shù)據(jù)進行分類處理,消除傳統(tǒng)算法中數(shù)據(jù)挖掘平臺信息存在多余、種類繁雜或無關性、干擾性較強等情況,優(yōu)化傳統(tǒng)算法下建立的數(shù)據(jù)挖掘平臺的不足之處。

3.1冗余消除算法的設計規(guī)則分析

冗余消除算法能夠消除在云計算方式下由于數(shù)據(jù)關聯(lián)性而產(chǎn)生的冗余干擾,在商業(yè)化推薦系統(tǒng)中具有重要價值。首先,基于用戶的冗余消除算法需要對用戶的日常瀏覽信息進行收集,判斷用戶個人需求并進行評分,使得同等分值之間的用戶需求共享推薦。其次,基于相互的冗余消除算法會將所有用戶瀏覽商品、購買商品次數(shù)作為判斷其對商品的喜好程度,并推薦類似商品,計算該商品種類中,用戶喜好商品與其他的相似程度。

3.2協(xié)同過濾相似度計算方法

使用向量模型計算出數(shù)據(jù)的相似程度,計算出向量之間的距離,根據(jù)遠近成都判斷相似度高低。為了判斷關聯(lián)程度,可以計算出兩個向量的相關關系。對于稀疏性較高的用戶,該矩陣的精確程度較低,難以達到理想效果,可以運用余弦相似度算法解決此類問題。

3.3冗余消除過程設計

若計算結果較為相似,可分析數(shù)據(jù)的計算過程及初始數(shù)據(jù)是否存在相似部分,給每個變量分配一定權重,設置調和參數(shù)。平均絕對誤差是衡量用戶實際數(shù)值和測量值之間的絕對誤差水平,是重要的冗余消除算法評判標準之一。命中率標準包括查準率和查全率,網(wǎng)絡數(shù)據(jù)分為推薦和不推薦兩個部分。以用戶搜索查找商品為例,搜索引擎中輸入的是全類商品或精準到某品牌、某款式,代表著該用戶對于同類商品的需求程度和該種商品的喜好,反映其對于數(shù)據(jù)查找的廣泛性和搜索精準性的需要,依據(jù)此可選擇是否推薦同類商品,若精準性需求較高,則不建議推薦。在選擇算法的過程中,可積極引入新式算法降低權重,提高數(shù)據(jù)挖掘平臺的精確度,使其分析數(shù)據(jù)能力提升。

4結語

互聯(lián)網(wǎng)信息技術處于不斷發(fā)展過程中,如何處理海量數(shù)據(jù)信息是重大難題。可以基于大數(shù)據(jù)處理技術建立起數(shù)據(jù)處理與挖掘平臺,使用bookcrossing數(shù)據(jù)集進行測試,運用獎券的方式改進傳統(tǒng)算法模型,增強改進后算法的計算能力,使其貼合現(xiàn)代社會需求,更加便捷化、智能化。

參考文獻

[1]高鋒陽,曾林,李昭君,等.分布式智能協(xié)同和云計算相結合的配電網(wǎng)故障選線新方法[J].電網(wǎng)技術,2021,45(8):2969-2978.

[2]周東清,彭世玉,程春田,等.梯級水電站群長期優(yōu)化調度云計算隨機動態(tài)規(guī)劃算法[J].中國電機工程學報,2017,37(12):3437-3448;3671.

[3]馬瑞,周謝,彭舟,等.考慮氣溫因素的負荷特性統(tǒng)計指標關聯(lián)特征數(shù)據(jù)挖掘[J].中國電機工程學報,2015,35(1):43-51.

作者:王哲 趙爽 單位:鐵法煤業(yè)集團大數(shù)據(jù)運營有限責任公司