復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)挖掘論文
時間:2022-03-26 03:46:49
導(dǎo)語:復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度分析
對于一個多種網(wǎng)絡(luò)形式并存的復(fù)雜網(wǎng)絡(luò),假設(shè)復(fù)雜網(wǎng)絡(luò)作為一個網(wǎng)絡(luò)社區(qū),在復(fù)雜網(wǎng)絡(luò)中存在的網(wǎng)絡(luò)類型數(shù)即社區(qū)數(shù)。我們用一個無向遍歷圖GV,E來表示整個網(wǎng)絡(luò)社區(qū),如果網(wǎng)絡(luò)中有兩個節(jié)點有兩條不重合的網(wǎng)絡(luò)路徑,則說明這兩個節(jié)點處于一個網(wǎng)絡(luò)環(huán)路當(dāng)中,網(wǎng)絡(luò)中的數(shù)據(jù)流需要經(jīng)過網(wǎng)絡(luò)環(huán)路到達特定的節(jié)點。當(dāng)在某個時間段里需要傳送的數(shù)據(jù)流個數(shù)大于網(wǎng)絡(luò)節(jié)點數(shù)時,則說明該網(wǎng)絡(luò)的數(shù)據(jù)流密度較大,為了能夠準確地在復(fù)雜網(wǎng)絡(luò)中挖掘出所需的數(shù)據(jù)流,則需要根據(jù)數(shù)據(jù)流密度來劃分整個網(wǎng)絡(luò)社區(qū),尋找數(shù)據(jù)流處于哪個社區(qū),再確定數(shù)據(jù)流所在社區(qū)的環(huán)路。在這里我們通過設(shè)計算法確定網(wǎng)絡(luò)數(shù)據(jù)流密度,來對復(fù)雜網(wǎng)絡(luò)進行社區(qū)劃分,再對社區(qū)進行無向環(huán)路遍歷,并通過遍歷得到該社區(qū)網(wǎng)絡(luò)的所環(huán)路,確定所需查詢的數(shù)據(jù)流位于哪個環(huán)路。以下為復(fù)雜網(wǎng)絡(luò)中需要用到的符號說明。
2增量子空間數(shù)據(jù)挖掘算法
為了能夠有效地在復(fù)雜網(wǎng)絡(luò)中挖掘出目的數(shù)據(jù)流,使用了復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的分析方法在對復(fù)雜網(wǎng)絡(luò)進行社區(qū)劃分后,通過對社區(qū)網(wǎng)絡(luò)進行無向環(huán)路遍歷并得到社區(qū)網(wǎng)絡(luò)的所有環(huán)路。接下來挖掘算法先后挖掘出目的數(shù)據(jù)流所屬的社區(qū)以及環(huán)路,最終確定目的數(shù)據(jù)流的具體位置。
2.1基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘
當(dāng)數(shù)據(jù)流i與社區(qū)k的相關(guān)度最大時,說明數(shù)據(jù)流i位于社區(qū)k的可能性就最大。但是當(dāng)多個數(shù)據(jù)流的大小區(qū)別不大時,以數(shù)據(jù)流的大小作為指標來定義相關(guān)度會導(dǎo)致挖掘精度較低。這里我們也引入數(shù)據(jù)流的特征集和數(shù)據(jù)流中的分組隊列長度來計算相關(guān)度。
2.2基于多增量空間的數(shù)據(jù)流挖掘
在采用基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘方法得到數(shù)據(jù)流的所屬社區(qū)后,我們接著采用基于多增量空間的數(shù)據(jù)流挖掘方法來挖掘出數(shù)據(jù)流的所屬環(huán)路。先將社區(qū)網(wǎng)絡(luò)的環(huán)路進行多增量空間擴展,即先得到
目標數(shù)據(jù)流所經(jīng)過的環(huán)路,再得到數(shù)據(jù)流所經(jīng)過的節(jié)點與時間的相關(guān)系數(shù),這樣就可以在時空上確定目的數(shù)據(jù)流位于環(huán)路的哪個節(jié)點中。
3實驗結(jié)果
為了驗證本文提出的基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的效果,我們通過matlab7.0軟件進行算法仿真,其中仿真的復(fù)雜網(wǎng)絡(luò)由多種網(wǎng)絡(luò)形式組成,網(wǎng)絡(luò)節(jié)點有200個,數(shù)據(jù)流大小為500bytes,節(jié)點的接收能耗為10nJ/bit,發(fā)射能耗為50nJ/bit,進行信號處理和功率放大的能耗為10nJ/bit。其他節(jié)點干擾而產(chǎn)生的能量消耗為5nJ/bit。在對本文算法進行分析的過程中,我們采用了對比分析的方法,Lopez-Yanez等人提出一種基于時間序列數(shù)據(jù)挖掘的新的關(guān)聯(lián)模型,該模型是基于伽瑪分類,是一種監(jiān)督模式識別模型,目的是為了挖掘已知模式中的時間序列,以預(yù)測未知的值。由Negrevergne等人提出的一種PARAMINER算法:一個通用的模式挖掘算法的多核架構(gòu)。多核架構(gòu)采用的是一種新的數(shù)據(jù)集縮減技術(shù)(稱之為EL-還原),在算法中通過結(jié)合新的技術(shù)用于處理多核心架構(gòu)的并行執(zhí)行數(shù)據(jù)集。為了驗證本文算法的挖掘有效性,我們分別在增多節(jié)點數(shù)量和社區(qū)網(wǎng)絡(luò)數(shù)的情況下獲取算法的數(shù)據(jù)挖掘精度。實驗采用的精度為NMI[16],實驗結(jié)果如圖3和圖4所示。在不同節(jié)點數(shù)量下基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的挖掘精度更高,挖掘精度高于85%,而文獻[14]的挖掘精度在77%以上,挖掘精度在76%以上。因為、提出的關(guān)聯(lián)模型、提出的多核架構(gòu)沒有準確把握數(shù)據(jù)流在不同時間段里與環(huán)路位置的相關(guān)情況。而本文算法采用社區(qū)網(wǎng)絡(luò)遍歷和多增量空間的方法可以有效地確定這種相關(guān)性。圖4為不同社區(qū)數(shù)下的算法挖掘精度,從圖中可以看出,當(dāng)社區(qū)網(wǎng)絡(luò)的種類增多時,會對算法的挖掘精度造成影響,本文算法的挖掘精度在社區(qū)數(shù)為10時是95.7%,當(dāng)社區(qū)數(shù)增加到50時為87.5%。而基于時間序列數(shù)據(jù)挖掘方法的挖掘精度在社區(qū)數(shù)為10時是88.6%,在社區(qū)數(shù)為50時是77.4%,而PARAMINER算法在社區(qū)數(shù)為10時是86.7%,社區(qū)數(shù)為50時是78.2%。因此從數(shù)據(jù)分析來看,本文算法的數(shù)據(jù)挖掘精度在社區(qū)數(shù)增多時仍能保持在較高水平。
4結(jié)論
為了提高網(wǎng)絡(luò)數(shù)據(jù)流的挖掘精度,本文提出了一種基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法,該算法對復(fù)雜網(wǎng)絡(luò)進行數(shù)據(jù)流密度分析,根據(jù)數(shù)據(jù)流密度并采用無向環(huán)路遍歷的方法來劃分整個網(wǎng)絡(luò)社區(qū),確定數(shù)據(jù)流所屬社區(qū)。利用基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘方法來挖掘出數(shù)據(jù)流位于哪一個社區(qū),接著采用基于多增量空間的數(shù)據(jù)流挖掘方法來挖掘出數(shù)據(jù)流的所屬環(huán)路,并最終確定數(shù)據(jù)流在某一刻時間里位于哪個節(jié)點。在實驗中通過數(shù)據(jù)分析和對比,證明了算法在數(shù)據(jù)挖掘精度上的有效性。
作者:侯燕李巍文喬農(nóng)單位:周口師范學(xué)院西南科技大學(xué)
- 上一篇:青春演講稿專題12篇
- 下一篇:空間數(shù)據(jù)挖掘論文