門戶網(wǎng)站分布式數(shù)據(jù)挖掘分析
時間:2022-08-07 08:41:20
導語:門戶網(wǎng)站分布式數(shù)據(jù)挖掘分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:數(shù)據(jù)采集與存儲、數(shù)據(jù)預處理、數(shù)據(jù)挖掘算法并行化、數(shù)據(jù)輸出與應用等是數(shù)據(jù)挖掘的核心技術。在移動云時代,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構通常由數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺和客戶端三大層級組成,并通過DNS超級、CDN云計算化、訪問記錄與日志分析、用戶數(shù)據(jù)動態(tài)分發(fā)網(wǎng)絡等實現(xiàn)數(shù)據(jù)挖掘與智能調度。
關鍵詞:門戶網(wǎng)站;分布式系統(tǒng);數(shù)據(jù)挖掘;云平臺架構
在信息技術不斷發(fā)展的背景下,多樣化的數(shù)據(jù)信息通過網(wǎng)絡進行傳輸,數(shù)據(jù)的類型和規(guī)模均呈現(xiàn)出“爆炸式”增長。數(shù)據(jù)規(guī)模的不斷增長呼喚有效的數(shù)據(jù)處理和分析技術,只有能夠整合數(shù)據(jù)資源并輸出有效數(shù)據(jù)產(chǎn)品的技術才能夠真正挖掘數(shù)據(jù)的價值,實現(xiàn)更高效的數(shù)據(jù)運用。數(shù)據(jù)挖掘技術作為一種在較高層次對數(shù)據(jù)進行高級查詢和篩選的技術,具有數(shù)據(jù)記錄、整理、分析、輸出的能力,尤其是在云平臺的支持下,數(shù)據(jù)挖掘被賦予了更強的計算能力和更大的存儲空間[1]。通過云端進行更高效的數(shù)據(jù)運算和智能分析,能提升數(shù)據(jù)挖掘的報告質量和輸出價值。
1云時代數(shù)據(jù)挖掘的核心技術
1.1數(shù)據(jù)采集與存儲。數(shù)據(jù)采集是進行數(shù)據(jù)挖掘的基礎階段,采集技術分為線上和線下兩種類型。線上數(shù)據(jù)采集主要通過網(wǎng)絡終端后臺實現(xiàn),例如檔案、日志、瀏覽、點擊等相關信息[2];線下數(shù)據(jù)采集則通過傳感器、磁卡片、RFID技術等進行,獲取用戶的線下行為數(shù)據(jù),從而建立用戶的行為數(shù)字數(shù)據(jù)庫。數(shù)據(jù)采集后,還須存儲已采集數(shù)據(jù),如設備存儲、數(shù)據(jù)庫存儲、云端存儲等。1.2數(shù)據(jù)預處理。采集的原始數(shù)據(jù)是非標準化的數(shù)據(jù),數(shù)據(jù)的類型、大小、字段等信息均不統(tǒng)一,這種數(shù)據(jù)特征不利于進行深度的數(shù)據(jù)挖掘,因此需要在數(shù)據(jù)采集和存儲的基礎上進行數(shù)據(jù)預處理。數(shù)據(jù)預處理需要對已采集和存儲的信息進行篩選、分類、集合、轉化等操作,進而將數(shù)據(jù)進行標準化加工,在一定格式規(guī)則下建立數(shù)據(jù)存儲與管理系統(tǒng)[2]。1.3數(shù)據(jù)挖掘算法并行化。經(jīng)過預處理,數(shù)據(jù)能夠呈現(xiàn)出標準化格式,可采用挖掘算法進行并行化數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的算法包括關聯(lián)算法、聚類算法、數(shù)據(jù)分類算法和回歸算法等,這些算法能夠對標準化的數(shù)據(jù)進行更為深入的整合和分析,探索數(shù)據(jù)內(nèi)部蘊含的規(guī)律和關聯(lián)關系,輸出具有一定邏輯的數(shù)據(jù)結果[2]。數(shù)據(jù)挖掘算法并行化,能提升數(shù)據(jù)挖掘效率,并與云平臺的運行規(guī)則適配。1.4數(shù)據(jù)輸出與應用。通過云平臺分析的數(shù)據(jù),可以依據(jù)數(shù)據(jù)內(nèi)部的邏輯和規(guī)律輸出為可視化的數(shù)據(jù)報告和結果——通過數(shù)據(jù)可視化與數(shù)據(jù)轉化技術,數(shù)據(jù)挖掘輸出的結果是規(guī)范的數(shù)據(jù)報告。需要指出的是,所有的數(shù)據(jù)輸出結果均應可追索數(shù)據(jù)源,以便于報告使用者進行檢查與學習。云數(shù)據(jù)挖掘報告可在政府政策研究、公共管理、行業(yè)研究、消費者行為研究等領域廣泛應用[2]。本文探討門戶網(wǎng)站對“云數(shù)據(jù)挖掘技術”的一種應用架構,即門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構。
2門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構
云平臺又稱云計算平臺,是能夠進行數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)整合的一個服務平臺。云平臺的基礎服務內(nèi)容包括IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)三個方面。通過三方面的服務內(nèi)容,云平臺能夠將云端的數(shù)據(jù)通過架構層面的軟硬件服務設施進行基礎搭建,并在應用層進行智能化的資源調度、并行計算和數(shù)據(jù)存儲,最后在平臺層通過應用代碼、定制代碼等工具進行最終的數(shù)據(jù)挖掘結果輸出,從而完成對海量云端數(shù)據(jù)的高效挖掘[1]。分布式系統(tǒng)是相對于集中式系統(tǒng)而言的一種弱化集中處理性能的內(nèi)聚性軟件系統(tǒng)。一方面,分布式系統(tǒng)具有內(nèi)聚性,系統(tǒng)內(nèi)部的數(shù)據(jù)庫和不同模塊能夠進行自治化的數(shù)據(jù)處理,而不需要經(jīng)過集中性的決策和處理過程,這在一定程度上能夠提升項目完成效率;另一方面,分布式系統(tǒng)具備全局化的透明性處理功能,能夠基于系統(tǒng)內(nèi)部的資源整體進行資源的整合和調配,在用戶需求和相關指令的基礎上,對于系統(tǒng)網(wǎng)絡內(nèi)部的資源進行自由的調度,匹配出最高效的資源分配和數(shù)據(jù)處理流程,從而實現(xiàn)平臺目標。目前最為流行的分布式數(shù)據(jù)挖掘云平臺架構是Hadoop平臺,其能夠通過多樣的系統(tǒng)工具實現(xiàn)高效的數(shù)據(jù)處理,并通過HDFS進行數(shù)據(jù)存儲,在并行化模式下進行海量數(shù)據(jù)的處理和運算,通過強大的服務器來支持眾多客戶端應用,實現(xiàn)對硬件成本、維護成本的控制[3]。門戶網(wǎng)站Hadoop分布式數(shù)據(jù)挖掘云平臺架構主要由數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺和客戶端三個層級組成。2.1數(shù)據(jù)源層。數(shù)據(jù)源層是門戶網(wǎng)站數(shù)據(jù)挖掘的底層,其能夠整合來自云平臺上的多樣化數(shù)據(jù),涵蓋非結構化數(shù)據(jù)、半結構化數(shù)據(jù)、結構化數(shù)據(jù)類型。在實現(xiàn)充分的云計算平臺互聯(lián)互通的情況下,數(shù)據(jù)源層能夠對接多個云平臺的數(shù)據(jù),實現(xiàn)對于海量數(shù)據(jù)的整合和存儲,從而為門戶網(wǎng)站數(shù)據(jù)挖掘提供充分的數(shù)據(jù)保障。2.2大數(shù)據(jù)挖掘平臺層。大數(shù)據(jù)挖掘平臺層是門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構的核心技術層,也是多樣化數(shù)據(jù)處理工具的整合技術平臺。預處理工具是對數(shù)據(jù)源數(shù)據(jù)進行標準化處理的工具,包括數(shù)據(jù)ETL(提取、轉化和加載)工具、多模態(tài)實體識別工具等。(1)基于Hadoop分布式系統(tǒng),MapReduce工具能夠進行數(shù)據(jù)的分析式計算,在任務拆分的基礎上,分配運算資源,從而進行高效的數(shù)據(jù)分析;(2)HDFS作為分布式文件系統(tǒng),能夠對海量數(shù)據(jù)進行存儲,通過文件分割和數(shù)據(jù)節(jié)點分配來提升存儲的集約性和安全性;(3)數(shù)據(jù)挖掘云平臺還能夠搭載數(shù)據(jù)流處理、復雜事件處理、R語言分析、聯(lián)系分析處理(OLAP)等工具,進一步提升了門戶網(wǎng)站數(shù)據(jù)挖掘的輸出效果和運行效率。2.3客戶端層。通過一系列大數(shù)據(jù)挖掘工具和相關技術,海量的云平臺數(shù)據(jù)能夠通過計算機語言進行高效處理。在客戶端層,數(shù)據(jù)處理的結果能夠通過可視化工具、人機交互技術、數(shù)據(jù)源技術等進行加工,從而轉換成能夠被人工識別和閱讀的數(shù)據(jù)報告。在門戶網(wǎng)站后臺,客戶端能夠對接大數(shù)據(jù)平臺,并進行數(shù)據(jù)結果的轉化,門戶網(wǎng)站后臺得到的是經(jīng)過可視化處理的數(shù)據(jù)報告,并能夠通過數(shù)據(jù)源的接口獲得相關數(shù)據(jù)的原始信息。
3門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺的實現(xiàn)機制
如圖1所示,通過DNS超級、CDN云計算化、訪問記錄與日志分析、用戶數(shù)據(jù)動態(tài)分發(fā)網(wǎng)絡等實現(xiàn)數(shù)據(jù)挖掘與智能調度[2]。3.1DNS超級。對門戶網(wǎng)站而言,數(shù)據(jù)挖掘的主要內(nèi)容是對于用戶瀏覽行為和點擊數(shù)據(jù)的分析。在用戶對門戶網(wǎng)站進行訪問之后,通過網(wǎng)址和域名進行用戶行為的采集,獲取用戶的地理位置、連接入口、設備等相關數(shù)據(jù)。通過DNS(域名系統(tǒng))超級能夠將域名系統(tǒng)與云平臺進行有效對接,從而迅速完成對門戶網(wǎng)站相關數(shù)據(jù)的采集和存儲。在部分云平臺內(nèi)部,還能夠實現(xiàn)IP地址,更有利于加強對服務器和客戶端的對接,實現(xiàn)更有效的云計算。3.2CDN云計算化。CDN是指內(nèi)容分發(fā)網(wǎng)絡(ContentDeliveryNetwork),其能夠將運算的內(nèi)容進行合理的分配,按照數(shù)據(jù)處理和計算的狀態(tài),將相關內(nèi)容分發(fā)到更為空閑的網(wǎng)絡通道,從而避免網(wǎng)絡傳輸?shù)膿矶?提高處理效率。CDN云計算化,能夠通過云計算技術對網(wǎng)絡資源和計算能力進行整合調配,從橫向和縱向上對整個處理過程進行技術的擴展,從而提升系統(tǒng)運行效率[4]。3.3訪問記錄與日志分析。門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺能夠在資源對接的基礎上,對用戶的網(wǎng)站訪問記錄和后臺日志進行一體化存儲,相關數(shù)據(jù)全部收錄到數(shù)據(jù)倉庫中,以便于深度數(shù)據(jù)挖掘。在日志分析和數(shù)據(jù)預處理的基礎上,云平臺還能夠進行分布式的數(shù)據(jù)挖掘,輸出可提升門戶網(wǎng)站傳播效果和闡述用戶行為規(guī)律的數(shù)據(jù)報告。3.4用戶數(shù)據(jù)動態(tài)分發(fā)。CDN實現(xiàn)了站點的全網(wǎng)覆蓋,網(wǎng)絡內(nèi)容分發(fā)的過程也是一個可以動態(tài)調整的過程。在門戶網(wǎng)站傳統(tǒng)的網(wǎng)絡服務中,服務的范圍集中于某一特定區(qū)域,當出現(xiàn)網(wǎng)絡中斷或網(wǎng)絡擁堵等情況時,會出現(xiàn)該區(qū)域的網(wǎng)絡癱瘓。在分布式數(shù)據(jù)挖掘云平臺支撐下,CDN能夠合理安排分發(fā)的網(wǎng)絡通道,即使某一節(jié)點的網(wǎng)絡出現(xiàn)故障,也能夠通過其他可行網(wǎng)絡的傳輸保障網(wǎng)站訪問和數(shù)據(jù)采集的正常進行[5]。由此可見,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺不僅能夠在日常運行的基礎上完成數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)挖掘的工作,還能夠實現(xiàn)智能調度,極大程度的提高了門戶網(wǎng)站的運行效率,優(yōu)化了用戶訪問體驗。
4結語
在大數(shù)據(jù)、云計算、機器學習等眾多信息科技不斷創(chuàng)新和發(fā)展的背景下,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺技術能夠實現(xiàn)數(shù)據(jù)挖掘、提升門戶網(wǎng)站的運行效率。需要指出的是,由于數(shù)據(jù)就是資產(chǎn),數(shù)據(jù)挖掘是創(chuàng)新和發(fā)展的重要工具,因此,門戶網(wǎng)站在關注數(shù)據(jù)挖掘的技術與效果的同時,還要關注用戶的隱私保護,力避數(shù)據(jù)安全風險。
參考文獻
[1]王小妮,高學東,倪曉明.基于云計算的分布式數(shù)據(jù)挖掘平臺架構[J].北京信息科技大學學報(自然科學版),2011,(5):19-24.
[2]程發(fā)洲.基于云計算的大數(shù)據(jù)挖掘系統(tǒng)架構[J].東莞理工學院學報,2017,(3):39-43.
[3]陳志雄.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設計探討[J].數(shù)字技術與應用,2017,(1):179.
[4]王微.一種基于云計算的數(shù)據(jù)挖掘平臺架構設計研究[J].電子制作,2017,(15):82-83.
[5]江舞山.基于網(wǎng)格的分布式數(shù)據(jù)挖掘體系結構的研究[D].重慶大學,2006.
作者:陳利萍 單位:湖南化工職業(yè)技術學院