數(shù)據(jù)挖掘預(yù)處理技術(shù)研究

時間:2022-05-14 10:32:10

導(dǎo)語:數(shù)據(jù)挖掘預(yù)處理技術(shù)研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘預(yù)處理技術(shù)研究

摘要:21世紀(jì)以來隨著互聯(lián)網(wǎng)的迅猛發(fā)展,我們進(jìn)入了一個信息大爆炸的時代。信息經(jīng)過記錄與存儲成了海量的數(shù)據(jù),如何在這海量的數(shù)據(jù)中有效地挖掘出有價值的知識成了數(shù)據(jù)挖掘的主要解決的問題。不同的數(shù)據(jù)預(yù)處理技術(shù)影響著數(shù)據(jù)挖掘的質(zhì)量,我們將分析幾種常用的數(shù)據(jù)預(yù)處理技術(shù)對于數(shù)據(jù)挖掘的影響程度。

關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)挖掘;數(shù)據(jù)挖掘質(zhì)量

數(shù)據(jù)挖掘作為近幾年十分熱門的學(xué)科,隨著人工智能和數(shù)據(jù)庫的發(fā)展而崛起的一種數(shù)據(jù)技術(shù),普遍應(yīng)用于金融、軍事、農(nóng)業(yè)、航空航天、科學(xué)探討以及其他范疇。它的出現(xiàn)可以說讓人們對于數(shù)據(jù)價值的利用率提高到了新的高度,許多未解之謎或許可以因此得以破解。常見的數(shù)據(jù)挖掘核心步驟包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段和結(jié)果分析階段。數(shù)據(jù)準(zhǔn)備階段占據(jù)了大約60%的工作量,它將多種不同的數(shù)據(jù)集合到一塊,消除噪聲點數(shù)據(jù)、不一致數(shù)據(jù)和不清楚完整的數(shù)據(jù),并從中提取出對我們有用的數(shù)據(jù),并通過一定的規(guī)則變換,組成我們所需要的數(shù)據(jù)倉庫。我們的研究重點就是這個數(shù)據(jù)準(zhǔn)備階段。

一、數(shù)據(jù)挖掘相關(guān)概念

(一)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是經(jīng)過了分析大量的有關(guān)數(shù)據(jù)來揭示有意義的新的相關(guān)聯(lián)系、趨向和形式的過程。它融匯了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)可視化等多個范疇的理論和技巧。該技術(shù)的涌現(xiàn)的崛起是現(xiàn)代信息技術(shù)發(fā)展到必然階段的產(chǎn)物,它能夠飛快探求數(shù)據(jù)之間的潛伏相關(guān)聯(lián)系和規(guī)則。所起到作用類似于科學(xué)家們經(jīng)過不斷的科學(xué)分析所發(fā)現(xiàn)的科學(xué)規(guī)律。(二)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是為了處理原始數(shù)據(jù)中所存在的“臟數(shù)據(jù)”現(xiàn)象,是數(shù)據(jù)挖掘中重要的一環(huán)。數(shù)據(jù)預(yù)處理的效果好,則可以提高數(shù)據(jù)挖掘的效率,從而提高挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的一個非常重要的數(shù)據(jù)準(zhǔn)備工作,是知識挖掘過程的關(guān)鍵所在,它保證挖掘數(shù)據(jù)的正確性和有效性,通過對數(shù)據(jù)格式和實質(zhì)的調(diào)整,使數(shù)據(jù)更符合挖掘的需求。為什么原始數(shù)據(jù)中會存在有“臟數(shù)據(jù)”呢?重要的原因有以下三點,一是數(shù)據(jù)采集時和數(shù)據(jù)分析時,咱們所思考的要素和成分不一致,搜集到了缺失值,即缺乏完整性;二是數(shù)據(jù)傳輸過程中會出現(xiàn)操作失誤產(chǎn)生了某些噪聲值,即缺乏準(zhǔn)確性;三是數(shù)據(jù)在收集過程不限來源導(dǎo)致了不一致性的值,比如序號“1”、“2”、“3”和序號“A”、“B”、“C”其實所代表的含義是一致但表達(dá)不一致,即缺乏一致性。常見的缺失值填充算法包括EM最大期望值算法、MI算法和KNNI算法等。數(shù)據(jù)預(yù)處理技術(shù)的重點功能有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)簡化。而預(yù)處理方法可以大致分為,基于粗糙集(RS)理論的約簡方法、基于概念層次樹的數(shù)據(jù)濃縮方法思想和普化知識發(fā)現(xiàn)和基于統(tǒng)計分析的屬性選擇方法。本文主要測試了基于粗糙集(RS)的理論的簡約方法和基于概念層次樹的數(shù)據(jù)濃縮方法。

二、數(shù)據(jù)預(yù)處理實現(xiàn)方法

下面我們簡單介紹一下,我們的數(shù)據(jù)預(yù)處理技術(shù)的幾個方法。(一)基于粗糙集(RS)理論的約簡方法。對于研究對于不精確、不確定性知識的十分有效的數(shù)學(xué)工具,由于它的易用性,目前是國內(nèi)外研究的重點之一。基于粗糙集(RS)的理論約簡方法處理過程如下:(1)大批量無順序的數(shù)據(jù)通過泛化后,整頓成一個二維表,構(gòu)成一個知識系統(tǒng);(2)根據(jù)我們所要定義形成二進(jìn)制可識別矩陣;(3)依據(jù)算法對矩陣進(jìn)行規(guī)約化簡,并得到屬性的約簡;(4)評判歸約集,選擇具備較少屬性的歸約集,而不改變原本的依賴關(guān)系,約簡不是唯一的;(5)從約簡表抽取規(guī)則。(二)基于概念層次樹的數(shù)據(jù)濃縮方法。概念層次樹是數(shù)據(jù)分類的方法之一,它可以將總結(jié)好的數(shù)據(jù)提升到較高的概念層,為數(shù)據(jù)挖掘的各個環(huán)節(jié)提供背景,從而提高知識的準(zhǔn)確性和可理解性。比較適用于挖掘用戶特征等場景,他的實現(xiàn)步驟如下:(1)定義概念層次樹和相關(guān)語義表,作為概念分層的依據(jù);(2)對數(shù)據(jù)進(jìn)行概念提升;(3)進(jìn)行類組計算;(4)得出規(guī)則特征。

三、結(jié)語

根據(jù)我們的測試結(jié)果可知,粗糙集(RS)理論的約簡方法的正確率比概念層次樹的數(shù)據(jù)濃縮方法稍高,但是一組測試數(shù)據(jù)并不容易比較出兩者的區(qū)別。粗糙集(RS)理論適用于不確定的信息和不完整信息的處理,概念層次樹適用于對特征值的挖掘分析。在未來一段時間里,數(shù)據(jù)挖掘技術(shù)將會是世界主流技術(shù)的研究熱門之一,我相信在不遠(yuǎn)的將來數(shù)據(jù)挖掘技術(shù)將會助力人工智能技術(shù)的發(fā)展,進(jìn)而推動社會的科技水平。

作者:蔡念慈 柯 敏 單位:福州外語外貿(mào)學(xué)院