數(shù)據(jù)挖掘檔案管理應(yīng)用研究

時間:2022-06-04 03:03:12

導(dǎo)語:數(shù)據(jù)挖掘檔案管理應(yīng)用研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘檔案管理應(yīng)用研究

一、數(shù)據(jù)挖掘技術(shù)

當今社會科技迅速發(fā)展,以往收集數(shù)據(jù)的模式已經(jīng)無法適應(yīng)當代社會發(fā)展需要。而數(shù)據(jù)挖掘技術(shù)的誕生,提高了數(shù)據(jù)收集的速度和質(zhì)量,且在某種程度上還促進了社會的發(fā)展。

(一)數(shù)據(jù)挖掘技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)是從許多的、不完全的、相對模糊的、存在噪聲的、任意的實際數(shù)據(jù)當中,找出其中隱藏的、人們原先不了解的、但又是實際存在的、有用的信息和知識的過程[1]。數(shù)據(jù)挖掘所得信息具有先前未知、有效和實用三個特征。決策者對挖掘所得信息進行分析,從中提取出隱藏的關(guān)系和模式,來對未來發(fā)生的行為進行預(yù)測。

(二)數(shù)據(jù)挖掘技術(shù)的運用

在使用數(shù)據(jù)挖掘技術(shù)的過程中,數(shù)學(xué)方法經(jīng)常被用到,但在一些特殊的時候,也會用到非數(shù)學(xué)的方法。另外,使用數(shù)據(jù)挖掘技術(shù)過程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數(shù)據(jù)。在使用數(shù)據(jù)挖掘技術(shù)過程中,利用對相關(guān)數(shù)據(jù)進行挖掘、收集和分析得出相應(yīng)的結(jié)果,并且這個結(jié)果在某些情況下,恰好能被用在管理信息、優(yōu)化查詢、過程控制、決策支持及數(shù)據(jù)維護等方面[2]。然而,由于數(shù)據(jù)挖掘技術(shù)特性,其在使用的過程中,涉及學(xué)科比較廣,并且還涉及數(shù)據(jù)庫、數(shù)理統(tǒng)計、人工智能、并行計算、機器學(xué)習(xí)、可視化等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)中,常用到的有規(guī)則歸納、決策數(shù)、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及可視化等技術(shù)。

二、數(shù)據(jù)挖掘技術(shù)的形式

數(shù)據(jù)挖掘分為描述型與預(yù)測型兩種形式。描述型是對數(shù)據(jù)中存在的規(guī)則進行描述,并且依據(jù)數(shù)據(jù)具有微觀性的特點找出其表征的、普遍性強的、概念層次較高的、比較宏觀的知識,并對數(shù)據(jù)進行概括總結(jié)和抽象來描述出同一類事物的相同屬性。預(yù)測型是分析和處理現(xiàn)有的數(shù)據(jù),來獲得某類事物中某些屬性的內(nèi)容,或者是預(yù)測出某類事物將來形成的規(guī)律等。在使用這兩種挖掘技術(shù)時,經(jīng)常用到的方法有分類方法、關(guān)聯(lián)方法和粗糙集方法。

(一)分類

在運用計算機數(shù)據(jù)挖掘技術(shù)的過程中,分類是挖掘技術(shù)里的重點部分。數(shù)據(jù)收集的好壞,以及收集的數(shù)據(jù)的屬性分析都是由分類決定的。因此,分類在運用挖掘技術(shù)的過程中具有非常重要的作用。分類是對數(shù)據(jù)庫屬性進行分析,把元組劃分成不同種類的過程。并且在其劃分過程中,根據(jù)數(shù)據(jù)形成的訓(xùn)練集,來集中對部分數(shù)據(jù)進行處理劃分。然后,再對余下的部分數(shù)據(jù)做測試,在測試滿足要求以后,遵守對應(yīng)的規(guī)則對其分類。在實際分類過程中,比較有代表性的分類過程是:明確分類的范圍、找出目標屬性、組成訓(xùn)練集、研究屬性、算法選取、分類計算、結(jié)果顯示、選出測試集、分類規(guī)則驗證、輸出分類規(guī)則等[2]。

(二)相關(guān)規(guī)則

相關(guān)規(guī)則是數(shù)據(jù)挖掘技術(shù)中,比較簡單實用的關(guān)聯(lián)分析規(guī)則。它可以準確地將相關(guān)數(shù)據(jù)進行描述,并且能夠?qū)?shù)據(jù)進行嚴格分析。在相關(guān)規(guī)則使用過程中,主要是對具體事物進行描寫,并按照相同屬性進行結(jié)合,然后對其進行總結(jié)概括,找出其共同屬性和模式。一般會將關(guān)聯(lián)規(guī)則直接應(yīng)用到數(shù)據(jù)庫中,統(tǒng)一地記錄下每個事物得出的數(shù)據(jù),不但可以正確地記錄數(shù)據(jù),同時消減了數(shù)據(jù)的搜索空間,使得整個運行系統(tǒng)得到改善和提高。

(三)粗糙集

數(shù)據(jù)挖掘技術(shù)中的粗糙集是被用作對不精確和不確定性知識進行研究的一種數(shù)學(xué)工具,在系統(tǒng)整個使用中占的優(yōu)勢比較大[3]。首先,在使用粗糙集方法時,相應(yīng)的信息不需要了解,并且在運算的時候,算法比較簡單且容易控制,得到大量的計算機用戶的喜愛。其次,在運行粗糙集的過程中,能從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識發(fā)現(xiàn)過程中的噪聲干擾,同時還能將這類數(shù)據(jù)的規(guī)律在最短時間內(nèi)找出,并利用表格對其進行歸納總結(jié),將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應(yīng)用有些規(guī)則的過程中也會出現(xiàn)不確定性。應(yīng)用數(shù)據(jù)庫的時候會產(chǎn)生許多不確定性的信息,而這些不確定性都得依賴粗糙集對其進行處理,這樣就使得數(shù)據(jù)挖掘的效率得到大大提高。

三、挖掘技術(shù)在檔案管理中應(yīng)用的意義

記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計算機網(wǎng)絡(luò)的迅速發(fā)展,在管理檔案信息的實際應(yīng)用中,引入挖掘技術(shù)可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理中是具有非常重要意義的。

(一)提高檔案信息管理的安全性

檔案信息是記載一些比較寶貴的資料,由此可知其價值的表現(xiàn)就是檔案信息的實體。對檔案管理者來講,保存有歷史意義的檔案信息的時間應(yīng)越長越好。保存得越長遠,越體現(xiàn)了檔案信息的價值。其使用價值相對應(yīng)地增大了,被使用的頻率也相應(yīng)地增加,使保管工作非常困難,使用次數(shù)越頻繁,就越容易縮短檔案信息的壽命。同時,保密性是檔案信息管理的另一項重要工作,萬一檔案信息外漏,不僅相關(guān)人員的隱私權(quán)受到侵犯,還有可能對其以后生活造成消極負面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數(shù)據(jù)挖掘技術(shù)運用到檔案管理中,可以很好地避免這種情況的發(fā)生,從而保護檔案信息實體和內(nèi)容的安全。

(二)加快檔案管理的效率,降低檔案管理的成本

檔案管理工作中引用數(shù)據(jù)挖掘技術(shù),能夠有效改變以往傳統(tǒng)的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數(shù)據(jù)挖掘技術(shù),工作人員的管理時間被大量節(jié)省,處理檔案信息的速度得到提高。同時,還可以加快檔案鑒定工作的發(fā)展。檔案管理工作中的一個重要環(huán)節(jié)就是檔案的鑒定,傳統(tǒng)的檔案鑒定工作是由檔案管理人員憑借多年經(jīng)驗來實現(xiàn)的,具有主觀性。數(shù)據(jù)挖掘技術(shù)的運用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據(jù)可依。

四、數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運用

隨著計算機信息化的迅猛發(fā)展,檔案管理工作也需要進一步的完善。過去的檔案管理方式已經(jīng)不能適應(yīng)當代社會的需要,很多數(shù)據(jù)信息無法有效地使用。要想有效地利用現(xiàn)有的檔案數(shù)據(jù),使其價值得到充分發(fā)揮,使用數(shù)據(jù)挖掘技術(shù)把那些隱含的信息挖掘出來,對其總結(jié)和使用是非常有必要的。檔案信息管理中使用數(shù)據(jù)挖掘技術(shù),能讓挖掘出的知識信息得到發(fā)揮,并且能使檔案數(shù)據(jù)信息價值被充分地利用。檔案管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的方法有以下幾種:

(一)檔案分類法

檔案分類法是按照不同的種類把許多檔案進行整理的方法。把檔案中屬性相似的放在同一個類別中,把那些檔案屬性不同的放在不同的類別當中。在檔案進行分類的過程中,數(shù)據(jù)挖掘技術(shù)能夠詳細地劃分這些檔案的類別,幫助管理員進行檔案歸類,檔案的檢索效率和速度得到有效提高。

(二)檔案收集法

檔案收集法是先分析數(shù)據(jù)庫中的數(shù)據(jù),并通過對這些數(shù)據(jù)做詳細的描述建立模型。然后用這些模型和所有的測試樣本進行對比,一旦經(jīng)測試后有一個模型與樣本相符合,就可以依據(jù)這個模型對管理對象進行分類。

(三)檔案保留法

檔案保留法其實就留住老的人員,使其檔案不流失的過程。對某個單位來講,使用新人員的成本比留住一個老人員的成本要高很多。因此,在研究保留老人員時的一項很重要的工作是找出人員檔案流失的原因。并且通過數(shù)據(jù)挖掘技術(shù),來對人員檔案流失的現(xiàn)象進行詳細分析,并采取相應(yīng)的辦法,留住老的人員,避免其檔案的流失。檔案管理中,不同使用者所需檔案使用程度和需求也不一樣[4]。但把數(shù)據(jù)挖掘技術(shù)運用到檔案管理中之后,利用數(shù)據(jù)挖掘技術(shù)對檔案進行分類,提高檔案檢索效率,利用對檔案目錄和信息的挖掘找出檔案收集工作的重點,利用對檔案數(shù)據(jù)的挖掘,找出檔案管理人員和檔案使用人員與檔案實體之間的關(guān)系,利用對檔案使用情況的挖掘找出檔案內(nèi)容與檔案使用人員之間的關(guān)系,針對不同人員提供不同的個性化服務(wù),為使用人員快速查詢出所需檔案信息提供了方便,同時也使得檔案管理工作變得更加順利。隨著數(shù)據(jù)挖掘技術(shù)在學(xué)術(shù)界和工業(yè)界的影響越來越大,數(shù)據(jù)挖掘的研究向著更深入和實用技術(shù)方向發(fā)展。由此可知,未來數(shù)據(jù)挖掘技術(shù)和檔案管理的結(jié)合也會更加緊密。數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案管理中,改變了傳統(tǒng)的檔案管理模式,且為未來的檔案信息管理提供了良好的平臺和技術(shù)支持,是開發(fā)信息化檔案管理系統(tǒng)必不可少的技術(shù)。(本文來自于《黑河學(xué)院學(xué)報》雜志?!逗诤訉W(xué)院學(xué)報》雜志簡介詳見.)

作者:索向峰工作單位:黑河學(xué)院計算機科學(xué)與信息工程系