數(shù)據(jù)挖掘技術(shù)論文范文
時(shí)間:2023-03-18 16:11:50
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)挖掘技術(shù)論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對這些規(guī)則要進(jìn)行有效的評價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià),此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對實(shí)例的某個(gè)屬性的測試,該結(jié)點(diǎn)的每一個(gè)后繼分支對應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
篇2
(1)確定業(yè)務(wù)對象:做好業(yè)務(wù)對象的明確是數(shù)據(jù)域挖掘的首要步驟,挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但是探索的問題必須是有預(yù)見的,明確業(yè)務(wù)對象可以避免數(shù)據(jù)挖掘的盲目性,從而大大提高成功率。
(2)數(shù)據(jù)準(zhǔn)備:首先,對于業(yè)務(wù)目標(biāo)相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進(jìn)行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對數(shù)據(jù)信息的內(nèi)容進(jìn)行全面細(xì)致分析,確定需要進(jìn)行挖掘操作的類型;然后,結(jié)合相應(yīng)的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱為相應(yīng)的分析模型,以保證數(shù)據(jù)挖掘的順利進(jìn)行。
(3)數(shù)據(jù)挖掘:在對數(shù)據(jù)進(jìn)行轉(zhuǎn)化后,就可以結(jié)合相應(yīng)的挖掘算法,自動(dòng)完成相應(yīng)的數(shù)據(jù)分析工作。
(4)結(jié)果分析:對得到的數(shù)據(jù)分析結(jié)果進(jìn)行評價(jià),結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會(huì)用到可視化技術(shù)。
(5)知識(shí)同化:對分析得到的數(shù)據(jù)信息進(jìn)行整理,統(tǒng)一到業(yè)務(wù)信息系統(tǒng)的組成結(jié)構(gòu)中。這個(gè)步驟不一定能夠一次完成,而且其中部分步驟可能需要重復(fù)進(jìn)行。
二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實(shí)施要點(diǎn)
水利工程在經(jīng)濟(jì)和社會(huì)發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點(diǎn)考慮的問題。最近幾年,隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展,水利工程項(xiàng)目的數(shù)量和規(guī)模不斷擴(kuò)大,產(chǎn)生的水利科學(xué)數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動(dòng)和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預(yù)防以及對生態(tài)環(huán)境問題的處理方面,獲取完整的水利科學(xué)數(shù)據(jù)是首要任務(wù)。那么,針對日益繁雜的海量水利科學(xué)數(shù)據(jù),如何對有用的信息知識(shí)進(jìn)行提取呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效的解決了這個(gè)問題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價(jià)值的知識(shí),為相關(guān)決策提供必要的支持。
1.強(qiáng)化數(shù)據(jù)庫建設(shè)
要想對各類數(shù)據(jù)進(jìn)行科學(xué)有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫。對于水利工程而言,應(yīng)該建立分類數(shù)據(jù)庫,如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準(zhǔn)確性,選擇合適的方法,對有用數(shù)據(jù)進(jìn)行挖掘。
2.合理選擇數(shù)據(jù)挖掘算法
(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問題最早提出于1993年,在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域,從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個(gè)極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過量化的數(shù)據(jù),來描述事務(wù)A的出現(xiàn)對于事務(wù)B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應(yīng)的記錄組合,通過對記錄組合的分析,推導(dǎo)出Item間存在的相關(guān)性。當(dāng)前對于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時(shí)出現(xiàn)的概率,置信度則是在事務(wù)集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過相應(yīng)的關(guān)聯(lián)分析,可以得出事務(wù)A、B同時(shí)出現(xiàn)的簡單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對可靠,通過關(guān)聯(lián)分析,可以明確事務(wù)A、B的關(guān)聯(lián)程度,決定兩種事務(wù)同時(shí)出現(xiàn)的情況。
(2)自頂而下頻繁項(xiàng)挖掘算法:對于長頻繁項(xiàng),如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進(jìn)行大量的計(jì)算分析,不僅耗時(shí)耗力,而且影響計(jì)算的精準(zhǔn)度,這時(shí),就可以采用自頂而下頻繁項(xiàng)挖掘算法,這種算法是一種相對優(yōu)秀的長頻繁項(xiàng)挖掘算法,利用了事務(wù)項(xiàng)目關(guān)聯(lián)信息表、項(xiàng)目約簡、關(guān)鍵項(xiàng)目以及投影數(shù)據(jù)庫等新概念與投影、約簡等新方法,在對候選集進(jìn)行生成的過程中,應(yīng)該對重復(fù)分支進(jìn)行及時(shí)修剪,提升算法的實(shí)際效率,從而有效解決了長頻繁項(xiàng)的挖掘問題。結(jié)合計(jì)算機(jī)實(shí)驗(yàn)以及算法分析,可以看出,這種方法是相對完善的,同時(shí)也是十分有效的。不過需要注意的是,當(dāng)支持度較大、頻繁項(xiàng)相對較短時(shí),利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項(xiàng)雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項(xiàng)以及段頻繁項(xiàng)的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項(xiàng)集,可以對候選集進(jìn)行及時(shí)修剪,提升算法的實(shí)際效率。
三、結(jié)語
篇3
近年來,我國的部隊(duì)管理體系已經(jīng)逐漸向著自動(dòng)化方向發(fā)展,部隊(duì)中各個(gè)部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實(shí)現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊(duì)工作的效率,但是由于外界因素與經(jīng)濟(jì)發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問題,使得部隊(duì)管理體系存在著一定問題:第一、關(guān)聯(lián)性小、系統(tǒng)比較獨(dú)立?,F(xiàn)階段,部隊(duì)采購食品系統(tǒng)的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進(jìn)行食品采購時(shí),不能充分考慮到采購人員的健康、效率等問題,不能達(dá)到最優(yōu)化采購方式,因此就變得比較獨(dú)立;第二,數(shù)據(jù)功能簡單,可靠性不高?,F(xiàn)階段,部隊(duì)食品采購數(shù)據(jù)只是對采購的種類與過程進(jìn)行簡單記錄,時(shí)間一久,就會(huì)被損壞或者丟失;第三,數(shù)據(jù)分散不集中?,F(xiàn)階段與部隊(duì)人員健康、起居飲食、訓(xùn)練相關(guān)的數(shù)據(jù)分散在不同系統(tǒng)中,使得數(shù)據(jù)變得不一致、不完整,僅僅只能進(jìn)行簡單查詢、匯總、統(tǒng)計(jì)等工作,不能對數(shù)據(jù)進(jìn)行多角度分析、關(guān)聯(lián)等,不能為采購食品提供很好的政策支持。針對部隊(duì)采購存在的問題,可以利用數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘技術(shù)建立多為數(shù)據(jù)庫,利用數(shù)據(jù)挖掘進(jìn)技術(shù)對食品采購數(shù)據(jù)進(jìn)行挖掘。依據(jù)現(xiàn)階段部隊(duì)的實(shí)際發(fā)展情況,建立一套新數(shù)據(jù)庫的成本代價(jià)比較高,因此,選用了目前社會(huì)上通用方法,對已經(jīng)存在的數(shù)據(jù)進(jìn)行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據(jù),成為新的數(shù)據(jù)庫。并且選取對數(shù)據(jù)挖掘影響比較大的系統(tǒng)性分析,包括訓(xùn)練系統(tǒng),食品采購系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對食品采購采購系統(tǒng)建立數(shù)據(jù)模型。
二、在部隊(duì)食品采購系統(tǒng)中的應(yīng)用以及其價(jià)值評價(jià)
在部隊(duì)食品采購系統(tǒng)實(shí)際應(yīng)用工程中,其實(shí)可以運(yùn)用MicrosoftSQLServerAnalysisServices來對數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過程中對多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因?yàn)槎嗑S數(shù)據(jù)比較復(fù)雜,增長的也比較快,因此,進(jìn)行手動(dòng)查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計(jì)算模式可以很好的對數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊(duì)食品采購倉庫數(shù)據(jù)的時(shí)候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個(gè)主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊(duì)的實(shí)際情況,利用數(shù)據(jù)挖掘技術(shù)對部隊(duì)人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊(duì)人員的訓(xùn)練和健康情況與部隊(duì)飲食之間內(nèi)在關(guān)系,以便于為部隊(duì)食品采購提供合理的、有效的保障,從而提高部隊(duì)整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對提高我國部隊(duì)?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。
三、結(jié)束語
篇4
統(tǒng)計(jì)學(xué)論文2000字(一):影響民族院校統(tǒng)計(jì)學(xué)專業(yè)回歸分析成績因素的研究論文
摘要:學(xué)習(xí)成績是評價(jià)學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計(jì)學(xué)專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時(shí)成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進(jìn)行深入研究,其結(jié)果對今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時(shí)成績;期末成績
為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時(shí)成績也會(huì)影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級(jí)統(tǒng)計(jì)專業(yè)50名學(xué)生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時(shí)成績和期末成績,運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計(jì)專業(yè)必修課,也是統(tǒng)計(jì)學(xué)中的一個(gè)非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會(huì)、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計(jì)學(xué)專業(yè)回歸分析成績的相關(guān)性是十分重要的。
選取了統(tǒng)計(jì)專業(yè)50名學(xué)生的專業(yè)基礎(chǔ)課成績(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時(shí)成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識(shí)[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計(jì)軟件對回歸分析期末成績的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評價(jià)學(xué)生考試成績,對教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會(huì)有較大幫助。自變量x1表示數(shù)學(xué)分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時(shí)成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個(gè)基本假設(shè),
1.隨機(jī)誤差項(xiàng)具有零均值和等方差,即
(2)
這個(gè)假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計(jì)表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計(jì)量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語
通過對上述模型進(jìn)行分析,即各個(gè)自變量對因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當(dāng)解析幾何成績、概率論成績和平時(shí)成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學(xué)生專業(yè)基礎(chǔ)課成績、平時(shí)成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識(shí),注重專業(yè)基礎(chǔ)課教學(xué)的重要性,同時(shí),當(dāng)學(xué)生平時(shí)成績不好時(shí),隨時(shí)調(diào)整教學(xué)進(jìn)度提高學(xué)生平時(shí)學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識(shí)到,為了更好地掌握回歸分析知識(shí),應(yīng)加強(qiáng)專業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時(shí)學(xué)習(xí)的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問題。
統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)的蓬勃發(fā)展,造就了一個(gè)嶄新的大數(shù)據(jù)時(shí)代,這些變化對統(tǒng)計(jì)學(xué)專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對統(tǒng)計(jì)學(xué)本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價(jià)值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價(jià)值,是這個(gè)時(shí)代帶給我們的機(jī)遇與挑戰(zhàn),同時(shí)對數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對于常常和數(shù)據(jù)打交道的統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來說,更是如此。
二、課程教學(xué)探討
針對統(tǒng)計(jì)學(xué)本科專業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙?jí)或者四年級(jí)所開設(shè),他們在前期已經(jīng)學(xué)習(xí)完統(tǒng)計(jì)學(xué)、應(yīng)用回歸分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時(shí)把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對學(xué)生來說是不太現(xiàn)實(shí)的,需要為統(tǒng)計(jì)學(xué)專業(yè)本科生“個(gè)性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動(dòng)手能力,為在大數(shù)據(jù)時(shí)代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個(gè)目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對軟件的計(jì)算結(jié)果熟練解讀,對各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對于已經(jīng)學(xué)過的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們在數(shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識(shí)的講解過程中,注意和已學(xué)過知識(shí)的融匯貫通,既復(fù)習(xí)鞏固了原來學(xué)過的知識(shí),同時(shí)也無形中降低了新知識(shí)的難度。比如,在數(shù)據(jù)挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識(shí)點(diǎn)就能和之前學(xué)過的內(nèi)容有機(jī)聯(lián)系起來。
(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動(dòng)接收”式的學(xué)習(xí)變?yōu)椤爸鲃?dòng)探究”型的學(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個(gè)或幾個(gè)案例,以加強(qiáng)學(xué)生對知識(shí)的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵(lì)學(xué)生去搜集自己感興趣的或者國家及社會(huì)大眾關(guān)注的問題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計(jì)劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時(shí)課堂表現(xiàn)、平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評價(jià)學(xué)生的表現(xiàn)。
三、教學(xué)效果評估
經(jīng)過幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對課程的興趣度在提升,課下也會(huì)不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會(huì)一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計(jì)學(xué)專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。
教學(xué)實(shí)踐結(jié)果表明,通過數(shù)據(jù)挖掘課程的學(xué)習(xí),可以讓學(xué)生在掌握理論知識(shí)的基礎(chǔ)上,進(jìn)一步提升分析問題和解決實(shí)際問題的能力。
篇5
>> 基于本體的網(wǎng)絡(luò)輿情觀點(diǎn)挖掘方法研究 基于熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情信息挖掘方法研究 基于網(wǎng)頁文本獲取的高校網(wǎng)絡(luò)輿情監(jiān)控 基于OAG循環(huán)的網(wǎng)絡(luò)輿情管理模型研究 基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究 基于文本挖掘的網(wǎng)絡(luò)媒體報(bào)道研究 基于模糊神經(jīng)網(wǎng)絡(luò)的Web文本挖掘系統(tǒng) 基于PDCA循環(huán)的預(yù)算管理 基于PDCA循環(huán)的績效考評 基于 PDCA 循環(huán)方法的瀝青路面質(zhì)量動(dòng)態(tài)管理的研究 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情預(yù)警決策支持系統(tǒng) 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測與引導(dǎo)平臺(tái)設(shè)計(jì)研究 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警研究 基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析技術(shù)研究 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警策略探討 基于數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情預(yù)測中的應(yīng)用 基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 基于數(shù)據(jù)挖掘的輿情觀點(diǎn)挖掘研究 基于蛙鳴博弈的網(wǎng)絡(luò)輿情與政府監(jiān)管的模型淺析 基于PDCA循環(huán)的績效管理體系的構(gòu)建 常見問題解答 當(dāng)前所在位置:.
[2]張玉亮.突發(fā)事件網(wǎng)絡(luò)輿情的生成原因與導(dǎo)控策略――基于網(wǎng)絡(luò)輿情主體心理的分析視閾[J].情報(bào)雜志,2012,31(4):54-57.
[3]許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J].情報(bào)理論與實(shí)踐,2009,32(3):115-120.
[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.
[5]鄭軍.網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)發(fā)現(xiàn)算法研究[D].哈爾濱哈爾濱工程大學(xué),2007.
[6]陳耘可,李博,鄭天翔.PDCA循環(huán)在煤炭企業(yè)質(zhì)量標(biāo)準(zhǔn)化建設(shè)中的研究與應(yīng)用[J].煤炭經(jīng)濟(jì)研究,2013,33(2):77-79.
[7]辛敏.PDCA理論在護(hù)理質(zhì)量管理中的應(yīng)用研究[D].碩士學(xué)位論文:山西醫(yī)科大學(xué),2010.
篇6
關(guān)鍵詞: 居民出行特征; 數(shù)據(jù)挖掘; GPS軌跡數(shù)據(jù); DBSCAN
中圖分類號(hào):TP29 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因?yàn)槌鲂械木用袷墙煌康闹饕獊碓碵1]。一個(gè)城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會(huì)對城市交通體系產(chǎn)生影響[2]。對居民出行特征進(jìn)行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個(gè)基礎(chǔ)性任務(wù),不僅可以用來對目前的交通出行情況進(jìn)行評估,也可以用來對居民的出行需求進(jìn)行預(yù)測,對實(shí)施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。
出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時(shí),因?yàn)樗钠瘘c(diǎn)和終點(diǎn)由乘客決定,且24小時(shí)不間斷服務(wù),所以,出租車的運(yùn)營規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運(yùn)管理中心傳送出租車的實(shí)時(shí)經(jīng)緯度、運(yùn)營狀態(tài)、行駛方向、速度等信息,因此,管理中心會(huì)積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對這些進(jìn)行數(shù)據(jù)進(jìn)行聚類分析,可以在一定程度上挖掘乘客出行的時(shí)空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。
1 GPS軌跡數(shù)據(jù)挖掘設(shè)計(jì)
1.1 數(shù)據(jù)預(yù)處理
本文選取榆陽區(qū)(地理坐標(biāo)為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運(yùn)營數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當(dāng)前位置loc、GPS時(shí)間ct、營運(yùn)狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個(gè)屬性組成,部分屬性值如表1所示。
表1中,營運(yùn)狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運(yùn);GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。
1.2 利用DBSCAN算法進(jìn)行聚類挖掘
居民的作息和社會(huì)活動(dòng)有明顯的時(shí)間規(guī)律,比如上下班高峰期的載客點(diǎn)分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時(shí)間特征分類,再進(jìn)行密度聚類分析,如此便可充分挖掘在不同時(shí)間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時(shí)空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率?;诖?,論文引入了DBBSCAN算法,該算法需要3個(gè)輸入?yún)?shù):歷史軌跡數(shù)據(jù)對象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('緯度');
2 實(shí)驗(yàn)結(jié)果
聚類結(jié)果如圖1和圖2所示,出行熱點(diǎn)區(qū)域在圖中用圓圈標(biāo)出。
以上的聚類結(jié)果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時(shí)間特征。工作日和非工作日出租車熱點(diǎn)區(qū)域不同,且工作日的不同時(shí)間居民出行的特征不同;在工作日,出租車的載客熱點(diǎn)數(shù)比非工作日多;而載客熱點(diǎn)分布,工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機(jī)提供歷史載客熱點(diǎn)序列,從一定程度上解決巡游方式的出租車空載率高的問題。
3 結(jié)束語
本文利用DBSCAN算法對出租車的歷史GPS軌跡數(shù)據(jù)進(jìn)行挖掘,從挖掘結(jié)果可以分析出居民出行的時(shí)空特征,從而用來對目前的交通出行情況進(jìn)行評估,同時(shí)也可以用來對居民的出行需求進(jìn)行預(yù)測;再者,可以根據(jù)挖掘結(jié)果給出租車司機(jī)提供歷史載客熱點(diǎn)序列,幫助出租車司機(jī)降低空駛率。本文僅針對工作日和周末特定時(shí)刻給出了聚類分析,沒有詳細(xì)地分析一天中不同時(shí)刻的居民出行特征,以后的工作中會(huì)繼續(xù)研究和改進(jìn)。
參考文獻(xiàn)(References):
[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進(jìn)展[J].西部交通科技,2016.10:87-92
[2] 馮琦森.基于出租車軌跡的居民出行熱點(diǎn)路徑和區(qū)域挖掘[D].重慶大學(xué),2016.
[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識(shí)別――廣州市浮動(dòng)車GPS時(shí)空數(shù)據(jù)挖掘[J].地理學(xué)報(bào),2016.3:471-483
[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué),2015.6:104-108
[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64
[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué)碩士學(xué)位論文,2015.
[7] 童曉君.基于出租車GPS數(shù)據(jù)的居民出行行為分析[D].中南大學(xué)碩士學(xué)位論文,2012.
篇7
論文關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);web數(shù)據(jù)挖掘
1 引言
當(dāng)前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,有效推動(dòng)了商務(wù)活動(dòng)由傳統(tǒng)活動(dòng)向電子商務(wù)變革。電子商務(wù)就是利用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)以及遠(yuǎn)程通信技術(shù),實(shí)現(xiàn)整個(gè)商務(wù)活動(dòng)的電子化、數(shù)字化和網(wǎng)絡(luò)化?;趇nternet的電子商務(wù)快速發(fā)展,使現(xiàn)代企業(yè)積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅能給企業(yè)帶來更多有用信息,同時(shí)還使其他現(xiàn)代企業(yè)管理者能夠及時(shí)準(zhǔn)確的搜集到大量的數(shù)據(jù)。訪問客戶提供更多更優(yōu)質(zhì)的服務(wù),成為電子商務(wù)成敗的關(guān)鍵因素,因而受到現(xiàn)代電子商務(wù)經(jīng)營者的高度關(guān)注,這也對計(jì)算機(jī)web數(shù)據(jù)技術(shù)提出了新的要求,web 數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。它是一種能夠從網(wǎng)上獲取大量數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學(xué)合理制定和調(diào)整營銷策略,為客戶提供動(dòng)態(tài)、個(gè)性化、高效率服務(wù)的全新技術(shù)。目前,它已成為電子商務(wù)活動(dòng)中不可或缺的重要載體。
2 計(jì)算機(jī)web數(shù)據(jù)挖掘概述
2.1 計(jì)算機(jī)web數(shù)據(jù)挖掘的由來
計(jì)算機(jī)web數(shù)據(jù)挖掘是一個(gè)在web資源上將對自己有用的數(shù)據(jù)信息進(jìn)行篩選的過程。web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到web應(yīng)用中,即從現(xiàn)有的web文檔和活動(dòng)中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計(jì)算機(jī)web數(shù)據(jù)挖掘可以在多領(lǐng)域中展示其作用,目前已被廣泛應(yīng)用于數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等多個(gè)方面,其中對商務(wù)活動(dòng)的變革起到重大的推動(dòng)作用方面最為明顯。
2.2 計(jì)算機(jī)web數(shù)據(jù)挖掘含義及特征
(1) web數(shù)據(jù)挖掘的含義。
web 數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術(shù)在web 環(huán)境下的應(yīng)用,是一項(xiàng)數(shù)據(jù)挖掘技術(shù)與www技術(shù)相結(jié)合產(chǎn)生的新技術(shù),綜合運(yùn)用到了計(jì)算機(jī)語言、internet、人工智能、統(tǒng)計(jì)學(xué)、信息學(xué)等多個(gè)領(lǐng)域的技術(shù)。具體說,就是通過充分利用網(wǎng)絡(luò)(internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網(wǎng)絡(luò)用戶登記信息等內(nèi)容,從中找出隱性的、潛在有用的和有價(jià)值的信息,最后再用于企業(yè)管理和商業(yè)決策。
(2)web數(shù)據(jù)挖掘的特點(diǎn)。
計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):一是用戶不用提供主觀的評價(jià)信息;二是用戶“訪問模式動(dòng)態(tài)獲取”不會(huì)過時(shí);三是可以處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,web是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心。
(3)計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)的類別。
web數(shù)據(jù)挖掘技術(shù)共有三類:第一類是web使用記錄挖掘。就是通過網(wǎng)絡(luò)對web 日志記錄進(jìn)行挖掘,查找用戶訪問web頁面的模式及潛在客戶等信息,以此提高其站點(diǎn)所有服務(wù)的競爭力。第二類是web內(nèi)容挖掘。既是指從web文檔中抽取知識(shí)的過程。第三類是web結(jié)構(gòu)挖掘。就是通過對web上大量文檔集合的內(nèi)容進(jìn)行小結(jié)、聚類、關(guān)聯(lián)分析的方式,從web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中預(yù)測相關(guān)信息和知識(shí)。
3 計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)與電子商務(wù)的關(guān)系
借助計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的日臻成熟,電子商務(wù)正以其快速、便捷的特點(diǎn)受到越來越多的企業(yè)和個(gè)人的關(guān)注。隨著電子商務(wù)企業(yè)業(yè)務(wù)規(guī)模的不斷擴(kuò)大,電子商務(wù)企業(yè)的商品和客戶數(shù)量也隨之迅速增加,電子商務(wù)企業(yè)以此獲得了大量的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務(wù)企業(yè)客戶管理和銷售管理的重要信息。為了更好地開發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶帶來更多的便利和實(shí)惠,各種數(shù)據(jù)挖掘技術(shù)也逐漸被應(yīng)用到電子商務(wù)網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(特別是web數(shù)據(jù)挖掘)技術(shù)構(gòu)建的電子商務(wù)推薦系統(tǒng)正成為電子商務(wù)推薦系統(tǒng)發(fā)展的一種趨勢。
4 計(jì)算機(jī)web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用
(1)電子商務(wù)中的web數(shù)據(jù)挖掘的過程。
在電子商務(wù)中,web數(shù)據(jù)挖掘的過程主要有以下三個(gè)階段:既是數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘操作階段、結(jié)果表達(dá)和解釋階段。如果在結(jié)果表達(dá)階段中,分析結(jié)果不能讓電子商務(wù)企業(yè)的決策者滿意,就需要重復(fù)上述過程,直到滿意為止。
(2)web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。
目前,電子商務(wù)在企業(yè)中得到廣泛應(yīng)用,極大地促進(jìn)了電子商務(wù)網(wǎng)站的興起,經(jīng)過分析一定時(shí)期內(nèi)站點(diǎn)上的用戶的訪問信息,便可發(fā)現(xiàn)該商務(wù)站點(diǎn)上潛在的客戶群體、相關(guān)頁面、聚類客戶等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會(huì)獲得大量的數(shù)據(jù),如此多的數(shù)據(jù)使web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),使它在各種商業(yè)領(lǐng)域有著更加重要的實(shí)用價(jià)值。因而,電子商務(wù)必將是未來web數(shù)據(jù)挖掘的主攻方向。web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用主要包含以下幾方面:
一是尋找潛在客戶。電子商務(wù)活動(dòng)中,企業(yè)的銷售商可以利用分類技術(shù)在internet上找到潛在客戶,通過挖掘web日志記錄等信息資源,對訪問者進(jìn)行分類,尋找訪問客戶共同的特征和規(guī)律,然后從已經(jīng)存在的分類中找到潛在的客戶。
二是留住訪問客戶。電子商務(wù)企業(yè)通過商務(wù)網(wǎng)站可以充分挖掘客戶瀏覽訪問時(shí)留下的信息,了解客戶的瀏覽行為,然后根據(jù)客戶不同的愛好和要求,及時(shí)做出讓訪問客戶滿意的頁面推薦和專屬性產(chǎn)品,以此來不斷提高網(wǎng)站訪問的滿意度,最大限度延長客戶駐留的時(shí)間,實(shí)現(xiàn)留住老客戶發(fā)掘新客戶的目的。
三是提供營銷策略參考。通過web數(shù)據(jù)挖掘,電子商務(wù)企業(yè)銷售商能夠通過挖掘商品訪問情況和銷售情況,同時(shí)結(jié)合市場的變化情況,通過聚類分析的方法,推導(dǎo)出客戶訪問的規(guī)律,不同的消費(fèi)需求以及消費(fèi)產(chǎn)品的生命周期等情況,為決策提供及時(shí)而準(zhǔn)確的信息參考,以便決策者能夠適時(shí)做出商品銷售策略調(diào)整,優(yōu)化商品營銷。
四是完善商務(wù)網(wǎng)站設(shè)計(jì)。電子商務(wù)網(wǎng)站站點(diǎn)設(shè)計(jì)者能夠利用關(guān)聯(lián)規(guī)則,來了解客戶的行為記錄和反饋情況,并以此作為改進(jìn)網(wǎng)站的依據(jù),不斷對網(wǎng)站的組織結(jié)構(gòu)進(jìn)行優(yōu)化來方便客戶訪問,不斷提高網(wǎng)站的點(diǎn)擊率。
篇8
【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù);電子商務(wù);推薦系統(tǒng);研究
隨著計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)在社會(huì)工作與生活中的普及,電子商務(wù)產(chǎn)業(yè)也獲得了快速的發(fā)展。為了進(jìn)一步擴(kuò)大電子商務(wù)的市場,提高電子商務(wù)企業(yè)的經(jīng)濟(jì)效益,電子商務(wù)推薦系統(tǒng)被開發(fā)出來。而數(shù)據(jù)挖掘技術(shù)作為支持該系統(tǒng)運(yùn)行的重要技術(shù),對電子商務(wù)推薦系統(tǒng)的發(fā)展具有重要意義。本文將主要對其進(jìn)行分析與研究。
一、數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)至今還沒有一個(gè)統(tǒng)一的、確定的概念定義。歸結(jié)起來,筆者認(rèn)為數(shù)據(jù)挖掘的概念應(yīng)主要包括以下三方面內(nèi)容:①未知。一些學(xué)者也將其表述為新穎。這一方面內(nèi)容強(qiáng)調(diào)的是數(shù)據(jù)挖掘技術(shù)能夠清楚的揭示出許多數(shù)據(jù)之間的相互關(guān)聯(lián)關(guān)系,并對于隱藏在這些數(shù)據(jù)信息后的隱含信息也能隨之被呈現(xiàn)。通常來說,被挖掘出的信息越隱秘,那么其價(jià)值也就越大[1]。②可用。一些學(xué)者也將其表述為有效、支持決策等。數(shù)據(jù)挖掘技術(shù)的這一內(nèi)容主要強(qiáng)調(diào)對數(shù)據(jù)信息可用性價(jià)值的需求。因?yàn)橹挥型诰虺隽擞袃r(jià)值的、能夠被人們利用的數(shù)據(jù)信息,才能滿足人們的需求,推動(dòng)某些事物的發(fā)展。③可理解。一些學(xué)者也將這一內(nèi)容解釋為可解釋。然而無論表述之間存在著怎樣的差異,這一內(nèi)容都主要對被挖掘出的數(shù)據(jù)信息的可理解狀況提出了要求。只有那些通被商家與客戶理解的數(shù)據(jù)信息才能夠被最終應(yīng)用,發(fā)揮其自身的價(jià)值,帶動(dòng)相關(guān)利益主體的進(jìn)步與發(fā)展。
二、協(xié)同過濾技術(shù)
數(shù)據(jù)挖掘技術(shù)有許多種類,如關(guān)聯(lián)規(guī)則、聚類、貝葉斯網(wǎng)絡(luò)和協(xié)同過濾技術(shù)等[2]。其中協(xié)同過濾技術(shù)作為數(shù)據(jù)挖掘技術(shù)中最具有價(jià)值的一種技術(shù),被廣泛的應(yīng)用到了現(xiàn)如今的電子商務(wù)推薦系統(tǒng)之中。
2.1協(xié)同過濾技術(shù)的實(shí)現(xiàn)
協(xié)同過濾技術(shù)的實(shí)現(xiàn)并不是一步就可以完成的,而需要經(jīng)過多個(gè)步驟。經(jīng)過歸納,筆者將其分為三個(gè)主要步驟:第一,人們需要事先對用戶進(jìn)行調(diào)查,以記錄和收集他們對企業(yè)商品項(xiàng)目的評價(jià)信息;第二,對企業(yè)項(xiàng)目集的搜索結(jié)果進(jìn)行生成操作;第三,對企業(yè)項(xiàng)目集推薦結(jié)果進(jìn)行生成操作[3]。在進(jìn)行第一個(gè)步驟時(shí),人們經(jīng)常使用顯示評價(jià)法與人工調(diào)查法對商品項(xiàng)目的評價(jià)信息進(jìn)行收集。在電子商務(wù)時(shí)代,傳統(tǒng)的人工走訪方式已經(jīng)逐漸被取代,更多的是應(yīng)用顯示評價(jià)法對商品項(xiàng)目信息進(jìn)行收集。
2.2基于用戶的協(xié)同過濾技術(shù)
此種協(xié)同過濾技術(shù)主要通過慣性分析方式將電子商務(wù)企業(yè)的用戶作為研究對象,這種數(shù)據(jù)挖掘技術(shù)是以用戶為研究對象的。也就是說當(dāng)電子商務(wù)企業(yè)的某兩個(gè)用戶對于某一商品的評價(jià)信息趨于一致時(shí),那么系統(tǒng)就會(huì)推斷這兩個(gè)用戶對商品的喜好品味是相同的,而商務(wù)推薦系統(tǒng)在以后的工作中在對某一商品進(jìn)行推薦評價(jià)等工作時(shí)就會(huì)認(rèn)為這兩個(gè)用戶也會(huì)對此商品有著同樣的喜愛程度。
將基于用戶的協(xié)同過濾技術(shù)應(yīng)用到電子商務(wù)的推薦系統(tǒng)中,電子商務(wù)推薦系統(tǒng)能夠更加輕松的對商品項(xiàng)目用戶的喜好傾向進(jìn)行搜集與挖掘,從而為相關(guān)的商家提供一定的數(shù)據(jù)信息支持其新產(chǎn)品的研發(fā)設(shè)計(jì)等。并且通過這一技術(shù)電子商務(wù)推薦系統(tǒng)還能夠?qū)Σ⑽促徺I過某商品的用戶,但是與其有著相同喜好的用戶已經(jīng)購買過的關(guān)聯(lián)用戶進(jìn)行商品推薦,以發(fā)掘更多的潛在購買用戶,擴(kuò)大企業(yè)的市場,增加產(chǎn)品的銷量,從而獲取更高的利益。
2.3基于項(xiàng)目的協(xié)同過濾技術(shù)
基于項(xiàng)目的協(xié)同過濾技術(shù)主要將商品項(xiàng)目作為其作用對象。若電子商務(wù)推薦系統(tǒng)要想將某件商品Y推薦給某個(gè)用戶S。就應(yīng)該首先將用戶S已經(jīng)購買并評價(jià)過的商品(Y1、Y2……Yn)進(jìn)行統(tǒng)計(jì),然后對電子商務(wù)企業(yè)需要推薦的商品Y和這n個(gè)已經(jīng)評價(jià)過的商品之間的相似度進(jìn)行計(jì)算與對比。找出這n個(gè)評價(jià)過商品中與待推薦商品Y相似度最大的商品項(xiàng)目,從而建立起與待推薦商品Y相似的商品集合(n1、n2……nk)。由于商品用戶S對待推薦的商品Y的評價(jià)情況與用戶S對(n1、n2……nk)中商品集合的評價(jià)情況相似度較高,因此電子商務(wù)推薦系統(tǒng)會(huì)用用戶S對(n1、n2……nk)商品集合的評價(jià)值進(jìn)行加權(quán)的方式來得出用戶S對待推薦商品Y的評價(jià)值F。當(dāng)F大于推薦平均值w時(shí),電子商務(wù)推薦系統(tǒng)就會(huì)對用戶S推薦商品Y。
三、結(jié)束語
本文主要對基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)進(jìn)行了研究,并重點(diǎn)對協(xié)同過濾技術(shù)對電子商務(wù)推薦系統(tǒng)的重要性作用進(jìn)行了分析,希望能夠進(jìn)一步推動(dòng)電子商務(wù)推薦系統(tǒng)的發(fā)展。
參 考 文 獻(xiàn)
[1] 韓家煒.數(shù)據(jù)挖掘――概念與技術(shù)(范明,孟小峰譯)[M].機(jī)械工業(yè)出版社,2011.
篇9
[關(guān)鍵詞]文本挖掘人 文社科 技術(shù)應(yīng)用
[分類號(hào)]TP391
[文本挖掘概述
文本挖掘(text mining)是一個(gè)跨學(xué)科的交叉研究領(lǐng)域,涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語言處理、可視化技術(shù)、數(shù)據(jù)庫技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí)和技術(shù)。目前關(guān)于文本挖掘并沒有統(tǒng)一的定義,關(guān)于文本挖掘的名稱亦有“文本數(shù)據(jù)挖掘(text data mining)”或“文本知識(shí)發(fā)現(xiàn)(knowledge discovery in text)”等不同說法。一個(gè)比較廣泛使用的定義是:文本挖掘是指為了發(fā)現(xiàn)知識(shí),從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程。它是一個(gè)分析文本數(shù)據(jù),抽取文本信息,進(jìn)而發(fā)現(xiàn)文本知識(shí)的過程。
一個(gè)完整的文本挖掘過程一般包括預(yù)處理、模式挖掘、模式評價(jià)等多個(gè)步驟,其中包含了多種文本處理與挖掘技術(shù),如數(shù)據(jù)預(yù)處理技術(shù)中的分詞、特征表示、特征提取技術(shù),挖掘分析技術(shù)中的文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、分布分析與趨勢預(yù)測等技術(shù)以及信息展示中的可視化技術(shù)等。
文本挖掘技術(shù)拓展了現(xiàn)有的數(shù)據(jù)挖掘技術(shù),把挖掘的對象從結(jié)構(gòu)化的數(shù)值數(shù)據(jù)擴(kuò)展到非結(jié)構(gòu)化的文本數(shù)據(jù),因此可以幫助我們從海量的文本數(shù)據(jù)中發(fā)現(xiàn)新的模式、模型、規(guī)則、趨勢等知識(shí),目前在很多領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)計(jì)量的結(jié)果表明,近年來國際上文本挖掘的研究論文呈迅猛上升勢頭。以“text mining”為主題詞在Web of Knowledge(WoK)中檢索可得與文本挖掘相關(guān)的論文3 049篇(截至2010年),且呈逐年上升的趨勢。從WoK學(xué)科統(tǒng)計(jì)來看,目前文本挖掘技術(shù)的研究主要集中于計(jì)算機(jī)科學(xué)、計(jì)算生物學(xué)、數(shù)學(xué)、醫(yī)藥信息學(xué)、生物化學(xué)與分子化學(xué)、信息科學(xué)、醫(yī)學(xué)等自然科學(xué)領(lǐng)域,論文總數(shù)占文獻(xiàn)總量的82%。相比而言,人文社會(huì)科學(xué)領(lǐng)域的論文則較少,兩者之和為18%,其中人文科學(xué)僅為1%。
由于互聯(lián)網(wǎng)時(shí)代學(xué)術(shù)資源生產(chǎn)與傳遞方式的變化,以新的方法和技術(shù)從海量文本中發(fā)現(xiàn)隱含的知識(shí)和模式,成為情報(bào)學(xué)中最有前景的領(lǐng)域之一。由于人文社科文獻(xiàn)的非結(jié)構(gòu)化特征更加明顯,文獻(xiàn)中包含的隱性內(nèi)容更多,能否在人文社科領(lǐng)域成功運(yùn)用文本挖掘就成為了檢驗(yàn)文本挖掘的方法論優(yōu)勢的試金石。本文以文本挖掘的幾個(gè)關(guān)鍵技術(shù)——信息抽取、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、模式發(fā)現(xiàn)與可視化技術(shù)為主要線索,分析發(fā)現(xiàn)文本挖掘技術(shù)在人文社科研究中的應(yīng)用特點(diǎn),以便為人文社科研究中更加自覺地應(yīng)用文本挖掘方法提供新的思路。
2、信息抽取應(yīng)用
信息抽取(information extraction)是文本挖掘的前-端技術(shù),它從文本對象中抽取預(yù)先指定的實(shí)體、關(guān)系、事件等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并輸入數(shù)據(jù)庫。信息抽取所獲得的結(jié)構(gòu)化信息片段從一個(gè)角度反映了文本內(nèi)容的內(nèi)在特征,因此通過機(jī)器學(xué)習(xí)等方法可以從中發(fā)現(xiàn)知識(shí)、挖掘知識(shí),為科學(xué)研究提供有力的支持。
信息抽取作為一門獨(dú)立的內(nèi)容處理技術(shù),其本身在商業(yè)、情報(bào)分析、數(shù)字圖書館等領(lǐng)域有著廣泛的應(yīng)用,已有較多專門的信息抽取系統(tǒng)投入商用。在人文社科研究中,信息抽取常常作為文本挖掘的一個(gè)重要步驟,作為知識(shí)發(fā)現(xiàn)技術(shù)的前端和基礎(chǔ)。文獻(xiàn)構(gòu)建了基于信息抽取的文本挖掘模型,均把信息抽取作為文本挖掘的一個(gè)重要組成部分,是提高文本挖掘效率的一個(gè)手段。不僅討論了信息抽取對文本挖掘的作用,而且證實(shí)了通過文本挖掘得出的規(guī)則對信息抽取系統(tǒng)具有指導(dǎo)作用。除了作為文本挖掘的前端技術(shù),信息抽取技術(shù)在改善信息檢索、輔助知識(shí)發(fā)現(xiàn)方面在人文社科研究中有著較多的應(yīng)用。
2.1 改善信息檢索
傳統(tǒng)的信息檢索只能通過關(guān)鍵詞與文檔的匹配返回與用戶需求相關(guān)的文檔,而信息抽取則可以幫助用戶直接定位所需的信息,無需閱讀文檔的全部內(nèi)容。由于在處理海量數(shù)據(jù)時(shí)具有出色表現(xiàn),信息抽取在多個(gè)人文社科領(lǐng)域得到了應(yīng)用。在古典文學(xué)研究領(lǐng)域,德國萊比錫大學(xué)承擔(dān)的eAQUA項(xiàng)目從古典文獻(xiàn)資料(公元前3000年一公元600年)中抽取特定領(lǐng)域的知識(shí),并通過eAQUA門戶免費(fèi)提供這些知識(shí)。在文獻(xiàn)中,英國倫敦國王學(xué)院的Matteo(2010)介紹了一個(gè)信息抽取在古典文學(xué)中的應(yīng)用研究項(xiàng)目,該項(xiàng)目旨在對當(dāng)代關(guān)于古希臘和拉丁文學(xué)作品進(jìn)行研究的二手文獻(xiàn)進(jìn)行實(shí)體抽取,并提供與原始文獻(xiàn)之間的關(guān)聯(lián),從而提供更高級(jí)的信息展示和檢索功能。在社會(huì)學(xué)領(lǐng)域,英國聯(lián)合信息系統(tǒng)委員會(huì)(JISC)資助的ASSERT E’’項(xiàng)目綜合利用信息抽取、文本聚類等技術(shù)提供了一個(gè)自動(dòng)生成文獻(xiàn)綜述的系統(tǒng)。信息抽取技術(shù)與信息檢索技術(shù)互相融合滲透,為人文社科領(lǐng)域海量信息資源的獲取提供了極大的便利。
2.2 輔助知識(shí)發(fā)現(xiàn)
篇10
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;教育管理;算法;VB
中圖分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2011) 03-0000-02
Education Management Decision Support System Based on Data Mining
Lin Lin
(Biochemical Engineering College of Union University,Beijing 10023,China)
Abstract:The paper theoretically expounds the concept of data mining,demonstrates the data mining in the education management decision support system of the core applications,introduces the education management decision support system of data collection, preprocessing,establish and maintain the DW,data mining algorithm choice,the specific content of decision tree algorithm,VB language program design,system testing,etc,discussed the system model in theory framework,rearch data mining and combining education management play a huge role,fnally,discussed the data mining technology in education management decision support system application prospect.
Keywords:Data mining;DW;Education management;Algorithm;VB
隨著信息時(shí)代的快速發(fā)展,外界所帶給我們的大量信息也越來越多。大量信息在給人們帶來方便的同時(shí),也帶來了一大堆麻煩:信息過量難以消化,信息真假難以辯識(shí),信息安全難以保證,信息格式難以統(tǒng)一。身處信息中的我們,如何才能不被信息淹沒、如何從中及時(shí)發(fā)現(xiàn)有用的信息呢?是否存在著一種工具、一種方法或者一個(gè)手段使得身處“數(shù)據(jù)爆炸、知識(shí)匱乏”的我們,能夠以一種輕松的狀態(tài)來進(jìn)行有效的管理決策呢?
數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)晶,它為我們提供了一個(gè)非常優(yōu)秀的工具。
一、 數(shù)據(jù)挖掘技術(shù)
所謂數(shù)據(jù)挖掘就是指一個(gè)完整的過程,該過程就是從海量的隨機(jī)應(yīng)用數(shù)據(jù)中,提取分析隱含在其中的、人們事先并不知道的、但又具有內(nèi)在聯(lián)系的、有價(jià)值的信息數(shù)據(jù),這些信息數(shù)據(jù)為決策提供必要的支持。
數(shù)據(jù)挖掘過程中詳細(xì)各個(gè)步驟的大體內(nèi)容如下六步:
1. 確定主題:即做好需求分析,清晰地定義出問題,并對探索的問題具有可預(yù)見性。
2. 數(shù)據(jù)的提煉:搜索與主題有關(guān)的數(shù)據(jù)信息,研究數(shù)據(jù)的質(zhì)量,并確定將要進(jìn)行挖掘操作的類型。
3. 數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對挖掘算法建立的。
4. 數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了完善從選擇合適的挖掘算法外,其余一切工作要都能自動(dòng)地完成。
5. 結(jié)果分析:解釋并評估結(jié)果,其使用的分析方法一般應(yīng)視數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。
6. 知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
二、 數(shù)據(jù)挖掘與教育管理決策支持系統(tǒng)
我們使用數(shù)據(jù)挖掘技術(shù)對我們所掌握的信息進(jìn)行特定的“挖掘”,能夠發(fā)現(xiàn):廣義知識(shí)、關(guān)聯(lián)知識(shí)、分類知識(shí)、預(yù)測型知識(shí)、偏差型知識(shí),能夠在數(shù)據(jù)中尋找預(yù)測性的信息,能夠?yàn)槲覀兊墓芾硖峁白龀鰶Q策”的依據(jù),能夠有力的支持我們做出恰如其分的選擇。
所謂教育管理,就是在特定的社會(huì)環(huán)境下,遵循教育的客觀規(guī)律,對各種教育資源進(jìn)行合理配置,以實(shí)現(xiàn)教育方針和教育目標(biāo)的行為,教育管理是社會(huì)管理的一部分。在學(xué)校教育管理中,我們引進(jìn)數(shù)據(jù)挖掘技術(shù),正是想針對教育的海量數(shù)據(jù)進(jìn)行有效的發(fā)掘,以期充分利用數(shù)據(jù)挖掘的長處,來發(fā)現(xiàn)這些海量數(shù)據(jù)中潛在的、長久以來未被發(fā)現(xiàn)的規(guī)則,能夠?qū)W(xué)生潛力做出數(shù)據(jù)挖掘,這就為學(xué)校的招生工作提供了一定程度的參考,并在學(xué)生入學(xué)后還可以分析其進(jìn)步或者退步的可能原因是什么,解決學(xué)生教育導(dǎo)向的問題;還可以對學(xué)校管理層比較關(guān)心的問題進(jìn)行挖掘。例如,在所有教職工中教師的比例有多大;一般意義上講某位教師是否達(dá)到了學(xué)校的一般標(biāo)準(zhǔn);能夠?qū)處焾?zhí)教能力和教師人力資源優(yōu)化做出分析,在教師招聘中為人力資源主管提供一般性的判斷依據(jù),對所應(yīng)聘的教師做出其潛力及前景分析,以便能夠輔助管理層做出更好的決策,優(yōu)化教育管理,促進(jìn)教育管理良性發(fā)展。
三、 系統(tǒng)架構(gòu)的搭建
我們將分以下幾步來進(jìn)行系統(tǒng)模型的設(shè)計(jì)及實(shí)現(xiàn):
1 對數(shù)據(jù)進(jìn)行分析,建立數(shù)據(jù)倉庫
數(shù)據(jù)主要來源是檔案室現(xiàn)存的檔案,包括教職工和學(xué)生的,還要?jiǎng)討B(tài)的添加一些數(shù)據(jù)。如果能夠得到教育院校的支持來豐富數(shù)據(jù),那就更好。這個(gè)數(shù)據(jù)的要求是大量、真實(shí)、準(zhǔn)確。
對于教職工的信息,主要有以下屬性:編號(hào)、姓名、性別、民族、出生年月日、
政治面貌、工作時(shí)間、是否為班主任、是否為學(xué)校管理層、畢業(yè)院校、最高學(xué)歷、
最高學(xué)位、最高職稱、家庭經(jīng)濟(jì)條件、教學(xué)評估成績、所獲榮譽(yù)、所帶班級(jí)榮譽(yù)、研究成果等等,越詳細(xì)對我們進(jìn)行數(shù)據(jù)挖掘就越好。如下表所示。
對于學(xué)生的信息,主要有以下屬性:學(xué)號(hào)、姓名、性別、民族、出生年月日、政治面貌、專業(yè)、班級(jí)、入學(xué)時(shí)間、入學(xué)成績、畢業(yè)去向、畢業(yè)成績單、畢業(yè)論文名稱、畢業(yè)論文成績、畢業(yè)證書、畢業(yè)后十年?duì)顩r(可選)、畢業(yè)后二十年?duì)顩r(可選)、畢業(yè)后四十年?duì)顩r(可選)、家庭條件、在校期間所獲榮譽(yù)等等。
對每一個(gè)屬性進(jìn)行賦值初始化,如:性別,定義為字符型變量,M代表男,F(xiàn)代表女;又如:對教師的研究成果,是以字符來進(jìn)行賦值的,涵蓋了發(fā)表的論文、編著的書籍、科研成果等等,這些分別按照級(jí)別予以打分,進(jìn)行累加,最后全部總和即為該教師的研究成果的成績,然后對該成績進(jìn)行加權(quán)求值,按照求值分別賦以A、B、C等字符。對每一位教職工和學(xué)生進(jìn)行賦值,并錄入到數(shù)據(jù)倉庫中。創(chuàng)建數(shù)據(jù)倉庫的工具我們可以選擇Microsoft SQL Server 。需要注意的是,SQL Server “企業(yè)管理器”中控制臺(tái)根目錄中SQL Server組名稱應(yīng)與其他名字一致,例如分析服務(wù)器是LINLIN2006,它也應(yīng)該是LINLIN2006。
2 決策樹算法
決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。如圖4-1,針對學(xué)生畢業(yè)成績影響因素進(jìn)行數(shù)據(jù)挖掘后的一棵決策樹,從中我們看到,決策樹的基本組成:節(jié)點(diǎn)、分支和葉子。
圖4-1決策樹
圖4-1中“入學(xué)成績=好”這個(gè)條件是樹的根,即決策樹的根節(jié)點(diǎn)。對條件的不同回答產(chǎn)生了“是”和“否”兩個(gè)分支;而是否“學(xué)習(xí)勤奮”是根節(jié)點(diǎn)的子節(jié)點(diǎn)(子節(jié)點(diǎn)的個(gè)數(shù)與決策樹算法有關(guān));如果分支下無節(jié)點(diǎn),則到樹尾,稱為葉子,圖中“畢業(yè)成績=壞”就是其中的一個(gè)葉子。從樹根到每一片葉子的過程就是利用決策樹進(jìn)行分類的過程,通常稱這個(gè)過程為“遍歷”。
決策樹算法是數(shù)據(jù)挖掘中常用的一種算法,常用于數(shù)據(jù)分析和預(yù)測。決策樹的構(gòu)造結(jié)果是一棵二叉樹(即每個(gè)節(jié)點(diǎn)有兩個(gè)分支)或多叉樹(節(jié)點(diǎn)可以包含多于兩個(gè)的子節(jié)點(diǎn))。構(gòu)造決策樹的過程,即樹的生長過程是把條件數(shù)據(jù)不斷切分的過程,每次切分對應(yīng)一個(gè)問題(即一個(gè)節(jié)點(diǎn)),二叉樹的內(nèi)部節(jié)點(diǎn)(非葉子)一般表示為一個(gè)邏輯判斷,如圖4-1。對每個(gè)切分的要求是分組之間的“差異”盡量最大。各種決策樹算法之間的主要區(qū)別就是對這個(gè)“差異”衡量方式的區(qū)別。我們只需要把切分看成是把數(shù)據(jù)信息分成幾份,每份數(shù)據(jù)信息之間盡可能不具有相同或相似的屬性,而同一份內(nèi)的數(shù)據(jù)盡量具有相同的屬性,即屬于同一類別。
對于教育管理決策者來說,決策樹的構(gòu)造,即在其生長過程中沒有必要太“茂盛”。因?yàn)檫@樣會(huì)大大降低樹的易理解性和易用性,而且也使決策樹本身對原始數(shù)據(jù)產(chǎn)生較大的依賴性,換句話說,這樣的決策樹可能對于原始數(shù)據(jù)非常準(zhǔn)確,但當(dāng)有新的數(shù)據(jù)信息加進(jìn)的時(shí)候,準(zhǔn)確性就會(huì)急劇下降,這種情況被稱之為訓(xùn)練過渡。為了使得到的決策樹所蘊(yùn)含的規(guī)則具有普遍性,我們必須有效避免訓(xùn)練過度,同時(shí)減少訓(xùn)練的時(shí)間。常用的方法是限制決策樹的過度成長,即預(yù)先設(shè)定決策樹的最大高度(層數(shù));此外也可以通過設(shè)定每個(gè)節(jié)點(diǎn)必須包含的最少記錄數(shù)來限制,當(dāng)節(jié)點(diǎn)中記錄的個(gè)數(shù)小于這個(gè)數(shù)值時(shí)就停止切分。
1 使用VB對算法進(jìn)行編程,實(shí)現(xiàn)各個(gè)模塊的功能
通過VB來進(jìn)行圖形應(yīng)用界面設(shè)計(jì)及核心程序編程。菜單的設(shè)計(jì)如下:導(dǎo)入數(shù)據(jù)倉庫、選擇數(shù)據(jù)倉庫、任務(wù)確立、選擇因素、開始運(yùn)行、查看結(jié)果、保存結(jié)果、翻譯規(guī)則、保存規(guī)則、退出。主要通過表單及命令來實(shí)現(xiàn)各功能。樣本空間指的是由教職工、學(xué)生數(shù)據(jù)倉庫中的數(shù)據(jù)所構(gòu)成的數(shù)據(jù)空間。
2 測試
根據(jù)軟件測試的要求,必須對該系統(tǒng)進(jìn)行數(shù)據(jù)測試,即用手中所擁有的檔案資料與數(shù)據(jù)挖掘的結(jié)果對比,進(jìn)行測試。
首先,假定某學(xué)校教師部分檔案資料如下(受篇幅限制,僅有部分):
其次,我們使用表中的數(shù)據(jù)來檢測樹形結(jié)構(gòu)中每條枝葉的正確性。如果大部分吻合,那么該決策支持系統(tǒng)是成功的,軟件和算法都是正確的;否則就得檢查改正。這個(gè)測試以及測試結(jié)果比較的工作量是非常巨大的。
四、進(jìn)行數(shù)據(jù)挖掘時(shí)應(yīng)考慮的問題
1 確定問題,即用數(shù)據(jù)挖掘解決什么樣的問題,它是核心,偏離了這個(gè)主題,最終只能導(dǎo)致失敗;
2 海量數(shù)據(jù)的問題,一方面是源數(shù)據(jù)的挖掘,一方面是數(shù)據(jù)的提煉;另外非標(biāo)準(zhǔn)格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問題;從而保證數(shù)據(jù)的質(zhì)量和時(shí)效性;
3 各種算法的使用;
4 變化的數(shù)據(jù)和知識(shí)問題;
5 枝葉――規(guī)則的易懂性問題;
6 與其他系統(tǒng)的集成問題,如果可能的話,本系統(tǒng)可以嵌入到學(xué)校網(wǎng)絡(luò)協(xié)同辦公平臺(tái)之中;
這些都是在具體實(shí)施時(shí)應(yīng)該注意的,也關(guān)系著基于數(shù)據(jù)挖掘的教育管理決策支持系統(tǒng)模型成功與否。
五、展望未來
隨著信息化不斷向前發(fā)展,基于數(shù)據(jù)挖掘的教育管理決策支持系統(tǒng)也將涵蓋人才培養(yǎng)、人力資源、教學(xué)評估、教育經(jīng)濟(jì)等幾個(gè)大的方面,也將逐漸發(fā)展為教育管理數(shù)據(jù)挖掘應(yīng)用平臺(tái)?;跀?shù)據(jù)挖掘的教育管理決策支持系統(tǒng)也將發(fā)揮越來越重要的角色。
參考文獻(xiàn):
[1][加]Jiawei Han,Micheline Kamber(著)范明,孟小峰等譯 《數(shù)據(jù)挖掘概念與技術(shù)》 北京機(jī)械工業(yè)出版社
[2][中國]張堯庭,謝邦昌,朱世武(編)《數(shù)據(jù)采掘入門及應(yīng)用――從統(tǒng)計(jì)技術(shù)看數(shù)據(jù)采掘》中國統(tǒng)計(jì)出版社
[3][美]John W.Fronckowiak,David J.Helda(著)全剛,楊領(lǐng)峰,申耀軍,張濤(譯)高長劍(審校)《MS VB6.0 數(shù)據(jù)庫編程大全》電子工業(yè)出版社
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫論文 數(shù)據(jù)誤差 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)管理 數(shù)據(jù)統(tǒng)計(jì) 品牌整合 品牌戰(zhàn)略 品評 聘請
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討