挖掘技術(shù)論文范文
時間:2023-04-11 07:33:46
導(dǎo)語:如何才能寫好一篇挖掘技術(shù)論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上的,盡量提高學(xué)習(xí)機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
篇2
關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)應(yīng)用
當(dāng)今,國內(nèi)外電子商務(wù)類網(wǎng)站日益興起。許多電子商務(wù)類網(wǎng)站都提供了一定程度的個性化服務(wù),比如提供商品推薦服務(wù)。而構(gòu)成這些個性化服務(wù)的基礎(chǔ)就是數(shù)據(jù)挖掘技術(shù)。
一、數(shù)據(jù)挖掘分析
1.數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(datamining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。包括存儲和處理數(shù)據(jù),選擇處理大數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。
2.數(shù)據(jù)挖掘的方法。從商業(yè)的角度來看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘的方法大致可以分成4類:關(guān)聯(lián)分析、概括分析、分類分析、聚類分析。(1)關(guān)聯(lián)分析:分析表面上不相關(guān)數(shù)據(jù)之間的內(nèi)在聯(lián)系,揭示各事之間的依賴性和相關(guān)性,分析范圍包括簡單關(guān)聯(lián)、因果關(guān)聯(lián)等。在電子商務(wù)中,用數(shù)據(jù)挖掘找到隱藏的關(guān)聯(lián)規(guī)則,當(dāng)客戶瀏覽、搜索關(guān)聯(lián)規(guī)則中的某種商品時,就可以在頁面中以推薦商品的形式顯示關(guān)聯(lián)規(guī)則中的其它商品。在進貨計劃和促銷計劃中,也可以將這個因素考慮進去。(2)概括分析:即提取數(shù)據(jù)庫中指定的數(shù)據(jù)集合的一般特性,找出遍性規(guī)律。(3)分類分析:設(shè)置分類規(guī)則,把各個事務(wù)或?qū)嶓w按照性質(zhì)和特征不同進行歸類,把數(shù)據(jù)層次化和規(guī)整化,從而建立數(shù)據(jù)的分類模型。(4)聚類分析:通過分析和歸納實體之間的特征差異,選出具相識特征的實體聚合成為一個類,并用某種規(guī)則來描述該類的相同屬性,形成一種聚類規(guī)則,實際上,它是與分類分析法互逆的過程。
3.數(shù)據(jù)挖掘的過程。該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。(1)確定業(yè)務(wù)對象:清晰地定義出業(yè)務(wù)問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。(2)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。(3)數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。(4)結(jié)果分析:解釋并評估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。(5)知識的同化:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
二、數(shù)據(jù)挖掘與電子商務(wù)的關(guān)系
在電子商務(wù)企業(yè)中,數(shù)據(jù)挖掘運用于客戶行為分析,企業(yè)從中受益體現(xiàn)在以下四個方面:(1)可以發(fā)現(xiàn)客戶和訪問者的愛好、生活模式。(2)可以爭取新顧客,怎樣使產(chǎn)品適銷對路、怎樣給產(chǎn)品定價、怎樣吸引單個客戶、怎樣優(yōu)化Web網(wǎng)站。(3)可以用相應(yīng)的信息確定顧客的消費周期,針對不同的產(chǎn)品制定相應(yīng)的營銷策略。(4)可以確定客戶細分,為每一個客戶的獨特需求設(shè)計“量身定制”的產(chǎn)品。三、數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
1.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)設(shè)計。本系統(tǒng)電子商務(wù)平臺采用基于三層體系結(jié)構(gòu)構(gòu)建,服務(wù)器端采用先進的J2EE平臺構(gòu)架,有完整的體系框架組成,具有很好的可擴展性、互聯(lián)性和可維護性。因此面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)由數(shù)據(jù)庫服務(wù)器、應(yīng)用服務(wù)器和客戶端三層組成,整個體系結(jié)構(gòu)是以J2EE企業(yè)級的構(gòu)建技術(shù)為基礎(chǔ)。對數(shù)據(jù)挖掘過程中產(chǎn)生的數(shù)據(jù),采用獨立的數(shù)據(jù)挖掘庫表存放,這樣既不影響也不依賴數(shù)據(jù)挖掘的數(shù)據(jù)源。應(yīng)用服務(wù)器完成所有的數(shù)據(jù)挖掘運算,通過接受客戶端的設(shè)置,完成所有對數(shù)據(jù)進行探索、轉(zhuǎn)換、挖掘的工作。數(shù)據(jù)挖掘系統(tǒng)的每個功能模塊都以EJB的形式進行封裝,以實現(xiàn)分布式計算和負載平衡等分布式計算的要求,把具有繁重計算任務(wù)的模塊和用戶交互模塊分開??蛻舳艘撠?zé)數(shù)據(jù)挖掘流程的創(chuàng)建工作、所有功能模塊參數(shù)的設(shè)定以及各種可視化結(jié)果的顯示。用戶可以根據(jù)自己的要求任意創(chuàng)建各種形式的挖掘流程,同時按照需要執(zhí)行某部分流程,獲取相應(yīng)的可視化分析結(jié)果,其系統(tǒng)體系結(jié)構(gòu)如圖所示。
面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖
2.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)功能設(shè)計。面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)主要以下幾大功能模塊:(1)用戶信息分析。運用分類和聚類挖掘方法對用戶的信息分析,可以得到用戶的些特征。對用戶分類相當(dāng)于對具有某些公共屬性的用戶群體建立了概要特征描述,這些特征可以用來對新增的用戶進行分類,可以發(fā)現(xiàn)未來的潛在用戶并開展有針對性的商務(wù)活動,如自動給一類特定的用戶發(fā)送銷售郵件,當(dāng)屬于同一類的用戶再次訪問站點時為其動態(tài)地改變站點的內(nèi)容等。通過這些舉措使商務(wù)活動能夠在一定程度上滿足用戶的要求,實現(xiàn)目標(biāo)營銷。(2)商品信息分析。運用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)商品訪問中所有關(guān)聯(lián)和相聯(lián)系的規(guī)則,可以從交易事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)商品間的相互聯(lián)系。這對電子商務(wù)公司組織站點網(wǎng)頁結(jié)構(gòu)、開展有效的營銷策略非常有幫助。(3)物流信息分析。采用神經(jīng)網(wǎng)絡(luò)預(yù)測技術(shù),根據(jù)各物流配送點接到的網(wǎng)站用戶訂單來預(yù)測其庫存數(shù)量。預(yù)測信息可以給物流配送中心以參考,用來合理地確定各配送點倉庫的庫存量,使各配送點的補貨能更加合理有序,降低物流成本,節(jié)約庫存費用。
四、結(jié)束語
數(shù)據(jù)挖掘是一個新興的領(lǐng)域,具有廣闊應(yīng)用前景,目前,電子商務(wù)在我國正處于快速發(fā)展和應(yīng)用階段,利用數(shù)據(jù)挖掘技術(shù),能夠強化對客戶的服務(wù)、促進市場最優(yōu)化、加速資金周轉(zhuǎn)、實現(xiàn)企業(yè)的創(chuàng)新發(fā)展。電子商務(wù)平臺上的數(shù)據(jù)挖掘技術(shù)有待人們?nèi)ミM行更深入的研究工作,這將不斷的推動數(shù)據(jù)挖掘技術(shù)的深入發(fā)展和廣泛應(yīng)用,創(chuàng)造出更多的社會和經(jīng)濟價值。
參考文獻:
[1]張云濤龔鈴:數(shù)據(jù)挖掘原理與技術(shù).北京,電子工業(yè)出版社,2004年1月
[2]方真等:電子商務(wù)教程[M].北京:清華大學(xué)出版社.2004
篇3
1.1云計算
云計算是并行計算和分布計算以及網(wǎng)格計算的發(fā)展,是一種在海量數(shù)據(jù)大規(guī)模的集合中能動態(tài)處理各種服務(wù)器數(shù)據(jù)資源的一類計算平臺,在電子商務(wù)、商業(yè)金融、科研開發(fā)等領(lǐng)域能得到廣泛的應(yīng)用。它具有大規(guī)模、虛擬化、高效率、通用性、廉價等特點,能針對不同的用戶的不同需求,動態(tài)透明地提供其所需的虛擬化計算和資源儲存,并能及時動態(tài)回收當(dāng)前用戶暫不利用的數(shù)據(jù)資源以提供給其他用戶,而其廉價、通用的特點,使得一般用戶實現(xiàn)大規(guī)模的數(shù)據(jù)操作成為可能。目前來說,云計算的平臺已得到良好的發(fā)展,日益成熟,基于云計算的應(yīng)用已經(jīng)可以相當(dāng)方便的部署和操作其數(shù)據(jù)資源。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識發(fā)現(xiàn)領(lǐng)域的一個重要技術(shù),它是指一個從隨機的大量而不完整的模糊的實際數(shù)據(jù)中提取其中某些隱含著的具有潛在價值的實用知識與信息的過程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測分析等等,涉及到的高級技術(shù)領(lǐng)域有統(tǒng)計學(xué)、機器學(xué)習(xí)、模式識別、人工智能等方面。
2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架
網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問題和時代的挑戰(zhàn),同時,也為數(shù)據(jù)挖掘提供了新的計算平臺和發(fā)展機遇?;谠朴嬎愕臄?shù)據(jù)挖掘系統(tǒng)平臺的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業(yè)計算模式,是網(wǎng)格計算與并行計算及分布式計算在一定程度上的商業(yè)實現(xiàn),其動態(tài)、可伸縮的計算基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計算是一種在互聯(lián)網(wǎng)時代中應(yīng)運而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動態(tài)處理的特點,在社會的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價值。將云計算應(yīng)用于數(shù)據(jù)挖掘平臺的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會中越來越海量的數(shù)據(jù)挖掘提供一個高效率的技術(shù)平臺。本文將結(jié)合云計算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對數(shù)據(jù)挖掘的平臺構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡要的分析探討。摘要能力使得進行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠。同時,云計算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢。
2.1數(shù)據(jù)挖掘平臺構(gòu)架
建立在關(guān)系型數(shù)據(jù)庫之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會的數(shù)據(jù)處理問題。而云計算的分布式存儲與計算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時代的云計算數(shù)據(jù)挖掘平臺構(gòu)架的形成。其包含了面向組件的設(shè)計理念和分層設(shè)計的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。
2.2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架各層意義
云計算支撐平臺層:顧名思義,該平臺層是云計算數(shù)據(jù)挖掘平臺的基礎(chǔ)處理平臺,其主要具有的功能是對分布式文件存儲與數(shù)據(jù)庫提供資源存儲,以及實行對數(shù)據(jù)的有關(guān)處理和計算功能。數(shù)據(jù)挖掘能力層:該平臺結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺,并對數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫,亦支持第三方的數(shù)據(jù)挖掘算法工具的進入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對外提供數(shù)據(jù)挖掘操作的云服務(wù),同時也能提供基于結(jié)構(gòu)化查詢的語言語句訪問,提供相關(guān)的解析引擎,以便于自動調(diào)用云服務(wù)。對外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡單對象訪問協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時候,云服務(wù)層的各個業(yè)務(wù)系統(tǒng)可以進行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。
3基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的關(guān)鍵技術(shù)探討
基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的形成,離不開現(xiàn)代先進的科技技術(shù),其中幾項關(guān)鍵的技術(shù)應(yīng)用將在這里進行簡要的闡述:
3.1云計算技術(shù)
3.1.1分布式儲存技術(shù)
通過采用分布式存儲的方式來存儲數(shù)據(jù),是云計算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟性的重要保證。用可靠的軟件來彌補硬件的不足,是分布式存儲技術(shù)提供廉價而又海量的數(shù)據(jù)挖掘支持的重要途徑。
3.1.2虛擬化技術(shù)
在云計算的環(huán)境下,數(shù)據(jù)挖掘能實現(xiàn)對大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運行戰(zhàn)略。云計算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來源數(shù)據(jù)進行IT資源匯合,動態(tài)地實現(xiàn)對用戶的虛擬化資源的供給,從而以高效率、海量動態(tài)的特點完成服務(wù)任務(wù)。
3.1.3并行云計算技術(shù)
并行云計算技術(shù)是一種對于高效執(zhí)行數(shù)據(jù)挖掘計算任務(wù)極其重要的技術(shù),并且它對云計算的某些技術(shù)細節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯和系統(tǒng)容錯以及數(shù)據(jù)分布等。該功能代替了用戶對這些細節(jié)的考慮,使得研發(fā)效率得到了提高。
3.2數(shù)據(jù)匯集調(diào)度中心
數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對不同類型的數(shù)據(jù)進行匯集。它實現(xiàn)了對接入該云計算數(shù)據(jù)挖掘平臺的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問題,并能支持多樣的源數(shù)據(jù)格式。
3.3服務(wù)調(diào)度與管理技術(shù)
對于基于云計算的數(shù)據(jù)挖掘平臺,為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計算平臺,必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務(wù)。服務(wù)管理功能要實現(xiàn)統(tǒng)一的服務(wù)注冊與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地擴展平臺的服務(wù)能力。
4結(jié)束語
篇4
檔案管理對象的數(shù)量隨著社會的發(fā)展而不斷增加,僅僅通過傳統(tǒng)的管理方式已不能高效管理檔案,這就需要充分利用計算機網(wǎng)絡(luò)技術(shù)。在檔案管理系統(tǒng)中應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)可以確保檔案信息的安全性,提高管理檔案的效率,還能優(yōu)化檔案數(shù)據(jù)的檢索??傊?,基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)對完善檔案管理系統(tǒng)發(fā)揮著十分重要的作用。
2基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)概述
基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)是當(dāng)代新開發(fā)的一種數(shù)據(jù)處理技術(shù),它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計算機數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的過程,如果沒有取得預(yù)期的效果,計算機數(shù)據(jù)挖掘信息處理系統(tǒng)就會返回上一層重新工作,直到完成目標(biāo)任務(wù)為止,這種對目標(biāo)的細化過程可以滿足檔案數(shù)據(jù)檢索的需要。
3基于大數(shù)據(jù)的計算機挖掘技術(shù)在檔案管理系統(tǒng)中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設(shè)法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應(yīng)用時如果監(jiān)管不力就會導(dǎo)致機密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機挖掘技術(shù)應(yīng)用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應(yīng)用計算機數(shù)據(jù)挖掘技術(shù),可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計算機數(shù)據(jù)挖掘技術(shù),大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗進行主觀鑒定,有時會存在有價值的檔案丟失的現(xiàn)象。應(yīng)用計算機數(shù)據(jù)挖掘技術(shù),檔案管理人員就可以利用計算機系統(tǒng)分析檔案使用和保存的情況,促進了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導(dǎo)致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調(diào)出來,有時調(diào)出來的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過程就嚴(yán)重浪費了雙方的時間。應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)可以促進檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強檔案信息的服務(wù)性。加密檔案信息會嚴(yán)重縮小它的適用范圍,受當(dāng)代信息化的影響,很多檔案信息自身會出現(xiàn)一些問題,并且只能為一小部分人服務(wù)。將計算機數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發(fā)現(xiàn)未來使用檔案信息的人群,在此基礎(chǔ)上提高檔案信息的服務(wù)性。
4基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)在檔案管理中的實際應(yīng)用
4.1在檔案分類管理中的應(yīng)用。檔案管理的基礎(chǔ)工作就是將檔案進行分類。傳統(tǒng)的分類方法既費時又費力,工作效率極低。計算機數(shù)據(jù)挖掘技術(shù)中有一種決策樹算法,它可以在最短的時間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進行分類和整理,大大提高了檔案分類工作的效率。計算機數(shù)據(jù)挖掘技術(shù)在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓(xùn)練集,然后應(yīng)用到?jīng)]有進行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對檔案信息的需求來對檔案進行分類,同時還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過這些針對性強的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數(shù)據(jù)的利用價值就能充分發(fā)揮出來。4.2在檔案收集管理中的應(yīng)用。計算機數(shù)據(jù)挖掘技術(shù)可以根據(jù)數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)信息描述來構(gòu)建一個相應(yīng)的數(shù)據(jù)模型,然后比較計算機數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進行分類處理。計算機數(shù)據(jù)挖掘技術(shù)需要全面分析檔案數(shù)據(jù)信息庫中的數(shù)據(jù),建立一個對已知數(shù)據(jù)有詳細描述的概念模型,并與測試樣本進行對比,如果一個模型測試通過,就證明這個模型可以應(yīng)用在檔案收集管理中。
5結(jié)語
綜上所述,在科技技術(shù)不斷進步的時代背景下,在檔案信息管理中應(yīng)用基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進檔案管理的高效發(fā)展。除了在檔案信息存儲和利用上確?;镜男畔⒉樵兎?wù)外,還需要應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)整合檔案信息,建立眾多檔案管理服務(wù)數(shù)據(jù)之間的關(guān)聯(lián),這樣才能為檔案信息管理提供更好的服務(wù)。
作者:陳皓穎 單位:昆明理工大學(xué)津橋?qū)W院
參考文獻
[1]高燕飛,陳俊杰.試析計算機數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運用[J].內(nèi)蒙古師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2012(4):44-46.
[2]曾雪峰.計算機數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng)新與應(yīng)用,2016(9):285.
[3]李國強,曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術(shù)———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).
[4]周碧珍.淺析計算機數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用[J].黑龍江科技信息,2009(1).
篇5
關(guān)鍵詞 情報學(xué);碩士論文;關(guān)鍵詞
中圖分類號G251 文獻標(biāo)識碼A 文章編號 1674-6708(2014)114-0013-02
當(dāng)前,世界各國的許多高等院校和科學(xué)研究機構(gòu)都在加強對圖書情報的研究,許多世界一流院校,比如Harvard University(哈佛大學(xué))、Princeton University(普林斯頓大學(xué))、Yale University(耶魯大學(xué))、Massachusetts Inst. of Technology(麻省理工學(xué)院)等都建立了比較完善的情報學(xué)教育體系。而比較而言,在我國高等院校與科研院所對圖書情報學(xué)的相關(guān)研究,明顯要相對落后,近年來隨著改革開放的深入推進,有關(guān)情報學(xué)的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長態(tài)勢,然而由于研究內(nèi)容相對較為高深,而且研究的靶場顯得較為前沿化與多元化?;陉P(guān)鍵詞對學(xué)位論文進行統(tǒng)計、研究與分析是文獻計量學(xué)的范疇,是圖書情報學(xué)研究的重要內(nèi)容。即以學(xué)位文獻或?qū)W位文獻的某些特點為標(biāo)的,以聚集梳理一定數(shù)量文獻為基礎(chǔ),由此展開對某一時域某一領(lǐng)域科學(xué)技術(shù)基本狀況與基本特征的研究,并由此論述和預(yù)測該領(lǐng)域科學(xué)技術(shù)在今后一段時期的研究趨勢與特點規(guī)律態(tài)勢。基于獨特關(guān)鍵詞進行圖書情報領(lǐng)域的碩士學(xué)位論文進行分析,是情報學(xué)研究的一項重要方法,是一種將文獻資料中的眾多核心要素關(guān)聯(lián)起來,進行統(tǒng)計分析的引證分析方法,其可以較為科學(xué)地評價文獻所研究與發(fā)展的現(xiàn)狀和趨勢,揭示學(xué)科當(dāng)時研究的熱點,較為準(zhǔn)確地評價文獻所代表的學(xué)術(shù)水平。
1 研究對象數(shù)據(jù)來源
本文研究的對象定位于對國內(nèi)圖書情報領(lǐng)域這一總體框架,并于此基礎(chǔ)上將“靶向”集中于碩士學(xué)位論文的統(tǒng)計、分析與研究,將“靶標(biāo)”聚集到碩士學(xué)位論文的研究熱點、趨勢、重點、前沿以及其變化情況,從而更加清晰地梳理出我國情報學(xué)研究的發(fā)展脈絡(luò),從而為我國情報學(xué)教育發(fā)展提供參考。研究的主要數(shù)據(jù)來源集中于國內(nèi)著名的學(xué)位論文收集庫――中國知網(wǎng)CNKI學(xué)術(shù)文獻總庫、維普期刊資源整合服務(wù)平臺與萬方數(shù)據(jù)知識服務(wù)平臺“三大論文數(shù)據(jù)庫”,以及國內(nèi)高等院校圖書館自建特色數(shù)據(jù)庫。其中,中國知網(wǎng)CNKI和萬方數(shù)據(jù)庫是國內(nèi)收錄學(xué)位論文最為全面的數(shù)據(jù)庫,因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來自該兩個數(shù)據(jù)庫,著重定位于“學(xué)科專業(yè)名稱”、“學(xué)科專業(yè)分類”選項進行檢索,而檢索的時間區(qū)域定位于近10年,對于兩個數(shù)據(jù)庫檢索出來的文獻,對于相同的通過采用SQL 語句進行篩選,剔除重復(fù)的以及不符合的。
由此,以“情報學(xué)”作為檢索詞,從中國知網(wǎng)CNKI數(shù)據(jù)庫獲得1640篇碩士論文,從萬方數(shù)據(jù)庫中獲致1315篇碩士論文,通過SQL篩選剔除重復(fù)的以及不符合的795篇,總共獲得有效國內(nèi)圖書情報領(lǐng)域碩士論文2160篇。
2 基于高頻關(guān)鍵詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點
通過對獲取到的2160篇國內(nèi)圖書情報領(lǐng)域碩士論文進行研究,綜合統(tǒng)計論文的關(guān)鍵詞,累計關(guān)鍵詞有13976個,經(jīng)過分析研究,去除不能表達論文主題概念的關(guān)鍵詞3645個,共得10331個,平均每篇碩士文獻關(guān)鍵詞數(shù)為4.78個,由此可說明該統(tǒng)計是科學(xué)的,與國外科文獻資料對關(guān)鍵詞的標(biāo)引規(guī)則相符(國內(nèi)外科技期刊要求的每篇關(guān)鍵詞應(yīng)標(biāo)出 3-8 個),接著對關(guān)鍵詞的詞頻進行統(tǒng)計分析,將關(guān)鍵詞的頻度大于60作為標(biāo)準(zhǔn),將其定義為“高頻詞”,通過對“高頻詞”的統(tǒng)計分析,可以非常清晰地看出,有關(guān)“知識管理”這一主題的頻次最高,多達126次。無疑,這也證實了近些年來,學(xué)術(shù)界對知識管理這個方向的研究熱點。此外,“電子商務(wù)”為121次、“信息化”為118次、“信息技術(shù)”為112次、“競爭情報”為102次、“信息服務(wù)”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書”為84次、“信息資源”為79次、“電子政務(wù)”為75次、 “知識服務(wù)”為71次、“知識共享”為68次、“數(shù)據(jù)倉庫”為63次,從中也反映了我國對信息化建設(shè)、知識服務(wù)、數(shù)字化建設(shè)等關(guān)注在日益提升,也驗證了我國國務(wù)院學(xué)位委員會重新頒布的《授予博士、碩士學(xué)位和培養(yǎng)研究生的學(xué)科、專業(yè)目錄》中“圖書館、情報與檔案管理”的實效,表明了情報學(xué)與管理學(xué)之間滲透和結(jié)合日益加強,也可以折射出當(dāng)前研究的重點、熱點仍然集中在情報學(xué)基礎(chǔ)領(lǐng)域,并預(yù)示著今后情報學(xué)研究的一個重點將是對網(wǎng)絡(luò)信息資源的開發(fā)、整合與利用。
3 基于聚類共詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點
通常來說,僅僅通過孤獨地察看論文的某一關(guān)鍵詞,通常是難以有充足的理由說明該論文所研究的主題,然而通過關(guān)注兩個或者兩個以上的關(guān)鍵詞,將可以給予人們更加充分的信息去把握論文的大致內(nèi)容和論文的主題脈絡(luò)。通過采取計算機數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關(guān)鍵詞進行“聚類性”分析,統(tǒng)計在同一論文中兩兩同時出現(xiàn)的關(guān)鍵詞,從而構(gòu)建出60 × 60的“聚類共詞矩陣”,通過這一矩陣的研究,非常清晰地顯示出“聚類共詞矩陣”是一個對稱矩陣,其中位于矩陣對角線上的數(shù)據(jù)顯示的是某關(guān)鍵詞自身一同出現(xiàn)的頻次,這個一同出現(xiàn)的現(xiàn)象就實質(zhì)來說,就是論文之間的相關(guān)度,對于非對角線上的數(shù)據(jù),則表示不同關(guān)鍵詞之間的共現(xiàn)頻次。通過這個矩陣可以從另一個側(cè)反題出,關(guān)鍵詞分布既有交叉、相互滲透又具有群組分布的獨立性。通過Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識管理”為124次,“電子商務(wù)”為106次,“競爭情報”為101次,“高校圖書館”為98次,“信息服務(wù)”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學(xué)圖書館”為83次,“信息資源”為81次,“電子政務(wù)”為79次,“知識共享”為72次,“數(shù)據(jù)倉庫”為66次。由此可以看出,在國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文的研究主題中,當(dāng)前基于數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)挖掘是個熱點,同時也說明我國情報學(xué)教育研究的領(lǐng)域在不斷拓寬。
綜合以上,關(guān)注獨特關(guān)鍵詞下國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文研究的學(xué)科結(jié)構(gòu)特點,獲得了基于高頻關(guān)鍵詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點,以及基于聚類共詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點,通過對研究結(jié)果的比較分析,得出了一些有較為充足理由支撐的結(jié)論,那就是從中可以較為清晰地得出,當(dāng)前以及今后一段時期國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文研究的側(cè)重點在于“數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)信息挖掘”。
參考文獻
[1]曾學(xué)喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系構(gòu)建[J].情報理論與實踐,2013(11).
[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).
篇6
醫(yī)學(xué)論文是醫(yī)學(xué)科研工作的最后階段,通過文字形式記錄醫(yī)學(xué)研究的最新結(jié)果。因此,撰寫醫(yī)學(xué)論文要把握醫(yī)學(xué)論文的基本要求、選題方法及一般體裁,從而達到主題和形式的和諧統(tǒng)一。
1 醫(yī)學(xué)論文的基本要求
1.1 創(chuàng)新性醫(yī)學(xué)論文的創(chuàng)新性是指文章要有新意,要發(fā)展醫(yī)學(xué)成就,破解醫(yī)學(xué)問題。醫(yī)學(xué)論文有無創(chuàng)新,選題是關(guān)鍵。選題創(chuàng)新是醫(yī)學(xué)論文寫作的靈魂,是衡量醫(yī)學(xué)論文價值的重要標(biāo)準(zhǔn)??审w現(xiàn)在:①理論方面的選題應(yīng)有創(chuàng)新見解,既要反映作者在某些理論方面的獨創(chuàng)見解,又要提出這些見解的依據(jù);②應(yīng)用方面的選題應(yīng)有創(chuàng)新技術(shù)等,也就是要寫出新發(fā)明、新技術(shù)、新產(chǎn)品、新設(shè)備的關(guān)鍵,或揭示原有技術(shù)移植到新的醫(yī)學(xué)領(lǐng)域中的效果;③創(chuàng)新性還包括研究方法方面的改進或突破。
1.2 可行性 所謂選題的可行性,是指能夠充分發(fā)揮作者的綜合條件和可以勝任及如期完成醫(yī)學(xué)論文寫作的把握程度。選題切忌好高鶩遠,脫離實際,但也不應(yīng)過低,影響主客觀的正常發(fā)揮,降低了醫(yī)學(xué)論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識素質(zhì)結(jié)構(gòu)、研究能力、技術(shù)水平及特長和興趣等;②客觀條件,包括經(jīng)費、資料、時間、設(shè)備等。
1.3 實用性 撰寫醫(yī)學(xué)論文的目的是為了交流及應(yīng)用。要從實際出發(fā),選擇夠指導(dǎo)科研、指導(dǎo)臨床、造福人類的主題,因此,選題的實用性尤為重要。
1.4 科學(xué)性 醫(yī)學(xué)論文是臨床和醫(yī)學(xué)科學(xué)研究工作的客觀反映,其寫作的具體內(nèi)容應(yīng)該是取材客觀真實、主題揭示本質(zhì)、科研設(shè)計合理、論證科學(xué)嚴(yán)謹(jǐn)、表達邏輯性強、經(jīng)過實踐檢驗。所以,嚴(yán)格遵守選題的科學(xué)性原則,是醫(yī)學(xué)論文寫作的生命
1.5 前瞻性 要選擇有研究價值及發(fā)展前途的主題,應(yīng)積極開發(fā)研究新領(lǐng)域、新學(xué)科和新理論。2 選題的基本方法
2.1 根據(jù)課題研究的結(jié)論來確定主題 這是常用的方法,可分為:①以科研的結(jié)論或部分結(jié)論作為醫(yī)學(xué)論文的主題;②科研結(jié)果與開題時預(yù)測不一致,待查出原因后,再尋找主題;③科研達不到預(yù)期結(jié)果,可總結(jié)經(jīng)驗,從反面挖掘主題。
2.2 在科研過程中選題 醫(yī)學(xué)科研的過程中,有時會出現(xiàn)意外的現(xiàn)象或問題,作者如果能夠細心觀察、及時發(fā)現(xiàn),可以在這些偶然中獲得新的選題。
2.3 在臨床實踐中選題 臨床工作是醫(yī)學(xué)論文寫作取之不盡的源泉,作者在臨床中會經(jīng)常遇到許多需要解決的實際應(yīng)用問題或理論問題,對此,只要從本學(xué)科實際出發(fā),用心思考,會從中產(chǎn)生很多好的主題。其包括:①探討發(fā)病機制與預(yù)后情況;②分析臨床癥狀與表現(xiàn);③研究診斷方法和治療方法;④疾病的多因素分析等。
2.4 從文獻資料中選題 醫(yī)學(xué)文獻是人們長期積累的寶貴財富,是醫(yī)學(xué)論文選題的重要來源。閱讀最新文獻資料,可以了解當(dāng)前醫(yī)學(xué)科學(xué)研究的進展情況,開拓思路、激發(fā)靈感,從而挖掘提煉出好的醫(yī)學(xué)論文主題。
3 醫(yī)學(xué)論文的一般體裁
3.1 實驗研究 一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學(xué)等實驗研究。主要包括:①對各種動物進行藥理、毒理實驗,外科手術(shù)實驗;②對某種疾病的病原或病因的體外實驗;③某些藥物的抗癌、抗菌、抗寄生蟲實驗;④消毒、殺蟲和滅菌的實驗。
3.2 臨床分析 對臨床上某種疾病病例(百例以上為佳)的病因、臨床表現(xiàn)、分型、治療方法
和療效觀察等進行分析、討論,總結(jié)經(jīng)驗教訓(xùn),并提出新建議、新見解,以提高臨床療效。
3.3 療效觀察 指使用某種新藥、新療法治療某種疾病,對治療的方法、效果、劑量、療程及不良反應(yīng)等進行觀察、研究,或設(shè)立對照組對新舊藥物或療法的療效進行比較,對比療效的高低、療法的優(yōu)劣、不良反應(yīng)的種類及程度,并對是否適于推廣應(yīng)用提出評價意見。
3.4 病例報告 主要報告罕見病及疑難重癥;雖然曾有少數(shù)類似報道但尚有重復(fù)驗證或加深認識的必要。
3.5 病例(理)討論 臨床病例討論主要是對某些疑難、復(fù)雜、易于誤診誤治的病例,在診斷和治療方面進行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對少見或疑難疾病的病理檢查、診斷及相關(guān)討論為主。
3.6 調(diào)查報告 在一定范圍的人群里,不施加人工處理因素,對某一疾?。▊魅静?、流行病、職業(yè)病、地方病等)的發(fā)病情況、發(fā)病因素、病理、防治方法及其效果進行流行病學(xué)調(diào)查研究,給予評價,并對防治方案等提出建議。
篇7
1.1創(chuàng)新性醫(yī)學(xué)論文的創(chuàng)新性是指文章要有新意,要發(fā)展醫(yī)學(xué)成就,破解醫(yī)學(xué)問題。醫(yī)學(xué)論文有無創(chuàng)新,選題是關(guān)鍵。選題創(chuàng)新是醫(yī)學(xué)論文寫作的靈魂,是衡量醫(yī)學(xué)論文價值的重要標(biāo)準(zhǔn)??审w現(xiàn)在:①理論方面的選題應(yīng)有創(chuàng)新見解,既要反映作者在某些理論方面的獨創(chuàng)見解,又要提出這些見解的依據(jù);②應(yīng)用方面的選題應(yīng)有創(chuàng)新技術(shù)等,也就是要寫出新發(fā)明、新技術(shù)、新產(chǎn)品、新設(shè)備的關(guān)鍵,或揭示原有技術(shù)移植到新的醫(yī)學(xué)領(lǐng)域中的效果;③創(chuàng)新性還包括研究方法方面的改進或突破。
1.2可行性所謂選題的可行性,是指能夠充分發(fā)揮作者的綜合條件和可以勝任及如期完成醫(yī)學(xué)論文寫作的把握程度。選題切忌好高鶩遠,脫離實際,但也不應(yīng)過低,影響主客觀的正常發(fā)揮,降低了醫(yī)學(xué)論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識素質(zhì)結(jié)構(gòu)、研究能力、技術(shù)水平及特長和興趣等;②客觀條件,包括經(jīng)費、資料、時間、設(shè)備等。
1.3實用性撰寫醫(yī)學(xué)論文的目的是為了交流及應(yīng)用。要從實際出發(fā),選擇夠指導(dǎo)科研、指導(dǎo)臨床、造福人類的主題,因此,選題的實用性尤為重要。
1.4科學(xué)性醫(yī)學(xué)論文是臨床和醫(yī)學(xué)科學(xué)研究工作的客觀反映,其寫作的具體內(nèi)容應(yīng)該是取材客觀真實、主題揭示本質(zhì)、科研設(shè)計合理、論證科學(xué)嚴(yán)謹(jǐn)、表達邏輯性強、經(jīng)過實踐檢驗。所以,嚴(yán)格遵守選題的科學(xué)性原則,是醫(yī)學(xué)論文寫作的生命。
1.5前瞻性要選擇有研究價值及發(fā)展前途的主題,應(yīng)積極開發(fā)研究新領(lǐng)域、新學(xué)科和新理論。
2選題的基本方法
2.1根據(jù)課題研究的結(jié)論來確定主題這是常用的方法,可分為:①以科研的結(jié)論或部分結(jié)論作為醫(yī)學(xué)論文的主題;②科研結(jié)果與開題時預(yù)測不一致,待查出原因后,再尋找主題;③科研達不到預(yù)期結(jié)果,可總結(jié)經(jīng)驗,從反面挖掘主題。
2.2在科研過程中選題醫(yī)學(xué)科研的過程中,有時會出現(xiàn)意外的現(xiàn)象或問題,作者如果能夠細心觀察、及時發(fā)現(xiàn),可以在這些偶然中獲得新的選題。
2.3在臨床實踐中選題臨床工作是醫(yī)學(xué)論文寫作取之不盡的源泉,作者在臨床中會經(jīng)常遇到許多需要解決的實際應(yīng)用問題或理論問題,對此,只要從本學(xué)科實際出發(fā),用心思考,會從中產(chǎn)生很多好的主題。其包括:①探討發(fā)病機制與預(yù)后情況;②分析臨床癥狀與表現(xiàn);③研究診斷方法和治療方法;④疾病的多因素分析等。
2.4從文獻資料中選題醫(yī)學(xué)文獻是人們長期積累的寶貴財富,是醫(yī)學(xué)論文選題的重要來源。閱讀最新文獻資料,可以了解當(dāng)前醫(yī)學(xué)科學(xué)研究的進展情況,開拓思路、激發(fā)靈感,從而挖掘提煉出好的醫(yī)學(xué)論文主題。
3醫(yī)學(xué)論文的一般體裁
3.1實驗研究一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學(xué)等實驗研究。主要包括:①對各種動物進行藥理、毒理實驗,外科手術(shù)實驗;②對某種疾病的病原或病因的體外實驗;③某些藥物的抗癌、抗菌、抗寄生蟲實驗;④消毒、殺蟲和滅菌的實驗。
3.2臨床分析對臨床上某種疾病病例(百例以上為佳)的病因、臨床表現(xiàn)、分型、治療方法和療效觀察等進行分析、討論,總結(jié)經(jīng)驗教訓(xùn),并提出新建議、新見解,以提高臨床療效。
3.3療效觀察指使用某種新藥、新療法治療某種疾病,對治療的方法、效果、劑量、療程及不良反應(yīng)等進行觀察、研究,或設(shè)立對照組對新舊藥物或療法的療效進行比較,對比療效的高低、療法的優(yōu)劣、不良反應(yīng)的種類及程度,并對是否適于推廣應(yīng)用提出評價意見。
3.4病例報告主要報告罕見病及疑難重癥;雖然曾有少數(shù)類似報道但尚有重復(fù)驗證或加深認識的必要。
3.5病例(理)討論臨床病例討論主要是對某些疑難、復(fù)雜、易于誤診誤治的病例,在診斷和治療方面進行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對少見或疑難疾病的病理檢查、診斷及相關(guān)討論為主。
3.6調(diào)查報告在一定范圍的人群里,不施加人工處理因素,對某一疾病(傳染病、流行病、職業(yè)病、地方病等)的發(fā)病情況、發(fā)病因素、病理、防治方法及其效果進行流行病學(xué)調(diào)查研究,給予評價,并對防治方案等提出建議。
篇8
關(guān)鍵詞:研究型;學(xué)習(xí);培養(yǎng);科研實踐
對于高校而言,研究生既是知識傳授的對象,又是日常科研工作的參與者,其理論學(xué)習(xí)過程和科研能力的培養(yǎng)相互交融且呈現(xiàn)多變的特點。[1][2][3]
筆者目前暫不具備獨立招收研究生的資格,但依托研究團隊和所承擔(dān)的科研項目,每年都會協(xié)助指導(dǎo)若干名研究生(碩士生、博士生)順利畢業(yè)。在協(xié)助指導(dǎo)這些研究生學(xué)習(xí)和開展科研工作的過程中,積累了一些經(jīng)驗。結(jié)合筆者2013~2014年前往英國訪問交流一年過程中參加教學(xué)培訓(xùn)項目和科研合作項目的體會,本文從研究型學(xué)習(xí)方法及其在科研實踐中的應(yīng)用等方面淺析研究生培養(yǎng)工作的體會。
一、基于研究型學(xué)習(xí)的培養(yǎng)特點剖析
1.基于研究心態(tài)的理論知識學(xué)習(xí)
為了便于開展科研理論分析工作, 研究生培養(yǎng)的初期階段需要有針對性地選擇專業(yè)課程知識學(xué)習(xí),而專業(yè)課的授課內(nèi)容更突出針對性和研究性。[4][5]研究生若帶著研究的心態(tài)學(xué)習(xí)這些專業(yè)課程,必將在學(xué)習(xí)過程中能更好地鍛煉對科學(xué)問題的認識、分析和解決的能力。
實現(xiàn)專業(yè)課程的研究型學(xué)習(xí),對專業(yè)課的講授方式和內(nèi)容設(shè)置也提出了一定的要求。筆者在英國哈德菲爾德大學(xué)留學(xué)期間,對于該校課程設(shè)置和講授方式深有感觸。在跟課的“Dynamic Analysis and Control”課程中,主講教師通過設(shè)置多個實際工程應(yīng)用案例開展授課內(nèi)容講解,實例中計算數(shù)據(jù)均來自實際工業(yè)系統(tǒng),布置的作業(yè)也與科研項目緊密相關(guān)。這種研究型的授課和學(xué)習(xí)模式,可以使得研究生對所學(xué)內(nèi)容的整體把握和應(yīng)用有了更為直觀的認識,對于今后開展研究工作也有觸類旁通的優(yōu)勢。
帶著研究的心態(tài)來學(xué)習(xí)理論知識, 還可以通過對應(yīng)的科研實踐來鞏固研究生理論水平培養(yǎng)的效果。通過適當(dāng)?shù)目茖W(xué)研究實踐,將最新的科研成果和知識動態(tài)融于理論學(xué)習(xí)過程,可以在一定程度上彌補理論學(xué)習(xí)的抽象性、知識的落后性等不足,實現(xiàn)研究生綜合科研素質(zhì)的扎實培養(yǎng)。[6]
2.基于主動挖掘的科研實踐思維
研究生的培養(yǎng)中,“學(xué)”與“研”的培養(yǎng)相互作用、互為促進?!皩W(xué)”是手段,“研”是目的。多學(xué)是為了更好地研究,深入的科研工作可以為主動學(xué)習(xí)提供積極的動力。
研究生通過理論知識學(xué)習(xí),具備了一定的獨立開展理論知識學(xué)習(xí)、獨立從事科研活動的能力。將其引入科研項目中,根據(jù)個人特長和興趣愛好進行項目分工,可以充分調(diào)動研究生的參與積極性和探索熱情,使其能夠自主地、全身心地投入到科研實踐活動中。在此階段,研究生的科研實踐熱情被充分激發(fā)和釋放,將主動收集與所研究領(lǐng)域有關(guān)的資料和文獻,通過整理、消化和吸收,主動挖掘更為深入的理論知識背景,形成獨立的見解和科研成果。
主動挖掘的過程中,科研活動促進了理論知識的學(xué)習(xí),理論知識的挖掘提升了科研能力水平,體現(xiàn)了研究生培養(yǎng)的“研”“學(xué)”并重特點,和以“研”促“學(xué)”的培養(yǎng)理念。
二、實踐研究型培養(yǎng)方法的一些舉措
1.科研實踐培養(yǎng)突出研究特點
(1)引導(dǎo)研究生承擔(dān)部分理論研究工作,培養(yǎng)從理論上解決技術(shù)難題,形成解決方案的能力。此外,研究生還要承擔(dān)一部分的工程任務(wù),以鍛煉其實踐能力,明確研究活動的理論與實踐關(guān)系。
(2)構(gòu)建包括研究生在內(nèi)的研究團隊定期學(xué)術(shù)討論與總結(jié)機制,以競賽激發(fā)科研興趣,加強互聯(lián)網(wǎng)資源使用的引導(dǎo)??偨Y(jié)交流是提高研究水平的重要途徑,借助互聯(lián)網(wǎng)這一開放式學(xué)習(xí)平臺,研究生可與組內(nèi)外、國內(nèi)外學(xué)者分享最新的研究成果,實現(xiàn)互補與互助提高。
(3)開展全面而深入的學(xué)術(shù)訪問和交流。學(xué)術(shù)無止境,交流共提高。研究生在培養(yǎng)階段應(yīng)該多走出校門,借助國內(nèi)外學(xué)術(shù)會議平臺培養(yǎng)建立學(xué)術(shù)聯(lián)系、提升交流水平和展示學(xué)術(shù)成果能力,為以后潛在的合作研究奠定基礎(chǔ)。筆者在英訪學(xué)期間,曾走訪了帝國理工學(xué)院、曼徹斯特大學(xué)、巴斯大學(xué)等知名學(xué)府,他們的科研硬條件一流,軟實力水平也非常高。這些大學(xué)的研究非常開放,很歡迎中國的留學(xué)生前去參與科研項目研究。國內(nèi)的研究生可以積極聯(lián)系這些單位,爭取去聯(lián)合培養(yǎng)的科學(xué)研究機會。
2.學(xué)術(shù)論文撰寫體現(xiàn)高度責(zé)任心
高水平學(xué)術(shù)論文的撰寫是檢驗研究生培養(yǎng)成效和研究能力的一個有效手段。通過撰寫高水平學(xué)術(shù)論文,一方面研究生可以梳理理論學(xué)習(xí)過程中存在的不足,另一方面也可以凝練研究工作,提升學(xué)術(shù)研究的理論水平。
(1)論文選題要明確、突出研究價值,內(nèi)容要詳實、有據(jù)可依。所撰寫的內(nèi)容應(yīng)來源于自己的科學(xué)研究實踐中的所思所想,撰寫時需要精心設(shè)計論文內(nèi)容和組織結(jié)構(gòu),重視文獻查閱與閱讀工作,對所研究內(nèi)容和發(fā)展現(xiàn)狀等要有深刻的認識。
(2)論文撰寫要沉下去、靜下心, 敢于取舍。研究生在初學(xué)撰寫、修改論文時,必須要靜下心、鉆進去,腳踏實地一步一步鍛煉,不斷挖掘和提高理論深度。同時,要讓論文的內(nèi)容充分地“沉淀”并經(jīng)得起推敲,過濾掉“雜質(zhì)”。筆者在訪學(xué)期間,與國外學(xué)者交流,他們通常的寫作過程是,首先用一到兩個月寫出論文初稿,然后將其放置一段時間后至自己忘記稿件內(nèi)容,再次閱讀并修改稿件。這種方法被他們形象地稱為“遺忘式”寫作方法,筆者實踐過,確實行之有效。
3.行文注意豐富多變的科技詞匯運用
學(xué)術(shù)論文通過嚴(yán)謹(jǐn)、凝練的表述來展示研究人員的理論研究成果,研究生在行文時如果英語基礎(chǔ)較好、寫作功底扎實,則可以運用豐富而準(zhǔn)確的科技詞匯來組織內(nèi)容,達到錦上添花的效果。廣泛閱讀英文參考文獻是擴展詞匯量和提升英文行文水平的有效手段。
三、結(jié)論
研究生的培養(yǎng)是一個反復(fù)迭代的系統(tǒng)過程,帶著研究的心態(tài)去學(xué)習(xí)理論知識、將學(xué)習(xí)的過程融入科研實踐,從而提升研究生的理論水平和鍛煉科研能力,使其具備獨立開展科研工作的能力。通過這些有針對性的培養(yǎng)措施,可以顯著提高研究生培養(yǎng)質(zhì)量,為其日后順利走上工作崗位奠定基礎(chǔ)。
參考文獻:
[1]黃文濤,趙學(xué)增.國外碩士研究生培養(yǎng)模式述評及啟示[J].研究生教育研究,2013(03).
[2]季俊杰.優(yōu)秀研究生科研能力的影響因素與啟示[J].研究生教育研究,2013(02).
[3]向 誠,柴 毅,王東紅,等.緊貼行業(yè)需求,校企協(xié)同培養(yǎng)控制工程領(lǐng)域高層次應(yīng)用型人才[J].學(xué)位與研究生教育,2014(04):11―15.
[4]汪 洋,高久群,汪華僑,等.香港中文大學(xué)研究生教育的特點及其啟示[J].學(xué)位與研究生教育,2014(06).
[5]郭雅麗,任永泰,鄧華玲.碩士研究生課程設(shè)置研究[J].研究生教育研究,2013(15):47―50.
篇9
關(guān)鍵詞:推薦系統(tǒng);云計算;數(shù)據(jù)挖掘;個性化
中圖分類號:TP393 文獻標(biāo)識碼:A DOI:10,3969/J.issn.1003-6970.2013.03.001
本文著錄格式:[1]郭平,劉波,沈岳,農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述[J].軟件,2013,34(3):1-6
0 引言
隨著物聯(lián)網(wǎng)、云計算、下一代互聯(lián)網(wǎng)等新一代信息技術(shù)的快速發(fā)展和信息內(nèi)容的日益增長,“信息過載”問題愈來愈嚴(yán)重,推薦系統(tǒng)(recommender systems)被認為可以有效的緩解此難題,幫助用戶從海量數(shù)據(jù)中發(fā)現(xiàn)感興趣信息,滿足個性化需求。
近年來,我國在農(nóng)業(yè)個性化知識服務(wù)服務(wù)領(lǐng)域從本體論、語義網(wǎng)、知識工程角度開展了廣泛的研究,成果主要體現(xiàn)在三個方面:以搜索引擎為代表的知識檢索系統(tǒng),需回答大量預(yù)設(shè)問題進行知識推理的專家系統(tǒng),特定領(lǐng)域應(yīng)用系統(tǒng),它們在各自的場合都發(fā)揮了積極作用。然而知識檢索系統(tǒng)不能滿足用戶個性化需求,專家系統(tǒng)的應(yīng)用很難普及,特定領(lǐng)域應(yīng)用開發(fā)成本高和重用難度大。物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)提供知識服務(wù)云實現(xiàn)物理世界的“感知控”,知識服務(wù)云的研究主要集中在制造和圖書情報領(lǐng)域,云環(huán)境下的農(nóng)業(yè)個性化知識服務(wù)的研究尚處于起步階段,主要集中在服務(wù)模式的構(gòu)建與展望。
本文是對科技部科技支撐課題“農(nóng)村農(nóng)業(yè)信息化關(guān)鍵技術(shù)集成與示范”(2011BAD21803)與“農(nóng)村物聯(lián)網(wǎng)綜合信息服務(wù)科技工程”(2012BAD35800)研究成果的總結(jié),也是對農(nóng)業(yè)云推薦系統(tǒng)研究的升華。
1 農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送的提出
1.1 農(nóng)業(yè)信息資源特點
我國自“十一五”時期以來,農(nóng)業(yè)農(nóng)村信息化發(fā)展取得了顯著成效,主要表現(xiàn)在農(nóng)業(yè)農(nóng)村信息化基礎(chǔ)設(shè)施不斷完善、業(yè)務(wù)應(yīng)用深入發(fā)展、物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)中逐步推廣應(yīng)用等方面。從中央到省,市、縣建立了“三農(nóng)”綜合信息服務(wù)平臺,涉農(nóng)企業(yè)、組織和科研院所也積極搭建了各具特色的農(nóng)業(yè)信息服務(wù)平臺,目前正向鄉(xiāng)鎮(zhèn)村發(fā)展。農(nóng)村信息員隊伍及以農(nóng)業(yè)綜合信息服務(wù)站和農(nóng)業(yè)合作社為代表的農(nóng)村信息服務(wù)機構(gòu)發(fā)展迅速,“三電合一”、“農(nóng)民信箱”、“農(nóng)村熱線”等信息服務(wù)模式應(yīng)用深入。云計算利用海量的存儲能力把農(nóng)業(yè)信息資源形成高度集成和虛擬化的計算資源一“農(nóng)業(yè)知識聚合云”,支持用戶在任意位置、使用各種終端方便獲取信息,但由于農(nóng)業(yè)領(lǐng)域生態(tài)區(qū)域性和過程復(fù)雜性及農(nóng)業(yè)區(qū)域發(fā)展不平衡和農(nóng)民文化的多層次性也帶來了“信息過載”、“資源隱晦”“資源迷向”等問題。
1.2 農(nóng)業(yè)云環(huán)境下大數(shù)據(jù)自組織區(qū)域推送
物聯(lián)網(wǎng)和云計算背后是大數(shù)據(jù),在云計算模式下,用戶不確定的、智能的交互,個性化需求更加多元化,信息交互行為更加頻繁;在大量用戶通過社會標(biāo)注達成共識的過程中,逐漸形成不同社區(qū),涌現(xiàn)出群體智能,形成“農(nóng)業(yè)用戶興趣社交云”。利用云的海量存儲、群體涌現(xiàn)智能、強大的計算能力和物聯(lián)網(wǎng)感知控優(yōu)勢,可以提供面向用戶復(fù)雜分析計算,實現(xiàn)業(yè)務(wù)重點由面向應(yīng)用和資源的傳統(tǒng)信息服務(wù),轉(zhuǎn)變?yōu)榛趯A哭r(nóng)業(yè)知識進行動態(tài)劃分,有目的、主動、定制、自組織推送給有需求的農(nóng)業(yè)用戶,為農(nóng)業(yè)用戶提供實時性、個性化知識服務(wù),指導(dǎo)農(nóng)業(yè)生產(chǎn)過程。
首先以Hadoop+MapReduce+HBaSe分布式框架為處理平臺,對“農(nóng)業(yè)用戶興趣社交云”,融合用戶興趣偏好和社交網(wǎng)絡(luò)進行建模,將這些多元用戶信息充分融入推送系統(tǒng)會更好產(chǎn)生推薦結(jié)果;將推薦對象“農(nóng)業(yè)知識聚合云”按農(nóng)業(yè)知識高維性、多樣性、多層次性特征分類聚類為各種知識塊靜態(tài)和動態(tài)元數(shù)據(jù);通過智能算法推薦和社會網(wǎng)絡(luò)推薦為用戶發(fā)現(xiàn)個性化內(nèi)容;根據(jù)用戶的地理位置、用戶服務(wù)的評價以及云基礎(chǔ)服務(wù)提供商信息將預(yù)測值最高的服務(wù)推送給用戶實現(xiàn)與物理世界的互動(如圖1)。
從以上分析可知,農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送的關(guān)鍵技術(shù)有用戶興趣模型、推薦對象模型,推薦算法、數(shù)據(jù)挖掘四個部分,以下分別對這幾項技術(shù)進行論述。
1.2.1 用戶興趣模型
用戶興趣建模是個性化服務(wù)技術(shù)的基礎(chǔ)和核心,包括數(shù)據(jù)收集、模型表示、模型學(xué)習(xí)與模型更新。用戶興趣建模的方法有很多,常用的有向量空間模型、神經(jīng)網(wǎng)絡(luò)、遺傳算法、用戶一項目評價矩陣、基于案例的表示、基于本體論的表示、基于加權(quán)關(guān)鍵詞的表示,基于社會網(wǎng)絡(luò)的表示等。幾乎每種表示形式都是以一種私有形式進行知識表示,此外一些表示技術(shù)還依賴于模型學(xué)習(xí),如廣泛使用的基于向量空間模型的表示與TF-IDF學(xué)習(xí)技術(shù)聯(lián)系在一起。表示形式的私有性和對學(xué)習(xí)技術(shù)的依賴性阻礙了用戶模型在系統(tǒng)間的共享,這種共享對于減少用戶建模工作量,提高推薦算法啟動效率具有重要意義。因此開發(fā)獨立于模型學(xué)習(xí)技術(shù)的通用用戶模型表示技術(shù)是目前研究中熱點,基于語義網(wǎng)和社交網(wǎng)絡(luò)的用戶模型在這方面表現(xiàn)了優(yōu)勢。
用戶的興趣或需求會隨時間、情景發(fā)生變化,結(jié)合長期和短期興趣及興趣的變化用戶興趣建模的重點,目前的更新機制很難及時跟蹤用戶興趣的變化,有更好的學(xué)習(xí)效率和動態(tài)變化適應(yīng)能力的建模是未來的重要研究方向,國內(nèi)外大量的文獻對此展開了研究,遺忘函數(shù)、時間窗、用戶興趣的漂移特性等被提出。
在湖南農(nóng)業(yè)云中,基于呼叫中心、互聯(lián)網(wǎng),手機報、手機短信,電視廣播等用戶在多應(yīng)用系統(tǒng)中形成的興趣偏好和社交網(wǎng)絡(luò)特征,提出“農(nóng)業(yè)用戶興趣社交云”建模思路:以圖論模型表示用戶“興趣圖”數(shù)據(jù)和“社交圖”數(shù)據(jù),根據(jù)經(jīng)典的局域世界演化理論,綜合考慮實際情況中用戶之間的多重關(guān)系和關(guān)系的強弱程度,以用戶之間相似度為節(jié)點連接概率因素,生成動態(tài)多維網(wǎng)絡(luò),進行用戶數(shù)據(jù)的挖掘和更新;結(jié)合農(nóng)業(yè)本體,在多維社交網(wǎng)絡(luò)的基礎(chǔ)上,將基于農(nóng)業(yè)本體的區(qū)域用戶興趣融合在云計算平臺上進行處理。
1.2.2 推薦對象模型
推薦本質(zhì)上是將推薦對象的特征與用戶的興趣偏好進行推薦計算,所以推薦對象的描述和用戶的描述密切相關(guān)。推薦系統(tǒng)應(yīng)用不同領(lǐng)域,它推薦的對象也就各不相同,目前,湖南農(nóng)業(yè)云主要是文本性數(shù)據(jù);不同的對象,特征也不相同,目前沒有一個統(tǒng)一的標(biāo)準(zhǔn)來進行統(tǒng)一描述,主要有基于內(nèi)容、分類、聚類的方法。
基于內(nèi)容的方法是從對象本身抽取信息表示對象,常見的是向量空間模型,使用最廣泛的是加權(quán)關(guān)鍵詞矢量方法進行特征選取,使用TFIDF計算每個特征的權(quán)值。向量空間模型對模型中的特征詞進行權(quán)重估計(TF-IDF)過程中不考慮特征詞之間的相關(guān)性,直接用特征詞作為維度構(gòu)建文檔向量,降低了文檔向量對文檔概念表達的準(zhǔn)確性以及對不同類型文檔的區(qū)分能力。
基于分類的方法是把推薦對象放入不同類別,把同類文檔推薦給對該類文檔感興趣的用戶。主要有兩種,一種是基于知識工程的方法,使專家的類別知識直接編碼為分類規(guī)則,正確率和召回率高,但工作量大;近期研究最多的是另一種一機器學(xué)習(xí),根據(jù)訓(xùn)練樣本集建立分類器,方法有很多,常見的有概率分類、貝葉斯回歸分析、決策樹分類器、決策規(guī)則分類器、Rocchio分類器、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(SVM)、分類器融合、Boosting分類器、k最近鄰方法(KNN)等。
研究文本聚類的最初目的是為了提高信息檢索的查全率和查準(zhǔn)率,近年來,文本聚類用于自動產(chǎn)生文本的多層次的類,并利用這些新生成的類對新文本進行效率較好的歸類,已經(jīng)提出了大量的文本聚類算法。傳統(tǒng)的聚類算法在處理高維和海量文本時效率不很理想。針對這樣的問題,將聚類分析與計算智能理論,并行計算、云計算等相結(jié)合,設(shè)計出高效的并行聚類算法,己經(jīng)成為一個比較流行的研究思路。
在湖南農(nóng)業(yè)知識云數(shù)據(jù)模型中,將能更好反映特征詞相關(guān)性的超圖模型引入,將文檔中提取的特征項表示為圖中節(jié)點,特征詞條之間的關(guān)系構(gòu)成圖中邊,用邊上權(quán)值表示相關(guān)聯(lián)特征項之間共現(xiàn)程度。通過對文本圖模型K最近鄰劃分實現(xiàn)降維降噪的粗粒度數(shù)據(jù)切片;對切片后數(shù)據(jù)反映用戶興趣如地域、時間、訴求等多維度特征的智能聚類,實現(xiàn)細粒度的聚合與分割。
“農(nóng)業(yè)知識聚合云”模型算法建立在基于MapReduce處理的大規(guī)模圖上,得到各種知識塊靜態(tài)和動態(tài)元數(shù)據(jù)。
1.2.3 推薦算法
推薦算法是整個推薦系統(tǒng)中核心部分,大量的論文和著作都關(guān)注了這個方面。目前,基本包括以下幾種:基于內(nèi)容過濾推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)推薦、基于知識推薦、基于效用推薦、基于網(wǎng)絡(luò)結(jié)構(gòu)推薦、基于聚類推薦、基于社會網(wǎng)絡(luò)分析推薦、混合型推薦等。通過對眾多推薦算法進行比較分析,各種算法都有優(yōu)缺點(如表1):
各種推薦方法都有各自的優(yōu)缺點,在實際問題中采用多種策略進行混合推薦,主要有兩種混合思路:推薦結(jié)果混合和推薦算法混合。目前大部分的推薦算法都是混合推薦算法,主要還是以協(xié)同理論為核心,再配合其他算法的優(yōu)點或交叉學(xué)科的理論來改善推薦的質(zhì)量。另外基于社會網(wǎng)絡(luò)個性化推薦算法研究是一個趨勢,基于社會網(wǎng)絡(luò)的推薦是協(xié)同過濾的延伸,通過考察結(jié)點之間(用戶和用戶之間或產(chǎn)品之間)的相關(guān)性和結(jié)點之間的信任度可以獲得比一般協(xié)同推薦更高推薦效果,如文獻提出將社會網(wǎng)絡(luò)關(guān)系結(jié)合到推薦算法中??v觀國內(nèi)外在推薦算法上的研究,主要集中在基于用戶顯性評分?jǐn)?shù)據(jù)的協(xié)同過濾算法上,對基于非顯性評分行為數(shù)據(jù)場景下的研究卻顯得有點不足。目前在擴展性問題上學(xué)術(shù)研究不是很具有針對性,主要集中在通過各種交叉學(xué)科中的方法來對用戶進行聚類或?qū)π袨閿?shù)據(jù)進行降維、壓縮等縮短推薦的項目集或減少計算量,從而提升算法的性能;有關(guān)基于云平臺上的推薦算法研究目前主要集中于協(xié)同過濾算法MapReduce化。而實際應(yīng)用中,己出現(xiàn)利用分布式集群解決算法擴展性方法,如Google News的推薦算法就是部署在分布式環(huán)境下,從而滿足海量數(shù)據(jù)下的推薦服務(wù)。
根據(jù)農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送實際情況將推薦結(jié)果和推薦算法混合,提出“三層推薦”策略:在豐富的知識塊云元數(shù)據(jù)基礎(chǔ)上,將知識塊屬性和用戶興趣行為基于頻繁模式的知識關(guān)聯(lián)撮合推薦;通過復(fù)雜網(wǎng)絡(luò)聚類算法識別一個用戶多個社區(qū)興趣,融合“興趣圖”和“社交圖”協(xié)同過濾推薦,突破算法推薦的局限性,讓用戶信任的朋友圈子為其發(fā)現(xiàn)和推薦內(nèi)容,取得社交推薦的時效性和算法推薦的長尾性之間的互補,從而針對每個社區(qū)成員提供精準(zhǔn)個性化推薦;根據(jù)基礎(chǔ)設(shè)施服務(wù)供應(yīng)商、用戶所在的地理位置以及用戶對服務(wù)可用性評價值的相似性等,將大量用戶云終端聚類為一定數(shù)量的社區(qū),提高云端推送服務(wù)的有效性,最終形成通過大眾參與,支持云間變換,集電信網(wǎng)、廣播電視網(wǎng)、互聯(lián)網(wǎng)合一的自組織區(qū)域推送,較有效地處理一般推薦算法中存在的稀疏性、冷啟動以及大規(guī)模實時計算的問題。
1.2.4 云計算下個性化數(shù)據(jù)挖掘
數(shù)據(jù)挖掘采用了多種領(lǐng)域中的思想,包括來自統(tǒng)計學(xué)的抽樣、估計、假設(shè)檢驗以及人工智能、模式識別和機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。隨著數(shù)據(jù)挖掘的不斷發(fā)展,也采用了包括最優(yōu)化、進化計算、信息論、信號處理、可視化、信息檢索、云計算、并行計算等技術(shù)。與傳統(tǒng)的數(shù)據(jù)挖掘相比,云計算下的個性化數(shù)據(jù)挖掘的目標(biāo),就是通過云計算中心,向用戶提供針對其即時演化需求的數(shù)據(jù)挖掘SaaS(Software as aService,軟件即服務(wù))服務(wù),其基礎(chǔ)問題主要為:對于用戶不同的數(shù)據(jù)挖掘需求以及針對用戶特點進行個性推薦的建模和表征;數(shù)據(jù)挖掘算法適應(yīng)云計算的并行分布式化;使數(shù)據(jù)挖掘的結(jié)果和算法能夠支持云間變換并形成一種面向用戶、即時組合的、變粒度的云服務(wù),其中數(shù)據(jù)挖掘的云服務(wù)化是研究的難點。
(1)云計算下個性推薦的建模和表征
云下的個性推薦建模和表征與傳統(tǒng)上個性化推薦明顯的不同在于海量異構(gòu)大數(shù)據(jù)和用戶間群體涌現(xiàn)的社交網(wǎng)絡(luò),它們本質(zhì)上形成了多個頂點的大規(guī)模圖。云計算可以為大規(guī)模個性化提供技術(shù)支撐,云服務(wù)本身也有大規(guī)模個性化定制應(yīng)用需求,目前研究兩者結(jié)合的文獻還很少,張澤華從計算資源的角度基于復(fù)雜系統(tǒng)理論對云計算聯(lián)盟體系結(jié)構(gòu)進行建模,并基于蟻群優(yōu)化算法和復(fù)雜系統(tǒng)理論進行了負載均衡研究;郭昱就有效處理客戶需求信息該如何選擇與分布云計算平臺中的關(guān)鍵節(jié)點問題,提出了基于云計算的大規(guī)模定制客戶需求模型。趙東杰對復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘與群體智能有效結(jié)合進行了探索研究。農(nóng)業(yè)云大數(shù)據(jù)自組織推送通過“農(nóng)業(yè)知識聚合云”分解的靜態(tài)、動態(tài)知識元數(shù)據(jù)和“農(nóng)業(yè)用戶興趣社交云”形成的興趣圖、社交圖基于用戶行為和知識元數(shù)據(jù)的關(guān)聯(lián)撮合,通過人工智能和社交圈子幫助用戶發(fā)現(xiàn)內(nèi)容,實現(xiàn)搜索和推薦的無縫結(jié)合,為智能個性化推薦實現(xiàn)“內(nèi)容找人”愿景。
(2)算法并行分布式與高性能計算
對于大規(guī)模數(shù)據(jù)的處理,典型系統(tǒng)結(jié)構(gòu)大致分為三類:基于MapReduce模型的分布式并行處理系統(tǒng)、基于BSP模型的分布式并行處理系統(tǒng)和分布式圖數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)挖掘算法現(xiàn)在的發(fā)展趨勢是基于云計算的并行數(shù)據(jù)挖掘,它的同一個算法可以分布在多個節(jié)點上,多個算法之間是并行的,多個資源實行按需分配,而且分布式計算模型采用云計算模式,數(shù)據(jù)用DFS或者HBASE,編程模式采用MapReduce這種方式。Bhaduri等整理了一個十分詳盡的并行數(shù)據(jù)挖掘算法文獻目錄,包含了關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類、流數(shù)據(jù)挖掘四大類分布式數(shù)據(jù)挖掘算法,同時還包括分布式系統(tǒng)、隱私保護等相關(guān)的研究工作。
2 基于云計算推薦系統(tǒng)研究的重點、難點與熱點
2.1 云環(huán)境下用戶偏好獲取安全與可信問題
推薦系統(tǒng)中,用戶數(shù)據(jù)集的數(shù)量和質(zhì)量問題,影響用戶模型的精確度、可用性,導(dǎo)致問題的根本原因在于用戶對隱私和安全的考慮。而云環(huán)境下,數(shù)據(jù)的安全與隱私是用戶非常關(guān)心的問題。既能得到準(zhǔn)確用戶信息而提高推薦系統(tǒng)性能,又能有效保護用戶信息同時檢測并能預(yù)防推薦攻擊(一些不法的用戶為了提高或降低某些對象的推薦概率,惡意捏造用戶評分?jǐn)?shù)據(jù)而達到目的)將是未來推薦系統(tǒng)的一個重要研究方向。
2.2 模型過擬合問題
過擬合現(xiàn)象是指系統(tǒng)推薦給用戶的對象與用戶剛剛看過的不是太相似或者太不相關(guān)。過擬合(過學(xué)習(xí))的問題本質(zhì)上來自于數(shù)據(jù)的不完備性,這在實際應(yīng)用中是無法完全避免的。在于興趣偏好獲取方式或隱私等原因使用戶沒有對足夠多類別的對象進行評價。目前解決的主要方法是引入隨機性,使推薦算法收斂到全局最優(yōu)或者逼近全局最優(yōu),關(guān)于既要保證推薦的多樣性,又不能與用戶看過的對象重復(fù)或毫不相關(guān)這一問題的研究是推薦系統(tǒng)研究的一個難點和重點。
2.3 稀疏性與冷啟動問題
稀疏性和冷啟動問題困擾推薦系統(tǒng)很長時間了,前者的解決辦法主要過濾和降維。目前針對冷啟動問題提出了一些解決方法,主要分為兩大方面,一是直接利用傳統(tǒng)協(xié)同過濾的評分?jǐn)?shù)據(jù)結(jié)合特定的方法進行解決,二是新用戶或新項目的內(nèi)容屬性信息與傳統(tǒng)的協(xié)同過濾評分?jǐn)?shù)據(jù)相結(jié)合的方法進行改善冷啟動問題。稀疏性與冷啟動問題一直是推薦系統(tǒng)研究的一個難點和重點。
2.4 數(shù)據(jù)挖掘的結(jié)果和算法智能服務(wù)化
將數(shù)據(jù)挖掘算法融入針對海量用戶的使用記錄和計算資源間協(xié)作進行優(yōu)化組合,利用這些特性通過大眾參與的交互作用,提高云間服務(wù)的智能性、有效性將是大數(shù)據(jù)時代推薦系統(tǒng)研究的一個制高點。將數(shù)據(jù)挖掘任務(wù)及其實現(xiàn)算法服務(wù)化,通過SaaS方式向云計算中心索取所需的相應(yīng)的數(shù)據(jù)挖掘,這可能是目前突破數(shù)據(jù)挖掘?qū)S密浖褂瞄T檻過高、普通大眾難以觸及、企業(yè)用戶使用成本太大、挖掘算法和結(jié)果難以實時得到評價和相應(yīng)修改等問題的最有希望的解決方案之一,也是數(shù)據(jù)挖掘走向互聯(lián)網(wǎng)大眾、走向?qū)嵱没闹匾囊徊健?/p>
2.5 大數(shù)據(jù)處理與增量計算問題
目前對大數(shù)據(jù)的研究仍處于一個非常初步的階段,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)分析帶來巨大挑戰(zhàn),尤其算法如何快速高效地處理推薦系統(tǒng)海量和稀疏的數(shù)據(jù)成為迫在眉睫的問題。當(dāng)產(chǎn)生新的數(shù)據(jù)時,算法的結(jié)果不需要在整個數(shù)據(jù)集上重新進行計算,而只需考慮增量部分,對原有的結(jié)果進行微調(diào),快速得到準(zhǔn)確的新結(jié)果,是增量計算的理想狀態(tài)。但一般而言,隨著信息量的增多,算法的誤差會累積變大,最終每過一段時間還是需要利用全局?jǐn)?shù)據(jù)重新進行計算。一個特別困難的挑戰(zhàn)是如何設(shè)計一種能夠保證其誤差不會累積的算法,也就是說其結(jié)果與利用全部數(shù)據(jù)重新計算的結(jié)果之間的差異不會單調(diào)上升,要達到這種程度,還有很長的路要走。
結(jié)束語:
隨著新一代信息技術(shù)的快速發(fā)展和信息內(nèi)容的日益增長,搭載在云計算平臺的自組織區(qū)域推送具有它天然的優(yōu)勢:云的海量存儲使得推薦系統(tǒng)能有效獲取訓(xùn)練數(shù)據(jù);云的分布式計算能力提供了較高的響應(yīng)能力;海量用戶的使用記錄和計算資源問大眾參與的交互涌現(xiàn),最終形成自組織優(yōu)化組合的智能個性化云推送。因此,農(nóng)業(yè)云自組織區(qū)域推送具有重要的研究意義和廣闊的應(yīng)用前景,對云環(huán)境下其他領(lǐng)域的個性化推送應(yīng)用具有借鑒意義,但目前存在大量問題需要進行深入細致的研究。
參考文獻
[1]孟祥武,胡勛,王立才,張玉潔,移動推薦系統(tǒng)及其應(yīng)用[J],軟件學(xué)報,2013,24(1):91-108
[2]楊濤,基于本體的農(nóng)業(yè)領(lǐng)域知識服務(wù)若干關(guān)鍵技術(shù)研究[D],上海:復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院博士論文,2011,1-50
[3]楊曉蓉,分布式農(nóng)業(yè)科技信息共享關(guān)鍵技術(shù)研究與應(yīng)用[D],北京:中國農(nóng)業(yè)科學(xué)院博士學(xué)位論文,2011,3-35
[4]趙春江,農(nóng)業(yè)智能系統(tǒng)[M],北京:科學(xué)出版社,2009,1-210,
[5]何清,物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J],智能系統(tǒng)學(xué)報,2012,7(3):1-5,
[6]黃衛(wèi)東,于瑞強,共享學(xué)習(xí)模式下知識服務(wù)云平臺的構(gòu)建研究[J],電信科學(xué),2011,12:6-11
[7]丁靜,楊善林,羅賀,丁帥,云計算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J],計算機科學(xué),2012,39(6):217-219,237
[8]鄧仲華,錢劍紅,陸穎雋,國內(nèi)圖書情報領(lǐng)域云計算研究分析[J],信息資源管理學(xué)報,2012,2:10-16
[9]胡安瑞,張霖,陶飛,羅永亮,基于知識的云制造資源服務(wù)管理[J]同濟大學(xué)學(xué)報(自然科學(xué)版),2012,40(7):1093-1101
[10]程功勛,劉麗蘭,林智奇,俞濤,面向用戶偏好的智能云服務(wù)平臺研究[J],中國機械工程,2012,23(11):1318-1323,1336
[11]劉波,方逵,沈岳,可重構(gòu)的農(nóng)業(yè)知識服務(wù)模式研究[J]農(nóng)機化研究,2011,36(11):66-70
[12]趙星,廖桂平,史曉慧,陳誠,李文圃,物聯(lián)網(wǎng)與云計算環(huán)境下的農(nóng)業(yè)信息服務(wù)模式構(gòu)建[J],農(nóng)機化研究,2012,4:142-147
[13]郭永田,中國農(nóng)業(yè)農(nóng)村信息化發(fā)展成效與展望[J],電子政務(wù),2012,02-03:99-106
[14]李道亮,中國農(nóng)業(yè)農(nóng)村信息化發(fā)展報告(2011)[M],北京:電子工業(yè)出版,2012,87-150
[15]錢平,鄭業(yè)魯,農(nóng)業(yè)木體論研究與應(yīng)用[M],北京:中國農(nóng)業(yè)科學(xué)技術(shù)出版社,2006,1-100
[16]吳麗花,劉魯,個性化推薦系統(tǒng)用戶建模技術(shù)綜述[J],情報學(xué)報,2006,25(2):55-62
[17]李珊,個性化服務(wù)中用戶興趣建模與更新研究[J],情報學(xué)報,2010,29(1):67-71
[18]王國霞,劉賀平,個性化推薦系統(tǒng)綜述[J],計算機工程與應(yīng)用,2012,48(7):66-76
[19]王巧容,趙海燕,曹健,個性化服務(wù)中的用戶建模技術(shù)[J],小型微型計算機系統(tǒng),2011,32(1):39-46
軟件雜志歡迎推薦投稿:http:///
[20]張華清,動態(tài)多維社會網(wǎng)絡(luò)中個性化推薦方法研究[D],濟南:山東師范大學(xué)碩士學(xué)位論文,2012,16-31
[21]丹,面向跨系統(tǒng)個性化服務(wù)的用戶建模方法研究[J]_情報雜志,2012,31(6):156-161
[22]鄧夏瑋,基于社交網(wǎng)絡(luò)的用戶行為研究[D],北京:北京交通大學(xué)碩士學(xué)位論文,2012,4-43
[23]馬堯,基于多維用戶特征建模的個性化社交搜索引擎的設(shè)計與實現(xiàn)[D],廣州:華南理工大學(xué)碩士學(xué)位論文,2012,12-55
[24]陳恩紅,徐童,田繼雷,楊禹,移動情景感知的個性化推薦技術(shù)[J],中國計算機學(xué)會通訊,2013,9(3):19-24
[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487
[26]南智敏,錢松榮,引入漂移特性的用戶興趣模型優(yōu)化研究[J],微型電腦應(yīng)用,2012,28(3):30-32
[27]郭新明,弋改珍,混合模型的用戶興趣漂移算法[J],智能系統(tǒng)學(xué)報,2010,5(2):181-184
[28]程顯毅,朱倩,文本挖掘原理[M],北京:科學(xué)出版社,2010,9-45 [29]李濤,推薦系統(tǒng)中若干關(guān)鍵問題研究[D],南京:南京航空航天大學(xué)博士學(xué)位論文,2009,31-80
[30]姜倫,模糊聚類算法及其在中文文本聚類中的研究與實現(xiàn)[D],哈爾濱:哈爾濱理工大學(xué)碩士學(xué)位論文,2010,18-48
[31]馮汝偉,謝強,丁秋林,基于文本聚類與分布式Lucene的知識檢索[J],計算機應(yīng)用,2013,33(1):186-188
[32]陶紅,周永梅,高尚,一種基于語義相似度的群智能文本聚類的新方法[J]計算機應(yīng)用研究,2012,29(2):482-532
[33]孟海東,劉小榮,基于聚類分析的圖模型文檔分類[J]計算機應(yīng)用與軟件,2012,29(1):117-174,229
[34]饒君,張仁波,東呈曉,吳斌,基于MapReduce的大規(guī)模圖挖掘并行計算模型[J],應(yīng)用科技,2012,39(3):56-60
[35]于戈,谷峪,鮑玉斌,王志剛,云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J],計算機學(xué)報,2011,34(10):1753-1767
[36]呂善國,吳效葵,曹義親,基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J]_實驗室研究與探索,2012,31(7):278-280,368
[37]周佳,羅鐵堅,一種基于內(nèi)容關(guān)聯(lián)的學(xué)術(shù)資源協(xié)同推薦算法[J],中國科學(xué)院研究生院學(xué)報,2013,30(1):117-123
[38]唐曉波,張昭,基于混合圖的在線社交網(wǎng)絡(luò)個性化推薦系統(tǒng)研究[J]情報理論與實踐,2013,36(2):91-95
[39]王立才,孟祥武,張玉潔,上下文感知推薦系統(tǒng)[J],軟件學(xué)報,2012,23(1):1-20
[40]劉建國,周濤,汪秉宏,個性化推薦系統(tǒng)的研究進展[J],自然科學(xué)通報,2009,19(1):1-15
[41]許海玲,吳瀟,李曉東,閻保平,互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]軟件學(xué)報,2009,20(2):350-362
[42]孫冬婷,何濤,張福海,推薦系統(tǒng)中的冷啟動問題研究綜述[J],計算機與現(xiàn)代化,2012,5:59-63
[43]張亮,基于聚類技術(shù)的推薦算法研究[D],成都:電子科技大學(xué)碩士學(xué)位論文,2012,7-18
[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.
[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.
[46]周源,基于云計算的推薦算法研究[D],成都:電子科技大學(xué)碩士學(xué)位論文,2012,26-64
[47]呂雪驥,基于云計算平臺的智能推薦系統(tǒng)研究[D],合肥:安徽大學(xué)碩士學(xué)位論文,2012,25-43
[48]劉晨,改進的聚類挖掘算法對網(wǎng)絡(luò)自助出版“長尾”文本的推薦應(yīng)用[D],上海:復(fù)旦大學(xué)碩士學(xué)位論文,2011,10-19
[49]陳桂生,張海粟,劉玉超,云計算下的個性化數(shù)據(jù)挖掘服務(wù)[EB/OL],[2011-2-28]中國人工智能學(xué)會通訊,http://www,/contents/50/119,html
[50]張澤華,云計算聯(lián)盟建模及實現(xiàn)的關(guān)鍵技術(shù)研究[D],昆明:云南大學(xué)博士學(xué)位論文,2012,26-114
[51]郭昱,吳清烈,基于云計算的大規(guī)模定制客戶需求響應(yīng)模型及其節(jié)點的選擇與分布[J],系統(tǒng)工程理論與實踐,2011,31(增刊2):1-6
[52]趙東杰,張海粟,韓言妮,楊海濤,何宇,基于網(wǎng)絡(luò)化數(shù)據(jù)挖掘的群體智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.
[53]AnandRajaraman,Jeffrey David Ullman著,王斌譯,互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M],北京:人民郵電出版社,2012,1-253
[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/
[55]楊健,汪海航,王劍,俞定國,云計算安全問題研究綜述[J],小型微型計算機系統(tǒng),2012,33(3):472-479
篇10
關(guān)鍵詞:數(shù)據(jù)挖掘 客戶關(guān)系管理 企業(yè)發(fā)展
企業(yè)管理中客戶關(guān)系的管理必不可少,并且良好的管理有利于企業(yè)發(fā)展,有利于企業(yè)獲取更大的財富,有利于企業(yè)實現(xiàn)自己的價值,所以保障對企業(yè)客戶關(guān)系的管理。數(shù)據(jù)挖掘技術(shù)就是一個可以幫助企業(yè)對客戶關(guān)系進行有效的管理的工具。
一、數(shù)據(jù)挖掘和客戶關(guān)系管理含義
數(shù)據(jù)挖掘技術(shù)(Data Mining可以簡稱為DM),簡單來說,就是一種把隱藏在大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中所需要的有用信息提取出來的新技術(shù),這是一個對數(shù)據(jù)庫進行研究的非常有價值的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從數(shù)據(jù)庫中準(zhǔn)確的提取出有用的商業(yè)信息,為用戶在進行決策時提供重要的支持。
客戶關(guān)系管理(Customer Relationship Management可以簡稱為CRM),也有人稱之為“顧客關(guān)系管理”,關(guān)于客戶關(guān)系管理的定義,目前有兩種說法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進行分類,并依據(jù)分類情況來對企業(yè)的資源進行有效的組織,進而企業(yè)的業(yè)務(wù)流程實施以及經(jīng)營活動都要以客戶為核心來進行,以此來提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤;二、是由CRMguru.com給出的定義,客戶關(guān)系管理就是一個在企業(yè)的營銷、銷售以及服務(wù)的業(yè)務(wù)范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務(wù)伙伴多渠道進行管理的過程,或者說技術(shù)。
二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
隨著社會經(jīng)濟的不斷發(fā)展,市場競爭力也在逐步的增大,商家想要獲得最好的利益,就必須對市場的變化迅速的做出反應(yīng),能夠引起市場變化的重要因素就是客戶需求的變化,也就是說,企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進行管理。在企業(yè)管理客戶信息的過程中,就需要應(yīng)用到了數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用過程中,主要方法有:神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹法、粗糙決算法以及可視化技術(shù)、K—最近鄰技術(shù)等,每個公司的客戶關(guān)系不同、需求也不同,所以要用到的方法也不同。
數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于客戶關(guān)系管理中的這幾個方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術(shù)可以對現(xiàn)有的客戶信息和市場環(huán)境進行統(tǒng)計總結(jié)以及歸納,準(zhǔn)確的確定潛在客戶以及市場目標(biāo)。因為數(shù)據(jù)挖掘技術(shù)具有統(tǒng)計、聚類和關(guān)聯(lián)的作用,比如說,數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫中發(fā)現(xiàn)了這樣一個信息“某客戶在購買A商品之后,過了一段時間又購買了B商品,最后還購買了C商品”那么數(shù)據(jù)挖掘技術(shù)就會通過次序關(guān)聯(lián),把這個信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶。現(xiàn)在社會競爭相當(dāng)激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對每個企業(yè)來說就更加的重要。數(shù)據(jù)挖掘技術(shù)可以對數(shù)據(jù)庫中的流失客戶信息進行分析,并且對流失客戶的特征進行準(zhǔn)確的描述,然后利用關(guān)聯(lián)、近鄰的方式對整個數(shù)據(jù)庫中的消費客戶信息進行分析,分析出容易流失的客戶,隨后就需要采取相應(yīng)的措施來減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來進行挽留。(3)可以提升客戶價值。目前提升現(xiàn)有客戶的價值的方式有兩個:一是提供特色服務(wù)或者產(chǎn)品;二是銷售新產(chǎn)品或者服務(wù)。想要準(zhǔn)確的提升客戶價值,就需要數(shù)據(jù)挖掘技術(shù)的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務(wù)的特征,發(fā)現(xiàn)和客戶的已購買產(chǎn)品之間的關(guān)聯(lián),因而準(zhǔn)確的找到具有最大購買趨勢的客戶。
三、加強客戶關(guān)系管理中數(shù)據(jù)挖掘的意義
應(yīng)用數(shù)據(jù)挖掘技術(shù)對客戶關(guān)系進行管理,可以有效的提高企業(yè)的核心競爭力,現(xiàn)代社會的激烈競爭,也就是對客戶的競爭,數(shù)據(jù)挖掘技術(shù)對企業(yè)的客戶關(guān)系進行詳細的分析,并為企業(yè)提供有價值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進而有力的提高了企業(yè)的核心競爭力;可以有力的增強企業(yè)的執(zhí)行力,利用信息技術(shù)對客戶關(guān)系進行管理,降低成本,并簡化執(zhí)行任務(wù),有效的實現(xiàn)了資源共享,大力的提高了企業(yè)的自動化水平,企業(yè)職工的執(zhí)行能力也進一步得到了提高,也就是增強了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術(shù)對現(xiàn)今的市場環(huán)境進行分析,可以預(yù)測到每個業(yè)務(wù)的發(fā)展?fàn)顟B(tài),以及每個業(yè)務(wù)與發(fā)生過的商業(yè)行為之間的關(guān)系,有了這些信息,可以準(zhǔn)確的制定企業(yè)未來的發(fā)展戰(zhàn)略,并且可以制定與市場環(huán)境相適應(yīng)的營銷策略。
綜上所述,目前數(shù)據(jù)挖掘技術(shù)是企業(yè)進行客戶關(guān)系管理的最有效的工具,準(zhǔn)確的掌握了客戶信息,就是準(zhǔn)確的把握了市場需求,可以為企業(yè)制定完全適應(yīng)于市場的發(fā)展方向。數(shù)據(jù)挖掘技術(shù)的關(guān)鍵作用就是找出潛在客戶,保留忠誠客戶,并利用企業(yè)有限的資源,對這些客戶提供最好的服務(wù),促進企業(yè)的不斷發(fā)展。
參考文獻:
[1]張榮耀.基于數(shù)據(jù)挖掘的客戶關(guān)系管理研究[D].武漢理工大學(xué), 碩士學(xué)位論文,2004,11