科研數(shù)據(jù)挖掘技術(shù)論文

時(shí)間:2022-06-24 09:31:40

導(dǎo)語(yǔ):科研數(shù)據(jù)挖掘技術(shù)論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

科研數(shù)據(jù)挖掘技術(shù)論文

一、數(shù)據(jù)挖掘相關(guān)概念

數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來(lái)的一門新興學(xué)科,它涉及到數(shù)據(jù)庫(kù)和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫(kù)產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹(shù)方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí),其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。

二、使用Weka進(jìn)行關(guān)聯(lián)挖掘

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來(lái)探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類似,但該模塊通過(guò)其特殊的接口可以讓使用者通過(guò)拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來(lái)進(jìn)行。

(一)數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類屬性值。

(二)數(shù)據(jù)載入

點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來(lái)實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。

(三)關(guān)聯(lián)挖掘與結(jié)果分析

WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過(guò)1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

三、挖掘結(jié)果與應(yīng)用

以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國(guó)家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的過(guò)程中一定會(huì)有國(guó)家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來(lái)支撐立項(xiàng),所以這類教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵(lì)和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)??蒲泄ぷ鞯倪M(jìn)展。

2、副教授類的教師科研立項(xiàng)得分很高,而講師類教師和助教類教師的科研立項(xiàng)得分很低,這樣符合實(shí)際情況。因?yàn)楦苯淌陬惖慕處熡幸欢ǖ慕虒W(xué)經(jīng)驗(yàn),并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會(huì)申請(qǐng)一些課題。而對(duì)于講師類和助教類的教師,由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級(jí)以上的課題研究,因此這兩類教師的科研立項(xiàng)分?jǐn)?shù)不高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對(duì)子的形式來(lái)幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。

3、講師類教師的論文等級(jí)不高。從論文得分能夠推斷出講師類教師所的級(jí)別不高。為了鼓勵(lì)這類教師的,在今后的科研量化工作中對(duì)省級(jí)、國(guó)家級(jí)的論文級(jí)別進(jìn)行細(xì)化,并且降低一般論文的得分權(quán)重,加大高級(jí)論文的得分權(quán)重。并且鼓勵(lì)講師類教師參加假期培訓(xùn),提高自身的科研和教學(xué)水平。

作者:王鴻丹 單位:鐵嶺師范高等??茖W(xué)校理學(xué)院