教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究
時間:2022-07-08 11:29:40
導(dǎo)語:教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
【摘要】基于教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)應(yīng)用,從試題表征、知識點標(biāo)注、試題難度預(yù)測、學(xué)生認(rèn)知診斷和個性化推薦5個方面的應(yīng)用進行闡述,分析它們在目前使用中的關(guān)鍵技術(shù)、優(yōu)勢和不足,并對教育數(shù)據(jù)挖掘領(lǐng)域發(fā)展趨勢進行展望。
【關(guān)鍵詞】教育數(shù)據(jù)挖掘;知識點標(biāo)注;試題難度預(yù)測;學(xué)生認(rèn)知診斷;個性化推薦
隨著教育信息化進程不斷深入推進,人們的學(xué)習(xí)方式從線下轉(zhuǎn)到線上,由此產(chǎn)生的教育數(shù)據(jù)量非常巨大,如何利用海量的教育數(shù)據(jù)資源,已然成為當(dāng)前亟需解決的重要課題。教育數(shù)據(jù)挖掘技術(shù)應(yīng)運而成,旨在有效幫助學(xué)生學(xué)習(xí)[1],然而教育數(shù)據(jù)資源具有異構(gòu)性、隱含性和不可比性,導(dǎo)致數(shù)據(jù)挖掘非常困難,因而,對教育數(shù)據(jù)挖掘技術(shù)進行深入研究具有重要意義?,F(xiàn)從試題表征、知識點標(biāo)注、試題難度預(yù)測、學(xué)生認(rèn)知診斷和個性化推薦5個方面的關(guān)鍵技術(shù)應(yīng)用進行介紹,分析它們目前使用的關(guān)鍵技術(shù)、優(yōu)缺點和發(fā)展趨勢。
1關(guān)鍵技術(shù)應(yīng)用
1.1試題表征相關(guān)技術(shù)。對于學(xué)習(xí),試題永遠是最常見,也是非常重要的一種表現(xiàn)形式,對教育數(shù)據(jù)進行挖掘的第一件事情就是需要對試題進行表征,目前試題主要由文本、圖片、視頻等多種異構(gòu)數(shù)據(jù)形式組成,不同的數(shù)據(jù)形式,采用的表征技術(shù)也各不相同。文本資源主要采用詞袋和詞向量兩種模型。典型模型有word2vec、ELMo和BERT等。針對知識點資源主要采用One-hot表征、知識圖譜表征技術(shù)。針對圖片資源主要采用基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)框架。1.2知識點標(biāo)注。試題的知識點是描述試題用到的知識,知識點的標(biāo)注是構(gòu)建題庫和個性化推薦的基礎(chǔ)。試題知識點標(biāo)注常用方法:一是人工標(biāo)注,對標(biāo)注人員的專業(yè)知識背景要求較高,耗時費力。二是傳統(tǒng)機器學(xué)習(xí)方法,常用多標(biāo)簽分類方法,沒有考慮文本的深層語義,預(yù)測效果欠佳,對標(biāo)注語料少的知識點的表現(xiàn)不好。三是深度學(xué)習(xí),雖然能夠很好地提取文本的深層次語義特征,但沒有加入先驗知識,不同專業(yè)領(lǐng)域的知識無法融合,數(shù)據(jù)不平衡問題嚴(yán)重。1.3試題難度預(yù)測。試題難度的評估和預(yù)測是教育數(shù)據(jù)挖掘領(lǐng)域的一個重要的研究課題,其思路是讓學(xué)生做題,對于某道試題來說,答錯的學(xué)生越多,該試題越難。該做法需要學(xué)生事先做完試題,事后針對答題情況進行計算分析得出該試題難度。然而,有的時候需要提前對試題的難度進行評估。例如,對于標(biāo)準(zhǔn)化測試(如:高考、CET等),需要考試之前對試題進行難度的初步預(yù)測。傳統(tǒng)的方法多數(shù)采取人工評估,該方法存在專家主觀性強、費時費力的問題,沒有利用試題的文本特征。基于此,黃振亞[2]等人提出基于試題文本的難度預(yù)測框架(Test-AwareAttention-BasedConvolutionalNeuralNetwork,TACNN)。1.4學(xué)生認(rèn)知診斷。認(rèn)知診斷模型是通過對學(xué)生作答情況,了解學(xué)生對知識水平掌握的情況,由此進行個性化學(xué)習(xí)和資源推薦。常見的認(rèn)知診斷模型包括IRT(ItemResponseTheory)和DINA(deterministicinputs,noisy“and”gate)模型。傳統(tǒng)DINA模型只適用于客觀題,不能對主觀題的答題情況進行分析。如果作答學(xué)生存在游戲心理,通過該模型診斷出來的學(xué)生能力就不夠客觀和準(zhǔn)確。隨后,Wu[3]等人在此基礎(chǔ)上,又提出知識加猜測反應(yīng)模型(KnowledgePlusGamingResponseModel,KPGRM),該模型通過基于聚合P值的方法多次對作答學(xué)生的游戲心理進行認(rèn)知診斷,診斷準(zhǔn)確性明顯提高。在大數(shù)據(jù)時代,需要處理大規(guī)模數(shù)據(jù),傳統(tǒng)DINA模型計算效率很差。針對DINA模型計算時間過長的問題,王超[4]等人對原始DINA模型中的EM算法進行了改進,提出了基于增量DINA模型,有效提高了計算效率。1.5個性化推薦。個性化推薦是實現(xiàn)個性化教育的第一步,是教育數(shù)據(jù)挖掘領(lǐng)域非常重要的應(yīng)用之一。近年來,有學(xué)者將基于協(xié)同過濾推薦技術(shù)應(yīng)用到試題推薦當(dāng)中,取得了一定的效果,但該方法只關(guān)注分?jǐn)?shù)相近學(xué)生間的相似度和試題間的相似度,沒有涉及知識點信息,由此推薦的結(jié)果解釋性不強,合理性欠缺。為了解決以上問題,朱天宇[5]等人提出了一種結(jié)合概率矩陣分解(PMF)和認(rèn)知診斷的個性化試題推薦方法PMF-CD,該方法通過對學(xué)生掌握的知識點與試題考察的知識點進行聯(lián)合分析來進行試題推薦。
2問題與發(fā)展趨勢
教育數(shù)據(jù)挖掘領(lǐng)域發(fā)展至今,雖然在某些領(lǐng)域取得了較大的進步,但是仍然有很多沒有解決的問題,現(xiàn)就主要的問題及未來發(fā)展趨勢總結(jié)如下。2.1問題。2.1.1大量未標(biāo)記的資源沒有被利用。近年來產(chǎn)生了大量的教育資源數(shù)據(jù),然而教育資源數(shù)據(jù)的屬性標(biāo)注較少,大量未標(biāo)記的資源沒有得到充分的利用。因此,如何有效利用這些未標(biāo)記的資源,是機器學(xué)習(xí)方法在教育數(shù)據(jù)挖掘中不可避免的問題。2.1.2知識點標(biāo)注權(quán)重相同問題。目前知識點標(biāo)注方法中,不管是人工標(biāo)注,還是采取一些算法自動完成標(biāo)注,都只是簡單地把知識點標(biāo)注出來,事實上對于一道包含多個知識點的題目而言,不同的知識點的重要程度是不一樣的,如果能將此道題目與知識點結(jié)合起來,會大大提高解決問題的能力,且對試題個性化推薦系統(tǒng)的性能好壞起到關(guān)鍵性的作用,因此,如何科學(xué)地對不同的知識點標(biāo)注設(shè)置合理的權(quán)重,是值得深入研究的問題。2.1.3教育資源的表征、挖掘和應(yīng)用比較困難。例如表征問題:目前試題表征都是基于不同的資源類型選擇不同表征技術(shù)。如:文本資源通常采用詞袋和詞向量技術(shù);圖片資源通常選擇CNN框架等?,F(xiàn)實大量存在一道題中同時具有多種資源類型,例如一道數(shù)學(xué)幾何題,既有文字描述,又有公式和幾何圖形,他們之間有內(nèi)在的知識點和意義上的聯(lián)系。傳統(tǒng)的表征技術(shù)很難描述這種關(guān)聯(lián)關(guān)系,亟待找到一種方法能夠有效解決此類問題。2.2發(fā)展趨勢。2.2.1無監(jiān)督表征。針對大量未標(biāo)記的資源沒有被利用的問題,設(shè)計有效的無監(jiān)督表征框架以解決大規(guī)模教育資源數(shù)據(jù)的標(biāo)注缺失問題,具有極其重要的現(xiàn)實意義。2.2.2教育知識圖譜的結(jié)合。由于教育數(shù)據(jù)資源多源異構(gòu)性,導(dǎo)致教育資源的表征、挖掘和應(yīng)用非常困難,未來可以嘗試教育知識圖譜,并結(jié)合教育知識圖譜對異構(gòu)教育資源之間隱含邏輯關(guān)系的抽取和復(fù)雜語義結(jié)構(gòu)關(guān)聯(lián)的挖掘,或許能夠取得顯著的效果。
3結(jié)語
教育數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到教育數(shù)據(jù)領(lǐng)域,具有數(shù)據(jù)的異構(gòu)性、關(guān)系的隱含性和異構(gòu)數(shù)據(jù)之間的不可比性,造成了教育數(shù)據(jù)的表示、挖掘和應(yīng)用上的困難,未來依然是一塊充滿挑戰(zhàn)的研究領(lǐng)域,有許多問題亟需深入探索和解決。從試題表征、知識點標(biāo)注、試題難度預(yù)測、學(xué)生認(rèn)知診斷和個性化推薦5個方面應(yīng)用的關(guān)鍵技術(shù)進行介紹,對比分析它們之間的優(yōu)勢和不足,提出目前依然面臨的問題和未來發(fā)展的趨勢,旨在對后期進一步深入研究起到基石的作用。
參考文獻
[1]李宇帆,張會福,劉上力,等.教育數(shù)據(jù)挖掘研究進展[J].計算機工程與應(yīng)用,2019,55(14):15-23.
[2]HUANGZY,LIUQ,CHENEH,etal.Ques-tionDifficultyPredictionforREADINGProblemsinStandardTests//Procofthe31stAAAIConferenceonArtificialIntelligence.PaloAlto,USA:AAAIPress,2017:1352-1359.
[3]WURZ,XUGD,CHENEH,etal.Knowl-edgeorGaming?CognitiveModellingBasedonMulti-ple-AttemptResponse//Procofthe26thInternationalWorldWideWebConference.NewYork,USA:ACM,2017:321-329.
[4]王超,劉淇,陳恩紅,等.面向大規(guī)模認(rèn)知診斷的DINA模型快速計算方法研究[J].電子學(xué)報,2018(5):1047-1055.
[5]朱天宇,黃振亞,陳恩紅,等.基于認(rèn)知診斷的個性化試題推薦方法[J].計算機學(xué)報,2017,40(1):176-191.
[6]劉淇,汪飛,王新.教育資源的深度表征與智能應(yīng)用[J].人工智能,2019(3):45-54.
[7]胡國平,張丹,蘇喻,等.試題知識點預(yù)測:一種教研知識強化的卷積神經(jīng)網(wǎng)絡(luò)模型[J].中文信息學(xué)報,2018,32(5):137-146.
[8]WURZ,LIUQ,LIUYP,etal.CognitiveModellingforPredictingExamineePerformance//Procofthe24thInternationalJointConferenceonArtificialIntelligence.NewYork,USA:ACM,2015:1017-1024.
作者:夏春芬 單位:湖北科技職業(yè)學(xué)院