期刊選擇學(xué)術(shù)論文內(nèi)容的分類

時(shí)間:2022-05-09 03:59:26

導(dǎo)語:期刊選擇學(xué)術(shù)論文內(nèi)容的分類一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

期刊選擇學(xué)術(shù)論文內(nèi)容的分類

1引言

在數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲設(shè)備得到快速發(fā)展的大環(huán)境下,多種針對數(shù)據(jù)分析、挖掘的應(yīng)用應(yīng)運(yùn)而生。在學(xué)術(shù)研究過程中同樣需要數(shù)據(jù)分析的應(yīng)用,例如期刊論文的分類研究。然而,在論文文獻(xiàn)分類中目前還未有普遍使用的統(tǒng)一標(biāo)準(zhǔn)。由于期刊數(shù)量和投稿人數(shù)量逐年增加,論文的增長趨勢也不容小覷[1]。長期以來由于審稿周期較長、稿件本身的時(shí)效性使得一些投稿人未能遵守底線,一稿多投和一文多刊的現(xiàn)象層出不窮[2]。早期在有關(guān)期刊投稿指南的相關(guān)研究中,研究者往往僅給投稿者提出一些主觀的期刊投稿建議,例如“了解認(rèn)識期刊”、“了解同行評審和稿件要求”等[3],這些建議缺乏可執(zhí)行性,在具體操作時(shí)仍不能給予投稿者切實(shí)有效的幫助。隨著,信息共享意識的覺醒以及信息系統(tǒng)的普及應(yīng)用,相關(guān)學(xué)者提出了構(gòu)建期刊投稿網(wǎng)絡(luò)系統(tǒng)的設(shè)想,希望通過多家期刊共同參與,建設(shè)一個(gè)科學(xué)、透明、共享的投稿平臺[2]。對一篇具體的論文而言,文獻(xiàn)篇幅一般較長,故其具有包含大量信息的特殊性。為了有效提取文本的關(guān)鍵信息,在進(jìn)行文本分類時(shí)常選擇對能夠容納一篇論文最為核心信息的題錄信息進(jìn)行處理[4],從而更精準(zhǔn)地概括文獻(xiàn)的內(nèi)外部特征、進(jìn)一步挖掘出期刊收錄偏好特征。綜上,本文希望以圖書館、情報(bào)學(xué)學(xué)科SSCI核心期刊為例,獲取該學(xué)科期刊下十年內(nèi)收錄文獻(xiàn)的題錄信息,挖掘收錄偏好特征相近的期刊進(jìn)行聚類后構(gòu)建層次體系結(jié)構(gòu),然后通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法對該層次分類模型進(jìn)行驗(yàn)證,選擇最優(yōu)的特征組合和分類算法,根據(jù)以上分析結(jié)果考慮將內(nèi)容相似度較高的期刊進(jìn)行合并,從而獲得最佳的期刊投稿推薦意見。

2近期相關(guān)研究

我國對期刊類目劃分的研究呈現(xiàn)兩大明顯的操作路徑:一是基于期刊內(nèi)容的類目劃分[5]。例如,沈立力[6]基于期刊搜索的關(guān)鍵詞將民國期刊分成詩歌、時(shí)政等共五個(gè)類目。二是針對期刊等級進(jìn)行類目劃分[7],這種思路的類目劃分已經(jīng)有十分成熟的理論且被學(xué)者廣泛應(yīng)用于各類期刊等級劃分中,最典型的理論即為布拉德福定律。例如,蘭超英、張凌云[8]以我國旅游學(xué)術(shù)期刊為例通過期刊評價(jià)的各種指標(biāo)找出了期刊合集中對應(yīng)的分級層次。以上提到的期刊類目劃分思路大都基于人工統(tǒng)計(jì)和手動分類,近些年,一些基于機(jī)器和算法的方法才開始不斷涌現(xiàn)[9,10,11]。主流的文本聚類算法包括基于層次的聚類方法和基于劃分的聚類方法。除此之外,還有基于網(wǎng)格[12,13]、密度[14,15]、模型[16]的聚類方法。CURE[17]、ROCK[18]、CHAMELEON[19]是層次聚類中最具代表性的三種算法。層次聚類算法一般適用于小型數(shù)據(jù)集[20],張雅杰[21]、言迎[22]等曾利用層次聚類的方法對連州市和益陽市的土地進(jìn)行劃分。最經(jīng)典的劃分聚類算法當(dāng)屬1967年提出的k-均值(k-means)聚類算法[23],后來大多數(shù)劃分聚類算法都是基于該方法進(jìn)行改進(jìn)。例如k-modes算法[24,25]、一致性保留k-means算法[26]。劃分聚類的方法應(yīng)用得較為廣泛:李洋[27]將k-mean應(yīng)用于對入侵檢測庫和安全級別的構(gòu)建當(dāng)中。邢留偉[28]通過k-means算法進(jìn)行客戶數(shù)據(jù)建模達(dá)到了對客戶進(jìn)行更精準(zhǔn)細(xì)分的目的。眾多學(xué)者將機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法應(yīng)用于文本分類研究,例如在專業(yè)期刊自動分類[29]、門戶網(wǎng)站文本情感分析[30]和新聞文檔的主題分類[31]中都曾得到良好的實(shí)驗(yàn)效果。齊玉東[32]將軍事文本文檔進(jìn)行分類實(shí)驗(yàn),分別利用SVM[33],CNN[34],RNN[35]等機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的算法得到了較高的準(zhǔn)確率,召回率和F1值。汪少敏[36]等對比了傳統(tǒng)機(jī)器學(xué)習(xí)分類算法和深度學(xué)習(xí)分類算法在文本分類中的效果,在進(jìn)行測試的數(shù)據(jù)集上體現(xiàn)出了深度學(xué)習(xí)算法的優(yōu)越性。對以上期刊類目劃分研究的總結(jié)可以窺探出期刊類目劃分逐漸由人工向機(jī)器過渡。但在人工類目劃分標(biāo)準(zhǔn)下,主觀因素難免影響劃分結(jié)果。針對某一研究領(lǐng)域的期刊一般只有該專業(yè)學(xué)者才具有類目劃分的知識儲備,很難形成對多種學(xué)科領(lǐng)域具有全方位指導(dǎo)價(jià)值的方法體系。這時(shí),機(jī)器劃分的優(yōu)勢得以體現(xiàn)。且很多學(xué)者已經(jīng)利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法在多種文本實(shí)驗(yàn)中得到良好的分類結(jié)果;一般情況下隨著文本量和語料豐富程度的增加,深度學(xué)習(xí)常常表現(xiàn)出比機(jī)器學(xué)習(xí)更具優(yōu)勢。在此背景下,本文提出利用機(jī)器方法和深度學(xué)習(xí)方法為期刊論文投稿的多分類問題提供解決方案,同時(shí)也為高水平期刊收錄內(nèi)容的差別化探索提供思路。

3實(shí)驗(yàn)設(shè)計(jì)和優(yōu)化

3.1研究框架。為了構(gòu)建某一學(xué)科下的期刊分類體系,本文設(shè)計(jì)了總體研究框架如圖1所示。本文以圖書館、情報(bào)學(xué)(LibraryandInformationScience,LIS)學(xué)科英文期刊為研究對象,選擇題名(TIss)、關(guān)鍵詞(KWss)、附加關(guān)鍵詞(DEss)與摘要(ABss)四個(gè)字段的信息作為實(shí)驗(yàn)數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理后得到每類期刊的期刊術(shù)語矩陣。采用余弦相似度的計(jì)算公式得到基于期刊題錄信息的層次聚類模型。在此模型基礎(chǔ)上,選取不同特征來源組合的期刊術(shù)語矩陣,按照一定的比例劃分訓(xùn)練集和測試集,分別應(yīng)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)分類算法的進(jìn)行訓(xùn)練并將輸出的結(jié)果與測試集的類別矩陣進(jìn)行比較后得到相應(yīng)的準(zhǔn)確率,進(jìn)而對不同特征來源組合和不同算法下的分類效果進(jìn)行分析,確定最合適的特征組合和分類算法。在得到實(shí)驗(yàn)結(jié)果后,筆者嘗試將分類結(jié)果中的某些易混淆的期刊進(jìn)行組合,再次進(jìn)行準(zhǔn)確率的統(tǒng)計(jì),以期獲得更好的分類效果。3.2數(shù)據(jù)來源與初始化本文數(shù)據(jù)來自WebofScience數(shù)據(jù)庫。檢索范圍為LIS學(xué)科于2014、2015、2016年連續(xù)三年進(jìn)入前三區(qū)的26種期刊(分區(qū)標(biāo)準(zhǔn)參考《中國科學(xué)院文獻(xiàn)情報(bào)中心期刊分區(qū)表》),首先,確定檢索年限為2009-2018年,共得到20297篇文獻(xiàn)的題錄信息,具體信息如表1所示:將以上得到的題錄信息導(dǎo)入文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI[37]中進(jìn)行預(yù)處理后,得到每篇文獻(xiàn)的題名(TIss)、關(guān)鍵詞(KWss)、附加關(guān)鍵詞(DEss)與摘要(ABss)的分詞結(jié)果以及對應(yīng)的來源期刊(SO),最后為每篇文獻(xiàn)進(jìn)行編號后得到其對應(yīng)的六元組信息,以其中的一條記錄為例,詳見表2。構(gòu)建期刊術(shù)語矩陣作為分類算法的輸入,其中期刊術(shù)語矩陣的構(gòu)建方法形如其中,JTM為一個(gè)m*n維的矩陣,Cik和Cjk為術(shù)語權(quán)重值,m為術(shù)語向量的總個(gè)數(shù)(一個(gè)特征術(shù)語向量表示一個(gè)期刊),n為m個(gè)期刊所包含的術(shù)語總量,該矩陣是由<期刊編號,術(shù)語,術(shù)語權(quán)重>三元組轉(zhuǎn)化而來。其中,術(shù)語的選擇范圍為六元組中可以提供的題名、關(guān)鍵詞、附加關(guān)鍵詞與摘要信息的組合,術(shù)語權(quán)重表示方法采用根據(jù)實(shí)驗(yàn)的具體需要進(jìn)行適當(dāng)選擇。3.3方法論(1)聚類算法聚類即通過獲取數(shù)據(jù)不同的特征將其劃分成不同的類別。本質(zhì)就是通過一定的方法,使得同一類數(shù)據(jù)間相似度更高,不同類數(shù)據(jù)間相似度更低[38]。聚類的步驟一般如下:①文本分詞。即將文本分割成有意義的最小單元。②文檔特征表示。即用數(shù)學(xué)表達(dá)式的形式將文檔特征提取出來。③確定聚類模型。3.2小節(jié)提及,將收集到的數(shù)據(jù)。導(dǎo)入文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI中得到相應(yīng)的分詞結(jié)果即可。文檔特征提取的方法一般有兩種思路:基于概率和基于語義的提取方式[39]。由于本文的實(shí)驗(yàn)數(shù)據(jù)是論文題錄信息的分詞結(jié)果,詞與詞之間不存在語義聯(lián)系,故而首先排除基于語義的提取方式。文檔頻率[40,41]、互信息[42,43]、信息增益[44,45]都是常見的基于概率的文檔特征表示方法,但是基于已有研究[35]中互信息傾向于對罕見詞的提取以及信息增益方法操作的繁瑣程度,實(shí)驗(yàn)最終敲定基于文檔頻率的特征提取方式。特征選擇的常見矩陣形式有0-1矩陣、TF-IDF、TFw、詞向量、文本卡方值等。此次實(shí)驗(yàn)中,為了凸顯題名、關(guān)鍵詞、附加關(guān)鍵詞與摘要四種字段對于文檔特征的不同的表征程度,按照題名:關(guān)鍵詞:附加關(guān)鍵詞:摘要=4:2:2:1的權(quán)重構(gòu)造TFw矩陣作為輸入數(shù)據(jù)。在選擇聚類模型時(shí),筆者結(jié)合此次數(shù)據(jù)的特點(diǎn)對第2節(jié)梳理的兩種主流聚類算法進(jìn)行取舍:首先,需要建立的期刊分類模型不需要提前給出具體劃分的類別數(shù)目,不符合劃分聚類算法的前提要求;其次,本次實(shí)驗(yàn)數(shù)據(jù)規(guī)模較小,符合層次聚類算法的適用條件。因此最終選定層次聚類法進(jìn)行實(shí)驗(yàn),進(jìn)行SSCI期刊分類體系結(jié)構(gòu)的構(gòu)建。(2)分類算法分類是指將未標(biāo)明類別的實(shí)驗(yàn)數(shù)據(jù)分類到某一預(yù)定標(biāo)簽的類別中。文本分類的步驟一般如下:①確定分類的類別。②清洗、分詞等工作。③確定文本特征表示方法。④應(yīng)用文本分類模型訓(xùn)練文本分類器。⑤評價(jià)分類器模型并進(jìn)行文本分類。在此次文本分類實(shí)驗(yàn)中,分類的類別已經(jīng)通過聚類算法構(gòu)建的分類模型給出。清洗、分詞的工作同。3.3.1節(jié)文本聚類的處理方法一致。文本特征的表示方法上,選取不同的字段組合作為此次實(shí)驗(yàn)的因變量之一,考慮到實(shí)驗(yàn)的復(fù)雜性,采用這些不同字段組合的0-1矩陣作為文本特征的提取。因此,本文分類實(shí)驗(yàn)中核心的問題就落在“分類模型的選擇”和“分類效果的評價(jià)”上。選擇分類模型時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法有樸素貝葉斯、決策樹、K近鄰、支持向量機(jī)(SVM)等。通過應(yīng)用場景預(yù)判以及前人經(jīng)驗(yàn)支持[15],當(dāng)需要分類的文本具有矩陣稀疏、維度較高的特點(diǎn)時(shí),為了得到更好的分類效果和分類效率,SVM算法識別能力好、訓(xùn)練效率高、穩(wěn)定性強(qiáng)的優(yōu)勢較為明顯,因此本文采用SVM算法進(jìn)行機(jī)器學(xué)習(xí)部分的建模。隨著深度學(xué)習(xí)算法的日漸成熟,例如CNN,RNN等算法在多種數(shù)據(jù)集上都呈現(xiàn)出相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法更明顯的分類優(yōu)勢,因此為了對比機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法在相同數(shù)據(jù)集上的實(shí)驗(yàn)效果,在SVM算法的基礎(chǔ)上,本文嘗試使用CNN,RNN算法進(jìn)行深度學(xué)習(xí)實(shí)驗(yàn)部分的建模。在進(jìn)行分類效果評價(jià)時(shí),需要考慮以下幾個(gè)參數(shù):①TP_num:正例被分為正例的個(gè)數(shù)。②FP_num:負(fù)例被分為正例的個(gè)數(shù)。③FN_num:正例被分為負(fù)例的個(gè)數(shù).④TN_num:負(fù)例被分為負(fù)例的個(gè)數(shù)。定義TP_num+FN_num=P_num,即實(shí)際正例個(gè)數(shù);FP_num+TN_num=N_num即實(shí)際負(fù)例個(gè)數(shù)。

4SSCI期刊分類模型的構(gòu)建

在十年的數(shù)據(jù)中選取2017年的數(shù)據(jù)共計(jì)2141篇文獻(xiàn)的題錄信息在Matlab中進(jìn)行層次聚類后得到以下的層次分類圖,如圖2所示。根據(jù)以上層次聚類效果圖所顯示的聚類結(jié)果,可將26種期刊劃分為六個(gè)期刊分區(qū)分別為C_1、C_2、C_3、C_4、C_5、C_6,每個(gè)期刊分區(qū)中所包含的期刊分別如下表所示。結(jié)合期刊的具體內(nèi)容進(jìn)行得到:①C_1中的期刊主要為計(jì)量學(xué)和圖書館學(xué)領(lǐng)域的期刊。例如,在該分區(qū)下的期刊RE是一本跨學(xué)科的同行評審國際期刊,它的官方介紹中“科學(xué)計(jì)量學(xué)與研究評價(jià)之間存在著密切的關(guān)系”這樣的描述也印證了這一結(jié)論。②C_2中四種期刊都是信息系統(tǒng)領(lǐng)域的專業(yè)期刊。在數(shù)據(jù)爆炸的信息時(shí)代,信息系統(tǒng)的設(shè)計(jì)與研究也發(fā)展成為LIS學(xué)科一個(gè)重要的分支。③C_3中圍繞“信息管理”、“信息處理”、“信息技術(shù)”等出現(xiàn)的關(guān)鍵詞則將這其指向情報(bào)學(xué)這一領(lǐng)域的研究,因?yàn)榍閳?bào)學(xué)自發(fā)展初期就離不開信息管理、處理等環(huán)節(jié)。④C_4中的期刊更偏向計(jì)算機(jī)科學(xué)領(lǐng)域,這一趨勢是伴隨著計(jì)算機(jī)科學(xué)愈發(fā)走向成熟的產(chǎn)物。⑤C_5中的兩種期刊與健康學(xué)、醫(yī)學(xué)的聯(lián)系非常緊密,偏向醫(yī)學(xué)信息學(xué)領(lǐng)域相關(guān)的研究。⑥C_6中的兩種期刊與其他期刊不能聚成一類,故將這兩種期刊分為其他類。

5基于層次分類法的期刊論文自動分類

選取TIss、KWss、DEss、ABss字段表征單篇論文信息的內(nèi)容。由于不同字段對論文的表征程度不同,因此不同組合對于分類的效果會產(chǎn)生不同程度的影響。一般認(rèn)為,TIss字段最能展示論文的核心內(nèi)容,因此被認(rèn)為是表征能力最強(qiáng)的字段。KWss是作者挑選出來作為核心檢索字段的一組詞匯,也具有較強(qiáng)的反映文獻(xiàn)內(nèi)容的能力。DEss是對關(guān)鍵詞的補(bǔ)充,和KWss所具有的表征內(nèi)涵相似。ABss是對文章內(nèi)容的高度概括,文章中出現(xiàn)的核心信息往往能在摘要中得到體現(xiàn)。但當(dāng)摘要以句子的形式呈現(xiàn)時(shí),往往會包含一些非核心詞匯,一定程度上會削弱其對文獻(xiàn)的表征能力[11]。在本文的實(shí)驗(yàn)中,選取以上字段進(jìn)行不同的組合作為分類算法的輸入。實(shí)驗(yàn)分兩層展開,首先進(jìn)行第一層分類,即將每篇論文映射到六種期刊分類(C_1、C_2、C_3、C_4、C_5、C_6)。然后對每一類中的期刊分別第二層的分類,即將每篇論文映射到該區(qū)下對應(yīng)的期刊中。5.1第一層分類實(shí)驗(yàn)在第一層次分類實(shí)驗(yàn)中,先后選取TIss、TIss+KWss、TIss+ABss、TIss+KWss+DEss、TIss+KWss+DEss+ABss五種組合方式進(jìn)行實(shí)驗(yàn),同時(shí)按照3.3節(jié)對分類算法的選擇,先后分別使用SVM,CNN,RNN進(jìn)行分類,對應(yīng)每組實(shí)驗(yàn)的數(shù)據(jù)量如表4所示。(1)對整體Accuracy的分析在以上不同的特征組合和分類算法下進(jìn)行實(shí)驗(yàn)后,統(tǒng)計(jì)每組實(shí)驗(yàn)的準(zhǔn)確率,得到如圖4的結(jié)果:通過上圖正確率的比較可以發(fā)現(xiàn):①隨著語料的增加,即在特征來源的組合變得逐漸復(fù)雜的趨勢下,分類的正確率基本呈現(xiàn)上升趨勢。②特征來源僅為TIss時(shí),SVM的正確率已經(jīng)可達(dá)70%,說明TIss對于文獻(xiàn)的表征能力已經(jīng)十分顯著。然而當(dāng)語料較少時(shí),CNN與RNN的分類效果不是特別理想,這與深度學(xué)習(xí)需要大數(shù)據(jù)量的要求一致。③特征來源分別增加KWss和ABss后,SVM分類的正確率分別提高了6%和3.68%,說明這兩種操作對于SVM分類的效果都呈積極影響,KWss的表征能力優(yōu)于ABss。對比來看,當(dāng)使用CNN與RNN分類時(shí),ABss的表征能力優(yōu)于KWss。④當(dāng)語料增加為TIss+KWss+DEss+ABss時(shí),正確率下降為49%。究其原因:ABss中一些詞的含義并不能十分準(zhǔn)確地表征論文內(nèi)容,有時(shí)甚至?xí)蓴_機(jī)器學(xué)習(xí)時(shí)的判斷能力,因此正確率會急速下降。和SVM分類效果不同,特征來源的組合達(dá)到最復(fù)雜的TIss+KWss+DEss+ABss時(shí),兩種深度學(xué)習(xí)分類算法的效果都達(dá)到最優(yōu),CNN的分類結(jié)果可以達(dá)到80%以上。綜上分析,在使用SVM進(jìn)行分類時(shí),最佳的語料組合方式為TIss+KWss+DEss,在使用深度學(xué)習(xí)算法進(jìn)行分類時(shí),最佳的語料組合方式為TIss+KWss+DEss+ABss。對比兩種深度學(xué)習(xí)算法CNN和RNN的分類效果,在每組實(shí)驗(yàn)中CNN分類效果都優(yōu)于RNN的分類效果,認(rèn)為前者在區(qū)分期刊術(shù)語語料的能力上更強(qiáng)從而更適合此次實(shí)驗(yàn)語料的分類。因此在以下實(shí)驗(yàn)和分析中,在深度學(xué)習(xí)算法部分僅采用CNN算法進(jìn)行實(shí)驗(yàn)并對其結(jié)果進(jìn)行分析。(2)對分類F1值的分析針對特定算法選定最匹配的語料組合后,對第一層的六個(gè)類分別進(jìn)行F1值統(tǒng)計(jì)如下圖所示。在每一類的F1值中,CNN的準(zhǔn)確率都要優(yōu)于SVM的準(zhǔn)確率,這和上文中該層次的整體準(zhǔn)確率對比的結(jié)果相一致。其中兩種分類算法下都是C_3的準(zhǔn)確率最低,分別為63%和59%,C_5的準(zhǔn)確率最高,分別為96%和89%。針對這兩組極值數(shù)據(jù)分析后得到以下兩個(gè)方面的影響因素:①參加實(shí)驗(yàn)的文本數(shù)量的差異:統(tǒng)計(jì)C_3和C_5下參與實(shí)驗(yàn)的文本數(shù)量后發(fā)現(xiàn),C_3的訓(xùn)練和測試文本量相對較少,C_5的訓(xùn)練和測試文本量相對較多。一般認(rèn)為當(dāng)訓(xùn)練樣本充足時(shí),訓(xùn)練效果越好。且由于樣本量不均勻問題存在時(shí),樣本量比例較多的類一般會收獲較高的準(zhǔn)確率。因此,足以證明文本數(shù)量對于分類效果的影響較為明顯。②兩種期刊類別下收錄期刊內(nèi)容的差異:考察C_3下的期刊內(nèi)容發(fā)現(xiàn),其下共8種期刊,都為情報(bào)學(xué)相關(guān)研究,但是每種期刊的研究內(nèi)容各有針對性。例如IP&M的文章大多是情報(bào)學(xué)領(lǐng)域偏向工程性的文章;ONR其收錄的文章偏向情報(bào)學(xué)與社會科學(xué)領(lǐng)域的交叉與應(yīng)用;JOD的文章更多關(guān)注情報(bào)學(xué)傳統(tǒng)的研究領(lǐng)域——文獻(xiàn)學(xué)。故若同一分區(qū)下的期刊各自研究方向存在差別,收集到的題錄信息差異性大,則該類別的內(nèi)聚性相對較低,與其他分區(qū)下的期刊內(nèi)容混淆性較強(qiáng),利用基于相似度計(jì)算的分類算法進(jìn)行分類時(shí)效果相對較差。以同樣的視角觀察C_5,該分區(qū)是LIS學(xué)科下醫(yī)學(xué)信息學(xué)領(lǐng)域,其下僅有兩種期刊:JHC和JAMIA,這兩種期刊從內(nèi)容上主題十分明確。統(tǒng)計(jì)這兩種期刊參與實(shí)驗(yàn)的數(shù)據(jù)中高頻出現(xiàn)的10個(gè)詞分別為:health、record、patient、electron、data、clinic、inform、medic、system、care??梢悦黠@看出,這些單詞能夠輕易表征出醫(yī)學(xué)信息學(xué)研究領(lǐng)域的主題信息,所以可以認(rèn)為該C_5的兩種期刊的內(nèi)聚性很強(qiáng),與其他期刊分區(qū)下的內(nèi)容區(qū)分度較高。綜上,不同分類算法和特征來源的組合可以得到分類效果最佳的搭配。應(yīng)用到具體的場景中,在進(jìn)行論文投稿選擇期刊時(shí),可以將論文先進(jìn)行第一層次的大致劃分,考慮可以將論文投至哪一分區(qū),這樣可以選擇投稿的期刊范圍就可以進(jìn)一步縮小,從而也更具針對性。5.2第二層分類實(shí)驗(yàn)在進(jìn)行第二層分類時(shí),由于26種期刊中都包含的字段只有TIss和ABss,且第一層實(shí)驗(yàn)中驗(yàn)證了TIss+ABss的組合分類效果整體優(yōu)于其他字段組合,因此選擇TIss+ABss的組合進(jìn)行實(shí)驗(yàn)。在算法選擇上,由第一層實(shí)驗(yàn)得出SVM和CNN的準(zhǔn)確率相對較高,因此僅使用這兩種算法進(jìn)行實(shí)驗(yàn)。每一個(gè)期刊分類中參與實(shí)驗(yàn)的數(shù)據(jù)量如表5所示。(1)對整體Accuracy的分析在選定TISS+ABSS該特征組合后分別使用SVM和CNN分類算法進(jìn)行實(shí)驗(yàn)后,統(tǒng)計(jì)每個(gè)期刊分類的準(zhǔn)確率,得到如圖6的結(jié)果:通過上圖正確率的比較可以發(fā)現(xiàn):①第二層實(shí)驗(yàn)的六組實(shí)驗(yàn)中,實(shí)驗(yàn)的正確率明顯下降,其中SVM分類在C_2的實(shí)驗(yàn)數(shù)據(jù)中僅有36.61%,CNN分類的正確率也僅有41.07%。在C_1,C_3,C_4類的分類效果也不甚理想。究其原因,相比于第一層實(shí)驗(yàn)中每次接近6000條數(shù)據(jù)的數(shù)據(jù)量,由于所能獲取的第二層實(shí)驗(yàn)的數(shù)據(jù)量有限,直接導(dǎo)致算法學(xué)習(xí)得不夠充分,從而間接導(dǎo)致測試正確率不高。②在數(shù)據(jù)量一致的前提下六個(gè)期刊類別的實(shí)驗(yàn)結(jié)果表明,CNN算法相比于SVM算法的優(yōu)越性仍然明顯。說明盡管本期刊題錄語料不能充分訓(xùn)練的小樣本集上,深度學(xué)習(xí)仍具有機(jī)器學(xué)習(xí)算法未能超越的優(yōu)勢。③獲得更高正確率的兩個(gè)期刊分區(qū)C_5,C_6除了擁有相對更豐富的語料這一特征外,該類別下的期刊種類相比于其他類更少,僅僅有兩種期刊,這與分類算法在二分類上的分類效果優(yōu)于多分類的特性相符合。(2)對分類F1值的分析對第二層實(shí)驗(yàn)中六個(gè)期刊分區(qū)下屬共計(jì)26種期刊分別使用SVM和CNN算法分類的F1值進(jìn)行統(tǒng)計(jì)后繪制下圖。由于分類實(shí)驗(yàn)已經(jīng)深入第二層,相比第一層期刊分區(qū)的分類實(shí)驗(yàn)結(jié)果這一層的準(zhǔn)確性明顯下降。通過對六個(gè)期刊分區(qū)分別觀察并對比后發(fā)現(xiàn):①在不同的期刊分區(qū)中,下屬的期刊數(shù)不同則得到的實(shí)驗(yàn)準(zhǔn)確率也有相應(yīng)差別。C_1、C_3分區(qū)下期刊較多,因此每一種期刊參加訓(xùn)練的數(shù)據(jù)量相對較少,可以很明顯地觀察到有些期刊的分類準(zhǔn)確率較低。由于C_5、C_6分區(qū)下僅包含兩種期刊,其準(zhǔn)確率都達(dá)到了85%以上。②觀察以上六圖,SVM分類算法和CNN分類算法的優(yōu)劣對比明顯,在絕大多數(shù)的情況下,CNN算法都比SVM算法更適合于此次實(shí)驗(yàn)的分類模型。5.3分類結(jié)果的優(yōu)化在得到第二層次分類實(shí)驗(yàn)中直接對應(yīng)到單個(gè)期刊的分類結(jié)果后,聯(lián)系實(shí)際期刊投稿的應(yīng)用場景:在進(jìn)行投稿時(shí),不單給投稿者某一個(gè)特定期刊的投稿意見,而是給出推薦準(zhǔn)確率排名前幾位的期刊,投稿投中的準(zhǔn)確率往往會大幅提升。因此考慮對分類結(jié)果中錯(cuò)誤分類期刊比例進(jìn)行統(tǒng)計(jì)分析,將某一類期刊下最易混淆的某幾種期刊進(jìn)行組合,即將期刊收錄內(nèi)容相近的幾種期刊同時(shí)視為可以投稿的對象后觀察分類準(zhǔn)確率的提升效果。本文僅以第二層次分類實(shí)驗(yàn)中CNN分類結(jié)果下C_1的六種期刊為例,其他五個(gè)分區(qū)可參考其優(yōu)化思路。調(diào)查這六種期刊的錯(cuò)分情況如表6所示,已知CNN算法對該期刊分區(qū)的分類整體正確率為66.07%。以80%為閾值,將分類錯(cuò)誤數(shù)占該類錯(cuò)誤總數(shù)比例超過該閾值的類別進(jìn)行組合。按照這一規(guī)則,進(jìn)行如下幾組實(shí)驗(yàn):觀察上圖發(fā)現(xiàn),將期刊進(jìn)行組合后,每一種組合的分類準(zhǔn)確率都得到了一定的提升,提升最為明顯的是實(shí)驗(yàn)A+D,分類準(zhǔn)確率提升至90.31%。應(yīng)用到具體場景中,在提供期刊投稿意見時(shí),若該篇文章被劃分至C_1,首先進(jìn)行分類算法的應(yīng)用,若該文章的研究主題更接近期刊C&RL或期刊JAL,可以同時(shí)推薦期刊C&RL和JAL給該投稿人,同理若該文章的研究主題更接近期刊JOI、RE和SCIM中的一種,可同時(shí)推薦期刊JOI、RE和SCIM作為目標(biāo)投稿期刊。據(jù)此思路優(yōu)化后得到的C_1期刊分區(qū)新的層次體系如圖9所示。按照同樣的方法也可將其他期刊分區(qū)進(jìn)行優(yōu)化。綜上分析,針對每一期刊分區(qū)下的已有的分類體系上,在保證準(zhǔn)確率的前提下,可以將最易錯(cuò)分的特定期刊作為一個(gè)推薦組合,建議投稿人向多個(gè)期刊投稿。這樣既能保證推薦結(jié)果的準(zhǔn)確性又能保證針對性。

6結(jié)語

本文以LIS學(xué)科領(lǐng)域26種SSCI核心期刊為研究對象,進(jìn)行面向期刊選擇的學(xué)術(shù)論文分類研究。核心步驟是收集這26種期刊下十年內(nèi)收錄文獻(xiàn)的題錄信息,選擇其中一年的數(shù)據(jù),使用層次聚類進(jìn)行層次模型的構(gòu)建。在此基礎(chǔ)上使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的分類算法對十年的數(shù)據(jù)進(jìn)行分類。結(jié)果表明:①特征來源的多元化和數(shù)據(jù)規(guī)模的擴(kuò)大可以增加語料的豐富程度,從而在一定程度上可以提高分類的準(zhǔn)確性。在期刊分區(qū)數(shù)據(jù)量接近的情況下,期刊數(shù)目的增加對于分類的效果呈消極作用。②在語料充足、數(shù)據(jù)量一致的條件下,深度學(xué)習(xí)算法體現(xiàn)出相比于機(jī)器學(xué)習(xí)算法的優(yōu)越性,符合深度學(xué)習(xí)算法適用于較大數(shù)據(jù)運(yùn)算量的特性。③將內(nèi)容相近的期刊進(jìn)行組合后有利于分類準(zhǔn)確程度的提升。當(dāng)然,本研究仍然存在以下不足之處:本文的數(shù)據(jù)僅僅是WebofScience數(shù)據(jù)庫中26種核心英文期刊十年內(nèi)的數(shù)據(jù),在進(jìn)行聚類時(shí)也僅使用了2017年一年的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),數(shù)據(jù)量的局限性可能會導(dǎo)致聚類、分類結(jié)果出現(xiàn)一定的偏差。關(guān)于以上提到的不足,在后續(xù)的研究中需要對此進(jìn)一步優(yōu)化。例如可以通過擴(kuò)大時(shí)間跨度來獲取更多的題錄信息進(jìn)行實(shí)驗(yàn),則本研究的內(nèi)容將更加科學(xué)合理。

作者:王鑫蕓 王昊 鄧三鴻 張寶隆 單位:1.南京大學(xué)信息管理學(xué)院 2.江蘇省數(shù)據(jù)工程與知識服務(wù)重點(diǎn)實(shí)驗(yàn)室