關(guān)鍵詞組合研究論文

時(shí)間:2022-03-04 08:23:00

導(dǎo)語(yǔ):關(guān)鍵詞組合研究論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

關(guān)鍵詞組合研究論文

近年來(lái),以文本格式存儲(chǔ)的海量信息出現(xiàn)在Internet、數(shù)字化圖書館及公司的Intranet上,如何從這些浩瀚的文本中發(fā)現(xiàn)有價(jià)值的信息是信息處理領(lǐng)域的重要目標(biāo),而文本自動(dòng)分類系統(tǒng)能夠在給定的分類模型下,根據(jù)文本的內(nèi)容自動(dòng)對(duì)文本分門別類,從而更好地幫助人們組織及挖掘文本信息,因此得到日益廣泛的關(guān)注,成為信息處理領(lǐng)域最重要的研究方向之一。

一、自動(dòng)分類的種類和作用

自動(dòng)分類就是用計(jì)算機(jī)系統(tǒng)代替人工對(duì)文獻(xiàn)等對(duì)象進(jìn)行分類,一般包括自動(dòng)聚類和自動(dòng)歸類。自動(dòng)聚類和自動(dòng)歸類的主要區(qū)別就是自動(dòng)聚類不需要事先定義好分類體系,而自動(dòng)歸類則需要確定好類別體系,并且要為每個(gè)類別提供一批預(yù)先分好的對(duì)象作為訓(xùn)練文集,分類系統(tǒng)先通過訓(xùn)練文集學(xué)習(xí)分類知識(shí),在實(shí)際分類時(shí),再根據(jù)學(xué)習(xí)到的分類知識(shí)為需要分類的文獻(xiàn)確定一個(gè)或者多個(gè)類別。本文中所指的自動(dòng)分類是指對(duì)網(wǎng)頁(yè)的自動(dòng)分類,包括網(wǎng)頁(yè)的自動(dòng)歸類和自動(dòng)聚類。

目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關(guān)鍵詞檢索。分類瀏覽一般是基于網(wǎng)站分類目錄。關(guān)鍵詞檢索的對(duì)象不是網(wǎng)站,而是符合條件的網(wǎng)頁(yè)。關(guān)鍵詞檢索信息量大、更新及時(shí)、不需要人工干預(yù)。

二、問題描述

1.系統(tǒng)任務(wù)

簡(jiǎn)單地說(shuō),文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來(lái)看,文本分類是一個(gè)映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。用數(shù)學(xué)公式表示如下:

文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時(shí),根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。

2.評(píng)估方法

我們使用評(píng)估文本分類系統(tǒng)的兩個(gè)指標(biāo):準(zhǔn)確率和查全率。準(zhǔn)確率是所有判斷的文本中與人工分類結(jié)果吻合的文本所占的比率。其數(shù)學(xué)公式表示如下:

;查全率是人工分類結(jié)果應(yīng)有的文本中分類系統(tǒng)吻合的文本所占的比率,其數(shù)學(xué)公式表示如下:

;準(zhǔn)確率和查全率反映了分類質(zhì)量的兩個(gè)不同方面,兩者必須綜合考慮,不可偏廢。

3.詞語(yǔ)向量空間模型的文本表示

目前,在信息處理方向上,文本的表示主要采用向量空間模型(VSM)。向量空間模型的基本思想是以向量來(lái)表示文本:(W1,W2,W3……Wn),其中Wi為第i個(gè)特征項(xiàng)的權(quán)重,那么選取什么作為特征項(xiàng)呢,一般可以選擇字、詞或詞組,根據(jù)實(shí)驗(yàn)結(jié)果,普遍認(rèn)為選取詞作為特征項(xiàng)要優(yōu)于字和詞組,因此,要將文本表示為向量空間中的一個(gè)向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來(lái)表示文本。詞頻分為絕對(duì)詞頻和相對(duì)詞頻,絕對(duì)詞頻,即使用詞在文本中出現(xiàn)的頻率表示文本,相對(duì)詞頻為歸一化的詞頻,其計(jì)算方法主要運(yùn)用TF~I(xiàn)DF公式,目前存在多種TF~I(xiàn)DF公式,一種比較普遍的TF~I(xiàn)DF公式為:;其中,為詞t在文本中的權(quán)重,而為詞t在文本中的詞頻,N為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。

4.詞語(yǔ)向量空間模型的訓(xùn)練方法和分類算法

訓(xùn)練方法和分類算法是分類系統(tǒng)的核心部分,目前存在多種基于向量空間模型的訓(xùn)練算法和分類算法,例如,支持向量機(jī)算法、神經(jīng)網(wǎng)絡(luò)方法,最大平均熵方法,最近K鄰居方法和貝葉斯方法等等。一般相似度定義公式為:;其中,di,dj為不同的文本,M為特征向量的維數(shù),Wk為向量的第K維。

三、關(guān)鍵詞組合向量空間的文本表示模型

關(guān)鍵詞組合是大多數(shù)搜索引擎使用的查詢語(yǔ)言。我們這里定義的關(guān)鍵詞組合(Keywordexpression)為:

Keywordexpression=keyword[andkeyword]*

例如keywordexpression=“大?!盿nd“海鷗”表示如果文本中同時(shí)出現(xiàn)“大海”和“海鷗”,則這個(gè)文檔滿足關(guān)鍵詞表達(dá)式。

定義P為可能關(guān)注的關(guān)鍵詞集合為P,|P|為關(guān)鍵詞的個(gè)數(shù)。對(duì)于一般的分類系統(tǒng)|P|一般為10萬(wàn)左右。Pi為其中的一個(gè)關(guān)鍵詞。關(guān)鍵詞可以是一個(gè)有穩(wěn)定的詞語(yǔ)也可以是一個(gè)短語(yǔ)。

定義E表示可能關(guān)注的關(guān)鍵詞集合。|P|為關(guān)鍵詞組合的個(gè)數(shù).Ei是其中的一個(gè)組合。同時(shí)保證出現(xiàn)在Ei的關(guān)鍵詞一定在P中。定義D表示全部文檔集合。|D|為的文檔個(gè)數(shù).是其中的一個(gè)文檔。定義l表示一個(gè)表達(dá)式必須出現(xiàn)在多少連續(xù)的句子中。一般定義為3個(gè)句子。則定義文檔當(dāng)且僅當(dāng)在文本dk..k+l中出現(xiàn)了關(guān)鍵詞組合e的全部關(guān)鍵詞。定義。則表示表達(dá)式出現(xiàn)在文檔的中的頻率。類似向量空間模型,我們定義表達(dá)式的權(quán)重:

;其中,為詞e在文本中的權(quán)重,N為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。

同理我們可以定義文本的相似度:;其中,di,dj為不同的文本,M為特征向量的維數(shù),Wk為向量的第K維。計(jì)算由于對(duì)于存在的多關(guān)鍵詞匹配算法,所以對(duì)關(guān)鍵詞集合P可以在計(jì)算出關(guān)鍵詞序列Q。使用自動(dòng)機(jī)算法可以在O(|Q|)時(shí)間內(nèi)計(jì)算出全部出現(xiàn)的關(guān)鍵詞集合。

四、特征詞的提取

使用特征詞的向量空間來(lái)表示文檔時(shí),直接使用構(gòu)成文檔的詞條作為向量空間的維度,會(huì)使相應(yīng)的詞條向量矩陣非常稀疏和巨大,而且存在著大量對(duì)文檔的描述和區(qū)分不相關(guān)或影響很小的詞條維度,這會(huì)造成對(duì)文檔語(yǔ)義描述的混淆和模糊。為了提高分類算法的效率和準(zhǔn)確度,有必要對(duì)構(gòu)成文檔的詞條進(jìn)行特征詞的提取和篩選,即對(duì)詞條向量空間進(jìn)行降維處理。

特征詞提取有多種算法,大致可分為兩種:一種是在現(xiàn)有的詞條中從統(tǒng)計(jì)的角度選擇對(duì)文檔語(yǔ)義表達(dá)較好的詞條,如IG(InformationGain),DF(DocumentFrequency),χ2-statistic等特征詞選取算法;還有一種是從現(xiàn)有詞條中抽提和構(gòu)造可以表達(dá)文檔的隱含語(yǔ)義的特征,作為向量空間的維度,如隱含語(yǔ)義檢索(LatentSemanticIndexing,LSI)。LSI的核心操作是對(duì)詞條文檔矩陣進(jìn)行截?cái)嗟腟VD(SingularValueDecomposition)分解,從而可以得到原詞條文檔矩陣在最小二乘意義上的最好近似。LSI可以在降維的同時(shí),抽取文檔的隱含語(yǔ)義,使得生成的文檔向量可以較好地表達(dá)文檔的語(yǔ)義。詞條的權(quán)重算法對(duì)LSI的效果有一定的影響,據(jù)分析,聯(lián)合使用平方根對(duì)數(shù)(Squareroot-Log,局部權(quán)重)-熵(Entropy,全局權(quán)重)-余弦標(biāo)準(zhǔn)化(Cosinenormalization,歸一化參數(shù))來(lái)計(jì)算詞條權(quán)重的效果比較好。