檔案個性化檢索論文
時間:2022-05-21 06:02:00
導語:檔案個性化檢索論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
編者按:本文主要從個性化信息檢索與服務;用戶建模技術(shù);用戶模型的建立;用戶模型設(shè)計進行論述。其中,主要包括:目前的檔案檢索系統(tǒng)一般以傳統(tǒng)的關(guān)鍵詞檢索為主、在個性化檢索中,檢索條目與用戶查詢經(jīng)歷有關(guān)、個性化信息服務是既能對用戶提出的要求提供最貼切的信息服務、對用戶的興趣、習慣、歷史行為等方面進行分析從而獲取其個性化信息、傳統(tǒng)的檢索流程變更為帶著用戶個性需求查找的過程、用戶信息對用戶模型的性能是至關(guān)重要的、根據(jù)用戶瀏覽行為的自動用戶建模方法構(gòu)建出來的用戶模型只能反映用戶感興趣或不感興趣的信息等,具體請詳見。
論文摘要:本文說明了個性化檢索技術(shù)的發(fā)展,分析了個性化檢索的內(nèi)涵和特點,提出了用戶興趣模型的建立與更新的方法。個性化信息檢索是指根據(jù)用戶的興趣和特點進行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。
論文關(guān)鍵詞:個性化信息檢索用戶模型
目前的檔案檢索系統(tǒng)一般以傳統(tǒng)的關(guān)鍵詞檢索為主,這種檢索方式雖然可以在一定程度上滿足用戶的需求,但是由于檢索方式的限制,這種檢索的結(jié)果僅僅是與檢索詞字面意義或某層含義相匹配,對于用戶所需要的其他的概念和相關(guān)的成分就無能為力了。因此個性化檢索就成為解決這一問題的有效途徑。個性化的實質(zhì)是針對性,即對不同的用戶采取不同的服務策略,提供不同的服務內(nèi)容。
一、個性化信息檢索與服務
個性化信息是能夠滿足用戶個性需求的信息。個性化信息檢索是指根據(jù)用戶的興趣和特點進行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。它是一種能體現(xiàn)用戶個性化特征,滿足個性化需求,培養(yǎng)個性化趨勢的檢索方法。在個性化檢索中,檢索條目與用戶查詢經(jīng)歷有關(guān),既可以是內(nèi)容檢索,又可利用與其它事件的關(guān)系來檢索,即是以用戶檢索行為為中心的檢索。這也是個性化檢索與一般文檔檢索的區(qū)別[1]。
個性化信息服務是既能對用戶提出的要求提供最貼切的信息服務,還能依據(jù)個體個性特征,主動收集個體可能感興趣的信息,甚至預測個體可能的個性發(fā)展,提前收集相應的信息,最后以個性化方式顯示給個體。這里包括兩方面內(nèi)容:個性化信息和個性化服務。個性化信息是反映個體個性特征的一切信息,同時還包括個體特定的信息需求組合。個性化服務包括服務時空的個性化,服務方式的個性化和服務內(nèi)容的個性化[3]。對于這些個性化服務首先要建立對用戶的描述,然后才能據(jù)此提供針對不同用戶的個性化服務。用戶模型是個性化服務的基礎(chǔ)和核心[4]。用戶模型作為個性化服務的基礎(chǔ)和核心,因此用戶模型的質(zhì)量直接關(guān)系到個性化服務的質(zhì)量。只有當用戶的興趣、偏好和訪問模式等用戶信息可以很好地被系統(tǒng)“理解”時,才有可能實現(xiàn)理想的個性化服務。從用戶信息中構(gòu)建用戶模型,也就成為了個性化服務的核心和關(guān)鍵技術(shù)之一。
個性化服務系統(tǒng)中的用戶模型不是對用戶個體的一般性描述,而是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶描述。相應的,用戶建模是指從有關(guān)用戶興趣和行為的信息,如瀏覽內(nèi)容、瀏覽行為、背景知識等,歸納出可計算的用戶模型的過程[5]。
二、用戶建模技術(shù)
為不同的用戶提供有針對性的服務,需要對用戶的興趣、習慣、歷史行為等方面進行分析從而獲取其個性化信息。對用戶信息進行結(jié)構(gòu)化描述,構(gòu)建反映用戶特點的需求模型,這一過程稱為用戶建模。用戶建模是實現(xiàn)個性化檢索服務的基礎(chǔ)和核心[6]。
不同的用戶各自面臨著互不相同的檢索問題,不加區(qū)分地給不同的用戶提供相同的結(jié)果,必然滿足不了用戶的檢索需求。要提高用戶的滿意度,就要把握用戶的特點,建立用戶模型,對用戶的信息、興趣及歷史查詢行為進行管理,對不同用戶進行不同的學習,這樣就可以針對特定用戶提供準確的信息。為用戶建模可以有效解決不同用戶對相同提問信息的不同深度和廣度的要求,在加入用戶模型之后,傳統(tǒng)的檢索流程變更為帶著用戶個性需求查找的過程,同時反饋流程也將針對用戶的意見進行,以提供更加準確的檢索服務。通過建立用戶模型,可以管理用戶的背景信息,在查詢一些跨領(lǐng)域信息的提問時,考慮用戶背景信息,有助于更加針對性地提供用戶真正關(guān)心的信息。通過用戶模型對用戶興趣進行描述,同時記錄用戶的查詢行為,對用戶的查詢歷史和興趣進行管理。
一般來說,用戶訪問Internet的過程共包括以下六種信息:
(l)用戶使用搜索引擎查詢時輸入的關(guān)鍵詞;
(2)用戶維護的書簽(Bookmark);
(3)用戶瀏覽的頁面;
(4)用戶瀏覽的行為,包括用戶在每個頁面上的駐留時間,對每個頁面進行的操作(如保存、打印頁面、將頁面存入書簽等),鼠標和鍵盤的操作及用戶瀏覽網(wǎng)頁時眼睛的移動、表情的變化等;
(5)用戶下載、保存的頁面和資料等;
(6)用戶手工輸入的其他信息。
從理論上說,以上六種信息都可作為用戶建模的信息來源,但用戶信息對用戶模型的性能是至關(guān)重要的,因此在建模時要慎重選擇。以下是對這六種信息的分析。
用戶輸入搜索引擎的查詢關(guān)鍵詞雖可反映用戶的興趣,但它卻不適合單獨用于用戶建模,因為用戶查詢的關(guān)鍵詞一般都比較簡單,無法來描述用戶的興趣,查詢關(guān)鍵詞是用戶檢索信息的起點,但不是檢索信息的全部,因此查詢關(guān)鍵詞對用戶興趣與意圖的反映并不全面。
書簽(Bookmark)能較好地反映用戶的興趣,這是因為,用戶會把感興趣的或重要的頁面保存在書簽(Bookmark)中,但是相對于用戶瀏覽的頁面來說,書簽(Bookmark)中的頁面數(shù)是相當少的,并且用戶并不一定會把自己感興趣的都保存在書簽(Bookmark)中,因此書簽(Bookmark)構(gòu)建的用戶模型也不能夠全面地反映用戶的興趣。
用戶瀏覽的頁面可以全面地反映用戶的興趣,用戶瀏覽的頁面由系統(tǒng)自動保存,可實現(xiàn)自動用戶建模。缺點是用戶瀏覽的頁面中可能包含用戶不感興趣的頁面,因此在使用用戶瀏覽頁面內(nèi)容構(gòu)建用戶模型時應避開噪聲頁面。
用戶瀏覽行為可以反映用戶的興趣,如用戶保存某個頁面,或者在某個頁面上駐留的時間較長,說明用戶對該頁面感興趣。但在建模時由于瀏覽行為對用戶興趣的體現(xiàn)需要以瀏覽頁面為載體,因此用戶的瀏覽行為必須與瀏覽頁面相結(jié)合才能構(gòu)建用戶模型。
用戶下載、保存的頁面資料等也能較好地反映用戶的興趣,因為只有用戶認為感興趣或重要的文檔,用戶才會下載和保存,這些經(jīng)用戶保存、整理的文檔能夠反映用戶長期關(guān)注的主題,這種信息為用戶的背景知識。
用戶手工輸入的有關(guān)用戶興趣特點的信息也可作為用戶建模的數(shù)據(jù)來源之一,如用戶感興趣主體的關(guān)鍵詞、對瀏覽頁面的感興趣程度等,在自動用戶建模技術(shù)尚不成熟的情況下,用戶手工輸入的信息是用戶建模的重要來源。
綜上所述,在以上六種信息來源中,用戶瀏覽的頁面和瀏覽行為最能全面地反映用戶的興趣;用戶的Bookmark和保存整理的文檔雖不能全面地反映用戶的興趣,但能很好地反映用戶關(guān)注的信息;用戶輸入搜索引擎的查詢關(guān)鍵詞不宜單獨用于用戶建模。
一般常用的用戶建模是指根據(jù)用戶的瀏覽內(nèi)容和瀏覽行為自動構(gòu)建用戶模型、建模時無需用戶主動提供信息的一種建模方法。根據(jù)用戶瀏覽行為的自動用戶建模方法構(gòu)建出來的用戶模型只能反映用戶感興趣或不感興趣的信息,得不到用戶具體感興趣的主題,其實質(zhì)是一種粗興趣粒度用戶模型。另一種自動用戶建模的思路是根據(jù)用戶瀏覽的內(nèi)容進行興趣聚類,找出用戶的興趣,構(gòu)建用戶模型。通過興趣聚類可以得到用戶模型的細興趣粒度表示。在現(xiàn)有的用戶建模方法中,用戶的瀏覽行為僅能得到用戶對相應信息感興趣與否的推斷,得不到用戶感興趣的程度,而用戶對相應信息的感興趣程度有助于得到用戶對關(guān)鍵詞和興趣主題的感興趣程度,從而建立更為詳細、準確的用戶模型,也有利于實現(xiàn)高性能的用戶模型的遺忘與更新,提供更高質(zhì)量的個性化服務。
三、用戶模型的建立
在信息檢索系統(tǒng)中,一個用戶模型的建立過程涉及到以下內(nèi)容:
(1)用戶興趣的表示:就是以何種形式來表征用戶的興趣。為了便于進行信息匹配算法,用戶的興趣通常與資源表示具有同樣或相似的形式。其次,一個用戶可能有多個興趣可能同時存在,那么就需要在模型中將多個興趣同時表達出來。
(2)用戶模型的更新:就是采用何種算法更新用戶模型。在信息檢索系統(tǒng)中,就是如何根據(jù)用戶的反饋信息更新用戶的興趣。
(3)信息過濾算法:就是如何根據(jù)用戶模型對未過濾的信息進行匹配,判斷是否符合用戶需求的算法。過濾算法與資源表示、用戶興趣的表示密切相關(guān)。
用戶興趣模型是指對于用戶感興趣的信息的可計算描述,是所有其它智能化功能的基礎(chǔ)。一般用戶興趣模型采用詞頻法,其中的用戶興趣用二元組表示(興趣詞條、興趣權(quán)重),在詞頻中考慮到各個詞條在文檔中的不同位置,體現(xiàn)了詞條的不同重要度;以及各文檔在網(wǎng)頁超鏈關(guān)系中引用與被引用情況,又體現(xiàn)了文檔的不同重要度等因素。
用戶興趣的生成與更新算法是整個用戶興趣模型的核心內(nèi)容。假設(shè)用戶輸入的檢索詞條經(jīng)過詞干提取(對中文還有詞條切分)等預處理技術(shù)之后為q(q1,q2,…,qk),在初次檢索之后,返回一些查詢結(jié)果,得到一組頁面D(d1,d2,…dn)。首先計算詞條qi的權(quán)值wi,我們采用詞頻法,即計算詞條qi在文本D(d1,d2,…dn)中出現(xiàn)的頻度sij,j=1,2,…n,這些頻度的總和來作為詞條的權(quán)重,即wi=,這樣我們就得到兩個向量q(q1,q2,…,qk)和w(w1,w2,…wk),將興趣二元組(q,w)加入到用戶詞典中。用戶詞典是由詞條和權(quán)重組成的二元組的集合。
四、用戶模型設(shè)計
基于用戶模型設(shè)計的信息檢索系統(tǒng)與一般的信息檢索系統(tǒng)的最大區(qū)別在于對從用戶界面接收的用戶查詢,將首先利用用戶模型予以分析,同時結(jié)果的匹配、過濾也需要基于用戶模型進行。通過學習機制以及推理機制,一方面學習了用戶在信息需求上的偏好,另一方面,也可以對用戶需求進行推導、歸納。
【參考文獻】
[1]趙靜.個性化信息檢索及功能模型.圖書與情報,2004(l).
[2]應曉敏等一種面向個性化服務的無需反例集的用戶建模方法.國防科技大學學報,2002(3):67-71
[3]杜春光.個性化信息服務的模式研究及策略分析[J].國家圖書館學刊,2005;(2):63-66..
[4]張玉峰等.基于Agent的個性化信息服務模型研究[J].情報學報,2001,20(5):555-559.