議搜索引擎按其工作方式不同的三種分類(lèi)及其各自的特點(diǎn)探析

時(shí)間:2022-03-31 10:25:00

導(dǎo)語(yǔ):議搜索引擎按其工作方式不同的三種分類(lèi)及其各自的特點(diǎn)探析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

議搜索引擎按其工作方式不同的三種分類(lèi)及其各自的特點(diǎn)探析

[摘要]隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)的迅速普及,搜索引擎在網(wǎng)絡(luò)用戶的生活中扮演著越來(lái)越重要的地位,本文就爬蟲(chóng)式的搜索引擎、目錄搜索引擎和元搜索引擎做了詳盡的分析比較,并對(duì)目前的搜索引擎的特點(diǎn)進(jìn)行了描述。

[關(guān)鍵詞]搜索引擎分類(lèi)爬蟲(chóng)元搜索引擎

目前Internet上的搜索引擎按其工作方式主要可分為三種,分別是爬蟲(chóng)式的搜索引擎(SpiderBasedSearchEngine),目錄搜索引擎(SearchDirectory)和元搜索引擎(MetaSearchEngine)。

一、爬蟲(chóng)式的搜索引擎

基于爬蟲(chóng)(也叫Spider)的搜索引擎利用一個(gè)稱(chēng)為Spider的程序自動(dòng)訪問(wèn)Web站點(diǎn),提取站點(diǎn)上的網(wǎng)頁(yè),并根據(jù)網(wǎng)頁(yè)中的鏈接進(jìn)一步提取其它網(wǎng)頁(yè)或轉(zhuǎn)移到其它站點(diǎn)上。Robot搜集的網(wǎng)頁(yè)被加入到搜索引擎的數(shù)據(jù)庫(kù)中供用戶查詢(xún)使用。基于Spider的搜索引擎山三個(gè)主要部分構(gòu)成Spider,Index和搜索軟件。爬蟲(chóng)從一個(gè)事先制定好的URLs列表出發(fā),這個(gè)列表中的URLs通常是從以往訪問(wèn)記錄中提取出來(lái)的,特別是一些熱門(mén)站點(diǎn)和“What''''sNew”網(wǎng)頁(yè),從Usenet等地方檢索得到的URLs也常被用作起始URLs,很多搜索引擎還接受用戶提交的URLs,這些URLs也會(huì)被安排在列表中供爬蟲(chóng)問(wèn)列表中,如此遞歸地訪問(wèn)Web。

爬蟲(chóng)作為一個(gè)程序,可以用C,Perl,Java等語(yǔ)言來(lái)編寫(xiě),可以運(yùn)行在Unix,Solaris,Windows,NT,OS2和MAC等平臺(tái)上。爬蟲(chóng)設(shè)計(jì)是否合理將直接影響它訪問(wèn)Web的效率,影響搜索數(shù)據(jù)庫(kù)的質(zhì)量,另外在設(shè)計(jì)爬蟲(chóng)時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪問(wèn)站點(diǎn)的影響,因?yàn)榕老x(chóng)一般都運(yùn)行在速度快,帶寬高的主機(jī)上,如果它快速訪問(wèn)一個(gè)速度比較慢的目標(biāo)站點(diǎn),就有可能會(huì)導(dǎo)致該站點(diǎn)出現(xiàn)阻塞甚至當(dāng)機(jī)。Robot還應(yīng)遵守一些協(xié)議,以便被訪問(wèn)站點(diǎn)的管理員能夠確定哪些內(nèi)容能被訪問(wèn),哪些不能。Index是一個(gè)龐大的數(shù)據(jù)庫(kù),爬蟲(chóng)提取的網(wǎng)頁(yè)將被放入到Index中以便建立索引,不同的搜索引擎會(huì)采取不同方式來(lái)建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或其它小可見(jiàn)的特殊標(biāo)記。當(dāng)用戶查詢(xún)一個(gè)關(guān)鍵詞時(shí),搜索軟件將搜索Index,找出所有與關(guān)鍵詞相符合的網(wǎng)頁(yè),有時(shí)候這些網(wǎng)頁(yè)可能有成千上萬(wàn),等級(jí)值的用途就是作為一種排序的依據(jù),搜索軟件將按照等級(jí)值從高到低的順序把搜索結(jié)果送回到用戶的瀏覽器中。

這類(lèi)搜索引擎因?yàn)橐揽砍绦蛩鸭瘮?shù)據(jù),所以其數(shù)據(jù)庫(kù)相當(dāng)龐大,搜索的結(jié)果查全率較高,但查準(zhǔn)率較低。例如著名的搜索引擎Google,Baidu,A1taVista,InfoSeek等。

二、目錄搜索引擎

目錄搜索引擎的數(shù)據(jù)庫(kù)是依靠專(zhuān)職編輯或志愿人員建立起來(lái)的,這些編輯人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫(xiě)一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類(lèi)別,把站點(diǎn)的URL和描述放在這個(gè)類(lèi)別中,當(dāng)用戶查詢(xún)某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類(lèi)別中。目錄的結(jié)構(gòu)為樹(shù)形結(jié)構(gòu),首頁(yè)提供了最基本的幾個(gè)大類(lèi)的入口,用戶可以一級(jí)一級(jí)地向下訪問(wèn),直至找到自己感興趣的類(lèi)別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。不過(guò),由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中進(jìn)行搜索,因此站點(diǎn)本身的動(dòng)態(tài)變化不會(huì)反映到搜索結(jié)果中來(lái),這也是目錄式搜索引擎與基于Robot的搜索引擎之間的一大區(qū)別。

三、元搜索引擎

元搜索引擎也叫做MultipleSearchEngine,元搜索引擎在接受用戶查詢(xún)請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,將結(jié)果進(jìn)行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。它的特點(diǎn)是本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)。嚴(yán)格意義上來(lái)講,元搜索引擎只能算是一種用戶,而不是真正的搜索引擎。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,因此最后結(jié)果的數(shù)量可能會(huì)遠(yuǎn)少于直接在一個(gè)搜索引擎上進(jìn)行查找所得到的數(shù)量。

元搜索引擎實(shí)現(xiàn)起比較簡(jiǎn)單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問(wèn)少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢(xún)時(shí)也常''''常會(huì)出現(xiàn)錯(cuò)誤。著名的元搜索引擎有InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表)。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

在這幾中檢索工具中,目錄式搜索引擎雖有成本高,信息t少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)是另二者所無(wú)法比擬的,故在一定的領(lǐng)域,一定的時(shí)間,它仍會(huì)被使用:機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流;但隨著網(wǎng)絡(luò)信息量的不斷增加,單一的搜索引擎已經(jīng)難已滿足其要求,結(jié)合目錄式搜索引擎,機(jī)器人搜索引擎的優(yōu)勢(shì),以元搜索引擎核心的多層搜索引擎是搜索引擎的發(fā)展方向。

搜索引擎技術(shù)從出現(xiàn)至今已獲得了飛速的發(fā)展,現(xiàn)在的搜索引擎功能越來(lái)越強(qiáng)大,提供的服務(wù)也越來(lái)越全面,它們的目標(biāo)不僅僅是提供單純的查詢(xún)功能,而是把自己發(fā)展成為用戶首選的Internet入口站點(diǎn)。

目前的搜索引擎主要有以下幾個(gè)主要特點(diǎn):

1.多樣化和個(gè)性化的服務(wù)。現(xiàn)在絕大多數(shù)搜索引擎都提供多樣化的服務(wù),以吸引更多的用戶,商業(yè)搜索引擎尤其注重這一點(diǎn)。以Yahoo為例,用戶可以從它的首頁(yè)中查看新聞,金融證券,天氣預(yù)報(bào)等信息,還可以進(jìn)行網(wǎng)上購(gòu)物,拍賣(mài)或者使用Email等服務(wù)??梢哉f(shuō)多樣化和個(gè)性化的服務(wù)既滿足了用戶更多的需求,也為搜索引擎網(wǎng)站帶來(lái)了更多的利潤(rùn)。

2.強(qiáng)大的查詢(xún)功能。與最早的搜索引擎相比,現(xiàn)在的搜索引擎在查詢(xún)功能方面已有了很大的改進(jìn)。除了簡(jiǎn)單的AND,OR和NOT邏輯外,不少搜索引擎還支持相似查詢(xún),例如AltaVista,Lycos等支持短語(yǔ)查

詢(xún),AltaVista的高級(jí)搜索功能支持NEAR邏輯等。

3.目錄和基于Robot的搜索引擎相互結(jié)合。目錄和基于Robot的搜索引擎都具有自己的特點(diǎn),在當(dāng)前的技術(shù)條件下,最好的選擇是將兩種技術(shù)進(jìn)行結(jié)合,同時(shí)為用戶提供這兩種類(lèi)型的服務(wù)。以Yahoo為例,用戶既可以進(jìn)行分類(lèi)網(wǎng)站查詢(xún)也可以進(jìn)行全部網(wǎng)頁(yè)查詢(xún),這兩種不同的查詢(xún)方式很好的滿足了不同用戶的需求。雖然搜索引擎已經(jīng)為用戶提供了快捷和便利的服務(wù),但是也存在著許多問(wèn)題和不足。特別是在系統(tǒng)的穩(wěn)定性,速度,易用性和返回的信息量及相關(guān)度方面還與人們的要求存在著一定的差距,搜索引擎技術(shù)的發(fā)展任重而道遠(yuǎn)。

參考文獻(xiàn):

[1]劉建國(guó).搜索引擎概述.北京大學(xué)計(jì)算機(jī)與科學(xué)技術(shù),1999,(10):200.

[2]李曉明,劉建國(guó).搜索引擎技術(shù)及趨勢(shì).大學(xué)圖書(shū)館學(xué)報(bào).2000,(16).