網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在交通信息獲取的應(yīng)用

時(shí)間:2022-08-04 11:18:51

導(dǎo)語(yǔ):網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在交通信息獲取的應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在交通信息獲取的應(yīng)用

摘要:互聯(lián)網(wǎng)上的有關(guān)交通的網(wǎng)頁(yè)文本數(shù)據(jù)常常是非結(jié)構(gòu)化、分散性的,面對(duì)不斷增長(zhǎng)的海量信息,如何從中提取出有用的交通信息具有一定難度.傳統(tǒng)的信息采集處理方法很難高效準(zhǔn)確地完成海量信息處理.由此,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)則顯示出其優(yōu)越性.文中介紹了網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的基本內(nèi)容,總結(jié)了各類(lèi)交通信息獲取方法的研究,從不同方面綜述了國(guó)內(nèi)外應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)解決交通信息獲取問(wèn)題的研究歷史和現(xiàn)狀,展望了網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在交通中的應(yīng)用前景.

關(guān)鍵詞:交通工程;交通信息;網(wǎng)絡(luò)爬蟲(chóng)技術(shù);綜述

在交通系統(tǒng)運(yùn)行過(guò)程中會(huì)產(chǎn)生一系列的交通信息,各種信息技術(shù)廣泛應(yīng)用于智能交通系統(tǒng)的同時(shí),積累了海量的交通數(shù)據(jù),這些數(shù)據(jù)分散地分布在互聯(lián)網(wǎng)網(wǎng)頁(yè)上.海量交通信息對(duì)信息采集及處理方法等都提出了新的更高的要求.傳統(tǒng)的信息采集處理方法大多是對(duì)有限的、有規(guī)則的信息數(shù)據(jù)進(jìn)行收集,并不能對(duì)海量交通信息進(jìn)行批量獲取、保存,以及管理,因此無(wú)法準(zhǔn)確高效地解決海量交通信息獲取問(wèn)題.在相關(guān)的研究中,有學(xué)者利用數(shù)據(jù)挖掘技術(shù)進(jìn)行了大規(guī)模交通數(shù)據(jù)管理、整合和挖掘[1].近年來(lái),國(guó)內(nèi)外一些學(xué)者嘗試使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)來(lái)獲取互聯(lián)網(wǎng)上的海量交通信息,將網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)用到了交通信息的獲取分析中.從目前的研究成果來(lái)看,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)于交通中的各類(lèi)信息獲取具有很好的應(yīng)用前景,將成為交通信息獲取研究的重要方法之一.

1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

網(wǎng)絡(luò)信息獲取技術(shù),是指對(duì)網(wǎng)絡(luò)流中非結(jié)構(gòu)化的信息,設(shè)法將其讀取出來(lái),然后將其保存至結(jié)構(gòu)化的本地?cái)?shù)據(jù)庫(kù)[2].其中,網(wǎng)絡(luò)爬蟲(chóng)是最典型的例子.網(wǎng)絡(luò)爬蟲(chóng),通常又稱(chēng)之為Web信息采集器或網(wǎng)絡(luò)蜘蛛,是遍歷Web并以有條理的自動(dòng)方式下載Web文檔的程序或軟件[3].1994年,全球首個(gè)網(wǎng)絡(luò)檢索工具誕生,即WebCrawler.現(xiàn)階段,百度、Yahoo、Google等是相對(duì)來(lái)說(shuō)比較盛行的搜索引擎.1.1網(wǎng)絡(luò)爬蟲(chóng)的過(guò)程給定一個(gè)或多個(gè)種子URL,是網(wǎng)絡(luò)爬蟲(chóng)的首要條件.其次,需要將與這些URL相關(guān)聯(lián)的網(wǎng)頁(yè)下載下來(lái),提取其中涉及到的所有超鏈接;最后,遞歸地繼續(xù)去下載被這些超鏈接所標(biāo)識(shí)的網(wǎng)頁(yè)[4].網(wǎng)絡(luò)爬蟲(chóng)的過(guò)程見(jiàn)圖1.使用遍歷的方式,訪(fǎng)問(wèn)互聯(lián)網(wǎng)這個(gè)超級(jí)“圖”的各個(gè)節(jié)點(diǎn),找尋并獲取有用信息,這是網(wǎng)絡(luò)爬蟲(chóng)的目的.因此,網(wǎng)絡(luò)爬蟲(chóng)的體系結(jié)構(gòu)一般由以下幾個(gè)模塊組成:初始化模塊、Web頁(yè)面獲取模塊、Web頁(yè)面解析模塊,以及URL過(guò)濾模塊.1.2網(wǎng)絡(luò)爬蟲(chóng)分類(lèi)及爬蟲(chóng)搜索策略按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),可以對(duì)網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行分類(lèi).主要包括通用網(wǎng)絡(luò)爬蟲(chóng)(全網(wǎng)爬蟲(chóng))、聚焦網(wǎng)絡(luò)爬蟲(chóng)(主題網(wǎng)絡(luò)爬蟲(chóng))、增量式網(wǎng)絡(luò)爬蟲(chóng)和深層網(wǎng)絡(luò)爬蟲(chóng)這四種類(lèi)型.在實(shí)際應(yīng)用中,通常將這幾類(lèi)爬蟲(chóng)進(jìn)行結(jié)合使用以達(dá)到目的.爬蟲(chóng)的搜索策略是網(wǎng)絡(luò)爬蟲(chóng)的核心問(wèn)題,其優(yōu)劣決定了爬蟲(chóng)系統(tǒng)的效率和性能.主要的網(wǎng)絡(luò)爬蟲(chóng)搜索策略包括深度和廣度優(yōu)先、基于內(nèi)容的、基于鏈接的搜索策略.其中,由于能夠較為全面地遍歷web中的所有網(wǎng)頁(yè)結(jié)點(diǎn),深度和廣度優(yōu)先搜索策略較適合全網(wǎng)爬蟲(chóng),也即通用型網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng).基于內(nèi)容的搜索策略,如SharkSSearch算法,首先是對(duì)網(wǎng)頁(yè)中的文本內(nèi)容信息進(jìn)行分析,然后依據(jù)用戶(hù)主題與其之間的相關(guān)度,對(duì)網(wǎng)絡(luò)爬蟲(chóng)遍歷的方向和路徑進(jìn)行確定.當(dāng)期望可以對(duì)重要性較高的網(wǎng)絡(luò)頁(yè)面優(yōu)先抓取時(shí),就可以采用基于鏈接的搜索策略.該搜索策略首先挖掘及解析網(wǎng)頁(yè)之間的鏈接關(guān)系,從而計(jì)算出網(wǎng)頁(yè)的重要性,按照網(wǎng)絡(luò)頁(yè)面重要性相關(guān)度由高到低依次爬?。?/p>

2交通信息獲取的研究

2.1利用傳感器網(wǎng)絡(luò)、射頻識(shí)別等技術(shù)獲取交通信息.在智能交通系統(tǒng)研究領(lǐng)域,利用傳感器網(wǎng)絡(luò)技術(shù)研究單點(diǎn)、斷面和區(qū)域的交通信息獲取方法是重點(diǎn)的研究方向[5].張毅剛[6]對(duì)交通信息獲取的需求進(jìn)行了分析,設(shè)計(jì)了無(wú)線(xiàn)傳感網(wǎng)RTISN,用來(lái)獲取道路交通信息.李海艦[7]研究了一種多參量交通信息獲取的方法,實(shí)現(xiàn)了TIASN網(wǎng)絡(luò)中單個(gè)傳感器獲取盡可能豐富的多參量交通信息.而這些信息中,包含著交通流參數(shù)、交通流構(gòu)成要素等.射頻識(shí)別技術(shù),又稱(chēng)之為無(wú)線(xiàn)射頻識(shí)別.對(duì)于特定目標(biāo),射頻識(shí)別技術(shù)可通過(guò)無(wú)線(xiàn)電訊號(hào)對(duì)其進(jìn)行識(shí)別,并讀寫(xiě)相關(guān)數(shù)據(jù).利用射頻識(shí)別技術(shù)原理,康慨[8]設(shè)計(jì)了一種交通信息獲取系統(tǒng)框架結(jié)構(gòu),來(lái)完成交通車(chē)輛信息的獲?。w泰洋等[9]提出了一種交通信息獲取系統(tǒng),這個(gè)系統(tǒng)就是基于射頻識(shí)別技術(shù),使獲取車(chē)輛的身份信息和位置信息得到實(shí)現(xiàn).劉海華等[10]建立了交通信息采集及融合處理技術(shù)框架,利用射頻識(shí)別技術(shù)讀卡裝置來(lái)采集實(shí)時(shí)交通信息.2.2基于定位數(shù)據(jù)、多源數(shù)據(jù)等的交通信息獲取.基于定位數(shù)據(jù)與技術(shù)的交通信息獲取是交通大數(shù)據(jù)研究的方向之一.王汝洸[11]研究了城市交通起訖點(diǎn)信息獲取方法,其中就包括基于浮動(dòng)車(chē)定位數(shù)據(jù)對(duì)這些信息進(jìn)行獲取.賴(lài)見(jiàn)輝[12]研究了基于手機(jī)定位數(shù)據(jù)的交通信息提取技術(shù).胡堅(jiān)明等[13]基于無(wú)線(xiàn)定位技術(shù),對(duì)相當(dāng)精度交通信息的獲取方法進(jìn)行了研究.對(duì)于基于多源數(shù)據(jù)的交通信息獲取,戴志鑫[14]通過(guò)該方法對(duì)交通狀態(tài)特征信息的獲取進(jìn)行了研究.基于交通控制系統(tǒng)、車(chē)輛GPS系統(tǒng)和道路收費(fèi)系統(tǒng)等多源數(shù)據(jù),李琦[15]提出了獲取交通信息數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理的方法.2.3利用攝像裝置獲取交通信息.利用攝像裝置進(jìn)行動(dòng)態(tài)交通信息的獲取,是智能交通系統(tǒng)中的一個(gè)重要手段.王超[16]研究了適用于交通引導(dǎo)系統(tǒng)的交通數(shù)據(jù)采集技術(shù),其中包括了利用攝像裝置采集信息的視頻車(chē)輛檢測(cè)技術(shù).基于視頻圖像處理,張瑞等[17]對(duì)微觀交通數(shù)據(jù)的獲取進(jìn)行了研究,即通過(guò)視頻數(shù)據(jù)獲取車(chē)輛行駛軌跡、車(chē)速和車(chē)頭時(shí)距等.2.4其他交通信息獲取方法.徐東偉[18]對(duì)道路交通狀態(tài)的獲取方法進(jìn)行了研究,提出了道路交通狀態(tài)多維多粒度獲取方法.具體來(lái)說(shuō),這種方法是基于交通信息模板、區(qū)域交通吸引子匹配、虛擬速度傳感器節(jié)點(diǎn)及壓縮感知來(lái)對(duì)道路交通狀態(tài)信息進(jìn)行獲取.從固定點(diǎn)、軌跡線(xiàn)和大空間交通數(shù)據(jù)三個(gè)方面,曲騰姣[19]系統(tǒng)地解釋了動(dòng)態(tài)交通數(shù)據(jù)的獲取技術(shù).通過(guò)對(duì)微觀仿真系統(tǒng)模型結(jié)構(gòu)及仿真運(yùn)行特點(diǎn)進(jìn)行研究,霍瑩[20]提出了基于時(shí)空折算對(duì)交通信息進(jìn)行獲取的方法.交通信息獲取是智能交通的重要組成部分,就目前而言,交通信息的獲取方法多樣,但大多數(shù)都是對(duì)有限個(gè)、結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行獲?。m然有些技術(shù)已經(jīng)較為成熟,解決了結(jié)構(gòu)化的交通信息的獲取問(wèn)題,但是面對(duì)海量交通信息,這些技術(shù)與方法仍均需要不斷地改進(jìn),其研究也需要依據(jù)需求進(jìn)一步深入.

3應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行交通信息獲取

3.1交通事故分析數(shù)據(jù)獲取.通過(guò)對(duì)交通事故涉及到的事故車(chē)輛、事故天氣、道路狀況等其他有關(guān)的數(shù)據(jù)進(jìn)行獲取和深度挖掘,從中找到交通事故致因,分析事故發(fā)生的規(guī)律.Bao等[21]開(kāi)發(fā)了一個(gè)Web爬蟲(chóng),用于自動(dòng)從Twitter簽到數(shù)據(jù)中收集場(chǎng)所類(lèi)型信息,研究了如何利用Twitter簽到數(shù)據(jù)將人類(lèi)活動(dòng)信息融入城市地區(qū)撞車(chē)事故的空間分析中.周菲菲[22]截取了貴陽(yáng)市和上海市這兩地2015年的交通事故數(shù)據(jù),并利用爬蟲(chóng)系統(tǒng)獲取了網(wǎng)絡(luò)中的車(chē)輛品牌數(shù)據(jù),與原數(shù)據(jù)進(jìn)行融合后生成車(chē)輛類(lèi)型新變量,通過(guò)統(tǒng)計(jì)分析和可視化分析得到了影響交通事故發(fā)生的相關(guān)因素.文獻(xiàn)[2]利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從中國(guó)天氣網(wǎng)站抽取了天氣信息,從新浪微博上獲取了包含“交通事故”的消息,從中探索出了天氣情況對(duì)交通事故發(fā)生的影響.南春麗等[23]采用DeepWeb數(shù)據(jù)采集方法,從北京交通管理部門(mén)的網(wǎng)站,獲取了交通事故點(diǎn)文字信息,然后將其與相關(guān)道路線(xiàn)形空間數(shù)據(jù)整合,進(jìn)行了這兩者等的相關(guān)性研究.目前,國(guó)外在應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取交通數(shù)據(jù)以用于交通事故分析方面的研究較少,而國(guó)內(nèi)在這方面的研究則取得了相對(duì)較多的成果.國(guó)內(nèi)不同的相關(guān)研究獲取的數(shù)據(jù)也不同,主要包括:外部互聯(lián)網(wǎng)的車(chē)輛品牌數(shù)據(jù)、微博上的“交通事故”消息、權(quán)威網(wǎng)站的交通事故點(diǎn)文字信息等.3.2公共交通信息獲取.公共交通信息包括與公共交通服務(wù)有關(guān)的信號(hào)、數(shù)據(jù)、顯示等,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)可對(duì)其進(jìn)行批量獲?。瓺arshan[24]提出了一種解決自行車(chē)需求預(yù)測(cè)問(wèn)題的方法,其中便給出了用于讀取數(shù)據(jù)的Python代碼.自行車(chē)共享系統(tǒng)產(chǎn)生的數(shù)據(jù),即旅行的時(shí)間、出發(fā)地點(diǎn)、到達(dá)地點(diǎn)和經(jīng)過(guò)的時(shí)間被明確地記錄下來(lái),該項(xiàng)目的目的是利用歷史使用模式和天氣數(shù)據(jù)預(yù)測(cè)華盛頓自行車(chē)項(xiàng)目的自行車(chē)租賃需求.他使用NUMPY庫(kù)來(lái)讀取培訓(xùn)和測(cè)試數(shù)據(jù),還示例出讀取訓(xùn)練數(shù)據(jù)并創(chuàng)建輸入和目標(biāo)矩陣來(lái)訓(xùn)練的模型代碼.合作API接口和網(wǎng)絡(luò)爬蟲(chóng)是現(xiàn)今公交系統(tǒng)的主要數(shù)據(jù)來(lái)源.目前,多數(shù)研究都是以網(wǎng)絡(luò)爬蟲(chóng)為重點(diǎn)研究對(duì)象.而這是由于與各地公交合作的API接口數(shù)據(jù)較少.于浩川[25]基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行了公交線(xiàn)路數(shù)據(jù)的抓取,給出了網(wǎng)絡(luò)爬蟲(chóng)方法應(yīng)用下交通信息的獲取流程.JSON格式,是一種輕量級(jí)的數(shù)據(jù)交換格式.共享單車(chē)應(yīng)用程序數(shù)據(jù)包使用的就是這種格式.王宇洋[26]通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù),完成了實(shí)時(shí)獲取共享單車(chē)的位置信息,并且,針對(duì)這類(lèi)海量信息,完成了信息處理分析及信息可視化.莊楚天等[27]通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取了公共自行車(chē)站點(diǎn)數(shù)據(jù),包括站點(diǎn)實(shí)時(shí)可借與可還車(chē)輛數(shù)、站點(diǎn)名稱(chēng)及其經(jīng)緯度等信息,并以5min為時(shí)間間隔爬取以保證數(shù)據(jù)的連續(xù)性.另外,莊楚天[28]還獲取了城市POI數(shù)據(jù)和站點(diǎn)間路網(wǎng)距離數(shù)據(jù),然后對(duì)空間數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,做到了定量把握站點(diǎn)布設(shè)、使用情況等.蘇圖[29]使用Python編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)實(shí)現(xiàn)了終端上本地頁(yè)面內(nèi)容的自動(dòng)更新,通過(guò)架設(shè)一個(gè)可移動(dòng)的智能WiFi熱點(diǎn),為沒(méi)有WiFi網(wǎng)絡(luò)覆蓋的公共交通上的用戶(hù)提供無(wú)線(xiàn)網(wǎng)絡(luò)服務(wù)方案.由文獻(xiàn)資料知,在公共交通信息獲取方面,國(guó)內(nèi)外的研究主要集中在共享自行車(chē)(包括公共自行車(chē))的相關(guān)研究上面,主要是應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取其位置信息及站點(diǎn)信息.對(duì)于其他公共交通信息獲取,如利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取公交線(xiàn)路信息等也有一定的研究,但是對(duì)于地鐵、輕軌等的相關(guān)信息數(shù)據(jù)獲取的研究幾乎沒(méi)有.3.3交通地理信息獲?。煌ǖ乩硇畔⒌墨@取往往需要借助于計(jì)算機(jī)技術(shù),網(wǎng)絡(luò)爬蟲(chóng)即是其中之一.Li等[30]提出利用分布模式的主動(dòng)爬蟲(chóng)作為地理空間信息獲取方法,結(jié)果表明,他們所提出的爬蟲(chóng)在爬行效率和結(jié)果覆蓋率、活躍度方面均取得了良好的性能.該研究有助于在大規(guī)模和動(dòng)態(tài)的萬(wàn)維網(wǎng)上實(shí)現(xiàn)自動(dòng)GWS發(fā)現(xiàn),并促進(jìn)業(yè)務(wù)互操作的分布式地理空間服務(wù),使地理空間信息更廣泛地應(yīng)用于交通中.高波[31]針將基于鏈接與基于內(nèi)容搜索策略的網(wǎng)絡(luò)爬蟲(chóng)相結(jié)合,提出了SS-HITS算法,進(jìn)行了地理信息數(shù)據(jù)的獲取.吳燕琴[32]提出的旅游比價(jià)決策系統(tǒng)通過(guò)框架Scrapy爬取來(lái)自不同旅游網(wǎng)站的出行信息,同時(shí)將網(wǎng)頁(yè)信息存儲(chǔ)于Mon-goDB中,并對(duì)相關(guān)路線(xiàn)進(jìn)行分析,由此確定最佳決策.劉康等[33]應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取了長(zhǎng)沙市地鐵站點(diǎn)及多個(gè)POI地標(biāo)的地理位置信息,為交通便捷性等的研究提供了數(shù)據(jù)支持.對(duì)于利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取交通地理信息,主要研究成果集中在國(guó)內(nèi),上文中的外文文獻(xiàn)為國(guó)內(nèi)研究人員在國(guó)外期刊上發(fā)表的文章.這類(lèi)研究主要集中在獲取地理空間、位置信息等數(shù)據(jù)上.3.4實(shí)時(shí)交通信息采集.擁堵的交通數(shù)據(jù)涉及大規(guī)模和復(fù)雜的時(shí)空信息,使得挖掘交通數(shù)據(jù)變得困難,且交通數(shù)據(jù)的來(lái)源并不容易獲得.Tian等[34]從北京四環(huán)路區(qū)域的電子地圖中爬取了和實(shí)時(shí)交通信息,其道路狀態(tài)反映該區(qū)域的交通狀況,提供了一種從在線(xiàn)地圖數(shù)據(jù)中分析交通擁堵的可行方法.實(shí)時(shí)數(shù)據(jù)每隔5min收集一次,在收集實(shí)時(shí)交通數(shù)據(jù)后,手動(dòng)將數(shù)據(jù)作為矢量處理,然后以SHP層的格式存儲(chǔ).主題網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是獲取特定主題的有效手段,其搜索算法的性能直接決定著搜索結(jié)果的優(yōu)劣.張芳等[35]進(jìn)提出了非貪婪遺傳主題網(wǎng)絡(luò)搜索算法,該算法搜索策略的查全率及準(zhǔn)確率,能夠精準(zhǔn)地獲取實(shí)時(shí)高速公路信息.閆文豪等[36]應(yīng)用Python語(yǔ)言和Tornado網(wǎng)絡(luò)框架,設(shè)計(jì)了一個(gè)穩(wěn)定、高效、及時(shí)的爬蟲(chóng)程序.他們以廣州市為例,從四維交通指數(shù)網(wǎng)頁(yè)抓取到了1723條道路的基本信息及其每5min更新一次的實(shí)時(shí)交通數(shù)據(jù),并將獲取結(jié)果保存到MySQL數(shù)據(jù)庫(kù),其研究結(jié)果表明網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在實(shí)時(shí)交通數(shù)據(jù)采集方面具有可行性和有效性.利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),張獻(xiàn)力[37]實(shí)現(xiàn)了實(shí)時(shí)地從網(wǎng)絡(luò)上抓取交通信息,其中交通官網(wǎng)和交通論壇的交通信息爬蟲(chóng)均釆用Java語(yǔ)言來(lái)實(shí)現(xiàn).陳功[38]進(jìn)行了基于VoiceXML的實(shí)時(shí)路況查詢(xún)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),其中路況實(shí)時(shí)狀態(tài)的信息數(shù)據(jù)即通過(guò)自動(dòng)抓取相關(guān)互聯(lián)網(wǎng)資源得到.孫丹東[39]基于地理信息系統(tǒng)設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲取實(shí)時(shí)交通信息.李威[40]闡述了網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的工作原理和基本操作方法,設(shè)計(jì)了一個(gè)基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的交通流瓦片下載器,實(shí)現(xiàn)了交通流量圖的批量下載,從而為后續(xù)交通流量數(shù)據(jù)的提取研究奠定了基礎(chǔ).總結(jié)來(lái)說(shuō),應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行實(shí)時(shí)交通信息采集的研究是相對(duì)較為廣泛的,但同樣這類(lèi)研究成果主要集中在國(guó)內(nèi),國(guó)外就較為空白.獲取實(shí)時(shí)交通信息的關(guān)鍵在于,在網(wǎng)絡(luò)爬蟲(chóng)的過(guò)程中,需要每隔一定時(shí)間收集一次,因此爬取間隔的設(shè)定需要依據(jù)不同需要進(jìn)行特定設(shè)置.3.5交通運(yùn)輸技術(shù)研究所需信息的獲?。诮煌ㄟ\(yùn)輸技術(shù)研究時(shí),對(duì)于所需數(shù)據(jù)的獲取,網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用也較為廣泛.王子凡[41]利用網(wǎng)絡(luò)爬蟲(chóng)抓取了萬(wàn)維網(wǎng)交通領(lǐng)域的網(wǎng)頁(yè)文本,實(shí)現(xiàn)了交通術(shù)語(yǔ)自動(dòng)生成,為交通術(shù)語(yǔ)的挖掘以及預(yù)測(cè)交通行業(yè)的發(fā)展趨勢(shì)等提供了理論和技術(shù)支持.鄒永平[42]在基于CMS面向鐵路服務(wù)的網(wǎng)站開(kāi)發(fā)研究中,釆用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)天氣預(yù)報(bào)和車(chē)次、站點(diǎn)、站站的查詢(xún)數(shù)據(jù)等信息進(jìn)行了抓取,并且每隔6小時(shí)重新抓取一次,實(shí)現(xiàn)了從鐵路服務(wù)網(wǎng)站查詢(xún)車(chē)次等信息的功能.顏高峰[43]以港口集疏運(yùn)信息數(shù)據(jù)為例,研究了主題網(wǎng)絡(luò)爬蟲(chóng)技術(shù),實(shí)現(xiàn)了基于港口業(yè)務(wù)主題對(duì)外部數(shù)據(jù)的獲取.目前,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取交通運(yùn)輸技術(shù)研究相關(guān)信息涉及到了交通領(lǐng)域文本信息的獲取、鐵路、港口等相關(guān)數(shù)據(jù)的獲取,對(duì)于實(shí)際應(yīng)用有著很好的前景.雖然部分學(xué)者研究了這部分內(nèi)容,但是由于研究文獻(xiàn)較少,不足以歸納出一般性結(jié)論.3.6交通領(lǐng)域評(píng)價(jià)反饋信息獲?。诮煌I(lǐng)域評(píng)價(jià)反饋信息獲取的相關(guān)研究中,楊奕等[44]以中華人民共和國(guó)交通運(yùn)輸部官方網(wǎng)站“出租車(chē)行業(yè)改革”專(zhuān)欄作為研究對(duì)象,采用網(wǎng)絡(luò)爬蟲(chóng)軟件八爪魚(yú)采集器,對(duì)網(wǎng)約車(chē)合法化問(wèn)題的不同評(píng)論進(jìn)行了全面信息采集,降低獲取信息的成本的同時(shí)提高了效率.劉鑫提出引導(dǎo)乘客帶有#車(chē)次號(hào)#的微博內(nèi)容,然后利用網(wǎng)絡(luò)爬蟲(chóng)采集微博數(shù)據(jù).該爬蟲(chóng)采用的是廣度優(yōu)先搜索策略,即將關(guān)鍵字搜索結(jié)果逐頁(yè)抓取,獲取大量的評(píng)價(jià)內(nèi)容,從而分析其服務(wù)質(zhì)量.對(duì)于交通領(lǐng)域評(píng)價(jià)反饋信息獲取,研究相對(duì)來(lái)說(shuō)較少,但是應(yīng)用前景是較為明朗的,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取到評(píng)價(jià)反饋信息以后,有助于相關(guān)效率、質(zhì)量等的提升.通過(guò)上述研究資料知,在網(wǎng)絡(luò)爬蟲(chóng)在交通信息獲取中的應(yīng)用中,目前,對(duì)于海量交通信息,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是一種很好的手段.網(wǎng)絡(luò)爬蟲(chóng)技術(shù)解決了海量交通信息難以批量獲取的問(wèn)題,但是整個(gè)應(yīng)用現(xiàn)狀還不夠普遍和成熟,今后仍需要通過(guò)不斷的實(shí)踐和研究來(lái)充實(shí)這一方面的應(yīng)用.

4結(jié)束語(yǔ)

交通信息數(shù)據(jù)獲取研究是交通中重要的研究課題之一.網(wǎng)絡(luò)爬蟲(chóng)技術(shù)能夠準(zhǔn)確高效地從繁雜的網(wǎng)絡(luò)信息中獲取所需要的交通信息,對(duì)海量交通信息難以批量采集的問(wèn)題給出了有效的解決方案.通過(guò)上述文獻(xiàn)綜述可知,目前,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在交通信息獲取中的應(yīng)用,主要集中在交通事故分析數(shù)據(jù)獲取、公共交通信息獲取、交通地理信息獲取、實(shí)時(shí)交通信息采集、交通運(yùn)輸技術(shù)研究所需數(shù)據(jù)獲取、交通領(lǐng)域評(píng)價(jià)反饋信息獲取這六個(gè)方面.然而,應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行交通信息獲取的研究也有不足之處.就目前的國(guó)內(nèi)外研究現(xiàn)狀來(lái)看,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的爬蟲(chóng)方法與各類(lèi)交通信息獲取的對(duì)應(yīng)關(guān)系還需要進(jìn)一步研究;如何結(jié)合數(shù)據(jù)特性確定合理的爬取間隔、重復(fù)的交通信息數(shù)據(jù)的識(shí)別和刪除等問(wèn)題也有待解決.總體來(lái)看,將網(wǎng)絡(luò)爬蟲(chóng)技術(shù)合理地應(yīng)用到交通信息獲取的研究中,在交通控制、智能交通系統(tǒng)等領(lǐng)域發(fā)揮其作用,為交通事故的產(chǎn)生和類(lèi)型判斷、實(shí)時(shí)交通信息采集、交通地理信息獲取等都提供了新的研究思路,有著廣闊的應(yīng)用前景.

作者:秦雅琴 馬玲玲 單位:昆明理工大學(xué)交通工程學(xué)院