卷積神經(jīng)網(wǎng)絡(luò)存在的問題范文
時間:2024-03-29 16:55:31
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)存在的問題,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:機器學(xué)習(xí);深度學(xué)習(xí);推薦算法;遠程教育
深度學(xué)習(xí)(DeepLearning),也叫階層學(xué)習(xí),是機器學(xué)習(xí)領(lǐng)域研究的分支,它是學(xué)習(xí)樣本數(shù)據(jù)的表示層次和內(nèi)在規(guī)律,在學(xué)習(xí)的過程中獲取某些信息,對于數(shù)據(jù)的解釋有巨大幫助。比如對文字?jǐn)?shù)據(jù)的學(xué)習(xí),在網(wǎng)絡(luò)上獲取關(guān)鍵字,對圖像數(shù)據(jù)的學(xué)習(xí),進行人臉識別等等。
一、深度學(xué)習(xí)發(fā)展概述
深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域里一種對數(shù)據(jù)進行表征學(xué)習(xí)的方法。一句話總結(jié)三者之間的關(guān)系就是:“機器學(xué)習(xí),實現(xiàn)人工智能的方法;深度學(xué)習(xí),實現(xiàn)機器學(xué)習(xí)的技術(shù)。深度學(xué)習(xí)目前是機器學(xué)習(xí)和人工智能領(lǐng)域研究的主要方向,為計算機圖形學(xué)、計算機視覺等領(lǐng)域帶來了革命性的進步。機器學(xué)習(xí)最早在1980年被提出,1984年分類與回歸樹出現(xiàn),直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發(fā)展。在1990年至2012年,機器學(xué)習(xí)逐漸成熟并施以應(yīng)用,GeoffreyHinton在2006年設(shè)計出了深度信念網(wǎng)絡(luò),解決了反向傳播算法神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,正式提出了深度學(xué)習(xí)的概念,逐漸走向深度學(xué)習(xí)飛速發(fā)展的時期。隨后,各種具有獨特神經(jīng)處理單元和復(fù)雜層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)不斷涌現(xiàn),深度學(xué)習(xí)技術(shù)不斷提高人工智能領(lǐng)域應(yīng)用方面的極限。
二、深度學(xué)習(xí)主要模型
1、卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是指有著深度結(jié)構(gòu)又包含著卷積計算的前饋神經(jīng)網(wǎng)絡(luò)。卷積物理上理解為系統(tǒng)某一時刻的輸出是有多個輸入共同疊加的結(jié)果,就是相當(dāng)于對一個原圖像的二次轉(zhuǎn)化,提取特點的過程。卷積神經(jīng)網(wǎng)絡(luò)實際上就是一個不斷提取特征,進行特征選擇,然后進行分類的過程,卷積在CNN里,首先對原始圖像進行特征提取。所以卷積神經(jīng)網(wǎng)絡(luò)能夠得到數(shù)據(jù)的特征,在模式識別、圖像處理等方面應(yīng)用廣泛。一個卷積神經(jīng)網(wǎng)絡(luò)主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,通過一系列對圖像像素值進行的卷積運算,得到圖像的特征信息,同時不斷地加深節(jié)點矩陣的深度,從而獲得圖像的深層特征;池化層的本質(zhì)是對特征圖像進行采樣,除去冗雜信息,增加運算效率,不改變特征矩陣的深度;全連接將層間所有神經(jīng)元兩兩連接在一起,對之前兩層的數(shù)據(jù)進行分類處理。CNN的訓(xùn)練過程是有監(jiān)督的,各種參數(shù)在訓(xùn)練的過程中不斷優(yōu)化,直到得到最好的結(jié)果。目前,卷積神經(jīng)網(wǎng)絡(luò)的改進模型也被廣泛研究,如全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNeuralNetworks,F(xiàn)CN)和深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環(huán)神經(jīng)網(wǎng)絡(luò)區(qū)別于卷積神經(jīng)網(wǎng)絡(luò)在圖片處理領(lǐng)域的應(yīng)用,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)主要應(yīng)用在自然語言處理領(lǐng)域。RNN最大的特點就是神經(jīng)元的輸出可以繼續(xù)作為輸入,再次利用到神經(jīng)元中循環(huán)使用。RNN是以序列的方式對數(shù)據(jù)進行讀取,這也是RNN最為獨特的特征。RNN的串聯(lián)式結(jié)構(gòu)適用于時間序列的數(shù)據(jù),可以完好保持?jǐn)?shù)據(jù)中的依賴關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)主要有三層結(jié)構(gòu),輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進來的數(shù)據(jù)進行一系列的運算,并將結(jié)果傳遞給輸出層進行輸出。RNN可用于許多不同的地方。下面是RNN應(yīng)用最多的領(lǐng)域:1.語言建模和文本生成,給出一個詞語序列,試著預(yù)測下一個詞語的可能性。這在翻譯任務(wù)中是很有用的,因為最有可能的句子將是可能性最高的單詞組成的句子;2.語音識別;3.生成圖像描述,RNN一個非常廣泛的應(yīng)用是理解圖像中發(fā)生了什么,從而做出合理的描述。這是CNN和RNN相結(jié)合的作用。CNN做圖像分割,RNN用分割后的數(shù)據(jù)重建描述。這種應(yīng)用雖然基本,但可能性是無窮的;4.視頻標(biāo)記,可以通過一幀一幀地標(biāo)記視頻進行視頻搜索。3、深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實也是指的一個東西,DNN有時也叫做多層感知機(Mul-ti-Layerperceptron,MLP)。DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。深度神經(jīng)網(wǎng)絡(luò)(DNN)目前作為許多人工智能應(yīng)用的基礎(chǔ),并且在語音識別和圖像識別上有突破性應(yīng)用。DNN的發(fā)展也非常迅猛,被應(yīng)用到工業(yè)自動駕駛汽車、醫(yī)療癌癥檢測等領(lǐng)域。在這許多領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)技術(shù)能夠超越人類的準(zhǔn)確率,但同時也存在著計算復(fù)雜度高的問題。因此,那些能夠解決深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)準(zhǔn)確度或不會增加硬件成本高效處理的同時,又能提升效率和吞吐量的技術(shù)是現(xiàn)在人工智能領(lǐng)域能夠廣泛應(yīng)用DNN技術(shù)的關(guān)鍵。
三、深度學(xué)習(xí)在教育領(lǐng)域的影響
1、學(xué)生學(xué)習(xí)方面通過網(wǎng)上學(xué)習(xí)的實時反饋數(shù)據(jù)對學(xué)生的學(xué)習(xí)模式進行研究,并修正現(xiàn)有教學(xué)模式存在的不足。分析網(wǎng)絡(luò)大數(shù)據(jù),相對于傳統(tǒng)在線學(xué)習(xí)本質(zhì)區(qū)別在于捕捉學(xué)生學(xué)習(xí)過程,有針對性,實現(xiàn)學(xué)生個性化學(xué)習(xí)。舉個例子,在學(xué)習(xí)過程中,可以通過學(xué)習(xí)平臺對學(xué)生學(xué)習(xí)課程所花費的時間,參與的程度,知識的偏好等等數(shù)據(jù)加以分析。也可以通過學(xué)生學(xué)習(xí)某門課程的次數(shù),鼠標(biāo)點擊次數(shù)、停留的時間等,來推斷學(xué)生學(xué)習(xí)情況。通過以上或類似數(shù)據(jù)匯總分析,可以正向引導(dǎo)學(xué)生學(xué)習(xí),并給予積極的學(xué)習(xí)評價。這種利用計算機收集分析出來的客觀數(shù)據(jù),很好展示了學(xué)生學(xué)習(xí)行為的結(jié)果,總結(jié)學(xué)習(xí)規(guī)律,而不需要教師多年的教學(xué)經(jīng)驗來判斷。對于教育研究者而言,利用深度學(xué)習(xí)技術(shù)可以更客觀準(zhǔn)確地了解學(xué)生,使教學(xué)工作良好發(fā)展更進一步。2、教學(xué)方面學(xué)習(xí)平臺的數(shù)據(jù)能夠?qū)虒W(xué)模式的適應(yīng)度進行預(yù)測,通過學(xué)生的考試成績和對教師的線上評價等加以分析,能夠預(yù)測出某一階段的教學(xué)方式發(fā)發(fā)是否可行,影響如何。通過學(xué)生與教師的在線互動,學(xué)生測驗時完成的時間與完成的結(jié)果,都會產(chǎn)生大量的有效的數(shù)據(jù),都可以為教師教學(xué)支持服務(wù)的更好開展提供幫助,從而避免低效率的教學(xué)模式造成教學(xué)資源的浪費。
四、成人遠程教育中深度學(xué)習(xí)技術(shù)的可應(yīng)用性
深度學(xué)習(xí)方面的應(yīng)用在眾多領(lǐng)域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠程教育方面,深度學(xué)習(xí)的技術(shù)還有很大的發(fā)揮空間,智能網(wǎng)絡(luò)教育的實現(xiàn)是人們的眾望所盼。若要將深度學(xué)習(xí)技術(shù)應(yīng)用到遠程教育平臺,首先要清楚學(xué)生的需求和教學(xué)資源如何分配。1、針對學(xué)生的學(xué)習(xí)需求與學(xué)習(xí)特征進行分析美國斯坦福大學(xué)克里斯皮希研究團隊的研究成果顯示,通過對學(xué)生知識學(xué)習(xí)進行時間建模,可以精確預(yù)測出學(xué)生對知識點的掌握情況,以及學(xué)生在下一次學(xué)習(xí)中的表現(xiàn)。深度學(xué)習(xí)的應(yīng)用可以幫助教師推測出學(xué)生的學(xué)習(xí)能力發(fā)展水平。通過學(xué)生與教學(xué)環(huán)境的交互行為,分析其學(xué)習(xí)風(fēng)格,避免教師用經(jīng)驗進行推斷而產(chǎn)生的誤差。2、教學(xué)資源的利用與分配深度學(xué)習(xí)技術(shù)能夠形成智能的分析結(jié)論。計算機實時采集數(shù)據(jù)集,對學(xué)生的學(xué)習(xí)情況加以分析,使教師對學(xué)生的學(xué)習(xí)狀態(tài)、情緒狀態(tài)等有更加清晰、準(zhǔn)確的了解。有了上面良好的教學(xué)模式,教師對學(xué)生的學(xué)習(xí)狀態(tài)有了更準(zhǔn)確的掌握,對學(xué)生的學(xué)習(xí)結(jié)果就有了更科學(xué)的教學(xué)評價?;谏疃葘W(xué)習(xí)的人工智能技術(shù),還可以輔助教師實現(xiàn)智能閱卷,通過智能閱卷自動總結(jié)出學(xué)習(xí)中出現(xiàn)的問題,幫助教師減少重復(fù)性勞動,減輕教師負(fù)擔(dān)。作為成人高校,遠程教育是我們的主要教學(xué)手段,也是核心教學(xué)方式,學(xué)校的教學(xué)必定是在學(xué)生方便學(xué)習(xí)的同時,以學(xué)生的學(xué)習(xí)效果為重。通過深度學(xué)習(xí)技術(shù),可以科學(xué)地分析出學(xué)生的學(xué)習(xí)效果,對后續(xù)教與學(xué)給予科學(xué)、可靠的數(shù)據(jù)支撐。我們可以在平臺上為每位同學(xué)建立學(xué)習(xí)模型,根據(jù)學(xué)生的學(xué)習(xí)習(xí)慣為其定制個性化方案,按他們的興趣進行培養(yǎng),發(fā)揮他們專業(yè)的潛能。同時,可以將學(xué)生正式在線參加學(xué)習(xí)和考試的學(xué)習(xí)行為和非學(xué)習(xí)時間瀏覽網(wǎng)站的行為結(jié)合到一起,更加科學(xué)地分析出學(xué)生在學(xué)習(xí)網(wǎng)站上感興趣的地方。采用深度學(xué)習(xí)算法,根據(jù)學(xué)生學(xué)習(xí)行為產(chǎn)生的海量數(shù)據(jù)推算出學(xué)生當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間的差距,做到精準(zhǔn)及時的學(xué)習(xí)需求反饋。有助于幫助學(xué)生明確學(xué)習(xí)目標(biāo),教師確立教學(xué)目標(biāo),真正做好因材施教?;谏疃葘W(xué)習(xí)各種智能識別技術(shù),可以為教師的線上教學(xué)活動增光添彩,在反饋學(xué)生學(xué)習(xí)狀態(tài)的同時,采用多種形式的教學(xué)方法吸引學(xué)生的注意力,增強教學(xué)活動的互動性,達到良好的教學(xué)效果。
篇2
關(guān)鍵詞:圖像復(fù)原;盲復(fù)原;逆濾波;神經(jīng)網(wǎng)絡(luò)復(fù)原
1 圖像退化及復(fù)原模型
1.1 圖像降質(zhì)的數(shù)學(xué)模型
圖像復(fù)原處理的關(guān)鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經(jīng)過某個退化系統(tǒng)后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應(yīng)用情況一致,如圖像數(shù)字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數(shù)方式將其轉(zhuǎn)化為相加形式。原始圖像f(x,y) 經(jīng)過一個退化算子或系統(tǒng)H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數(shù)學(xué)表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統(tǒng)計性質(zhì)的信息下圖表示退化過程的輸入和輸出的關(guān)系,其中H(x,y)包含了退化系統(tǒng)的物理過程,即所要尋找的退化數(shù)學(xué)模型。
1.2 圖像的退化恢復(fù)模型
數(shù)字圖像的圖像恢復(fù)問題可以看作是:根據(jù)退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復(fù)原是數(shù)字圖像處理技術(shù)的一個重要研究方向,在現(xiàn)實生活中,有著非常廣闊的應(yīng)用前景和市場。數(shù)字圖像處理研究很大部分是服務(wù)于數(shù)字圖像復(fù)原的,而運動模糊圖像的復(fù)原又是圖像復(fù)原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛(wèi)星所拍攝的圖像進行復(fù)原,因為衛(wèi)星相對地球是運動的,所拍出的圖像是模糊的(當(dāng)然衛(wèi)星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發(fā)回的月球照片進行了圖像恢復(fù)處理。傳統(tǒng)的圖像恢復(fù)方法可以很好地恢復(fù)出來原始圖像,但是需要事先知道系統(tǒng)的先驗知識(例如系統(tǒng)的點擴散函數(shù))。在先驗知識不足的情況下,如何恢復(fù)出來原始圖像?這就需要模糊圖像盲恢復(fù)技術(shù)。根據(jù)不同的應(yīng)用背景和先驗知識,大致可以兩種方法恢復(fù)兩種類型的模糊圖像,以滿足不同的應(yīng)用要求。
第一種方法:如何快速恢復(fù)模糊圖像,進行適時性圖像處理?這個技術(shù)在實際生活中有著廣泛應(yīng)用。
第二種方法:如何在事先不能確定模糊系統(tǒng)點擴散函數(shù)的情況下,恢復(fù)模糊圖像,改善圖像的質(zhì)量,這就是圖像盲恢復(fù)的問題。
3 國際國內(nèi)研究發(fā)展和現(xiàn)狀
從歷史上來看,數(shù)字圖像處理研究有很大部分是在圖像恢復(fù)方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數(shù)字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應(yīng)用于數(shù)字圖像恢復(fù)。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復(fù)原過來,從而增強人們的判讀能力。早期做圖像復(fù)原研究,主要強調(diào)盡可能使模糊圖像復(fù)原到原貌,增加它的判讀性,在此發(fā)展了很多的復(fù)原方法,諸如:差分復(fù)原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應(yīng)用上均有一定的限制。
雖然經(jīng)典的圖象復(fù)原方法不少,但歸納起來大致可分為逆濾波法,或稱相關(guān)變換法( inv ersefiltering or t ransfo rm related techniques) 和代數(shù)方法( alg ebraic techniques) 兩種。
3.1 傳統(tǒng)復(fù)原法
3.1.1 逆濾波方法
逆濾波法大致有經(jīng)典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經(jīng)典逆濾波的變換函數(shù)是引起圖象失真的變換函數(shù)的逆變換,其雖在沒有噪聲的情況下,可產(chǎn)生精確的復(fù)原圖象,但在有噪聲時,將對復(fù)原圖象產(chǎn)生嚴(yán)重的影響,雖然濾波函數(shù)經(jīng)過修改,有噪聲的圖象也能復(fù)原,但它僅適用于極高信噪比條件下的圖象復(fù)原問題; 維納濾波法是通過選擇變換函數(shù),同時使用圖象和噪聲的統(tǒng)計信息來極小化均方復(fù)原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關(guān)圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩(wěn)過程的假設(shè),還需要知道非退化圖象的相關(guān)函數(shù)或功率譜特性等等,而在實際應(yīng)用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復(fù)原問題時,提出了一種解決空間和時間相關(guān)性的多幀維納濾波法,是近年來維納濾波法的新發(fā)展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩(wěn)圖象的復(fù)原,但是因計算量過大,而限制了其實際應(yīng)用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應(yīng)用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復(fù)原方法,該方法可以較好地復(fù)原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數(shù)估計濾波法,它實質(zhì)上是維納濾波法的變種. 20 世紀(jì)90 年代初,又提出了基于遞歸圖象濾波的自適應(yīng)圖象復(fù)原方法及合成濾波方法,它代表了濾波方法新的發(fā)展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數(shù)中增加了空間自適應(yīng)正則化項,從而很好地抑制了噪聲,并減少了振鈴現(xiàn)象,較好實現(xiàn)了在低SNR 條件下的盲圖象復(fù)原. 2001 年,Eng 等人結(jié)合模糊集的概念,提出了自適應(yīng)的軟開關(guān)中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細(xì)節(jié),是一種值得重視的新的圖象復(fù)原方法。
3.1 2 代數(shù)方法
Andrews 和Hunt 提出了一種基于線性代數(shù)的圖象復(fù)原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數(shù),而相對于分析連續(xù)函數(shù),又更喜歡離散數(shù)學(xué)的人的口味。它為復(fù)原濾波器的數(shù)字計算提供了一個統(tǒng)一的設(shè)計思路。代數(shù)方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復(fù)原方法等。 其中,偽逆法,實質(zhì)上是根據(jù)圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經(jīng)常會出現(xiàn)不穩(wěn)定的現(xiàn)象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協(xié)方差的情況。前面的方法僅把圖象看成是數(shù)字的陣列,然而一個好的復(fù)原圖象應(yīng)該在空間上是平滑的,其在幅度值上是正的,而約束圖象復(fù)原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術(shù)而提出的圖象復(fù)原方法就是一種約束圖象復(fù)原方法,而且通過選取不同的約束參數(shù)和回歸方法可以得到不同的圖象復(fù)原算法。傳統(tǒng)的圖象復(fù)原算法或面臨著高維方程的計算問題,或要求恢復(fù)過程滿足廣義平穩(wěn)過程的假設(shè),這就是,使得具有廣泛應(yīng)用價值的圖象復(fù)原問題沒有得到圓滿的解決的根本原因。
3.2 神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的方法
神經(jīng)網(wǎng)絡(luò)圖象復(fù)原方法的發(fā)展方向自從神經(jīng)網(wǎng)絡(luò)圖象復(fù)原首次提出十多年來,其研究在不斷地深入和發(fā)展,描述它的現(xiàn)狀已屬不易,展望它的未來更是困難,況且科學(xué)研究具有不確定性. 據(jù)筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經(jīng)網(wǎng)絡(luò)用于圖象復(fù)原將是研究的重點
自1992 年Zhang 提出小波神經(jīng)網(wǎng)絡(luò)以來,如今已提出了各種類型的小波網(wǎng)絡(luò),且小波與神經(jīng)網(wǎng)絡(luò)的結(jié)合成了一個十分活躍的研究領(lǐng)域。通過學(xué)者們的理論分析和模擬實驗表明: 由于小波神經(jīng)網(wǎng)絡(luò)具有逼近能力強、可顯著降低神經(jīng)元的數(shù)目、網(wǎng)絡(luò)學(xué)習(xí)收斂的速度快、參數(shù)( 隱層結(jié)點數(shù)和權(quán)重) 的選取有理論指導(dǎo)、能有效避免局部最小值問題等優(yōu)點,因此將其用于圖象復(fù)原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質(zhì),與神經(jīng)網(wǎng)絡(luò)的大規(guī)模并行性、自學(xué)習(xí)特性等優(yōu)點結(jié)合起來,不僅將使用于圖象復(fù)原的小波神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)分辨性,也將使正則化參數(shù)的選取更具有自適應(yīng)能力. 最終使復(fù)原圖象既能保持圖象的細(xì)節(jié),又能很好地抑制圖象中的各種噪聲。
3.2.2細(xì)胞神經(jīng)網(wǎng)絡(luò)、BP 網(wǎng)絡(luò)、自組神經(jīng)網(wǎng)絡(luò)
值得進一步研究細(xì)胞神經(jīng)網(wǎng)絡(luò)( CNN ) 由于其具有易于硬件實現(xiàn)的特點,因而具有很強的商業(yè)價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細(xì)胞神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)的進一步完善及在此基礎(chǔ)上建立細(xì)胞神經(jīng)網(wǎng)絡(luò)中鄰域系統(tǒng)的概念; 與圖象數(shù)據(jù)局部相關(guān)性等概念結(jié)合起來研究,以建立新的圖象復(fù)原理論,形成新的圖象復(fù)原技術(shù)。BP 網(wǎng)絡(luò)對受污染或帶噪聲的訓(xùn)練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網(wǎng)絡(luò)的泛化能力強,使它在解決圖象復(fù)原問題時,可能比其他神經(jīng)網(wǎng)絡(luò)具有更好的潛在性能。 將BP 網(wǎng)絡(luò)用于圖象復(fù)原是很值得進一步研究的.大家知道,人腦的學(xué)習(xí)方式是“自主的”,即有自組織和自適應(yīng)的能力的,即人腦能在復(fù)雜、非平穩(wěn)和有“干擾”的環(huán)境及其變化的情況下,來調(diào)整自己的思維和觀念,還能根據(jù)對外界事物的觀察和學(xué)習(xí),找到其內(nèi)在的規(guī)律和本質(zhì)屬性,并能在一定的環(huán)境下,估計到可能出現(xiàn)的情況以及預(yù)期會遇到和感覺到的各種內(nèi)容及情況。 自組織神經(jīng)網(wǎng)絡(luò)(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數(shù)據(jù)中,揭示出它們之間內(nèi)在關(guān)系的能力,因此將其用于“盲圖象”的復(fù)原將是非常有利的。
3.2.3 需要提出更適合圖象復(fù)原的新神經(jīng)網(wǎng)絡(luò)模型
小波神經(jīng)網(wǎng)絡(luò)是為逼近任意非線性函數(shù)而提出來的,但為了圖象復(fù)原的需要,可考慮針對圖象復(fù)原的特殊情況,提出新的神經(jīng)網(wǎng)絡(luò)模型。 如,因為大多數(shù)圖象是由平滑區(qū)域和輪廓細(xì)節(jié)組成的,其圖象數(shù)據(jù)在平滑區(qū)域雖具有較強的相關(guān)性,但與輪廓細(xì)節(jié)相鄰的數(shù)據(jù)應(yīng)極不相關(guān),所以,提出一種專用于圖象復(fù)原的“相關(guān)性神經(jīng)網(wǎng)絡(luò)模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應(yīng)提出的“多項式神經(jīng)網(wǎng)絡(luò)”,將它們用于圖象復(fù)原也是值得研究的。
3.2.4 神經(jīng)網(wǎng)絡(luò)與其他理論的結(jié)合
研究是尋求新模型、新方法的重要途徑目前神經(jīng)網(wǎng)絡(luò)的研究正由單純的神經(jīng)計算轉(zhuǎn)向計算智能,并結(jié)合腦科學(xué)的研究向生物智能方向發(fā)展。 為此,神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的研究也應(yīng)考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學(xué)科的研究成果。 與模糊系統(tǒng)的結(jié)合將是一個重要的研究方向,因為,神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數(shù)學(xué)模型,而只需要根據(jù)輸入的采樣數(shù)據(jù)去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現(xiàn)出了很強的容錯能力; ( 3) 它們都可以用硬件來實現(xiàn). 由此可見,將神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)結(jié)合,用于圖象復(fù)原將是有意義的研究工作。
4 未來展望
圖像恢復(fù)發(fā)展到現(xiàn)在,已經(jīng)有了許多成熟的算法,但是還是存在許多問題,等待著我們?nèi)ソ鉀Q。目前圖像恢復(fù)的最新發(fā)展有:
1. 非穩(wěn)圖像復(fù)原,即空間可變圖像復(fù)原。
2. 退化視頻信號的復(fù)原問題,以及攝像機拍照圖像復(fù)原,這是一個需要進一步研究的領(lǐng)域。
3. 運動補償時空復(fù)原濾波,同時將時間相關(guān)應(yīng)用到運動補償中。
4. “Telemedicine“的出現(xiàn),遠程診斷極大的依賴于遠程接受的圖像質(zhì)量,圖像恢復(fù)在醫(yī)學(xué)領(lǐng)域中有相當(dāng)重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復(fù)方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復(fù)圖像恢復(fù),這是一個具有發(fā)展?jié)摿Φ难芯糠较颉?/p>
參考文獻
1 馮久超,黃海東. 基于神經(jīng)網(wǎng)絡(luò)的盲圖象恢復(fù)[ J ] . 計算機科學(xué),2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
篇3
關(guān)鍵詞:視覺注視;移動端;數(shù)據(jù)集;行為推測
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴S著計算機軟硬件性能和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大規(guī)模的并行計算技術(shù)突飛猛進,不斷地發(fā)展使各種現(xiàn)有技術(shù)變得越來越成熟,同時機器學(xué)習(xí)和計算機視覺領(lǐng)域也都得到了飛速發(fā)展。視覺技術(shù)的發(fā)展變得越來越重要,并且可以應(yīng)用到實際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計算機來輔助處理,并完成相關(guān)的一些工作。相對于生物信息識別技術(shù)這一計算機視覺領(lǐng)域的熱點技術(shù)來說,也已廣泛應(yīng)用于日常生活中[1]。比如指紋識別器,人臉考勤器等平時在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報警系統(tǒng)以及近期炒得火熱的運用支付寶進行刷臉而完成的支付技術(shù)等,這些都是運用了生物信息識別技術(shù)。現(xiàn)實中的種種跡象已經(jīng)表明運用生物信息識別的計算機技術(shù)已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個體差異性和自身穩(wěn)定性特點,從用戶的角度來看該特征具有便攜和低侵入等一些優(yōu)點。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因為眼睛中蘊含著表情、意圖等多種信息。因此,眼睛注視的行為預(yù)測受到了國內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時在生物信息識別領(lǐng)域中也具有重要的研究意義[2]。
2 注視預(yù)測問題
2.1 問題的背景
在心理、認(rèn)知和用戶交互研究中的注視跟蹤最近已朝向移動解決方案發(fā)展,因為它們使得可以直接評估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關(guān)于用戶的動作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態(tài)下非結(jié)構(gòu)化的任務(wù)中注視行為是相當(dāng)復(fù)雜的,并且不能使用在受控的實驗室環(huán)境中創(chuàng)建的模型來得到令人滿意的解釋。自然條件下和實驗室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對注視行為的推斷,需要一種更加整體的方法,將從認(rèn)知科學(xué)到機器學(xué)習(xí)的許多學(xué)科結(jié)合在一起[3]。
從人機交互技術(shù)到醫(yī)學(xué)診斷到心理學(xué)研究再到計算機視覺,眼睛注視跟蹤在許多領(lǐng)域都有應(yīng)用。注視是外部可觀察的人類視覺注意的指標(biāo),許多人試圖記錄它。對于眼睛視線方面的研究可以追溯到十八世紀(jì)后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個或多個方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實中的自然條件下,這些因素對實際的應(yīng)用會造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(例如,智能手機或網(wǎng)絡(luò)攝像頭)的人應(yīng)該可以使用的普及技術(shù)。如何才能使得這種技術(shù)普及并且得到應(yīng)用,提出了一種解決方案。
2.2問題的提出
研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數(shù)據(jù)推斷用戶動作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實時交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動設(shè)置中設(shè)置各種條件進行補救。商業(yè)化定制化的解決方案都有其獨自的閉合性質(zhì),因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復(fù)雜的現(xiàn)象,涉及認(rèn)知過程的相互作用。這些過程在設(shè)置計算上的建模是非常困難的,尤其是涉及一些未知因素,使得構(gòu)建實驗設(shè)置成為一個很大的挑戰(zhàn)。此外,來自跟蹤實驗的數(shù)據(jù)因為其商業(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨立的實驗條件。這些方面的問題都阻礙了跨學(xué)科方法在分析和利用注視數(shù)據(jù)和實驗的相關(guān)研究與發(fā)展。
2.3 解決問題的研究方向
對基于注視的推斷的個體貢獻通常保持孤立,不能形成更大的整體以促進對注視動作行為的研究。隨著這方面的技術(shù)發(fā)展和應(yīng)用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應(yīng)用和用戶界面中使用注視已經(jīng)相當(dāng)有限,但是移動注視跟蹤的新穎應(yīng)用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動注視跟蹤來推斷用戶動作的問題是高度多學(xué)科的,需要深入理解各個研究領(lǐng)域,包括人眼的功能,數(shù)學(xué)建模,計算機視覺,機器學(xué)習(xí),信息技術(shù),認(rèn)知過程,用戶交互以及心理學(xué)。任何一個研究員或甚至任何研究小組都不可能擁有所有研究領(lǐng)域的專家,因此需要相互的協(xié)作共同推進技術(shù)的發(fā)展[5]。
目前的研究主要是從以下幾個方面進行:
1)研究移動注視跟蹤的認(rèn)知方面,例如增強對任務(wù)中的注視行為的理解或識別不同任務(wù)的特征和階段;
2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動作的計算方法,諸如應(yīng)用機器學(xué)習(xí)用于行為推斷,優(yōu)選地實時地;
3)增強用于改善移動注視跟蹤方法和性能的技術(shù)軟件/硬件解決方案,并使得設(shè)備更容易訪問;
4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強現(xiàn)實應(yīng)用中的潛在用途,以及定義任務(wù),其中注視可以是用戶動作的有用的預(yù)測器。
3 解決方案
首先選擇移動端進行研究,因為目前比較普遍的移動設(shè)備比如智能手機、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動設(shè)備相對于其他平臺具有以下優(yōu)勢:
1)使用的廣泛性。據(jù)估計,到2019年,世界上超過三分之一的人口擁有智能手機,遠遠超過臺式機/筆記本電腦用戶;
2)軟硬件技術(shù)升級的采用率較高。大部分的移動設(shè)備具有允許使用擁有計算復(fù)雜數(shù)據(jù)方法的實時的最新軟硬件;
3)移動設(shè)備上相機的大量使用已經(jīng)導(dǎo)致相機技術(shù)的快速開發(fā)和部署;
4)相機相對于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準(zhǔn)跟蹤應(yīng)用。
3.1 注視類型分析
注視估計方法可以分為基于模型或基于外觀[6]。基于模型的方法使用眼睛的幾何模型,并且可以被細(xì)分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質(zhì)量和可變的照明條件。基于外觀的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認(rèn)為需要更大量的用戶特定的訓(xùn)練數(shù)據(jù)。通過使用深度學(xué)習(xí)和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實現(xiàn)準(zhǔn)確的無校準(zhǔn)注視估計。這種方案提出建立一個基于外觀的數(shù)據(jù)模型,而不使用任何手工設(shè)計的功能,例如頭部姿勢或眼球中心位置。
3.2 技術(shù)方案
深度學(xué)習(xí)的最近成功在計算機視覺的各種領(lǐng)域中是顯而易見的,但是它對改善眼睛跟蹤性能的影響還是相當(dāng)有限。因為深度學(xué)習(xí)是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的稻菁比較有限,最大的數(shù)據(jù)集通常只是具有50個受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學(xué)習(xí)進行研究的一套方案,就是構(gòu)造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡(luò)資源構(gòu)造一個大規(guī)模的基于移動的眼動跟蹤數(shù)據(jù)集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運動下記錄[7]。運用現(xiàn)有的智能算法得到一個可以進行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)端到端的注視預(yù)測的后臺決策網(wǎng)絡(luò)。不依賴任何預(yù)先存在的系統(tǒng),不需要頭部姿態(tài)估計或其他手動設(shè)計的特征用于預(yù)測。使用只有雙眼和臉部的特征訓(xùn)練網(wǎng)絡(luò),在這個領(lǐng)域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡(luò)在精度方面實現(xiàn)了很先進的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動設(shè)備上實時使用。 為了解決這個問題,需要培養(yǎng)學(xué)習(xí)得到一個更小更快的網(wǎng)絡(luò),在移動設(shè)備上實現(xiàn)實時性能,使得精度損失進一步降低。
3.3 大規(guī)模數(shù)據(jù)集
為了達到這一方案的預(yù)測效果,首先要進行的是數(shù)據(jù)集的建立。網(wǎng)絡(luò)上相關(guān)的研究中有許多公開的注視數(shù)據(jù)集[8]。總結(jié)對比這些相關(guān)的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢變化或具有粗略的注視點采樣密度。需要對這些數(shù)據(jù)進行篩選,使得到的數(shù)據(jù)具有隨機分布特點。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當(dāng)有限。大多數(shù)現(xiàn)有的眼動追蹤數(shù)據(jù)集已經(jīng)由邀請實驗室參與者的研究人員收集,這一過程導(dǎo)致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過卷積神經(jīng)網(wǎng)絡(luò)有效地識別人臉(他們的眼睛)上的細(xì)粒度差異,從而做出準(zhǔn)確的預(yù)測。
收集眼動跟蹤數(shù)據(jù)應(yīng)該注意的方面:
1)可擴展性。數(shù)據(jù)應(yīng)該是自然條件下的使得用戶具有靈活性;
2)可靠性。運用現(xiàn)有的智能移動設(shè)備真實的應(yīng)用圖像而非設(shè)計處理過的圖像;
3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應(yīng)各種環(huán)境下的操作。
4 結(jié)束語
文章介紹了一種針對移動設(shè)備的用戶注視行為推測解決方案。首先建立一個大規(guī)模眼動跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓(xùn)練用于眼睛跟蹤的魯棒模型。然后,訓(xùn)練得到一個深層卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測注視。通過仔細(xì)的評估,利用深度學(xué)習(xí)可以魯棒地預(yù)測注視,達到一個較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個世紀(jì),相信這種新方案的策略可以作為下一代眼動跟蹤解決方案的關(guān)鍵基準(zhǔn)。希望能通過這方面的研究,使人機交互得到更好的發(fā)展。
參考文獻:
[1] 崔耀 視控人機交互系統(tǒng)技術(shù)研究與實現(xiàn)[D].西安,西安電子科技大學(xué),2013.
[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機械工業(yè)出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術(shù)研究 [D].山東:山東大學(xué),2012.
篇4
關(guān)鍵詞: 機器人視覺; 定位跟蹤系統(tǒng); 系統(tǒng)設(shè)計; 控制模塊
中圖分類號: TN802.4?34; TP242 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)14?0080?04
Design and implementation of robot vision locating and tracking system
CAO Qingmei1, WANG Xuelian2, MA Zhanfei3
(1. Vocational and Technical College of Inner Mongolia Agricultural University, Baotou 014100, China;
2. College of Public Administration, Inner Mongolia Normal University, Hohhot 010000, China;
3. School of Information Science and Technology, Normal College of Inner Mongolia University of Science and Technology, Baotou 014030, China)
Abstract: In view of the problems existing the design of the traditional robot locating and tracking system, such as incomplete tracking region acquired by image preprocessing module and incomplete noise elimination, a tracking system location according to robot vision was designed and implemented. In the system, the tracking region is acquired with the image preprocessing module, various modules of the whole system are coordinated and controlled with the control module to acquire the image of the target in the region, and then the acquired information is sent to the image processing module to complete the information exchange among the system modules. In the process of software design, the system locating program code is given while image processing to realize the robot visual positioning and tracking. The experimental results show that the designed system has the high feasibility and practicability.
Keywords: robot vision; locating and tracking system; system design; control module
0 引 言
近年來,機器人視覺被廣泛應(yīng)用在工業(yè)、圖像處理等眾多領(lǐng)域,而在定位跟蹤領(lǐng)域的使用是最好的,也是最突出的[1?2]。隨著科學(xué)技術(shù)的發(fā)展,設(shè)計并實現(xiàn)了很多定位跟蹤系統(tǒng),如基于人臉特征設(shè)計的定位跟蹤系統(tǒng),通過體型特征設(shè)計的定位跟蹤系統(tǒng),通過DNA檢測設(shè)計的定位跟蹤系統(tǒng)以及通過機器人視覺設(shè)計的定位跟蹤系統(tǒng)。其中,最常用、效果最好的就是通過機器人視覺設(shè)計的定位跟蹤系統(tǒng)[3?5],相比其他的定位跟蹤系統(tǒng),該系統(tǒng)應(yīng)用前景廣泛,跟蹤效果好,已經(jīng)成為很多學(xué)者研究的重點課題,受到越來越廣泛的關(guān)注,是相關(guān)領(lǐng)域的前沿方向[6?9]。
本文設(shè)計并實現(xiàn)了一種通過機器人視覺進行定位的跟蹤系統(tǒng),通過機器人視覺進行區(qū)域目標(biāo)信息的采集及分析,為視覺監(jiān)控等領(lǐng)域提供有效依據(jù)。
1 機器人視覺定位跟蹤系統(tǒng)總體設(shè)計
設(shè)計的機器人視覺定位跟蹤系統(tǒng)主要由控制模塊、圖像預(yù)處理模塊、信號采集模塊、通信模塊和視覺定位模塊構(gòu)成。首先通過圖像預(yù)處理模塊將需要的區(qū)域圖像中的噪聲進行干擾去除,經(jīng)過控制模塊對整個系統(tǒng)各個模塊進行協(xié)調(diào)和控制,將區(qū)域圖像信息進行采集及存儲,并通過通信模塊進行信息的傳輸,最后通過機器人視覺進行定位,最終根據(jù)定位完成跟蹤。其中,圖像預(yù)處理的好壞,直接影響后面機器人視覺定位的準(zhǔn)確度,定位出現(xiàn)誤差,跟蹤效率就會降低,因此圖像預(yù)處理模塊是整個機器人視覺定位跟蹤系統(tǒng)的基礎(chǔ)。詳細(xì)的機器人視覺定位跟蹤系統(tǒng)結(jié)構(gòu)如圖1所示。
2 機器人視覺定位跟蹤系統(tǒng)硬件設(shè)計
2.1 控制模塊
控制模塊是本文設(shè)計系統(tǒng)的核心,主要用來協(xié)調(diào)和控制整個機器人視覺定位跟蹤系統(tǒng)各個模塊,其主要由C8051F206單片機、UART和SPI串行接口、片內(nèi)FLASH存儲器等構(gòu)成。選擇C8051F206單片機為系統(tǒng)的核心芯片,它是集成的MCU芯片,具有12位多通道ADC,依據(jù)系統(tǒng)整體設(shè)計的需求,選用UART和SPI的串行接口,該串行接口共有32個通用I/O引腳,部分引腳用于數(shù)字外設(shè)接口。所有端口引腳均能夠被配置ADC模擬輸入,片內(nèi)還集成有VDD監(jiān)視器、硬件看門狗定時器以及時鐘振蕩器。片內(nèi)FLASH存儲器還可用于部分?jǐn)?shù)據(jù)存儲。通過設(shè)計的這個控制模板可以及時有效地對其余各個模塊進行調(diào)控并獲取區(qū)域圖像,為定位跟蹤提供了先決條件。
2.2 圖像預(yù)處理模塊
獲取區(qū)域圖像之后,需要進一步對圖像進行預(yù)處理,圖像預(yù)處理模塊主要負(fù)責(zé)獲取相對比較完整的、最大程度的不含陰影與噪聲的區(qū)域圖像。其中,圖像信息主要通過LT1959CS8、視頻解碼芯片、SRAM進行預(yù)處理。SRAM需采用精度和穩(wěn)定性較高的雙電源供電,以消除機器人視覺定位跟蹤系統(tǒng)各模塊存在的電磁噪聲,因此,本文選用兩片Linear公司生產(chǎn)的LT1959CS8進行供電。視頻解碼芯片選用Trident Microsystem公司生產(chǎn)的SAA7113H芯片。圖像存儲選擇兩片IDT71V424異步SRAM芯片實現(xiàn),其芯片容量是512 KB。這樣通過圖像預(yù)處理模板,可以去除噪聲對定位跟蹤產(chǎn)生的干擾,為信息采集模塊提供最“純凈”的信息。
2.3 信息采集模塊
信息采集模塊主要用于對經(jīng)過處理后的目標(biāo)圖像信息進行采集,同時將采集的信息發(fā)送至通信模塊進行處理。信息采集模塊主要包括MMA7260QT芯片、信息調(diào)理、單極低通濾波器以及溫度補償單元等。設(shè)計該模塊時,將MMA7260QT芯片作為核心,對處理后的圖像信息進行采集。該模塊不但需達到信息采集的功能要求,同時體積需盡可能的小,以節(jié)省資源。MMA7260QT是美國Freescale公司生產(chǎn)的一款低成本的單芯片,該芯片融合了信息調(diào)理、單極低通濾波器以及溫度補償技術(shù),同時可提供四種采集范圍,具有噪音低、靈敏度高的優(yōu)點。因此,該模塊使用MMA7260QT芯片可達到更好、更全面的圖像信息。
2.4 通信模塊
通信模塊主要用于整個系統(tǒng)模塊之間的信息交換,是整個系統(tǒng)設(shè)計成敗的關(guān)鍵樞紐,因此,本文選擇CAN總線進行通信。和其他總線相比,CAN總線具有節(jié)點間不分主次,通信速率高的特點。除此之外,該模塊還采用Microchip公司的MCP2515控制器和TJA1040驅(qū)動器輔助實現(xiàn),不僅能夠達到系統(tǒng)所需的要求,還能節(jié)約成本。
2.5 機器人視覺定位模塊
機器人視覺定位模塊是整個系統(tǒng)的關(guān)鍵模塊,采集到的信息通過預(yù)處理去除噪聲干擾,再經(jīng)過通信模塊傳輸?shù)揭曈X定位模塊,在此模塊經(jīng)過圖像智能化定位處理,使得要跟蹤的信息更加清楚、明了,增加了跟蹤的精度。
3 機器人視覺定位跟蹤軟件算法的設(shè)計
3.1 算法的設(shè)計思路
在上述機器人視覺定位跟蹤系統(tǒng)各個模塊的設(shè)計的基礎(chǔ)上,設(shè)計軟件算法,具體步驟如下:
(1) 獲取定位圖像特征,為動態(tài)估計提供依據(jù)。假如,區(qū)域圖像信息集為[φkζ],[k=1,2,…,M],則第[k]個圖像的特征可通過下式求出:
式中:[Fkx;pk]用于描述圖像信息的動態(tài)變化;[vkx;pk]用于描述圖像不確定項;[pk]用于描述各參數(shù)向量。
(2) 動態(tài)估計值的計算,為獲取定位誤差值提供有利條件。通過利用RBF神經(jīng)網(wǎng)絡(luò)對一般動態(tài)信息圖像特征[φkx;pk=Fkx;pk+vkx;pk]進行局部分類,同時將獲取的信息用常值神經(jīng)網(wǎng)絡(luò)[WkTSx]權(quán)值的形式進行保存,并獲取[M]階的動態(tài)估計值:
式中:[k=1,2,…,M]用于描述第[k]個參數(shù);[χk=χ1k,χ2k,…,χnkT]用于描述圖像信息個數(shù);[B=diagb1,b2,…,bn]用于描述對角矩陣。
(3) 定位誤差值的計算及誤差范數(shù)的獲取。在測試過程中,通過式(2)獲取的動態(tài)估計值,即可獲取定位誤差值,計算公式如下:
式中,[χki=χki-xi]用于描述狀態(tài)估計誤差。
通過式(4)求出誤差[χkit]的[L1]范數(shù):
式中,[TC]用于描述圖像信息獲取周期。
(4) 完成機器人視覺定位,其基本思想為:若信息動態(tài)模式為[s]([s∈1,2,…,k]),則動態(tài)模式[s]中常值RBF的神經(jīng)網(wǎng)絡(luò)[WkTiSix]值,可通過定位誤差值獲取。所以,相應(yīng)的誤差[χsit1]在全部誤差[χsit1]中最小。依據(jù)最小誤差原則,實現(xiàn)快速定位。
依據(jù)上述定位過程給出系統(tǒng)用于定位的主流程圖,如圖2所示。
(5) 在定位的基礎(chǔ)上完成跟蹤,則具體的跟蹤結(jié)果如下:
式中:[Ii,j]代表目標(biāo)圖像邊緣上的像素點;[S]代表圖像邊緣梯度向量;[t]代表目標(biāo)濾波值。
3.2 源代碼設(shè)計
本文設(shè)計的機器人視覺定位跟蹤系統(tǒng)軟件,是在Windows XP環(huán)境下,通過Visual C++ 6.0實現(xiàn)的,其關(guān)鍵跟蹤部分的源代碼如下:
4 仿真實驗分析
為了驗證本文設(shè)計的機器人視覺定位跟蹤系統(tǒng)的有效性,需要進行相關(guān)的實驗分析。實驗將基于確定學(xué)習(xí)的跟蹤系統(tǒng)作為對比進行分析,本文實驗在Windows XP環(huán)境下,LabVIEW構(gòu)建系統(tǒng)平臺上完成。分別采用本文系統(tǒng)和基于確定學(xué)習(xí)的跟蹤系統(tǒng)對測試區(qū)域目標(biāo)進行跟蹤,測試區(qū)域目標(biāo)圖像如圖3所示,兩種系統(tǒng)測試得到的結(jié)果分別如圖4、圖5所示。
由圖4、圖5可知,改進算法進行多人視覺定位中的防丟失效果要優(yōu)于傳統(tǒng)算法,這主要是因為本文設(shè)計的跟蹤系統(tǒng),通過控制模塊對整個系統(tǒng)的各個模塊進行協(xié)調(diào)和控制,再經(jīng)過圖像預(yù)處理模塊對目標(biāo)區(qū)域圖像進行處理,并對區(qū)域目標(biāo)圖像信息進行采集,將采集的信息發(fā)送至圖像預(yù)處理模塊進行處理,完成整個系統(tǒng)模塊之間的信息交換,最終達到跟蹤的目的。采用本文系統(tǒng)對區(qū)域目標(biāo)圖像進行跟蹤,從側(cè)面視角的角度,對本文系統(tǒng)和基于確定學(xué)習(xí)的跟蹤系統(tǒng)的跟蹤準(zhǔn)確率進行比較,得到的結(jié)果如表1所示。分析表1可以看出,本文系統(tǒng)的準(zhǔn)確率一直高于基于確定學(xué)習(xí)的跟蹤系統(tǒng),且準(zhǔn)確率一直在90%以上,說明本文系統(tǒng)具有很高的跟蹤性能。
5 結(jié) 論
本文設(shè)計并實現(xiàn)了一種機器人視覺定位跟蹤系統(tǒng)??刂颇K作為系統(tǒng)的核心,主要負(fù)責(zé)整個系統(tǒng)各個模塊的協(xié)調(diào)和控制,通過圖像預(yù)處理模塊進行處理,再用信息采集模塊對目標(biāo)圖像信息進行采集;并通過通信模塊在整個系統(tǒng)模塊之間進行信息的交換。在軟件設(shè)計過程中,在圖像處理的同時給出定位跟蹤程序代碼,實現(xiàn)目標(biāo)的定位跟蹤。仿真實驗結(jié)果表明,本文設(shè)計的系統(tǒng)具有很高的可行性和實用性。
參考文獻
[1] 梁棟,高瑋瑋,張艷,等.基于足底壓力圖像的靜態(tài)觸覺步態(tài)識別[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2013,41(10):25?29.
[2] 王欣,唐俊,王年.基于雙層卷積神經(jīng)網(wǎng)絡(luò)的步態(tài)識別算法[J].安徽大學(xué)學(xué)報(自然科學(xué)版),2015(1):32?36.
[3] 賁燁,張鵬,潘婷婷,等.線性插值框架下矩陣步態(tài)識別的性能分析[J].智能系統(tǒng)學(xué)報,2013(5):415?425.
[4] 范玉紅,梁棟,鮑文霞.改進的譜特征和足底邊緣距離的步態(tài)識別[J].安徽大學(xué)學(xué)報(自然科學(xué)版),2014(6):37?43.
[5] 李一波,李昆.雙視角下多特征信息融合的步態(tài)識別[J].智能系統(tǒng)學(xué)報,2013,8(1):74?79.
[6] 王蒙,孫運強,姚愛琴.基于PCA和BP神經(jīng)網(wǎng)絡(luò)的步態(tài)識別系統(tǒng)研究[J].電子質(zhì)量,2014(3):83?85.
[7] 鄭偉南,曲娜,程鳳芹,等.基于步態(tài)識別技術(shù)的熱釋電紅外安防預(yù)警系統(tǒng)研究[J].中國新通信,2014(23):96?97.
篇5
本文結(jié)合計算機行業(yè)的發(fā)展,對計算機網(wǎng)絡(luò)云計算技術(shù)進行了分析研究,希望能為計算機技術(shù)的進步提供一定的理論支持。
一、計算機網(wǎng)絡(luò)的云計算技術(shù)概念
美國的網(wǎng)絡(luò)公司最早提出計算機網(wǎng)絡(luò)云計算技術(shù)的概念,隨著科學(xué)的進步與發(fā)展已經(jīng)逐漸成為了一門成熟的技術(shù),有著豐富的理論基礎(chǔ)與實踐經(jīng)驗?,F(xiàn)在的“云計算”技術(shù)是指能將網(wǎng)絡(luò)、硬件、設(shè)備相融合,同時實現(xiàn)規(guī)模性、安全性、虛擬性的技術(shù)。目前來看,對計算機網(wǎng)絡(luò)云計算的定義還沒有統(tǒng)一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點是:首先,每一個“云”都是獨立的計算機分布體系,基于網(wǎng)絡(luò)化、虛擬化的計算機服務(wù)層,與計算機中的資源保持一定的節(jié)奏,實現(xiàn)計算機資源的同步。其次,計算機網(wǎng)絡(luò)云是一個綜合體,并非是獨立的,計算機軟件的開發(fā)中離不開云計算的環(huán)節(jié),其重點就是網(wǎng)絡(luò)云計算特征的研究。對于計算機網(wǎng)絡(luò)的使用者來說,計算機集成軟件層面,能被接受與理解的就是云計算,在本文重點突出的就是云計算的屬性。最后,計算機網(wǎng)絡(luò)的使用者沒有進行長期的規(guī)劃后使用,很容易出現(xiàn)浪費現(xiàn)象,目前的云計算技術(shù)可以實現(xiàn)分或秒內(nèi)的數(shù)據(jù)計算,可以很好地避免資源過載或資源浪費現(xiàn)象。
通過研究可以看出,計算機網(wǎng)絡(luò)云計算技術(shù)可以定義成計算機網(wǎng)絡(luò)中進行的某種服務(wù)形式,其中相關(guān)的硬件設(shè)施與軟件系統(tǒng)統(tǒng)稱為計算機網(wǎng)絡(luò)云計算。定義中包括網(wǎng)絡(luò)計算機、超級計算機、集成技術(shù)等,相關(guān)的技術(shù)既有區(qū)別又有聯(lián)系。計算機網(wǎng)絡(luò)云計算技術(shù)的原理是:大量的數(shù)據(jù)分布于分布式計算機中,同時保證用戶的數(shù)據(jù)系統(tǒng)與計算機同步運行,進而實現(xiàn)及時將需要的資源切換到相應(yīng)的應(yīng)用中,根據(jù)使用者的訪問需求進行存儲系統(tǒng)與計算機系統(tǒng)的定位。計算機網(wǎng)絡(luò)云計算技術(shù)可以基于用戶服務(wù)需求及時提供所需的網(wǎng)絡(luò)信息資源。計算機網(wǎng)絡(luò)云計算技術(shù)適應(yīng)性強,彈性好,專業(yè)技術(shù)性高,發(fā)展前景十分好,應(yīng)用越來越廣泛。
二、計算機網(wǎng)絡(luò)云計算技術(shù)的分類
基于多樣化的標(biāo)準(zhǔn),計算機云計算的分類也有多種方式。比較常見的是:根據(jù)服務(wù)方式的不同,云計算可以分為私有云和公有云。私有云是根據(jù)用戶的自身情況進行獨立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進行開發(fā)利用。在選擇私有云與公有云時,應(yīng)該考慮的主要因素是:
1.服務(wù)的延續(xù)性
大部分情況下,公有云提供的服務(wù)容易受外界影響,如網(wǎng)絡(luò)故障等情況,而私有云則不會出現(xiàn)這種問題。
2.數(shù)據(jù)安全性
如果對于穩(wěn)定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監(jiān)控能力
公有云可以將使用用戶對系統(tǒng)的監(jiān)控能力屏蔽起來,這對于金融保險投資行業(yè)是十分有必要的。
三、計算機網(wǎng)絡(luò)云計算技術(shù)的實現(xiàn)
為了將計算機系統(tǒng)的系統(tǒng)處理過程進行簡化,通常將該過程劃分為預(yù)處理過程與功能實現(xiàn)過程兩大部分。對系統(tǒng)的各項功能進行分解,得到一些不需要進行功能實現(xiàn)過程與預(yù)處理過程的功能。對于可以進行預(yù)先處理過程的功能通常是一次性處理,在執(zhí)行過程中,可以將預(yù)處理過程得到的結(jié)果直接使用,以此完成特點的系統(tǒng)功能。該方法與原則的采用,極大地簡化了系統(tǒng),大幅度提高了系統(tǒng)運行效率。計算的云化中的系統(tǒng)就是計算云化系統(tǒng),它的計算量十分巨大,系統(tǒng)計算運行效率極高。但因為計算云化系統(tǒng)為一次處理系統(tǒng),只要計算云規(guī)則生成,計算云化系統(tǒng)的使命與任務(wù)也就完成,而不是在對計算機加以應(yīng)用時需要該系統(tǒng)。通常在計算機網(wǎng)絡(luò)云計算中形成的系統(tǒng)就是云計算系統(tǒng),是一個十分簡單的系統(tǒng),對計算機的處理能力沒有過高要求,同時應(yīng)用于各類計算機系統(tǒng)計算中。
四、計算機網(wǎng)絡(luò)云計算的計算與優(yōu)勢
建立計算機網(wǎng)絡(luò)云計算過程的第一步是服務(wù)器架構(gòu)的建立,其對計算機網(wǎng)絡(luò)云計算技術(shù)中的IAAS部分進行充當(dāng)。目前來看,仍沒有關(guān)于網(wǎng)絡(luò)云計算服務(wù)器架構(gòu)的專門、統(tǒng)一的標(biāo)準(zhǔn)出現(xiàn),這需要一定的相關(guān)技術(shù)進行支持,例如計算區(qū)域網(wǎng)SAN和附網(wǎng)NAS等,這都是應(yīng)用比較多的服務(wù)器架構(gòu)技術(shù)。NAS文件計算系統(tǒng)是松散結(jié)構(gòu)型的集群,它的架構(gòu)有很明顯的分布式特征。NAS文件系統(tǒng)集群中的各個節(jié)點具有互補與相互影響的特點,文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數(shù)據(jù)信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統(tǒng)安全穩(wěn)定。如果客戶發(fā)出過多的請求,NAS系統(tǒng)的限制就表現(xiàn)出來,二級計算就可以通過NAS的云服務(wù)完成。
SAN是一種緊密結(jié)合類型的集群,在集群中存儲文件之后,可以分解成很多個數(shù)據(jù)塊。相比于集群之中的節(jié)點,各數(shù)據(jù)塊之間能夠進行相互訪問。節(jié)點可以借助于訪問文件間的數(shù)據(jù)塊針對客戶的請求進行處理。SAN系統(tǒng)之中可以通過節(jié)點數(shù)量增減來響應(yīng)請求,同時提升界定本身的性能。為了能夠?qū)⒁許AN為基礎(chǔ)的OBS發(fā)展起來,就需要更好的性能與更低的成本。而SAN計算建構(gòu)的硬件價格十分高,同時依托于SAN的服務(wù)價格,因此可以適當(dāng)?shù)亟档鸵幌滦阅埽WC更好的性能與更低的成本。
五、實例――基于谷歌云計算技術(shù)的AlphaGo亮點分析
AlphaGo通過谷歌云計算技術(shù),擁有與人類棋手類似的“棋感”,其技術(shù)遠勝于1997年IBM公司研制的超級電腦“深藍”?!吧钏{”面對的是相對圍棋簡單多的國際象棋,設(shè)計理念為根據(jù)棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術(shù),可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運算能力都集中在“棋感策略”網(wǎng)絡(luò)中最有可能的情況上。其背后的深層算法,具備三大亮點:(1)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù):“棋感策略”網(wǎng)絡(luò)的本質(zhì)學(xué)習(xí)人類圍棋大師走法思維。AlphaGo藉此擁有強大的盤面評估能力。(2)增強學(xué)習(xí)算法技術(shù):此算法可通過自我對弈來持續(xù)提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術(shù):“評價網(wǎng)絡(luò)”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機網(wǎng)絡(luò)云計算技術(shù)發(fā)展遇到的問題
在目前計算機網(wǎng)絡(luò)云計算技術(shù)廣泛地運用到各個領(lǐng)域的過程中,云計算技術(shù)也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應(yīng)用過程中應(yīng)采用足夠的措施來對數(shù)據(jù)信息的安全性進行可靠的保障,這是計算機網(wǎng)絡(luò)云計算技術(shù)發(fā)展過程中十分重要的一項課題?,F(xiàn)在的大部分云端是通過瀏覽器進行接入的,瀏覽器是計算機系統(tǒng)中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認(rèn)證密鑰特別容易因為瀏覽器漏洞而產(chǎn)生泄密。同時由于不同的應(yīng)用都需要在云端中進行認(rèn)證,這就需要保證認(rèn)證機制的高效性與安全性。在應(yīng)用服務(wù)層之中,應(yīng)該采取安全有效的措施來保護用書的隱私安全,在基礎(chǔ)設(shè)施層中要采取安全可靠的方法保C數(shù)據(jù)的安全性。
七、采取措施保障網(wǎng)民數(shù)據(jù)安全
如果數(shù)據(jù)的安全不能得到保障,就會對云計算的發(fā)展產(chǎn)生不利影響,所以為了能夠保障網(wǎng)民數(shù)據(jù)的安全。就需要采取切實可行的手段來保證數(shù)據(jù)的安全性。
1.隔離操作系統(tǒng)與數(shù)據(jù)
為了能夠切實有效地保障網(wǎng)民信息的安全,就需要充分使用Hypervisor,從而將網(wǎng)民的操作系統(tǒng)與數(shù)據(jù)資源隔離起來,從而有效地保證了計算資源的安全性,避免了網(wǎng)民操作系統(tǒng)所帶來的可能的不利影響。
2.重置API保護層
服務(wù)商提供給用戶API,用戶根據(jù)需要進行應(yīng)用。但同時第三方也有可能對這些API進行使用。為了保證數(shù)據(jù)的安全性,就需要你安裝API保護層,重疊保護API。
3.嚴(yán)格身份認(rèn)證
服務(wù)商應(yīng)嚴(yán)格的執(zhí)行身份認(rèn)證,防范冒充網(wǎng)民身份的行為,加強對賬號與密碼的管理控制,確保網(wǎng)民只訪問自己的程序與數(shù)據(jù),從而保證數(shù)據(jù)資源的安全性。
篇6
關(guān)鍵詞: 車牌定位;圖像處理;HSV顏色模型;邊緣檢測;數(shù)學(xué)形態(tài)學(xué)
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)32-0184-03
Vehicle License Plate Locating Method Based On Color Positioning and Edge Detection
WU Lei, WANG Xiao-fei, LI Yan*
(School of Information Engineering,Hubei University for Nationalities, Enshi 445000, China)
Abstract:License plate recognition technology is one of the key technologies of intelligent traffic management system, license plate location is the basis for the realization of license plate recognition. Fast, accurate and robust license plate location technology can give a great help to the license plate recognition. In view of the problem of license plate location, this paper proposes a color location method based on HSV color model and the edge detection method based on vertical edge detection. Combined with the use of the two methods not only to achieve a fast, accurate positioning, but also for the license plate recognition follow the character segmentation, character positioning and other steps to lay a solid foundation.
Key words:vehicle license plate recognition; image processing; HSV color model;edge detection; mathematical morphology
1 引言
S著當(dāng)今社會經(jīng)濟的飛速發(fā)展,車輛的數(shù)量也變得與日聚增起來。高速增長的汽車數(shù)量和落后的停車場管理模式形成了鮮明的矛盾沖突。于是,智能車輛管理系統(tǒng)的實現(xiàn)變得尤為重要。實現(xiàn)智能車輛管理系統(tǒng)的核心內(nèi)容就是能夠自動化識別車輛車牌,而作為車牌識別核心技術(shù)的第一步――車牌定位技術(shù)的好壞極大程度上決定了車牌識別的性能。
目前車牌定位的實現(xiàn)方法大體分為兩類,一類是基于灰度圖像的車牌區(qū)域定位方法,另一類是基于彩色圖像的車牌區(qū)域定位方法。前者主要有基于紋理特征法、基于數(shù)學(xué)形態(tài)學(xué)法、基于小波分析法等方法。后者主要有基于RGB顏色法、基于神經(jīng)網(wǎng)絡(luò)法等。本文結(jié)合兩類不同的方法,先采用改良的RGB顏色法――HSV顏色模型來識別車牌,可以定位出大部分顏色鮮明的車牌,由于此方法受圖片質(zhì)量影響較大,我們在顏色法后采用邊緣檢測定位法,通過垂直邊緣檢測,將圖片中垂直邊緣較多的區(qū)域定位出來,兩種方法的結(jié)合可以獲得車輛圖片中車牌所在的區(qū)域,判斷出真正的車牌位置。
2 顏色定位
采用RGB顏色定位方法需要RGB的3個分量(Red分量--紅色,Green分量--綠色,Blue分量--藍色)共同確定一個顏色標(biāo)準(zhǔn),我國大部分車牌都是藍色,我們要從Blue分量中找到分量的閾值確定藍色的范圍,這本就不是一件容易的事。但是我們往往不只有3原色構(gòu)成的車牌,遇到像黃色的車牌時情況會更加復(fù)雜,需要考慮Red分量和Green分量的配比問題。這些問題讓單純選擇RGB顏色定位變得分外困難。
為了解決這些問題我們采用HSV顏色模型,如圖1所示。HSV模型是根據(jù)顏色的直觀特性創(chuàng)建的一種圓錐模型。與RGB顏色模型中的每個分量都代表一種顏色不同的是,HSV模型中每個分量并不代表一種顏色,而分別是:色調(diào)(H),飽和度(S),亮度(V)。
H分量是代表顏色特性的分量,用角度度量,取值范圍為0~360,從紅色開始按逆時針方向計算,紅色為0,綠色為120,藍色為240。S分量代表顏色的飽和信息,取值范圍為0.0~1.0,值越大,顏色越飽和。V分量代表明暗信息,取值范圍為0.0~1.0,值越大,色彩越明亮。我們可以從一種純色彩開始,即指定色彩角H,并讓V=S=1,然后我們可以通過向其中加入黑色和白色來得到我們需要的顏色。增加黑色可以減小V而S不變,同樣增加白色可以減小S而V不變。這就意味著通過保持V,S不變來找表示顏色的H的范圍,再反過來通過H的范圍確定V,S的取值范圍,從而可以確定出我們需要的顏色范圍,如圖2所示。
采用顏色定位我們首先需要將圖像顏色空間從RGB轉(zhuǎn)換為HSV,再遍歷圖像的所有像素,將滿足HSV范圍內(nèi)的像素點標(biāo)記為白色,其余部分標(biāo)記為黑色。所得圖片中白色部分為車牌位置。再采用閉操作,取輪廓等操作獲取目標(biāo)車牌。
3 邊緣檢測定位
邊緣檢測是圖像處理和計算機視覺中的基本問題,邊緣檢測的目的是標(biāo)識數(shù)字圖像中亮度變化明顯的點。而本文采用的是基于垂直邊緣的檢測方法。因為一般的車牌圖片在沒經(jīng)過一定的處理之前車牌邊緣都有很多垂直邊緣,那么就可以以此來判定車牌的位置。
車牌定位準(zhǔn)確率的高低與圖片的好壞有著密不可分的關(guān)系,如圖片的天氣,環(huán)境等外界環(huán)境因素直接影響圖片的識別率。所以在進行識別之前必須對車輛圖片進行預(yù)處理,消除干擾并突出車牌特征。
這里對車輛圖片進行車牌邊緣檢測定位的流程如圖3所示:
3.1 高斯模糊
對車輛圖片先進行高斯模糊就是把圖片中某一點周圍的像素色值按高斯曲線統(tǒng)計起來,采用數(shù)學(xué)上加權(quán)平均的計算方法得到這條曲線的色值,最后能夠留下物體的輪廓。高斯模糊使圖片變得更平滑,去除了干擾的噪聲對后面車牌的判斷打下了堅實的基礎(chǔ)。
3.2 灰度化
將彩色圖像轉(zhuǎn)化成為灰度圖像的過程稱為圖像的灰度化處理。彩色圖像中的每個像素的顏色有R、G、B三個分量決定,而每個分量有255中值可取,這樣一個像素點可以有255*255*255種顏色的變化范圍。而灰度圖像是R、G、B三個分量相同的一種特殊的彩色圖像,也正因為如此,對圖像的灰度化處理存在的最大爭議就是圖像信息的丟失,圖像信息的丟失可能使得對車牌的識別變得更加復(fù)雜。但對于計算機而言,處理灰度化圖像相比于處理彩色圖像要更加容易,同時,現(xiàn)在已研究的很多處理圖像的算法和技術(shù)僅支持對灰度化圖像的處理,在現(xiàn)今的科技狀況下對圖像灰度化處理使我們更便捷地獲取所需要的信息。但無疑,對彩色圖像直接進行判斷更符合人眼識別的規(guī)律,更趨近人工智能的本質(zhì),也是今后研究的方向與趨勢。一般有以下四種方法對彩色圖像進行灰度化處理:分量法,最大值法,平均值法,加權(quán)平均法。
(1)分量法:將彩色圖像中的三分量的亮度作為三個灰度圖像的灰度值,可根據(jù)應(yīng)用需要選取一種灰度圖像。
f1(i,j) = R(i,j)f2(i,j) = G(i,j)f3(i,j) = B(i,j)
其中fk(i,j)(k=1,2,3)為轉(zhuǎn)換后的灰度圖像在(i,j)處的灰度值。
(2)最大值法:將彩色圖像中的三分量亮度的最大值作為灰度圖的灰度值。
f(i,j) = max(R(i,j), G(i,j), B(i,j))
(3)平均值法:⒉噬圖像中的三分量亮度求平均得到一個灰度值。
f(i,j) = ( R(i,j) + G(i,j) + B(i,j) ) /3
(4)加權(quán)平均法:根據(jù)重要性及其他指標(biāo),將三個分量以不同的權(quán)值進行加權(quán)平均。由于人眼對綠色的敏感最高,對藍色敏感最低,因此,按下式對RGB三分量進行加權(quán)平均能得到較合理的灰度圖像。
f(i,j) = 0.30 R(i,j) + 0.59 G(i,j) + 0.11 B(i,j))
3.3 Sobel算子
Sobel算子是邊緣檢測定位中的核心算法,用于檢測圖像的垂直邊緣,便于區(qū)分車牌。
Sobel算子是一階導(dǎo)數(shù)的邊緣檢測算子,在算法實現(xiàn)過程中,通過3×3模板作為核與圖像中的每個像素點做卷積和運算,如下所示,其中A為原圖像,然后選取合適的閾值以提取邊緣。
許多學(xué)者已經(jīng)提出了很多圖像檢測算子,如Sobel算子、Laplace算子、Canny算子等。比較常用的有Sobel算子和Laplace算子。Sobel算子求圖像的一階導(dǎo)數(shù),Laplace算子則是求圖像的二階導(dǎo)數(shù),在通常情況下,也能檢測出邊緣,不過Laplace算子的檢測不分水平和垂直。
3.4 二值化
圖像的二值化,就是將圖像上的像素點的灰度值設(shè)置為0或255,也就是將整個圖像呈現(xiàn)出明顯的只有黑和白的視覺效果。一幅圖像包括目標(biāo)物體、背景還有噪聲,要想從多值的數(shù)字圖像中直接提取出目標(biāo)物體,最常用的方法就是設(shè)定一個閾值T,用T將圖像的數(shù)據(jù)分成兩部分:大于T的像素群和小于T的像素群,然后分別設(shè)置為黑白兩種顏色,實現(xiàn)了整個圖像的二值化。
3.5 閉操作
對二值化圖像先進行膨脹運算,其次進行腐燭運算,此組合運算即為圖像的閉運算。對二值化圖像先進行腐燭運算,其次進行膨脹運算,此組合運算即為圖像的開運算。閉操作可使輪廓線更光滑,但與開操作相反的是,閉操作通常消除狹窄的間斷和長細(xì)的鴻溝,消除小的空洞,并填補輪廓線中的斷裂。使用結(jié)構(gòu)元素B對集合A進行閉操作,數(shù)學(xué)表達為:
這個公式表明,使用結(jié)構(gòu)元素B對集合A的閉操作就是用B對A進行膨脹,然后用B對結(jié)果進行腐蝕。
3.6 取輪廓,篩選,角度與尺寸判斷
經(jīng)過上述一系列的圖像操作我們可以得到一張包含許多獨立圖塊的圖像,取輪廓操作就是將圖像中的所有獨立的不與外界有交接的圖塊取出來。然后根據(jù)這些輪廓,求這些輪廓的最小外接矩形。尺寸判斷操作是對外接矩形進行判斷,以判斷它們是否是可能的候選車牌的操作。經(jīng)過尺寸和角度判斷,會排除大量由輪廓生成的不合適尺寸的最小外接矩形。接下來需要對剩下的圖塊進行旋轉(zhuǎn)操作,將傾斜的車牌調(diào)整為水平,為后面的車牌判斷與字符識別提高成功率的關(guān)鍵環(huán)節(jié)。最后確定我們要識別的車牌的尺寸。
4 結(jié)論
本文提出了兩種關(guān)于車牌識別中車牌定位的方法,采用改進的HSV顏色模型,準(zhǔn)確,快速地對顏色鮮明的車牌進行定位,簡化了車牌定位中一些圖片處理和特征判斷的過程。而另一種方法是邊緣檢測中垂直邊緣定位的方法,垂直邊緣的選擇讓此方法能獲得更高的準(zhǔn)確率,同時采用圖像處理,數(shù)學(xué)形態(tài)學(xué)等多種算法強化了圖片中的許多特征量,極大提高了垂直邊緣的判斷。
雖然采用兩種定位方法的結(jié)合,極大提高了車牌定位的準(zhǔn)確率,但仍然有不足之處,需要進一步完善。兩種方法都需要較高的圖片質(zhì)量,大量的光暗區(qū)域和嚴(yán)重的雨雪天氣都會對車牌定位的準(zhǔn)確率產(chǎn)生較大的影響。還有如顏色定位中一旦車輛的顏色與車牌的顏色一致,那判斷的準(zhǔn)確率會大大降低。而第二種方法如果遇到大量垂直邊緣的車輛也會造成較大的誤差。
參考文獻:
[1] 魏平順.智能交通系統(tǒng)中車標(biāo)圖像識別技術(shù)研究[D].南京:南京理工大學(xué),2013.16-25.
[2] 李俠.車標(biāo)定位技術(shù)研究[D].大連:遼寧師范大學(xué),2011,16-26.
[3] 張闖, 孫興波, 陳瑤,等. 常用邊緣檢測技術(shù)的對比[J].傳感器世界, 2013,19(11):20-23.