卷積神經(jīng)網(wǎng)絡(luò)方法范文

時間:2024-04-01 18:17:28

導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)方法,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)方法

篇1

關(guān)鍵詞關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);古玩圖片;圖像識別

DOIDOI:10.11907/rjdk.162768

中圖分類號:TP317.4

文獻標(biāo)識碼:A文章編號文章編號:16727800(2017)005017405

0引言

隨著電子商務(wù)的發(fā)展,大批藝術(shù)品交易網(wǎng)站隨之興起,藏品交易規(guī)模也越來越大。而當(dāng)前的古玩網(wǎng)上交易平臺還不能夠?qū)崿F(xiàn)對現(xiàn)有藏品圖片的自動分類,客戶在尋找目標(biāo)藏品時不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來完成面向圖像內(nèi)容的分類。

在基于內(nèi)容的圖像檢索領(lǐng)域,常使用人工設(shè)計的特征-如根據(jù)花瓶、碗、盤子的不同形態(tài)特征:目標(biāo)輪廓的圓度、質(zhì)心、寬高比等[1],繼而使用BP神經(jīng)網(wǎng)絡(luò)、SVM分類器等對特征進行學(xué)習(xí)分類。文獻[2]基于植物葉片的形狀特征,如葉片形狀的狹長度、矩形度、球狀性、圓形度、偏心率、周長直徑比等,利用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)對植物葉片進行分類。文獻[3]研究印品圖像的各類形狀缺陷,利用圖像缺陷形狀的輪廓長度、面積和圓形度等幾何特征,導(dǎo)入SVM分類器進行訓(xùn)練,得到分類器模型實現(xiàn)分類。文獻[4]提出了一種基于Zernike矩的水果形狀分類方法,通過提取圖像中具有旋轉(zhuǎn)不變性的Zernike矩特征,并運用PCA方法確定分類需要的特征數(shù)目,最后將這些特征輸入到SVM分類器中,完成水果形狀的分類。上述方法都要求對目標(biāo)形狀分割的準(zhǔn)確性,而分割過程中由于存在目標(biāo)陰影、目標(biāo)分割不完整問題,會影響到人工特征的準(zhǔn)確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測的局部物體外形能夠被光強梯度或邊緣方向的分布所描述。HOG表示的是邊緣結(jié)構(gòu)特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點,并提取出其位置、尺度、旋轉(zhuǎn)不變量。SIFT特征對于旋轉(zhuǎn)、尺度縮放、亮度變化保持不變。但是,這兩種特征在實際應(yīng)用中,描述子生成過程冗長、計算量太大。而且在上述方法征設(shè)計需要啟發(fā)式的方法和專業(yè)知識,很大程度上依靠個人經(jīng)驗。

卷積神經(jīng)網(wǎng)絡(luò)不需要手動設(shè)計提取特征,可以直接將圖片作為輸入,隱式地學(xué)習(xí)多層次特征,進而實現(xiàn)分類[9]。相比目前常用的人工設(shè)計特征然后利用各分類器,具有明顯的優(yōu)勢。近年來,卷積神經(jīng)網(wǎng)絡(luò)已成為語音、圖像識別領(lǐng)域研究熱點。它的權(quán)值共享特點使得網(wǎng)絡(luò)復(fù)雜度降低,權(quán)值數(shù)量減少。而且,卷積神經(jīng)網(wǎng)絡(luò)直接將圖片作為輸入,避免了復(fù)雜的特征設(shè)計和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經(jīng)網(wǎng)絡(luò)對古玩圖片進行分類。首先,將背景分離后的圖片作為網(wǎng)絡(luò)的輸入,相比原圖作為輸入,此方法的網(wǎng)絡(luò)結(jié)構(gòu)更加簡單。然后,卷積層通過不同的卷積核對輸入圖片進行卷積得到不同特征圖,采樣層進一步對特征圖進行二次提取,最終提取到合適的特征輸入分類器進行分類,而在卷積層、采樣層征圖的大小、數(shù)目都會影響到網(wǎng)絡(luò)的分類能力。因此,本文通過優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)達到較好的分類效果。

1卷積神經(jīng)網(wǎng)絡(luò)

1989年,LECUN等[11]提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一般至少有2個非線性可訓(xùn)練的卷積層、2個非線性的固定采樣層和1個全連接層,一共至少5個隱含層[12]。百度于2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識別和人臉識別,此后深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解。從百度經(jīng)驗來看,深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率[13]。

卷積神經(jīng)網(wǎng)絡(luò)作為一種高效的深度學(xué)習(xí)方法[14],在許多圖像識別方面取得了很好的成效[1519]。該網(wǎng)絡(luò)作為一種多隱層神經(jīng)網(wǎng)絡(luò),可以提取圖像的多層次特征進行識別。

卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層和采樣層,卷積層通過可學(xué)習(xí)的卷積核對輸入圖片進行卷積得到特征圖,卷積操作即加強了輸入圖片的某種特征,并且降低噪聲。卷積之后的結(jié)果通過激活函數(shù)(通常選擇Sigmoid函數(shù)或Tanh函數(shù))作用輸出構(gòu)成該層的特征圖。特征圖上的每一個神經(jīng)元只與輸入圖片的一個局部區(qū)域連接,每個神經(jīng)元提取的是該局部區(qū)域的特征,所有神經(jīng)元綜合起來就得到了全局特征,與神經(jīng)元相連接的局部區(qū)域即為局部感受野[20]。而在卷積層中一般存在多張?zhí)卣鲌D,同一張?zhí)卣鲌D使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點稱為權(quán)值共享,即同一張?zhí)卣鲌D上的所有神經(jīng)元通過相同的卷積核連接局部感受野。卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡(luò)訓(xùn)練的參數(shù)個數(shù),降低了網(wǎng)絡(luò)模型的復(fù)雜度。

采樣層對卷積層提取到的特征圖進行局部非重疊采樣,即把特征圖分為互不重疊的N×N個子區(qū)域,對每個子區(qū)域進行采樣。卷積神經(jīng)網(wǎng)絡(luò)的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區(qū)域內(nèi)所有神經(jīng)元的最大值作為采樣值,均值采樣為區(qū)域內(nèi)所有神經(jīng)元的平均值作為采樣值。最大值采樣偏向于提取目標(biāo)的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區(qū)分度高特征的同時大大減少了數(shù)據(jù)量,它對一定程度的平移、比例縮放和扭曲具有不變性。

卷積神經(jīng)網(wǎng)絡(luò)通過卷積層和采樣層的循環(huán)往復(fù)提取到圖像由低層次到高層次的特征,最后一般通過全連接層將所有特征圖展開得到一維向量,然后輸入到分類器進行分類。

卷積神經(jīng)網(wǎng)絡(luò)在處理二維圖像時,卷積層中每個神經(jīng)元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權(quán)值共享特點又使得各神經(jīng)元保持了原來的空間關(guān)系,將這些感受不同局部區(qū)域的神經(jīng)元綜合起來就得到了全局信息。采樣層對特征圖進行局部特征提取,不會改變神經(jīng)元之間的空間關(guān)系,即二維圖像經(jīng)過卷積層、采樣層仍然保持二維形式。因此,卷積神經(jīng)網(wǎng)絡(luò)有利于提取形狀方面的特征。雖然卷積神經(jīng)網(wǎng)絡(luò)的局部感受野、權(quán)值共享和子采樣使網(wǎng)絡(luò)大大減少了需要訓(xùn)練參數(shù)的個數(shù),但是該網(wǎng)絡(luò)作為多隱層神經(jīng)網(wǎng)絡(luò)還是十分復(fù)雜的。對于不同的數(shù)據(jù)庫,為了達到比較好的分類效果,網(wǎng)絡(luò)的層數(shù)、卷積層特征圖個數(shù)以及其它參數(shù)的設(shè)置都需要探究。

2基于卷積神經(jīng)網(wǎng)絡(luò)的古玩圖片分類

2.1特征提取及傳遞

不同古玩的主要區(qū)別在于形狀不同,而花瓶、盤子和碗在古玩中最常見,因此將這3類圖片作為實驗對象,對于其它種類的古玩圖片的分類,該網(wǎng)絡(luò)同樣適用。卷積神經(jīng)網(wǎng)絡(luò)采用如下圖所示的5層網(wǎng)絡(luò)結(jié)構(gòu),并對網(wǎng)絡(luò)各層的特征圖數(shù)目、大小均作了修改。對于網(wǎng)絡(luò)的輸入,先將原圖像進行目標(biāo)與背景分割,然后進行灰度化、統(tǒng)一分辨率的處理,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)。由于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的根本目的是提取不同古玩的特征,而背景不是目標(biāo)的一部分,對古玩識別來說并不提供任何有用的信息,反而對特征的提取造成干擾,所以去除背景噪聲后,網(wǎng)絡(luò)結(jié)構(gòu)會更加簡單,同時也利于網(wǎng)絡(luò)對特征的學(xué)習(xí)。但是因為進行了去背景的預(yù)處理,網(wǎng)絡(luò)也失去了對復(fù)雜背景下圖片的識別能力,所以使用該網(wǎng)絡(luò)進行古玩圖片分類前都要進行目標(biāo)分割的預(yù)處理過程。

卷積神經(jīng)網(wǎng)絡(luò)對古玩圖片的特征提取過程如下:

(1)輸入網(wǎng)絡(luò)的圖片為100×100大小的預(yù)處理圖,卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后為卷積層,卷積層通過卷積核與輸入圖像進行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個神經(jīng)元與原圖像5×5大小的局部感受野連接。卷積核移動步長為1個像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時,必然會損失掉圖像的其他特征,而采取多個卷積核卷積圖像得到多個特征平面則會一定程度上彌補這個缺陷。因此,在卷積層C1中使用了6個不同的卷積核與輸入圖像進行卷積,得到6種不同的特征平面圖。如圖3所示,同一張?zhí)卣鲌D上的所有神經(jīng)元共享一個卷積核(權(quán)值共享),圖中連接到同一個特征圖的連接線表示同一個卷積核,6個不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結(jié)果并非直接儲存到C1層特征圖中,而是通過激活函數(shù)將神經(jīng)元非線性化,從而使網(wǎng)絡(luò)具有更強的特征表達能力。激活函數(shù)選擇Sigmoid函數(shù)。

卷積層中所使用的卷積核尺寸若過小,就無法提取有效表達的特征,過大則提取到的特征過于復(fù)雜。對于卷積層征圖個數(shù)的設(shè)置,在一定范圍內(nèi),特征圖的個數(shù)越多,卷積層提取到越多有效表達原目標(biāo)信息的特征,但是特征圖個數(shù)如果過多,會使提取到的特征產(chǎn)生冗余,最終使分類效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)

式(1)中,Mj表示選擇輸入的特征圖集合,l是當(dāng)前層數(shù),f是激活函數(shù),klij表示不同輸入特征圖對應(yīng)的卷積核,blj為輸出特征圖對應(yīng)的加性偏置。

(2)卷積層C1后的采樣層S1由6個特征平面組成,采樣層對上一層特征圖進行局部平均和二次特征提取。采樣過程如圖4所示,特征平面上的每個神經(jīng)元與上一層4×4大小的互不重合的鄰域連接進行均值采樣,最終每個平面的大小為24×24。采樣層的各平面由式(2)決定:

Xlj=f(βljdown(Xl-1j)+blj)(2)

式(2)中,down(.)表示一個下采樣函數(shù),l是當(dāng)前層數(shù),f是激活函數(shù),βlj表示輸出特征圖對應(yīng)的乘性偏置,blj為輸出特征圖對應(yīng)的加性偏置。

(3)卷積層C2與C1層操作方式一樣,唯一區(qū)別的是C2層每個特征圖由6個不同的卷積核與上一層6個特征圖分別卷積求和得到,因此C2層一共有6×6個不同的卷積核,卷積核大小為5×5,C2層每個平面大小為20×20,共6個特征平面。

(4)采樣層S2與S1層操作一樣,對上一層4×4大小鄰域進行均值采樣,輸出6個5×5大小的特征平面。本文所用的網(wǎng)絡(luò)共包括2個卷積層、2個采樣層、1個全連接層,由于輸入圖片已經(jīng)過背景分離的預(yù)處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網(wǎng)絡(luò)已經(jīng)有很好的表達能力。如果直接將原圖作為輸入,那么網(wǎng)絡(luò)的層數(shù)以及特征圖的個數(shù)將比圖1所示的網(wǎng)絡(luò)更加復(fù)雜。

(5)全連接層將上一層6個5×5大小的二維平面展開成為1×150大小的一維向量輸入Softmax[23]分類器,輸出層一共有3個神經(jīng)元(即分類的種類數(shù)目),分類器將提取到的特征向量映射到輸出層的3個神經(jīng)元上,即實現(xiàn)分類。

2.2網(wǎng)絡(luò)訓(xùn)練

訓(xùn)練方式為有監(jiān)督地訓(xùn)練,網(wǎng)絡(luò)對盤子、花瓶和碗共三類圖片進行分類,所以分類器輸出一個3維向量,稱為分類標(biāo)簽。在分類標(biāo)簽的第k維中1表示分類結(jié)果,否則為0。訓(xùn)練過程主要分為兩個階段:

第一階段:向前傳播A段。

將預(yù)處理過的圖片輸入卷積神經(jīng)網(wǎng)絡(luò)計算得到分類標(biāo)簽。

第二階段:向后傳播階段。

計算輸出的分類標(biāo)簽和實際分類標(biāo)簽之間的誤差。根據(jù)誤差最小化的原則調(diào)整網(wǎng)絡(luò)中的各個權(quán)值。分類個數(shù)為3,共有N個訓(xùn)練樣本。那么第n個樣本的誤差為:

En=12∑3k=1(tnk-ynk)2(3)

式(3)中,tn表示第n個樣本的網(wǎng)絡(luò)輸出標(biāo)簽,tnk對應(yīng)標(biāo)簽的第k維,yn表示第n個樣本的實際分類標(biāo)簽,ynk對應(yīng)標(biāo)簽的第k維。為了使誤差變小,利用權(quán)值更新公式(4)更新各層神經(jīng)元的權(quán)值,一直訓(xùn)練直到網(wǎng)絡(luò)誤差曲線收斂。

W(t+1)=W(t)+η?δ(t)?X(t)(4)

式(4)中,W(t)表示算第n個樣本時的權(quán)值,W(t+1)表示計算第n+1個樣本的權(quán)值,η為學(xué)習(xí)速率,選取經(jīng)驗值,δ為神經(jīng)元的誤差項,X表示神經(jīng)元的輸入。

3實驗結(jié)果及分析

實驗在MatlabR2012a平臺上完成,CPU 2.30GHz,內(nèi)存4GB,所采用的圖像由相關(guān)古玩網(wǎng)站提供,分辨率統(tǒng)一格式化為100×100。由于盤子、花瓶和碗在各種古玩種類中它們之間的形狀差別比較明顯,本文實驗對這三類古玩圖片進行分類。對古玩圖片進行了水平翻轉(zhuǎn)處理,增加圖片數(shù)據(jù)量,以加強網(wǎng)絡(luò)對古玩圖片分類的魯棒性。實驗數(shù)據(jù)如表1所示,圖5列出了3類圖片的部分樣本,實驗所用圖片均與圖5所示圖片類似,背景比較單一,少數(shù)圖片下方有類似陰影。

為了形象表示網(wǎng)絡(luò)各層提取的不同特征,圖6展示了當(dāng)網(wǎng)絡(luò)輸入為盤子時的各層特征圖。卷積層C1中6張?zhí)卣鲌D分別提取到了輸入圖片的不同特征,而由于權(quán)值共享,同一張?zhí)卣鲌D中神經(jīng)元的空間關(guān)系保持不變,所以6張?zhí)卣鲌D都抓住了盤子的圓形特征。采樣層S1對C1進行均值采樣,相當(dāng)于模糊濾波,所以S1層各特征圖看起來模糊了一些。卷積層C2中每張?zhí)卣鲌D由6個不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。

為了說明將背景分離后的圖片作為輸入的網(wǎng)絡(luò)與原圖輸入的網(wǎng)絡(luò)之間的差異,設(shè)計了如表3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)CNN4只需要4層網(wǎng)絡(luò)層就可以達到0.19%的錯誤率,而原圖作為輸入的CNN8共6層網(wǎng)絡(luò)層,在網(wǎng)絡(luò)達到收斂的情況下,錯誤率為5.24%。由此可以說明,將背景分離后圖片作為輸入的網(wǎng)絡(luò)結(jié)構(gòu)更加簡單。

網(wǎng)絡(luò)的訓(xùn)練采用了批量訓(xùn)練方式,即將樣本分多批,當(dāng)一批樣本前向傳播完之后才進行權(quán)值更新,每批大小為100,訓(xùn)練集共2 200張圖片,網(wǎng)絡(luò)迭代次數(shù)為1時共進行22次權(quán)值更新,所以權(quán)值更新的計算次數(shù)與迭代次數(shù)有如下關(guān)系:

計算次數(shù)=22×迭代次數(shù)(5)

圖7為網(wǎng)絡(luò)在訓(xùn)練集上的誤差曲線圖,橫坐標(biāo)為誤差反向傳播的計算次數(shù),縱坐標(biāo)為訓(xùn)練集上的均方誤差。可以看出,當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)達到270次(計算次數(shù)約6 000)時,訓(xùn)練集誤差趨于平緩,網(wǎng)絡(luò)已經(jīng)基本擬合。訓(xùn)練好的網(wǎng)絡(luò)可以用來對測試集圖片進行分類,表4為不同迭代次數(shù)下訓(xùn)練的網(wǎng)絡(luò)在測試集上的分類錯誤率,可以看出迭代次數(shù)在達到270次后,網(wǎng)絡(luò)在測試集的錯誤率收斂,此時只有2張圖片出現(xiàn)分類錯誤。

表5給出了圖像分類算法中常用的人工特征+BP神經(jīng)網(wǎng)絡(luò)、人工特征+SVM分類器以及Hog特征+SVM分類器與CNN方法的性能比較。人工設(shè)計的特征包括圖片中目標(biāo)輪廓的最大長寬比、質(zhì)心、圓度等特征。從準(zhǔn)確率方面來看,CNN方法的準(zhǔn)確率高于其他方法,Hog特征方法的準(zhǔn)確率遠遠高于人工特征的方法,說明了特征的好壞對圖像分類效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設(shè)計的特征更具代表性。從測試時間來看,Hog方法與CNN方法相差不多,采用人工特征的方法時間最長。綜合兩個方面,CNN方法在測試時間和HOG方法相近的情況下,準(zhǔn)確率最高。

4結(jié)語

針對網(wǎng)上古玩圖片分類問題,為了克服現(xiàn)有算法中人工設(shè)計特征困難以及往往依賴個人專業(yè)經(jīng)驗的不足,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法。將背景分離后的目標(biāo)圖片作為網(wǎng)絡(luò)輸入,可以實現(xiàn)自動提取特征進行分類,背景分離后圖片作為網(wǎng)絡(luò)輸入使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,并且設(shè)置了合適的特征圖個數(shù)以使網(wǎng)絡(luò)在古玩圖片集上取得較好的分類準(zhǔn)確率。實驗數(shù)據(jù)表明,該方法能夠解決網(wǎng)上古玩圖片的分類問題,并且分類準(zhǔn)確率達到99%,其準(zhǔn)確率優(yōu)于常用的Hog特征以及人工特征方法。另外該方法不僅可以應(yīng)用于網(wǎng)上古玩圖片,還可應(yīng)用于鞋類、服裝等其它商品圖像的分類。

參考文獻參考文獻:

[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.

[2]董紅霞,郭斯羽,一種結(jié)合形狀與紋理特征的植物葉片分類方法[J].計算機工程與應(yīng)用,2014,50(23):185188.

[3]舒文娉,劉全香,基于支持向量機的印品缺陷分類方法[J].包裝工程,2014,35(23):138142.

[4]應(yīng)義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類[J].江蘇大學(xué)學(xué)報:自然科學(xué)版,2007,28(1):3639.

[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.

[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.

[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.

[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.

[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.

[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.

[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.

[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.

[13]余凱,賈磊,陳雨強,等.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013(09):17991804.

[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.

[15]Z世杰,楊東坡與劉金環(huán),基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像精細分類[J].山東科技大學(xué)學(xué)報:自然科學(xué)版,2014(6):9196.

[16]程文博等,基于卷積神經(jīng)網(wǎng)絡(luò)的注塑制品短射缺陷識別[J].塑料工業(yè),2015(7):3134,38.

[17]鄧柳,汪子杰,基于深度卷積神經(jīng)網(wǎng)絡(luò)的車型識別研究[J].計算機應(yīng)用研究,2016(4):14.

[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.

[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.

[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.

[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.

篇2

(江蘇科技大學(xué)電子信息學(xué)院,江蘇鎮(zhèn)江212003)

摘要:在實際交通環(huán)境中,由于運動模糊、背景干擾、天氣條件以及拍攝視角等因素,所采集的交通標(biāo)志的圖像質(zhì)量往往不高,這就對交通標(biāo)志自動識別的準(zhǔn)確性、魯棒性和實時性提出了很高的要求。針對這一情況,提出一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識別方法。該方法采用深層卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)模型,直接將采集的交通標(biāo)志圖像經(jīng)二值化后作為輸入,通過卷積和池采樣的多層處理,來模擬人腦感知視覺信號的層次結(jié)構(gòu),自動地提取交通標(biāo)志圖像的特征,最后再利用一個全連接的網(wǎng)絡(luò)實現(xiàn)交通標(biāo)志的識別。實驗結(jié)果表明,該方法利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)能力,自動地提取交通標(biāo)志的特征,避免了傳統(tǒng)的人工特征提取,有效地提高了交通標(biāo)志識別的效率,具有良好的泛化能力和適應(yīng)范圍。

關(guān)鍵詞 :交通標(biāo)志;識別;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)

中圖分類號:TN911.73?34;TP391.41 文獻標(biāo)識碼:A 文章編號:1004?373X(2015)13?0101?06

收稿日期:2015?01?09

基金項目:國家自然科學(xué)基金面上項目(61371114)

0 引言

隨著智能汽車的發(fā)展,道路交通標(biāo)志的自動識別[1?3]作為智能汽車的基本技術(shù)之一,受到人們的高度關(guān)注。道路交通標(biāo)志識別主要包括兩個基本環(huán)節(jié):首先是交通標(biāo)志的檢測,包括交通標(biāo)志的定位、提取及必要的預(yù)處理;其次是交通標(biāo)志的識別,包括交通標(biāo)志的特征提取和分類。

如今,交通標(biāo)志的識別方法大多數(shù)都采用人工智能技術(shù),主要有下述兩類形式[4]。一種是采用“人工特征+機器學(xué)習(xí)”的識別方法,如基于淺層神經(jīng)網(wǎng)絡(luò)、支持向量機的特征識別等。在這種方法中,主要依靠先驗知識,人工設(shè)計特征,機器學(xué)習(xí)模型僅負(fù)責(zé)特征的分類或識別,因此特征設(shè)計的好壞直接影響到整個系統(tǒng)性能的性能,而要發(fā)現(xiàn)一個好的特征,則依賴于研究人員對待解決的問題的深入理解。另一種形式是近幾年發(fā)展起來的深度學(xué)習(xí)模型[5],如基于限制波爾茲曼機和基于自編碼器的深度學(xué)習(xí)模型以及卷積神經(jīng)網(wǎng)絡(luò)等。在這種方法中,無需構(gòu)造任何的人工特征,而是直接將圖像的像素作為輸入,通過構(gòu)建含有多個隱層的機器學(xué)習(xí)模型,模擬人腦認(rèn)知的多層結(jié)構(gòu),逐層地進行信息特征抽取,最終形成更具推廣性和表達力的特征,從而提升識別的準(zhǔn)確性。

卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)模型之一,是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它利用一系列的卷積層、池化層以及一個全連接輸出層構(gòu)建一個多層的網(wǎng)絡(luò),來模仿人腦感知視覺信號的逐層處理機制,以實現(xiàn)視覺特征信號的自動提取與識別。本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識別,通過構(gòu)建一個由二維卷積和池化處理交替組成的6層網(wǎng)絡(luò)來逐層地提取交通標(biāo)志圖像的特征,所形成的特征矢量由一個全連接輸出層來實現(xiàn)特征的分類和識別。實驗中將加入高斯噪聲、經(jīng)過位移、縮放和旋轉(zhuǎn)處理的交通標(biāo)志圖像以及實際道路采集交通標(biāo)志圖像分別構(gòu)成訓(xùn)練集和測試集,實驗結(jié)果表明,本文所采用的方法具有良好的識別率和魯棒性。

1 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理

1.1 深度學(xué)習(xí)

神經(jīng)科學(xué)研究表明,哺乳動物大腦皮層對信號的處理沒有一個顯示的過程[5],而是通過信號在大腦皮層復(fù)雜的層次結(jié)構(gòu)中的遞進傳播,逐層地對信號進行提取和表述,最終達到感知世界的目的。這些研究成果促進了深度學(xué)習(xí)這一新興研究領(lǐng)域的迅速發(fā)展。

深度學(xué)習(xí)[4,6?7]的目的就是試圖模仿人腦感知視覺信號的機制,通過構(gòu)建含有多個隱層的多層網(wǎng)絡(luò)來逐層地對信號特征進行新的提取和空間變換,以自動學(xué)習(xí)到更加有效的特征表述,最終實現(xiàn)視覺功能。目前深度學(xué)習(xí)已成功地應(yīng)用到語音識別、圖像識別和語言處理等領(lǐng)域。在不同學(xué)習(xí)框架下構(gòu)建的深度學(xué)習(xí)結(jié)構(gòu)是不同的,如卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型。

1.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理

卷積神經(jīng)網(wǎng)絡(luò)受視覺系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生,第一個卷積神經(jīng)網(wǎng)絡(luò)計算模型是在Fukushima 的神經(jīng)認(rèn)知機中提出的[8],基于神經(jīng)元之間的局部連接和分層組織圖像轉(zhuǎn)換,將有相同參數(shù)的神經(jīng)元應(yīng)用于前一層神經(jīng)網(wǎng)絡(luò)的不同位置,得到一種平移不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式。后來,LeCun 等人在該思想的基礎(chǔ)上,用誤差梯度設(shè)計并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)[9?10],在一些模式識別任務(wù)上得到優(yōu)越的性能。

卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一種有監(jiān)督的深度學(xué)習(xí)算法,無需事先知道輸入與輸出之間精確的數(shù)學(xué)表達式,只要用已知的模式對卷積神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練,就可以學(xué)習(xí)到輸入與輸出之間的一種多層的非線性關(guān)系,這是非深度學(xué)習(xí)算法不能做到的。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)是由一系列的卷積和池化層以及一個全連接的輸出層組成,可以采用梯度下降法極小化誤差函數(shù)對網(wǎng)絡(luò)中的權(quán)值和閾值參數(shù)逐層反向調(diào)節(jié),以得到網(wǎng)絡(luò)權(quán)值和閾值的最優(yōu)解,并可以通過增加迭代次數(shù)來提高網(wǎng)絡(luò)訓(xùn)練的精度。

1.2.1 前向傳播

在卷積神經(jīng)網(wǎng)絡(luò)的前向傳播中,輸入的原始圖像經(jīng)過逐層的卷積和池化處理后,提取出若干特征子圖并轉(zhuǎn)換成一維特征矢量,最后由全連接的輸出層進行分類識別。

在卷積層中,每個卷積層都可以表示為對前一層輸入圖像的二維卷積和非線性激勵函數(shù),其表達式可用式(1)表示:

式中:Yj 表示輸出層中第j 個輸出;Y l + 1i 是前一層(l + 1層)

的輸出特征(全連接的特征向量);n 是輸出特征向量的長度;Wij 表示輸出層的權(quán)值,連接輸入i 和輸出j ;bj表示輸出層第j 個輸出的閾值;f (?) 是輸出層的非線性

1.2.2 反向傳播

在反向傳播過程中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法采用類似于BP神經(jīng)網(wǎng)絡(luò)的梯度最速下降法,即按極小化誤差的方法反向傳播調(diào)整權(quán)值和閾值。網(wǎng)絡(luò)反向傳播回來的誤差是每個神經(jīng)元的基的靈敏度[12],也就是誤差對基的變化率,即導(dǎo)數(shù)。下面將分別求出輸出層、池采樣層和卷積層的神經(jīng)元的靈敏度。

(1)輸出層的靈敏度

對于誤差函數(shù)式(6)來說,輸出層神經(jīng)元的靈敏度可表示為:

在前向傳播過程中,得到網(wǎng)絡(luò)的實際輸出,進而求出實際輸出與目標(biāo)輸出之間的誤差;在反向傳播過程中,利用誤差反向傳播,采用式(17)~式(20)來調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,極小化誤差;這樣,前向傳播和反向傳播兩個過程反復(fù)交替,直到達到收斂的要求為止。

2 深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識別方法

2.1 應(yīng)用原理

交通標(biāo)志是一種人為設(shè)計的具有特殊顏色(如紅、黃、白、藍、黑等)和特殊形狀或圖形的公共標(biāo)志。我國的交通標(biāo)志主要有警告、禁令、指示和指路等類型,一般采用顏色來區(qū)分不同的類型,用形狀或圖形來標(biāo)示具體的信息。從交通標(biāo)志設(shè)計的角度來看,屬于不同類型(不同顏色)的交通標(biāo)志在形狀或圖形上有較大的差異;屬于相同類型(相同顏色)的標(biāo)志中同類的指示信息標(biāo)志在形狀或圖形上比較接近,如警告標(biāo)志中的平面交叉路口標(biāo)志等。因此,從機器視覺的角度來分析,同類型中同類指示信息的標(biāo)志之間會比不同類型的標(biāo)志之間更易引起識別錯誤。換句話說,相比于顏色,形狀或圖形是正確識別交通標(biāo)志的關(guān)鍵因素。

因此,在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志時,從提高算法效率和降低錯誤率綜合考慮,將交通標(biāo)志轉(zhuǎn)換為灰度圖像并作二值化處理后作為卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像信息。圖2給出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志的原理圖。該網(wǎng)絡(luò)采用了6層交替的卷積層和池采樣層來逐層提取交通標(biāo)志的特征,形成的特征矢量由一個全連接的輸出層進行識別。圖中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分別表示卷積層L1,L3,…,Ln - 1 的卷積核;Input表示輸入的交通標(biāo)志圖像;

Pool表示每個池采樣層的采樣池;map表示逐層提取的特征子圖;Y 是最終的全連接輸出。

交通標(biāo)志識別的判別準(zhǔn)則為:對于輸入交通標(biāo)志圖像Input,網(wǎng)絡(luò)的輸出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},則Input ∈ j,即判定輸入的交通標(biāo)志圖像Input為第j 類交通標(biāo)志。

2.2 交通標(biāo)志識別的基本步驟

深層神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志主要包括交通標(biāo)志的訓(xùn)練與識別,所以將交通標(biāo)志識別歸納為以下4個步驟:(1) 圖像預(yù)處理:利用公式Gray= 0.299R +0.587G + 0.114B 將彩色交通標(biāo)志圖像轉(zhuǎn)換為灰度圖像,再利用鄰近插值法將交通標(biāo)志圖像規(guī)格化,最后利用最大類間方差將交通標(biāo)志圖像二值化。

(2)網(wǎng)絡(luò)權(quán)值和閾值的初始化:利用隨機分布函數(shù)將權(quán)值W 初始化為-1~1之間的隨機數(shù);而將閾值b 初始化為0。

(3)網(wǎng)絡(luò)的訓(xùn)練:利用經(jīng)過預(yù)處理的交通標(biāo)志圖像構(gòu)成訓(xùn)練集,對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,通過網(wǎng)絡(luò)前向傳播和反向傳播的反復(fù)交替處理,直到滿足識別收斂條件或達到要求的訓(xùn)練次數(shù)為止。

(4)交通標(biāo)志的識別:將實際采集的交通標(biāo)志圖像經(jīng)過預(yù)處理后,送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進行交通標(biāo)志特征的提取,然后通過一個全連接的網(wǎng)絡(luò)進行特征分類與識別,得到識別結(jié)果。

3 實驗結(jié)果與分析

實驗主要選取了我國道路交通標(biāo)志的警告標(biāo)志、指示標(biāo)志和禁令標(biāo)志三類中較常見的50幅圖像??紤]到在實際道路中采集到的交通標(biāo)志圖像會含有噪聲和出現(xiàn)幾何失真以及背景干擾等現(xiàn)象,因此在構(gòu)造網(wǎng)絡(luò)訓(xùn)練集時,除了理想的交通標(biāo)志以外,還增加了加入高斯噪聲、經(jīng)過位移、旋轉(zhuǎn)和縮放處理和實際采集到的交通標(biāo)志圖像,因此最終的訓(xùn)練樣本為72個。其中,加入的高斯噪聲為均值為0,方差分別為0.1,0.2,0.3,圖像的位移、旋轉(zhuǎn)、縮放的參數(shù)分別隨機的分布在±10,±5°,0.9~1.1的范圍內(nèi)。圖3給出了訓(xùn)練集中的交通標(biāo)志圖像的示例。圖4是在實際道路中采集的交通標(biāo)志圖像構(gòu)成的測試集的示例。

在實驗中構(gòu)造了一個輸入為48×48個神經(jīng)元、輸出為50 個神經(jīng)元的9 層網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是像素為48 × 48 的規(guī)格化的交通標(biāo)志圖像,輸出對應(yīng)于上述的50種交通標(biāo)志的判別結(jié)果。網(wǎng)絡(luò)的激活函數(shù)采用S型函數(shù),如式(2)所示,其輸出范圍限制在0~1之間。

圖6是交通標(biāo)志的訓(xùn)練總誤差EN 曲線。在訓(xùn)練開始的1 500次,誤差能迅速地下降,在迭代2 000次以后是一個平穩(wěn)的收斂過程,當(dāng)?shù)?0萬次時,總誤差EN可以達到0.188 2。

在交通標(biāo)志的測試實驗中,為了全面檢驗卷積神經(jīng)網(wǎng)絡(luò)的識別性能,分別針對理想的交通標(biāo)志,加入高斯噪聲、經(jīng)過位移、旋轉(zhuǎn)和比例縮放以及采集的交通標(biāo)志圖像進行實驗,將以上測試樣本分別送入到網(wǎng)絡(luò)中識別,表2給出了測試實驗結(jié)果。

綜合分析上述實驗結(jié)果,可以得到以下結(jié)論:(1)在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)過程中,整個網(wǎng)絡(luò)的誤差曲線快速平穩(wěn)的下降,體現(xiàn)出卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)具有良好的收斂性。

(2)經(jīng)逐層卷積和池采樣所提取的特征具有比例縮放和旋轉(zhuǎn)不變性,因此對于旋轉(zhuǎn)和比例縮放后的交通標(biāo)志能達到100%的識別率。

(3)與傳統(tǒng)的BP網(wǎng)絡(luò)識別方法[11]相比較,卷積神經(jīng)網(wǎng)絡(luò)能夠達到更深的學(xué)習(xí)深度,即在交通標(biāo)志識別時能夠得到更高的所屬類別概率(更接近于1),識別效果更好。

(4)卷積神經(jīng)網(wǎng)絡(luò)對實際采集的交通標(biāo)志圖像的識別率尚不能達到令人滿意的結(jié)果,主要原因是實際道路中采集的交通標(biāo)志圖像中存在著較嚴(yán)重的背景干擾,解決的辦法是增加實際采集的交通標(biāo)志訓(xùn)練樣本數(shù),通過網(wǎng)絡(luò)的深度學(xué)習(xí),提高網(wǎng)絡(luò)的識別率和魯棒性。

4 結(jié)論

本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識別,利用卷積神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)來模仿人腦感知視覺信號的機制,自動地提取交通標(biāo)志圖像的視覺特征并進行分類識別。實驗表明,應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志取得了良好的識別效果。

在具體實現(xiàn)中,從我國交通標(biāo)志的設(shè)計特點考慮,本文將經(jīng)過預(yù)處理二值化的圖像作為網(wǎng)絡(luò)的輸入,主要是利用了交通標(biāo)志的形狀信息,而基本略去了顏色信息,其優(yōu)點是在保證識別率的基礎(chǔ)上,可以簡化網(wǎng)絡(luò)的結(jié)構(gòu),降低網(wǎng)絡(luò)的計算量。在實際道路交通標(biāo)志識別中,將形狀信息和顏色信息相結(jié)合,以進一步提高識別率和對道路環(huán)境的魯棒性,是值得進一步研究的內(nèi)容。

此外,本文的研究沒有涉及到道路交通標(biāo)志的動態(tài)檢測,這也是今后可以進一步研究的內(nèi)容。

參考文獻

[1] 劉平華,李建民,胡曉林,等.動態(tài)場景下的交通標(biāo)識檢測與識別研究進展[J].中國圖象圖形學(xué)報,2013,18(5):493?503.

[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.

[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.

[4] 中國計算機學(xué)會.深度學(xué)習(xí):推進人工智能夢想[EB/OL].[2013?06?10].http://ccg.org.cn.

[5] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖象圖形學(xué)報,2014,19(2):175?184.

[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.

[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.

[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.

[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.

[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.

[11] 楊斐,王坤明,馬欣,等.應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類器識別交通標(biāo)志[J].計算機工程,2003,29(10):120?121.

[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.

[13] 周開利,康耀紅.神經(jīng)網(wǎng)絡(luò)模型及其Matlab 仿真設(shè)計[M].北京:清華大學(xué)出版社,2005.

[14] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012,29(8):2806?2810.

[15] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進展[J].計算機應(yīng)用研究,2014(7):1921?1930.

篇3

>> 基于PCA—LDA與蟻群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的人臉識別算法 基于粒子群算法和神經(jīng)網(wǎng)絡(luò)的人臉識別分類器研究 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別研究 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識別研究 基于PCA算法的人臉識別技術(shù)研究 基于改進PCA算法的人臉識別研究 基于MB_LBP和PCA算法的人臉識別研究 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識別算法的實現(xiàn) 基于模糊混沌神經(jīng)網(wǎng)絡(luò)的人臉識別算法 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別 基于子圖分割和BP神經(jīng)網(wǎng)絡(luò)的人臉識別方法 基于EMPCA和RBF神經(jīng)網(wǎng)絡(luò)的人臉識別 基于改進PCA與FLD算法的人臉識別 基于模糊人工神經(jīng)網(wǎng)絡(luò)的人臉識別研究 基于改進的LBP和PCA算法的人臉識別 基于并行PCA算法的人臉識別系統(tǒng)的研究 基于PCA和SVM的人臉識別 基于PCA和FLD的人臉識別方法 基于快速PCA―SVM的人臉識別研究 基于主分量分析的BP神經(jīng)網(wǎng)絡(luò)人臉圖像識別算法 常見問題解答 當(dāng)前所在位置:l.

[6]劉學(xué)勝.基于PCA和SVM算法的人臉識別[J].計算機與數(shù)字工程,2011(7).

[7]廖海濱,陳慶虎. 基于因子分析的實用人臉識別研究[J].電子與信息學(xué)報,2011(7).

[8]蔡曉曦,陳定方.特征臉及其改進方法在人臉識別中的比較研究[J].計算機與數(shù)字工程,2007(4).

篇4

關(guān)鍵詞 深度神經(jīng)網(wǎng)絡(luò) 圖像分類 車型識別 預(yù)測

中圖分類號:TP317.4 文獻標(biāo)識碼:A

0 引言

所謂的深度學(xué)習(xí)是根據(jù)具有多層結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)所提出。在具體的深度學(xué)習(xí)中,主要借助模擬神經(jīng)系統(tǒng)中的層次結(jié)構(gòu),來進行數(shù)據(jù)結(jié)構(gòu)特征的反映,一般來說,細節(jié)用低層次進行表示,抽象數(shù)據(jù)結(jié)構(gòu)則用高層次來表示,利用這種方式,能夠進行數(shù)據(jù)挖掘?qū)W習(xí),滿足學(xué)習(xí)要求。在傳統(tǒng)的車型識別發(fā)展中,主要涉及到的技術(shù)包括模式識別、特征選擇和提取以及檢測分割等方面內(nèi)容,在技術(shù)發(fā)展中,存在的難點主要涉及到如何將完整的目標(biāo)車輛區(qū)域進行分割,這是項基礎(chǔ)工作,也是難點所在。這結(jié)合實際需求,對于不同拍攝角度下的汽車圖片,包括皮卡車、SUV、面包車以及小轎車進行車型識別,其目標(biāo)質(zhì)量分割質(zhì)量則是最為關(guān)鍵的技術(shù),直接影響到最后的判斷效果。所以,應(yīng)該重視進行具有代表性特征的選擇處理,并相應(yīng)轉(zhuǎn)化成有效的參數(shù)過程。在獲取特征參數(shù)后,則應(yīng)該結(jié)合項目要求來選擇合理的分類器,這樣才能保障識別的準(zhǔn)確率。結(jié)合汽車車型識別問題的要求,這里網(wǎng)絡(luò)輸入則是原始圖像,利用神經(jīng)網(wǎng)絡(luò)優(yōu)勢,原始數(shù)據(jù)經(jīng)過卷積層、完全連接層以及Softmax 層的培訓(xùn)學(xué)習(xí),通過這種深度神經(jīng)網(wǎng)絡(luò)來進行分析處理,免于上述存在難度的圖像分割、手工提取等過程。

1數(shù)據(jù)集

這里的車型識別目標(biāo)的數(shù)據(jù)集主要包括皮卡車、SUV、面包車以及小轎車等四種類型。其中,訓(xùn)練集和測試集分別包括1025張和368張原始圖片。此數(shù)據(jù)集中,包括不同攝像角度中的汽車圖像照片,具有背景復(fù)雜、圖像大小不統(tǒng)一,車輛在圖片中所占比例具有較大差異性等方面問題,這些都在一定程度上造成車型識別的難度上升。

在預(yù)處理中,為了保證網(wǎng)絡(luò)輸入的一致性,對于原始圖像進行調(diào)整處理為256?56?尺寸。在此基礎(chǔ)上,對于圖像RGB三個通道的均值進行計算,并進行均值標(biāo)準(zhǔn)化的處理。在具體的網(wǎng)絡(luò)訓(xùn)練測試的過程中,主要則是選取224?24? 的樣本作為輸入。

2網(wǎng)絡(luò)結(jié)構(gòu)探討

結(jié)合文獻所提出的深度神經(jīng)網(wǎng)絡(luò)VGG16的優(yōu)勢,我們將其應(yīng)用在汽車車型識別問題中。VGG16網(wǎng)絡(luò)具有較強的優(yōu)勢,主要包括5個堆棧式的卷積神經(jīng)網(wǎng)絡(luò)ConvNet,以及3個完全連接層以及1個Softmax層,由此可見,其屬于“網(wǎng)絡(luò)中的網(wǎng)絡(luò)”架構(gòu)。在每個每個ConvNet中,還有多個卷積層所構(gòu)成,然后緊跟隨著Max-Pooling層。在進行卷積以及池化處理的基礎(chǔ)上,進行三層完全連接處理,同時,Softmax層的輸入則是最后一個完全連接曾的輸出,在這基礎(chǔ)上,實現(xiàn)車型分類的要求。結(jié)合實際需求,將非線性的ReLU層加入該網(wǎng)絡(luò)中,這樣就會讓ReLU來處理卷積層和完全連接層的輸出,保證訓(xùn)練時間有效降低。另外,還將一種正則化Dropout方式應(yīng)用在網(wǎng)絡(luò)中,避免出現(xiàn)完全連接層中的過擬合問題。

另一個神經(jīng)網(wǎng)絡(luò)Alexnet,結(jié)構(gòu)稍微簡單一些,主要包括5卷積層、3個完全連接層、Softmax層等幾部分,在進行部分卷積層處理后,在進行Max- Pooling層處理。在此網(wǎng)絡(luò)中,同樣采用非線性的ReLU層,所采用難度重疊池化方式,也能有效保證盡量降低過擬合的問題。

3實驗結(jié)果分析

結(jié)合上述分析的深度神經(jīng)網(wǎng)絡(luò)VGG16和AlexNet的基礎(chǔ)上,進行Gaffe框架的搭設(shè),為了保證運算效率,建立在GeForce GTX TITAN X CPU的工作站中。經(jīng)過統(tǒng)計,單一網(wǎng)路訓(xùn)練大約為2小時,一張圖片測試大約為0.2秒。在應(yīng)用上述網(wǎng)絡(luò)測試、訓(xùn)練之外,在分類過程中,還應(yīng)用了經(jīng)典的分類算法KNN。經(jīng)過實驗分析,可以看出,VGG16網(wǎng)絡(luò)能夠具有比較好的分類結(jié)果,能夠?qū)崿F(xiàn)準(zhǔn)確率為97.3%,而AlexNet網(wǎng)絡(luò)準(zhǔn)確率達到為93.0%,KNN算法不能有效處理較為復(fù)雜背景的圖片,分類準(zhǔn)確率僅為52.3%。在具體的案例中,分析VGG16網(wǎng)絡(luò)錯誤分類的情況,面包車具有完全正確的分類效果。在錯誤分類的SUV車型中,究其原因,主要包括:車顏色有兩部分組成,紅色部分則和皮卡車車型相同;車型結(jié)構(gòu)太類似于皮卡車;背景中加入其他車型,這樣會造成分類結(jié)果不準(zhǔn)確。如果圖片中僅僅包括車頭的情況,在進行車型識別中也存在較大的難度,不同車型從前面角度進行觀察,并沒有太大的差異化,這點應(yīng)該明確指出。

4結(jié)語

這里采用深度學(xué)習(xí)方法,結(jié)合先進的深度神經(jīng)網(wǎng)絡(luò),以及功能強大的計算機工作站,對于四類汽車進行識別實驗研究。經(jīng)過試驗表明,VGG16網(wǎng)絡(luò)具有最好的分類效果,傳統(tǒng)的經(jīng)典分類算法往往僅為其準(zhǔn)確率的一半左右。所以,可以看出深度神經(jīng)網(wǎng)絡(luò)具有強大的學(xué)習(xí)能力,能夠在圖像分類問題中表現(xiàn)出很大優(yōu)勢,應(yīng)該不斷優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以便其適用于更多的圖像分類要求。

參考文獻

[1] Hinton G E, Osindero S, Teh Y W.A Fast Learning Algorithm For Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527-1554.

篇5

內(nèi)容簡介:騰訊的月活躍用戶8.3億

微信月活躍用戶4.4億

QQ空間月活躍用戶6.5億

游戲月活躍用戶過億

如今騰訊的數(shù)據(jù)分析已經(jīng)能做到始終“不落地”,即全部的實時處理。騰訊大數(shù)據(jù)平臺有如下核心模塊:TDW、TRC、TDBank、TPR和Gaia。簡單來說,TDW用來做批量的離線計算,TRC負(fù)責(zé)做流式的實時計算,TPR負(fù)責(zé)精準(zhǔn)推薦,TDBank則作為統(tǒng)一的數(shù)據(jù)采集入口,而底層的Gaia則負(fù)責(zé)整個集群的資源調(diào)度和管理。李勇還特別強調(diào)了數(shù)據(jù)平臺體系化是應(yīng)用基礎(chǔ),數(shù)據(jù)應(yīng)用商業(yè)化是價值導(dǎo)向。

數(shù)據(jù)平臺體系化是應(yīng)用基礎(chǔ),數(shù)據(jù)應(yīng)用商業(yè)化是價值導(dǎo)向。

騰訊深度學(xué)習(xí)平臺的挑戰(zhàn)深度神經(jīng)網(wǎng)絡(luò)模型復(fù)雜,訓(xùn)練數(shù)據(jù)多,計算量大

模型復(fù)雜:人腦有100多億個神經(jīng)細胞,因此DNN的神經(jīng)元和權(quán)重多

訓(xùn)練數(shù)據(jù)多:大量訓(xùn)練數(shù)據(jù)才能訓(xùn)練出復(fù)雜模型

微信語音識別:數(shù)萬個神經(jīng)元,超過50,000,000參數(shù),超過4,000,000,000樣本,單機訓(xùn)練耗時以年計,流行的GPU卡需數(shù)周

深度神經(jīng)網(wǎng)絡(luò)需要支持大模型

更深更寬的網(wǎng)絡(luò)能獲得更好的結(jié)果

以圖像識別為例,增加卷積層的filter數(shù)量,加大模型深度等,可獲得更好的模型質(zhì)量

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中超參數(shù)多,需要反復(fù)多次實驗

非線性模型:代價函數(shù)非凸,容易收斂到局部最優(yōu)解

敏感的超參數(shù):模型結(jié)構(gòu)、輸入數(shù)據(jù)處理方式、權(quán)重初始化方案、參數(shù)配置、激活函數(shù)選擇、權(quán)重優(yōu)化方法等

數(shù)學(xué)基礎(chǔ)研究稍顯不足,倚重技巧和經(jīng)驗

騰訊深度學(xué)習(xí)平臺Mariana

騰訊有廣泛的深度學(xué)習(xí)應(yīng)用需求,其挑戰(zhàn)如下模型復(fù)雜,訓(xùn)練數(shù)據(jù)多,計算量大

需要支持大模型

訓(xùn)練中超參數(shù)多,需要反復(fù)多次實驗

Mariana騰訊深度學(xué)習(xí)平臺提供三個框架解決上述問題

Mariana DNN: 深度神經(jīng)網(wǎng)絡(luò)的GPU數(shù)據(jù)并行框架

Mariana CNN: 深度卷積神經(jīng)網(wǎng)絡(luò)的GPU數(shù)據(jù)并行和模型并行框架

Mariana Cluster: 深度神經(jīng)網(wǎng)絡(luò)的CPU集群框架

Mariana已支持了訓(xùn)練加速、大模型和方便的訓(xùn)練作業(yè)

微信語音識別6 GPU做到4.6倍加速比

微信圖像識別4 GPU做到2.5倍加速比,并支持大模型

篇6

【關(guān)鍵詞】人工智能 圖像識別 深度學(xué)習(xí)

1 概述

圖像識別技術(shù)是人工智能研究的一個重要分支,其是以圖像為基礎(chǔ),利用計算機對圖像進行處理、分析和理解,以識別不同模式的對象的技術(shù)。目前圖像識別技術(shù)的應(yīng)用十分廣泛,在安全領(lǐng)域,有人臉識別,指紋識別等;在軍事領(lǐng)域,有地形勘察,飛行物識別等;在交通領(lǐng)域,有交通標(biāo)志識別、車牌號識別等。圖像識別技術(shù)的研究是更高級的圖像理解、機器人、無人駕駛等技術(shù)的重要基礎(chǔ)。

傳統(tǒng)圖像識別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計等步驟構(gòu)成。通過專家設(shè)計、提取出圖像特征,對圖像M行識別、分類。近年來深度學(xué)習(xí)的發(fā)展,大大提高了圖像識別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識(特征),自動完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。

2 傳統(tǒng)圖像識別技術(shù)

傳統(tǒng)的圖像識別技術(shù)包括:圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后,需要先對圖像進行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像,如果每個像素的像素值用一個字節(jié)表示,灰度值級數(shù)就等于256級,每個像素可以是0~255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調(diào)整合適,才能使圖片更加清晰、便于觀察。

許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細化處理(如指紋細化,字符細化等),以便獲取主要信息,減少無關(guān)信息。細化操作,可以得到由單像素點組成的圖像輪廓,便于后續(xù)特征提取操作。

基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點。另一類在頻域中進行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。

在完成圖像的預(yù)處理和特征提取之后,我們便能夠?qū)D像進行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等等。K-近鄰算法原理是,當(dāng)一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。

3 基于深度學(xué)習(xí)的圖像識別技術(shù)

一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機制來分析樣本,并盡可能地對樣本的特征進行更深度的學(xué)習(xí)。以圖片為例,利用深度學(xué)習(xí)技術(shù)對樣本的特征進行學(xué)習(xí)時,由低層特征到高層特征越來越抽象,越來越能表達語義概念。當(dāng)樣本輸入后,首先對圖像進行卷積與下采樣操作,卷積和下采樣操作是為了進行特征提取和選擇。以原始像素作為輸入,深度學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)得到較好的特征提取器(卷積參數(shù))。深度學(xué)習(xí)的訓(xùn)練過程,首先將當(dāng)前層的輸出作為下一層的輸入,進行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時優(yōu)化所有層,目標(biāo)是分類誤差最小化。

傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點數(shù)太過龐大,難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò),以權(quán)值共享的方式減少了節(jié)點數(shù)量,從而能夠加深學(xué)習(xí)的深度,使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。

與傳統(tǒng)識別技術(shù)相比,深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢:

(1)無需人工設(shè)計特征,系統(tǒng)可以自行學(xué)習(xí)歸納出特征。

(2)識別準(zhǔn)確度高,深度學(xué)習(xí)在圖像識別方面的錯誤率已經(jīng)低于人類平均水平,在可預(yù)見的將來,計算機將大量代替人力進行與圖像識別技術(shù)有關(guān)的活動。

(3)使用簡單,易于工業(yè)化,深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識,能夠快速實現(xiàn)并商業(yè)化,國內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。

4 存在問題與未來展望

雖然深度學(xué)習(xí)具備諸多優(yōu)點,但目前來看深度學(xué)習(xí)仍有許多不足之處。首先,由于深度學(xué)習(xí)模型為非凸函數(shù),對其的理論研究十分困難,缺乏理論保證。在對數(shù)據(jù)進行調(diào)整時,仍是簡單的“試錯”,缺少理論支撐。

同時,由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學(xué)習(xí),往往需要數(shù)百個甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價太大時,深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU,這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢,往往需要幾天甚至一個月。其模型擴展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程,與環(huán)境缺乏交互。

對其的解決方案目前主要有兩點:

(1)針對于模型擴展性差的問題,通過引入遷移學(xué)習(xí),研究不同任務(wù)或數(shù)據(jù)之間的知識遷移,提高模型的擴展能力、學(xué)習(xí)速度,同時降低學(xué)習(xí)成本,便于冷啟動。

(2)與強化學(xué)習(xí)結(jié)合,研究在動態(tài)環(huán)境下進行深度學(xué)習(xí),提高深度學(xué)習(xí)與環(huán)境交互的能力。

參考文獻

[1]蔣樹強,閔巍慶,王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機研究與發(fā)展,2016:113-122.

[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報,2000:885-894.

[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強算法[J].計算機科學(xué),2016.

[4]孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012:2806-2810.

[5]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進展[J].軟件學(xué)報,2015:26-39.

[6]高陽,陳世福,陸鑫.強化學(xué)習(xí)研究綜述[J].自動化學(xué)報,2004:86-100.

篇7

關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換

中圖分類號:TP18文獻標(biāo)識碼:A文章編號:1009-3044(2009)32-9050-02

Wireless Signal Simulation Algorithm for Automatic Identification

ZHANG Meng

(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)

Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.

Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform

在軍事電子對抗等多方面的重要應(yīng)用,通信信號調(diào)制的自動識別分類問題也相繼發(fā)展起來。無線電信號調(diào)制實識別就是要判斷截獲信號的調(diào)制種類。為此,需要事先對其特征進行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對信號進行特征測量,并根據(jù)測量結(jié)果對信號的調(diào)制進行分類判決。

如果把無線電信號的調(diào)制識別與分類視為一種模式識別問題,那末,從模式識別理論來看,模式分類是模式識別的一個子系統(tǒng)。因此,在模式識別理論框架下,無線電信號的調(diào)制識別是一個總體概念。而調(diào)制分類則只是調(diào)制識別的一個分支[1]。

1 基于決策理論的模擬調(diào)制方式識別方法

此算法主要實現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對象序列s(n)是由接收機中頻輸出并經(jīng)過采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個步驟:

第一步,根據(jù)信號的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開,因為前三種信號的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實際中接近恒定)。因而可以從中提取一個特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠遠小于前三種信號。實際中若R

第二步,根據(jù)信號頻譜的對稱性,將AM與USB與LSB區(qū)分開,因為AM的單邊頻譜關(guān)于載頻是近似對稱的,USB和LSB的單邊頻譜對于載頻來說分別只有上邊頻和下邊頻。因而可以從中提取另一個特征參數(shù) 。理論上,由于AM的上下邊頻對稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實際中若|P|< 0.5,判為AM信號,若P>0.5,判為LSB,P

第三步,零中心非弱信號段瞬時相位非線性分量絕對值的標(biāo)準(zhǔn)偏差:σap 。

σap由下式定義:

(1)

式中,at是判斷弱信號段的一個幅度判決門限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號值的個數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時相位的非線性分量,在載波完全同步時,有:?準(zhǔn)NL(i)= φ(i)-φ0

式中:,φ(i)為瞬時相位。用σap來區(qū)分是DSB信號還是AM-FM信號。

第四步,零中心非弱信號段瞬時相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。

σdp由下式定義:

(2)

σdp主要用來區(qū)別不含直接相位信息的AM、VSB信號類和含直接相位信息的DSB、LSB、USB、AM-FM信號類,其判決門限設(shè)為t(σdp) 。

2 決策論方法的改進

前面介紹的基于決策理論的模擬調(diào)制方式識別方法存在缺陷針對上述問題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識別方法。

2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識別方法

該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過不斷比較網(wǎng)絡(luò)的實際輸出與指定期望輸出間的差異來不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對模型細節(jié)中的諸多問題均有良好效果。

基于NN的模擬信號調(diào)制識別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個輸入層,1個輸出層,1個中間層。中間層可采用多層。但由于受到計算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見。本圖中間層采用單層25個節(jié)點,輸入層和輸出層的節(jié)點數(shù)取決于信號特征參數(shù)的個數(shù)和信號的分類數(shù),因而分別為4和7。

神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲、大規(guī)模自適應(yīng)并行處理和高度容錯特性,適用于模式識別的基礎(chǔ)。其學(xué)習(xí)能力和容錯特性對不確定性模式識別具有獨到之處[3]。通信信號在傳播過程中受到信道噪聲的污染,接受到的信號是時變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯性和推廣能力,兩者優(yōu)勢的結(jié)合可以得到良好的信號模式自動識別特性,從而形成各種處理方法。

2.2 基于小波的特征提取和識別方法

小波特別適用于非穩(wěn)定信號的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點是它能夠提供一個信號局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號分解成不同頻率的塊信號,它對不同的時間和頻率有不同的解釋,因此,對調(diào)制信號進行小波分解,得到不同水平下的細節(jié)信息,這些信息對于不同類別的調(diào)制信號來說是有差別的[4]。

在實際應(yīng)用中,小波變換常用的定義有下列兩種:

(3)

(4)

式中,星號*表示共軛。式(3)表示小波變換是輸入信號想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。

將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):

(5)

Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實、頻兩域都具有很好的局部性,它的時域形式如下:

(6)

雖然信號特征有很多種,神經(jīng)網(wǎng)絡(luò)在進行信號識別時,主要是依據(jù)譜峰位置的不同,因此提取信號特征主要任務(wù)就是尋找信號類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個數(shù)學(xué)顯微鏡,通過它,可以詳細了解各類信號在不同低頻段上的頻譜構(gòu)成。

整個系統(tǒng)在PC機上進行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進行聲音錄制。

在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。

3 結(jié)束語

本文僅限于理論理論研究,用MatLab仿真實現(xiàn),沒有用DSP芯片等物理電路實現(xiàn),僅為實際實現(xiàn)提供理論指導(dǎo)。

參考文獻:

[1] 羅利春.無線電偵察信號分析與處理[M].北京:國防工業(yè)出版社,2003.

[2] 楊小牛,樓才義,徐建良.軟件無線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.

篇8

關(guān)鍵詞:PCA算法;人臉識別;五級并行PCA模型;權(quán)重計算;均值濾波

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)19-0147-02

Research on Face Recognition System Based on Parallel PCA Algorithm

ZHAO Ya-peng

(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )

Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.

Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter

1 概述

隨著智能終端設(shè)備(手機、Pad、門禁等)的不斷發(fā)展,身份識別已經(jīng)成為我們?nèi)粘I畹闹匾M成部分,身份驗證技術(shù)被廣泛應(yīng)用于各個領(lǐng)域,特別是人們對于個人隱私信息的保護,使得身份識別再次成為關(guān)注的焦點。人臉識別作為身份識別的重要手段之一,因其具有識別率高、采集性強、接受性高等特點,在身份識別的各類方法中具有獨特的優(yōu)勢,成為了目前比較熱門的研究領(lǐng)域。

目前,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)是圖像識別領(lǐng)域最重要的研究熱點,而且在語音識別領(lǐng)域也取得了不錯的效果,但是卷積神經(jīng)網(wǎng)絡(luò)的整個訓(xùn)練過程比較費時,而且實現(xiàn)相對復(fù)雜,而基于PCA算法的人臉識別技術(shù)因其自身存在的許多缺陷,一直沒有被廣泛應(yīng)用,但該方法實現(xiàn)簡單、學(xué)習(xí)速度較快,因此,本文主要研究改進的并行PCA算法,以彌補傳統(tǒng)PCA算法在人臉識別領(lǐng)域的不足。

本文提出的基于并行PCA算法的人臉識別技術(shù),首先對原始圖像進行預(yù)處理,如灰度歸一化和中值濾波等操作,以消除圖像噪聲、光照等因素造成的影響,使得特征提取更加準(zhǔn)確可靠。然后,通過5級并行PCA模型獲取數(shù)據(jù)的不同特征矩陣,然后將訓(xùn)練圖像和測試圖像分別進行子空間的投影,利用歐氏徑向基函數(shù)(Euclidean Radial Basis Function)進行人臉的匹配,最后根據(jù)訓(xùn)練得到的權(quán)值向量進行加權(quán)決策。本文通過ORL人臉數(shù)據(jù)庫的仿真實驗證明,該算法的效果明顯好于PCA算法。

2 并行PCA算法

PCA(Principal Component Analysis)即主成分分析技術(shù),PCA是基于K-L變換的統(tǒng)計學(xué)分析方法,是多元分析中常用的方法,其基本思想是將高維數(shù)據(jù)投影到低維空間,主要過程在于特征值的計算和矩陣的降維。將PCA應(yīng)用于人臉識別時,首先將圖像轉(zhuǎn)化成矩陣向量,然后進行矩陣的奇異值分解(Singular Value Decomposition),將高維向量通過計算得到的特征向量矩陣投影到低維的向量空間,從而減少數(shù)據(jù)的計算量。

2.1 基于并行PCA算法的人臉識別流程

本文中提出的并行PCA算法,正是基于上述的PCA算法,通過建立5級的PCA算法模型同時進行數(shù)據(jù)特征的學(xué)習(xí),使得最終的人臉識別準(zhǔn)確率得到進一步的提高,具體的人臉識別流程如圖1所示。

2.2 并行PCA算法的實現(xiàn)的步驟

2.2.1 人臉圖像的預(yù)處理

首先,需要把ORL人臉數(shù)據(jù)數(shù)據(jù)庫的所有訓(xùn)練圖像大小進行歸一化,并轉(zhuǎn)化為像素矩陣,矩陣大小記為,為矩陣的行數(shù),為矩陣的列數(shù)。之后利用均值濾波和灰度歸一化進行圖像的去噪處理,以消除光線等問題對圖像造成的影響,以方便后期的特征提取等操作。

2.2.2 人臉圖像的PCA降維

根據(jù)PCA的原理,可以將每一張圖像看成是一個高維的向量,所有的圖像可以看成是這個高維空間中的一點,PCA要做的就是找出另外一個盡可能多的反應(yīng)圖像特征的低維空間。

假如樣本由n張大小為p*q的人臉圖像組成,那么每一張圖像可以保存為一列向量,向量維數(shù)是p*q,真?zhèn)€樣本可以看成是一個行數(shù)為n,列數(shù)為p*q的矩陣記為矩陣A。

根據(jù)上述過程,首先求出矩陣A的協(xié)方差矩陣,然后求出協(xié)方差矩陣的特征值,選取前m個最大的特征值,然后求出對應(yīng)的特征向量,組成一個特征矩陣。通常所說的“特征臉”就是這些特征向量,而特種功能矩陣就是“特征臉”空間或者說子空間。然后可以將每一張圖片投影到該子空間,得到了每一張圖像的投影矩陣(l*m)。

2.2.3 人臉圖像的識別

對于待識別的圖像,也可以看成是一列向量,投影到子空間得到一個投影矩陣,然后一一求出這個投影矩陣與樣本圖像投影矩陣最相似的。然而有可能該人臉不是人臉庫中的,所以最相似的人臉也不一定是同一個人臉,還需要設(shè)置一個閾值來判斷待識別人臉是否是人臉庫中的。

人臉識別部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5級的PCA模型同時進行人臉識別這一操作,最后根據(jù)訓(xùn)練得到的權(quán)值向量進行決策,通過使用多個PCA模型,從而使得整個識別過程的準(zhǔn)確率得到進一步的提升。

3 系統(tǒng)設(shè)計及實現(xiàn)

3.1 系統(tǒng)總體設(shè)計

本文中所提出的基于并行PCA算法的人臉識別系統(tǒng),包括人臉圖像采集模塊、圖像預(yù)處理模塊、識別模塊。人臉圖像采集模塊主要是采集訓(xùn)練圖像數(shù)據(jù)和測試圖像數(shù)據(jù),并由原始圖像提取出4幅與之對應(yīng)的部分圖像;圖像預(yù)處理模塊主要就是進行圖像歸一化和圖像的去噪工作,圖像的歸一化包括大小歸一化和灰度歸一化,可以使用比較常見的直方圖均衡化等技術(shù),而圖像的去噪可以使用中值濾波技術(shù),以去除比較常見的高斯噪聲等;人臉識別模塊是基于5級相互獨立的PCA模型進行特征值的學(xué)習(xí)和比對,而且通過訓(xùn)練得到的權(quán)值向量進行最終的是臉識別決策。整個系統(tǒng)的實現(xiàn)是基于Matlab進行仿真實驗的,實驗數(shù)據(jù)來自劍橋大學(xué)AT&T實驗室創(chuàng)建的ORL人臉數(shù)據(jù)庫。

3.2系統(tǒng)功能模塊實現(xiàn)

3.2.1人臉圖像采集實現(xiàn)

圖像采集模塊主要就是將存儲在本地的圖像文件通過Matlab的imread函數(shù)讀入矩陣中,以方便后期的PCA操作,其核心語句為Image{t}=imread([[filepath,F(xiàn)ilDir(ii).name],'\',ImDir{ii}(jj).name]);

使用上述語句即可讀入訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)文件。

3.2.2 圖像預(yù)處理模塊

該模塊的主要任務(wù)就是利用中值濾波和直方圖均衡化進行圖像的去噪工作,以消除不同光照和圖像噪聲的影響,提高準(zhǔn)確率。其核心代碼為:

S1=zeros(1,256);

for i=1:256

for j=1:i

S1(i)=GP(j)+S1(i);

end

end

S2=round((S1*256)+0.5);

for i=1:256

GPeq(i)=sum(GP(find(S2==i)));

end

3.2.3 識別模塊

圖像經(jīng)過之前的預(yù)處理之后,需要將圖像矩陣轉(zhuǎn)化為列向量,一幅圖像就是一列向量,整個訓(xùn)練圖像構(gòu)成了整個特征空間矩陣,測試圖像也會轉(zhuǎn)化為一列向量,之后會利用矩陣之間的運算進行圖像的分析計算。識別模塊的工作就是根據(jù)測試圖像和之前所有的訓(xùn)練數(shù)據(jù)進行對比,查找到與之最相似的圖像,實驗的結(jié)果如圖2所示。

4 結(jié)論

PCA算法作為傳統(tǒng)的人臉識別算法,因其自身存在的許多缺陷而沒能發(fā)揮較好的作用,但是其自身具有其他算法所不具有的特點,本文設(shè)計的并行PCA算法雖然是基于PCA算法,但是借鑒了卷積神經(jīng)網(wǎng)絡(luò)的多層結(jié)構(gòu),而且使用加權(quán)操作進行最終人臉識別的決策?;贠RL人臉數(shù)據(jù)庫的測試結(jié)果表明,該并行PCA算法的準(zhǔn)確率和魯棒性均得到了進一步的提升,與其他的單獨PCA算法具有十分明顯的優(yōu)勢。

參考文獻:

[1] 張利芳. 基于PCA算法的人臉識別系統(tǒng)研究[D].太原:中北大學(xué),2015.

[2] 楊海燕,蔣新華. 基于并行卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點定位方法研究[J]. 計算機應(yīng)用研究, 2015, 32(8): 2517-2519.

[3] 楊穎嫻. 基于PCA算法和小波變換的人臉識別技術(shù)[J]. 微電子與計算機, 2011, 28(1): 92-94.

[4] 段寶彬,韓立新. 改進的卷積神經(jīng)網(wǎng)絡(luò)及在碎紙拼接中的應(yīng)用[J]. 計算機工程與應(yīng)用, 2014, 50(9): 176-181.

篇9

關(guān)鍵詞:殘差網(wǎng)絡(luò);人臉圖像:年齡分類:非受限條件:Adience數(shù)據(jù)集

中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)14-0169-02

1概述

人臉圖像包含很多信息,如身份、表情、姿態(tài)、性別和年齡。其中,年齡是人的重要生物特征,可以應(yīng)用于多種場景,如基于年齡的人機交互系統(tǒng)、基于年齡的訪問控制、電子商務(wù)中個性營銷及刑事案件偵查中的年齡過濾等n,。很多研究者在人臉圖像年齡估計方面做了大量研究,早期,主要用Gabor,LBP,SFP和BIF等提取特征以及SVM方法進行年齡分類,這些人工提取特征的方法在受限條件下的人臉數(shù)據(jù)集上獲得了不錯的結(jié)果,但是在非受限條件下的人臉年齡分類任務(wù)中效果不佳;近幾年,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)成為了計算機視覺領(lǐng)域的研究熱點。從5層的LeNet,到8層的AlexNet,再到19層的VGGm和22層的GoogleNet,直到上千層的ResNets,無論是網(wǎng)絡(luò)的學(xué)習(xí)能力還是深度都得到顯著提高。因此,越來越多的學(xué)者采用DCNN解決年齡分類問題,并證明其在非受限條件下能獲得明顯優(yōu)于手工提取特征方法的結(jié)果。

在人臉年齡分類中,人臉圖像往往受到面部姿態(tài)、光線、化妝和背景等影響,極大地限制了人臉年齡分類的準(zhǔn)確性。針對非受限條件下人臉圖像年齡分類困難的問題,本文提出了一種基于深度殘差網(wǎng)絡(luò)的非受限條件下人臉年齡分類方法。

2 34層殘差網(wǎng)絡(luò)

He等提出了深度殘差網(wǎng)絡(luò)(ResNets),該網(wǎng)絡(luò)采用殘差塊作為網(wǎng)絡(luò)的基本組成部分,可以很大程度上解決DCNN隨著深度增加而帶來的網(wǎng)絡(luò)退化問題。ResNets在原始卷積層外部加人越層連接(shoacut)支路構(gòu)成基本殘差塊RB,使原始的映射H(X)被表示為H(X)=F(X)+x。ResNets通過殘差塊結(jié)構(gòu)將網(wǎng)絡(luò)對爿(X)的學(xué)習(xí)轉(zhuǎn)化為對F(X)的學(xué)習(xí),而對F(X)的學(xué)習(xí)較H(X)更為簡單。基于殘差塊更易學(xué)習(xí)的特性,ResNets通過順序累加殘差塊成功地緩解了DCNN的退化問題,提高了網(wǎng)絡(luò)性能。

ResNet-34結(jié)構(gòu)如圖1所示,殘差塊的具體表達式如下,函數(shù)F(x)表示殘差映射,x和y分別代表殘差塊的輸入和輸出。當(dāng)x和F數(shù)相同時,采用式(1),此時越層連接既沒有增加額外參數(shù)也沒有增加計算復(fù)雜度。當(dāng)x和F維數(shù)不同時,采用式(2),通過越層連接執(zhí)行1×1卷積映射G(x)以匹配維數(shù)。

ResNet-34網(wǎng)絡(luò)輸入圖像大小為224×224。首先經(jīng)過卷積層,卷積核為7×7,步長為2,輸出特征圖為112×112;再經(jīng)過最大池化層;其次經(jīng)過四組不同殘差塊,各殘差塊組的殘差塊數(shù)量分別為3、4、6和3,并且同組中的殘差塊輸入輸出維度相同,分別為64、128、256和512,各組輸出特征圖大小依次為56×56、28×28、14×14、7×7。最后經(jīng)過平均池化層和全連接層,通過softmax分類器,輸出分類結(jié)果。

3數(shù)據(jù)集

Adience數(shù)據(jù)集來自人們從智能手機設(shè)備自動上傳到網(wǎng)絡(luò)相冊的圖像。這些圖像在上傳之前并沒有經(jīng)過人工過濾,且這些圖像都是在非受限條件下拍攝的。這些圖像在頭部姿勢、面部表情和光線條件質(zhì)量等方面都存在很大差異,所以在Adi-ence數(shù)據(jù)集下的人臉圖像年齡分類任務(wù)面臨巨大挑戰(zhàn)。

Adience包含2284個人的26580張人臉圖像,年齡范圍為0-100歲,共8個年齡段(0-2,4-6,8-13,15-20,25-32,38-43,48-53,60-),年齡分布如表1。

4實驗結(jié)果與分析

為了提升網(wǎng)絡(luò)的人臉分類性能,本文選用ResNet-34在人臉圖像Adience數(shù)據(jù)集上做年齡分類。訓(xùn)練和測試時動量值為0.9,權(quán)重衰減為0.0001。batch大小設(shè)為64,epoch設(shè)為164,初始學(xué)習(xí)率為0.1,在81和122個epoch之后學(xué)習(xí)率分別降為0.01和0.001。本文實驗?zāi)P筒捎肗vidia Titan X GPU訓(xùn)練,運行環(huán)境torch7。

本文采用文獻[7]中的交叉驗證方法,將Adience數(shù)據(jù)集分成五組不同圖像(fold-0,fold-1,fold-2,fold-3,fold-4),令其中一組圖像作為測試集,其余四組圖像作為訓(xùn)練集,共構(gòu)成五種檢測方式。通過計算平均分類準(zhǔn)確度和1-off值作為評估標(biāo)準(zhǔn)。在fold-0測試的年齡分類準(zhǔn)確度的曲線圖如圖2所示,由此可知網(wǎng)絡(luò)能夠很好地收斂。

為了驗證本文方法的有效性,將現(xiàn)有在Adience數(shù)據(jù)集上的年齡分類方法與本文方法對比,各方法人臉年齡分類結(jié)果如表2所示。由表2可以看出本文提出的方法獲得了除DEX w/IMDB-WIKI Pretrain方法以外的最高年齡分類準(zhǔn)確度,主要由于文獻[10]用大規(guī)模人臉數(shù)據(jù)集IMDB-WIKI微調(diào)網(wǎng)絡(luò)。不經(jīng)過大數(shù)據(jù)集對網(wǎng)絡(luò)微調(diào)時,本文提出的基于深度殘差網(wǎng)絡(luò)的年齡分類方法獲得了最高年齡分類準(zhǔn)確度。

篇10

關(guān)鍵詞:黑白棋;人工智能;算法

中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)29-0198-03

1簡介

黑白棋是被稱為“設(shè)計理念”僅次于圍棋的棋類游戲。它的棋盤只有8*8大,乍一看貌似簡單,以為只要略微搜索就可以窮盡其中的路數(shù)。然而隨著探究的不斷深入,這個看似簡單的游戲卻不斷涌現(xiàn)出它神秘莫測的一面。

作為一名高中生,經(jīng)過為數(shù)不多課余時間的努力,我所設(shè)計的黑白棋程序bwcore實力已經(jīng)達到相當(dāng)?shù)乃?。?jīng)測試,它在北京大學(xué)人工智能對抗平臺上戰(zhàn)力排行達到第一。通過與另外一些AI的測試表明,目前的bwcore可以輕易打敗國內(nèi)個人編寫的程序,亦能與專業(yè)公司開發(fā)的黑白棋軟件(zebra,傷心黑白棋等)相抗衡。

本篇著重講述了bwcore是如何更好地運用各類算法,使之融入到黑白棋AI設(shè)計中,達到提高AI水平的目的。本文還對AI設(shè)計作了一定程度的研究,先是介紹了一些較基礎(chǔ)的算法在黑白棋AI設(shè)計中的應(yīng)用,而后還探討了實現(xiàn)AI的一些更高級的方法,以求有所突破。

2AI設(shè)計

2.1Minimax搜索

Minimax搜索的第一要義是雙方都按照對自己最有利的決策,對盤面進行模擬。如果能夠評價某一時刻其中一方的優(yōu)劣程度,則另一方走棋時就會選一種使對方優(yōu)勢盡可能小的走法。如圖所示,按照這種方式模擬出井字棋所有可能的局面,所有局面就構(gòu)成一棵極大極小博弈樹。

根據(jù)上述做法,不難寫出簡易MiniMax搜索的代碼。當(dāng)搜索達到指定深度后,進行當(dāng)前局面的分值估算。val為當(dāng)前層的分值,當(dāng)前層的顏色與己方相同時,使之盡可能大。

float Cmp_BW::MaxMinSearch(Map&fmap,int col,int deep)

{

if deep>target_deep Then

search_cnt++;

return Sence_Evalution

For-Each place_in_board

If place_is_availaleThen

MakeMove

ret=MaxMinSearch(board.color_other,deep+1);

UnMakeMove

if col==my_color Then

2.2剪枝c改進

Minimax算法提供了一種在博弈樹上尋求最優(yōu)解的方法,但缺點很明顯。算法需要遍歷博弈樹上所有可能的情況,盡管很多時候是根本不可能的(例如一方選擇了一個明顯劣勢的位置)。通過AlphaBeta剪枝可以減少這種情況發(fā)生。如果當(dāng)前結(jié)點獲得的值已經(jīng)小于其父節(jié)點之前得出的值,那么就沒有繼續(xù)搜索的必要,因為按照選擇的邏輯,這個節(jié)點一定會被父節(jié)點排除在外。

經(jīng)測試,搜索的節(jié)點數(shù)明顯減少,約為原來的3/4次方。

測試表明,一般人已經(jīng)難以戰(zhàn)勝4~5層的搜索了。而把搜索深度設(shè)定為4層可以在botzone排行榜上達到約40名。

3高級搜索方法

3.1蒙特卡洛搜索

谷歌的圍棋智能AlphaGo就使用了基于蒙特卡洛樹搜索(MCTS)的搜索方式。MCTS在圍棋領(lǐng)域十分成功,在其他方面也有很大的借鑒意義。

蒙特卡洛搜索通過對局面的隨機模擬來獲得對各個節(jié)點搜索的關(guān)注程度,可以說在理念上很接近人的思維方式。UCT算法是蒙特卡洛搜索的一種,旨在得分未知的前提下使期望得分最大。UCT算法為每一個節(jié)點計算UCB值,每次擴展時選擇UCB最大的節(jié)點。

其中,X表示以前的收益,N表示總次數(shù),T表示當(dāng)前階段的次數(shù)。這個式子的蘊含的內(nèi)容是,如果一個節(jié)點的得分很高,那么就它很值得深入研究,而一些得分較低的節(jié)點有時也會去嘗試,但次數(shù)不會很多。在極端條件下,多個選擇方案中有一個方案的值遠好于其他方案,則UCT算法的收斂速度很快。另一方面,如果所有方案得分相差不大,UCT隨著搜索次數(shù)的增加,所有節(jié)點的得分趨于穩(wěn)定。

結(jié)果表明單純的UCT算法效率極高,經(jīng)過很少時間就估算出精確值相近的結(jié)果。但因有時隨機選點得出結(jié)果差異大,下棋時偶爾會出現(xiàn)失誤。但總體而言,樸素的UCT算法的效果已經(jīng)很優(yōu)秀,測試過程中棋力超過前面基于MiniMax搜索的算法??梢韵胍?,如果能在Simulation過程中加以優(yōu)化,還有很大提升空間。

3.2遺傳算法

遺傳算法也是比較好的搜索方式,它通過借鑒生物界的進化規(guī)律來加強搜索。將前面的搜索局面各行列情況視為遺傳算子,搜索過程中經(jīng)過交叉、變異算子,評估新算子的可靠程度,將進化較成功算子反作用于搜索,每次得出更好的搜索方法。具體過程如下:

1)隨機生成n個個體作為迭代的初始群體;

2)計算群體中每個個體的適應(yīng)程度;

3)進行選擇,把適應(yīng)度高的個體的基因傳遞給下一代;

4)使新生成個體的基因交叉互換;

5)對基因做一定程度的變異;

6)返回2),除非適應(yīng)度達到指定水平或已經(jīng)達到最大迭代次數(shù)。

經(jīng)過多次迭代,適應(yīng)度高(這里即勝率高)的基因?qū)⑦z傳下來,最終得到高度適應(yīng)的群體,即我們下一步所期望的走法。

4機器學(xué)習(xí)與增強學(xué)習(xí)

前面的幾種搜索方法比原先單純的搜索更具智能性,有更高的效率。目前為止,我們還未對局面的評估做出很好的改進。而估價函數(shù)的選取十分困難,大多依靠編寫者自己的直覺,有時為了讓某個權(quán)重來達到合適的值,還要耗費大量時間進行試驗并調(diào)節(jié)。所幸,運用機器學(xué)習(xí)的方法可以使這些問題得到較好的解決。

4.1決策樹與隨機森林

決策樹(Decision Tree)是其中一種比較簡單的做法。決策樹可用于對帶標(biāo)簽數(shù)據(jù)的分類,并可以在相對短的時間得出效果良好的結(jié)果。依照數(shù)據(jù)標(biāo)注的特點,決策樹的每一個分支對這些樣本進行劃分,最終使樣本按照標(biāo)簽歸類。預(yù)測時,將想要預(yù)測的數(shù)據(jù)選擇相應(yīng)分支找到對應(yīng)的歸屬即可。

在黑白棋中,如果將黑方獲勝視為樣本中的正類,白方獲勝視為負(fù)類,棋盤上黑白棋子的位置作為樣本的標(biāo)簽,就可以將對局面的評價轉(zhuǎn)化為分類問題。決策樹通過不停尋找最優(yōu)分裂使數(shù)據(jù)更好地被分離。這里使用C4.5算法,通過信息熵獲得最優(yōu)分裂。由于單純使用棋子的位置作為標(biāo)簽信息量較大且十分復(fù)雜,容易造成一種稱為過擬合的題。將決策樹上改為隨機森林,可以避免了過擬合,節(jié)約了訓(xùn)練時間。

4.2神經(jīng)網(wǎng)絡(luò)算法

人工神經(jīng)網(wǎng)絡(luò)是當(dāng)下計算機話題最熱門的內(nèi)容之一。神經(jīng)網(wǎng)絡(luò)的種類繁多,BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中最簡單的一種模型。

BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖,左邊為輸入層節(jié)點,右邊為輸出層節(jié)點,中間包含一個或多個隱含層。

每個神經(jīng)元從其上一層獲得輸入,將輸入通過自身權(quán)值和閾值變換后施以適當(dāng)激活函數(shù),傳遞到下一次神經(jīng)元。這樣的過程稱為正向傳遞(Fowed Transfer)過程。根據(jù)正向傳遞得到的網(wǎng)絡(luò)輸出與訓(xùn)練目標(biāo)比較計算當(dāng)前網(wǎng)絡(luò)的誤差,然后向前調(diào)整各個神經(jīng)元權(quán)值,就是所謂的反向傳遞(Reverse Transfer)過程。BP網(wǎng)絡(luò)不停通過這種方式訓(xùn)練減小誤差,最終使每個訓(xùn)練輸入都收斂于目標(biāo)輸出。

這里使用棋盤上黑白棋子的分布作為輸入層節(jié)點,用01表示,輸出層表示輸贏棋子數(shù)。訓(xùn)練結(jié)果表明,雖然目前的網(wǎng)絡(luò)能較好地擬合訓(xùn)練集中的局面,但對于推廣與訓(xùn)練集不同的輸入數(shù)據(jù)較為困難,這可能是因為當(dāng)前所使用網(wǎng)絡(luò)的局限性。此外,BP神經(jīng)網(wǎng)絡(luò)隱含層的層數(shù)不宜過多,否則收斂十分緩慢。使用深度學(xué)習(xí)中更高級的神經(jīng)網(wǎng)絡(luò)如卷積神經(jīng)網(wǎng)絡(luò)(CNN)等應(yīng)該能夠得到更好的效果,但過程比較復(fù)雜,目前個人難以實現(xiàn)。

4.3訓(xùn)練方式

學(xué)習(xí)算法需要進行訓(xùn)練,一種方式是使用接近后期時搜索得出的結(jié)果,這種方式獲得樣本的準(zhǔn)確度較高。如果按照終局搜索步數(shù)15-20步計,訓(xùn)練好的AI將可以在近30步時獲取很大優(yōu)勢。

//用后期對局結(jié)果作為樣本訓(xùn)練

void Cmp_BW::train(int repeat)

For lxain_count

For remain_step>target_step

run_easy(map)//使用簡單方式下棋,節(jié)約時間

score=getScore(map)//獲得比分

deetree.tmin(map,score);//用樣本訓(xùn)練