卷積神經(jīng)網(wǎng)絡(luò)的深度范文
時(shí)間:2024-04-17 18:09:30
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)的深度,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);自動(dòng)編碼器;非監(jiān)督訓(xùn)練;多尺度分塊;目標(biāo)識(shí)別
中圖分類(lèi)號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A英文標(biāo)題
0引言
對(duì)圖像中目標(biāo)的精確和魯棒識(shí)別是模式識(shí)別及人工智能領(lǐng)域的核心內(nèi)容,在道路監(jiān)控、戰(zhàn)場(chǎng)偵察、精確打擊等領(lǐng)域中有著重要的作用和廣泛的前景。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)成為機(jī)器學(xué)習(xí)新的熱點(diǎn),基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像識(shí)別算法因其較強(qiáng)的魯棒性和突出的識(shí)別率被學(xué)術(shù)界和工業(yè)界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識(shí)別算法,在ImageNet數(shù)據(jù)集上取得了很高的識(shí)別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運(yùn)算的方法在三維NORB數(shù)據(jù)集上取得了很好的識(shí)別效果。以上算法雖然都取得了較高的目標(biāo)識(shí)別率,但是由于算法采用有監(jiān)督的訓(xùn)練方式,需要大量標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行調(diào)整,當(dāng)數(shù)據(jù)量較小時(shí)會(huì)導(dǎo)致模型前幾層網(wǎng)絡(luò)無(wú)法得到充分訓(xùn)練,故只能針對(duì)含標(biāo)簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對(duì)此問(wèn)題,目前主流的解決方法是采用特征提取算法對(duì)CNN的濾波器集進(jìn)行非監(jiān)督的預(yù)訓(xùn)練。文獻(xiàn)[3]采用稀疏編碼提取訓(xùn)練圖像的基函數(shù)作為CNN的初始濾波器;文獻(xiàn)[4]將獨(dú)立成分分析(Independent Component Analysis,ICA)應(yīng)用于CNN的預(yù)訓(xùn)練階段,利用ICA訓(xùn)練濾波器集合,使識(shí)別率得到了一定提高。然而無(wú)論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應(yīng)用于預(yù)訓(xùn)練階段對(duì)算法識(shí)別率的提升也比較有限。所以如何更好地選擇濾波器的預(yù)訓(xùn)練算法仍是十分困難的問(wèn)題。
除了預(yù)訓(xùn)練外,影響CNN識(shí)別率和魯棒性的關(guān)鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對(duì)輸入圖像局部特征的提取情況,文獻(xiàn)[5]證明濾波器尺寸對(duì)最終識(shí)別結(jié)果有很大影響,并給出了單層條件下相對(duì)最優(yōu)的濾波器尺寸。下采樣層主要負(fù)責(zé)對(duì)特征進(jìn)行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴(yán)重,模糊后的特征保持的全局空間信息就越少。文獻(xiàn)[6]證明當(dāng)采樣間隔較小時(shí),即使經(jīng)過(guò)2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入看似相同的圖案。然而下采樣間隔過(guò)小會(huì)導(dǎo)致不變性喪失,過(guò)大則會(huì)損失大量細(xì)節(jié)信息,兩者均會(huì)導(dǎo)致識(shí)別率的下降。
針對(duì)以上問(wèn)題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)(MultiScale Convolutional Neural Network, MSCNN)的圖像目標(biāo)識(shí)別算法。首先利用稀疏自動(dòng)編碼器(Sparse AutoEncoder,SAE)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的濾波器進(jìn)行非監(jiān)督預(yù)訓(xùn)練,通過(guò)最小化重構(gòu)誤差獲得待識(shí)別圖像的隱層表示,進(jìn)而學(xué)習(xí)得到含有訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)特性的濾波器集合,預(yù)訓(xùn)練效果相比ICA更好。其次提出多尺度分塊的方法構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),為了增加魯棒性并減小下采樣對(duì)特征表示的影響,對(duì)輸入圖像進(jìn)行多尺度分塊形成多個(gè)通路,并設(shè)計(jì)相應(yīng)尺寸的濾波器進(jìn)行卷積運(yùn)算,將不同通路下采樣后的輸出進(jìn)行融合從而形成新的特征,輸入softmax分類(lèi)器完成圖像目標(biāo)的識(shí)別。最后通過(guò)大量實(shí)驗(yàn)對(duì)比MSCNN算法與經(jīng)典算法在通用圖像識(shí)別任務(wù)中的識(shí)別率和魯棒性差異,從而驗(yàn)證算法的有效性。
4仿真實(shí)驗(yàn)及分析
本文使用STL10公開(kāi)數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機(jī)圖像數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn),將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因?yàn)槠浜胁话瑯?biāo)簽的訓(xùn)練集,可用于本文的非監(jiān)督預(yù)訓(xùn)練算法,且圖像中包含更多類(lèi)內(nèi)變化。STL10共10類(lèi)目標(biāo),本文選用其中的4類(lèi)目標(biāo)進(jìn)行實(shí)驗(yàn)。選擇遙感飛機(jī)圖像數(shù)據(jù)則是為了驗(yàn)證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類(lèi)遙感飛機(jī),共400幅。實(shí)驗(yàn)時(shí)隨機(jī)選取遙感飛機(jī)圖像庫(kù)中50%的圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本。本文的實(shí)驗(yàn)環(huán)境為CPU2.8GHz、內(nèi)存3GB的計(jì)算機(jī),實(shí)現(xiàn)算法的軟件為Matlab(2011a)。
4.1算法識(shí)別率對(duì)比測(cè)試
MSCNN的各通路尺寸參數(shù)設(shè)置如圖4所示,每個(gè)通道使用300個(gè)濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動(dòng)編碼器預(yù)訓(xùn)練得到。編碼器設(shè)定為3層,稀疏參數(shù)ρ設(shè)定為0.05,訓(xùn)練周期為400。卷積神經(jīng)網(wǎng)絡(luò)的下采樣方式采用最大下采樣(max pooling)。
按照上述參數(shù)設(shè)置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓(xùn)練周期均為50。傳統(tǒng)CNN參數(shù)設(shè)定與通路1參數(shù)設(shè)定相同,同樣使用300個(gè)濾波器,濾波器初始值通過(guò)隨機(jī)初始化得到。輸出特征維度為2700。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對(duì)兩種數(shù)據(jù)集的識(shí)別率有一定的提高,說(shuō)明了加入LCN對(duì)目標(biāo)識(shí)別率是有一定的貢獻(xiàn)的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識(shí)別率。MSCNN通路1雖然參數(shù)設(shè)置與CNN相同,但在相同訓(xùn)練周期下識(shí)別率較加入LCN的CNN又有一定提高,說(shuō)明了非監(jiān)督預(yù)訓(xùn)練對(duì)識(shí)別率提高的有效性。對(duì)于STL10數(shù)據(jù)集,可看出通路2的識(shí)別率在3個(gè)通路中最高,通路3則最低,這是因?yàn)橥?輸入的圖像尺寸最小,而STL10類(lèi)內(nèi)變化很大且目標(biāo)不全在圖像中心,故識(shí)別率有所下降。通路之間進(jìn)行兩兩累加后識(shí)別率都有所提高,在3個(gè)通路共同作用時(shí)識(shí)別率最高,達(dá)到83.5%。對(duì)于遙感飛機(jī)圖像集而言,可看出3個(gè)通路中通路2的識(shí)別率最高,這是因?yàn)檫b感飛機(jī)圖像集均為飛機(jī)圖像,不同類(lèi)別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機(jī)類(lèi)別。通路3由于輸入尺寸較小,識(shí)別率稍有下降。同樣的,不同通路之間的疊加都讓識(shí)別率有所提升,最終MSCNN三通路特征融合后的識(shí)別率達(dá)到了96.5%,完全滿(mǎn)足對(duì)于可見(jiàn)光遙感圖像目標(biāo)識(shí)別的需求。
從表1還可看出,本文算法在3個(gè)通路CNN的情況下的識(shí)別率較1個(gè)通路或2個(gè)通路的CNN的識(shí)別率高,由此可以推斷3個(gè)通路CNN所提取的特征具有較強(qiáng)的泛化能力和魯棒性。此外3個(gè)通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實(shí)驗(yàn)
為驗(yàn)證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類(lèi)別的圖像對(duì)其進(jìn)行平移、尺度、旋轉(zhuǎn)變換,然后計(jì)算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對(duì)于目標(biāo)變化的魯棒性,歐氏距離越小就說(shuō)明特征對(duì)于目標(biāo)變化越不敏感,魯棒性就越好。對(duì)于STL10選取四類(lèi)目標(biāo)進(jìn)行實(shí)驗(yàn),對(duì)比算法為CNN;對(duì)于遙感飛機(jī)圖像集隨機(jī)選取10幅進(jìn)行實(shí)驗(yàn),并取距離的平均值,對(duì)比算法為ICA和CNN。測(cè)試結(jié)果如圖6~7所示。
圖6中虛線(xiàn)表示傳統(tǒng)CNN算法得到的結(jié)果,實(shí)線(xiàn)則表示MSCNN得到的結(jié)果,從圖6可看出:無(wú)論是面對(duì)平移、尺度還是旋轉(zhuǎn)變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對(duì)于遙感飛機(jī)圖像集的平移、尺度、旋轉(zhuǎn)均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標(biāo)圖像微小的變化就導(dǎo)致了特征較大的改變。本文算法魯棒性較好首先是因?yàn)镸SCNN采用非監(jiān)督的預(yù)訓(xùn)練方式,訓(xùn)練得到的濾波器含有更多圖像不變性特征;其次是因?yàn)镸SCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當(dāng)于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對(duì)比度標(biāo)準(zhǔn)化,對(duì)于亮度變化較大和存在噪聲的目標(biāo)圖像魯棒性明顯增強(qiáng)。
另外,本文算法采用了多通路多尺度分塊的方法,必然會(huì)使網(wǎng)絡(luò)參數(shù)增加,從而會(huì)使訓(xùn)練時(shí)間比較耗時(shí);但在測(cè)試階段,輸入樣本的計(jì)算僅包含一些簡(jiǎn)單的卷積和下采樣,算法復(fù)雜度并沒(méi)有因?yàn)橥ǖ赖脑黾佣黾?,因此在測(cè)試階段的實(shí)時(shí)性較傳統(tǒng)的CNN并沒(méi)有太大變化。
5結(jié)語(yǔ)
本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)非監(jiān)督預(yù)訓(xùn)練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前幾層無(wú)法得到有效訓(xùn)練的問(wèn)題。針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)于復(fù)雜背景圖像識(shí)別率不高的問(wèn)題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時(shí)不至于喪失目標(biāo)的細(xì)節(jié)信息,有效提升了識(shí)別率和魯棒性。與經(jīng)典算法的對(duì)比實(shí)驗(yàn)結(jié)果表明:該方法能夠有效識(shí)別可見(jiàn)光自然圖像和遙感圖像,并對(duì)平移、尺度和旋轉(zhuǎn)變換具有較強(qiáng)的魯棒性。
參考文獻(xiàn):
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機(jī)械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
篇2
【關(guān)鍵詞】深度神經(jīng)網(wǎng)絡(luò) 序列到序列網(wǎng)絡(luò) 卷積網(wǎng)絡(luò) 對(duì)抗式生成網(wǎng)路
1 深度神經(jīng)網(wǎng)絡(luò)起源
人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)研究是人工智能領(lǐng)域的一個(gè)重要分支,在對(duì)生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其機(jī)制研究的基礎(chǔ)上,構(gòu)建類(lèi)似的人工神經(jīng)網(wǎng)絡(luò),使得機(jī)器能直接從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)規(guī)律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機(jī)模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個(gè)人工神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型,19世紀(jì)80年代末期反向傳播(Back Propagation)算法的發(fā)明更是帶來(lái)了ANN的學(xué)習(xí)熱潮,但由于理論分析難度較大,訓(xùn)練方法及技巧尚不成熟,計(jì)算機(jī)運(yùn)算能力還不夠強(qiáng)大,這個(gè)時(shí)期ANN結(jié)構(gòu)較為簡(jiǎn)單,大部分都可等價(jià)為單隱層神經(jīng)網(wǎng)絡(luò),主要是進(jìn)行淺層學(xué)習(xí)(Shallow Learning)研究。
2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預(yù)訓(xùn)練(layerwise greedy pretraining),顯著提高了MNIST手寫(xiě)數(shù)字識(shí)別的準(zhǔn)確率,開(kāi)創(chuàng)了深度學(xué)習(xí)的新方向;隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結(jié)構(gòu),在圖像和文本降維實(shí)驗(yàn)上明顯優(yōu)于傳統(tǒng)算法,證明了深度學(xué)習(xí)的正確性。以這兩篇論文為開(kāi)端,整個(gè)學(xué)術(shù)界掀起了對(duì)深度學(xué)習(xí)的研究熱潮,由于更多的網(wǎng)絡(luò)層數(shù)和參數(shù)個(gè)數(shù),能夠提取更多的數(shù)據(jù)特征,獲取更好的學(xué)習(xí)效果,ANN模型的層數(shù)和規(guī)模相比之前都有了很大的提升,被稱(chēng)之為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)。
2 深度神經(jīng)網(wǎng)絡(luò)的現(xiàn)代應(yīng)用
2010年以來(lái),隨著理論不斷創(chuàng)新和運(yùn)算能力的增長(zhǎng),DNN被應(yīng)用到許多領(lǐng)域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語(yǔ)音識(shí)別的錯(cuò)誤率降低了20%~30%;2012年在ImageNet圖像識(shí)別挑戰(zhàn)賽(ILSVRC2012)中DNN更是將識(shí)別錯(cuò)誤率從26%降到了15%;2016年3月DeepMind團(tuán)隊(duì)研發(fā)的圍棋軟件AlphaGO以4:1的巨大優(yōu)勢(shì)戰(zhàn)勝了世界圍棋冠軍李世石,2017年1月初AlphaGO的升級(jí)版Master以60:0的戰(zhàn)績(jī)擊敗了數(shù)十位中日韓圍棋高手。當(dāng)前對(duì)DNN的研究主要集中在以下領(lǐng)域:
2.1 語(yǔ)音識(shí)別領(lǐng)域
微軟研究院語(yǔ)音識(shí)別專(zhuān)家鄧立和俞棟從2009年開(kāi)始和深度學(xué)習(xí)專(zhuān)家Geoffery Hinton合作,并于2011年宣布推出基于DNN的識(shí)別系統(tǒng),徹底改變了語(yǔ)音識(shí)別的原有技術(shù)框架;2012年11月,百度上線(xiàn)了第一款基于DNN的語(yǔ)音搜索系統(tǒng),成為最早采用DNN技術(shù)進(jìn)行商業(yè)語(yǔ)音服務(wù)的公司之一;2016年微軟使用循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Recurrent Neural Network based Language Modeling,RNN-LM)將switchboard的詞識(shí)別錯(cuò)誤率降低到了6.3%。
2.2 圖像識(shí)別領(lǐng)域
早在1989年,YannLeCun和他的同事們就提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)結(jié)構(gòu)。在之后的很長(zhǎng)一段時(shí)間里,CNN雖然在諸如手寫(xiě)數(shù)字問(wèn)題上取得過(guò)世界最好的成功率,但一直沒(méi)有被廣泛應(yīng)用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯(cuò)誤率從26%降到15%,業(yè)界才重新認(rèn)識(shí)到CNN在圖像識(shí)別領(lǐng)域上的巨大潛力;2012年谷歌宣布基于CNN使得電腦直接從一千萬(wàn)張圖片中自發(fā)學(xué)會(huì)貓臉識(shí)別;2013年DNN被成功應(yīng)用于一般圖片的識(shí)別和理解;2016年DeepMind團(tuán)隊(duì)基于CNN研發(fā)了圍棋AI,并取得了巨大成功。
2.3 自然語(yǔ)言處理領(lǐng)域
2003年YoshuaBengio等人提出單詞嵌入(word embedding)方法將單詞映射到一個(gè)矢量空間,然后用ANN來(lái)表示N-Gram模型;2014年10月NEC美國(guó)研究院將DNN用于自然語(yǔ)言處理(Natural language processing,NLP)的研究工作,其研究員Ronan Collobert和Jason Weston從2008年開(kāi)始采用單詞嵌入技術(shù)和多層一維卷積的結(jié)構(gòu),用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP問(wèn)題;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)網(wǎng)絡(luò)模型,突破了傳統(tǒng)網(wǎng)絡(luò)的定長(zhǎng)輸入向量問(wèn)題,開(kāi)創(chuàng)了語(yǔ)言翻譯領(lǐng)域的新方向;2016年谷歌宣布推出基于DNN的翻譯系統(tǒng)GNMT(Google Neural Machine Translation),大幅提高了翻譯的精確度與流暢度。
3 深度神經(jīng)網(wǎng)絡(luò)常見(jiàn)結(jié)構(gòu)
DNN能夠在各領(lǐng)域取得巨大成功,與其模型結(jié)構(gòu)是密不可分的,現(xiàn)代DNN大都可歸納為三種基本結(jié)構(gòu):序列到序列網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、對(duì)抗式生成網(wǎng)絡(luò),或由這三種基本網(wǎng)絡(luò)結(jié)構(gòu)相互組合而成。
3.1 序列到序列網(wǎng)絡(luò)
序列到序列網(wǎng)絡(luò)的最顯著特征在于,它的輸入張量和輸出張量長(zhǎng)度都是動(dòng)態(tài)的,可視為一串不定長(zhǎng)序列,相比傳統(tǒng)結(jié)構(gòu)極大地?cái)U(kuò)展了模型的適應(yīng)范圍,能夠?qū)π蛄修D(zhuǎn)換問(wèn)題直接建模,并以端到端的方式訓(xùn)練模型。典型應(yīng)用領(lǐng)域有:自動(dòng)翻譯機(jī)(將一種語(yǔ)言的單詞序列轉(zhuǎn)換為另一種語(yǔ)言的單詞序列),語(yǔ)音識(shí)別(將聲波采樣序列轉(zhuǎn)換為文本單詞序列),自動(dòng)編程機(jī)研究(將自然語(yǔ)言序列轉(zhuǎn)換為語(yǔ)法樹(shù)結(jié)構(gòu)),此類(lèi)問(wèn)題的特點(diǎn)在于:
(1)輸入和輸出數(shù)據(jù)都是序列(如連續(xù)值語(yǔ)音信號(hào)/特征、離散值的字符);
(2)輸入和輸出序列長(zhǎng)度都不固定;
(3)輸入輸出序列長(zhǎng)度沒(méi)有對(duì)應(yīng)關(guān)系。
其典型如圖1所示。
網(wǎng)絡(luò)由編碼器(encoder)網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)(decoder)兩部分連接構(gòu)成:
3.1.1 編碼器網(wǎng)絡(luò)
編碼器網(wǎng)絡(luò)通常是一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),網(wǎng)絡(luò)節(jié)點(diǎn)一般使用長(zhǎng)短期記憶模型(Long Short Term Memory,LSTM)實(shí)現(xiàn),序列中里第t個(gè)張量xt的輸出yt依賴(lài)于之前的輸出序列(y0、y1…yt-1),輸入序列(x0、x1、x2…)那爸梁笠來(lái)問(wèn)淙臚絡(luò),整個(gè)序列處理完后得到最終的輸出Y以及各層的隱藏狀態(tài)H。
3.1.2 解碼器網(wǎng)絡(luò)
解碼器網(wǎng)絡(luò)是一個(gè)與編碼器網(wǎng)絡(luò)結(jié)構(gòu)相同的RNN網(wǎng)絡(luò),以解碼器的最終輸出(Y,H)為初始輸入,使用固定的開(kāi)始標(biāo)記S及目標(biāo)序列G當(dāng)作輸入數(shù)據(jù)進(jìn)行學(xué)習(xí),目標(biāo)是使得在X輸入下Y和G盡量接近,即損失度函數(shù)f(X)取得最小值。
解碼器網(wǎng)絡(luò)屬于典型的監(jiān)督學(xué)習(xí)結(jié)構(gòu),可以用BP算法進(jìn)行訓(xùn)練,而編碼器網(wǎng)絡(luò)的輸出傳遞給了解碼器網(wǎng)絡(luò),因此也能同時(shí)進(jìn)行訓(xùn)練。網(wǎng)絡(luò)模型學(xué)習(xí)完畢后,將序列X輸入編碼器,并將起始標(biāo)記S輸入解碼器,網(wǎng)絡(luò)就會(huì)給出正確的對(duì)應(yīng)序列。
3.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)將傳統(tǒng)圖像處理的卷積運(yùn)算和DNN相結(jié)合,屬于前饋神經(jīng)網(wǎng)絡(luò),是在生物視覺(jué)皮層的研究基礎(chǔ)上發(fā)展而來(lái)的,在大型圖像處理上有出色表現(xiàn)。CNN一般由多個(gè)結(jié)構(gòu)相似的單元組成,每個(gè)單元包含卷積層(convolution layer)和池化層(poolinglayer),通常網(wǎng)絡(luò)末端還連接全聯(lián)通層(fully-connected layer,F(xiàn)C)及Softmax分類(lèi)器。這種結(jié)構(gòu)使得CNN非常適合處理二維結(jié)構(gòu)數(shù)據(jù),相比其它DNN在圖像處理領(lǐng)域上具有天然優(yōu)勢(shì),CNN的另一優(yōu)勢(shì)還在于,由于卷積層共享參數(shù)的特點(diǎn),使得它所需的參數(shù)數(shù)量大為減少,提高了訓(xùn)練速度。其典型結(jié)構(gòu)如圖2所示:
3.2.1 卷積層(Convolutional layer)
卷積層由若干卷積核構(gòu)成,每個(gè)卷積核在整個(gè)圖像的所有通道上同時(shí)做卷積運(yùn)算,卷積核的參數(shù)通過(guò)BP算法從訓(xùn)練數(shù)據(jù)中自動(dòng)獲取。卷積核是對(duì)生物視覺(jué)神經(jīng)元的建模,在圖像局部區(qū)域進(jìn)行的卷積運(yùn)算實(shí)質(zhì)上是提取了輸入數(shù)據(jù)的特征,越深層的卷積層所能提取到的特征也越復(fù)雜。例如前幾個(gè)卷積層可能提取到一些邊緣、梯度、線(xiàn)條、角度等低級(jí)特征,后續(xù)的卷積層則能認(rèn)識(shí)圓、三角形、長(zhǎng)方形等稍微復(fù)雜的幾何概念,末尾的卷積層則能識(shí)別到輪子、旗幟、足球等現(xiàn)實(shí)物體。
3.2.2 池化層(Poolinglayer)
池化層是卷積網(wǎng)絡(luò)的另一重要部分,用于縮減卷積層提取的特征圖的尺寸,它實(shí)質(zhì)上是某種形式的下采樣:將圖像劃分為若干矩形區(qū)塊,在每個(gè)區(qū)塊上運(yùn)算池化函數(shù)得到輸出。有許多不同形式的池化函數(shù),常用的有“最大池化”(maxpooling,取區(qū)塊中數(shù)據(jù)的最大值)和“平均池化”(averagepooling,取區(qū)塊中數(shù)據(jù)的平均值)。池化層帶來(lái)的好處在于:
(1)減小了數(shù)據(jù)尺寸,降低參數(shù)的數(shù)量和計(jì)算量;
(2)模糊了各“像素”相對(duì)位置關(guān)系,泛化了網(wǎng)絡(luò)識(shí)別模式。
但由于池化層過(guò)快減少了數(shù)據(jù)的大小,導(dǎo)致,目前文獻(xiàn)中的趨勢(shì)是在池化運(yùn)算時(shí)使用較小的區(qū)塊,甚至不再使用池化層。
3.3 生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)
生成式對(duì)抗網(wǎng)絡(luò)最初由Goodfellow等人在NIPS2014年提出,是當(dāng)前深度學(xué)習(xí)研究的重要課題之一。它的目的是收集大量真實(shí)世界中的數(shù)據(jù)(例如圖像、聲音、文本等),從中學(xué)習(xí)數(shù)據(jù)的分布模式,然后產(chǎn)生盡可能逼真的內(nèi)容。GAN在圖像去噪,修復(fù),超分辨率,結(jié)構(gòu)化預(yù)測(cè),強(qiáng)化學(xué)習(xí)中等任務(wù)中非常有效;另一重要應(yīng)用則是能夠在訓(xùn)練集數(shù)據(jù)過(guò)少的情況下,生成模擬數(shù)據(jù)來(lái)協(xié)助神經(jīng)網(wǎng)絡(luò)完成訓(xùn)練。
3.3.1 模型結(jié)構(gòu)
GAN網(wǎng)絡(luò)典型結(jié)構(gòu)如圖3所示,一般由兩部分組成,即生成器網(wǎng)絡(luò)(Generator)和識(shí)別器網(wǎng)絡(luò)(Discriminator):
(1)生成器網(wǎng)絡(luò)的目標(biāo)是模擬真實(shí)數(shù)據(jù)的分布模式,使用隨機(jī)噪聲生成盡量逼真的數(shù)據(jù)。
(2)識(shí)別器的目標(biāo)是學(xué)習(xí)真實(shí)數(shù)據(jù)的有效特征,從而判別生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的差異度。
3.3.2 訓(xùn)練方法
GAN采用無(wú)監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,輸入向量z一般由先驗(yàn)概率概率pz(z)生成,通過(guò)生成器網(wǎng)絡(luò)產(chǎn)生數(shù)據(jù)G(z)。來(lái)自訓(xùn)練集的真實(shí)數(shù)據(jù)的分布為pdata (x),GAN網(wǎng)絡(luò)的實(shí)質(zhì)是學(xué)習(xí)該特征分布,因此生成的數(shù)據(jù)G(z)必然也存在對(duì)應(yīng)的分布pg (z),而識(shí)別器網(wǎng)絡(luò)則給出數(shù)據(jù)來(lái)自于真實(shí)數(shù)據(jù)的概率D(x)以及D(G(z) )。整個(gè)訓(xùn)練過(guò)程的實(shí)質(zhì)就是生成器網(wǎng)絡(luò)和識(shí)別器網(wǎng)絡(luò)的博弈過(guò)程,即找到
4 深度神經(jīng)網(wǎng)絡(luò)研究展望
DNN雖然在各大領(lǐng)域都取得了重大的成功,甚至宣告了“智能時(shí)代”的來(lái)臨,但是與人類(lèi)大腦相比,DNN在許多方面仍有顯著差距:
4.1 識(shí)別對(duì)抗樣本的挑戰(zhàn)
對(duì)抗樣本是指在數(shù)據(jù)集中添加微小的擾動(dòng)所形成的數(shù)據(jù),這些數(shù)據(jù)能使網(wǎng)絡(luò)以極高的置信度做出錯(cuò)誤的判別。在網(wǎng)絡(luò)實(shí)際使用過(guò)程中會(huì)帶來(lái)非常大的問(wèn)題,比如病毒制造者可能刻意構(gòu)造樣本來(lái)繞過(guò)基于DNN的安全檢查網(wǎng)絡(luò)。部分研究指出問(wèn)題的根因可能在于DNN本身的高度非線(xiàn)性,微小的擾動(dòng)可能在輸出時(shí)產(chǎn)生巨大的差異。
4.2 構(gòu)造統(tǒng)一模型的挑戰(zhàn)
DNN雖然在很多領(lǐng)域都取得了巨大的成功,但無(wú)論是序列到序列網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、還是對(duì)抗式生成網(wǎng)絡(luò)都只適應(yīng)于特定領(lǐng)域,與此相對(duì)的則是,人類(lèi)只用一個(gè)大腦就能完成語(yǔ)音、文本、圖像等各類(lèi)任務(wù),如何構(gòu)建類(lèi)似的統(tǒng)一模型,對(duì)整個(gè)領(lǐng)域都是極大的挑戰(zhàn)。
4.3 提高訓(xùn)練效率的挑戰(zhàn)
DNN的成功依賴(lài)于大量訓(xùn)練數(shù)據(jù),據(jù)統(tǒng)計(jì)要使得網(wǎng)絡(luò)學(xué)會(huì)某一特征,平均需要50000例以上的樣本,相比而言人類(lèi)只需要少量的指導(dǎo)即可學(xué)會(huì)復(fù)雜問(wèn)題,這說(shuō)明我們的模型和訓(xùn)練方法都還有極大的提高空間。
參考文獻(xiàn)
[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.
[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.
[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.
[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F(xiàn),2011 [C].
[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F(xiàn),2014 [C].
[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.
[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.
[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.
[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.
[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.
[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.
[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.
[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.
作者撾
篇3
P鍵詞:深度學(xué)習(xí);文本分類(lèi);多類(lèi)型池化
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0187-03
1 引言
為了進(jìn)行分類(lèi),我們建立句子模型來(lái)分析和表示句子的語(yǔ)義內(nèi)容。句子模型問(wèn)題的關(guān)鍵在于一定程度上的自然語(yǔ)言理解。很多類(lèi)型的任務(wù)需要采用句子模型,包括情感分析、語(yǔ)義檢測(cè)、對(duì)話(huà)分析、機(jī)器翻譯等。既然單獨(dú)的句子很少或基本不被采用,所以我們必須采用特征的方式來(lái)表述一個(gè)句子,而特征依賴(lài)于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據(jù)單詞和詞組提取特征的過(guò)程。求最大值的池化操作是一種非線(xiàn)性的二次抽樣方法,它返回集合元素中的最大值。
各種類(lèi)型的模型已經(jīng)被提出?;诔煞謽?gòu)成的方法被應(yīng)用于向量表示,通過(guò)統(tǒng)計(jì)同時(shí)單詞同時(shí)出現(xiàn)的概率來(lái)獲取更長(zhǎng)的詞組。在有些情況下,通過(guò)對(duì)詞向量進(jìn)行代數(shù)操作生成句子層面的向量,從而構(gòu)成成分。在另外一些情況下,特征方程和特定的句法或者單詞類(lèi)型相關(guān)。
一種核心模型是建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。這種模型包含了單詞包或者詞組包的模型、更結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)、延遲的基于卷積操作的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模型有很多優(yōu)點(diǎn)。通過(guò)訓(xùn)練可以獲得通用的詞向量來(lái)預(yù)測(cè)一段上下文中單詞是否會(huì)出現(xiàn)。通過(guò)有監(jiān)督的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠根據(jù)具體的任務(wù)進(jìn)行良好的調(diào)節(jié)。除了作為強(qiáng)大的分類(lèi)器,神經(jīng)網(wǎng)絡(luò)模型還能夠被用來(lái)生成句子[6]。
我們定義了一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并將它應(yīng)用到句子語(yǔ)義模型中。這個(gè)網(wǎng)絡(luò)可以處理長(zhǎng)度不同的句子。網(wǎng)絡(luò)中的一維卷積層和多類(lèi)型動(dòng)態(tài)池化層是相互交錯(cuò)的。多類(lèi)型動(dòng)態(tài)池化是一種對(duì)求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現(xiàn)在兩個(gè)方面。第一,多類(lèi)型池化操作對(duì)一個(gè)線(xiàn)性的值序列進(jìn)行操作,返回序列中的多個(gè)數(shù)值而不是單個(gè)最大的數(shù)值。第二,池化參數(shù)k可以被動(dòng)態(tài)的選擇,通過(guò)網(wǎng)絡(luò)的其他參數(shù)來(lái)動(dòng)態(tài)調(diào)整k的值。
卷積層的一維卷積窗口對(duì)句子特征矩陣的每一行進(jìn)行卷積操作。相同的n-gram的卷積窗口在句子的每個(gè)位置進(jìn)行卷積操作,這樣可以根據(jù)位置獨(dú)立地提取特征。一個(gè)卷積層后面是一個(gè)多類(lèi)型動(dòng)態(tài)池化層和一個(gè)非線(xiàn)性的特征映射表。和卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的使用一樣,為豐富第一層的表述,通過(guò)不同的卷積窗口應(yīng)用到句子上計(jì)算出多重特征映射表。后續(xù)的層也通過(guò)下一層的卷積窗口的卷積操作計(jì)算出多重特征映射表。最終的結(jié)構(gòu)我們叫它多類(lèi)型池化的卷積神經(jīng)網(wǎng)絡(luò)。
在輸入句子上的多層的卷積和動(dòng)態(tài)池化操作產(chǎn)生一張結(jié)構(gòu)化的特征圖。高層的卷積窗口可以獲取非連續(xù)的相距較遠(yuǎn)的詞組的句法和語(yǔ)義關(guān)系。特征圖會(huì)引導(dǎo)出一種層級(jí)結(jié)構(gòu),某種程度上類(lèi)似于句法解析樹(shù)。這種結(jié)構(gòu)不僅僅是和句法相關(guān),它是神經(jīng)網(wǎng)絡(luò)內(nèi)部所有的。
我們將此網(wǎng)絡(luò)在四種場(chǎng)景下進(jìn)行了嘗試。前兩組實(shí)驗(yàn)是電影評(píng)論的情感預(yù)測(cè)[2],此網(wǎng)絡(luò)在二分和多種類(lèi)別的分類(lèi)實(shí)驗(yàn)中的表現(xiàn)都優(yōu)于其他方法。第三組實(shí)驗(yàn)在TREC數(shù)據(jù)集(Li and Roth, 2002)上的6類(lèi)問(wèn)題的分類(lèi)問(wèn)題。此網(wǎng)絡(luò)的正確率和目前最好的方法的正確率持平。第四組實(shí)驗(yàn)是推特的情感預(yù)測(cè),此網(wǎng)絡(luò)將160萬(wàn)條微博根據(jù)表情符號(hào)自動(dòng)打標(biāo)來(lái)進(jìn)行訓(xùn)練。在手工打標(biāo)的測(cè)試數(shù)據(jù)集上,此網(wǎng)絡(luò)將預(yù)測(cè)錯(cuò)誤率降低了25%。
本文的概要如下。第二段主要闡述MCNN的背景知識(shí),包括核心概念和相關(guān)的神將網(wǎng)絡(luò)句子模型。第三章定義了相關(guān)的操作符和網(wǎng)絡(luò)的層。第四章闡述生成的特征圖的處理和網(wǎng)絡(luò)的其他特點(diǎn)。第五章討論實(shí)驗(yàn)和回顧特征學(xué)習(xí)探測(cè)器。
2 背景
MCNN的每一層的卷積操作之后都伴隨一個(gè)池化操作。我們先回顧一下相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型。然后我們來(lái)闡述一維的卷積操作和經(jīng)典的延遲的神經(jīng)網(wǎng)絡(luò)(TDNN)[3]。在加了一個(gè)最大池化層到網(wǎng)絡(luò)后,TDNN也是一種句子模型[5]。
2.1 相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型
已經(jīng)有很多的神經(jīng)網(wǎng)絡(luò)句子模型被描述過(guò)了。 一種比較通用基本的模型是神經(jīng)網(wǎng)絡(luò)詞包模型(NBoW)。其中包含了一個(gè)映射層將單詞、詞組等映射到更高的維度;然后會(huì)有一個(gè)比如求和之類(lèi)的操作。結(jié)果向量通過(guò)一個(gè)或多個(gè)全連接層來(lái)進(jìn)行分類(lèi)。
有以外部的解析樹(shù)為基礎(chǔ)的遞歸神經(jīng)網(wǎng)絡(luò),還有在此基礎(chǔ)上更進(jìn)一步的RNN網(wǎng)絡(luò)。
最后一種是以卷積操作和TDNN結(jié)構(gòu)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)句子模型。相關(guān)的概念是動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),我們接下來(lái)介紹的就是它。
2.2 卷積
一維卷積操作便是將權(quán)重向量[m∈Rm]和輸入向量[s∈Rs]進(jìn)行操作。向量m是卷積操作的過(guò)濾器。具體來(lái)說(shuō),我們將s作為輸入句子,[si∈R]是與句子中第i個(gè)單詞相關(guān)聯(lián)的單獨(dú)的特征值。一維卷積操作背后的思想是通過(guò)向量m和句子中的每個(gè)m-gram的點(diǎn)積來(lái)獲得另一個(gè)序列c:
[ci=mTsi-m+1:i (1)]
根據(jù)下標(biāo)i的范圍的不同,等式1產(chǎn)生兩種不同類(lèi)型的卷積。窄類(lèi)型的卷積中s >= m并且會(huì)生成序列[c∈Rs-m+1],下標(biāo)i的范圍從m到s。寬類(lèi)型的卷積對(duì)m和s的大小沒(méi)有限制,生成的序列[c∈Rs+m-1],下標(biāo)i的范圍從1到s+m-1。超出下標(biāo)范圍的si窄(i < 1或者i > s)置為0。窄類(lèi)型的卷積結(jié)果是寬類(lèi)型的卷積結(jié)果的子序列。
寬類(lèi)型的卷積相比于窄類(lèi)型的卷積有一些優(yōu)點(diǎn)。寬類(lèi)型的卷積可以確保所有的權(quán)重應(yīng)用到整個(gè)句子,包括句子收尾的單詞。當(dāng)m被設(shè)為一個(gè)相對(duì)較大的值時(shí),如8或者10,這一點(diǎn)尤其重要。另外,寬類(lèi)型的卷積可以確保過(guò)濾器m應(yīng)用于輸入句子s始終會(huì)生成一個(gè)有效的非空結(jié)果集c,與m的寬度和s句子的長(zhǎng)度無(wú)關(guān)。接下來(lái)我們來(lái)闡述TDNN的卷積層。
4 驗(yàn)與結(jié)果分析
我們對(duì)此網(wǎng)絡(luò)進(jìn)行了4組不同的實(shí)驗(yàn)。
4.1 電影評(píng)論的情感預(yù)測(cè)
前兩組實(shí)驗(yàn)是關(guān)于電影評(píng)論的情感預(yù)測(cè)的,數(shù)據(jù)集是Stanford Sentiment Treebank.實(shí)驗(yàn)輸出的結(jié)果在一個(gè)實(shí)驗(yàn)中是分為2類(lèi),在另一種試驗(yàn)中分為5類(lèi):消極、略微消極、中性、略微積極、積極。而實(shí)驗(yàn)總的詞匯量為15448。
表示的是電影評(píng)論數(shù)據(jù)集情感預(yù)測(cè)準(zhǔn)確率。NB和BINB分別表示一元和二元樸素貝葉斯分類(lèi)器。SVM是一元和二元特征的支撐向量機(jī)。在三種神經(jīng)網(wǎng)絡(luò)模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機(jī)初始化的;它們的維度d被設(shè)為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個(gè)非線(xiàn)性化層、最大池化層和softmax分類(lèi)層。NBoW會(huì)將詞向量相加,并對(duì)詞向量進(jìn)行非線(xiàn)性化操作,最后用softmax進(jìn)行分類(lèi)。2類(lèi)分類(lèi)的MCNN的參數(shù)如下,卷積層之后折疊層、動(dòng)態(tài)多類(lèi)型池化層、非線(xiàn)性化層。濾波窗口的大小分別7和5。最頂層動(dòng)態(tài)多類(lèi)型池化層的k的值為4。網(wǎng)絡(luò)的最頂層是softmax層。5類(lèi)分類(lèi)的MCNN有相同的結(jié)構(gòu),但是濾波窗口的大小分別為10和7,k的值為5。
我們可以看到MCNN的分類(lèi)效果遠(yuǎn)超其他算法。NBoW的分類(lèi)效果和非神經(jīng)網(wǎng)絡(luò)算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因?yàn)檫^(guò)度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴(lài)外部的解析樹(shù)來(lái)生成結(jié)構(gòu)化特征,其他模型都不需要依賴(lài)外部資源。
4.2 問(wèn)題分類(lèi)
問(wèn)題分類(lèi)在問(wèn)答系統(tǒng)中應(yīng)用非常廣泛,一個(gè)問(wèn)題可能屬于一個(gè)或者多個(gè)問(wèn)題類(lèi)別。所用的數(shù)據(jù)集是TREC數(shù)據(jù)集,TREC數(shù)據(jù)集包含6種不同類(lèi)別的問(wèn)題,比如一個(gè)問(wèn)題是否關(guān)于地點(diǎn)、人或者數(shù)字信息。訓(xùn)練集包含5452個(gè)打標(biāo)的問(wèn)題和500個(gè)測(cè)試集。
4.3 Twitter情感預(yù)測(cè)
在我們最后的實(shí)驗(yàn)里,我們用tweets的大數(shù)據(jù)集進(jìn)行訓(xùn)練,我們根據(jù)tweet中出現(xiàn)的表情符號(hào)自動(dòng)地給文本進(jìn)行打標(biāo)簽,積極的或是消極的。整個(gè)數(shù)據(jù)集包含160萬(wàn)條根據(jù)表情符號(hào)打標(biāo)的tweet以及400條手工標(biāo)注的測(cè)試集。整個(gè)數(shù)據(jù)集包含76643個(gè)單詞。MCNN的結(jié)構(gòu)和4.1節(jié)中結(jié)構(gòu)相同。隨機(jī)初始化詞向量且維度d設(shè)為60。
我們發(fā)現(xiàn)MCNN的分類(lèi)效果和其他非神經(jīng)網(wǎng)絡(luò)的算法相比有極大的提高。MCNN和NBoW在分類(lèi)效果上的差別顯示了MCNN有極強(qiáng)的特征提取能力。
5 結(jié)語(yǔ)
在本文中我們闡述了一種動(dòng)態(tài)的卷積神經(jīng)網(wǎng)絡(luò),它使用動(dòng)態(tài)的多類(lèi)型池化操作作為非線(xiàn)性化取樣函數(shù)。此網(wǎng)絡(luò)在問(wèn)題分類(lèi)和情感預(yù)測(cè)方面取得了很好的效果,并且不依賴(lài)于外部特征如解析樹(shù)或其他外部資源。
參考文獻(xiàn)
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
篇4
【關(guān)鍵詞】圖像識(shí)別;數(shù)學(xué)建模;分類(lèi)算法;深度學(xué)習(xí)
引言
隨著微電子技術(shù)及計(jì)算機(jī)技術(shù)的蓬勃發(fā)展,圖像識(shí)別應(yīng)運(yùn)而生,圖像識(shí)別是研究用計(jì)算機(jī)代替人們自動(dòng)地去處理大量的物理信息,從而代替人的腦力勞動(dòng)。隨著計(jì)算機(jī)處理能力的不斷強(qiáng)大,圖像識(shí)別從最早的文字識(shí)別、數(shù)字識(shí)別逐漸發(fā)展到人臉識(shí)別、物體識(shí)別、場(chǎng)景識(shí)別、精細(xì)目標(biāo)識(shí)別等,所采用的技術(shù)也從最早的模板匹配、線(xiàn)性分類(lèi)到廣泛使用的深層神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類(lèi)等方法。
1.圖像識(shí)別中的數(shù)學(xué)問(wèn)題建模
1.1飛行器降落圖像智能識(shí)別建模
在復(fù)雜地形環(huán)境下,飛行器進(jìn)行下降過(guò)程,需要采集圖像并且判斷是否符合降落要求。在對(duì)飛行器進(jìn)行最終落地點(diǎn)的選擇時(shí),如果降落點(diǎn)復(fù)雜程度較高,采集的圖像中將會(huì)產(chǎn)生大量的訓(xùn)練樣本數(shù)目,圖像配準(zhǔn)過(guò)程中,極大地增加了運(yùn)算量,造成最佳降落點(diǎn)選擇的準(zhǔn)確率降低。提出了利用圖像智能識(shí)別進(jìn)行最佳降落點(diǎn)的建模。利用偽Zemike矩能夠?qū)德潼c(diǎn)的圖像形狀進(jìn)行準(zhǔn)確的描述,利用Procrustes形狀分析法提取最佳降落點(diǎn)的特征,利用Rank的融合決策法最終實(shí)現(xiàn)最佳降落點(diǎn)選擇的目的。
1.2人臉面部表情圖像識(shí)別的隱馬爾科夫建模
人有喜怒哀樂(lè),目前有一種利用隱馬爾科夫模型的建模方法,可以實(shí)現(xiàn)對(duì)人臉表情中的情感進(jìn)行識(shí)別。具體的是:首先,采用子窗口對(duì)人臉面部表情圖像進(jìn)行采樣,然后利用離散余弦變換提取所需要的特征向量,通過(guò)對(duì)人臉面部圖像進(jìn)行隱馬爾科夫建模,使用獲得的特征向量作為觀測(cè)向量對(duì)人臉面部圖像的隱馬爾科夫模型進(jìn)行訓(xùn)練,再使用訓(xùn)練后的隱馬爾科夫模型對(duì)JAFFE人臉圖像測(cè)試集中地人臉表情圖像進(jìn)行情感識(shí)別。
2.典型的圖像識(shí)別算法
2.1 基于Gabor變換和極限學(xué)習(xí)機(jī)的貝類(lèi)圖像種類(lèi)識(shí)別
對(duì)貝類(lèi)圖像進(jìn)行Gabor變換,提取其圖像特征,確定了圖像特征維數(shù);采用2DPCA方法,對(duì)變換后的特征進(jìn)行降維,并利用極限學(xué)習(xí)機(jī)(ELM)進(jìn)行貝類(lèi)圖像的分類(lèi)識(shí)別。與BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),極限學(xué)習(xí)機(jī)分類(lèi)器用于貝類(lèi)識(shí)別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點(diǎn)對(duì)高維圖像識(shí)別精確度高,但算法的復(fù)雜度和設(shè)計(jì)一個(gè)精確的分類(lèi)器都顯得難以把握。因此該類(lèi)圖像識(shí)別算法很難普遍推廣使用,識(shí)別對(duì)象必須是貝類(lèi)圖像。
2.2 利用公開(kāi)的全極化SAR數(shù)據(jù),研究基于SAR圖像的檢測(cè)、極化分解和識(shí)別算法
首先根據(jù)四個(gè)線(xiàn)極化通道合成偽彩色圖像,從而對(duì)場(chǎng)景進(jìn)行初步認(rèn)知。利用一維距離像分析全極化各通道的信噪比強(qiáng)度,通過(guò)對(duì)目標(biāo)進(jìn)行Pauli分解得到目標(biāo)的奇次散射分量和偶次散射分量,從而完成對(duì)海雜波、建筑物和艦船的相干分量的研究。其特點(diǎn)過(guò)程簡(jiǎn)單易掌握,但識(shí)別對(duì)象有限。
2.3 基于SVM的離線(xiàn)圖像目標(biāo)分類(lèi)算法
基于SVM的離線(xiàn)圖像目標(biāo)分類(lèi)算法,先對(duì)訓(xùn)練集預(yù)處理,然后將處理后的圖像進(jìn)行梯度直方圖提取最后對(duì)圖像目標(biāo)的分離器進(jìn)行檢測(cè),但是這種圖像識(shí)別算法只是有效,實(shí)用性不強(qiáng)。
3.深度學(xué)習(xí)在圖像識(shí)別的應(yīng)用
3.1 Deep learning的原理
深度學(xué)習(xí)是一種模擬人腦的思考方式,通過(guò)建立類(lèi)似人腦的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析,即按照人類(lèi)的思維做出先關(guān)解釋?zhuān)纬煞奖闳藗兝斫獾膱D像、文字或者聲音。深度學(xué)習(xí)的重點(diǎn)是對(duì)模型的運(yùn)用,模型中需要的參數(shù)是通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí)和分析中得到的。
深度學(xué)習(xí)有兩種類(lèi)型:有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。學(xué)習(xí)模型根據(jù)學(xué)習(xí)框架的類(lèi)型來(lái)確定。比如,卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)就是一種無(wú)監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。
3.2 深度學(xué)習(xí)的典型應(yīng)用
深度學(xué)習(xí)是如今計(jì)算機(jī)領(lǐng)域中的一個(gè)奪人眼球的技術(shù)。而在深度學(xué)習(xí)的模型中研究熱度最高的是卷積神經(jīng)網(wǎng)絡(luò),它是一種能夠?qū)崿F(xiàn)大量圖像識(shí)別任務(wù)的技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是局部感受野、權(quán)值共享以及時(shí)間或空間亞采集。通常卷及神經(jīng)網(wǎng)絡(luò)使用最后一層全連接隱層的值作為對(duì)輸入樣本所提出的特征,通過(guò)外部數(shù)據(jù)進(jìn)行的有監(jiān)督學(xué)習(xí),從而可以保證所得的特征具有較好的對(duì)類(lèi)內(nèi)變化的不變性。
3.2.1基于深度學(xué)習(xí)特征的人臉識(shí)別方法。
卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域取得了較大突破,為了更加有效的解決復(fù)雜類(lèi)內(nèi)變化條件下的小樣本人臉識(shí)別問(wèn)題,使用深度學(xué)習(xí)的方法來(lái)提取特征,與基于稀疏表示的方法結(jié)合起來(lái),實(shí)驗(yàn)證明了深度學(xué)習(xí)所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對(duì)類(lèi)內(nèi)變化的不變性。
3.2.2基于深度學(xué)習(xí)的盲文識(shí)別方法。
目前盲文識(shí)別系統(tǒng)存在識(shí)別率不高、圖片預(yù)處理較為復(fù)雜等問(wèn)題。針對(duì)這些問(wèn)題,利用深度模型堆疊去噪編碼器自動(dòng)、全面學(xué)習(xí)樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學(xué)習(xí)的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,更大程度地避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于隨機(jī)選取初值而導(dǎo)致結(jié)果陷入局部極值的問(wèn)題。
3.2.3基于深度學(xué)習(xí)的手繪草圖識(shí)別。
目前的手繪草圖識(shí)別方法存在費(fèi)時(shí)費(fèi)力,較依賴(lài)于手工特征提取等問(wèn)題?;谏疃葘W(xué)習(xí)的手繪草圖識(shí)別方法根據(jù)手繪草圖時(shí)缺失顏色、紋理信息等特點(diǎn),使用大尺寸的首層卷積核獲得更多的空間結(jié)構(gòu)信息,利用訓(xùn)練淺層模型獲得的模型參數(shù)來(lái)初始化深度模型對(duì)應(yīng)層的模型參數(shù),以加快收斂,減少訓(xùn)練時(shí)長(zhǎng),加入不改變特征大小的卷基層來(lái)加深網(wǎng)絡(luò)深度等方法實(shí)現(xiàn)減小錯(cuò)誤率。
4.結(jié)論
圖像識(shí)別是當(dāng)代人工智能的熱門(mén)研究方向,其應(yīng)用領(lǐng)域也是超乎人類(lèi)想象的,相信通過(guò)技術(shù)的不斷創(chuàng)新,圖像識(shí)別技術(shù)會(huì)給人們的生活帶來(lái)智能化、個(gè)性化、全面化的服務(wù)。
參考文獻(xiàn):
[1]穆靜,陳芳,王長(zhǎng)元.人臉面部表情圖像的隱馬爾科夫建模及情感識(shí)別[J].西安:西安工業(yè)大學(xué)學(xué)報(bào),2015(09).
[2]楊靖堯,里紅杰,陶學(xué)恒.基于Gabor變換和極限學(xué)習(xí)機(jī)的貝類(lèi)圖像種類(lèi)識(shí)別[J].大連工業(yè)大學(xué)學(xué)報(bào),2013(04).
[3]馬曉,張番棟,封舉富.基于深度學(xué)習(xí)特征的稀疏表示的人臉識(shí)別方法[J].智能系統(tǒng)學(xué)報(bào),2016(11).
篇5
黑科技?神經(jīng)網(wǎng)絡(luò)是個(gè)什么鬼
說(shuō)到神經(jīng)網(wǎng)絡(luò),很多朋友都會(huì)認(rèn)為這是一個(gè)高大上的概念。從生物學(xué)角度來(lái)說(shuō),人類(lèi)復(fù)雜的神經(jīng)系統(tǒng)是由數(shù)目繁多的神經(jīng)元組合而成,它們互相聯(lián)結(jié)形成神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)對(duì)信息的分析和綜合,再通過(guò)運(yùn)動(dòng)神經(jīng)發(fā)出控制信息,從而實(shí)現(xiàn)各種精密活動(dòng),如識(shí)別各種物體、學(xué)習(xí)各種知識(shí)、完成各種邏輯判斷等。
隨著人工智能技術(shù)的發(fā)展,科學(xué)家開(kāi)發(fā)出人工神經(jīng)網(wǎng)絡(luò),它的構(gòu)成原理和功能特點(diǎn)等方面更加接近人腦。它不是按給定的程序一步一步地執(zhí)行運(yùn)算,而是能夠自身適應(yīng)環(huán)境、總結(jié)規(guī)律、完成某種運(yùn)算、識(shí)別或過(guò)程控制。比如多倫多大學(xué)的Krizhevsky等人構(gòu)造了一個(gè)超大型卷積神經(jīng)網(wǎng)絡(luò),有9層,共65萬(wàn)個(gè)神經(jīng)。第一層神經(jīng)元只能識(shí)別顏色和簡(jiǎn)單紋理,但是第五層的一些神經(jīng)元可以識(shí)別出花、圓形屋頂、鍵盤(pán)、烏、黑眼圈等更為抽象豐富的物體(圖1)。因此神經(jīng)網(wǎng)絡(luò)實(shí)際上是基于人工智能技術(shù)而形成的一種和人類(lèi)神經(jīng)網(wǎng)絡(luò)相似的網(wǎng)絡(luò)系統(tǒng)。
媲美Photoshop 神經(jīng)網(wǎng)絡(luò)磨皮技術(shù)背后
如上所述,現(xiàn)在神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展已經(jīng)非常迅猛,而且運(yùn)用在各個(gè)領(lǐng)域。神經(jīng)網(wǎng)絡(luò)磨皮則是指該技術(shù)在照片識(shí)別和美化方面的運(yùn)用。那么它是怎樣實(shí)現(xiàn)對(duì)照片的美化?在Photoshop中磨皮操作是用戶(hù)先選中人臉區(qū)域,然后再使用Photoshop內(nèi)置的方法實(shí)現(xiàn)磨皮。神經(jīng)網(wǎng)絡(luò)磨皮原理類(lèi)似,只不過(guò)這些操作是自動(dòng)完成的。
首先是對(duì)照片人臉識(shí)別。要實(shí)現(xiàn)對(duì)照片的美容就必須先精確識(shí)別人臉,由于人臉有五官這個(gè)顯著特征,因此神經(jīng)網(wǎng)絡(luò)磨皮技術(shù)只要通過(guò)機(jī)器對(duì)一定數(shù)量的人臉照片進(jìn)行識(shí)別、讀取,然后就可以精確識(shí)別人臉。它的原理和常見(jiàn)的人臉識(shí)別技術(shù)類(lèi)似(圖2)。
其次則是美化。在完成人臉識(shí)別后就需要對(duì)美化操作進(jìn)行機(jī)器學(xué)習(xí),以磨皮為例。因?yàn)槿四樀拿總€(gè)年齡階段皮膚性質(zhì)是不同的,為了達(dá)到更真實(shí)的磨皮效果,神經(jīng)網(wǎng)絡(luò)磨皮是實(shí)現(xiàn)用戶(hù)“回到”幼年或者“穿越”到老年臉部皮膚的效果。研究人員將年齡段分類(lèi)為0~18歲、19~29歲、30~39歲、40~49歲、50~59歲和60歲以上這幾個(gè)階段(圖3)。
然后準(zhǔn)備兩個(gè)深度學(xué)習(xí)機(jī)器同時(shí)工作。兩個(gè)機(jī)器一個(gè)用來(lái)生成人臉,一個(gè)用來(lái)鑒別人臉。而且兩個(gè)機(jī)器會(huì)通過(guò)分析人臉圖像,提前學(xué)習(xí)到各年齡段人臉大概是什么樣子的。在每個(gè)年齡分組里,研究人員讓機(jī)器學(xué)習(xí)超過(guò)5000張標(biāo)記過(guò)年齡的人臉圖像。通過(guò)大量的照片學(xué)習(xí)后,機(jī)器就可以學(xué)會(huì)每個(gè)年齡分組內(nèi)的標(biāo)簽,它可以準(zhǔn)確知道每個(gè)人不同年齡階段的臉部特征。這樣無(wú)論你是要磨皮為年輕時(shí)的皮膚光滑、圓潤(rùn)狀態(tài),還是要變?yōu)?0歲以后皺褶、粗糙的皮膚,神經(jīng)磨皮都可以輕松幫助你實(shí)現(xiàn)。
當(dāng)然學(xué)習(xí)有個(gè)通病,就是在合成過(guò)程中,機(jī)器可能會(huì)喪失掉圖片原有的識(shí)別資料(1D)。為了解決這個(gè)問(wèn)題,上述介紹中的人臉鑒別機(jī)器就發(fā)揮功效了。它通過(guò)查看這個(gè)照片的識(shí)別資料是不是唯一的,如果不是的話(huà)照片則會(huì)被拒絕輸出。研究人員讓機(jī)器合成10000張從數(shù)據(jù)庫(kù)中抽取出來(lái)的人像,這些照片之前從未用來(lái)訓(xùn)練機(jī)器。然后他們用開(kāi)發(fā)的軟件程序來(lái)檢測(cè)訓(xùn)練前后的兩張照片是否為同一個(gè)人,測(cè)試結(jié)果顯示有80%經(jīng)訓(xùn)練的照片都被認(rèn)為和原照片是同一個(gè)人(而作為對(duì)比,用其他方法加工照片,平均測(cè)試結(jié)果只有50%)。舉個(gè)簡(jiǎn)單例子,如果40歲的用戶(hù)將自己磨皮為20歲的樣子,如果軟件程序來(lái)檢測(cè)訓(xùn)練前后的兩張照片為同一個(gè)人,那么就輸出磨皮效果,從而讓用戶(hù)可以輕松磨皮到20歲的狀態(tài)。這樣經(jīng)過(guò)訓(xùn)練的神經(jīng)磨皮算法可以很真實(shí)地實(shí)現(xiàn)人臉的磨皮。
神經(jīng)網(wǎng)絡(luò) 不H僅是磨皮
篇6
關(guān)鍵詞:人臉識(shí)別技術(shù);病毒管控;人工智能;神經(jīng)網(wǎng)絡(luò)
互聯(lián)網(wǎng)在今天的社會(huì)中發(fā)揮著舉足輕重的作用。如今社會(huì),隨著許多人工智能技術(shù)、網(wǎng)絡(luò)技術(shù)、云計(jì)算等互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,像人臉識(shí)別等技術(shù)的應(yīng)用越來(lái)越廣泛,在控制病毒傳播途徑等場(chǎng)合發(fā)揮了巨大作用,不斷地提高著社會(huì)的安全性和便利性,不僅提高了防控中病毒檢測(cè)效率,也為病毒的控制提供了可靠的技術(shù)方法,能夠及時(shí)發(fā)現(xiàn)和控制公共場(chǎng)所的安全隱患因素,避免對(duì)社會(huì)經(jīng)濟(jì)、居民生活造成破壞,。但目前的人臉識(shí)別等技術(shù)還存在許多缺陷,需要完善和革新,充滿(mǎn)著巨大的潛力和進(jìn)步空間。
1人臉識(shí)別技術(shù)研究意義
人臉識(shí)別技術(shù)是一種生物特征識(shí)別技術(shù),最早產(chǎn)生于上世紀(jì)60年代,基于生理學(xué)、圖像處理、人機(jī)交互及認(rèn)知學(xué)等方面的一種識(shí)別技術(shù)。相比于其他人類(lèi)特征像指紋識(shí)別、聲紋識(shí)別、虹膜識(shí)別等技術(shù),人臉識(shí)別雖然存在人臉識(shí)別單一性低,且區(qū)分度難度高、易受環(huán)境影響等不足。但是人臉識(shí)別技術(shù)擁有速度快、大范圍群體識(shí)別及非接觸、遠(yuǎn)距離可識(shí)別等優(yōu)勢(shì),都是其他生物識(shí)別識(shí)別技術(shù)所不具備的,而在傳播性強(qiáng)、感染風(fēng)險(xiǎn)大的病毒傳播過(guò)程中,這些顯然是必須要考慮的重要影響因素。通過(guò)將人臉識(shí)別等人工智能技術(shù)引入信息管理系統(tǒng),綜合集成視頻監(jiān)控、圖像處理、深度學(xué)習(xí)和大數(shù)據(jù)等技術(shù),結(jié)合非接觸測(cè)溫、定位等技術(shù),助力病情防控,在一定程度上推動(dòng)病毒病情防控信息化、智能化發(fā)展進(jìn)程。可作為加強(qiáng)公共場(chǎng)所的人員的體溫實(shí)時(shí)監(jiān)測(cè)、地址信息定位的監(jiān)控管理,規(guī)范公共場(chǎng)所針對(duì)病毒傳播的預(yù)防行為。
2人臉識(shí)別技術(shù)
2.1人臉檢測(cè)技術(shù)
人臉檢測(cè)是自動(dòng)人臉識(shí)別系統(tǒng)中的一個(gè)關(guān)鍵環(huán)節(jié)。早期的人臉識(shí)別研究主要針對(duì)具有較強(qiáng)約束條件的人臉圖象(如無(wú)背景的圖象),往往假設(shè)人臉位置靜止或者容易獲取。人臉檢測(cè)分為前深度學(xué)習(xí)時(shí)期,AdaBoost框架時(shí)期以及深度學(xué)習(xí)時(shí)期。前深度學(xué)習(xí)時(shí)期,人們將傳統(tǒng)的計(jì)算機(jī)視覺(jué)算法運(yùn)用于人臉檢測(cè),使用了模板匹配技術(shù),依賴(lài)于人工提取特征,然后用這些人工特征訓(xùn)練一個(gè)檢測(cè)器;后來(lái)技術(shù)發(fā)展,在2001年Viola和Jones設(shè)計(jì)了一種人臉檢測(cè)算法,它使用簡(jiǎn)單的Haar-like特征和級(jí)聯(lián)的AdaBoost分類(lèi)器構(gòu)造檢測(cè)器,檢測(cè)速度較之前的方法有2個(gè)數(shù)量級(jí)的提高,并且保持了很好的精度,稱(chēng)這種方法為VJ框架。VJ框架是人臉檢測(cè)歷史上第一個(gè)最具有里程碑意義的一個(gè)成果,奠定了基于AdaBoost目標(biāo)檢測(cè)框架的基礎(chǔ),使用級(jí)聯(lián)AdaBoost分類(lèi)器進(jìn)行目標(biāo)檢測(cè)的思想是:用多個(gè)AdaBoost分類(lèi)器合作實(shí)現(xiàn)對(duì)候選框的分類(lèi),這些分類(lèi)器組成一個(gè)流水線(xiàn),對(duì)滑動(dòng)窗口中的候選框圖像進(jìn)行判定,確定檢測(cè)目標(biāo)是人臉還是非人臉。Adaboost框架技術(shù)的精髓在于用簡(jiǎn)單的強(qiáng)分類(lèi)器在初期快速排除掉大量的非人臉窗口,同時(shí)保證高的召回率,使得最終能通過(guò)所有級(jí)強(qiáng)分類(lèi)器的樣本數(shù)數(shù)量較少。在深度學(xué)習(xí)時(shí)期,開(kāi)始將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉檢測(cè)領(lǐng)域。研究方向有兩種:一是將適用于多任務(wù)的目標(biāo)檢測(cè)網(wǎng)絡(luò)應(yīng)用于人臉檢測(cè)中;另一種是研究特定的的人臉檢測(cè)網(wǎng)絡(luò)。人臉檢測(cè)技術(shù)具有特殊唯一性和穩(wěn)定性,在現(xiàn)今社會(huì)對(duì)于構(gòu)建居民身份識(shí)別系統(tǒng),病毒傳播防控系統(tǒng),以及計(jì)算機(jī)視覺(jué)交互模型的構(gòu)建具有廣泛的應(yīng)用。人臉檢測(cè)技術(shù)不僅作為人臉識(shí)別的首要步驟,也在許多其他領(lǐng)域發(fā)揮巨大影響,如人臉關(guān)鍵點(diǎn)提取、人臉追蹤、基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測(cè)、安防監(jiān)控、人證比對(duì)、社交等領(lǐng)域都有重要的應(yīng)用價(jià)值。數(shù)碼相機(jī)、手機(jī)等移動(dòng)端上的設(shè)備已經(jīng)大量使用人臉檢測(cè)技術(shù)實(shí)現(xiàn)成像時(shí)對(duì)人臉的對(duì)焦、圖集整理分類(lèi)等功能,各種虛擬美顏相機(jī)也需要人臉檢測(cè)技術(shù)定位人臉。評(píng)價(jià)一個(gè)人臉檢測(cè)算法好壞的指標(biāo)是檢測(cè)率和誤報(bào)率,我們定義檢測(cè)率為:算法要求在檢測(cè)率和誤報(bào)率之間盡量平衡,理想的情況是達(dá)到高檢測(cè)率,低誤報(bào)率。
2.2人臉識(shí)別技術(shù)
目前主要流行的人臉識(shí)別技術(shù)包括幾何特征識(shí)別,模型識(shí)別,特征臉識(shí)別和基于深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)的的人臉識(shí)別技術(shù)等。人臉特征識(shí)別主要通過(guò)對(duì)人臉面部結(jié)構(gòu)特征如眼睛、鼻子等五官幾何特點(diǎn)及其相對(duì)位置分布等,生成圖像,并計(jì)算各個(gè)面部特征之間的歐式距離、分布、大小等關(guān)系該方法比較簡(jiǎn)單,反應(yīng)速度快,并且具有魯棒性強(qiáng)等優(yōu)點(diǎn),但是在實(shí)際環(huán)境下使用容易受檢測(cè)的環(huán)境的變化、人臉部表情變化等影響,精度通常不高,細(xì)節(jié)處理上不夠完善。模型識(shí)別技術(shù)主要包括隱馬爾可夫模型、主動(dòng)表象模型、主動(dòng)形狀模型等,識(shí)別率較高,并且對(duì)表情等變化影響較小。特征臉識(shí)別來(lái)源于主成分描述人臉照片技術(shù)(PCA技術(shù)),從數(shù)學(xué)上來(lái)講,特征臉就是人臉的圖像集協(xié)方差矩陣的特征向量。該技術(shù)能有效的顯示人臉信息,效率較高?;谏疃葘W(xué)習(xí)的人臉識(shí)別是獲取人臉圖像特征,并將包含人臉信息的特征進(jìn)行線(xiàn)性組合等,提取人臉圖像的特征,學(xué)習(xí)人臉樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。可以采用如三層前饋BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McClelland為首的科學(xué)家提出的概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)本質(zhì)上是一種能夠?qū)W量的輸入與輸出之間的映射關(guān)系的輸入到輸出的映射,從結(jié)構(gòu)上講,BP網(wǎng)絡(luò)具有輸入層、隱藏層和輸出層;從本質(zhì)上講,BP算法就是以網(wǎng)絡(luò)誤差平方為目標(biāo)函數(shù)、采用梯度下降法來(lái)計(jì)算目標(biāo)函數(shù)的最小值。BP神經(jīng)網(wǎng)路輸入層有n個(gè)神經(jīng)元節(jié)點(diǎn),輸出層具有m個(gè)神經(jīng)元,隱含層具有k個(gè)神經(jīng)元,采用BP學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。BP算法主要包括兩個(gè)階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到輸出層。這個(gè)過(guò)程也是在網(wǎng)絡(luò)完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經(jīng)網(wǎng)絡(luò)向前傳播階段的運(yùn)算,得到實(shí)際輸出表達(dá)式為向后傳播階段主要包括兩大步驟:①計(jì)算實(shí)際輸出Op與對(duì)應(yīng)理想輸出Yp之差;②按極小化誤差方法調(diào)整帶權(quán)矩陣。之所以將此階段稱(chēng)為向后傳播階段,是對(duì)應(yīng)于輸入信號(hào)的正常傳播而言的,因?yàn)樵撾A段都需要收到精度要求進(jìn)行誤差處理,所以也可以稱(chēng)之為誤差傳播階段。(1)確定訓(xùn)練集。由訓(xùn)練策略選擇樣本圖像作為訓(xùn)練集。(2)規(guī)定各權(quán)值Vij,Wjk和閾值Φj,θk參數(shù),并初始化學(xué)習(xí)率α及精度控制參數(shù)ε。(3)從訓(xùn)練集中取輸入向量X到神經(jīng)網(wǎng)絡(luò),并確定其目標(biāo)輸出向量D。(4)利用上式計(jì)算出一個(gè)中間層輸出H,再用本式計(jì)算出網(wǎng)絡(luò)的實(shí)際輸出Y。(5)將輸出矢量中yk與目標(biāo)矢量中dk進(jìn)行比較,計(jì)算輸出誤差項(xiàng),對(duì)中間層的隱單元計(jì)算出L個(gè)誤差項(xiàng)。(6)最后計(jì)算出各權(quán)值和閾值的調(diào)整量。所以,卷積神經(jīng)網(wǎng)絡(luò)算法是通過(guò)訓(xùn)練人臉特征庫(kù)的方式進(jìn)行學(xué)習(xí)生成,對(duì)不同環(huán)境下不同表現(xiàn)情況的人臉圖像識(shí)別有更高的精確性。
2.3人臉識(shí)別軟件實(shí)現(xiàn)方式
(1)采集人臉數(shù)據(jù)集,然后對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理變成訓(xùn)練格式。(2)部署訓(xùn)練模型,根據(jù)訓(xùn)練算法所需依賴(lài)部署電腦環(huán)境。(3)訓(xùn)練過(guò)程,下載預(yù)訓(xùn)練模型,將人臉數(shù)據(jù)集分批次作為輸入開(kāi)始訓(xùn)練,最終輸出為訓(xùn)練好的模型。(4)部署訓(xùn)練好的模型,捕獲畫(huà)面即可對(duì)畫(huà)面中的人臉進(jìn)行實(shí)時(shí)檢測(cè)。
3人臉識(shí)別在病毒傳播防控中的應(yīng)用
通過(guò)人臉識(shí)別技術(shù),可以實(shí)現(xiàn)無(wú)接觸、高效率的對(duì)流動(dòng)人員進(jìn)行信息的收集、身份識(shí)別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過(guò)提前收錄人臉信息,采用深度學(xué)習(xí)對(duì)人臉特征模型的訓(xùn)練學(xué)習(xí),即可獲取人臉識(shí)別特征模型,再次驗(yàn)證時(shí)即可實(shí)現(xiàn)人臉識(shí)別和個(gè)人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識(shí)別的系統(tǒng)基礎(chǔ)上,可以加入定位系統(tǒng)、測(cè)溫系統(tǒng)等,依托物聯(lián)網(wǎng)技術(shù)和云計(jì)算大數(shù)據(jù),更加優(yōu)化管控系統(tǒng)的效率。病毒傳播防控中人臉識(shí)別系統(tǒng)流程可以概括為圖2。
4結(jié)語(yǔ)
本文研究了一種人臉識(shí)別技術(shù)在病毒傳播管控系統(tǒng)中的應(yīng)用,并分析設(shè)計(jì)了人臉識(shí)別實(shí)時(shí)監(jiān)測(cè)及病毒管控系統(tǒng)的流程,大大提高了信息管理的效率,減弱了傳播風(fēng)險(xiǎn)。作為一門(mén)新興技術(shù),目前的人臉識(shí)別技術(shù)還存在著諸多不足之處,像存在環(huán)境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會(huì)影響到系統(tǒng)識(shí)別精度;另外安全問(wèn)題也引人深思:現(xiàn)今人臉支付方式迅猛發(fā)展,錄入的人臉模型信息數(shù)據(jù)庫(kù)存在有一定的安全風(fēng)險(xiǎn),一旦被不法分子盜取信息后果不堪設(shè)想,所以模型數(shù)據(jù)庫(kù)安全、網(wǎng)絡(luò)安全,也是系統(tǒng)開(kāi)發(fā)中必須重視的問(wèn)題。人臉識(shí)別為代表的人工智能技術(shù)的研究,在病毒傳播管控作出重大貢獻(xiàn),依托我國(guó)領(lǐng)先的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和5G等技術(shù),加強(qiáng)人工智能技術(shù)與5G通信技術(shù)的結(jié)合,優(yōu)勢(shì)互補(bǔ),以此來(lái)加快大數(shù)據(jù)、人工智能和物聯(lián)網(wǎng)技術(shù)發(fā)展進(jìn)程,對(duì)我國(guó)社會(huì)進(jìn)步,促進(jìn)城市建設(shè)和管理朝著高效、秩序、和諧穩(wěn)定的方向不斷發(fā)展,增強(qiáng)我國(guó)的經(jīng)濟(jì)實(shí)力有著重大價(jià)值和研究意義。
參考文獻(xiàn)
[1]王彥秋,馮英偉.基于大數(shù)據(jù)的人臉識(shí)別方法[J].現(xiàn)代電子技術(shù),2021,44(7):87-90.
[2]李剛,高政.人臉自動(dòng)識(shí)別方法綜述[J].計(jì)算機(jī)應(yīng)用研究,2003,20(8):4-9,40.
[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計(jì)算機(jī)科學(xué)與探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度學(xué)習(xí)的人臉識(shí)別方法綜述[J].工程數(shù)學(xué)學(xué)報(bào),2021,38.
[5]王紅星,胡永陽(yáng),鄧超.基于LBP和ELM的人臉識(shí)別算法研究與實(shí)現(xiàn)[J].河南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2005.
[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識(shí)別系統(tǒng)與標(biāo)準(zhǔn)研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2020,6,11-13,1671-539X.
[6]彭駿,吉綱,張艷紅,占濤.精準(zhǔn)人臉識(shí)別及測(cè)溫技術(shù)在疫情防控中的應(yīng)用[J].軟件導(dǎo)刊,2020,10,1672-7800.
篇7
計(jì)算機(jī)視覺(jué)的第一步是特征提取,即檢測(cè)圖像中的關(guān)鍵點(diǎn)并獲取有關(guān)這些關(guān)鍵點(diǎn)的有意義信息。特征提取過(guò)程本身包含4個(gè)基本階段:圖像準(zhǔn)備、關(guān)鍵點(diǎn)檢測(cè)、描述符生成和分類(lèi)。實(shí)際上,這個(gè)過(guò)程會(huì)檢查每個(gè)像素,以查看是否有特征存在干該像素中。
特征提取算法將圖像描述為指向圖像中的關(guān)鍵元素的一組特征向量。本文將回顧一系列的特征檢測(cè)算法,在這個(gè)過(guò)程中,看看一般目標(biāo)識(shí)別和具體特征識(shí)別在這些年經(jīng)歷了怎樣的發(fā)展。
早期特征檢測(cè)器
Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技術(shù)的早期實(shí)現(xiàn)。但這些屬于計(jì)算密集型算法,涉及到大量的浮點(diǎn)運(yùn)算,所以它們不適合實(shí)時(shí)嵌入式平臺(tái)。
以SIFT為例,這種高精度的算法,在許多情況下都能產(chǎn)生不錯(cuò)的結(jié)果。它會(huì)查找具有子像素精度的特征,但只保留類(lèi)似于角落的特征。而且,盡管SIFT非常準(zhǔn)確,但要實(shí)時(shí)實(shí)現(xiàn)也很復(fù)雜,并且通常使用較低的輸入圖像分辨率。
因此,SIFT在目前并不常用,它主要是用作一個(gè)參考基準(zhǔn)來(lái)衡量新算法的質(zhì)量。因?yàn)樾枰档陀?jì)算復(fù)雜度,所以最終導(dǎo)致要開(kāi)發(fā)一套更容易實(shí)現(xiàn)的新型特征提取算法。
二代算法
Speeded Up Robust Features(SURF)是最早考慮實(shí)現(xiàn)效率的特征檢測(cè)器之一。它使用不同矩形尺寸中的一系列加法和減法取代了SIFT中浩繁的運(yùn)算。而且,這些運(yùn)算容易矢量化,需要的內(nèi)存較少。
接下來(lái),HOG(Histograms ofOriented Gradients)這種在汽車(chē)行業(yè)中常用的熱門(mén)行人檢測(cè)算法可以變動(dòng),采用不同的尺度來(lái)檢測(cè)不同大小的對(duì)象,并使用塊之間的重疊量來(lái)提高檢測(cè)質(zhì)量,而不增加計(jì)算量。它可以利用并行存儲(chǔ)器訪(fǎng)問(wèn),而不像傳統(tǒng)存儲(chǔ)系統(tǒng)那樣每次只處理一個(gè)查找表,因此根據(jù)內(nèi)存的并行程度加快了查找速度。
然后,ORB(Oriented FASTand Rotated BRIEF)這種用來(lái)替代SIFT的高效算法將使用二進(jìn)制描述符來(lái)提取特征。ORB將方向的增加與FAST角點(diǎn)檢測(cè)器相結(jié)合,并旋轉(zhuǎn)BRIEF描述符,使其與角方向?qū)R。二進(jìn)制描述符與FAST和HarrisCorner等輕量級(jí)函數(shù)相結(jié)合產(chǎn)生了一個(gè)計(jì)算效率非常高而且相當(dāng)準(zhǔn)確的描述圖。
CNN:嵌入式平臺(tái)目標(biāo)識(shí)別的下一個(gè)前沿領(lǐng)域
配有攝像頭的智能手機(jī)、平板電腦、可穿戴設(shè)備、監(jiān)控系統(tǒng)和汽車(chē)系統(tǒng)采用智能視覺(jué)功能將這個(gè)行業(yè)帶到了一個(gè)十字路口,需要更先進(jìn)的算法來(lái)實(shí)現(xiàn)計(jì)算密集型應(yīng)用,從而提供更能根據(jù)周邊環(huán)境智能調(diào)整的用戶(hù)體驗(yàn)。因此,需要再一次降低計(jì)算復(fù)雜度來(lái)適應(yīng)這些移動(dòng)和嵌入式設(shè)備中使用的強(qiáng)大算法的嚴(yán)苛要求。
不可避免地,對(duì)更高精度和更靈活算法的需求會(huì)催生出矢量加速深度學(xué)習(xí)算法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN),用于分類(lèi)、定位和檢測(cè)圖像中的目標(biāo)。例如,在使用交通標(biāo)志識(shí)別的情況下,基于CNN的算法在識(shí)別準(zhǔn)確度上勝過(guò)目前所有的目標(biāo)檢測(cè)算法。除了質(zhì)量高之外,CNN與傳統(tǒng)目標(biāo)檢測(cè)算法相比的主要優(yōu)點(diǎn)是,CNN的自適應(yīng)能力非常強(qiáng)。它可以在不改變算法代碼的情況下快速地被重新“訓(xùn)練(tuning)”以適應(yīng)新的目標(biāo)。因此,CNN和其他深度學(xué)習(xí)算法在不久的將來(lái)就會(huì)成為主流目標(biāo)檢測(cè)方法。
CNN對(duì)移動(dòng)和嵌入式設(shè)備有非??量痰挠?jì)算要求。卷積是CNN計(jì)算的主要部分。CNN的二維卷積層允許用戶(hù)利用重疊卷積,通過(guò)對(duì)同一輸入同時(shí)執(zhí)行一個(gè)或多個(gè)過(guò)濾器來(lái)提高處理效率。所以,對(duì)于嵌入式平臺(tái),設(shè)計(jì)師應(yīng)該能夠非常高效地執(zhí)行卷積,以充分利用CNN流。
事實(shí)上,CNN嚴(yán)格來(lái)說(shuō)并不是一種算法,而是一種實(shí)現(xiàn)框架。它允許用戶(hù)優(yōu)化基本構(gòu)件塊,并建立一個(gè)高效的神經(jīng)網(wǎng)絡(luò)檢測(cè)應(yīng)用,因?yàn)镃NN框架是對(duì)每個(gè)像素逐一計(jì)算,而且逐像素計(jì)算是一種要求非常苛刻的運(yùn)算,所以它需要更多的計(jì)算量。
不懈改進(jìn)視覺(jué)處理器
篇8
關(guān)鍵詞 車(chē)輛自動(dòng)駕駛;人工智能;應(yīng)用實(shí)踐;智能汽車(chē)
中圖分類(lèi)號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2017)182-0080-02
車(chē)輛自動(dòng)駕駛系統(tǒng)是改變傳統(tǒng)駕駛方式的重要技術(shù)類(lèi)型,但仍舊處于研發(fā)測(cè)試階段,并未展開(kāi)全面應(yīng)用。車(chē)輛自動(dòng)駕駛系統(tǒng)主要是由感知部分和控制部分構(gòu)成,控制部分主要完成對(duì)車(chē)輛的控制,促使車(chē)輛按照設(shè)計(jì)的線(xiàn)路展開(kāi)行駛,而感知部分則是對(duì)路線(xiàn)中障礙進(jìn)行識(shí)別,促使車(chē)輛進(jìn)行規(guī)避,保障車(chē)輛安全。然而現(xiàn)階段,車(chē)輛自動(dòng)駕駛的感知部分卻存在一定的瓶頸,制約車(chē)輛自動(dòng)駕駛系統(tǒng)的功能?;诖耍疚膶?duì)車(chē)輛自動(dòng)駕駛中人工智能的應(yīng)用展開(kāi)分析,具體內(nèi)容如下。
1 車(chē)輛自動(dòng)駕駛現(xiàn)狀分析
車(chē)輛自動(dòng)駕駛是借助網(wǎng)絡(luò)技術(shù)相關(guān)算法、高敏感度的傳感器和相關(guān)信息采集設(shè)備,綜合的對(duì)車(chē)輛行駛過(guò)程中路況信息進(jìn)行采集,由信息處理部分完成對(duì)車(chē)輛行駛過(guò)程中采集數(shù)據(jù)的分析,再由控制系統(tǒng)完成對(duì)車(chē)輛前進(jìn)、后退和停止等動(dòng)作進(jìn)行實(shí)施,可有效改變傳統(tǒng)車(chē)輛的駕駛方式,在提高車(chē)輛駕駛有效性的基礎(chǔ)上,可以解放駕駛?cè)藛T的雙手,并達(dá)到降低交通事故發(fā)生幾率,達(dá)到智能化汽車(chē)的構(gòu)建。
近年來(lái),以百度、谷歌為首的行業(yè),致力于人工智能技術(shù)應(yīng)用車(chē)輛自動(dòng)駕駛系統(tǒng)中,于2016年谷歌將無(wú)人駕駛的汽車(chē)測(cè)試到城市,并于2016年12月無(wú)人駕駛汽車(chē)項(xiàng)目剝離為獨(dú)立的公司waymo,完成對(duì)車(chē)輛自動(dòng)駕駛的研究,該公司的基于自動(dòng)駕駛的車(chē)輛的自動(dòng)行駛的距離>1.61×106km,并獲得大量的數(shù)據(jù)。
較比國(guó)外的車(chē)輛自動(dòng)駕駛的自主研究形式,國(guó)內(nèi)主要選擇汽車(chē)廠商與科研所高校等聯(lián)合研究的方式,主要有一汽、上汽、奇瑞等,均投入一定資金和研究力度,致力于研發(fā)可無(wú)人駕駛的智能汽車(chē)。同時(shí),網(wǎng)絡(luò)技術(shù)和算法技術(shù)、硬件技術(shù)的不斷成熟,為車(chē)輛自動(dòng)駕駛提供了基礎(chǔ),對(duì)智能汽車(chē)的構(gòu)建具有十分積極的意義。
隨著世界各類(lèi)尖端行業(yè)重視到汽車(chē)自動(dòng)駕駛大有可為,逐漸加大對(duì)車(chē)輛自動(dòng)駕駛的研究,并將具備車(chē)輛自動(dòng)駕駛能力的汽車(chē)作為未來(lái)汽車(chē)市場(chǎng)的主要方向,促使汽車(chē)可以在自動(dòng)駕駛的狀態(tài)下,完成對(duì)復(fù)雜環(huán)境的駕駛,達(dá)到高度自動(dòng)化駕駛的效果。
2 人工智能在車(chē)輛自動(dòng)駕駛中的應(yīng)用
人工智能是計(jì)算機(jī)科學(xué)的分支之一,所包含的領(lǐng)域較多,涵蓋機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別等,隨著人工智能研究的不斷深入,人工智能逐漸應(yīng)用到各個(gè)領(lǐng)域中。將人工智能應(yīng)用到車(chē)輛自動(dòng)駕駛中,可以對(duì)車(chē)輛自動(dòng)駕駛的瓶頸進(jìn)行突破,推動(dòng)車(chē)輛自動(dòng)駕駛的早日實(shí)現(xiàn)。
2.1 基于深度思考的人工智能
車(chē)輛自動(dòng)駕駛系統(tǒng)對(duì)基于深度思考的人工智能進(jìn)行應(yīng)用,深度思考是一種機(jī)器學(xué)習(xí)的算法,可完成多元非線(xiàn)性數(shù)據(jù)轉(zhuǎn)換、高級(jí)數(shù)據(jù)概念模型的構(gòu)建,促使車(chē)輛自動(dòng)駕駛系統(tǒng)的感知部分發(fā)生轉(zhuǎn)變。具體的基于深度思考的人工智能學(xué)習(xí)結(jié)構(gòu),有深度神經(jīng)網(wǎng)絡(luò)(DNNs)、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、深度信念網(wǎng)絡(luò)等,在具體的車(chē)輛自動(dòng)駕駛系統(tǒng)中,完成對(duì)車(chē)輛的視覺(jué)、語(yǔ)言等信息的識(shí)別。蘋(píng)果手機(jī)編制程序?qū)<褿eorge?Hotz創(chuàng)建的企業(yè),構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛車(chē)輛,并借助人工智能實(shí)現(xiàn)車(chē)輛訓(xùn)練。在具體的車(chē)輛訓(xùn)練過(guò)程中,選擇激光雷達(dá)作為主要視覺(jué)裝置,完成周邊環(huán)境的精準(zhǔn)三維掃描,進(jìn)而實(shí)現(xiàn)對(duì)周邊環(huán)境的識(shí)別,且可以完成對(duì)車(chē)位置信息的報(bào)告。
2.2 基于人工智能解讀的儀表板攝像頭
選擇以帕洛阿爾托為基地的NAUTO使用的prosumer相機(jī)中發(fā)現(xiàn)的各類(lèi)圖像傳感器,并運(yùn)用運(yùn)動(dòng)感應(yīng)器、GPS等,轉(zhuǎn)變激光雷達(dá)傳感器昂貴的情況,達(dá)到降低車(chē)輛自動(dòng)駕駛的感知成本,并有效完成對(duì)周邊地形的識(shí)別。借助NAUTO系統(tǒng),不但能夠完成對(duì)道路前方情況的識(shí)別,還能對(duì)車(chē)輛內(nèi)部的情況信息進(jìn)行采集,車(chē)輛乘坐人員可以根據(jù)面部表情、手勢(shì)和語(yǔ)言完成對(duì)車(chē)輛的控制,達(dá)到改善人機(jī)交互界面。
2.3 基于人工智能的尾剎
現(xiàn)階段,汽車(chē)輔助系統(tǒng)不斷發(fā)展和完善,切實(shí)應(yīng)用到車(chē)輛中,基于人工智能的ADAS技術(shù),配合ACC(自適應(yīng)循環(huán))、LDWS(車(chē)道偏移報(bào)警系統(tǒng))、自動(dòng)泊車(chē)等系統(tǒng)的應(yīng)用,使得目前車(chē)輛具備良好的自動(dòng)能力。而ADAS技術(shù)的應(yīng)用,可以使得汽車(chē)在具體運(yùn)行中如果前方存在車(chē)輛或是前方存在障礙物不能繞過(guò)的情況,借助ADAS技術(shù)的應(yīng)用,可以實(shí)現(xiàn)自動(dòng)剎車(chē),進(jìn)而保障車(chē)輛的行駛安全。
2.4 感知、計(jì)劃、動(dòng)作的agent結(jié)構(gòu)應(yīng)用
車(chē)輛自動(dòng)駕駛系統(tǒng)中對(duì)人工智能進(jìn)行應(yīng)用,對(duì)改善自動(dòng)車(chē)輛駕駛的效果顯著,改善車(chē)輛自動(dòng)駕駛的效果。
借助知識(shí)庫(kù)的十二構(gòu)建,可以給予自動(dòng)駕駛行駛過(guò)程中的地理信息、電子地圖、交通信息和相關(guān)法律法規(guī)這些內(nèi)容。且這些知識(shí)主要是以知識(shí)的形式展示,并借助知R推理中的A算法,可以有效完成對(duì)下一個(gè)被檢查的結(jié)點(diǎn)時(shí)引入已知的全局信息進(jìn)行解讀,達(dá)到對(duì)最優(yōu)路線(xiàn)的選擇,獲得可能性最大的結(jié)點(diǎn),繼而保障知識(shí)所搜的效率。借助感知―計(jì)劃―動(dòng)作agent結(jié)構(gòu)的人工職能,可以將車(chē)輛自動(dòng)行駛的速度分為3個(gè)檔次:High、Middle、Fast,轉(zhuǎn)向角度為7等,分別為0°,±10°,±20°,±30°。且可以完成對(duì)各類(lèi)障礙的規(guī)避。
3 車(chē)輛自動(dòng)駕駛中人工智能應(yīng)用的相關(guān)問(wèn)題
1)車(chē)輛自動(dòng)駕駛具有良好的發(fā)展前景,而人工智能的應(yīng)用,進(jìn)一步優(yōu)化了車(chē)輛自動(dòng)駕駛系統(tǒng)的功能,達(dá)到減少錯(cuò)誤的情況,借助人工智能盡可能降低各類(lèi)錯(cuò)誤的存在,規(guī)避自動(dòng)駕駛風(fēng)險(xiǎn)的存在。需不斷加強(qiáng)對(duì)人工智能的研究和分析,促使人工智能和車(chē)輛自動(dòng)駕駛有機(jī)的結(jié)合,為智能汽車(chē)的構(gòu)建奠定基礎(chǔ)。
2)人工智能應(yīng)用時(shí),需要對(duì)車(chē)輛電腦程序和信息網(wǎng)絡(luò)的安全系數(shù)進(jìn)行控制,避免非法入侵對(duì)車(chē)輛造成不利影響,進(jìn)而導(dǎo)致安全隱患的發(fā)生。
3)人工智能在具體的應(yīng)用中,需要對(duì)預(yù)測(cè)和回應(yīng)人類(lèi)行為的問(wèn)題進(jìn)行處理,進(jìn)而增加自動(dòng)駕駛車(chē)輛與人的互動(dòng)。
4)基于人工智能的智能汽車(chē)定責(zé)的法律問(wèn)題,國(guó)家需要建立相關(guān)的法律法規(guī),不斷完善車(chē)輛自動(dòng)駕駛的相關(guān)立法,完成對(duì)各類(lèi)問(wèn)題的處理,提升法律的適應(yīng)性。
4 結(jié)論
分析車(chē)輛自動(dòng)駕駛的現(xiàn)狀,再詳細(xì)的對(duì)人工智能在車(chē)輛自動(dòng)駕駛的應(yīng)用,再解讀基于感知―計(jì)劃―動(dòng)作agent結(jié)構(gòu)的人工智能的具體應(yīng)用,并分析人工智能在車(chē)輛自動(dòng)駕駛中應(yīng)用的相關(guān)問(wèn)題,為推動(dòng)車(chē)輛自動(dòng)駕駛的水平和智能化水平提供基礎(chǔ),達(dá)到改善人們生活的效果。
參考文獻(xiàn)
[1]黃健.車(chē)輛自動(dòng)駕駛中的仿人控制策略研究[D].合肥:合肥工業(yè)大學(xué),2013.
[2]謝基雄.探析人工智能技術(shù)對(duì)電氣自動(dòng)化的實(shí)踐運(yùn)用[J].電源技術(shù)應(yīng)用,2013(9).
[3]禹昕.人工智能在電氣工程自動(dòng)化中的運(yùn)用實(shí)踐研究[J].工程技術(shù):全文版,2016(12):00247.
[4]余阿東,陳睿煒.汽車(chē)自動(dòng)駕駛技術(shù)研究[J].汽車(chē)實(shí)用技術(shù),2017(2):124-125.
篇9
如果時(shí)光倒流500年,你會(huì)如何對(duì)當(dāng)時(shí)的人們述說(shuō)今日的世界?在那個(gè)時(shí)代,哥白尼剛剛發(fā)表日心論,伽利略還在比薩斜塔拋擲鐵球,吳承恩還在用毛筆寫(xiě)著《西游記》。如果你對(duì)他們說(shuō):“嘿,老兄,我對(duì)著手上的這個(gè)‘黑色方塊’說(shuō)句話(huà),它不僅能讓你看到太陽(yáng)系長(zhǎng)什么樣,告訴你什么是重力加速度,還能直接把唐僧要去西天取的經(jīng)下載給你看?!彼麄兛赡軙?huì)覺(jué)得你要么是神仙,要么是神經(jīng)。
AI從誕生到現(xiàn)在已經(jīng)有60年的時(shí)間,期間經(jīng)歷兩輪起落,呈階梯式進(jìn)化,走到今天進(jìn)入第三個(gè)黃金期。如果按照其智能水平劃分,今天的人工智能尚處在狹義智能向廣義智能進(jìn)階的階段,還是一名不折不扣的“少年”,未來(lái)?yè)碛袩o(wú)限的可能和巨大的上升空間。
AI是一門(mén)交叉的學(xué)科:人工智能由不同的技術(shù)領(lǐng)域組成,如機(jī)器學(xué)習(xí)、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等。而同時(shí),它也是一門(mén)交叉學(xué)科,屬于自然科學(xué)和社會(huì)科學(xué)的交叉,涉及到哲學(xué)和認(rèn)知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)、信息論、控制論、不定性論等學(xué)科。因此人工智能領(lǐng)域的技術(shù)壁壘是比較高的,并且會(huì)涉及到多學(xué)科協(xié)作的問(wèn)題,對(duì)任何公司來(lái)說(shuō),想做好人工智能將是一門(mén)大工程。未來(lái)不大可能出現(xiàn)一個(gè)公司能包攬整個(gè)人工智能產(chǎn)業(yè)每一個(gè)部分的工作,更可能的模式將是一個(gè)公司專(zhuān)注于一個(gè)相對(duì)細(xì)分的領(lǐng)域,通過(guò)模塊化協(xié)作的形式實(shí)現(xiàn)人工智能領(lǐng)域的不同應(yīng)用。
進(jìn)化史呈階梯狀,以階段突破式為成長(zhǎng)模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,
現(xiàn)在正經(jīng)歷著第三個(gè)黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學(xué)家在達(dá)特茅斯一起聚會(huì),并首次提出了“人工智能”這一術(shù)語(yǔ),標(biāo)志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機(jī),標(biāo)志著第一款神經(jīng)網(wǎng)絡(luò)誕生。1970年,因?yàn)橛?jì)算能力沒(méi)能突破完成大規(guī)模數(shù)據(jù)訓(xùn)練,人工智能的第一個(gè)黃金期到此結(jié)束。
后直到1982年德普霍爾德神經(jīng)網(wǎng)絡(luò)的提出,人工智能進(jìn)入第二個(gè)黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能,人工智能的發(fā)展又一次進(jìn)入。1990年,因?yàn)槿斯ぶ悄苡?jì)算機(jī)和DARPA沒(méi)能實(shí)現(xiàn),政府撤資,人工智能又一次進(jìn)入低估。2006年,隨著“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)取得突破性進(jìn)展,人工智能又一次進(jìn)入黃金時(shí)期。
AI將由狹義智能向廣義智能進(jìn)化,雖然人工智能的誕生已經(jīng)有60年的時(shí)間但如果把它比喻成一個(gè)人的話(huà),當(dāng)前的他應(yīng)該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級(jí)智能三個(gè)大的發(fā)展階段,現(xiàn)階段的圖像與語(yǔ)音識(shí)別水平標(biāo)志著人類(lèi)已經(jīng)基本實(shí)現(xiàn)狹義智能,正在向廣義智能的階段邁進(jìn)。
狹義智能:即當(dāng)前的技術(shù)已經(jīng)實(shí)現(xiàn)的智能水平,包括計(jì)算智能與感知智能兩個(gè)子階段,計(jì)算智能指的機(jī)器開(kāi)始具備計(jì)算與傳遞信息的功能,感知智能指機(jī)器開(kāi)始具備“眼睛”和“耳朵”,即具備圖像識(shí)別與語(yǔ)音識(shí)別的能力,并能以此為判斷采取一些行動(dòng)。
廣義智能:指的是機(jī)器開(kāi)始具備認(rèn)知能力,能像人類(lèi)一樣獲取信息后主動(dòng)思考并主動(dòng)采取行動(dòng)。在這個(gè)階段,機(jī)器可以全面輔助或代替人類(lèi)工作。
超級(jí)智能:這個(gè)階段的機(jī)器幾乎在所有領(lǐng)域都比人類(lèi)聰明,包括科學(xué)創(chuàng)新、通識(shí)和社交技能等。這個(gè)階段目前離我們還比較遙遠(yuǎn),到時(shí)候人類(lèi)的文明進(jìn)步和跨越或許將有賴(lài)于機(jī)器,而機(jī)器人意識(shí)的倫理問(wèn)題也許將在這個(gè)階段成為主要問(wèn)題。
推薦引擎及協(xié)同過(guò)濾可以分析更多的數(shù)據(jù)
智能助手并不只局限于Siri等手機(jī)語(yǔ)音助手。微軟率先在win10 系統(tǒng)中加入個(gè)人智能助理Cortana,標(biāo)志著個(gè)人PC端智能助理的出現(xiàn);圖靈機(jī)器人以云服務(wù)的方式進(jìn)入海爾智能家居、博世m(xù)ySPIN車(chē)載系統(tǒng),預(yù)示著多場(chǎng)景人工智能解決方案的潮流。初步實(shí)現(xiàn)人機(jī)交互的智能助手系統(tǒng),已經(jīng)被應(yīng)用于智能客服、聊天機(jī)器人、家用機(jī)器人、微信管理平臺(tái)、車(chē)載系統(tǒng)、智能家居系統(tǒng)、智能手機(jī)助理等多個(gè)軟硬件領(lǐng)域。
垂直類(lèi)網(wǎng)站及社交平臺(tái)可以借助智能助手系統(tǒng)打造高專(zhuān)業(yè)度的“在線(xiàn)專(zhuān)家”以提升平臺(tái)價(jià)值;企業(yè)可以借助以“語(yǔ)義識(shí)別”為基礎(chǔ)的智能助手系統(tǒng),打造智能客服,效率遠(yuǎn)高于傳統(tǒng)的以“關(guān)鍵詞對(duì)應(yīng)”為技術(shù)支持的客服系統(tǒng)。
推薦引擎,是主動(dòng)發(fā)現(xiàn)用戶(hù)當(dāng)前或潛在需求,并主動(dòng)推送信息給用戶(hù)的信息網(wǎng)絡(luò)。挖掘用戶(hù)的喜好和需求,主動(dòng)向用戶(hù)推薦其感興趣或者需要的對(duì)象。傳統(tǒng)推薦引擎通常利用用戶(hù)在平臺(tái)上的歷史記錄進(jìn)行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的推進(jìn),推薦引擎及協(xié)同過(guò)濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶(hù)的需求,真正達(dá)到按需推薦。全球最大的正版流媒體音樂(lè)服務(wù)平臺(tái)Spotify也利用卷積神經(jīng)網(wǎng)絡(luò)參與建設(shè)其音樂(lè)推薦引擎;谷歌也提出利用深度學(xué)習(xí)方法來(lái)學(xué)習(xí)標(biāo)簽進(jìn)行推薦建設(shè)。出品紙牌屋的全球最大在線(xiàn)影片租賃公司Netflix 也利用深度學(xué)習(xí)網(wǎng)絡(luò)分析客戶(hù)消費(fèi)的大數(shù)據(jù),還計(jì)劃構(gòu)建一個(gè)在AWS云上的以GPU為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。
“餐廳推薦引擎”Nara,便是一個(gè)利用AI技術(shù)的推薦引擎。在上線(xiàn)之初,Nara 就取得了400萬(wàn)美元的投資。Nara 的數(shù)據(jù)庫(kù)中有超過(guò)100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡(luò)”,學(xué)習(xí)使用者的偏好,最終達(dá)到“電腦幫你點(diǎn)餐”的目的。
而今年3月22日,國(guó)內(nèi)AI領(lǐng)軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動(dòng)“個(gè)性化推薦”引擎對(duì)外公測(cè),該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個(gè)性化服務(wù)能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開(kāi)發(fā),節(jié)省程序量達(dá)到90%,推薦引擎的搭建時(shí)間將由幾個(gè)月縮短到幾天。
對(duì)于不了解算法的人,只能實(shí)現(xiàn)標(biāo)簽規(guī)則類(lèi)的推薦,但如果要做成機(jī)械化、類(lèi)似協(xié)同過(guò)濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高?,F(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結(jié)果集、訓(xùn)練集都不用處理,只需要調(diào)整參加即可得到推薦結(jié)果。
AI帶給人們新的視覺(jué)???
醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀
健康診斷有望迎來(lái)新紀(jì)元,海量的病歷數(shù)據(jù)和醫(yī)學(xué)界的新研究成果,單靠人工很難及時(shí)篩選并利用,而引入人工智能技術(shù)將充分發(fā)揮這些信息的價(jià)值。例如著名的個(gè)人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認(rèn)知計(jì)算能力理解人類(lèi)語(yǔ)言,實(shí)現(xiàn)與用戶(hù)溝通的能力,從大量數(shù)據(jù)中進(jìn)行分析并為用戶(hù)提供健康管理相關(guān)的答案和建議,實(shí)現(xiàn)健康管理、慢病恢復(fù)訓(xùn)練、健康食譜等功能,這一領(lǐng)域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購(gòu)醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實(shí)現(xiàn) Watson的“辨讀”醫(yī)學(xué)影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過(guò)大數(shù)據(jù)分析,實(shí)現(xiàn)根據(jù)分析患者行為來(lái)制定個(gè)性化治療方案的功能。
智能家居:天花板尚遠(yuǎn),AI有望成為核心
行業(yè)天花板尚遠(yuǎn),增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書(shū)的作用,還幫主人打理著日常生活,向我們展示了一個(gè)理想中的智能家居系統(tǒng)。雖然我們目前可能離那個(gè)無(wú)所不能的智能管家還很遙遠(yuǎn),但智能家居對(duì)我們生活的變革確實(shí)已經(jīng)開(kāi)始了。根據(jù)《2012-2020 年中國(guó)智能家居市場(chǎng)發(fā)展趨勢(shì)及投資機(jī)會(huì)分析報(bào)告》的預(yù)測(cè),我國(guó)智能家居市場(chǎng)在 2016年將達(dá)到605.7億的規(guī)模,同比增長(zhǎng)50.15%,到2020年市場(chǎng)規(guī)模將達(dá)到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達(dá)到“Jarvis”般的終極效果,必然需要引入AI技術(shù),實(shí)現(xiàn)家居的感應(yīng)式控制甚至自我學(xué)習(xí)能力。
AI有望成為智能家居的核心,實(shí)現(xiàn)家居自我學(xué)習(xí)與控制。按照智能家居的發(fā)展進(jìn)度,大致可以分為四個(gè)階段:手機(jī)控制、多控制結(jié)合、感應(yīng)式控制、系統(tǒng)自我學(xué)習(xí)。當(dāng)前的發(fā)展水平還處在手機(jī)控制向多控制結(jié)合的過(guò)度階段。而從多控制結(jié)合向感應(yīng)式控制甚至自我學(xué)習(xí)階段進(jìn)化時(shí),AI將發(fā)揮主要功能。到今天為止,家居的實(shí)體功能已經(jīng)較為全面,未來(lái)的發(fā)展重點(diǎn)可能在于如何使之升級(jí)改造,實(shí)現(xiàn)家居的自我行為及協(xié)作,因此未來(lái)AI在智能家居領(lǐng)域的應(yīng)用有望成為其核心價(jià)值。AI對(duì)智能家居的重構(gòu)可以深入到方方面面,包括:控制主機(jī)、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門(mén)窗控制、能源管理、空調(diào)系統(tǒng)、花草澆灌、寵物看管等等。
無(wú)人駕駛:政策漸萌芽,AI決定可靠性
優(yōu)點(diǎn)多、動(dòng)機(jī)足、政策漸萌芽。據(jù)麥肯錫的調(diào)查顯示,如果能解放駕駛員的雙手,一輛無(wú)人駕駛汽車(chē)內(nèi)的乘客通過(guò)移動(dòng)互聯(lián)網(wǎng)使用數(shù)字媒體服務(wù)的時(shí)間多一分鐘,每年全球數(shù)字媒體業(yè)務(wù)產(chǎn)生的利潤(rùn)將增加 50億歐元。此外,由于自動(dòng)泊車(chē)無(wú)須為乘客下車(chē)預(yù)留開(kāi)門(mén)空間,使得停車(chē)位空間可縮減至少15%。
如果無(wú)人駕駛汽車(chē)以及ADAS系統(tǒng)能夠?qū)⑹鹿拾l(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金??梢哉f(shuō)諸多的優(yōu)點(diǎn)使得無(wú)人駕駛技術(shù)的研發(fā)動(dòng)機(jī)還是相當(dāng)充分的,因此未來(lái)無(wú)人駕駛推行的力度應(yīng)該還會(huì)保持在一個(gè)比較高的水平。美國(guó)勒克斯研究公司曾預(yù)計(jì)無(wú)人駕駛汽車(chē)的市場(chǎng)規(guī)模在2030年將達(dá)到870億美元。
到目前為止,各國(guó)政府對(duì)于無(wú)人駕駛技術(shù)在政策上的支持正逐步放開(kāi),美國(guó)政府在年初剛剛宣布了40億美元的資助計(jì)劃;英國(guó)目前已經(jīng)不需要獲得額外批準(zhǔn)和履約保證即可進(jìn)行實(shí)際道路的無(wú)人駕駛汽車(chē)測(cè)試;而德國(guó)也在去年宣布將計(jì)劃設(shè)立無(wú)人駕駛汽車(chē)測(cè)試路段,供安裝有駕駛輔助系統(tǒng)或全自動(dòng)駕駛系統(tǒng)車(chē)輛行駛;歐盟總部正在就如何修改現(xiàn)行有關(guān)駕駛的法律法規(guī)從而支持自動(dòng)駕駛的發(fā)展展開(kāi)討論和研究工作;日本也提出要在2020年之前實(shí)現(xiàn)自動(dòng)駕駛汽車(chē)方面的立法,并將自動(dòng)駕駛作為 2016年9月七國(guó)集團(tuán)交通部長(zhǎng)會(huì)議的議題。
“無(wú)人汽車(chē)大腦”AI的智能程度決定了無(wú)人駕駛的可靠性。由于無(wú)人駕駛完全交由汽車(chē)的內(nèi)置程序負(fù)責(zé),因此AI就是無(wú)人汽車(chē)的大腦,而測(cè)距儀、雷達(dá)、傳感器、GPS等。設(shè)備都是AI的“眼睛”。AI的智能程度直接決定了無(wú)人駕駛汽車(chē)在不同的路況、不同的天氣、甚至一些探測(cè)設(shè)備出現(xiàn)故障的突況下能否及時(shí)做出正確的判斷并靈活調(diào)整行駛策略,最終決定了無(wú)人駕駛汽車(chē)當(dāng)前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會(huì)上了“Drive PX 2”車(chē)載計(jì)算機(jī),以及一套與之搭配的具有學(xué)習(xí)功能的自動(dòng)駕駛系統(tǒng)。該系統(tǒng)的亮點(diǎn)在于“自我學(xué)習(xí)”,通過(guò)讓車(chē)輛自行分析路面狀況,而不是在數(shù)據(jù)庫(kù)中尋找預(yù)先儲(chǔ)存的策略實(shí)現(xiàn)自動(dòng)駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學(xué)習(xí)訓(xùn)練平臺(tái),最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡(luò),為車(chē)輛的自我學(xué)習(xí)和完善提供支持。并且由于它是通過(guò)判斷物體的行進(jìn)軌跡而不是物體本身去計(jì)算路徑,因此在駕駛時(shí)受天氣影響較小。
AI 成必爭(zhēng)之地
目前全球AI主戰(zhàn)場(chǎng)依舊在歐美。Venture Scanner的統(tǒng)計(jì)顯示,根據(jù)從事 AI相關(guān)業(yè)務(wù)的公司數(shù)量來(lái)看,目前全球 AI的主戰(zhàn)場(chǎng)還是集中在北美和西歐地區(qū)。美國(guó)數(shù)量最多,達(dá)到450家左右的水平。而中國(guó)從事相關(guān)業(yè)務(wù)的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國(guó)家及非洲南部國(guó)家水平接近,相比起歐美國(guó)家的AI公司數(shù)量,還有很大的提高空間。
Google:投資未來(lái)的人工智能帝國(guó)
建立Alphabet帝國(guó),具備品牌背書(shū)效應(yīng)。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關(guān)的技術(shù)基礎(chǔ)部門(mén)”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨(dú)立出來(lái),成為 Alphabet 旗下的獨(dú)立公司。通過(guò)建立 Alphabet集團(tuán),谷歌將不同業(yè)務(wù)的研發(fā)獨(dú)立出來(lái),以子公司的形式進(jìn)行業(yè)務(wù)開(kāi)展,保留在Google這個(gè)品牌下的基本都是原有的傳統(tǒng)強(qiáng)勢(shì)業(yè)務(wù)。
而其它公司負(fù)責(zé)在各自的領(lǐng)域“打頭陣”,一旦業(yè)務(wù)研發(fā)成功,母公司連帶著google這個(gè)品牌都可以受益,而如果研發(fā)失敗,也不會(huì)公司的品牌造成多大的不良影響,建立了良好的品牌背書(shū)效應(yīng)。將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類(lèi)產(chǎn)品中,可謂是全線(xiàn)鋪開(kāi)。正應(yīng)了谷歌 CEO的那句話(huà):“我們將小心謹(jǐn)慎地將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到我們所有的產(chǎn)品之中?!备鶕?jù)當(dāng)前Alphabet 的集團(tuán)架構(gòu),我們將涉及到AI應(yīng)用的子公司情況以及相應(yīng)的業(yè)務(wù)開(kāi)展情況羅列如下:
Nest:從事智能家居生態(tài)系統(tǒng)建設(shè)。2014 年谷歌以32億美元收購(gòu) Nest。Nest 生產(chǎn)智能恒溫器,它能夠?qū)W習(xí)用戶(hù)的行為習(xí)慣,并且根據(jù)他們的喜好去調(diào)節(jié)溫度。同時(shí),Nest 也提供火警探測(cè)器和家庭安全攝像頭等智能家居。
Google X:谷歌各類(lèi)創(chuàng)新技術(shù)的“孵化池”。Google X開(kāi)展的與AI有關(guān)的項(xiàng)目有:無(wú)人駕駛汽車(chē)、Project Wing 無(wú)人機(jī)送貨項(xiàng)目、對(duì)抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預(yù)警和健康監(jiān)控的可穿戴設(shè)備、Project Titan 太陽(yáng)能無(wú)人機(jī)項(xiàng)目、以及 Replicant 團(tuán)隊(duì)負(fù)責(zé)的機(jī)器人項(xiàng)目等。
Verily:從事生命科學(xué)業(yè)務(wù),即原來(lái)的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。
DeepMind:深度學(xué)習(xí)算法公司。2014年谷歌以4億美元收購(gòu)了DeepMind。
篇10
關(guān)鍵詞:深度學(xué)習(xí);目標(biāo)視覺(jué)檢測(cè);應(yīng)用分析
隨著計(jì)算機(jī)的普及,目標(biāo)視覺(jué)檢測(cè)也在計(jì)算機(jī)的發(fā)展中逐漸被應(yīng)用。人們的生活越來(lái)越離不開(kāi)計(jì)算機(jī)和電子設(shè)備,數(shù)據(jù)信息充斥著當(dāng)代人的生活。隨著人們生活質(zhì)量的提高對(duì)電子設(shè)備要求越來(lái)越高,越來(lái)越精準(zhǔn)。目標(biāo)檢測(cè)技術(shù)在人們的生活中,也發(fā)揮著很大的作用和價(jià)值。智能監(jiān)控、機(jī)器人、自動(dòng)定位、人臉聚焦、航拍、衛(wèi)星等方面都應(yīng)用了目標(biāo)視覺(jué)檢測(cè)的技術(shù)。在高層視覺(jué)處理和任務(wù)分析中,目標(biāo)視覺(jué)檢測(cè)技術(shù)也是基礎(chǔ)。無(wú)論是分析行為、事件還是場(chǎng)景語(yǔ)義的理解都需要運(yùn)用到目標(biāo)視覺(jué)檢測(cè)技術(shù)。因此目標(biāo)視覺(jué)檢測(cè)在各個(gè)方面都發(fā)揮著重大的作用,本文就深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的應(yīng)用和展望進(jìn)行探討。
一、深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的進(jìn)展
深度學(xué)習(xí)最早出自于人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)把多層感知器作為學(xué)習(xí)結(jié)構(gòu),組合底層特征進(jìn)行高層的學(xué)習(xí)。作為機(jī)器研究的一個(gè)新領(lǐng)域,模仿人腦組建學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)可以逐步自主的學(xué)習(xí)。而目標(biāo)視覺(jué)檢測(cè)在近幾年出現(xiàn)了很多的問(wèn)題,例如,類(lèi)內(nèi)和類(lèi)間存在差異。即使通過(guò)訓(xùn)練也很難包含所有類(lèi)內(nèi)的特征描述模型。而且類(lèi)內(nèi)和類(lèi)間的差異大小不一樣這就給目標(biāo)視覺(jué)檢測(cè)的發(fā)展帶來(lái)很大的阻礙。在圖像采集的過(guò)程中,由于種種因素會(huì)導(dǎo)致目標(biāo)物體被遮擋,因此,視覺(jué)算法的魯棒性也需要進(jìn)行整改。語(yǔ)義理解也存在著差異,對(duì)仿生和類(lèi)腦角算法有一定的難度。而計(jì)算機(jī)的復(fù)雜和自適應(yīng)性也比較高,需要設(shè)計(jì)高效的目標(biāo)視覺(jué)檢測(cè)技術(shù),為了確保目標(biāo)視覺(jué)檢測(cè)的精準(zhǔn)程度,還需要設(shè)計(jì)出自動(dòng)更新視覺(jué)模型來(lái)提高模型在不同環(huán)境下的適應(yīng)能力。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)對(duì)于目標(biāo)視覺(jué)檢測(cè)有很大的用處,可以極大地解決目前目標(biāo)視覺(jué)檢測(cè)技術(shù)出現(xiàn)的問(wèn)題。因此很多專(zhuān)家開(kāi)始把深度學(xué)習(xí)融入到目標(biāo)視覺(jué)檢測(cè)的發(fā)展當(dāng)中,并進(jìn)行研究。
二、目標(biāo)視覺(jué)檢測(cè)的流程和順序
估計(jì)特定類(lèi)型目標(biāo)是目標(biāo)視覺(jué)檢測(cè)的關(guān)鍵,目標(biāo)視覺(jué)檢測(cè)的流程大致分為三步,區(qū)域建議、特征表示和區(qū)域分類(lèi)。根據(jù)圖一,第一步區(qū)域建議。目標(biāo)檢測(cè)需要獲得目標(biāo)的準(zhǔn)確位置和大小尺度,在輸入圖像的時(shí)候找到指定的類(lèi)型目標(biāo)是其中一種區(qū)域建議。還可以通過(guò)滑動(dòng)窗進(jìn)行區(qū)域建議,投票、圖像分割的區(qū)域建議也可以使用?;瑒?dòng)窗需要在輸入圖像的時(shí)候在子窗口執(zhí)行目標(biāo)來(lái)檢測(cè)目標(biāo)所處的位置。投票機(jī)制則通過(guò)部件的模型找到輸入圖像和模型在局部區(qū)域內(nèi)的最佳位置,并最大限度地讓所有局部區(qū)域匹配,利用拓?fù)涞姆绞絹?lái)得到最佳匹配。但是投票機(jī)制的區(qū)域建議計(jì)算代價(jià)會(huì)比較高。圖像分割的區(qū)域建議則建立在圖像分割的基礎(chǔ)上面,是一個(gè)消耗時(shí)間和精力的過(guò)程,而且很復(fù)雜很難把整個(gè)目標(biāo)分割出來(lái)。而深度學(xué)習(xí)在圖像分類(lèi)和目標(biāo)檢測(cè)中都有一定得進(jìn)展,通過(guò)深度學(xué)習(xí)的表征和建模能力可以生成抽象的表示[1]。
圖一,目標(biāo)視覺(jué)檢測(cè)流程
三、深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)當(dāng)中的作用
深度學(xué)習(xí)融入目標(biāo)視覺(jué)檢測(cè)推動(dòng)了目標(biāo)視覺(jué)檢測(cè)的發(fā)展和研究。目標(biāo)視覺(jué)檢測(cè)和圖像分類(lèi)有一定的區(qū)分,目標(biāo)視覺(jué)檢測(cè)主要關(guān)注圖像的局部信息,圖像分類(lèi)在意圖像的全局表達(dá)。但是它們也有一定的互通性。首先從區(qū)域建議的方法來(lái)探討深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的作用。深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的基本參考方法是Girshick等人提出來(lái)的R-CNN方法。R-CNN和CNN相聯(lián)系,檢測(cè)的精準(zhǔn)度達(dá)到了53.3%,對(duì)比傳統(tǒng)的方法有很大的飛躍。如圖二所示,輸入相關(guān)圖像的同時(shí)進(jìn)行選擇性的搜索提取候選區(qū),通過(guò)CNN網(wǎng)絡(luò)來(lái)提取固定長(zhǎng)度的向量,圖像經(jīng)過(guò)兩個(gè)全連接層和五個(gè)積卷層得出一個(gè)4096的向量,最后把提取到的向量數(shù)據(jù)在向量機(jī)中進(jìn)行分配。但是這樣的方式還是存在很多的不足和弊端,因此Girshick對(duì)R-CNN和SPP-net進(jìn)行了進(jìn)一步的改進(jìn),圖像進(jìn)行一次卷積在特征圖上進(jìn)行映射送入Rol池化層,最后通過(guò)全連接層輸出。同一幅畫(huà)像的Rol共同相同計(jì)算機(jī)的內(nèi)存效率更加高。通過(guò)softmax 的分類(lèi)不僅省去特征的存儲(chǔ)還提高了利用率。近年來(lái),kin等人又提出了PVANET網(wǎng)絡(luò),數(shù)據(jù)的檢測(cè)精準(zhǔn)度達(dá)到了82.5%,在確保精準(zhǔn)度的情況下還能使通道數(shù)減少,可以增加對(duì)細(xì)節(jié)的提取。
圖二,R-NN的計(jì)算流程
早期還提出過(guò)無(wú)區(qū)域建議的方式,例如,DPM模型可以在目標(biāo)的內(nèi)部進(jìn)行結(jié)構(gòu)化的建模,不僅提高了檢測(cè)的性能,也能很好地適應(yīng)非剛體的形變。但是DPM模型的構(gòu)建條件復(fù)雜,模型訓(xùn)練也比較繁瑣,所以sermanet又進(jìn)行研究提出了Overfeat的模型,避免圖像塊的操作出錯(cuò),也能提高算法的效率。但是關(guān)于尺寸的識(shí)別還是存在著一定的問(wèn)題,因此無(wú)區(qū)域建議還在不斷的探索過(guò)程中。redmom提出了關(guān)于改進(jìn)yolo模型的方法,成為yolov2,可以確保精準(zhǔn)度和定位,提升了檢測(cè)率。專(zhuān)家們還研制出一種新的訓(xùn)練算法,用數(shù)據(jù)來(lái)找到物體的準(zhǔn)確定位,yolo模型通過(guò)這樣的方式課題檢測(cè)超過(guò)九千種物體[2]。
四、結(jié)束語(yǔ)
未來(lái)深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中都會(huì)得到繼續(xù)的應(yīng)用和進(jìn)展,深度學(xué)習(xí)在目標(biāo)視覺(jué)測(cè)試中依舊是主流的方向。深度學(xué)習(xí)通過(guò)它的優(yōu)勢(shì)可以獲得高層次抽象的表達(dá)。但是深度學(xué)習(xí)的理論還不是特別的完善,模型的可解釋性還不夠強(qiáng)。因此深度學(xué)習(xí)模式還需要得到進(jìn)一步的改進(jìn)和完善,對(duì)模型的結(jié)構(gòu),訓(xùn)練等多加指導(dǎo)。大規(guī)模多樣性數(shù)據(jù)集也比較匱乏,現(xiàn)在很多的目標(biāo)視覺(jué)檢測(cè)都在imagenet上進(jìn)行訓(xùn)練,但是目標(biāo)檢測(cè)技術(shù)還需要進(jìn)一步的完善和提高,達(dá)到最好的效果。深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)技術(shù)中的應(yīng)用還不夠完善,任重而道遠(yuǎn),還需要進(jìn)一步的完善理論提高精準(zhǔn)度。在未來(lái),深度學(xué)習(xí)和目標(biāo)視覺(jué)檢測(cè)一定能夠得到極大的進(jìn)展。
參考文獻(xiàn)