數(shù)據(jù)處理過程風險控制分析
時間:2022-06-24 09:14:10
導語:數(shù)據(jù)處理過程風險控制分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:文章通過分析現(xiàn)階段市場主流大數(shù)據(jù)處理方式,及該流程下易產(chǎn)生的數(shù)據(jù)失真原因和導致的后果,提出相應的有針對性的處理方式,從而討論大數(shù)據(jù)處理過程中的風險控制可行性,并對未來用戶數(shù)據(jù)隱私保護時代和海量數(shù)據(jù)背景下如何增強數(shù)據(jù)有效性收集提出部分設(shè)想。
關(guān)鍵詞:大數(shù)據(jù)挖掘;黑天鵝;樣本免疫;血字數(shù)據(jù)
1大數(shù)據(jù)處理現(xiàn)狀
目前行業(yè)內(nèi)大數(shù)據(jù)常用的處理流程可以概括為四步,分別是數(shù)據(jù)采集、導入和預處理、統(tǒng)計分析以及挖掘。1.1數(shù)據(jù)采集。大數(shù)據(jù)的采集是通過多個數(shù)據(jù)庫介質(zhì)來接收發(fā)自客戶端的數(shù)據(jù)(隨著智能手機的普及,App端口采集已經(jīng)成為主要來源),且數(shù)據(jù)采集者可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高訪問量在峰值時達到上百萬或千萬級別,如“天貓雙11”和春運搶票以及各種網(wǎng)購平臺促銷時的“秒殺”活動,都要求采集端部署大量數(shù)據(jù)庫才能支撐,負載均衡和分片處理將是采集端設(shè)計的重點考量范圍。1.2導入預處理。很多業(yè)內(nèi)流行的做法是在采集端進行前端數(shù)據(jù)導入的大型分布式匯總,且在分布式儲存群中進行數(shù)據(jù)的清洗和和預處理,甚至嵌入流式計算步驟。此步驟要注意的是百兆、千兆每秒的數(shù)據(jù)量處理難度較大。1.3統(tǒng)計分析。傳統(tǒng)統(tǒng)計與分析的需求端運用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright。實際運用過程中我們常遇到批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求,這點應當區(qū)分考慮,同時統(tǒng)計、分析步驟涉及到的數(shù)據(jù)量十分巨大,近年來隨著數(shù)據(jù)采集量的爆炸式增長,系統(tǒng)資源占用往往沒有上線,這點硬件布局時應當充分考慮。1.4挖掘。市場上目前挖掘方式,主要是在現(xiàn)有數(shù)據(jù)根據(jù)客戶需求進行基于各種算法的計算,從而起到預測的效果,高級別數(shù)據(jù)分析的需求,也往往是基于初級算法的嵌套性疊加。往年典型算法有用于聚類的K-Means、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,使用工具有Python、Hadoop等,該過程的難點往往是精準把握用戶數(shù)據(jù)需求,再基于需求的基礎(chǔ)之上進行算法的調(diào)整。
2大數(shù)據(jù)失真的危害及風險
在處理流程中,采集、導入預處理、統(tǒng)計分析,都可以通過預設(shè)數(shù)據(jù)庫完成。而真正用于企業(yè)營銷、戰(zhàn)略、市場分析的核心數(shù)據(jù)挖掘階段則是完全無法具體量化,可以說不同行業(yè)和不同市場階段有著截然不同的數(shù)據(jù)庫需求,如果我們挖掘和提煉數(shù)據(jù)的過程嚴重或者部分失效,則在數(shù)據(jù)分析的蝴蝶效應之下得出的結(jié)果一定與事實情況是天壤之別。2014年電影《黃金時代》和2018年電影《阿修羅》大數(shù)據(jù)端在票房和市場預測方面失算的案例充分說明大數(shù)據(jù)的推演失真所造成的結(jié)果是災難性的。隨著“關(guān)系鏈和數(shù)據(jù)流應成為企業(yè)估值的新核心指標”這一把數(shù)據(jù)價值提升到前所未有的理論誕生。各中商業(yè)資本開始瘋狂的引入大數(shù)據(jù)概念,各種相對應所謂的數(shù)據(jù)分析公司應運而生。然而大數(shù)據(jù)真的那么神奇嗎?是否真的可以像宣傳的那樣神奇到對目標無孔不入地分析?據(jù)資料統(tǒng)計《黃金時代》在百發(fā)有戲的會上,百度大數(shù)據(jù)部產(chǎn)品規(guī)劃負責人祖崢介紹了百度票房預測產(chǎn)品,通過百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù)以及10年來電影行業(yè)數(shù)據(jù)、同類電影數(shù)據(jù)等,以及電影受眾分析,預測《黃金時代》票房將在2億至2.3億之間。由此可見其數(shù)據(jù)挖掘階段的主要參數(shù)是“百度搜索”“新浪微博”“電影行業(yè)歷史數(shù)據(jù)”等存量數(shù)據(jù)指標,雖然算法筆者個人不得而知。但作為一個軟件行業(yè)從業(yè)人員從數(shù)據(jù)源的角度分析:首先百度搜索和新浪微博等支流平臺其收集的只是所謂關(guān)注度數(shù)據(jù),我們無法將關(guān)注真正轉(zhuǎn)化為票房;其次,中國電影在票房統(tǒng)計上有先天的缺陷,影院對票房的瞞報早已成為業(yè)內(nèi)的潛規(guī)則,而21世紀初我國才開始建立票房統(tǒng)計制度,其時間周期不過10年左右。最后受眾分析方面,發(fā)行方和百度數(shù)據(jù)利用所謂的問卷調(diào)查為依據(jù)樣本,推演出數(shù)據(jù)結(jié)果殊不知這樣的數(shù)據(jù)嚴重受制于“受眾免疫”現(xiàn)象。(受眾免疫:泛指調(diào)查樣本在已知條件下對調(diào)查行為采取的與實際不符的行為方式,其結(jié)果會產(chǎn)生調(diào)查數(shù)據(jù)折射)。
3大數(shù)據(jù)處理過程中的風險控制步驟
大數(shù)據(jù)究其核心無外是用過去推斷未來。或是用過去既定的已經(jīng)發(fā)生的同類事件推測未來與之相似事件的結(jié)果。其誕生就飽受爭議。筆者認為,合理控制數(shù)據(jù)采集和統(tǒng)計分析過程中的數(shù)據(jù)源精準度是減小和控制大數(shù)據(jù)推斷結(jié)果風險的核心要素。具體步驟為:1)淡化模糊數(shù)據(jù)的收集,精確采集源重點收集血字數(shù)據(jù)。隨著互聯(lián)網(wǎng)技術(shù)的全面運用,海量數(shù)據(jù)的產(chǎn)生已遠遠大于存儲介質(zhì)的容量,如果“大數(shù)據(jù)”的收集只是一味求“大”不求“精”,那么所收集的混沌數(shù)據(jù)將毫無意義,即:掌握了所有數(shù)據(jù)其實等于沒掌握數(shù)據(jù)。而血字數(shù)據(jù)則不同,(所謂血字數(shù)據(jù)是指反應事物本身聯(lián)系無法掩飾和修飾的唯一性數(shù)據(jù)如:居民身份證號碼、銀行卡等級、衛(wèi)星定位點等等無法或者掩飾難度極大的數(shù)據(jù)。其得名于柯南道爾福爾摩斯系列小說中經(jīng)典故事“血字的研究”)。在法律和保護消費者范圍內(nèi)合法收集關(guān)鍵數(shù)據(jù)可以直接提高大數(shù)據(jù)的采集精度和推斷廣度,在源頭上解決數(shù)據(jù)收集過程中巨量的采集和超高的服務器荷載。不但節(jié)約企業(yè)硬件成本而且還能直觀提高采集效率,減少決策過程中蝴蝶效應的發(fā)生概率。2)增強數(shù)據(jù)挖掘過程中的企業(yè)獨特性,引入先進分析方法和現(xiàn)代統(tǒng)計學、概率分布矩陣經(jīng)驗來降低數(shù)據(jù)挖掘過程中小概率事件的發(fā)生風險。市場調(diào)查公司AC尼爾森的“尼爾森數(shù)據(jù)”就是獨特數(shù)據(jù)挖掘的典范。即對數(shù)據(jù)采取“質(zhì)量控制”。未來大數(shù)據(jù)時代尤其是金融領(lǐng)域,面對相同的數(shù)據(jù)不同的處理方式和挖掘手法可能得出的結(jié)果完全不同。正如喬治•索羅斯在《金融煉金術(shù)》一書中提到:在認識函數(shù)中,參與者的認識依賴于情鏡;在參與函數(shù)中,情境受參與者認知的影響。3)提出控制預警方案以應對大數(shù)據(jù)時代的“黑天鵝事件”。大數(shù)據(jù)反對派的關(guān)鍵王牌就是黑天鵝現(xiàn)象,持此觀點者普遍認為黑天鵝現(xiàn)象不可預知如“911事件”“印度洋海嘯”“日本核泄漏”等極端事件無法通過歷史所謂的大數(shù)據(jù)和經(jīng)驗去預知,而其造成的巨大風險將會嚴重透支常規(guī)事件中企業(yè)所取得的利潤。簡言之就是大的災難造成的損失可能使正常事件積累的財富一夜化為烏有。但他們恰恰忽略了歷史上發(fā)生的黑天鵝事件本身就是大數(shù)據(jù)分析的最好素材基礎(chǔ),正式因為其獨特性和唯一性反而造就了上文所說的血字數(shù)據(jù),黑天鵝事件的大數(shù)據(jù)分析往往能夠更為精準,究其原因很大程度上是因為事件本身的獨一無二。少數(shù)的黑天鵝事件幾乎能夠解釋這個世界中的所有事情,從思想的勝利到歷史事件的變遷,到我們的個人生活。我們無法避免黑天鵝事件的發(fā)生,但恰恰是對以往事件的分析和統(tǒng)計研究可以避免和減少未來新的黑天鵝事件帶來的損失。這一點恰恰是黑天鵝事件中風險控制的靈魂所在。
4結(jié)論
倫敦皇家學院的DavidHand教授講過一句話,“現(xiàn)在我們有了一些新的數(shù)據(jù)來源,但是沒有人想要數(shù)據(jù),人們要的是答案”。大數(shù)據(jù)已經(jīng)到來,但它并沒有帶來新的真理?,F(xiàn)在的挑戰(zhàn)是要吸取統(tǒng)計學中老的教訓,在比以前大得多的數(shù)據(jù)規(guī)模下去解決新的問題、獲取新的答案。自2018年歐盟新的用戶隱私法規(guī)實施以來,用戶日益覺醒的隱私保護觀念和海量數(shù)據(jù)中的有效性處理,已經(jīng)成為了大數(shù)據(jù)采集、導入、預處理和統(tǒng)計分析環(huán)節(jié)中的重要瓶頸。對此在未來的數(shù)據(jù)分析采集中,我們應當避免目前階段我國主流數(shù)據(jù)收集收集公司統(tǒng)計學和市場調(diào)查般的海量堆砌數(shù)據(jù),再花大的精力進行后期處理;這種方法在早期PC端用戶時代和智能手機崛起初期有明顯效果,那時數(shù)據(jù)生成量有限且用戶對個人敏感數(shù)據(jù)的保護性并不十分強烈,而今我國已經(jīng)成為世界上數(shù)量最多的移動端用戶保有量國家,且2020年5G時代將全面來臨,巨量的峰值數(shù)據(jù)和兆億般的系統(tǒng)資源占有量負載,現(xiàn)有海量數(shù)據(jù)收集篩選法將會無法適用。對此,我們必須布局未來,從思路上進行有效數(shù)據(jù)的挖掘處理機制探索,并形成體系化的處理工作流和新型架構(gòu)理論,才能全面應對未來大數(shù)據(jù)處理過程中的風險。
參考文獻
[1]肖風.投資革命[M].北京:中信出版社,2013.
[2]喬治•索羅斯.金融煉金術(shù)[M].??冢汉D铣霭嫔?,1999.
[3]納西姆•尼古拉斯塔勒布.黑天鵝[M].北京:中信出版社,2009.
[4]徐子沛.大數(shù)據(jù)[M].桂林:廣西師范大學出版社,2015.
[5]比爾•施瑪澤.大數(shù)據(jù):從概念到運營[M].北京:中信出版社,2016.
作者:程龍 單位:深圳市中軟創(chuàng)新信息系統(tǒng)有限公司