數(shù)據(jù)使用質(zhì)量評(píng)價(jià)研究
時(shí)間:2022-12-18 11:32:38
導(dǎo)語(yǔ):數(shù)據(jù)使用質(zhì)量評(píng)價(jià)研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
大數(shù)據(jù)正在成為處理大量數(shù)據(jù)時(shí)遇到常見問(wèn)題的新型解決方案,這些問(wèn)題可能是多樣化的,并且可能也會(huì)以大規(guī)模并行處理。根據(jù)要進(jìn)行的分析類型,必須以特定方式收集和安排一些具體數(shù)據(jù),以應(yīng)對(duì)各種性質(zhì)(技術(shù)、概念和方法)的新挑戰(zhàn),即收集的數(shù)據(jù)必須與感興趣的領(lǐng)域或分析的背景相關(guān),換句話說(shuō),數(shù)據(jù)必須對(duì)分析有價(jià)值。傳統(tǒng)工作中,自有數(shù)據(jù)洞察可以通過(guò)商業(yè)智能技術(shù)完成,在很大程度上有益于其業(yè)務(wù)績(jī)效。這些見解是通過(guò)對(duì)新類型的數(shù)據(jù)利用新類型分析來(lái)開展業(yè)務(wù)的新方法?,F(xiàn)在當(dāng)數(shù)據(jù)以特定不同格式或以不同速率進(jìn)行時(shí),經(jīng)典的如基于關(guān)系數(shù)據(jù)庫(kù)的處理結(jié)構(gòu)化數(shù)據(jù)的能力是不夠的,特別是在性能和延遲方面。
1數(shù)據(jù)使用質(zhì)量模型
大數(shù)據(jù)解決方案可以被理解為完整的信息系統(tǒng),如果相分析交易和分析數(shù)據(jù),那么這些數(shù)據(jù)將扮演大數(shù)據(jù)輸入的角色。在任何情況下我們都無(wú)法實(shí)現(xiàn)大數(shù)據(jù)分析的結(jié)果,但是其質(zhì)量可能通過(guò)其他模型進(jìn)行評(píng)估。有關(guān)輸入數(shù)據(jù)的數(shù)據(jù)質(zhì)量等級(jí)的測(cè)量可以參照ISO/IEC25012標(biāo)準(zhǔn)。本文模型涉及ISO/IEC25010中描述的所有類型質(zhì)量之間的依賴關(guān)系,ISO/IEC25010對(duì)質(zhì)量的解釋可以應(yīng)用于數(shù)據(jù),將數(shù)據(jù)理解為產(chǎn)品:數(shù)據(jù)滿足定義要求的程度是數(shù)據(jù)的內(nèi)部質(zhì)量;數(shù)據(jù)表示的關(guān)系和適當(dāng)性是數(shù)據(jù)的外部質(zhì)量;為數(shù)據(jù)設(shè)定的目標(biāo)的實(shí)現(xiàn)程度是使用中的質(zhì)量。ISO/IEC25012的數(shù)據(jù)質(zhì)量模型有助于研究大數(shù)據(jù)解決方案輸入數(shù)據(jù)的內(nèi)部和外部質(zhì)量,但不能用于研究使用中的質(zhì)量。本工作中介紹的3As數(shù)據(jù)使用中的質(zhì)量模型用于填補(bǔ)使用中數(shù)據(jù)質(zhì)量的空白,從而可以評(píng)估大數(shù)據(jù)項(xiàng)目中數(shù)據(jù)的使用質(zhì)量。也就是說(shuō),這個(gè)新模型旨在提供一種方法,從質(zhì)量的角度為預(yù)期用途(即通過(guò)大數(shù)據(jù)分析產(chǎn)生可信賴的結(jié)果)獲得數(shù)據(jù)合理的程度和適當(dāng)程度。根據(jù)這種基于質(zhì)量理念的觀點(diǎn),本文在評(píng)估時(shí)同時(shí)提出了主要的數(shù)據(jù)質(zhì)量問(wèn)題。
2使用質(zhì)量水平
大數(shù)據(jù)項(xiàng)目中的使用質(zhì)量水平是數(shù)據(jù)的充分性,以達(dá)到分析的目的。根據(jù)Merriam字典,使用質(zhì)量水平可以被定義為對(duì)某些需求目的或要求足夠滿意的狀態(tài)或能力。根據(jù)這一定義,數(shù)據(jù)的充分性是足以實(shí)現(xiàn)分析目標(biāo)和目的的數(shù)據(jù)狀態(tài)或能力。換句話說(shuō),要符合通過(guò)特定大數(shù)據(jù)解決方案進(jìn)行分析的特定特征。本文工作將特征分為四類:可訪問(wèn)性、上下文、代表性以及內(nèi)在性。作為研究過(guò)程的一部分,這四個(gè)類別在大數(shù)據(jù)背景下重新分為兩個(gè)特征:語(yǔ)境充分性和操作充分性。首先來(lái)簡(jiǎn)化特征:代表性、可訪問(wèn)性和內(nèi)在性。這種簡(jiǎn)化的主要原因在于數(shù)據(jù)必須可以使用可用于大數(shù)據(jù)分析的資源和技術(shù)來(lái)處理,這三個(gè)類別適合于單個(gè)特征的定義,我們稱之為操作充分性。關(guān)于語(yǔ)境充分性,我們承認(rèn)時(shí)間方面是語(yǔ)境的一部分。盡管如此,由于實(shí)時(shí)分析的重要性日益增加,因此需要對(duì)時(shí)間方面進(jìn)行單獨(dú)評(píng)估。因此,本文確定了三大關(guān)鍵數(shù)據(jù)質(zhì)量特征,這些特征對(duì)于大數(shù)據(jù)分析環(huán)境中的數(shù)據(jù)非常重要,分別是:上下文充分性、時(shí)間充分性和操作充分性。
3As數(shù)據(jù)質(zhì)量使用模型中每個(gè)特征的定義
上下文充分性指的是數(shù)據(jù)集在分析的相同感興趣域內(nèi)使用的能力,獨(dú)立于任何格式(例如,結(jié)構(gòu)化與非結(jié)構(gòu)化),任何大小或流入速度。從這個(gè)意義上說(shuō),重要的是數(shù)據(jù)首先是相關(guān)和完整的,使用的數(shù)據(jù)量是適當(dāng)?shù)?;其次是?dú)特且語(yǔ)義上可互操作的,因此考慮到給定的上下文并且由于重復(fù)而沒(méi)有不一致性,數(shù)據(jù)必須是可理解的;再就是語(yǔ)義準(zhǔn)確,數(shù)據(jù)必須代表大數(shù)據(jù)分析環(huán)境中的真實(shí)實(shí)體;最后是可信的,所有數(shù)據(jù)來(lái)源必須可信,數(shù)據(jù)必須由允許開發(fā)分析的同一組人員訪問(wèn),且符合規(guī)定的規(guī)定和要求。時(shí)間充分性是指數(shù)據(jù)在適當(dāng)?shù)臅r(shí)間段內(nèi)進(jìn)行分析。例如,相似的年齡或在歷史數(shù)據(jù)特定持續(xù)時(shí)間內(nèi),意味著數(shù)據(jù)指的是類似的時(shí)間段。重要的是要注意通過(guò)分析的數(shù)據(jù)操作的時(shí)間方面不包括在該定義中,而是僅包括數(shù)據(jù)本身的時(shí)間方面。因此,處理的數(shù)據(jù)應(yīng)該是:(1)時(shí)間并發(fā):指在類似或適當(dāng)?shù)臅r(shí)間段內(nèi)發(fā)生的事實(shí)。例如,如果分析集中在過(guò)去的事件上,那么數(shù)據(jù)必須與相關(guān)的事物相對(duì)應(yīng);(2)及時(shí)更新:數(shù)據(jù)必須針對(duì)手頭的任務(wù)進(jìn)行適當(dāng)更新;(3)頻繁:在進(jìn)行某種趨勢(shì)分析時(shí),使用數(shù)據(jù)生成與所需的未來(lái)時(shí)段(所需頻率)相關(guān)的結(jié)果。大數(shù)據(jù)解決方案具體分析可以獨(dú)立于數(shù)據(jù)質(zhì)量使用水平的評(píng)估來(lái)執(zhí)行。通過(guò)3As使用質(zhì)量模型提供的評(píng)價(jià)水平,可以用于提高對(duì)分析結(jié)果健全性的意識(shí)指標(biāo)。從這個(gè)意義上講,數(shù)據(jù)清理時(shí)間挑戰(zhàn)的性能問(wèn)題也得以實(shí)現(xiàn)。數(shù)據(jù)的動(dòng)態(tài)將始終是其外部質(zhì)量的一部分,關(guān)鍵元素將通過(guò)設(shè)置數(shù)據(jù)約束的業(yè)務(wù)規(guī)則來(lái)識(shí)別,測(cè)量外部數(shù)據(jù)質(zhì)量時(shí)則將考慮到使用ISO/IEC25012的特性。
4結(jié)論
本文提出的數(shù)據(jù)質(zhì)量使用模型可應(yīng)用于任何大數(shù)據(jù)特定實(shí)施,因?yàn)槠浯胧┆?dú)立于任何情況,要求或技術(shù)。評(píng)估的執(zhí)行方式是不必移動(dòng)數(shù)據(jù)。相反,本文的數(shù)據(jù)質(zhì)量使用模型是在大數(shù)據(jù)解決方案中實(shí)現(xiàn)的。并且數(shù)據(jù)管理員能夠決定是評(píng)估數(shù)據(jù)子集還是完整數(shù)據(jù)集。由于完成了大數(shù)據(jù)數(shù)據(jù)質(zhì)量計(jì)劃的所有常見挑戰(zhàn),因此可以引用數(shù)據(jù)質(zhì)量使用模型作為評(píng)估大數(shù)據(jù)項(xiàng)目中數(shù)據(jù)質(zhì)量的適當(dāng)解決方案。
作者:黃永鑫 郭彥辰 單位:河北省秦皇島市東北大學(xué)
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論