數(shù)據(jù)挖掘在商業(yè)領(lǐng)域的運用
時間:2022-12-31 09:27:18
導語:數(shù)據(jù)挖掘在商業(yè)領(lǐng)域的運用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘的過程可以理解為以下幾個步驟。第一步,數(shù)據(jù)清理,解決數(shù)據(jù)的不一致問題、平滑噪聲、補充缺失數(shù)據(jù)、識別并刪除離群點。第二步,數(shù)據(jù)集成,把來自多個文件、數(shù)據(jù)立方或者數(shù)據(jù)庫中的數(shù)據(jù)組合在一起。第三步,數(shù)據(jù)選擇、分析、提取數(shù)據(jù)庫中與任務相關(guān)的數(shù)據(jù)。第四步,數(shù)據(jù)變換,通過數(shù)據(jù)平滑、匯總、聚集、泛化、規(guī)范化、屬性構(gòu)造等操作提高對高維數(shù)據(jù)的理解,把數(shù)據(jù)變換統(tǒng)一成適合進行數(shù)據(jù)挖掘的形式。第五步,數(shù)據(jù)挖掘,選擇合適的數(shù)據(jù)挖掘算法智能的提取出有用的信息或模式。數(shù)據(jù)挖掘在于發(fā)現(xiàn)有價值的模式,總體來說,數(shù)據(jù)挖掘的目的可以分為兩類:描述性和預測性。描述性挖掘任務用于表示目標數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì),包括分類、聚類、關(guān)聯(lián)分析、異常檢測等,預測性任務在匯總后的數(shù)據(jù)上進行歸納,作出預測,包括回歸、分類等。第六步,模式評估,根據(jù)某種度量確定出某些有趣的模式,或由專家來評定其價值和正確性。第七步,知識表示,使用可視化等信息表示方法,向用戶展示挖掘出的有用信息和結(jié)果分析。以上的步驟是進行數(shù)據(jù)挖掘的一般過程,對于不同的應用分析過程也不盡相同,在商業(yè)領(lǐng)域中,面對來自商業(yè)的各種不同的分析任務,首先應該理解該應用領(lǐng)域,對數(shù)據(jù)分析的背景有一個很好的理解,然后盡可能的按照所需信息進行信息的收集工作。
2數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的重要應用及分析
零售業(yè)是非常適合的數(shù)據(jù)挖掘的商業(yè)領(lǐng)域之一,因為它包含了大量的銷售記錄、顧客購買記錄、貨物運輸記錄等大量的原始信息,為數(shù)據(jù)挖掘提供了豐富的資源。分類和預測技術(shù)在市場分析、供應和銷售方面為商務智能提供預測分析;聚類可以在客戶關(guān)系管理方面,根據(jù)顧客的相似性把顧客進行分組以便進行更多的后續(xù)分析。數(shù)據(jù)挖掘在商業(yè)上的應用具體在以下幾個方面:第一,幫助設(shè)計和構(gòu)造數(shù)據(jù)倉庫,由于商業(yè)領(lǐng)域中信息范圍太大,數(shù)據(jù)庫的設(shè)計也存在許多方式,我們可以使用數(shù)據(jù)挖掘演練結(jié)果指導數(shù)據(jù)庫的設(shè)計方便以后的使用和后續(xù)分析處理。第二,對顧客需求、產(chǎn)品銷售、趨勢等構(gòu)造復雜的數(shù)據(jù)立方體,提供多維分析和可視化工具。第三,根據(jù)顧客購買記錄,使用序列模式挖掘顧客的消費變化,分析顧客的忠誠程度。第四,產(chǎn)品推薦和商品的交叉推薦,通過銷售記錄挖掘關(guān)聯(lián)信息,這類信息可以形成產(chǎn)品推薦,也可以根據(jù)其他顧客的購買意愿產(chǎn)生個性化購買服務。第五,通過多維分析、聚類分析和林群點分析可以識別可能的欺騙者和他們的習慣模式,檢測通過欺騙進入或未經(jīng)授權(quán)訪問個人或組織的賬戶企圖,發(fā)現(xiàn)可能需要特別注意的不尋常模式。使用數(shù)據(jù)挖掘技術(shù),可以更好的理解每組顧客的行為特征,開發(fā)制定銷售計劃。
3數(shù)據(jù)挖掘的典型分析方法
3.1特征化和區(qū)分
數(shù)據(jù)特征化就是簡潔的匯總目標數(shù)據(jù)的一般特征。在商業(yè)活動中,公司為保證自己的正常運營和經(jīng)濟效益要保證有一定的客戶源。包括不斷發(fā)展新客戶,對已有客戶的消費行為和基礎(chǔ)信息作為基礎(chǔ)綜合考慮客戶的行為特征,對可能的客戶源加強推薦工作。
3.2頻繁模式和關(guān)聯(lián)規(guī)則
挖掘頻繁模式能找出大部分人的喜好,找出適用范圍更廣的有趣模式的關(guān)聯(lián)性和相關(guān)性。關(guān)聯(lián)規(guī)則若能同時滿足最小支持度閾值和最小置信度閾值,進一步發(fā)現(xiàn)關(guān)聯(lián)的屬性-值對之間的有趣的統(tǒng)計相關(guān)。關(guān)聯(lián)規(guī)則最早是用于解決購物籃分析問題,從購物籃數(shù)據(jù)中發(fā)現(xiàn)顧客的購買規(guī)律決定商品的擺放位置。還用于醫(yī)療中發(fā)現(xiàn)某些癥狀與某些疾病之間的關(guān)聯(lián),為診斷提供更多依據(jù)。
3.3分類與回歸
分類可以找出描述和區(qū)分數(shù)據(jù)類的模型,以便接下來實現(xiàn)模型預測類標號以及預測位置類別的數(shù)據(jù)元素。決策樹、神經(jīng)網(wǎng)絡是比較常見的用于分類的方法。相關(guān)分析是在分類和回歸之前進行,識別出顯著相關(guān)的屬性,其他不想管的屬性可以暫時不考慮。分類方法用于金融市場營銷、市場預測、信用評估、醫(yī)療診斷等方面。分類器還可用于預測某些產(chǎn)品的銷售情況、廣告的投放區(qū)域,以及保險業(yè)中評估客戶的信用等級。
3.4聚類(cluster)
與分類不同的是,分類需要一個類別屬性,而聚類不需要,它是將數(shù)據(jù)集劃分為由若干相似實例組成簇的過程,使得在同一個簇中數(shù)據(jù)相似程度最大化,簇間數(shù)據(jù)相異程度最高。是一種無監(jiān)督的機器學習方法。涉及到的主要算法有K-means,EM算法和DBSCAN算法。聚類分析可以詳細的劃分市場,比如,基于客戶特征把客戶群進行劃分,房地產(chǎn)行業(yè)中對住宅戶型、地理位置等特征來鑒定一個城市的房產(chǎn)分組。
3.5離群點分析
前面討論的聚類、分類、關(guān)聯(lián)分析等方法的重點在于發(fā)現(xiàn)大多數(shù)數(shù)據(jù)所適用的常規(guī)模式。數(shù)據(jù)集中的數(shù)據(jù)中可能包含一些與其他數(shù)據(jù)一般行為不一致的點,這些數(shù)據(jù)就稱為離群點,大部分的離群點在一些有趣模式的挖掘過程中被丟棄,然而,在一些其他方面,可以直接將離群點單獨拿出來做分析。比如應用于災害氣象預報、欺詐檢測、藥物異常反應、網(wǎng)絡安全入侵檢測等領(lǐng)域。
4數(shù)據(jù)挖掘的分析軟件和展示工具
無論是數(shù)據(jù)分析、數(shù)據(jù)挖掘還是商業(yè)智能,在以后的應用中我們都有必要掌握幾種高效的軟件工具。對于商業(yè)領(lǐng)域中數(shù)據(jù)挖掘工作不僅要收集數(shù)據(jù)進行挖掘還要將結(jié)果以報表的形式展現(xiàn)給客戶。數(shù)據(jù)挖掘的工具可按應用分為幾個層次。數(shù)據(jù)存儲層:首先,我們需要存儲數(shù)據(jù),能夠理解數(shù)據(jù)的存儲和數(shù)據(jù)的基本結(jié)構(gòu)和數(shù)據(jù)類型以及SQL語句的基本結(jié)構(gòu)和讀取等,常見的數(shù)據(jù)庫有Access、MySQL、SQLserver、DB2、oracle。報表層:數(shù)據(jù)存儲以后,我們要制作讓大部分人都能報表。比如CrystalReport水晶報表、Bill報表、Tableau報表。數(shù)據(jù)分析層:從長我們用的統(tǒng)計分析和數(shù)據(jù)挖掘工具,包括Excel、SPSS、Modeler、SAS、JMP分析。表現(xiàn)層:對分析挖掘以后的結(jié)果展現(xiàn)給客戶,即使非專業(yè)人員也可以明白,這樣的表現(xiàn)形式更加有價值,這個領(lǐng)域的軟件或工具非常有價值比如PowerPoint、Visio、SwiffChart、ColorWheel等。
5結(jié)語
數(shù)據(jù)挖掘用途廣泛,隨著近些年學術(shù)領(lǐng)域上進一步的研究,在商業(yè)活動和社會也在不斷應用和發(fā)展。在商業(yè)領(lǐng)域中,數(shù)據(jù)挖掘可以幫助我們更好的理解顧客、市場、供應和競爭對手等可以使得決策者進行有效的市場分析,做出明智的商務決策。
作者:趙凱 仁慶道爾吉 單位:內(nèi)蒙古工業(yè)大學信息工程學院