數(shù)據(jù)挖掘算法分析論文

時(shí)間:2022-03-04 08:21:00

導(dǎo)語:數(shù)據(jù)挖掘算法分析論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘算法分析論文

一、引言

異??蛻羰窃谝欢慰疾鞎r(shí)期內(nèi)與客戶的一般行為模式不一致的對象,它們往往被稱為孤立點(diǎn)。異??蛻舴治觯垂铝Ⅻc(diǎn)挖掘)具有重要的現(xiàn)實(shí)意義,對于一個(gè)企業(yè)來說,這些數(shù)據(jù)往往比常規(guī)的客戶模型信息更有價(jià)值。本文針對銷售企業(yè),假設(shè)已經(jīng)用一定的方法探測到了孤立點(diǎn),接下來采用最小二乘法擬合直線中的斜率分析其性質(zhì),從而確定是積極的客戶還是消極的客戶。

二、最小二乘法擬合直線

最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù)。它以某一社會、經(jīng)濟(jì)或自然現(xiàn)象為對象,尋找一擬合曲線,以滿足給定對象系統(tǒng)的一組觀測數(shù)據(jù)。通常要求選擇的擬合曲線會使各觀測數(shù)據(jù)到擬合曲線的誤差的平方和最小。

本文研究銷售企業(yè)(如商場)異??蛻舻男再|(zhì)。設(shè)一段時(shí)期內(nèi)客戶的累計(jì)消費(fèi)金額為y,對應(yīng)的消費(fèi)時(shí)期為x。假定測得客戶的n個(gè)數(shù)據(jù)(x1,y1),…,(xn,yn),則在XOY平面上可以得到n個(gè)實(shí)驗(yàn)點(diǎn):Pi(xi,yi)(i=1,…n),這種圖形稱為“散點(diǎn)圖”(如圖1,圖2)。在利用最小二乘法進(jìn)行分析時(shí),各種非線性關(guān)系的擬合曲線均可線性化,因此此處選擇直線y=ax+b作為擬合直線,尋求x與y之間近似線性關(guān)系時(shí)的經(jīng)驗(yàn)公式。其中a為直線的斜率,b為直線在y軸上的截距。

如果Pi(i=1,…n)全部位于同一條直線上,則可認(rèn)為變量之間的關(guān)系為y=ax+b,但一般情況下不會如此。記估計(jì)值=axi+b,則各實(shí)驗(yàn)點(diǎn)與擬合直線之間的誤差為εi=-yi=(axi+b)-yi,它反映了用直線y=ax+b來描述(xi,yi)時(shí),估計(jì)值與觀測值yi之間的偏差大小。則有:

要求偏差越小越好。但由于εi可正可負(fù),簡單求和可能將很大的誤差抵消掉,只有平方和才能反映二者在總體上的接近程度,這就是最小二乘原則。于是問題歸結(jié)為根據(jù)這一要求來確定y=ax+b中的a和b,使得最小。因?yàn)镕(a,b)是關(guān)于a、b的二次函數(shù)并且非負(fù),所以其極小值總是存在的。根據(jù)羅彼塔法則,F(xiàn)取最小值時(shí),有:

于是得到了符合最小二乘原則的相應(yīng)解:

三、基于斜率的異常客戶挖掘算法

1.問題描述

本文的目的是研究某一消費(fèi)時(shí)期內(nèi),異??蛻舻南M(fèi)傾向。取異??蛻粢荒陜?nèi)各月份的累計(jì)消費(fèi)金額為參考,記錄的數(shù)據(jù)如下(表1,表2)。根據(jù)其散點(diǎn)圖(圖1,圖2)可以看出,客戶的累計(jì)消費(fèi)金額隨時(shí)間都呈上升趨勢,所以難以觀察出該客戶是否對商場保持持久的忠誠度,是否有轉(zhuǎn)向競爭對手的可能?;谛甭实漠惓?蛻敉诰蛩惴ㄕ且鉀Q識別客戶性質(zhì)這一問題。

2.算法描述

算法:Outlier_Analysis。根據(jù)輸出的a值來判斷異常客戶的性質(zhì):積極的或消極的。

輸入:客戶數(shù)據(jù),即參考點(diǎn),由有序點(diǎn)對(xi,yi)表示;參考點(diǎn)的個(gè)數(shù)n。

輸出:a(直線的斜率),b(直線在y軸上的截距)。

方法:

(1)初始化a、b。

(2)對客戶的n個(gè)觀測數(shù)據(jù)(即n個(gè)記錄點(diǎn))進(jìn)行相關(guān)數(shù)據(jù)計(jì)算:

(3)ifa<0then

客戶購買金額呈減少趨勢,為消極客戶

else

客戶購買金額呈上升趨勢,為積極客戶

四、結(jié)論

把客戶在一段時(shí)間內(nèi)(可按年進(jìn)行縱向比較,也可按月、季度等進(jìn)行橫向比較)的購買總金額作為參考點(diǎn),取連續(xù)的n個(gè)參考點(diǎn),根據(jù)最小二乘法原來對它們做直線擬和。取閾值為0,根據(jù)直線性質(zhì),如果擬合直線的斜率小于這個(gè)閾值,則這個(gè)客戶在這段時(shí)間內(nèi)對該企業(yè)的購買金額持續(xù)減少,并且斜率的絕對值越大,客戶的購買金額持續(xù)減少的越厲害。反之,若斜率大于這個(gè)閾值,則這個(gè)客戶在這段時(shí)間內(nèi)對該企業(yè)的購買金額持續(xù)增加,并且斜率越大,客戶的購買金額持續(xù)增加的越厲害。根據(jù)這一分析結(jié)果,商場可有效識別異??蛻舻男再|(zhì),從而有針對性地進(jìn)行目標(biāo)營銷——采取有效策略加強(qiáng)與消極客戶的溝通,以改善客戶對商場的已有認(rèn)知;繼續(xù)保持與積極客戶的良好關(guān)系,以提升其生命周期價(jià)值。