統(tǒng)計學數(shù)據(jù)挖掘?qū)嶒灲虒W探索

時間:2022-11-08 08:45:29

導語:統(tǒng)計學數(shù)據(jù)挖掘?qū)嶒灲虒W探索一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

統(tǒng)計學數(shù)據(jù)挖掘?qū)嶒灲虒W探索

摘要:大數(shù)據(jù)時代,數(shù)據(jù)分析各環(huán)節(jié)的變化對統(tǒng)計學專業(yè)人才培養(yǎng)模式的變革起到了催化作用.數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應用型課程,被廣泛納入統(tǒng)計學本科專業(yè)人才培養(yǎng)方案.本文對大數(shù)據(jù)時代數(shù)據(jù)分析師的職業(yè)需求進行了調(diào)研,在此基礎上提出了基于R語言的項目式數(shù)據(jù)挖掘實驗教學模式.教學實踐結果表明,通過項目式學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力,進一步適應大數(shù)據(jù)時代數(shù)據(jù)分析師的職業(yè)要求.

關鍵詞:統(tǒng)計學;數(shù)據(jù)挖掘;實驗教學;數(shù)據(jù)分析師;項目式學習

1引言

2016年美國統(tǒng)計協(xié)會(AmericanStatisticalAsociation)對統(tǒng)計學的內(nèi)涵給出一個較為簡潔的說明,將統(tǒng)計學定義為:“thescienceoflearningfromdata”,即從數(shù)據(jù)中學習的科學[1].該定義實際上與數(shù)據(jù)科學(DataScience)的內(nèi)涵如出一轍.筆者以為ASA之所以對統(tǒng)計學做出這樣的內(nèi)涵解釋,實際上表明在大數(shù)據(jù)浪潮中,統(tǒng)計學正走在變革的道路上.大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生、收集、分析與應用等環(huán)節(jié)都發(fā)生著深刻的變化.互聯(lián)網(wǎng)技術的高速發(fā)展使每個人成為數(shù)據(jù)的生產(chǎn)者,數(shù)據(jù)生產(chǎn)已經(jīng)突破了時間、地點的限制,數(shù)據(jù)量也由抽樣數(shù)據(jù)向大數(shù)據(jù)轉(zhuǎn)化;數(shù)據(jù)的存儲類型由紙和筆記載的關系型結構化數(shù)據(jù)向半結構、非結構和異構的網(wǎng)絡數(shù)據(jù)類型轉(zhuǎn)化;數(shù)據(jù)的采集由根據(jù)統(tǒng)計分析目的的調(diào)查式收集向基于大數(shù)據(jù)技術的自動化采集方法轉(zhuǎn)化;數(shù)據(jù)的分析由傳統(tǒng)的驗證型分析方法向探索型分析方法轉(zhuǎn)化;數(shù)據(jù)的應用由輔助管理決策向引導變革轉(zhuǎn)化.以上變化正在重塑數(shù)據(jù)分析流程,而數(shù)據(jù)分析模式的變革必然引起教育模式的改革.事實上,在大數(shù)據(jù)洪流的沖擊下,統(tǒng)計學專業(yè)的人才培養(yǎng)模式已經(jīng)悄然發(fā)生變化.當前,統(tǒng)計學專業(yè)融合大數(shù)據(jù)、計算機、人工智能等相關學科知識,引導學生認識和掌握數(shù)據(jù)處理的新技術,推動交叉學科應用型人才的培養(yǎng),已經(jīng)成為共識.其中,在統(tǒng)計學專業(yè)課程體系中引入數(shù)據(jù)挖掘課程就是典型的代表.數(shù)據(jù)挖掘技術在一定程度上彌補了傳統(tǒng)統(tǒng)計分析方法的不足,可以進一步增強學生探索性數(shù)據(jù)分析的能力,更加適應大數(shù)據(jù)時代的需求.與統(tǒng)計學強調(diào)推斷理論和方法不同,數(shù)據(jù)挖掘強調(diào)經(jīng)驗,著重于從數(shù)據(jù)中挖掘有用的模式和價值,只要能夠有效地解決問題,方法和模型本身并不重要.因而,筆者認為數(shù)據(jù)挖掘課程能夠拓展統(tǒng)計學專業(yè)學生數(shù)據(jù)分析的思路和方法,進一步加深對數(shù)據(jù)分析內(nèi)涵的理解.由此,本文致力于探索大數(shù)據(jù)背景下統(tǒng)計學專業(yè)數(shù)據(jù)挖掘?qū)嶒炚n程教學模式,以提升統(tǒng)計學人才實踐應用能力,使其不斷適應大數(shù)據(jù)分析的需求.

2大數(shù)據(jù)時代市場對應用型統(tǒng)計人才的新需求

數(shù)據(jù)分析師是統(tǒng)計學專業(yè)大學生畢業(yè)后的主要職業(yè)選擇之一.數(shù)據(jù)分析師是指在不同行業(yè)中,專門從事數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)或市場研究、評估和預測的專業(yè)人員;是以實際數(shù)據(jù)為依據(jù),對項目現(xiàn)狀及遠期進行統(tǒng)計、分析、預測并轉(zhuǎn)化為決策信息的專業(yè)人才[2].為了客觀分析大數(shù)據(jù)時代應用型統(tǒng)計人才需具備的知識、能力和技術,本文通過智聯(lián)招聘網(wǎng)對企業(yè)公布的數(shù)據(jù)分析師職位招聘信息進行了調(diào)研,這些招聘信息都是面向應屆本科畢業(yè)生的,具有較強的針對性,調(diào)研時間為2018年8月3日.本文調(diào)研了七家上市公司[3],有國企事業(yè)單位、互聯(lián)網(wǎng)公司、金融公司、網(wǎng)絡游戲公司、網(wǎng)絡媒體公司等,各公司對數(shù)據(jù)分析師的崗位職責、知識要求、能力要求和技術要求見表1所示.從數(shù)據(jù)分析師的崗位職責來看,不同類型的企業(yè)雖然具體要求不同,但是核心職責是相同的,主要有三個方面:負責業(yè)務部門的數(shù)據(jù)需求分析,也就是通過調(diào)研了解業(yè)務部門的需求,確定數(shù)據(jù)分析對象和目的;構建業(yè)務數(shù)據(jù)分析指標體系,即如何開展數(shù)據(jù)分析工作,確定數(shù)據(jù)采集、處理和分析及結果解讀等環(huán)節(jié)的指標、方法、模型及數(shù)據(jù)分析工具等;為業(yè)務部門提供數(shù)據(jù)決策支持,包括撰寫調(diào)研報告、數(shù)據(jù)分析報告及設計數(shù)據(jù)產(chǎn)品和開發(fā)數(shù)據(jù)分析工具等等.從崗位職責的核心要素來看,數(shù)據(jù)分析師是非常契合統(tǒng)計學專業(yè)的人才培養(yǎng)目標的,從調(diào)研到設計到分析到結果解讀,是數(shù)據(jù)分析的一個完整流程.但是,也可以看出很多企業(yè)在數(shù)據(jù)分析中特別強調(diào)了數(shù)據(jù)挖掘方法,如北京計算機技術及應用研究所強調(diào)用戶行為挖掘和個性化推薦、金融界強調(diào)用戶行為數(shù)據(jù)和網(wǎng)絡日志數(shù)據(jù)挖掘,而這些都不是傳統(tǒng)統(tǒng)計學分析方法的范疇.從知識要求來看,大部分企業(yè)都要求數(shù)據(jù)分析師具有統(tǒng)計學專業(yè)背景,但互聯(lián)網(wǎng)公司特別強調(diào)統(tǒng)計學、數(shù)學和計算機的交叉和融合.實際上,數(shù)據(jù)分析師作為復合型人才,除了掌握必要的統(tǒng)計分析理論和方法外,數(shù)學建模和編程能力都是必不可少的.從能力要求來看,較強的數(shù)據(jù)敏感度和清晰的邏輯思維能力是核心要素.其次,從業(yè)務來看,數(shù)據(jù)分析師需要同不同的部門打交道,溝通協(xié)調(diào)能力和團隊協(xié)作能力也是必不可少的.從技術要求來看,大部分企業(yè)都要求數(shù)據(jù)分析師至少要掌握一種統(tǒng)計分析軟件,如SPSS或MATLAB;至少要熟悉一種編程語言,如Python或R;至少要掌握一種數(shù)據(jù)庫技術,如MySql/Oracle/SQLServer等,最簡單的是excel.在高校及商業(yè)統(tǒng)計分析領域,R語言是當前最受歡迎的統(tǒng)計編程語言之一.綜合以上分析可以得出,統(tǒng)計學專業(yè)的學生要想成為出色的數(shù)據(jù)分析師,除了具備堅實的統(tǒng)計學理論和方法外,還需要具備良好的計算機能力,如數(shù)據(jù)庫技術和編程能力.更重要的是,數(shù)據(jù)挖掘方法與技術作為大數(shù)據(jù)技術的基礎已經(jīng)成為數(shù)據(jù)分析師必備的技能,也是企業(yè)招聘時重點關注的技術.

3基于R語言的項目式數(shù)據(jù)挖掘?qū)嵺`教學模式探索

R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng).其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的統(tǒng)計編程語言.特別是,R是免費、開源、全面、可視、交互的專業(yè)統(tǒng)計分析和數(shù)據(jù)挖掘軟件.通過R的相關集成開發(fā)環(huán)境(IDE),如RStudio/PyCharm等,用戶可以輕松訪問數(shù)據(jù)庫,并利用一些集成的統(tǒng)計工具,靈活機動的進行數(shù)據(jù)分析,構建屬于自己的統(tǒng)計分析項目(Project),甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法.因此,R受到了教育界的熱捧,成為大學生最喜歡的統(tǒng)計分析與數(shù)據(jù)挖掘軟件之一.此外,2018IEEE頂級編程語言交互排行榜中,R語言排名第七,是過去十年中發(fā)展最快的編程語言之一,也是最好的數(shù)據(jù)科學語言之一[4].由此,筆者認為,R語言是統(tǒng)計學專業(yè)學生進行數(shù)據(jù)分析的不二之選.項目式學習(project-basedlearning,以下簡稱PjBL)是一種以學生為中心的系統(tǒng)教學方法或模式,讓學生圍繞來自項目中的現(xiàn)實工作任務來學習知識和技能,并認真地設計產(chǎn)品和任務[5].其中,項目是指復雜的任務,學習者為了完成項目目標,需要展開調(diào)查、參與設計、解決問題、制定決策等[6].項目式學習最大的亮點是通過完成項目的形式,發(fā)揮學生學習的主動性和自覺性,在做中學,在學中做,有利于提高學生學習效率,提升學生實踐和創(chuàng)新能力.基于以上分析,筆者認為在R軟件的集成開發(fā)環(huán)境下,實施數(shù)據(jù)挖掘?qū)嶒炚n程的項目式學習方案是可行的,也符合應用型統(tǒng)計人才培養(yǎng)目標的定位.下面將從數(shù)據(jù)挖掘?qū)嶒炚n程教學計劃、實驗項目設計、考核方式、典型項目示例和實驗教學效果進行論述.3.1課程教學計劃.數(shù)據(jù)挖掘是一門多學科交叉且實踐應用性較強的課程,一般是在碩士研究生階段才開設的課程.在本科生階段開設數(shù)據(jù)挖掘課程具有較大的難度,需協(xié)調(diào)好相關課程的前后邏輯,如該課程必須開設在概率論與數(shù)理統(tǒng)計、數(shù)據(jù)庫原理、計算機基礎等課程之后.作為應用型本科院校,巢湖學院數(shù)學與統(tǒng)計學院于2016年開始在統(tǒng)計學本科專業(yè)開設數(shù)據(jù)挖掘課程,課程性質(zhì)為專業(yè)核心能力課程,總學時52,理論課學時40,實驗課學時12.理論課與實驗課的安排如表2所示.由于統(tǒng)計學專業(yè)學生未將R語言的學習列入人才培養(yǎng)方案,所以在理論課階段安排了8個學時的R語言學習,目的是在進入正式的數(shù)據(jù)挖掘項目學習之前,熟悉R的數(shù)據(jù)組織、整理和可視化方法,教學方法為講練結合、學生邊聽邊實踐操作.從模式識別的角度來看,數(shù)據(jù)挖掘技術的主要任務,包括分類、聚類、回歸、關聯(lián)、序列分析和偏差分析6種模式的識別[7].其中,回歸是統(tǒng)計學的傳統(tǒng)分析方法,時間序列分析方法在人才培養(yǎng)方案中有專門的《時間序列分析》課程.因此,本課程主要選擇了分類和聚類這兩類方法,分類選擇了近鄰分析法和支持向量機,聚類主要有k-means聚類和基于密度的聚類方法.另外,人工神經(jīng)網(wǎng)絡作為人工智能的熱點研究領域,也納入本課程學習中,可以作為深度學習的入門知識.3.2實驗項目設計.在實驗教學中,本課程圍繞K近鄰分析、支持向量機、k-means聚類和人工神經(jīng)網(wǎng)絡四個主要的算法設計了四個綜合性的開放性實驗項目.實驗教學過程采取項目學習式教學模式,授課教師只是提出實驗的問題和實驗的目的,并不規(guī)定嚴格的實驗步驟和過程,教師根據(jù)理論課所講授知識及時引導學生,讓學生根據(jù)實驗問題和目的,自行設計實驗內(nèi)容和實驗過程,包括數(shù)據(jù)采集、數(shù)據(jù)預處理、模型與方法選擇、基于R軟件的數(shù)據(jù)分析過程、結果的可視化與分析等.在實驗過程中,教師指導學生組成實驗項目小組,一般由3名學生共同組隊,通過小組討論、相互協(xié)作共同完成實驗項目.經(jīng)過教師的指導,使每個實驗項目小組在3個課時的時間內(nèi),確定實驗內(nèi)容和項目實施計劃,實驗實施過程可在課后完成.實驗項目結項方式為小組成員共同完成項目實驗報告,項目實驗報告內(nèi)容包括實驗目的、實驗內(nèi)容、實驗過程、結果分析和實驗總結.3.3考核方式.數(shù)據(jù)挖掘作為考查課,考核方式比較靈活,也給課程組進行考核方式改革提供了便利.課程組經(jīng)過研討決定采取開放性課程設計的方式作為期末考試的形式,并結合平時課程表現(xiàn)和平時實驗項目完成情況評價綜合成績.其中,期末的開放性課程設計成績在綜合成績中占比60%,平時課堂表現(xiàn)和平時實驗項目完成情況占比40%(課堂表現(xiàn)占40%,平時實驗項目完成情況占比60%).3.4典型實驗項目教.學示例-以基于R的K-近鄰分析為例K-近鄰分析法(K-nearestneighbor,KNN)是分類型數(shù)據(jù)預測的經(jīng)典數(shù)據(jù)挖掘方法,在輸入變量較多,樣本量較大的情況下,是簡單而有效的建模方法[8].課程組設計了鳶尾花數(shù)據(jù)集(IRIS)的分類預測實驗項目.3.4.1問題提出.利用已有的鳶尾花數(shù)據(jù)集(IRIS),通過K-近鄰分析法對新的鳶尾花數(shù)據(jù)進行分類預測,要求構建合理、具體的模型,基于R軟件實現(xiàn)模型的訓練和預測.3.4.2項目提要.請同學們根據(jù)實驗問題,設計實驗內(nèi)容.一些實驗要點供同學們參考:a.如何利用R軟件掌握鳶尾花數(shù)據(jù)集(IRIS)的特征?提要:str()函數(shù)可以查看數(shù)據(jù)集的變量和數(shù)據(jù);scale()函數(shù)可以實現(xiàn)數(shù)據(jù)的歸一化處理.另外,請同學們自行查閱資料了解R軟件數(shù)據(jù)預處理的方法.b.K-近鄰分析法中距離的選取依據(jù)是什么?提要:K-近鄰分析法將樣本包括的觀測數(shù)據(jù)看成是p維特征空間(變量個數(shù)為p個)中的向量,應選擇合適的距離度量方法,以測度預測向量X0與鄰居向量X之間的距離,作為鄰近關系的依據(jù).主要的距離度量方法有:閔可夫斯基距離、歐氏距離、絕對距離、切比雪夫距離和夾角余弦距離.請同學們查閱資料分析各種距離度量方法的適用范圍,并確定鳶尾花數(shù)據(jù)集(IRIS)適用的距離度量方法.c.K-近鄰分析法中K值選取的依據(jù)是什么?K-近鄰法的核心問題之一是確定預測向量X0的鄰居個數(shù),即K值的確定.一般可以依據(jù)以下方法:一是依據(jù)旁置法計算參數(shù)K取不同值時的預測誤差;二是依據(jù)留一法計算參數(shù)K取不同值時的預測誤差.請同學們查閱資料,是否還有其他更好的K值確定方法?3.4.3R軟件操作提要.R實現(xiàn)K-近鄰法的函數(shù)是class包中的knn函數(shù).可通過install.packages(‘class’)加載class程序包,并使用library(class)載入到工作空間中,可通過help(knn)查看knn函數(shù)的使用方法.3.5實驗教學效果.通過一個學期的實驗教學來看,本文提出的基于R語言的項目式數(shù)據(jù)挖掘?qū)嶒灲虒W模式取得了較好的教學效果.從學生的綜合成績來看,成績分布合理,不及格率較低,大部分學生的綜合成績分布在70-89這個分數(shù)段內(nèi),說明學生對數(shù)據(jù)挖掘的基本理論和應用技術掌握的較好.從平時實驗項目的完成情況來看,大部分小組能夠較好的完成實驗項目.對于項目式教學模式,不少同學反映比單純的輸出式教學模式效果好很多,不但增強了學習的主動性和積極性,而且增強了團隊合作意識,廣受學生歡迎.但是在實踐教學過程中,也出現(xiàn)了很多問題.例如,在課程教學初期,學生普遍反映R語言的入門難度較大,希望教師能夠在R語言學習方面給予更多的建議和支持;在項目式學習過程中,出現(xiàn)了實驗完成效果參差不齊和個別學生過于依賴小組其他成員,從而坐享其成的情況.筆者認為,任何教學模式都不是完美的,這些問題還需要任課教師結合學生學習實際拿出解決方案,這也是筆者在下一階段的教學過程中重點思考的問題.

4總結

數(shù)據(jù)挖掘作為一門多學科交叉且應用性較強的課程,在教學內(nèi)容和教學方法上與傳統(tǒng)統(tǒng)計學課程有較大的區(qū)別.但是,從數(shù)據(jù)分析的流程來看,數(shù)據(jù)挖掘方法與傳統(tǒng)統(tǒng)計分析方法又有相通之處,關鍵是讓學生了解二者之間的區(qū)別與聯(lián)系.因此,在數(shù)據(jù)挖掘?qū)嶒炚n程教學中,本文基于大數(shù)據(jù)時代企業(yè)對應用型統(tǒng)計人才的需求,采取了基于R語言的項目式數(shù)據(jù)挖掘?qū)嶒灲虒W模式.通過項目式學習,讓學生在掌握理論知識的基礎上,探索解決實際問題的能力,進一步提升數(shù)據(jù)分析能力,以適用大數(shù)據(jù)時代數(shù)據(jù)分析師的職業(yè)要求.

作者:關鵬 錢云 張海永 單位:1.巢湖學院 2.滁州學院