電力企業(yè)文本數(shù)據(jù)挖掘技術探究

時間:2022-02-23 08:24:36

導語:電力企業(yè)文本數(shù)據(jù)挖掘技術探究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

電力企業(yè)文本數(shù)據(jù)挖掘技術探究

摘要:在國家電網(wǎng)公司信息化工程的建設過程中,積累了大量的文本數(shù)據(jù)。如何挖掘文本數(shù)據(jù)中蘊含的有價值信息將成為電力企業(yè)大數(shù)據(jù)挖掘方向研究的重點對象。文章結合電力行業(yè)目前的數(shù)據(jù)現(xiàn)狀,使用文本挖掘的方法對電力設備檢修資金投入工作效能場景進行挖掘,對生產信息管理系統(tǒng)中報缺單數(shù)據(jù)進行文本聚類,實現(xiàn)對缺陷的細分。實踐表明,該方法可以得出各類別的缺陷特征,從而證明了文本挖掘在電力行業(yè)的可用性。

關鍵詞:電力設備檢修;文本數(shù)據(jù);文本挖掘;大數(shù)據(jù)挖掘

隨著信息化的快速發(fā)展,國家電網(wǎng)公司各專業(yè)積累的數(shù)據(jù)量越來越龐大。龐大數(shù)據(jù)的背后,由于數(shù)據(jù)結構和存儲方式的多樣化以及電力系統(tǒng)內部不同專業(yè)從業(yè)者的知識面層次不齊等,其中被利用的數(shù)據(jù)只占少量的部分,造成大量的有價值數(shù)據(jù)被浪費。在被浪費的數(shù)據(jù)中,以文本形式存在的數(shù)據(jù)占很大比重,如何從比較復雜的文本數(shù)據(jù)中獲得需要的數(shù)據(jù)受到國家電網(wǎng)公司的普遍關注。國家電網(wǎng)公司經(jīng)過SG186、三集五大等大型信息化工程的建設,積累了海量的業(yè)務數(shù)據(jù),其中包括大量的文本數(shù)據(jù)。目前,國家電網(wǎng)公司對業(yè)務數(shù)據(jù)的利用主要集中在結構化數(shù)據(jù)的統(tǒng)計和分析,這些方法無法直接應用在非結構化文本數(shù)據(jù)中,更無法對其中隱含的價值規(guī)律進行深度分析挖掘。針對非結構化文本數(shù)據(jù)量不斷增大、業(yè)務應用范圍不斷擴大這一現(xiàn)狀,為了提升國家電網(wǎng)公司企業(yè)運營管理精益化水平,需要進一步挖掘非結構化數(shù)據(jù)中潛在的數(shù)據(jù)價值。因此,開展電力大數(shù)據(jù)文本數(shù)據(jù)挖掘技術應用場景和一般流程的研究顯得尤為重要[1]。

1非結構化數(shù)據(jù)概述

與結構化數(shù)據(jù)(能夠用二維表結構遵循一定的邏輯語法進行體現(xiàn)的數(shù)據(jù))相比,非結構化數(shù)據(jù)不能在數(shù)據(jù)庫中采用二維結構邏輯形式來表示,這些形式主要有Word文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、Excel報表、PPT、Audio、Video、JPG、BMP等。半結構化數(shù)據(jù)處于完全結構化數(shù)據(jù)(邏輯型、關系型數(shù)據(jù)庫中的數(shù)據(jù))和完全無結構化數(shù)據(jù)(BMP、JPG、Video文件)中間,它一般的功能是對系統(tǒng)文件的描述,如系統(tǒng)應用幫助模塊,有一定的邏輯結構,同時也包含數(shù)據(jù)格式,兩者相融在一起,比較均衡,沒有明顯的界限[2]。進入21世紀后,網(wǎng)絡技術飛速發(fā)展,特別是內聯(lián)網(wǎng)和因特網(wǎng)技術取得突飛猛進的發(fā)展,各類非結構數(shù)據(jù)類型格式日益增多,以往的數(shù)據(jù)庫主要用于管理結構化數(shù)據(jù),對于非結構化數(shù)據(jù)的管理稍顯乏力,為了適應非結構數(shù)據(jù)的迅猛發(fā)展,數(shù)據(jù)庫的革新勢在必行,在內聯(lián)網(wǎng)和因特網(wǎng)技術的基礎上,對數(shù)據(jù)庫的內在結構進行改進和創(chuàng)新,使其能夠兼容和處電力信息與通信技術2016年第14卷第1期8電力大數(shù)據(jù)技術理非結構數(shù)據(jù)形式。北京國信貝斯是我國非結構化數(shù)據(jù)庫開發(fā)和設計的領軍者,其旗下開發(fā)的IBase數(shù)據(jù)庫能夠兼容和處理目前市面上存在的各種文件名、格式、多媒體信息,能夠基于內聯(lián)網(wǎng)和互聯(lián)網(wǎng)對海量信息進行搜索、管理,技術已經(jīng)達到全球領先水平。

2文本挖掘技術

2.1文本挖掘

文本挖掘的對象是用自然語言描述的語句、論文、Web頁面等非結構化文本信息,這類信息無法使用結構化數(shù)據(jù)的挖掘方法進行處理;文本挖掘指通過對單個詞語和語法的精準分析,通過分析結構在海量的非結構化數(shù)據(jù)中檢索意思相近的詞語、句子或者信息[3]。

2.2文本挖掘流程

挖掘流程如圖1所示。圖1挖掘流程Fig.1Miningprocedure1)文本預處理:把與任務直接關聯(lián)的信息文本轉化成可以讓文本挖掘工具處理的形式,這個過程分3步:分段;預讀文本,把文本特征展現(xiàn)出來;特征抽取。2)文本挖掘:完成文本特征抽取后,通過智能機器檢索工具識別符合主題目標的文段信息,在海量信息或者用戶指定的數(shù)據(jù)域中搜索與文本預處理后得出的文本特征相符或相近的數(shù)據(jù)信息,然后通過進一步識別和判斷,達到精確檢索的目的,這是一個非常復雜的過程,縱跨了多個學科,包括智能技術、信息技術、智能識別技術、非結構數(shù)據(jù)庫技術、可視化技術、預處理技術、讀碼技術等。3)模式評估:模式評估是用戶根據(jù)自己的需求主題設置符合自己需求主題或目標的模式,把挖掘到的文本或信息與自己設置的模式進行匹配,如果發(fā)現(xiàn)符合主題要求,則存儲該數(shù)據(jù)和模式以方便用戶調用,如果不符合,則跳轉回原來的環(huán)節(jié)進行重新檢索,然后進行下一個匹配過程的模式評估。

2.3文本挖掘技術分析

解決非結構化文本挖掘問題,現(xiàn)階段主要有2種方法:一是探索新型的數(shù)據(jù)挖掘算法以準確挖掘出相應的非結構化數(shù)據(jù)信息,基于數(shù)據(jù)本身所體現(xiàn)的復雜特性,使得算法的實施愈加困難;二是把非結構化問題直接轉換成結構化,通過實施相應的數(shù)據(jù)挖掘技術達到挖掘目的。而在語義關系方面,就要應用到特定的語言處理成果完成分析過程。下文是根據(jù)文本挖掘的大致流程來介紹其所用到的相關技術。

2.3.1數(shù)據(jù)預處理技術

文本數(shù)據(jù)預處理技術大致可分為分詞技術、特征表示以及特征提取法。1)分詞技術主要有兩大類:一種為針對詞庫的分詞算法;另一種為針對無詞典的分詞技術。前者主要包含正向最大/小匹配和反向匹配等。而后者的基礎思路為:在統(tǒng)計詞頻的基礎上,把原文中緊密相連的2個字當作一個詞來統(tǒng)計其出現(xiàn)的次數(shù),若頻率較高,就有可能是一個詞,當該頻率達到了預設閾值,就可把其當作一個詞來進行索引。2)特征表示通常是把對應的特征項作為本文的標示,在進行文本挖掘時只需要處理相對應的特征項,就能完成非結構化的文本處理,直接實現(xiàn)結構化轉換目的。特征表示的建立過程實際上就是挖掘模型的建立過程,其模型可分為多種類型,如向量空間模型與概率型等[5]。3)特征提取法通常是建立起特定的評價函數(shù),以此評價完所有特征,然后把這些特征依照評價值的高低順序進行排列,將評價值最高項作為優(yōu)選項。在實際文本處理過程中所應用的評價函數(shù)主要包括信息增益、互信息以及詞頻等。

2.3.2挖掘常用技術

從文本挖掘技術的研究和應用情況來看,在現(xiàn)有的文本挖掘技術類別中應用較為廣泛的主要包括文本分類、自動文摘以及文本聚類[4-5]。1)文本分類。文本分類是給機器添加相應的分類模型,當用戶閱讀文本時能夠更為便捷,在搜索文本信息時,能夠在所設定的搜索范圍內快速和準確的獲取。用于文本分類的算法較多,主要有決策樹、貝葉斯分類、支持向量機(SVM)、向量空間模型(VectorSpaceModel,VSM)、邏輯回歸(LogisticRegression,LR)以及神經(jīng)網(wǎng)絡等。2)自動文摘。自動文摘是通過計算機技術智能的把原文的中心內容濃縮成簡短、連續(xù)的文字段落,以此來盡可能地降低用戶閱讀的文本信息量。3)文本聚類。文本聚類與文本分類的作用大抵相同,所實施的過程有所區(qū)別。文本聚類是將內容相近的文本歸到同個類別,盡可能地區(qū)分內容不同的文本。其標準通??梢砸勒瘴谋緦傩曰蛘呶谋緝热輥磉M行聚類。聚類方法大致可分為平面劃分法與層次聚類法。另外,除了上述常用的文本挖掘技術,許多研究還涉及關聯(lián)分析、分布預測分析和結構分析等。

2.3.3文本挖掘系統(tǒng)模式評估方法

數(shù)據(jù)挖掘系統(tǒng)的評估是至關重要的,現(xiàn)在已有大量的研究來衡量這一標準,以下是公認的評估方法。1)查全率和查準率。查全率代表實際被檢出的文本的百分比;查準率是所檢索到的實際文本與查詢相關文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一個系統(tǒng)在抽取事實不斷增多時產生錯誤的趨勢。最低的冗余度和放射性是系統(tǒng)追求的最終目標。3)雙盲測試。先用機器生成一組輸出結果,再由相關專家產生一組輸出結果,然后混合2組輸出結果,這種混合后的輸出集再交給另一些相關專家進行驗證,讓他們給予準確性方面的評估。

3電力行業(yè)文本挖掘可研究實例

文本挖掘技術在國內電力行業(yè)屬于新興的前沿領域,對從業(yè)人員的素質要求相對比較高。由于現(xiàn)階段知識和技術層面上匱乏,國家電網(wǎng)幾乎沒有關于此方面的項目實施。本節(jié)通過2個電力運營監(jiān)測業(yè)務的應用需求,初步探討文本挖掘的建模過程。

3.1電力運營監(jiān)測業(yè)務應用需求

1)檢修資金投入工作效能分析場景分析。大檢修和技改是保障電網(wǎng)安全的重要工作。由于運檢業(yè)務系統(tǒng)的數(shù)據(jù)質量問題,通過對量化數(shù)據(jù)的統(tǒng)計,無法準確掌握大修、技改資金投入的工作效能情況。但設備的實際運行狀態(tài)可以通過文本類故障記錄、運行日志等進行反映,因此,采用文本挖掘技術對檢修工作效能進行分析與可視化展現(xiàn),同時結合傳統(tǒng)的統(tǒng)計方法,實現(xiàn)對大修技改資金投入工作效能的分析和監(jiān)測。例如,可以通過分析歷年的故障記錄信息,反映出每年主要故障變化情況,進而結合每年大修技改資金投入情況,分析資金投入是否與預期目標相一致。2)家族缺陷識別分析。家族缺陷是指同一廠家生產的同一型號、同一批次的設備在運行過程中出現(xiàn)了相同或相似的缺陷。家族缺陷識別分析是通過對運行記錄、故障記錄等設備運行文本信息的挖掘和可視化分析,對設備家族缺陷進行識別。該場景既可以輔助基層業(yè)務人員對家族缺陷進行準確判斷,同時可以作為一種輔助手段為總部專家判定家族缺陷提供參考,從而實現(xiàn)對家族缺陷辨識方式的優(yōu)化,并基于此為檢修計劃制定、廠商評價、采購建議等提供決策支撐。

3.2文本分析建模過程

第1步:將原始的非結構化數(shù)據(jù)源轉換為結構化數(shù)據(jù),分析文本集合中各個文本之間共同出現(xiàn)的模式;匯總與家族缺陷相關的所有文檔,形成原始數(shù)據(jù)源的集合。第2步:對原始數(shù)據(jù)源的集合進行分詞處理,建立特征集,使用詞頻/逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF/IDF)權值計算方法得到各個點的維度權值,判斷關鍵字的詞頻,例如“主變1號”運行記錄中多次出現(xiàn),但在故障記錄中很少出現(xiàn),那么認為“主變1號”有很好的類別區(qū)分能力。第3步:對分詞后的文檔建立索引,匯總所有文檔的索引形成索引庫,并對索引庫排序。第4步:文檔向量化;構建向量空間模型,將文檔表達為一個矢量,看作向量空間中的一個點;實際分析過程中對多維數(shù)據(jù)首先將其降低維度,降低維度后得到一個三維空間模型,文檔向量化生成文檔特征詞對應表、文檔相似度表。第5步:結合業(yè)務實際,對相似度較高的表中出現(xiàn)的關鍵字進行比對,例如:“主變1號”、“停電故障”等關鍵字在多個日志中頻繁出現(xiàn),則該文檔所記錄的相關設備存在異常的可能性較大。

3.3文本分析應用及成效

對生產信息管理系統(tǒng)中報缺單數(shù)據(jù)中的報缺單名稱進行文本聚類,實現(xiàn)對缺陷的細分,進而對各類別在非聚類變量上進行分析,得出各類別的缺陷特征。經(jīng)過近一年以來在國網(wǎng)遼寧電力公司的逐步應用,科學的分析挖掘出缺陷主要集中在開關、主變、指示燈、直流、冷卻器、調速器等設備,主要出現(xiàn)啟呂旭明(1981–),男,河北保定人,高級工程師,從事電力企業(yè)信息化、智能電網(wǎng)及信息安全研究與應用工作;雷振江(1976–),男,遼寧沈陽人,高級工程師,從事電力信息化項目計劃、重點項目建設、信息技術研究與創(chuàng)新應用、信息化深化應用等相關工作;趙永彬(1975–),男,遼寧朝陽人,高級工程師,從事電力信息通信系統(tǒng)調度、運行、客服及信息安全等相關工作;由廣浩(1983–),男,遼寧遼陽人,工程師,從事信息網(wǎng)絡建設、信息安全等工作。作者簡介:動、漏水、停機、滲水等缺陷現(xiàn)象。公司故障處理快速響應、及時維修、提高供電質量和服務效率得到了顯著的提升。電力設備故障缺陷特征示意如圖2所示。

4結語

國家電網(wǎng)文本挖掘的目的是從海量數(shù)據(jù)中抽取隱含的、未知的、有價值的文本數(shù)據(jù),利用數(shù)據(jù)挖掘技術處理電力公司文本數(shù)據(jù),將會給企業(yè)帶來巨大的商業(yè)價值。本文提出的關于檢修資金投入工作效能分析和家族缺陷識別分析2個文本挖掘實例只是文本挖掘在電力行業(yè)應用的一角。如今,數(shù)據(jù)挖掘技術與電力行業(yè)正處于快速發(fā)展階段,文本挖掘的應用將越來越廣泛。下一階段的研究目標是探尋有效辦法將數(shù)據(jù)挖掘技術融入到文本挖掘領域的實際應用中,使得國家電網(wǎng)文本挖掘項目得以順利實施,并達到預期成效。

作者:呂旭明 雷振江 趙永彬 由廣浩 單位:國網(wǎng)遼寧省電力有限公司 國網(wǎng)遼寧省電力有限公司 信息通信分公司

參考文獻:

[1]費爾德曼.文本挖掘(英文版)[M].北京:人民郵電出版社,2009.

[2]孫濤.面向半結構化的數(shù)據(jù)模型和數(shù)據(jù)挖掘方法研究[D].吉林:吉林大學,2010.

[3]胡健,楊炳儒,宋澤鋒,等.基于非結構化數(shù)據(jù)挖掘結構模型的Web文本聚類算法[J].北京科技大學學報,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.

[4]周昭濤.文本聚類分析效果評價及文本表示研究[D].北京:中國科學院研究生院(計算技術研究所),2005.

[5]TANPN,STEINBACHM,KUMARV.數(shù)據(jù)挖掘導論(英文版)[M].北京:人民郵電出版社,2006.