復(fù)雜網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘的應(yīng)用

時(shí)間:2022-01-13 09:46:53

導(dǎo)語:復(fù)雜網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

復(fù)雜網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘的應(yīng)用

使用復(fù)雜網(wǎng)絡(luò)方法進(jìn)行中藥配伍規(guī)律挖掘相比于傳統(tǒng)方法擴(kuò)展性更強(qiáng),挖掘深度更深,目前已成為分析和研究重要配伍規(guī)律的有力工具。本文在介紹復(fù)雜網(wǎng)絡(luò)相關(guān)概念的基礎(chǔ)上,給出了使用重疊社團(tuán)發(fā)現(xiàn)算法進(jìn)行中藥配伍規(guī)律挖掘的三種主要方法,并介紹了這些方法在中藥配伍規(guī)律研究中應(yīng)用的案例。最后對(duì)相關(guān)方法進(jìn)行總結(jié)和展望。

中藥復(fù)方是指在遵循中醫(yī)用藥規(guī)則的前提下,使用多種藥物混合組成的方劑。方劑中藥物之間的配伍組合有著復(fù)雜的聯(lián)系和約束,這種聯(lián)系和約束是根據(jù)藥物作用、禁忌關(guān)系、藥性藥效、病癥原由等所建立的具有科學(xué)依據(jù)的相互關(guān)系。通過研究方劑中藥物配伍關(guān)系,對(duì)于揭示用藥配伍合理性、建立健全用藥科學(xué)依據(jù)具有重要的意義。傳統(tǒng)的中藥配伍數(shù)據(jù)挖掘方法基于統(tǒng)計(jì)學(xué)的研究方法,如統(tǒng)計(jì)值法、聚類算法、關(guān)聯(lián)規(guī)則方法等,這些方法只能挖掘淺層次的藥物間關(guān)系,但無法揭示藥物間深層次的聯(lián)系[1]。而復(fù)雜網(wǎng)絡(luò)方法的引入可以為研究重要配伍規(guī)律提供新的方法和手段。

1復(fù)雜網(wǎng)絡(luò)概述

復(fù)雜網(wǎng)絡(luò)(ComplexNetwork),是一種特殊的網(wǎng)絡(luò)結(jié)構(gòu),它是將復(fù)雜系統(tǒng)中的元素抽象為節(jié)點(diǎn),元素間的關(guān)系抽象成邊的網(wǎng)絡(luò)結(jié)構(gòu)模型,并不是所有的網(wǎng)絡(luò)都屬于復(fù)雜網(wǎng)絡(luò),它需要滿足如下的三個(gè)特征:(1)小世界特性(SmallWorld),即網(wǎng)絡(luò)中點(diǎn)與點(diǎn)之間的特征路徑長度值小,接近隨機(jī)網(wǎng)絡(luò),但網(wǎng)絡(luò)的聚合系數(shù)卻很高,接近規(guī)則網(wǎng)絡(luò)[2]。(2)無標(biāo)度特性(Scale-free),即在網(wǎng)絡(luò)中少數(shù)節(jié)點(diǎn)的度值會(huì)很大,而大部分節(jié)點(diǎn)卻很小,節(jié)點(diǎn)的度值分布符合冪率分布規(guī)律[3]。(3)社團(tuán)結(jié)構(gòu)特性,復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)往往會(huì)呈現(xiàn)出集群特性,即社團(tuán)區(qū)域內(nèi)部節(jié)點(diǎn)之間的聯(lián)系非常強(qiáng),而社團(tuán)內(nèi)節(jié)點(diǎn)與社團(tuán)外節(jié)點(diǎn)的聯(lián)系明顯減弱。由于中醫(yī)用藥博大精深,方劑中藥物類型多且配伍關(guān)系復(fù)雜,這種關(guān)系很適合利用復(fù)雜網(wǎng)絡(luò)模型來表達(dá),同時(shí)諸多論文也驗(yàn)證了使用藥物作為節(jié)點(diǎn),藥物間關(guān)系作為邊所建立的網(wǎng)絡(luò)模型具有復(fù)雜網(wǎng)絡(luò)的相關(guān)特性,基于建立在中藥復(fù)雜網(wǎng)絡(luò)模型上的數(shù)據(jù)挖掘方法已經(jīng)成為分析中醫(yī)用藥配伍規(guī)律,闡明中藥配伍科學(xué)內(nèi)涵的有力工具。近年來,憑借復(fù)雜網(wǎng)絡(luò)良好的擴(kuò)展性和內(nèi)在發(fā)掘機(jī)制,使得復(fù)雜網(wǎng)絡(luò)與中藥理論得到了有機(jī)地結(jié)合,孫正等[4]提取藥物藥性中的“性味”“歸經(jīng)”“功效”,在向量空間模型上建立藥物屬性模型,提出了一種基于藥物屬性相似度的度量方法,并使用復(fù)雜網(wǎng)絡(luò)方法進(jìn)行分析;周偉等[5]從藥物與病癥關(guān)系角度,基于藥物在方劑中出現(xiàn)的次數(shù),提出藥物效用度的概念,并進(jìn)行組網(wǎng)和核心藥物配伍規(guī)律挖掘;劉思鴻等[6]通過網(wǎng)絡(luò)藥理學(xué)方法構(gòu)建“中藥-成分-靶點(diǎn)-疾病”網(wǎng)絡(luò),可從靶點(diǎn)的作用通路和功能角度,闡明中藥復(fù)方的多通路、多層次協(xié)同整合作用,為中藥治療疾病的分子機(jī)制提供了一種分析思路。這些嘗試使利用復(fù)雜網(wǎng)絡(luò)方法進(jìn)行中藥配伍規(guī)律挖掘的應(yīng)用更加廣泛。

2復(fù)雜網(wǎng)絡(luò)進(jìn)行中醫(yī)藥數(shù)據(jù)挖掘的方法

中藥復(fù)雜網(wǎng)絡(luò)中藥物配伍發(fā)現(xiàn)的過程可以歸結(jié)為復(fù)雜網(wǎng)絡(luò)社團(tuán)檢測(cè)算法的應(yīng)用。社團(tuán)檢測(cè)(CommunityDetection)又稱為社團(tuán)發(fā)現(xiàn),該方法基于聚類的思想來實(shí)現(xiàn)具有相同特性節(jié)點(diǎn)的聚集。2004年,Newman提出了一種模塊度(Modularity)的概念,從而使得網(wǎng)絡(luò)社團(tuán)劃分的優(yōu)劣可以有一個(gè)明確的評(píng)價(jià)指標(biāo)來衡量[7],使得社團(tuán)發(fā)現(xiàn)算法更加的系統(tǒng)化。按照聚集的結(jié)果可以將社團(tuán)發(fā)現(xiàn)算法歸為非重疊社團(tuán)發(fā)現(xiàn)和重疊社團(tuán)發(fā)現(xiàn)兩種,這里的主要差別是同一節(jié)點(diǎn)是否會(huì)劃分到多個(gè)聚類社團(tuán)當(dāng)中,很明顯在中藥配伍規(guī)律研究中一種藥可以出現(xiàn)在多個(gè)配伍之中。因此,針對(duì)中藥配伍規(guī)律的研究主要采用的是重疊社團(tuán)發(fā)現(xiàn)算法,目前常用的方法主要有如下三種[8]:

2.1派系過濾算法

派系過濾算法[9](CliquePercolationMethodCPM)是第一個(gè)被提出的重疊社團(tuán)發(fā)現(xiàn)算法,該方法將社團(tuán)定義為一類由全連通子圖構(gòu)成的集合,從網(wǎng)絡(luò)中找出所有大小為k的全連通子圖作為一個(gè)社團(tuán),由于一個(gè)點(diǎn)可以在多個(gè)連通子圖中,因此可實(shí)現(xiàn)重疊社團(tuán)的發(fā)現(xiàn)。使用CPM算法進(jìn)行中藥配伍規(guī)律研究在早期應(yīng)用的比較多。黃源等[10]針對(duì)慢性阻塞性肺疾病的4種證型(肺腎兩虛、痰濕蘊(yùn)肺、痰瘀阻肺、痰熱壅肺)分別建立復(fù)雜網(wǎng)絡(luò)子網(wǎng)絡(luò),使用派系過濾算法發(fā)現(xiàn)含藥在10以上的基本方;李茹等[11]通過引入屬性擴(kuò)展圖建立治療肺痿中藥用藥的復(fù)雜網(wǎng)絡(luò)模型,使用CPM派系算法,設(shè)定k值為4,共獲得19個(gè)有價(jià)值的藥物社團(tuán)。

2.2局部擴(kuò)展算法

該方法主要采用局部擴(kuò)張的方法,根據(jù)擴(kuò)展特性而快速確定社團(tuán)范圍的一種貪心算法。2009年,Lancichinetti等[12]首次提出了局域擴(kuò)展的重疊社團(tuán)挖掘算法(LocalFitnessMeasureLFM)。該方法首先隨機(jī)選擇一個(gè)種子節(jié)點(diǎn),然后按照規(guī)則不斷地向外擴(kuò)張構(gòu)建社團(tuán),當(dāng)適應(yīng)函數(shù)達(dá)到局部最優(yōu)時(shí)完成構(gòu)建過程。這種方法由于設(shè)計(jì)簡單,快速有效,在中醫(yī)藥配伍挖掘領(lǐng)域應(yīng)用廣泛;周偉等在建立肺痿用藥復(fù)雜網(wǎng)絡(luò)的基礎(chǔ)上,定義了一個(gè)節(jié)點(diǎn)對(duì)社團(tuán)的效用度增量,采用LFM貪心算法的思想選擇核心藥物作為種子節(jié)點(diǎn)進(jìn)行社團(tuán)擴(kuò)展,共發(fā)現(xiàn)30個(gè)藥物組合;韓楠等[13]根據(jù)中藥方劑特性并結(jié)合點(diǎn)互式信息構(gòu)建TCM網(wǎng)絡(luò)模型,基于LFM算法改進(jìn)社團(tuán)擴(kuò)展方法,實(shí)現(xiàn)中藥配伍組合的有效挖掘;楊銘等[14]通過對(duì)藥物配伍網(wǎng)絡(luò)的極大團(tuán)求解算法(LFM算法的改進(jìn))得到中醫(yī)藥治療肺癌的核心有效處方;嚴(yán)明等[15]針對(duì)連花清瘟膠囊治療上呼吸道感染臨床用藥方案建立復(fù)雜網(wǎng)絡(luò),使用基于Louvain聚類方法(一種局部擴(kuò)展算法)進(jìn)行分析與研究。

2.3標(biāo)簽傳遞算法

Zhu等人[16]首先提出了標(biāo)簽傳遞算法(LabelPropa-gationAlgorithmLPA)的概念,該算法的思想是首先為每一個(gè)節(jié)點(diǎn)添加一個(gè)唯一的標(biāo)簽,然后根據(jù)該節(jié)點(diǎn)周圍鄰居節(jié)點(diǎn)中出現(xiàn)頻率最高的標(biāo)簽來更新該節(jié)點(diǎn)的標(biāo)簽,最后將具有相同標(biāo)簽的節(jié)點(diǎn)歸為同一社團(tuán)。該方法最早應(yīng)用于非重疊社團(tuán)的發(fā)現(xiàn),Gregory[17]基于該算法進(jìn)行了改進(jìn),將每個(gè)節(jié)點(diǎn)可標(biāo)記標(biāo)簽的個(gè)數(shù)設(shè)置為多個(gè)(COPRA算法),從而實(shí)現(xiàn)了重疊社區(qū)的發(fā)現(xiàn),如圖1所示是該方法的運(yùn)算過程。標(biāo)簽傳遞算法是目前中藥配伍復(fù)雜網(wǎng)絡(luò)方法中應(yīng)用較多的一種,孫道平等[18]根據(jù)方劑藥物貢獻(xiàn)度進(jìn)行組網(wǎng),使用改進(jìn)的標(biāo)簽傳遞算法COPRA進(jìn)行社團(tuán)發(fā)現(xiàn),挖掘中藥配伍規(guī)律;呂慶莉[1]以腦血管疾病用藥為例構(gòu)建中藥用藥屬性擴(kuò)展網(wǎng)絡(luò),并使用改進(jìn)的重疊社團(tuán)發(fā)現(xiàn)算法CO-PRA進(jìn)行方劑配伍規(guī)律的發(fā)掘和分析;馬寧等[19]在構(gòu)建中藥復(fù)雜網(wǎng)絡(luò)引入了方劑中“君臣佐使”藥物權(quán)重及藥量,使用一種保留歷史標(biāo)簽的標(biāo)簽傳遞算法SLPA進(jìn)行配伍規(guī)律的挖掘;張胤穎[20]建立藥物節(jié)點(diǎn)、藥物性味節(jié)點(diǎn)、藥物歸經(jīng)節(jié)點(diǎn)、藥物功效節(jié)點(diǎn)4種節(jié)點(diǎn)的風(fēng)濕方劑用藥復(fù)雜網(wǎng)絡(luò)模型,并使用COPRA算法進(jìn)行用藥社團(tuán)獲取。

3總結(jié)與展望

本文探討了使用復(fù)雜網(wǎng)絡(luò)重疊社團(tuán)發(fā)現(xiàn)算法進(jìn)行中藥配伍規(guī)律挖掘的幾種方法,涵蓋面并不一定很全,但包含了幾種主要的挖掘方法,雖然這些方法各自有各自的優(yōu)勢(shì),但也都存在改進(jìn)的地方,例如,派系過濾算法的挖掘效果受k值設(shè)定大小的影響很大,局部擴(kuò)展算法受備選種子質(zhì)量的好壞影響,標(biāo)簽傳遞算法識(shí)別精度不穩(wěn)定,需要人為設(shè)定閾值等諸多問題,但這些方法提供給了研究人員進(jìn)行中藥復(fù)方配伍規(guī)律挖掘的一些新思路和新手段,同時(shí)提供了一些有價(jià)值的研究成果。在將來隨著在這些方法上的持續(xù)改進(jìn)以及與中藥理論的深度結(jié)合,相信會(huì)產(chǎn)生更多有價(jià)值和意義的研究成果。

作者:馬寧 邢俊鳳 宋寬 單位:內(nèi)蒙古科技大學(xué)包頭醫(yī)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院