中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的實(shí)踐與應(yīng)用
時(shí)間:2022-04-22 08:24:44
導(dǎo)語(yǔ):中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的實(shí)踐與應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:為推動(dòng)中醫(yī)藥研究的發(fā)展,并為中醫(yī)藥數(shù)據(jù)應(yīng)用提供有效的挖掘技術(shù)支持,本文設(shè)計(jì)了基于TCMMiner數(shù)據(jù)庫(kù)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)。在總體思路、總體設(shè)計(jì)、功能設(shè)計(jì)、工作流程設(shè)計(jì)以及完善設(shè)計(jì)等方面,對(duì)系統(tǒng)設(shè)計(jì)進(jìn)行細(xì)致的闡述。在文本處理、頻次統(tǒng)計(jì)、關(guān)鍵詞關(guān)聯(lián)分析以及作者高頻組合分析等方面應(yīng)用該系統(tǒng),結(jié)果表明本文設(shè)計(jì)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)為中醫(yī)藥數(shù)據(jù)挖掘和應(yīng)用提供了非常有效的工具。
關(guān)鍵詞:中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng);TCMMiner數(shù)據(jù)庫(kù);關(guān)鍵詞關(guān)聯(lián)分析;作者高頻組合分析
大數(shù)據(jù)技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用,為中醫(yī)藥研究、疾病診治等方面提供了技術(shù)支撐[1]。由于中醫(yī)藥數(shù)據(jù)具有不規(guī)范性、小樣本、寬數(shù)據(jù)以及信息復(fù)雜等特點(diǎn),因此中醫(yī)藥數(shù)據(jù)挖掘與傳統(tǒng)“數(shù)據(jù)挖掘”存在較大差別[1]?;谥嗅t(yī)藥數(shù)據(jù)特征的分析,以突破中醫(yī)藥數(shù)據(jù)挖掘的局限性為重點(diǎn),設(shè)計(jì)以TCMMiner數(shù)據(jù)庫(kù)為基礎(chǔ)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的數(shù)據(jù)挖掘系統(tǒng)能夠有效幫助系統(tǒng)使用人員進(jìn)行數(shù)據(jù)拆分與合并及數(shù)據(jù)挖掘等工作,在有效節(jié)約數(shù)據(jù)提取與應(yīng)用時(shí)間的基礎(chǔ)上,為中醫(yī)藥研究工作提供了更有效的參考。
1中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建
1.1總體思路
中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建需要以技術(shù)適應(yīng)性為基本點(diǎn),以中醫(yī)藥診療思路和特征分析為重點(diǎn),確保數(shù)據(jù)挖掘系統(tǒng)具有高度辯證性為前提,構(gòu)建多維度、多視角的數(shù)據(jù)挖掘系統(tǒng)[2]。
1.2系統(tǒng)總體設(shè)計(jì)
基于設(shè)計(jì)的總體思路,以充分發(fā)揮系統(tǒng)的價(jià)值為目標(biāo),設(shè)計(jì)包括頁(yè)面、應(yīng)用、功能服務(wù)、技術(shù)以及數(shù)據(jù)管理5大層次的數(shù)據(jù)挖掘系統(tǒng)[3],如表1所示。
1.3系統(tǒng)功能設(shè)計(jì)
數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)通常應(yīng)用關(guān)聯(lián)規(guī)則、分類、聚類等方法,包括數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用等內(nèi)容,可以實(shí)現(xiàn)數(shù)據(jù)信息的精準(zhǔn)選擇、變換、評(píng)估等[4]。為有效設(shè)計(jì)與實(shí)現(xiàn)中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),結(jié)合中醫(yī)藥數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了10個(gè)功能模塊,包括數(shù)據(jù)拆分與合并、頻次統(tǒng)計(jì)、矩陣轉(zhuǎn)換數(shù)據(jù)文本轉(zhuǎn)換以及關(guān)聯(lián)規(guī)則挖掘等[5-6],具體如圖1所示。數(shù)據(jù)拆分與合并方面,中醫(yī)藥的處方數(shù)據(jù)信息較多,且數(shù)據(jù)信息的呈現(xiàn)方式具有特殊性,需要數(shù)據(jù)挖掘系統(tǒng)對(duì)處方數(shù)據(jù)信息進(jìn)行有效挖掘、統(tǒng)計(jì)及修正。結(jié)合表1的內(nèi)容可知,本系統(tǒng)設(shè)計(jì)應(yīng)用TCMMiner數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)可以實(shí)現(xiàn)數(shù)據(jù)的拆分與合并,有利于中醫(yī)藥處方數(shù)據(jù)信息的進(jìn)一步統(tǒng)計(jì)和處理。頻次統(tǒng)計(jì)方面,頻次統(tǒng)計(jì)主要是對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。由于中藥處方數(shù)據(jù)信息具有特殊性,通常存在證候的正異名統(tǒng)計(jì)問(wèn)題,因此本次系統(tǒng)設(shè)計(jì)時(shí),在TCMMiner數(shù)據(jù)庫(kù)中錄入中藥、證候等中醫(yī)藥術(shù)語(yǔ)內(nèi)容,以提高術(shù)語(yǔ)及中醫(yī)藥處方信息的規(guī)范頻次,確保數(shù)據(jù)挖掘具有精準(zhǔn)性和全面性。為提高頻次統(tǒng)計(jì)過(guò)程中的證候正異名統(tǒng)計(jì)實(shí)效,本系統(tǒng)錄入了2016年版《醫(yī)學(xué)主題詞表(中文)》和2015年版《中華人民共和國(guó)藥典》等術(shù)語(yǔ)詞匯包,為提高頻次統(tǒng)計(jì)的規(guī)范性和精準(zhǔn)性以及數(shù)據(jù)挖掘的實(shí)用性與針對(duì)性奠定了堅(jiān)實(shí)基礎(chǔ)。文本抽取方面,中醫(yī)藥處方數(shù)據(jù)信息通常以大段文字的形式存在,難以避免其中存在無(wú)效信息,在一定程度上增加了數(shù)據(jù)挖掘的復(fù)雜性。應(yīng)用TCMMiner數(shù)據(jù)庫(kù),對(duì)處方數(shù)據(jù)信息進(jìn)行處理分析和提取,在提高文本抽取效率的基礎(chǔ)上,為分析處方用藥規(guī)律奠定了堅(jiān)實(shí)基礎(chǔ)??紤]到在實(shí)際工作中,文本格式無(wú)法被數(shù)據(jù)挖掘系統(tǒng)直接提取和分析,需要進(jìn)行文本格式轉(zhuǎn)換,本系統(tǒng)設(shè)計(jì)應(yīng)用了中醫(yī)藥ETL模塊,對(duì)文本格式進(jìn)行多格式的轉(zhuǎn)化。矩陣轉(zhuǎn)換方面,數(shù)據(jù)挖掘軟件計(jì)算功能的設(shè)計(jì)與實(shí)現(xiàn)需要應(yīng)用TCMMiner數(shù)據(jù)庫(kù)技術(shù),對(duì)數(shù)據(jù)的形式、格式等進(jìn)行轉(zhuǎn)換,以實(shí)現(xiàn)用戶與常規(guī)的數(shù)據(jù)挖掘軟件聯(lián)合使用。另外,本系統(tǒng)中設(shè)計(jì)了數(shù)據(jù)矩陣模塊,該模塊可以提供逆矩陣計(jì)算方式,能夠完成符號(hào)分隔數(shù)據(jù)的轉(zhuǎn)換與計(jì)算,為數(shù)據(jù)挖掘及應(yīng)用提供了極大便利。關(guān)聯(lián)規(guī)則挖掘方面,關(guān)聯(lián)關(guān)系挖掘可以發(fā)現(xiàn)數(shù)據(jù)信息之間的隱藏關(guān)系。基于數(shù)據(jù)挖掘算法,設(shè)置最小支持度、最小置信度來(lái)提高數(shù)據(jù)關(guān)聯(lián)性的分析效率,可以更有效地獲取數(shù)據(jù)信息的規(guī)律,并實(shí)現(xiàn)相關(guān)信息的組配關(guān)系分析。聚類挖掘方面,本系統(tǒng)設(shè)計(jì)將聚類挖掘確定為以相似性為標(biāo)準(zhǔn)的個(gè)體分類方式。應(yīng)用k-means算法,設(shè)置k值,以便找到聚類個(gè)數(shù)。貝葉斯處理方面,在已知的樣本中應(yīng)用貝葉斯分類方法,根據(jù)樣本類型數(shù)據(jù)模型,預(yù)測(cè)未知類型樣本的特定概率,可以在計(jì)算中藥、癥候等要素間概率關(guān)系方面發(fā)揮重要作用。除上述內(nèi)容外,本研究以強(qiáng)化中醫(yī)藥的傳播與交流為目標(biāo),在系統(tǒng)設(shè)計(jì)過(guò)程中設(shè)計(jì)并應(yīng)用了專業(yè)文章翻譯模塊。由于翻譯軟件存在中醫(yī)藥信息翻譯精度不高等問(wèn)題,所以本研究選擇在系統(tǒng)中錄入《醫(yī)學(xué)主題詞表(中文)》,并以此為翻譯標(biāo)準(zhǔn),對(duì)中醫(yī)藥術(shù)語(yǔ)等內(nèi)容進(jìn)行精準(zhǔn)翻譯。
1.4系統(tǒng)工作流程設(shè)計(jì)
在設(shè)計(jì)挖掘系統(tǒng)的工作流程方面,考慮到中醫(yī)藥數(shù)據(jù)的特征以及數(shù)據(jù)挖掘與應(yīng)用需求,在文件上傳、參數(shù)配置、結(jié)果展示和結(jié)果下載等4個(gè)方面進(jìn)行流程設(shè)計(jì)。文件上傳是系統(tǒng)用戶將文件上傳到系統(tǒng)數(shù)據(jù)庫(kù)中,系統(tǒng)進(jìn)行文件數(shù)據(jù)的展示;參數(shù)配置是基于不同功能服務(wù)的應(yīng)用,對(duì)不同數(shù)據(jù)參數(shù)設(shè)置、參數(shù)應(yīng)用需求進(jìn)行分析,實(shí)現(xiàn)以用戶服務(wù)為目標(biāo)的參數(shù)設(shè)置;結(jié)果展示是系統(tǒng)用戶可以根據(jù)實(shí)際需求,在頁(yè)面中選取和查看所需參數(shù)結(jié)果;結(jié)果下載是系統(tǒng)用戶可以將參數(shù)結(jié)果下載到本地使用。
1.5系統(tǒng)完善設(shè)計(jì)
為保證系統(tǒng)具有良好的應(yīng)用價(jià)值,在本系統(tǒng)設(shè)計(jì)的過(guò)程中進(jìn)行了缺失值的處理和噪音數(shù)據(jù)的處理。缺失值處理方面,在中醫(yī)藥處方信息提取和應(yīng)用過(guò)程中,有可能出現(xiàn)數(shù)據(jù)缺失的問(wèn)題,例如中醫(yī)藥臨床輔助決策中各類中藥的用量等數(shù)據(jù)確實(shí)難以為中醫(yī)藥研究、藥物組合的應(yīng)用提供有力依據(jù)和參考。為了應(yīng)對(duì)此情況,以中醫(yī)藥數(shù)據(jù)特征分析為基礎(chǔ),以數(shù)據(jù)決策目標(biāo)為重點(diǎn),應(yīng)用缺失值填充算法補(bǔ)充和完善缺失的數(shù)據(jù)信息。例如,在本系統(tǒng)設(shè)計(jì)中,應(yīng)用平均值填充法對(duì)缺失的數(shù)值類數(shù)據(jù)進(jìn)行填充和完善。噪聲數(shù)據(jù)處理方面,本系統(tǒng)設(shè)計(jì)主要是針對(duì)一詞多義、詞義交叉等噪聲數(shù)據(jù)進(jìn)行處理。噪聲數(shù)據(jù)處理方法主要是以《中醫(yī)診斷術(shù)語(yǔ)標(biāo)準(zhǔn)》《中華人民共和國(guó)藥典》《中藥學(xué)》等為依據(jù)和標(biāo)準(zhǔn),對(duì)噪聲數(shù)據(jù)進(jìn)行規(guī)范、刪除等處理,確保數(shù)據(jù)挖掘和應(yīng)用的精確性。
2中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)實(shí)踐應(yīng)用
2.1文本處理
以搜索“針灸療法”為例,在系統(tǒng)中搜索該文本內(nèi)容,以2018—2021年為時(shí)間期限,搜索到460條記錄。搜索完成后,系統(tǒng)用戶可以根據(jù)實(shí)際需求選擇文本進(jìn)行下載,下載格式為.txt,隨后應(yīng)用TCMMiner,將下載的文本格式轉(zhuǎn)換為Excel格式。
2.2頻次統(tǒng)計(jì)
本系統(tǒng)可以通過(guò)TCMMiner將數(shù)據(jù)轉(zhuǎn)換為單獨(dú)詞語(yǔ),并對(duì)詞語(yǔ)及相關(guān)詞匯的使用頻次進(jìn)行統(tǒng)計(jì)分析,如中醫(yī)藥數(shù)據(jù)的錄入時(shí)間、中醫(yī)藥詞匯來(lái)源、所搜文本的關(guān)聯(lián)內(nèi)容等。
2.3關(guān)鍵詞關(guān)聯(lián)分析
通過(guò)關(guān)鍵詞的關(guān)聯(lián)分析,可以更加充分的了解某個(gè)領(lǐng)域的研究熱點(diǎn),對(duì)中醫(yī)藥研究發(fā)展等具有積極意義?;诖四繕?biāo)分析,在中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)中,應(yīng)用統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(StatisticalProductandServiceSolutions,SPSS)層次聚類法,實(shí)現(xiàn)了關(guān)鍵詞的聚類分析,并通過(guò)TCMMiner的應(yīng)用,實(shí)現(xiàn)關(guān)鍵詞詞列向數(shù)據(jù)矩陣的轉(zhuǎn)換。以“白術(shù)、半夏”為例,導(dǎo)入需要進(jìn)行數(shù)據(jù)挖掘的源數(shù)據(jù),在病名處選擇“咳嗽”并將支持度和置信度選擇為0.5。隨后進(jìn)行分析,得出表2結(jié)果。由表2可知,數(shù)據(jù)挖掘系統(tǒng)中,搜索到關(guān)于治療“咳嗽”的藥物組合中,白術(shù)→半夏,半夏→白術(shù),薄荷、白術(shù)→半夏,薄荷、半夏→白術(shù)的置信度皆為100%;白術(shù)→半夏、半夏→白術(shù)的支持度為79.23%。由此分析可知,白術(shù)、半夏為治療“咳嗽”的常用藥,且使用頻率較高。
2.4作者高頻組合分析
應(yīng)用TCMMiner的關(guān)聯(lián)規(guī)則,對(duì)高頻組合內(nèi)容進(jìn)行挖掘,可以找出高頻組合內(nèi)容,為數(shù)據(jù)應(yīng)用情況及中醫(yī)藥研究項(xiàng)目情況的分析提供有力支持,具體如表3所示。通過(guò)實(shí)踐應(yīng)用分析表明,本文設(shè)計(jì)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)具有較高的應(yīng)用價(jià)值。由于中醫(yī)藥數(shù)據(jù)信息的更新速度較快,且原有中醫(yī)藥詞表無(wú)須更新,在使用時(shí)間的積累下,系統(tǒng)中的數(shù)據(jù)規(guī)模不斷擴(kuò)大,數(shù)據(jù)挖掘算法逐漸增多。為保證系統(tǒng)應(yīng)用有效性,需要不斷優(yōu)化和增強(qiáng)系統(tǒng)功能。本系統(tǒng)設(shè)計(jì)應(yīng)用了TCMMiner數(shù)據(jù)庫(kù),不僅可以綜合應(yīng)用中醫(yī)藥數(shù)據(jù)挖掘功能服務(wù)模塊,還可以對(duì)服務(wù)模塊進(jìn)行優(yōu)化和完善,為系統(tǒng)有效應(yīng)用及系統(tǒng)數(shù)據(jù)更新提供更有力的技術(shù)支持。
3結(jié)語(yǔ)
中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與應(yīng)用對(duì)中醫(yī)藥研究等產(chǎn)生重要影響。本文綜合中醫(yī)藥數(shù)據(jù)特征的分析,設(shè)計(jì)了基于TCMMiner數(shù)據(jù)庫(kù)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)。以實(shí)踐應(yīng)用為視角,在文本處理、頻次統(tǒng)計(jì)、關(guān)鍵詞關(guān)聯(lián)分析以及作者高頻組合分析這4個(gè)方面驗(yàn)證了系統(tǒng)應(yīng)用的有效性。結(jié)果表明,基于TCMMiner數(shù)據(jù)庫(kù)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)為中醫(yī)藥數(shù)據(jù)挖掘及應(yīng)用提供了有力支撐和有效工具。綜合而言,本次系統(tǒng)設(shè)計(jì)應(yīng)用未從社會(huì)效益、數(shù)據(jù)更新視角對(duì)系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì)和研究,需要在后續(xù)研究中進(jìn)行深度的分析和探索,以豐富研究成果,從而為中醫(yī)藥數(shù)據(jù)挖掘及中醫(yī)藥研究等工作提供更有力的系統(tǒng)技術(shù)支持。
參考文獻(xiàn)
[1]許雪蓮,吳昆侖.數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用[J].河南中醫(yī),2020,40(11):1633-1637.
[2]王金虹,馬斌,李艷彥.基于相關(guān)系數(shù)與關(guān)聯(lián)規(guī)則分析的中醫(yī)藥防治新型冠狀病毒肺炎用藥規(guī)律研究[J].中國(guó)中醫(yī)藥圖書情報(bào)雜志,2022,46(1):1-5.
[3]陳洪雁,張大偉,萬(wàn)俊偉,等.基于大數(shù)據(jù)的空間目標(biāo)監(jiān)測(cè)數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)與應(yīng)用[J].航天電子對(duì)抗,2020,36(4):11-14.
[4]狄宏林,吳瑕,周勇.聚類算法與關(guān)聯(lián)規(guī)則在智慧校園數(shù)據(jù)分析中的創(chuàng)新應(yīng)用與研究[J].貴陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版),2021,16(4):16-19.
[5]伍嘉儀,翁衡,鄭瑋琳,等.基于中醫(yī)藥大數(shù)據(jù)智能處理與知識(shí)服務(wù)系統(tǒng)探析經(jīng)行頭痛臨床特征與方藥規(guī)律[J].廣州中醫(yī)藥大學(xué)學(xué)報(bào),2020,37(9):1808-1815.
[6]張靜美,陳曉陽(yáng),秦慶廣,等.基于數(shù)據(jù)挖掘與網(wǎng)絡(luò)藥理學(xué)探討徐學(xué)功治療冠心病PCI術(shù)后中藥使用規(guī)律與作用機(jī)制[J].中醫(yī)藥導(dǎo)報(bào),2021,27(8):148-153.
作者:張晨 單位:中國(guó)中醫(yī)科學(xué)院眼科醫(yī)院