多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng)開發(fā)研究

時(shí)間:2022-09-26 09:32:08

導(dǎo)語:多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng)開發(fā)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng)開發(fā)研究

【摘要】在人工智能醫(yī)學(xué)影像領(lǐng)域,影像標(biāo)注是所有人工智能研發(fā)的關(guān)鍵因素。傳統(tǒng)的人工標(biāo)注過程中,數(shù)據(jù)獲取困難、手工勞動(dòng)強(qiáng)度大、專業(yè)性強(qiáng)、標(biāo)注質(zhì)量低等問題突出,亟需智能化的多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng),去滿足標(biāo)注工作的開展。因此,四川大學(xué)華西醫(yī)院基于影像云平臺(tái)收集了院內(nèi)和聯(lián)盟醫(yī)院的多模態(tài)影像數(shù)據(jù),通過信息化技術(shù)設(shè)計(jì)了多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng),集成各種圖像處理算法以及人工智能模型來簡(jiǎn)化影像數(shù)據(jù)標(biāo)注工作。標(biāo)注系統(tǒng)的建設(shè)提高了院內(nèi)數(shù)據(jù)標(biāo)注效率,為院內(nèi)人工智能影像研究和相關(guān)產(chǎn)業(yè)建設(shè)提供必要的數(shù)據(jù)支持,從而推動(dòng)院內(nèi)醫(yī)學(xué)影像相關(guān)的人工智能產(chǎn)業(yè)落地。

【關(guān)鍵詞】多模態(tài);數(shù)據(jù)標(biāo)注;系統(tǒng)設(shè)計(jì);醫(yī)學(xué)影像云平臺(tái)

目前人工智能(artificialintelligence,AI)和大數(shù)據(jù)技術(shù)已廣泛應(yīng)用于醫(yī)學(xué)影像領(lǐng)域[1],通過智能模型對(duì)影像數(shù)據(jù)進(jìn)行分析和挖掘,幫助臨床實(shí)現(xiàn)疾病篩查、輔助決策、預(yù)后評(píng)估等工作,減輕醫(yī)生負(fù)擔(dān)的同時(shí)提升患者滿意度[2]。經(jīng)調(diào)研,國內(nèi)大型三級(jí)甲等醫(yī)院在AI結(jié)合醫(yī)學(xué)影像研究與產(chǎn)品化的過程中,都會(huì)面臨模型的穩(wěn)健性和有效性低這樣的共性問題,其主要原因在于原始醫(yī)學(xué)影像數(shù)據(jù)與計(jì)算機(jī)模型算法之間固有的“語義鴻溝”,導(dǎo)致原始數(shù)據(jù)不能直接用于智能模型訓(xùn)練[3],而數(shù)據(jù)標(biāo)注預(yù)先把需計(jì)算機(jī)識(shí)別的影像打上標(biāo)簽,產(chǎn)生訓(xùn)練數(shù)據(jù),通過計(jì)算機(jī)不斷識(shí)別這些圖像特征,最終實(shí)現(xiàn)計(jì)算機(jī)的自主識(shí)別。訓(xùn)練數(shù)據(jù)的量級(jí)和標(biāo)準(zhǔn)化程度直接決定了AI模型的表現(xiàn)能力[4];此外,同一病例可有多種不同的影像形態(tài)表現(xiàn)形式包括數(shù)字放射成像、CT、MRI等,雖然多模態(tài)數(shù)據(jù)因成像機(jī)制不同而能從多種層面提供臨床信息,但多模態(tài)影像也加大了院內(nèi)數(shù)據(jù)標(biāo)注的工作量和實(shí)現(xiàn)難度。隨著標(biāo)注工作的展開發(fā)現(xiàn),目前存在的主要瓶頸如下:①缺少影像數(shù)據(jù)標(biāo)注模板,標(biāo)注數(shù)據(jù)的一致性很難統(tǒng)一,當(dāng)患者數(shù)據(jù)存在多種復(fù)雜征象標(biāo)注工作時(shí),醫(yī)生或相關(guān)研究人員需要花費(fèi)大量時(shí)間和精力來進(jìn)行樣本標(biāo)注,導(dǎo)致其缺乏相應(yīng)的科研或產(chǎn)品開發(fā)動(dòng)力;②醫(yī)院存有多種模態(tài)的影像數(shù)據(jù),但缺少系統(tǒng)平臺(tái)可以同時(shí)兼容多模態(tài)數(shù)據(jù)的標(biāo)注工作;③在醫(yī)學(xué)影像標(biāo)注領(lǐng)域,標(biāo)注需求差異巨大、標(biāo)注場(chǎng)景多變,多樣的標(biāo)注類型,使得標(biāo)注工作繁瑣耗時(shí)且錯(cuò)誤頻出,如何結(jié)合標(biāo)準(zhǔn)的標(biāo)注模板和AI技術(shù)來輔助醫(yī)生進(jìn)行數(shù)據(jù)標(biāo)注,在提升標(biāo)注效率的同時(shí)保證標(biāo)注的準(zhǔn)確性也是當(dāng)前的一大難點(diǎn)。近年隨著云計(jì)算、存儲(chǔ)技術(shù)在醫(yī)療行業(yè)應(yīng)用的不斷成熟,四川大學(xué)華西醫(yī)院已協(xié)同各醫(yī)療聯(lián)合體(醫(yī)聯(lián)體)單位建設(shè)了區(qū)域級(jí)別的影像云中心,實(shí)現(xiàn)了影像數(shù)據(jù)的快速調(diào)用。基于影像云建立多模態(tài)數(shù)據(jù)標(biāo)注系統(tǒng),將完成針對(duì)多模態(tài)數(shù)據(jù)的復(fù)雜征象標(biāo)注工作,結(jié)合圖像算法和AI技術(shù)提升標(biāo)注效率和標(biāo)注數(shù)據(jù)質(zhì)量。自2020年底,基于影像云的多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng)已在院內(nèi)上線使用,不僅能滿足院內(nèi)相關(guān)科研需求,更能反哺院內(nèi)智能應(yīng)用,得到更加精確的輔助診斷模型。通過院內(nèi)數(shù)據(jù)標(biāo)注,可得到大量帶標(biāo)簽的影像數(shù)據(jù),為院內(nèi)AI研究和相關(guān)智能應(yīng)用提供寶貴的數(shù)據(jù)資產(chǎn)。本文將就基于影像云的多模態(tài)醫(yī)學(xué)影像標(biāo)注系統(tǒng)的開發(fā)應(yīng)用作一介紹。

1系統(tǒng)結(jié)構(gòu)開發(fā)

1.1系統(tǒng)架構(gòu)

系統(tǒng)整體基于asp.netcore技術(shù)的B/S架構(gòu)進(jìn)行平臺(tái)架構(gòu)設(shè)計(jì),適配Chrome瀏覽器;數(shù)據(jù)庫采用MSSQL的主從方式搭建來保證數(shù)據(jù)安全;前端則基于Element-UI和Vue.js框架進(jìn)行開發(fā);由于涉及到影像AI相關(guān)處理,服務(wù)器硬件資源采用NVDIATeslaV100、32GB內(nèi)存以及2.2GHz主頻的IntelXeonE5-2650v4(Broadwell)處理器。此外,為保證醫(yī)生閱片及標(biāo)注的流暢度,客戶端內(nèi)存配置為8G,單用戶帶寬設(shè)置為20M。為保障數(shù)據(jù)安全,系統(tǒng)通過虛擬專用網(wǎng)絡(luò)[5]對(duì)接影像云系統(tǒng)。通過及時(shí)獲取院內(nèi)及醫(yī)聯(lián)體單位的影像數(shù)據(jù),提供標(biāo)注服務(wù),形成區(qū)域級(jí)別的影像標(biāo)注平臺(tái)。標(biāo)注結(jié)果僅以對(duì)象簡(jiǎn)譜(JavaScriptObjectNotation,JSON)形式[6]保存在服務(wù)器中,不用占據(jù)過多的存儲(chǔ)資源。當(dāng)臨床業(yè)務(wù)或科研使用時(shí),自動(dòng)調(diào)用原始影像和JSON標(biāo)注結(jié)果生成標(biāo)注影像,從而實(shí)現(xiàn)同院內(nèi)信息化環(huán)境相融合,系統(tǒng)架構(gòu)見圖1。

1.2流程設(shè)計(jì)

以往的數(shù)據(jù)標(biāo)注過程,是科室自發(fā)組織人員借助各種開源工具(如3DSlicer、itk-SNAP等)來進(jìn)行標(biāo)注[7]。但醫(yī)學(xué)影像標(biāo)注所需的類型及標(biāo)簽繁多,一項(xiàng)標(biāo)注任務(wù),可能需要同時(shí)借助多款標(biāo)注軟件,同時(shí)由于缺乏系統(tǒng)化的組織和管理,數(shù)據(jù)標(biāo)注的質(zhì)量無法得到保障。此外,不同醫(yī)生的標(biāo)注習(xí)慣存在一定的差異,標(biāo)注流程和規(guī)范難以統(tǒng)一,后續(xù)標(biāo)注數(shù)據(jù)的整合和處理,往往會(huì)耗費(fèi)科研人員大量的時(shí)間和精力。因此為規(guī)范數(shù)據(jù)標(biāo)注流程,提升數(shù)據(jù)標(biāo)注質(zhì)量,保證數(shù)據(jù)安全,系統(tǒng)采用項(xiàng)目制管理的方式。各科室根據(jù)需求建立相應(yīng)的項(xiàng)目組配置成員角色,包括項(xiàng)目管理員、標(biāo)注員、審核員。項(xiàng)目管理員:基于院內(nèi)不同科室需求分配項(xiàng)目管理員,負(fù)責(zé)各自項(xiàng)目內(nèi)的標(biāo)注人員、審核人員的角色分配、任務(wù)分配,及標(biāo)注后數(shù)據(jù)的管理和共享配置等;可根據(jù)研究需求設(shè)置標(biāo)注次數(shù),單一任務(wù)支持同時(shí)分配給多人標(biāo)注。此外,系統(tǒng)支持多模態(tài)影像數(shù)據(jù)的標(biāo)注,可覆蓋院內(nèi)大部分影像數(shù)據(jù)的需求,為保證標(biāo)注數(shù)據(jù)的一致性,需要項(xiàng)目管理員對(duì)標(biāo)注數(shù)據(jù)、標(biāo)注模型、標(biāo)注模板進(jìn)行統(tǒng)一配置見圖2。標(biāo)注員:標(biāo)注員通過查看任務(wù)列表,獲取需要標(biāo)注的影像數(shù)據(jù),再按照統(tǒng)一模板進(jìn)行標(biāo)注工作。同時(shí)支持按時(shí)間維度和患者唯一識(shí)別號(hào)(通常是院內(nèi)登記號(hào))等方式來篩選標(biāo)注任務(wù)。為保障標(biāo)注過程中數(shù)據(jù)不丟失,支持在線標(biāo)注和離線標(biāo)注后上傳2種標(biāo)注模式。審核員:通常是由擁有豐富臨床經(jīng)驗(yàn)的醫(yī)師擔(dān)任,負(fù)責(zé)審核項(xiàng)目組成員已標(biāo)注的數(shù)據(jù),通過任務(wù)審核機(jī)制來盡可能保證標(biāo)注數(shù)據(jù)質(zhì)量,進(jìn)行數(shù)據(jù)校對(duì)和標(biāo)注修改或補(bǔ)充,可以將不合格的標(biāo)注數(shù)據(jù)回傳給標(biāo)注員重新標(biāo)注。數(shù)據(jù)標(biāo)注過程中通過各個(gè)角色成員之間的相互分工和配合,盡可能將院內(nèi)的標(biāo)注流程規(guī)范化、合理化,提高數(shù)據(jù)質(zhì)量和標(biāo)注效率,具體流程見圖3。

1.3標(biāo)注功能設(shè)計(jì)

訓(xùn)練數(shù)據(jù)集的大小以及數(shù)據(jù)標(biāo)注的準(zhǔn)確性是AI相關(guān)研究有效性的基礎(chǔ)[8]。系統(tǒng)支持讀取多種模態(tài)的影像信息并展示,在數(shù)據(jù)標(biāo)注模塊中不僅提供了支持點(diǎn)、框、線等的基礎(chǔ)標(biāo)注工具,還提供了多種智能標(biāo)注工具,來提升標(biāo)注效率。此外,結(jié)合AI模型,提供了AI輔助標(biāo)注功能,使標(biāo)注過程更加智能和準(zhǔn)確。1.3.1基本標(biāo)注模塊 臨床診斷往往涉及多種數(shù)據(jù)模態(tài),如MRI、X線、超聲等,同時(shí)也包含多種數(shù)據(jù)格式,如圖像、視頻、三維數(shù)據(jù)等。平臺(tái)兼容全部數(shù)據(jù)模態(tài)和格式,對(duì)于影像數(shù)據(jù),支持多樣的基本標(biāo)注方式,包括點(diǎn)、線、面、體的交叉組合,樣本的類別標(biāo)注,病灶區(qū)域的框選,以及像素級(jí)別的區(qū)域標(biāo)注等。在基本標(biāo)注完成后,支持對(duì)標(biāo)注影像進(jìn)行反復(fù)修改,逐步提升標(biāo)注精度。1.3.2智能標(biāo)注工具 基于各種圖形圖像算法,能夠加快標(biāo)注員的標(biāo)注效率,簡(jiǎn)化標(biāo)注過程,極大地降低人力成本并使標(biāo)注質(zhì)量大幅提升。本系統(tǒng)支持以下智能標(biāo)注方式:①基于水平集[9]算法的輪廓標(biāo)注功能,操作者只需要確定一個(gè)大的篩選框,算法可以自動(dòng)找出框內(nèi)輪廓;②基于自適應(yīng)算法[10]的框選方法,標(biāo)注工具可以自動(dòng)調(diào)整框的位置和大小,確定標(biāo)注病灶區(qū)的最小邊界框;③自動(dòng)化輪廓跟蹤,基于智能剪刀算法(intelligentscissors)[11],跟據(jù)圖像邊緣信息搜索2個(gè)種子點(diǎn)之間的最優(yōu)路徑,有效的引導(dǎo)用戶得到準(zhǔn)確的目標(biāo)邊界。標(biāo)注效果見圖4。1.3.3AI輔助模塊 在面臨大規(guī)模、復(fù)雜的標(biāo)注需求時(shí),如多征象數(shù)據(jù)標(biāo)注或視頻幀數(shù)據(jù),若完全依賴醫(yī)生手動(dòng)標(biāo)注或智能標(biāo)注工具,既會(huì)給標(biāo)注員帶來沉重的負(fù)擔(dān),也會(huì)嚴(yán)重制約AI研究項(xiàng)目的進(jìn)度[12]。而隨著AI技術(shù)的飛速發(fā)展,數(shù)據(jù)標(biāo)注模式從人工標(biāo)注逐漸轉(zhuǎn)化為人工標(biāo)注+AI輔助標(biāo)注相結(jié)合,即通過AI模型自動(dòng)生成標(biāo)注結(jié)果,然后再由標(biāo)注員在此基礎(chǔ)上進(jìn)行校正。目前院內(nèi)已有較成熟的AI輔助模型有:針對(duì)于肺炎患者的CT影像病灶標(biāo)注的肺炎模型,以及適用于CT影像分割的AI骨模型,包括胸骨、肋骨、椎骨、肩胛骨、鎖骨等。AI模型可通過解析圖像和用戶輸入的矩形框來輸出病灶每一層的輪廓,從而提升標(biāo)注效率(圖5)。1.3.4標(biāo)注計(jì)費(fèi) 不同于其他類型的數(shù)據(jù)標(biāo)注,醫(yī)學(xué)影像的標(biāo)注目前存在以下難點(diǎn):一是參與標(biāo)注的人員需要有豐富的臨床經(jīng)驗(yàn),數(shù)據(jù)標(biāo)注質(zhì)量將直接影響到模型的表現(xiàn)效果,無法將復(fù)雜的標(biāo)注工作交由第三方公司;二是院內(nèi)醫(yī)師對(duì)于醫(yī)學(xué)影像標(biāo)注的積極性較低,參與人員較少,很難完成大規(guī)模的數(shù)據(jù)標(biāo)注工作?;谝陨犀F(xiàn)實(shí)問題,我們?cè)O(shè)計(jì)了計(jì)費(fèi)模塊,可實(shí)時(shí)統(tǒng)計(jì)標(biāo)注和審核費(fèi)用,以此來激勵(lì)院內(nèi)更多醫(yī)師利用空余時(shí)間來參與數(shù)據(jù)標(biāo)注的工作。

2系統(tǒng)應(yīng)用效果

多模態(tài)影像標(biāo)注系統(tǒng),針對(duì)醫(yī)學(xué)影像標(biāo)注工作涉及多種模態(tài)數(shù)據(jù)、手工標(biāo)注工作繁瑣耗時(shí)、標(biāo)注結(jié)果差異性較大、數(shù)據(jù)質(zhì)量較低等特點(diǎn)。通過豐富的智能標(biāo)注工具以及智能輔助模塊,能夠有效地提升數(shù)據(jù)標(biāo)注的效率;同時(shí),系統(tǒng)通過設(shè)定標(biāo)注模板以及任務(wù)審核機(jī)制,來提升標(biāo)注結(jié)果的統(tǒng)一性以及準(zhǔn)確率。自系統(tǒng)2020年底院內(nèi)上線起,院內(nèi)研究團(tuán)隊(duì)就立即開展了關(guān)于卵圓孔未閉患者的心臟超聲的科研項(xiàng)目,通過影像標(biāo)注平臺(tái)實(shí)現(xiàn)了高效的心臟超聲影像標(biāo)注,截止2021年4月,共完成了62例陽性病例影像標(biāo)注工作,在智能模型構(gòu)建過程中選取了其中49例作為訓(xùn)練集,包含標(biāo)注圖像10214張,13例作為測(cè)試集,圖像2700張,通過標(biāo)注系統(tǒng)的應(yīng)用,保證了AI模型的數(shù)據(jù)規(guī)模和標(biāo)注質(zhì)量,從而實(shí)現(xiàn)了超聲關(guān)鍵幀定位和卵圓孔未閉患者超聲可疑區(qū)域自動(dòng)識(shí)別,具體實(shí)現(xiàn)效果見圖6。此外,通過完成肺部影像的多征象復(fù)雜標(biāo)注任務(wù),院內(nèi)還部署了相關(guān)肺部結(jié)節(jié)檢出和危險(xiǎn)程度分級(jí)、肺部常見征象智能識(shí)別等產(chǎn)品,大幅降低了醫(yī)生的工作負(fù)荷。系統(tǒng)可以兼容多種模態(tài)的影像數(shù)據(jù)標(biāo)注工作,可以支持院內(nèi)各個(gè)科室和研究團(tuán)隊(duì)影像項(xiàng)目的開展,系統(tǒng)在院內(nèi)多模態(tài)數(shù)據(jù)標(biāo)注中的應(yīng)用見圖7。

3結(jié)語

目前標(biāo)注平臺(tái)存在最大的問題是由于存儲(chǔ)壓力和調(diào)取速度,難以將標(biāo)注結(jié)果集成到院內(nèi)的影像歸檔和通信系統(tǒng)當(dāng)中。當(dāng)前標(biāo)注系統(tǒng)是對(duì)符合醫(yī)學(xué)數(shù)字成像和通信協(xié)議的醫(yī)學(xué)影像中的某些圖像序列增添灰階圖像顯示狀態(tài)(grayscalesoftcopypresentationstate,GSPS)來表示圖像標(biāo)注。但將新增的GSPS序列信息[13]同步到業(yè)務(wù)系統(tǒng)中會(huì)改變?cè)加跋竦拇鎯?chǔ),因此需要存儲(chǔ)分離來保障原始數(shù)據(jù)的有效性,這會(huì)對(duì)存儲(chǔ)資源帶來極大的壓力。目前可行的解決方案是將標(biāo)注結(jié)果以JSON形式單獨(dú)存儲(chǔ),再以超文本傳輸協(xié)議的表述性狀態(tài)傳遞接口與其他業(yè)務(wù)系統(tǒng)進(jìn)行集成[14],在每次讀取標(biāo)注影像結(jié)果時(shí),需要在同時(shí)提取原始影像和標(biāo)注結(jié)果再在系統(tǒng)進(jìn)行解析,生成標(biāo)注影像,由于涉及到影像云系統(tǒng)的改造,可能會(huì)對(duì)響應(yīng)速度造成一定的影響。目前的應(yīng)對(duì)措施是對(duì)于熱數(shù)據(jù)[15]和冷數(shù)據(jù)[16]采用不同的集成方式,在減輕存儲(chǔ)壓力的同時(shí)也能在一定程度上滿足業(yè)務(wù)需求??偟膩碚f,基于影像云的多模態(tài)數(shù)據(jù)標(biāo)注系統(tǒng),相比與普通數(shù)據(jù)標(biāo)注工具,打破了以往各科室獨(dú)立開展的影像標(biāo)注工作的模式,采用平臺(tái)管理,同時(shí)兼容多種模態(tài)數(shù)據(jù)標(biāo)注方式,將標(biāo)注結(jié)果統(tǒng)一存儲(chǔ)在數(shù)據(jù)服務(wù)器中,真正實(shí)現(xiàn)了全院級(jí)別的影像標(biāo)注平臺(tái),并歸檔形成院內(nèi)數(shù)據(jù)資產(chǎn),幫助研究者更高效地開展各類影像數(shù)據(jù)的標(biāo)注工作。隨著AI技術(shù)和醫(yī)療行業(yè)的不斷結(jié)合,可為科研項(xiàng)目提供高質(zhì)量的影像數(shù)據(jù)支持,并且可以作為定量評(píng)估AI醫(yī)療成果的基準(zhǔn)平臺(tái),從而推動(dòng)院內(nèi)AI結(jié)合醫(yī)學(xué)影像的相關(guān)科研和產(chǎn)業(yè)順利落地。

作者:楊豪 張睿 王覓也 單位:四川大學(xué)華西醫(yī)院信息中心 四川大學(xué)華西醫(yī)院醫(yī)療信息化技術(shù)教育部工程研究中心