發(fā)布日期:2017-12-18
人工智能正在改變醫(yī)療診斷行業(yè)
今年年初,谷歌成功研發(fā)出一套用于乳腺癌診斷的人工智能系統(tǒng)。這套系統(tǒng)分析了大量的病理組織顯微圖像,速度比人類快得多,且腫瘤檢出率高達(dá)92.4%。如果是人類醫(yī)生完成這項(xiàng)工作,必須非常仔細(xì)分析大量組織樣本才能確診癌癥,而且這是一個(gè)極度費(fèi)時(shí)且易出錯(cuò)的過程。一個(gè)有經(jīng)驗(yàn)的醫(yī)生需要幾年甚至十年的時(shí)間來培訓(xùn)。如今谷歌的成功預(yù)示著人工智能疾病診斷的到來。
事實(shí)上,利用人工智能檢測癌癥并不是新鮮事。早在30年前,人工智能的重要分支之一,機(jī)器學(xué)習(xí)技術(shù)如人工神經(jīng)網(wǎng)絡(luò)算法和決策樹算法,就被用來做癌癥檢測。然而,早期的嘗試并沒有得到令人滿意的結(jié)果。
近年來,科學(xué)家在深度學(xué)習(xí)技術(shù)上取得了很大的突破,例如,AlexNet的出現(xiàn)極大提升了計(jì)算機(jī)識別圖片的能力。比起一般的機(jī)器學(xué)習(xí),深度學(xué)習(xí)能從數(shù)據(jù)中自動(dòng)提取更豐富、有用的信息,因而有更高的精確度。同時(shí),計(jì)算機(jī)性能的迅速提升以及可用數(shù)據(jù)的增加,使得深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練成為可能。因此,深度學(xué)習(xí)技術(shù)正逐漸應(yīng)用于癌癥檢測上。
不少研究也證明,比一般的機(jī)器學(xué)習(xí)方法更加精確,無論是腸癌、乳腺癌、肺癌還是胰腺癌的檢測。最近,以深度學(xué)習(xí)為主的人工智能技術(shù)在癌癥檢測上取得了激動(dòng)人心的進(jìn)展。接下來,我們就一起回顧一下過去三年人工智能在癌癥檢測上的一些代表性成果。
深度學(xué)習(xí)在癌癥診斷中的獨(dú)特優(yōu)勢
深度學(xué)習(xí)框架有很多種,自編碼器(Autoencoder,AE)、深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)以及卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)等。其中,CNN在癌癥檢測中最為常用,其次是AE和DBN。它們或被用于分析醫(yī)學(xué)圖像,如X光片、CT圖像等,或用于分析分子層面的數(shù)據(jù),如基因突變、基因表達(dá)數(shù)據(jù)等。目前,深度學(xué)習(xí)技術(shù)還不能應(yīng)用在所有類型的癌癥上,因此現(xiàn)有研究一般將肺癌、乳腺癌等常見癌癥,作為檢測目標(biāo)。
人工智能能對不同皮膚進(jìn)行精準(zhǔn)歸類,圖片來自Nature
CNN是一個(gè)多層神經(jīng)網(wǎng)絡(luò)框架,旨在通過卷積處理來學(xué)習(xí)數(shù)據(jù)中的高位信息。它包含三種神經(jīng)元層:卷積層(Convolutional Layer)、池化層(Pooling Layer)和全連通層(Fully Connected Layer)。其中,卷積層能夠從數(shù)據(jù)中提取特征,池化層一般用于降低數(shù)據(jù)的維度(復(fù)雜度),而全連通層則利用前兩層學(xué)習(xí)的信息進(jìn)行分類。基于這種精密的設(shè)計(jì),CNN十分擅長圖片識別,這也是它近幾年聲名鵲起的原因,所以研究人員多用它來分析醫(yī)學(xué)圖像,以檢測癌癥。不過,圖片識別并不是CNN的唯一應(yīng)用,CNN還很適合用來做文本分析。我們知道,生物體的基因組信息儲(chǔ)存在堿基序列中,這些信息在計(jì)算機(jī)中的表示就是文本,所以,CNN也很適合分析引起癌癥的基因組數(shù)據(jù)。
在醫(yī)學(xué)圖像分析上,CNN可以說是深度學(xué)習(xí)在醫(yī)療診斷領(lǐng)域最成功的應(yīng)用之一。2015年,中科院和南佛羅里達(dá)大學(xué)的學(xué)者使用CNN的變種之一——多層卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Convolution Neural Network),使計(jì)算機(jī)能從胸部CT掃描圖像識別出肺結(jié)節(jié)(肺結(jié)節(jié)是診斷肺癌的依據(jù)之一),其準(zhǔn)確度高達(dá)86.84%。不過,使用肺部細(xì)胞纖維圖像,Teramoto訓(xùn)練的CNN成功檢測肺癌的準(zhǔn)確率卻只有71%。
除肺癌之外,CNN也能成功檢測出乳腺癌。Kooi使用超過45000張乳房X光圖片訓(xùn)練CNN,使診斷準(zhǔn)確度達(dá)到人類專家的水平。當(dāng)然還有文章開頭提到的谷歌,他們的CNN能夠自動(dòng)從100萬像素的組織顯微圖像中,檢測并定位出100×100像素的腫瘤,靈敏度達(dá)到92.4%,而每張圖片平均只有8個(gè)假陽性結(jié)果,是當(dāng)下檢測乳腺癌最好的人工智能系統(tǒng)。另一種十分常見的癌癥——胰腺癌,由華中科技大學(xué)的學(xué)者用CNN實(shí)現(xiàn)了自動(dòng)化識別,且獲得了89.85%的靈敏度與95.83%的特異度。不同于之前的研究,他們的CNN可直接使用原圖片作為輸入,而不需要預(yù)先對圖片進(jìn)行剪輯等預(yù)處理。
而對于腸癌,大腸息肉的檢測對早期診斷十分關(guān)鍵,因?yàn)槟c息肉很有可能惡化為癌癥。2017年,Korbar實(shí)現(xiàn)了從腸道組織染色圖鑒別可能致癌的腸道息肉的CNN,精確度達(dá)到93%。同年,Lequan Yu則設(shè)計(jì)了3D-CNN,使計(jì)算機(jī)能夠分析結(jié)腸鏡拍攝到的視頻來找到腸息肉。除了這些癌癥種類之外,CNN還被設(shè)計(jì)來分析不同的醫(yī)學(xué)圖像,以檢測骨肉瘤、頭頸癌、膀胱癌、腦癌和口腔癌等癌癥。
最值得一提的是,斯坦福大學(xué)的Andre Esteva今年在Nature上發(fā)表了突破性進(jìn)展,他們設(shè)計(jì)的CNN診斷皮膚癌的精確度能夠達(dá)到甚至超越皮膚病學(xué)專家的水平。他們使用已經(jīng)預(yù)先用128萬張圖片訓(xùn)練過的GoogleNet Inception v3 CNN框架,然后拿包含2032種疾病的13萬張醫(yī)療圖片,用遷移學(xué)習(xí)技術(shù)來訓(xùn)練,最終使這個(gè)CNN能夠把圖片歸類為757類皮膚疾病中的一種,包括皮膚癌。它的另一項(xiàng)優(yōu)勢是可直接對普通的照片進(jìn)行分析,不需要像以往的研究一樣要求醫(yī)學(xué)圖像或需要對圖片進(jìn)行預(yù)處理。更重要的是,這項(xiàng)技術(shù)在未來有望部署在移動(dòng)終端,也就是說,用戶只要用手機(jī)對可疑部位拍照,就能知道是否出現(xiàn)了癌變,而不需要專程去看醫(yī)生。作者預(yù)計(jì),到2021年,全世界大約有63億臺智能手機(jī)會(huì)連接到這個(gè)系統(tǒng)中,從而為大眾提供低成本、準(zhǔn)確的皮膚病診斷服務(wù)。
CNN還被用在基因信息分析上,用于發(fā)現(xiàn)基因突變或基因表達(dá)的變化。眾所周知,癌癥是由于細(xì)胞基因突變造成的。因此,癌細(xì)胞的基因序列和基因表達(dá)模式跟正常細(xì)胞不一樣,這為我們提供了一個(gè)診斷依據(jù)。理論上,基因檢測是最佳的癌癥檢測手段,因?yàn)榧?xì)胞的行為最終都是由基因控制。直接檢查基因的異常情況可讓我們及早發(fā)現(xiàn)癌癥,為此科學(xué)界付出了很多努力,例如目前正如火如荼進(jìn)行的“精準(zhǔn)醫(yī)學(xué)”計(jì)劃,就想利用遺傳信息來提高臨床診療有效性。但比起醫(yī)學(xué)成像的檢測方法,檢測基因突變和基因表達(dá)信息會(huì)昂貴得多。更為重要的是,基因檢測傳達(dá)的信息要隱晦得多,基因表達(dá)與癌癥的關(guān)聯(lián)還需要大量的研究,尚不能知道基因與癌癥的確切關(guān)系。所以,目前這方面的相關(guān)研究并不多。
具有有代表性的是,2017年,Yuan開發(fā)了基于深度神經(jīng)網(wǎng)絡(luò)的DeepGene,能夠分析病人的基因突變數(shù)據(jù),并鑒別其屬于什么類型的癌癥。DeepGene從基因測序數(shù)據(jù)過濾無關(guān)基因和降低數(shù)據(jù)稀疏度后,使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行以判定是哪種類型的癌癥。雖然能夠比之前的一些方法,如支持向量機(jī)(Support Vector Machine)和樸素貝葉斯(Naive Bayes)等,獲得更高的精確度,但也只有60%左右。Xiao則針對基因差異表達(dá)數(shù)據(jù),設(shè)計(jì)了結(jié)合多種機(jī)器學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò)的方法,應(yīng)用于鑒定胃癌、肺癌和乳腺癌,但精確度并不高。
AE是一種無監(jiān)督學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò),目標(biāo)在于將復(fù)雜的數(shù)據(jù)用簡單的特征來表示,包括降噪自編碼器(Denoising Autoencoder,DAE)和稀疏自編碼器(Sparse Autoencoder,SAE)等類型,同樣適用于圖片分析。其中,DAE能夠接受損壞的輸入數(shù)據(jù),并還原出其本來的信息。2016年,深圳大學(xué)和臺灣大學(xué)的聯(lián)合團(tuán)隊(duì)使用堆棧式降噪自編碼器(Stacked Denoising Autoencoder)成功識別出肺結(jié)節(jié),精確度在86.6%以上,這項(xiàng)技術(shù)還能用于分析胸部超聲圖像以檢測乳腺癌。
而SAE則給神經(jīng)網(wǎng)絡(luò)中的隱藏神經(jīng)元層加入了稀疏性的限制,使得其可以在隱藏神經(jīng)元較多的時(shí)候依然可以學(xué)習(xí)到輸入數(shù)據(jù)中的有用結(jié)構(gòu)。2016年,吳恩達(dá)跟他的合作者利用稀疏自編碼器(Sparse Autoencoder)算法,分析乳房X光圖像,能夠預(yù)測出乳腺癌的發(fā)病概率。這個(gè)方法也可以用來分辨正常組織和病變組織,但由于只是用了1000多個(gè)圖片訓(xùn)練,其準(zhǔn)確度只有不到60%。
DBN可看成一個(gè)由許多較為簡單的、無監(jiān)督學(xué)習(xí)型的神經(jīng)網(wǎng)絡(luò),如受限玻爾茲曼機(jī)(Restricted Boltzmann Machines)或自編碼器組成的網(wǎng)絡(luò)系統(tǒng),它能夠允許快速、逐層的無監(jiān)督訓(xùn)練。目前DBN在癌癥檢測上的應(yīng)用比較少,但效果也算不錯(cuò)。2016年,Azizi使用DBN,結(jié)合多參數(shù)磁共振成像(Multi-parametric Magnetic Resonance Imaging)和超聲波成像,使計(jì)算機(jī)自動(dòng)識別胰腺癌的準(zhǔn)確度達(dá)到80%。
數(shù)據(jù)質(zhì)量以及開放是AI未來發(fā)展的瓶頸
目前,大部分的人工智能的準(zhǔn)確度不如人意,且僅可應(yīng)用于部分常見疾病,這主要是可用數(shù)據(jù)不足導(dǎo)致。不難發(fā)現(xiàn),在之前提到的研究中,使用訓(xùn)練樣本越多,精確度就越高。但由于數(shù)據(jù)標(biāo)準(zhǔn)化和隱私限制等原因,數(shù)據(jù)的獲取和分享一直受阻。除了數(shù)據(jù)數(shù)量之外,數(shù)據(jù)質(zhì)量也相當(dāng)重要,尤其是醫(yī)療數(shù)據(jù),大多需要訓(xùn)練有素的專家手動(dòng)給出“標(biāo)準(zhǔn)答案”,才能提高AI的準(zhǔn)確性,但這將是一個(gè)十分消耗資源的過程。不過,就算人工智能的準(zhǔn)確性足夠令人信服,解釋它的行為將是另一件讓人頭痛的事。
人工智能應(yīng)用于醫(yī)療領(lǐng)域中的新創(chuàng)公司,圖片來自Cbinsights
深度學(xué)習(xí)算法復(fù)雜,盡管得到正確的結(jié)果,我們往往也很難理解計(jì)算機(jī)如何”思考“得出這樣的結(jié)果。然而,方法總比問題多?,F(xiàn)在,針對數(shù)據(jù)數(shù)量和質(zhì)量的不足,越來越多的公共標(biāo)準(zhǔn)數(shù)據(jù)庫建立起來,如癌癥影像集(The Cancer Imaging Archive),研究者有更多可靠的數(shù)據(jù)可供自由使用。同時(shí),研究者也可以使用無監(jiān)督學(xué)習(xí)的方法,來減少數(shù)據(jù)缺少”答案“的影像。
總的來說,深度學(xué)習(xí)技術(shù)能夠從數(shù)據(jù)中學(xué)習(xí)到豐富的信息,意味著它可完成更加復(fù)雜的任務(wù);而且我們能很方便地將這項(xiàng)技術(shù)應(yīng)用到其它地方。除了癌癥檢測外,深度學(xué)習(xí)技術(shù),尤其是CNN,還可以用來檢測其它疾病,如白內(nèi)障、骨折、腦出血等。不難想象,隨著人工智能在醫(yī)療領(lǐng)域的廣泛應(yīng)用,醫(yī)生的工作量將會(huì)大大減少,且診療準(zhǔn)確率也將會(huì)得到提升。它們能夠在圖片上找到我們?nèi)庋垭y以發(fā)現(xiàn)的異常。
來源:億歐



