在醫(yī)療AI領(lǐng)域,全球發(fā)布的隨機(jī)對(duì)照臨床試驗(yàn)(RCT)目前有且僅有5個(gè),這其中的第一個(gè),也是規(guī)模最大的一個(gè),是來自四川省人民醫(yī)院和哈佛醫(yī)學(xué)院于2019年2月發(fā)表在國際前沿期刊《GUT》【IF=17.06】上的一篇關(guān)于中國內(nèi)窺鏡影像輔助診斷企業(yè)Wision A.I.的計(jì)算機(jī)輔助結(jié)腸鏡檢出息肉和腺瘤的隨機(jī)對(duì)照研究論文【1】。作為醫(yī)療AI全領(lǐng)域的第一個(gè)隨機(jī)對(duì)照試驗(yàn),該論文獲得了《GUT》期刊優(yōu)秀論文第三名、全網(wǎng)論文發(fā)布排行榜Top1%的史上最佳以及Top1%的本刊最佳和Top1%同期最佳的殊榮。
時(shí)隔一年,Wision A.I.又為醫(yī)療AI領(lǐng)域創(chuàng)下了另一個(gè)NO.1。2020年1月在《柳葉刀》消化子刊【IF=12.26】上刊出了四川省人民醫(yī)院和哈佛醫(yī)學(xué)院的關(guān)于Wision A.I.腸道癌前病變檢測(cè)產(chǎn)品EndoScreener的雙盲隨機(jī)對(duì)照試驗(yàn)【2】,這成為了醫(yī)療AI界的全球首個(gè)雙盲RCT,在業(yè)界引發(fā)強(qiáng)烈反響。
美國醫(yī)學(xué)院院士、著名“世紀(jì)醫(yī)生”Eric Topol博士在其個(gè)人Twitter上轉(zhuǎn)發(fā)《柳葉刀》該篇論文,宣布這是全球醫(yī)療AI領(lǐng)域的第一個(gè)雙盲隨機(jī)對(duì)照試驗(yàn),不是來自放射、病理、皮膚科或眼科,而是來自消化內(nèi)鏡領(lǐng)域。這也是第一個(gè)經(jīng)受住了雙盲隨機(jī)對(duì)照考驗(yàn)的AI技術(shù)。
Eric Topol博士2月5日在個(gè)人Twitter上的發(fā)文
Wision A.I.成功使用雙盲RCT來測(cè)試AI系統(tǒng),這無疑是臨床驗(yàn)證級(jí)別的又一個(gè)巨大提升,并為全球其他AI輔助診斷領(lǐng)域的臨床驗(yàn)證方法提供了雙盲設(shè)計(jì)的參考。此前,AI技術(shù)首次被納入歐洲消化內(nèi)鏡臨床指南作為初步推薦時(shí),其主要依據(jù)也是Wision A.I.進(jìn)行的臨床試驗(yàn)。
醫(yī)療AI雙盲試驗(yàn)的臨床價(jià)值
雙盲——Double Blind,顧名思義是要將研究對(duì)象和研究者都“盲掉(Blind)”,讓雙方都不了解試驗(yàn)的分組情況,而由研究設(shè)計(jì)者來安排和控制全部試驗(yàn)。這種實(shí)驗(yàn)設(shè)計(jì)能夠消除可能出現(xiàn)在實(shí)驗(yàn)者和參與者意識(shí)當(dāng)中的主觀偏差和個(gè)人偏好。雙盲試驗(yàn)屬于最高科學(xué)標(biāo)準(zhǔn)的試驗(yàn)之一,在臨床新藥研發(fā)中應(yīng)用非常廣泛,但是醫(yī)療AI領(lǐng)域卻一直由于雙盲設(shè)計(jì)困難等諸多原因缺乏雙盲RCT。
在醫(yī)療AI的臨床試驗(yàn)上,大多數(shù)研究都是將AI對(duì)于醫(yī)生診斷出的疾病的識(shí)別率等數(shù)據(jù)作為AI性能的臨床證據(jù)。但這種研究的結(jié)果嚴(yán)謹(jǐn)?shù)貋碚f,只能證明AI輔助診斷系統(tǒng)(CAD)能夠自主檢出相關(guān)疾病,對(duì)于該系統(tǒng)對(duì)醫(yī)生實(shí)際的幫助和影響并未進(jìn)行嚴(yán)格的科學(xué)論證,以至于醫(yī)生是否受益于CAD也有待商榷,所以業(yè)界曾有媒體詬病美國FDA在批準(zhǔn)AI產(chǎn)品時(shí)不夠慎重【3】。
最直觀的表現(xiàn)在于,當(dāng)內(nèi)鏡醫(yī)師知曉有AI輔助參與醫(yī)學(xué)診斷時(shí),可能出現(xiàn)因競爭精神而更專注,或因依賴AI系統(tǒng)而放松等非正常診斷時(shí)的狀態(tài),這部分變量存在的可能性也就導(dǎo)致了非盲法臨床試驗(yàn)并非最嚴(yán)謹(jǐn)?shù)尿?yàn)證方法。
如何摒除參與者(醫(yī)生)意識(shí)當(dāng)中的主觀偏差和個(gè)人偏好呢?參照新藥研發(fā)中臨床雙盲試驗(yàn)的安慰劑對(duì)照組,Wision A.I.與國內(nèi)外的專家一起設(shè)計(jì)了一套“盲法”來測(cè)試AI輔助診斷系統(tǒng)的效用。
如何設(shè)計(jì)醫(yī)療AI的雙盲試驗(yàn)?“偽裝AI系統(tǒng)”+“引入第二觀察者”雙管齊下
要進(jìn)行醫(yī)療AI的雙盲實(shí)驗(yàn),其關(guān)鍵在于如何成功地把AI輔助的醫(yī)生“盲掉(Blind)”?這是Wision A.I.對(duì)醫(yī)學(xué)AI界的一個(gè)貢獻(xiàn)——該公司設(shè)計(jì)了一套有偽裝AI系統(tǒng)參與的雙盲試驗(yàn)方法,這套方法亦可以推廣到全醫(yī)學(xué)領(lǐng)域的輔助診斷軟件CADe或者CADx軟件中。
讓醫(yī)生進(jìn)行臨床診斷時(shí)不清楚自己是否有AI輔助,這是雙盲試驗(yàn)的一個(gè)核心。既不能讓醫(yī)生猜測(cè)到使用的系統(tǒng)是什么,也不能讓醫(yī)生的心態(tài)受AI系統(tǒng)參與的影響。這在全球范圍內(nèi)沒有先例可以參考,四川省人民醫(yī)院和哈佛醫(yī)學(xué)院的數(shù)位專家經(jīng)過長時(shí)間的討論,最終確定了Wision A.I.腸道癌前病變檢測(cè)產(chǎn)品EndoScreener的雙盲測(cè)試雛形。
動(dòng)脈網(wǎng)采訪了Wision A.I.的創(chuàng)始人劉敬家,嘗試從他的口中還原雙盲試驗(yàn)設(shè)計(jì)的始末?!啊しā囼?yàn)的核心在于:
其一,引入偽裝的AI系統(tǒng),與真AI系統(tǒng)一并隨機(jī)化提供給受試者;
其二,設(shè)置忠于系統(tǒng)的中間人角色(第二觀察者),按照試驗(yàn)原則,把真AI或偽AI的實(shí)時(shí)識(shí)別結(jié)果通過激光筆或提前設(shè)計(jì)的語法提示給操作醫(yī)師?!眲⒕醇蚁蛴浾呓榻B道。
與非雙盲RCT相比,Wision A.I.的雙盲試驗(yàn)加入了兩個(gè)核心要素“偽裝的AI系統(tǒng)”和“第二觀察者”,如何理解?
Wision A.I.在臨床實(shí)驗(yàn)開始之前,就設(shè)計(jì)了一套偽裝的AI系統(tǒng),該系統(tǒng)不會(huì)提示真實(shí)的癌前病變,并且保證和真的AI系統(tǒng)擁有相同超低的誤報(bào)率,以此來防止內(nèi)鏡醫(yī)師主觀判別出真假系統(tǒng)。
在四川省人民醫(yī)院草堂分院的內(nèi)鏡中心,Wision A.I.招募了1046名年齡在18歲至75歲之間的病人進(jìn)行結(jié)腸鏡診斷和篩查,并在排除患有炎癥性腸病、結(jié)直腸癌、結(jié)直腸手術(shù)史或有活檢禁忌等無效樣本的病人后,將剩余的有效樣本隨機(jī)分為兩組,最終真AI系統(tǒng)組有484例病人、偽AI系統(tǒng)組有478例病人納入分析。
真AI系統(tǒng)組與偽AI系統(tǒng)組的病人不知道自己所處的分配組別,四名高級(jí)內(nèi)鏡醫(yī)師在對(duì)這些患者樣本進(jìn)行常規(guī)的白光結(jié)腸鏡檢查時(shí),如果宣布找到了息肉,那么真AI系統(tǒng)與偽AI系統(tǒng)都會(huì)沉默;但如果內(nèi)鏡醫(yī)師視野范圍內(nèi)出現(xiàn)了息肉,并且在息肉將要移出視野范圍時(shí)還未宣布發(fā)現(xiàn)此息肉,那么真AI系統(tǒng)就會(huì)發(fā)出提示,偽AI系統(tǒng)保持沉默。
這里值得一提的是,為了防止內(nèi)鏡醫(yī)師直接使用真/偽AI系統(tǒng)從而觀察出AI系統(tǒng)的不同,Wision A.I.引入了第二觀察者的角色。第二觀察者最直接的作用是能夠在專門的顯示屏上看到真AI系統(tǒng)或偽AI系統(tǒng)的每一次輸出結(jié)果(內(nèi)鏡醫(yī)師不可見),并將其傳達(dá)給內(nèi)鏡醫(yī)師;當(dāng)內(nèi)鏡醫(yī)師即將遠(yuǎn)離有系統(tǒng)提示的區(qū)域的視野范圍時(shí),第二觀察者會(huì)使用激光筆提示內(nèi)鏡醫(yī)師系統(tǒng)檢測(cè)到的區(qū)域以便其觀察。
保證近似且一定低頻的誤報(bào)率,能夠讓醫(yī)生在得到第二觀察者激光筆提示后,無法區(qū)分出提示系統(tǒng)的真?zhèn)?,獲得提示的醫(yī)生會(huì)再次觀測(cè)被提示區(qū)域,如果該區(qū)域醫(yī)生觀察后發(fā)現(xiàn)依舊沒有息肉則繼續(xù)退鏡,如果醫(yī)生觀測(cè)后發(fā)現(xiàn)了息肉則計(jì)入統(tǒng)計(jì)。
這里值得一提的是,如何保證偽AI系統(tǒng)輸出的每一個(gè)結(jié)果都不是真實(shí)的癌前病變?這其實(shí)也是系統(tǒng)設(shè)計(jì)的一大難點(diǎn),劉敬家介紹了Wision A.I.創(chuàng)新的一種雙模型強(qiáng)弱相減的方法,就保證偽AI系統(tǒng)只會(huì)對(duì)息肉樣非息肉結(jié)構(gòu)(例如氣泡、糞便、未消化的殘?jiān)桶櫩s的黏膜)提示。
“簡單的理解,就是偽AI系統(tǒng)輸出的結(jié)果的概率是將真AI系統(tǒng)識(shí)別的概率圖與一個(gè)事先研發(fā)的弱AI系統(tǒng)(敏感度特異度都遠(yuǎn)低于真AI系統(tǒng))的概率圖相減而來,同時(shí)通過調(diào)整閾值保證了偽AI系統(tǒng)的特異度更接近真AI系統(tǒng)。”劉敬家解釋道。
AI輔助結(jié)腸鏡檢查雙盲試驗(yàn)結(jié)果:腺瘤檢出率(ADR)和息肉檢出率(PDR)顯著提升
在結(jié)腸鏡檢查中,發(fā)現(xiàn)和切除腺瘤性息肉是降低結(jié)直腸癌發(fā)病率和死亡率的最有效方法,而結(jié)直腸癌是導(dǎo)致死亡的主要癌癥之一。根據(jù)《新英格蘭醫(yī)學(xué)期刊》中相關(guān)論文顯示,每提升1%的腺瘤檢出率(ADR),就會(huì)降低3%的間期結(jié)直腸癌患病風(fēng)險(xiǎn)【4】。
ADR的提升能夠有效預(yù)防結(jié)直腸癌,這也成為了結(jié)腸鏡檢查的主要質(zhì)量標(biāo)準(zhǔn)。高ADR的內(nèi)鏡醫(yī)師更能幫助患者,人們也通過嘗試改進(jìn)內(nèi)鏡硬件技術(shù)、腸道準(zhǔn)備方法和觀察方法以此來提升提高結(jié)腸鏡檢查中的ADR值。
然而,由于各種原因,即使在美國、日本等發(fā)達(dá)國家,目前臨床上仍有多達(dá)27%的腺瘤性息肉被漏診。
在Wision A.I.此次進(jìn)行的雙盲隨機(jī)對(duì)照試驗(yàn)中,結(jié)果顯示在腸道癌前病變檢測(cè)產(chǎn)品EndoScreener的幫助下,真AI系統(tǒng)組的ADR明顯高于偽AI系統(tǒng)組:在CAD系統(tǒng)實(shí)驗(yàn)組(真AI系統(tǒng)組)的484例病人中,有165例病人(34%)檢測(cè)到有一個(gè)或多個(gè)腺瘤;而在使用假提示系統(tǒng)對(duì)照組(偽AI系統(tǒng)組)的478例病人中,有132例病人(28%)檢測(cè)到有一個(gè)或多個(gè)腺瘤。
Wision A.I.雙盲RCT試驗(yàn)檢測(cè)結(jié)果
在息肉檢出率(PDR)方面,CAD系統(tǒng)實(shí)驗(yàn)組的PDR明顯高于假提示系統(tǒng)對(duì)照組,在假提示系統(tǒng)對(duì)照組的478名病人中,有176名(占37%)檢測(cè)出了息肉;在CAD系統(tǒng)實(shí)驗(yàn)組的484名病人中,有252名(占52%)檢測(cè)出了息肉。
在結(jié)腸鏡檢查中,假提示系統(tǒng)對(duì)照組平均每次發(fā)現(xiàn)0.38個(gè)腺瘤、0.64個(gè)息肉,CAD系統(tǒng)實(shí)驗(yàn)組平均每次發(fā)現(xiàn)0.58個(gè)和1.04個(gè)息肉,無論從ADR值還是從PDR值上看,Wision A.I.的腸道癌前病變檢測(cè)產(chǎn)品EndoScreener參與的結(jié)腸鏡檢查能夠顯著提升內(nèi)鏡醫(yī)生的檢出率。
試驗(yàn)數(shù)據(jù)結(jié)果中還有值得提示的一點(diǎn),在真AI系統(tǒng)輔助下有159個(gè)病例被內(nèi)鏡醫(yī)生漏掉,而這部分病例通過讓經(jīng)驗(yàn)豐富的內(nèi)鏡醫(yī)生(未參與臨床試驗(yàn))再次回顧性測(cè)試后,發(fā)現(xiàn)醫(yī)生們的敏感度和特異度依舊不高,表明容易漏掉息肉的問題不能簡單地由額外的人類觀察者來解決,這也證明了在實(shí)際的臨床環(huán)境中CAD系統(tǒng)可能在輔助內(nèi)鏡醫(yī)師方面發(fā)揮更好的作用。
真實(shí)嚴(yán)謹(jǐn)?shù)呐R床實(shí)驗(yàn),是支持相關(guān)AI產(chǎn)品落地的第一步。Wision A.I.始終堅(jiān)持臨床循證醫(yī)學(xué)的路線,此次試驗(yàn)所用的EndoScreener系統(tǒng)已經(jīng)經(jīng)受了數(shù)個(gè)臨床試驗(yàn)的檢驗(yàn),但該系統(tǒng)訓(xùn)練樣本僅僅是5000多張的內(nèi)鏡圖片,其中約一半是陰性樣本【5】,在目前醫(yī)學(xué)圖像識(shí)別領(lǐng)域里,高成本數(shù)據(jù)獲取、復(fù)雜數(shù)據(jù)標(biāo)注的背景下,小樣本量深度學(xué)習(xí)的優(yōu)勢(shì)愈加明顯。
參考資料:
【1】Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut. 2019; 68:1813-1819
【2】Wang P, Liu X, Berzin TM et al. Effect of a deep-learning computer-aided detection system on adenoma detection during colonoscopy (CADe-DB trial): a double-blind randomised study.Lancet Gastroenterol Hepatol. 2020 Jan 22. pii: S2468-1253(19)30411-X. doi: 10.1016/S2468-1253(19)30411-X. [Epub ahead of print]
【3】https://khn.org/news/a-reality-check-on-artificial-intelligence-are-h(huán)ealth-care-claims-overblown/
【4】Corley D A, Jensen C D, Marks A R, et al. Adenoma detection rate and risk of colorectal cancer and death. N Engl J Med 2014; 370:1298–1306
【5】Wang P, Xiao X, Glissen Brown JR, et al. Development and validation of a deep-learning algorithm for the detection of polyps during colonoscopy. Nature Biomedical Engineering 2018;(2):741–748
作者:王嬋
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )