醫(yī)療領(lǐng)域是一個(gè)典型的富文本富知識(shí)領(lǐng)域,存在大量專業(yè)術(shù)語(yǔ)和知識(shí)以及海量醫(yī)療文本數(shù)據(jù),包括電子病歷、醫(yī)學(xué)教材、臨床指南和醫(yī)學(xué)文獻(xiàn)等。醫(yī)療AI的核心是讓機(jī)器訓(xùn)練成一個(gè)合格的醫(yī)生,能夠閱讀并理解醫(yī)療文本,具有醫(yī)療專業(yè)知識(shí),并能做出正確的醫(yī)療決策。
近日,云知聲-中科院自動(dòng)化所語(yǔ)言與知識(shí)計(jì)算聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)(Unisound&CASIA)取得關(guān)鍵技術(shù)突破,自主研發(fā)了基于高效持續(xù)學(xué)習(xí)的醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型,并針對(duì)多項(xiàng)下游任務(wù)微調(diào)。這一方法在CBLUE2.0月度榜單中綜合得分排名第一(1/1009),體現(xiàn)了團(tuán)隊(duì)在醫(yī)療AI行業(yè)的技術(shù)領(lǐng)先性。
中文醫(yī)療信息處理榜CBLUE2.0榜單排名
CBLUE:首個(gè)中文醫(yī)療信息領(lǐng)域公開(kāi)評(píng)測(cè)基準(zhǔn)
中文醫(yī)療信息處理挑戰(zhàn)榜CBLUE(Chinese Biomedical Language Understanding Evaluation) 是由中國(guó)中文信息學(xué)會(huì)醫(yī)療健康與生物信息處理專業(yè)委員會(huì)在合法開(kāi)放共享的理念下發(fā)起,旨在推動(dòng)中文醫(yī)學(xué)NLP技術(shù)和社區(qū)的發(fā)展。該榜單在設(shè)計(jì)上綜合考慮了任務(wù)類型和任務(wù)難度兩個(gè)維度,目標(biāo)是建設(shè)一個(gè)任務(wù)類型覆蓋廣、同時(shí)也要保證任務(wù)的難度的benchmark,因此榜單在吸收往屆CHIP/CCKS/CCL等學(xué)術(shù)評(píng)測(cè)任務(wù)的同時(shí)也適當(dāng)增加了業(yè)界數(shù)據(jù)集,業(yè)務(wù)數(shù)據(jù)集的特點(diǎn)是數(shù)據(jù)真實(shí)且有噪音,對(duì)模型的魯棒性提出了更高的要求。CBLUE評(píng)測(cè)基準(zhǔn)2.0任務(wù)形式多樣,涵蓋了醫(yī)學(xué)信息抽取(實(shí)體抽取,關(guān)系抽取,事件抽取)、醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)化(疾病和手術(shù)自動(dòng)ICD編碼)、醫(yī)學(xué)文本分類、醫(yī)學(xué)句子關(guān)系判定和醫(yī)學(xué)對(duì)話理解與生成共5大類任務(wù)15個(gè)子任務(wù);其數(shù)據(jù)來(lái)源分布廣泛,包括醫(yī)學(xué)術(shù)語(yǔ)、醫(yī)學(xué)教材、電子病歷、臨床試驗(yàn)征集文本以及互聯(lián)網(wǎng)輕問(wèn)診文本等。該榜單推出后受到了學(xué)界和業(yè)界的廣泛關(guān)注,自2021年4月正式上線以來(lái),共吸引包括百度醫(yī)療等超300支隊(duì)伍參與打榜,已逐漸發(fā)展成為檢驗(yàn)中文醫(yī)療信息處理能力的“金標(biāo)準(zhǔn)”。
云知聲醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型CirBERTa
云知聲-中科院自動(dòng)化所語(yǔ)言與知識(shí)計(jì)算聯(lián)合實(shí)驗(yàn)團(tuán)隊(duì)在醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型技術(shù)上取得突破性進(jìn)展,在CBLUE2.0榜單上登頂榜首。模型在5個(gè)單項(xiàng)任務(wù)(CHIP-CTC、CHIP-STS、KUAKE-QIC、MedDG、CHIP-MDCFNPC)排名第一,10個(gè)單項(xiàng)排名前三,取得了綜合分74.700的佳績(jī)。
成功登頂背后的關(guān)鍵技術(shù)是聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)研發(fā)的醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型CirBERTa。首先,基于團(tuán)隊(duì)在醫(yī)療知識(shí)圖譜和醫(yī)療文本理解方面多年的積累,利用預(yù)訓(xùn)練語(yǔ)言模型領(lǐng)域增強(qiáng)和知識(shí)增強(qiáng)技術(shù),學(xué)習(xí)了 100 多萬(wàn)的醫(yī)學(xué)專業(yè)術(shù)語(yǔ)和 超過(guò)200G的醫(yī)療文本數(shù)據(jù),大幅提升了對(duì)醫(yī)療文本的理解和生成能力。其次,現(xiàn)有預(yù)訓(xùn)練語(yǔ)言模型方法注重建模通用語(yǔ)義理解能力,不能有效區(qū)分不同難易程度的樣本,導(dǎo)致困難樣本的處理能力較弱。針對(duì)這一問(wèn)題,CirBERTa在DeBERTa-V3模型的基礎(chǔ)上,融入了持續(xù)學(xué)習(xí)的理念。一方面,自動(dòng)識(shí)別和檢測(cè)當(dāng)前模型中難以理解的語(yǔ)義內(nèi)容(如字詞、句子等);另一方面,通過(guò)增量訓(xùn)練讓模型更好地理解和記憶這些語(yǔ)義內(nèi)容。兩方面持續(xù)迭代學(xué)習(xí),增強(qiáng)了模型的語(yǔ)義表達(dá)能力和對(duì)困難數(shù)據(jù)的學(xué)習(xí)能力,無(wú)論是在通用領(lǐng)域還是在醫(yī)療等低資源領(lǐng)域,CirBERTa都顯著地改善了模型的訓(xùn)練效率與深層次語(yǔ)義分析能力,達(dá)到了SOTA效果。
CirBERTa模型示意圖
在此之前,云知聲已成功將醫(yī)療領(lǐng)域NLP技術(shù)在多個(gè)項(xiàng)目中落地,并在多項(xiàng)評(píng)測(cè)比賽中取得冠亞軍,此次登頂有效驗(yàn)證了云知聲在醫(yī)療NLP技術(shù)方面的先進(jìn)性與全面性。目前,預(yù)訓(xùn)練語(yǔ)言模型CirBERTa已經(jīng)全面應(yīng)用于云知聲智慧醫(yī)療的多個(gè)產(chǎn)品線,包括病歷質(zhì)控系統(tǒng)、單病種質(zhì)量管理平臺(tái)、導(dǎo)診預(yù)診機(jī)器人、醫(yī)保審核系統(tǒng)等。未來(lái),云知聲還將持續(xù)推動(dòng)自然語(yǔ)言處理及知識(shí)圖譜等技術(shù)在醫(yī)療領(lǐng)域的技術(shù)創(chuàng)新,用科技的力量提升打造虛擬醫(yī)生,提供智慧醫(yī)療服務(wù),建設(shè)智慧型醫(yī)院。
(可以加上以前評(píng)測(cè)獲獎(jiǎng)?lì)惖腜R文章鏈接)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )