AI 行業(yè)落地一直是業(yè)界的一個(gè)難題,華為云在探索AI落地之道的過程中發(fā)現(xiàn),各個(gè)行業(yè)都有各種形態(tài)的知識(shí),這些知識(shí)存在于不同的媒介,比如各種專業(yè)書籍記錄的學(xué)科行業(yè)知識(shí),百科網(wǎng)站上的基本常識(shí)等。其中,許多行業(yè)知識(shí)是行業(yè)專家經(jīng)驗(yàn)的沉淀,甚至是只存在于老專家腦海里的不傳之秘。這些知識(shí)代表了行業(yè)智慧,同時(shí)也是實(shí)現(xiàn)行業(yè)AI落地的關(guān)鍵。
基于在各個(gè)行業(yè)的成功實(shí)踐,2020年華為云發(fā)布了業(yè)界首個(gè)全生命周期知識(shí)計(jì)算解決方案,提供從知識(shí)獲取、建模、管理到應(yīng)用的全套決方案,賦能行業(yè)用戶去構(gòu)建屬于企業(yè)自己的知識(shí)計(jì)算平臺(tái)。
7月22日,華為云TechWave人工智能專題日舉辦,華為云自然語(yǔ)言處理專家在會(huì)上分享了從知識(shí)獲取到應(yīng)用的整個(gè)流程中,包含的知識(shí)計(jì)算幾個(gè)關(guān)鍵技術(shù):知識(shí)獲取、知識(shí)建模、知識(shí)應(yīng)用。
關(guān)鍵技術(shù)一:知識(shí)獲取
知識(shí)計(jì)算首先要獲取知識(shí),知識(shí)獲取的一個(gè)核心技術(shù)是信息抽取。信息抽取涵蓋范圍廣泛,比如實(shí)體抽取是從文本中抽取類似人名、地名等實(shí)體詞或者詞組。如果要構(gòu)建知識(shí)圖譜,就需要抽取更復(fù)雜的由主語(yǔ)、謂詞、賓語(yǔ)構(gòu)成的三元組。比如從《朝花夕拾》是文學(xué)家魯迅的散文集,1928年由北京未名社出版。從這個(gè)句子中可以抽取“朝花夕拾”、“出版社”、 “未名社”這個(gè)三元組,而每個(gè)三元組都代表了一個(gè)客觀事實(shí),比如這個(gè)三元組表達(dá)的就是朝花夕拾的出版社是未名社。針對(duì)這類三元組的抽取,華為云研發(fā)了基于閱讀理解框架和級(jí)聯(lián)思想的信息抽取算法,可以用一個(gè)框架統(tǒng)一建模實(shí)體的抽取和關(guān)系的抽取,效果相比傳統(tǒng)方法有顯著提升。
實(shí)際落地過程中,往往還存在標(biāo)注人力成本高,標(biāo)注數(shù)據(jù)不足的情況。針對(duì)這種情況,華為云還發(fā)展了一系列小樣本信息抽取方法,可以有效降低對(duì)標(biāo)注數(shù)據(jù)的依賴。比如基于meta-learning的三元組抽取方法,在部分場(chǎng)景中,在保證準(zhǔn)確率基本持平的情況下,標(biāo)注數(shù)據(jù)量可以從兩千條左右下降到幾十到百條。這樣就降低了知識(shí)獲取的難度,同時(shí)也就降低了用戶使用的門檻。
除了信息抽取外,知識(shí)獲取還有一個(gè)很重要的步驟是實(shí)體鏈接,因?yàn)閺奈谋境槿〉降男畔⑼怯衅缌x的,需要把信息鏈接到知識(shí)圖譜中正確的實(shí)體上。比如,李娜在澳洲公開賽打敗了齊布爾科娃,這句話中有三個(gè)實(shí)體,李娜、澳大利亞公開賽、齊布爾科娃,這些實(shí)體在知識(shí)庫(kù)都有不止一個(gè)候選實(shí)體,因?yàn)榻欣钅冗@個(gè)名字的人很多,到底哪一個(gè)才是這個(gè)句子里說的李娜呢?
針對(duì)這種短文本中的實(shí)體鏈接問題,華為云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多輪多項(xiàng)選擇的閱讀理解框架?;谠摽蚣埽芎芎玫赝瓿蓪?shí)體鏈接任務(wù),準(zhǔn)確率相對(duì)傳統(tǒng)方法提升了大約5個(gè)百分點(diǎn)。華為云提出的M3框架相關(guān)論文,發(fā)表在人工智能國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2021上。
關(guān)鍵技術(shù)二:知識(shí)建模
完成知識(shí)獲取以后,還需要對(duì)知識(shí)建模。知識(shí)建模中,知識(shí)融合/實(shí)體融合是一個(gè)非常關(guān)鍵的步驟。因?yàn)榻^大多數(shù)的知識(shí)圖譜都是為特定的目的構(gòu)造的,這會(huì)導(dǎo)致即使是相同的概念,在不同的知識(shí)圖譜中也會(huì)有不同的描述;同時(shí)相同的描述也有可能代表不同的概念。比如,在一個(gè)圖譜中蘋果是一種水果,在另外一個(gè)圖譜中,蘋果卻是一家公司。針對(duì)知識(shí)融合問題,華為云研發(fā)了多種算法和解決方案,其中包括在多模態(tài)知識(shí)圖譜實(shí)體融合方面的原創(chuàng)工作。
針對(duì)多模態(tài)知識(shí)圖譜的實(shí)體對(duì)齊問題,華為云提出了一種多模態(tài)知識(shí)嵌入方法,生成三種模態(tài)知識(shí)的表示;然后設(shè)計(jì)了一種多模態(tài)知識(shí)融合方法,以融合三種模態(tài)的知識(shí)表示。最后采用了交互訓(xùn)練的方式,端到端的優(yōu)化華為云提出的MMEA模型。華為云提出的這個(gè)模型也發(fā)表在了去年知識(shí)工程的國(guó)際學(xué)術(shù)會(huì)議KSEM上,并獲得唯一的最佳論文獎(jiǎng)。
在多模態(tài)知識(shí)嵌入模塊中,華為云提取關(guān)系、視覺、數(shù)值信息,分別對(duì)不同模態(tài)的知識(shí)做嵌入表征,去補(bǔ)充實(shí)體的有效特征。
多模態(tài)知識(shí)融合模塊的作用則是集成多模態(tài)的知識(shí)表示。在多模態(tài)知識(shí)融合模塊里,華為云將多模態(tài)知識(shí)嵌入從各自分離的空間中遷移到一個(gè)統(tǒng)一的空間里。統(tǒng)一空間的學(xué)習(xí)使得多模態(tài)的特征能夠互相受益,利用多模態(tài)的互補(bǔ)性,提升了實(shí)體對(duì)齊任務(wù)的準(zhǔn)確率。
關(guān)鍵技術(shù)三:知識(shí)應(yīng)用
完成知識(shí)建模以后,可以做多種應(yīng)用,比如事理圖譜。什么是事理圖譜呢?知識(shí)圖譜是以實(shí)體為核心的,主要建模的是實(shí)體之間的關(guān)系,通過三元組來表達(dá)一些客觀事實(shí)。事理圖譜則是以事件為核心,主要建模的是事件之間的因果、順承等關(guān)系。
另外一個(gè)應(yīng)用是將知識(shí)融入到預(yù)訓(xùn)練模型中。預(yù)訓(xùn)練模型是近兩年最熱門的技術(shù)之一,比如BERT、GPT3、華為云盤古大模型等。這些預(yù)訓(xùn)練模型的一個(gè)共同特征是利用大規(guī)模的無標(biāo)注的文本數(shù)據(jù),通過自監(jiān)督的方式訓(xùn)練一個(gè)模型,從而使得這些模型里面蘊(yùn)含了重要的先驗(yàn)信息或者說知識(shí)。但是大模型使用的語(yǔ)料都是通用領(lǐng)域的,沒有行業(yè)屬性,模型設(shè)計(jì)與訓(xùn)練也沒有顯式融入行業(yè)知識(shí)。針對(duì)這種情況,華為云提出了一個(gè)可以融合醫(yī)療領(lǐng)域知識(shí)的預(yù)訓(xùn)練模型,BERT-MK,該模型可以顯式地將建模好的醫(yī)療行業(yè)知識(shí),比如醫(yī)療行業(yè)的知識(shí)圖譜,融入到預(yù)訓(xùn)練模型中。融入了行業(yè)之后,在醫(yī)療相關(guān)的下游任務(wù)上,該模型都表現(xiàn)出了比通用模型更好的效果。
有了融入了醫(yī)療知識(shí)的預(yù)訓(xùn)練模型,可以進(jìn)一步把它應(yīng)用到醫(yī)療領(lǐng)域,比如醫(yī)療信息抽取?;谶@些融入了醫(yī)療行業(yè)知識(shí)的預(yù)訓(xùn)練模型,華為云自研了CHIEF醫(yī)療信息抽取框架?;谠摽蚣?,華為云從相關(guān)醫(yī)療文獻(xiàn)里面,構(gòu)建了一個(gè)醫(yī)學(xué)領(lǐng)域知識(shí)圖譜,即從跟新冠肺炎相關(guān)文獻(xiàn)中構(gòu)建了一個(gè)包含新冠肺炎相關(guān)的病毒、蛋白、藥物的知識(shí)圖譜。
華為云知識(shí)計(jì)算解決方案從解決企業(yè)痛點(diǎn)、提升企業(yè)效率、提供知識(shí)化服務(wù)的角度全面賦能企業(yè),讓各行業(yè)的企業(yè)通過應(yīng)用知識(shí),釋放知識(shí)化帶來的紅利,全面提升企業(yè)在智能化時(shí)代的競(jìng)爭(zhēng)力。
- 何小鵬回應(yīng)特斯拉煥新 Model Y“撞臉小鵬” :好的設(shè)計(jì)總是心有靈犀
- 余承東評(píng)價(jià)特斯拉煥新 Model Y:智界R7仍然保持領(lǐng)先優(yōu)勢(shì)
- 文遠(yuǎn)知行自動(dòng)駕駛小巴在瑞士蘇黎世機(jī)場(chǎng)啟動(dòng)測(cè)試運(yùn)營(yíng)
- 《原始征途》正式版今日上線 首次推出小程序版本
- 魏建軍親自掛帥 長(zhǎng)城汽車將打造超豪車品牌:售價(jià)或超百萬
- 特斯拉煥新 Model Y發(fā)布!宣傳文案稱“盡管對(duì)比” 雷軍回復(fù)了兩個(gè)字
- 美光斥資70億美元在新加坡增建先進(jìn)封裝廠 預(yù)計(jì)明年竣工投運(yùn)
- TikTok可能被禁之際 美國(guó)網(wǎng)紅們推廣字節(jié)“小黃書”
- 李佳琦直播間年貨節(jié)專場(chǎng)直播開啟:首次開設(shè)寵物、潮玩&IP專場(chǎng)
- WiFi萬能鑰匙:與江蘇衛(wèi)視與達(dá)成深度合作
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。