知識圖譜是機器認知世界的基礎,是AI進步的階梯。9月15日,百度世界2020大會以線上直播的形式召開,會上驚喜亮相的具有認知能力的虛擬人,一度引發(fā)眾多開發(fā)者、媒體的熱議,而這背后離不開百度AI“知識”的賦能。主論壇上,百度CTO王海峰在致辭中提到:“百度構建了世界上最大規(guī)模的知識圖譜,擁有超過50億實體,5500億事實,能夠通過語言、聽覺、視覺等獲得對世界的統(tǒng)一認知,突破了實際應用中場景復雜多變、數(shù)據(jù)稀缺等難題?!?/p>
(百度知識圖譜部、大數(shù)據(jù)部高級總監(jiān)朱勇)
在當天下午的百度大腦分論壇上,百度知識圖譜部、大數(shù)據(jù)部高級總監(jiān)朱勇也從技術層面詳細介紹了百度知識圖譜的最新進展:全新升級了多模態(tài)語義理解技術,可以支撐更加復雜的應用場景;百度知識中臺提供的一站式解決方案,可助力企業(yè)提升運行效率和決策智能化水平。目前,百度知識圖譜技術產(chǎn)品已覆蓋100多個行業(yè)場景,每天的調(diào)用次數(shù)超過400億次,在包括醫(yī)療、金融、能源等多個行業(yè)領域廣泛落地。再一次全方位展現(xiàn)了百度大腦在知識圖譜技術領域的領先地位。
世界規(guī)模最大的知識圖譜再度全面升級
百度構建了世界上最大規(guī)模的知識圖譜,除了基礎的由實體、屬性、關系構成的通用圖譜之外,百度還針對不同的應用場景和知識形態(tài),構建了事件圖譜、多媒體圖譜、行業(yè)知識圖譜等多種圖譜。
具體而言,在通用圖譜方面提出了基于深度自注意力機制的知識表示框架,通過深度自注意力網(wǎng)絡對知識圖譜中的實體和關系進行連續(xù)向量表示,在此基礎上,進一步引入預訓練語言模型助力結構化知識表示,二元關系推理能力全面超越現(xiàn)有方法,語言學知識圖譜上提升尤為顯著。此外,利用多元關系異構圖表示,實現(xiàn)了簡單知識表示到復雜知識表示的躍遷,多元關系推理效果大幅提升,關鍵指標平均提升10%+。
在關系抽取技術上,提出了基于文本圖譜聯(lián)合預訓練的關系抽取,通過聯(lián)合文本語境與圖譜路徑,共同推斷實體間的語義關系,從而大幅提升關系抽取效果。目前,關系抽取在公開數(shù)據(jù)集上達到了業(yè)界最好的效果。
在事件圖譜方面,百度已經(jīng)形成了事件檢測、事件表示、事件抽取、事件關系挖掘等核心能力,可實現(xiàn)分鐘級檢測熱點、構建了包含4000多種事件類型、千萬量級的事件庫,并發(fā)布了業(yè)界規(guī)模最大的中文事件抽取數(shù)據(jù)集DuEE,助力業(yè)界事件抽取技術的發(fā)展。百度還研發(fā)了事理圖譜,包括事件抽象、事理表示、事理挖掘為核心的關鍵技術,形成了數(shù)十萬事理節(jié)點、160多萬的事理關系。在真實的應用場景中,實現(xiàn)了從具體事件到抽象事件的知識的跨越。
除此之外,還全新升級了多模態(tài)語義理解技術,可以支撐更加復雜的應用場景。同時,通過多模態(tài)預訓練技術和跨模態(tài)語義對齊與計算技術,實現(xiàn)了視頻語義理解的跨領域知識遷移,在真實的行業(yè)視頻搜索的場景中取得了超過92%的檢索精度。
知識圖譜賦能千行萬業(yè)智能化發(fā)展
知識圖譜對于 AI基礎技術領域的研究具有重大意義,同時在行業(yè)落地、產(chǎn)業(yè)智能化當中也發(fā)揮著重要作用。隨著行業(yè)對知識圖譜的需求越來越多,在知識圖譜構建上,百度面向行業(yè)客戶提供了行業(yè)知識圖譜一體化的服務。
據(jù)朱勇介紹,這整套完整的行業(yè)知識圖譜的技術體系有三個主要的特點:第一,專業(yè)性強,行業(yè)知識圖譜技術面向行業(yè)內(nèi)的專業(yè)復雜知識,實現(xiàn)了基于超圖的知識表達;第二,構建效率高,支持低資源的學習機制,人機協(xié)同的圖譜構建相對于傳統(tǒng)的人工構建方法,效率提升百倍以上;第三,具有很強的可遷移性,實現(xiàn)了從通用到行業(yè),以及跨行業(yè)的多層次遷移學習,目前已經(jīng)覆蓋了100多個行業(yè)的應用場景。
其實,在行業(yè)知識圖譜的技術基礎上,早在今年5月的百度云智峰會上還發(fā)布了基于百度多年積累的知識圖譜、自然語言處理、多模態(tài)語義理解、智能搜索等 AI核心技術打造的知識中臺,提供面向企業(yè)知識應用全生命周期的一站式解決方案。知識中臺可以幫助企業(yè)高效地生產(chǎn)知識、靈活地組織知識、便捷的獲取知識、智能地應用知識,從而全面提升企業(yè)運行效率和決策的智能化水平。
例如,基于醫(yī)療知識中臺快速構建的醫(yī)學專業(yè)知識體系,可提供具備輔助診斷、醫(yī)療質(zhì)控、合理用藥、健康管理等能力的智慧醫(yī)療解決方案,有效降低了32%的基層試點區(qū)域誤診/漏診率;攔截了大于90%的不合理用藥;對比人工檢查效率提升超20倍。據(jù)悉,目前百度的智慧醫(yī)療產(chǎn)品已實現(xiàn)規(guī)?;涞兀諗?shù)萬名醫(yī)生,觸達27個省市自治區(qū)300多家醫(yī)院,超過1500多家基層醫(yī)療機構。
另外一個典型的場景是智慧法律,在類案檢索方面,類案推薦準確率超過90%,與過去相比結案率提高一倍以上;而在要素提取方面,不僅降低了人工處理卷宗的成本,庭審案件要素分析技術點平均準確率達到90%,召回率為85%。此外,在能源電力、司法庭審、企業(yè)辦公等領域,百度知識圖譜也均已廣泛落地。目前,知識圖譜每天的調(diào)用次數(shù)超過了400億次。
正如王海峰所言:“在百度語言與知識技術的布局和發(fā)展中,我們始終在注意把握兩個趨勢,即技術發(fā)展趨勢和產(chǎn)業(yè)發(fā)展趨勢,并力爭引領趨勢?!卑俣仍谡Z言與知識領域的十年技術積累和產(chǎn)業(yè)實踐,都在不斷加速著產(chǎn)業(yè)智能化進程。同時,也讓業(yè)界看到百度在前瞻技術上的每一次突破,無不彰顯著百度背后的技術戰(zhàn)略與實力。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )