近日,在美國休斯敦閉幕的第13屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國際會議(WSDM 2020)上,華為云帶領(lǐng)的聯(lián)合團(tuán)隊摘得WSDM Cup 2020大賽“論文引用意圖識別任務(wù)”金牌。
WSDM被譽為全球信息檢索領(lǐng)域最有影響力也最權(quán)威的會議之一,會議關(guān)注社交網(wǎng)絡(luò)上的搜索與數(shù)據(jù)挖掘,尤其關(guān)注搜索與數(shù)據(jù)挖掘模型、算法設(shè)計與分析、產(chǎn)業(yè)應(yīng)用和提升準(zhǔn)確性與效果的實驗分析。今年已經(jīng)是WSDM的第十三屆會議。
本次WSDM Cup共有三個賽題任務(wù),華為云奪金賽題內(nèi)容為“論文引用意圖識別”:比賽提供一個論文庫(約含80萬篇論文),同時提供對被引用論文的引用文本描述,參賽選手需要根據(jù)論文引用描述從論文庫中匹配三篇最相關(guān)的論文。
論文是人類最前沿知識的媒介,如果可以理解論文中的數(shù)據(jù),可以極大地擴(kuò)充計算機(jī)理解知識的能力和范圍。在論文中,作者經(jīng)常會引用其他論文,并對被引論文做出對應(yīng)描述。如果通過計算機(jī)可以自動地理解、識別描述對應(yīng)的被引論文,不僅可以加深我們對科研脈絡(luò)的理解,還能在科研知識圖譜、科研自動問答系統(tǒng)和自動摘要系統(tǒng)等領(lǐng)域有所進(jìn)步。
華為云語音語義創(chuàng)新Lab帶領(lǐng)華南理工大學(xué)、華中科技大學(xué)、武漢大學(xué)、江南大學(xué)學(xué)生組成的聯(lián)合團(tuán)隊,針對該問題制定了“整體召回+重排+集成”的方案。在整體召回階段,通過輕量化的文本相似度計算方法(如BM25、TFIDF、Word2Vec等),以較少的計算代價從大規(guī)模論文庫中檢索出給定查詢的可能相關(guān)的論文集合。在重排階段,通過計算量大但更準(zhǔn)確的方法對這些候選論文中的每一篇論文計算和引用描述的相似度值并重新排序,例如采用基于深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型BERT等。華為云團(tuán)隊觀察到,賽題中所給語料都是生物醫(yī)學(xué)領(lǐng)域,因此采用了基于生物醫(yī)藥和科學(xué)領(lǐng)域語料進(jìn)行預(yù)訓(xùn)練的BioBERT和SciBERT語言模型對論文進(jìn)行重排。通過對所有模型的結(jié)果進(jìn)行集成,最終得到三篇最相關(guān)的論文。
華為云在本次比賽中運用的文本匹配技術(shù),可廣泛用于搜索、對話機(jī)器人、知識圖譜構(gòu)建等領(lǐng)域。
憑借在自然語言處理領(lǐng)域的全棧技術(shù)積累,華為云連續(xù)斬獲了多個相關(guān)領(lǐng)域權(quán)威比賽冠軍。2019年10月華為云在DigSci科學(xué)數(shù)據(jù)挖掘大賽(學(xué)術(shù)論文搜索匹配大賽)上奪冠,精準(zhǔn)率超過第二名5個百分點。在2019 CCF大數(shù)據(jù)與計算智能大賽決賽中,華為云獲得金融實體級情感分析大賽冠軍,體現(xiàn)了在文本情感分析和知識圖譜領(lǐng)域的實力。
目前,華為云語音語義相關(guān)服務(wù)已經(jīng)成功應(yīng)用于政務(wù)、金融、油氣、醫(yī)療、汽車、物流、保險、電商、稅務(wù)、媒體等具有語音識別、語言理解、知識管理等需求的業(yè)務(wù)領(lǐng)域。
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。