近日,在美國(guó)休斯敦閉幕的第13屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國(guó)際會(huì)議(WSDM 2020)上,華為云語音語義創(chuàng)新Lab帶領(lǐng)來自華南理工大學(xué)、華中科技大學(xué)、江南大學(xué)、武漢大學(xué)學(xué)生組成的聯(lián)合團(tuán)隊(duì),摘得WSDM Cup 2020大賽“論文引用意圖識(shí)別任務(wù)”金牌(Gold Medal)。
WSDM被譽(yù)為全球信息檢索領(lǐng)域最有影響力也最權(quán)威的會(huì)議之一,會(huì)議關(guān)注社交網(wǎng)絡(luò)上的搜索與數(shù)據(jù)挖掘,尤其關(guān)注搜索與數(shù)據(jù)挖掘模型、算法設(shè)計(jì)與分析、產(chǎn)業(yè)應(yīng)用和提升準(zhǔn)確性與效果的實(shí)驗(yàn)分析。今年已經(jīng)是WSDM的第十三屆會(huì)議。
本文將詳細(xì)介紹本次獲獎(jiǎng)的解決方案。文章轉(zhuǎn)載自華為云社區(qū)https://bbs.huaweicloud.com/blogs/149716
1、背景
幾個(gè)世紀(jì)以來,社會(huì)技術(shù)進(jìn)步的關(guān)鍵在于科學(xué)家之間坦誠(chéng)的學(xué)術(shù)交流。新發(fā)現(xiàn)和新理論在已發(fā)表的文章中公開分發(fā)和討論,有影響力的貢獻(xiàn)則通常被研究界以引文的形式認(rèn)可。然而,隨著科研經(jīng)費(fèi)申請(qǐng)競(jìng)爭(zhēng)日趨激烈,越來越多的人把學(xué)術(shù)研究當(dāng)成一種資源爭(zhēng)奪的手段,而不是單純?yōu)榱送苿?dòng)知識(shí)進(jìn)步。部分期刊作者“被迫”在特定期刊中引用相關(guān)文章,以提高期刊的影響因子,而論文審稿人也只能增加期刊的引用次數(shù)或h指數(shù)。這些行為是對(duì)科學(xué)家和技術(shù)人員所要求的最高誠(chéng)信的冒犯,如果放任這種情況發(fā)展,可能會(huì)破壞公眾的信任并阻礙科學(xué)技術(shù)的未來發(fā)展。因此,本次WSDM Cup 2020賽題之一將重點(diǎn)放在識(shí)別作者的引文意圖:要求參賽者開發(fā)一種系統(tǒng),該系統(tǒng)可以識(shí)別學(xué)術(shù)文章中給定段落的引文意圖并檢索相關(guān)內(nèi)容。
華為云語音語義創(chuàng)新Lab在自然語言處理領(lǐng)域有著全棧的技術(shù)積累,包括自然語言處理基礎(chǔ)中的分詞、句法解析,自然語言理解中的情感分析、文本分類、語義匹配,自然語言生成,對(duì)話機(jī)器人,知識(shí)圖譜等領(lǐng)域。其中和本次比賽最相關(guān)的技術(shù)是語義匹配技術(shù)。Xiong團(tuán)隊(duì)通過對(duì)賽題任務(wù)進(jìn)行分析,針對(duì)該問題制定了一種“整體召回+重排+集成”的方案,該方案以輕量化的文本相似度計(jì)算方法(如BM25等)對(duì)文章進(jìn)行召回,然后基于深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型BERT等進(jìn)行重排,最后通過模型融合進(jìn)行集成。
2、賽題介紹
本次比賽將提供一個(gè)論文庫(kù)(約含80萬篇論文),同時(shí)提供對(duì)論文的描述段落,來自論文中對(duì)同類研究的介紹。參賽選手需要為描述段落匹配三篇最相關(guān)的論文。
例子:
描述:
An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.
相關(guān)論文:
[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.
評(píng)測(cè)方案:
3、數(shù)據(jù)分析
本次賽題共給出80多萬條候選論文,6萬多條訓(xùn)練樣本和3萬多條本測(cè)試樣本,候選論文包含paper_id,title,abstract,journal,keyword,year這六個(gè)字段的信息,訓(xùn)練樣本包含description_id,paper_id,description_text這三個(gè)字段的信息,而測(cè)試數(shù)據(jù)則給出description_id和description_text兩個(gè)字段,需要匹配出相應(yīng)的paper_id。
我們對(duì)數(shù)據(jù)中候選論文的title,abstract以及描述文本的長(zhǎng)度做了一些統(tǒng)計(jì)分析,如圖1所示,從圖中我們可以看到文本長(zhǎng)度都比較長(zhǎng),并且針對(duì)我們后續(xù)的單模型,我們將模型最大長(zhǎng)度從300增加到512后,性能提升了大約1%。
圖1 候選論文的Title(a),Abstract(b)以及描述文本(c)的長(zhǎng)度分布
4、整體方案
我們方案的整體架構(gòu)如圖2所示,整體方案分為四個(gè)部分:數(shù)據(jù)處理,候選論文的召回,候選論文的重排以及模型融合。
圖2 整體方案架構(gòu)(部分圖引自[5])
4.1 數(shù)據(jù)處理
通過觀察數(shù)據(jù)我們發(fā)現(xiàn),在標(biāo)題給出的描述語句中,有許多相同的描述文本,但是參考標(biāo)記的位置卻不同。也就是說,在同一篇文章中,不同的句子引用了不同的論文。為此,我們抽取句子中引用標(biāo)記位置處的語句作為新的描述語句生成候選集。
如表1所示,我們選取描述中[[**##**]]之前的句子作為描述關(guān)鍵句。
表1 描述關(guān)鍵句生成
4.2候選論文召回
如圖3所示,我們運(yùn)用BM25和TF-IDF來進(jìn)行論文的召回,選取BM25召回的前80篇論文和TF-IDF召回的前20篇論文構(gòu)成并集組成最終的召回論文。
圖4 BioBERT結(jié)構(gòu)圖 (圖引自[6])
4.4 模型融合
在模型融合的過程中,我們運(yùn)用了6種共9個(gè)經(jīng)過科學(xué)和生物醫(yī)藥語料庫(kù)訓(xùn)練的預(yù)訓(xùn)練模型分別為:BioBERT_v1.1* 3, BioBERT_v1.0_PubMed_PMC * 2, BioBERT_v1.0_PubMed* 1,BioBERT_v1.0_PMC * 1, BioBERT_dish*1,SciBERT* 1。他們的單模型在該任務(wù)中的性能如表2所示。
表2 單模型性能
然后我們對(duì)單模型輸出的概率結(jié)果進(jìn)行blending操作如圖5所示,得到最后的模型結(jié)果,其比最好的單模型結(jié)果提升了1個(gè)百分點(diǎn)左右。
圖5 模型融合
5、總結(jié)與展望
本文主要對(duì)比賽中所使用的關(guān)鍵技術(shù)進(jìn)行了介紹,如數(shù)據(jù)處理,候選論文的召回與重排,模型融合等。在比賽中使用專有領(lǐng)域訓(xùn)練后的預(yù)訓(xùn)練模型較通用領(lǐng)域預(yù)訓(xùn)練模型效果有較大的提升。由于比賽時(shí)間的限制,許多方法還沒來得及試驗(yàn),比如在比賽中由于正負(fù)樣本不平衡,導(dǎo)致模型訓(xùn)練結(jié)果不理想,可以合理的使用上采樣或下采樣來使樣本達(dá)到相對(duì)平衡,提升模型訓(xùn)練效果。
參考文獻(xiàn)
[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document
retrieval[J]. arXiv preprint arXiv:1903.10972, 2019.
[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and
effective IR approach to simple question answering over knowledge
graphs[C]//Proceedings of the First Workshop on Fact Extraction and
VERification (FEVER). 2018: 22-27.
[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word
representations[J]. arXiv preprint arXiv:1802.05365, 2018.
[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask
learners[J]. OpenAI Blog, 2019, 1(8): 9.
[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018)
BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding. arXiv preprint arXiv:1810.04805,.
[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim,
Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language
representation model for biomedical text mining, Bioinformatics,
[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language
Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A
Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676,
2019.
[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint
arXiv:1901.04085.
[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT
embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。