2019 年 12 月8 日-14 日,機(jī)器學(xué)習(xí)領(lǐng)域國際頂級會議 NeurIPS 2019于加拿大溫哥華拉開帷幕。此次大會共吸引了全球1萬余名專家學(xué)者共赴盛會。本年度,自然語言處理領(lǐng)域在深度學(xué)習(xí)浪潮下取得了顯著成就,成為大會重要議題之一。
百度舉辦了自然語言處理專題研討會,百度技術(shù)委員會主席、自然語言處理首席科學(xué)家吳華博士以及多名研究員和工程師,向現(xiàn)場參會者全面介紹了百度在這一領(lǐng)域的長期積累與全新突破?;诰哂型耆灾髦R產(chǎn)權(quán)的飛槳平臺,百度自然語言處理在語義計算、閱讀理解、多輪對話、機(jī)器翻譯、開放平臺與數(shù)據(jù)等方向均取得了突破性進(jìn)展,并進(jìn)行了大規(guī)模產(chǎn)業(yè)化應(yīng)用。
百度技術(shù)委員會主席、自然語言處理首席科學(xué)家吳華
預(yù)訓(xùn)練方面,百度提出知識增強(qiáng)的語義表示模型 ERNIE及持續(xù)學(xué)習(xí)語義理解框架 ERNIE 2.0,在共計 16 個中英文任務(wù)上超越 BERT、XLNET,取得了 SOTA 的效果。11月,百度發(fā)布基于ERNIE的語義理解開發(fā)套件。從原理、應(yīng)用到開源及平臺化,百度在NLP預(yù)訓(xùn)練領(lǐng)域進(jìn)行了極具價值的創(chuàng)新及實踐。
機(jī)器閱讀理解,已成為評估機(jī)器語言理解能力的重要方式,也是搜索引擎和對話系統(tǒng)等行業(yè)應(yīng)用中的關(guān)鍵技術(shù)。百度建設(shè)及發(fā)布了最大規(guī)模的中文閱讀理解數(shù)據(jù)集DuReader;在泛化方面提出訓(xùn)練框架D-NET,從多模型融合、多任務(wù)學(xué)習(xí)的角度提升模型的泛化能力;
對于對抗樣本的攻擊,提出了一種面向閱讀理解的對抗訓(xùn)練方法;提出文本表示和知識表示的融合模型KT-NET,以解決需要外部知識和常識的問題。其中具有高魯棒性和遷移能力的閱讀理解模型在今年MRQA 閱讀理解評測中奪得冠軍。
對話方面,提出了基于深度注意網(wǎng)絡(luò)的多輪響應(yīng)選擇匹配模型 DAM(Deep Attention Matching Network),顯著提高了口語理解能力。 在對話系統(tǒng)框架中,百度一方面提供了可編程的對話管理框架,并內(nèi)置了多個常用標(biāo)準(zhǔn)對話范式,為在云端開發(fā)靈活可變的業(yè)務(wù)對話邏輯提供了便利。另一方面,提供了需求分發(fā)和全局記憶機(jī)制,支持多個對話任務(wù)的集成與聯(lián)動,提高了對話技能的可復(fù)用性,降低了新業(yè)務(wù)的重復(fù)開發(fā)成本。 百度可定制對話技術(shù)依托百度大腦 UNIT 3.0 平臺,支持 5 萬多個對話技能,廣泛應(yīng)用于行業(yè)客戶。
機(jī)器翻譯領(lǐng)域,百度相繼提出了多任務(wù)學(xué)習(xí)、多智能體聯(lián)合訓(xùn)練等前沿方法,并在2019年國際權(quán)威WMT評測中取得中英翻譯第一。機(jī)器同聲傳譯方面百度走在領(lǐng)域前沿,提出了首個具有預(yù)測和可控時延的同傳模型,首個語義單元驅(qū)動的上下文同傳模型,并研發(fā)了業(yè)內(nèi)首個語音到語音的同傳系統(tǒng),為用戶提供高質(zhì)量、低時延的同傳體驗。值得一提的是,基于在此領(lǐng)域取得的進(jìn)步,由百度主導(dǎo),聯(lián)合Google、Facebook、Upenn、清華等海內(nèi)外頂尖企業(yè)及高校共同組織首屆機(jī)器同傳研討會,將在本領(lǐng)域頂級會議ACL 2020召開,并將舉辦國際首屆同傳評測,以進(jìn)一步促進(jìn)技術(shù)發(fā)展。此外,百度還將在領(lǐng)域權(quán)威會議EMNLP 2020中舉辦機(jī)器同傳tutorial,就機(jī)器同傳的原理、方法、前沿進(jìn)展進(jìn)行講座。
百度自然語言處理領(lǐng)域產(chǎn)出的卓越成果背后所運(yùn)用的底層框架,是自研的開源深度學(xué)習(xí)平臺百度飛槳。近兩年來,飛槳圍繞深度學(xué)習(xí)框架的基本功能、性能、芯片支持的完備性等技術(shù)指標(biāo)進(jìn)行了一系列的易用性開發(fā)和性能迭代,為開發(fā)者提供了優(yōu)于其他深度學(xué)習(xí)框架的使用體驗。在開發(fā)能力方面,飛槳除了支持對常用API的調(diào)用之外,還在編程范式上同時支持聲明式編程和命令式編程,兼具很好的靈活性和穩(wěn)定性,可滿足不同開發(fā)者的開發(fā)習(xí)慣,更易上手。在訓(xùn)練方面,飛槳平臺突破了超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練技術(shù),研制了千億特征、萬億參數(shù)、數(shù)百節(jié)點(diǎn)的開源大規(guī)模訓(xùn)練平臺,實現(xiàn)了萬億規(guī)模參數(shù)深度學(xué)習(xí)模型的實時更新。在自然語言處理領(lǐng)域,PADDLE-NLP提供了面向6類任務(wù)下的30+算法模型,包括上述工作中ERNIE、D-NET等多個國際競賽的冠軍模型。
論文方面,本屆會議計收到6743篇論文投稿,兩年時間翻了一番,再次創(chuàng)下新紀(jì)錄。其中1428篇論文入選,入選率僅21.1%。百度共有8篇論文被收錄,覆蓋量化壓縮、對抗訓(xùn)練等諸多前沿方向。
競賽方面,在NeurIPS 2019: Learn to Move 強(qiáng)化學(xué)習(xí)賽事中百度再度蟬聯(lián)冠軍,并受邀在Deep RL workshop中進(jìn)行專題報告。本次比賽的難度非常大,在參賽的近 300 支隊伍中,僅有 3 支隊伍完成了最后挑戰(zhàn)。百度基于飛槳的強(qiáng)化學(xué)習(xí)框架 PARL 不僅成功完成挑戰(zhàn),還大幅領(lǐng)先第二名(1490 vs 1346)。除了在Best Performance Track獲得了第一,相關(guān)技術(shù)論文也在該賽事的Machine Learning Track中獲得了Best Paper Reward.
這些無不顯示著百度在NLP領(lǐng)域的技術(shù)積累與國際影響力。除了密集的學(xué)術(shù)交流討論、報告之外,NeurIPS 2019的百度展臺,也吸引了世界各地的參會者。深度學(xué)習(xí)平臺飛槳獲得廣泛關(guān)注,眾多參會者到展臺咨詢使用及合作事宜;百度AI同傳吸引了來自美國、俄羅斯、日本、加拿大等世界各國的參與者們紛紛體驗。
從專題研討、論文分享、競賽報告到多樣的現(xiàn)場系統(tǒng)演示,百度在今年的NeurIPS 2019上深度參與,全面展現(xiàn)了百度的前沿技術(shù)進(jìn)展。以百度為代表的中國AI企業(yè)的頻頻身影,已成為國際人工智能學(xué)術(shù)頂會中的"新常態(tài)"。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 國產(chǎn)手機(jī)大勝,蘋果銷量大跌,難怪急哄哄降價千元
- 這里不止“羊毛月”,少年也在以電商助農(nóng)
- 同仁堂醫(yī)養(yǎng)IPO: “三位一體”診療服務(wù)體系高效協(xié)同 “中醫(yī)+”健康服務(wù)未來可期
- 走出群山,長賽道“攀登者”vivo
- 三線結(jié)構(gòu)光與升降LDS激光雷達(dá) 石頭自清潔掃拖機(jī)器人G30導(dǎo)航避障新里程
- 石頭科技閃耀CES2025 首創(chuàng)仿生機(jī)械手掃拖機(jī)器人
- TCL華星亮相CES2025,印刷OLED等創(chuàng)新顯示技術(shù)全球吸睛
- 科技云報到:從大模型到云端,“AI+云計算”還能講出什么新故事?
- 承載AI的云南花卉,正在盛開
- 打造個人辦公新范式,科大訊飛召開辦公智能體產(chǎn)品升級發(fā)布會
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。