精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    巴別塔風(fēng)云:百度ERNIE 2.0折射出的產(chǎn)業(yè)奇點

    這兩天AI圈有一個廣受關(guān)注的新聞,百度發(fā)布了持續(xù)學(xué)習(xí)的語義理解框架ERNIE 2.0,這個模型在1.0版本中文任務(wù)中全面超越BERT的基礎(chǔ)上,英文任務(wù)取得了全新突破,在共計16個中英文任務(wù)上超越了BERT和XLNet, 取得了SOTA效果。

    可能對于大部分AI技術(shù)的關(guān)注者與AI開發(fā)者來說,ERNIE 2.0最直接的價值在于業(yè)界又將獲得一個效果強勁的NLP模型,同時也是中國AI技術(shù)又一次令人興奮的成果。

    成績之外,ERNIE 2.0背后蘊藏的產(chǎn)業(yè)價值同樣不容忽視。尤其是在目前國際貿(mào)易與科技背景下,ERNIE 2.0代表的無監(jiān)督預(yù)訓(xùn)練語言模型正處在非常關(guān)鍵的產(chǎn)業(yè)位置。

    ERNIE 2.0與BERT、XLNet的巔峰對決背后,是一場全球NLP產(chǎn)業(yè)格局的變幻與交鋒。

    NLP的提速換擋時代

    讓我們先把時間向前倒回一點,看看BERT和ERNIE這對《芝麻街》的里的朋友,為什么變成了整個AI行業(yè)關(guān)注的明星。

    NLP,即自然語言處理,是AI領(lǐng)域極其重要的一條技術(shù)路徑。它關(guān)乎于智能體如何理解人類的語言與文字,并在理解基礎(chǔ)上人機智能交互。這個領(lǐng)域的重要性顯而易見,而令業(yè)界興奮的是,去年年底到今天,NLP技術(shù)在全球范圍內(nèi)掀起了一場“提速競賽”。

    去年10月,谷歌發(fā)布了被認(rèn)為具備里程碑意義的NLP模型BERT。這種模型采用極大數(shù)據(jù)集上進行預(yù)訓(xùn)練的模式,一舉刷新了AI在大量NLP數(shù)據(jù)集的最高分?jǐn)?shù)。甚至在機器閱讀理解等任務(wù)中,展現(xiàn)出了與人類不相上下的表現(xiàn)。

    被AI業(yè)內(nèi)人士稱為“殘暴到不留活路”的BERT,可以說將NLP提升到了新的軌道。另一個好消息,是BERT并沒有就此進入一統(tǒng)江湖模式。今年3月,百度發(fā)布了基于知識增強技術(shù)的NLP模型ERNIE,在多個中文NLP任務(wù)中超越了BERT;今年6月,谷歌和CMU提出的NLP模型XLNet在20多項測試中排行第一,性能全面超越BERT;而Facebook不久前優(yōu)化過的新BERT,又拿回了不少屬于自己的記錄。

    故事至此,無監(jiān)督預(yù)訓(xùn)練語言NLP模型基本進入了“三國殺”時代,背后隱隱浮現(xiàn)著谷歌與百度,東西兩大AI巨頭的技術(shù)攀躍。

    而從產(chǎn)業(yè)價值上看,基于大規(guī)模數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練語言模型你追我趕,不斷刷新記錄,給NLP技術(shù)應(yīng)用到各行各業(yè)帶來了全新的機遇。作為NLP問題的基礎(chǔ)解法,這些模型讓機器閱讀理解、情緒識別、文本分類等任務(wù)都達到了新高度,語音助手、在線客服、智能金融、對話機器人等廣泛領(lǐng)域都將從中受益。

    或許我們可以將這10個月以來的NLP進化,理解為一場提速換擋。語言智能領(lǐng)域,剛剛經(jīng)歷了柴油換汽油的劇變,這是一個時代的劃頁。

    在這個具有廣袤想象力的NLP時代,ERNIE 2.0來了。

    ERNIE 2.0一劍東來,巴別塔之戰(zhàn)格局變幻

    如上文所述,今天的NLP競速,是頂級高手間相互刷新AI記錄的一場游戲,頗有點紫禁之巔葉孤城大戰(zhàn)西門吹雪的味道。而這場競速,發(fā)生在人類語言智能的巴別塔之巔。

    而剛剛發(fā)布的ERNIE 2.0實際上代表了這樣一件事:這場巔峰之戰(zhàn)中,百度奪得了賽事的主動權(quán)。

    從3月發(fā)布ERNIE 1.0,經(jīng)過短短幾個月時間,百度就完成了ERNIE的再升級,發(fā)布了能夠持續(xù)學(xué)習(xí)的語義理解框架ERNIE 2.0,以及基于框架的ERNIE 2.0預(yù)訓(xùn)練模型。

    整體來看,ERNIE 2.0不僅完成了一次記錄刷新表演,同時也解決了BERT長時間被產(chǎn)業(yè)界詬病的“大力出奇跡”問題。對算力和數(shù)據(jù)量的要求更少,讓無監(jiān)督預(yù)處理語言模型更加貼近產(chǎn)業(yè)現(xiàn)實??傮w來看,ERNIE 2.0閃耀NLP舞臺,有三大硬核能力:

    1、更好的效果:ERNIE英文任務(wù)方面取得全新突破,在共計16個中英文任務(wù)上超越了BERT和XLNet, 取得了SOTA效果。在英文任務(wù)上,ERNIE 2.0在自然語言理解數(shù)據(jù)集GLUE的7個任務(wù)上擊敗了BERT和XLNet;中文任務(wù)中,ERNIE 2.0在包括閱讀理解、情感分析、問答等不同類型的9個數(shù)據(jù)集上超越了BERT并刷新了SOTA??梢哉f在NLP領(lǐng)域的關(guān)鍵問題中,推動了業(yè)界的前沿探索與突破。

    2、更小的數(shù)據(jù):無監(jiān)督預(yù)訓(xùn)練NLP模型,一直被業(yè)界認(rèn)為是數(shù)據(jù)越多,效果越好,有種大力出奇跡的意味。然而ERNIE 2.0在充分借助百度PaddlePaddle(飛槳)多機分布式訓(xùn)練優(yōu)勢的情況下,利用 79億tokens數(shù)據(jù)就完成了模型的訓(xùn)練,約等于四分之一的XLNet數(shù)據(jù)。

    3、更少的算力:無監(jiān)督預(yù)訓(xùn)練語言模型一大問題,在于算力消耗過大,訓(xùn)練時間過長,從而導(dǎo)致產(chǎn)業(yè)化困難。ERNIE 2.0在這一點上也有出色表現(xiàn),其僅僅使用64張V100 ,約八分之一XLNet硬件算力就實現(xiàn)了效果,而且為開發(fā)人員定制自己的NLP模型提供了方案。

    在優(yōu)秀的數(shù)據(jù)表現(xiàn)背后,或許我們還應(yīng)該注意到更加宏觀的產(chǎn)業(yè)問題:ERNIE 2.0代表的,是這場國際矚目的NLP競速里,中國能量從未缺席。

    AI不缺席:NLP之路上的中國能量

    過去,我們總是認(rèn)為中國在科技創(chuàng)新上是落后的,中國科技產(chǎn)業(yè)善于模仿和塑造應(yīng)用,但在基礎(chǔ)研究與突破上往往缺席。然而ERNIE 2.0卻證明了,在AI之路上的關(guān)鍵技術(shù)、關(guān)鍵話題,中國AI可以第一時間參與進來,貢獻自己的力量。中國科技在AI時代不再缺席。

    ERNIE 2.0與BERT、XLNet的競速發(fā)展中,可以看到三層中國能量正在產(chǎn)業(yè)中閃耀。百度AI正在帶給世界AI產(chǎn)業(yè)以驚喜。

    1、中國智慧:BERT最為人詬病的一點,是它用龐大數(shù)據(jù)集砸入模型,產(chǎn)生了簡單粗暴有效的效果。但在算法層面卻缺乏創(chuàng)新。而在ERNIE 2.0中,百度實現(xiàn)了可持續(xù)學(xué)習(xí)語義理解能量。通過支持增量引入詞匯(lexical)、語法 (syntactic) 、語義 (semantic) 等3個層次的自定義預(yù)訓(xùn)練任務(wù),能夠全面捕捉訓(xùn)練語料中的詞法、語法、語義等潛在信息。這些任務(wù)通過多任務(wù)學(xué)習(xí)對模型進行訓(xùn)練更新,每當(dāng)引入新任務(wù)時,就可在學(xué)習(xí)該任務(wù)的同時,不遺忘之前學(xué)到過的信息。

    (ERNIE 2.0:可持續(xù)學(xué)習(xí)語義理解框架)

    這意味著,ERNIE 2.0可以通過持續(xù)構(gòu)建訓(xùn)練包含詞法、句法、語義等預(yù)訓(xùn)練任務(wù),持續(xù)提升模型效果。也就是說,ERNIE 2.0通過語言學(xué)與AI科學(xué)的跨領(lǐng)域結(jié)合,完成了算法邏輯上的大量創(chuàng)新,并驗證了可持續(xù)學(xué)習(xí)語義理解的任務(wù)表現(xiàn)。這給AI行業(yè)開啟了一條新的道路,為NLP領(lǐng)域打開了新的發(fā)展軌跡。這條中國智慧的貢獻,恰好作用于AI界聚焦的前沿探索中,為全球AI技術(shù)提升貢獻了獨特力量。

    2、中國位置:NLP的產(chǎn)業(yè)應(yīng)用正在飛速發(fā)展,無監(jiān)督預(yù)訓(xùn)練語言模型被認(rèn)為在各類NLP應(yīng)用中處于骨干網(wǎng)絡(luò)的地位,是構(gòu)成下一代NLP技術(shù)的底層。如果這個位置被BERT完全卡住,或者說被歐美公司完全卡住,那么很容易又會出現(xiàn)底層科技卡脖子問題。另一方面,BERT等模型并不精于中文任務(wù),長期下去NLP領(lǐng)域英文應(yīng)用可能大幅度領(lǐng)先中文應(yīng)用,影響產(chǎn)業(yè)進程。這都是我們不愿意看到的。

    ERNIE 2.0則證明,在這場底層技術(shù)角逐中,中國位置已經(jīng)確立。中國科技在百度AI的全力以赴下,成為了領(lǐng)導(dǎo)者和探索者。

    3、中國速度:去年評選全世界最受重視的AI新技術(shù)時,BERT和圖網(wǎng)絡(luò)占據(jù)前二。這不難看出全球科技產(chǎn)業(yè)對BERT的重視。然而幾個月過去,中國已經(jīng)有了可以媲美甚至領(lǐng)先BERT的NLP模型。這也是AI時代中國速度的一個體現(xiàn)。

    ERNIE 2.0可以作為一個橫軸,從中可以證明基礎(chǔ)算法這個AI最核心領(lǐng)域,中國已經(jīng)逐漸跟上了美國的速度,并且可以超越歐美頂級AI公司的算法。反向輸出核心算法,用中國速度領(lǐng)跑AI。百度的AI硬核實力,可以看出正在呈現(xiàn)不斷加速的特征。今年谷歌大會上,已經(jīng)被外界評論為算法創(chuàng)新上的疲軟。然而百度卻接住了這個難題,逆勢而上。中國AI速度,正在百度拋向世界的一個個算法中展現(xiàn)出來。

    必須承認(rèn)的是,今天的AI賽場上,中國能量已經(jīng)不可忽視。這條路并非朝夕鋪就,而是經(jīng)過無數(shù)中國AI人的努力凝結(jié)而成。比如在剛結(jié)束的ACL上,百度共有10篇論文被大會收錄,研究領(lǐng)域涵蓋了多個NLP領(lǐng)域的熱點話題與前沿方向,展現(xiàn)出了國際頂級水準(zhǔn)的技術(shù)積淀。

    而在學(xué)術(shù)與產(chǎn)業(yè)的不斷突破背后,是百度從2010年起就加速發(fā)展NLP事業(yè),在AI技術(shù)尚未被世界熱捧的時候,就潛心NLP的前沿技術(shù)研究與產(chǎn)業(yè)應(yīng)用。為業(yè)內(nèi)培養(yǎng)了大量AI人才,成為國際頂級研究機構(gòu)的百度NLP部門,在AI界素有“鐵軍”的美譽。目前,百度大腦語言與知識技術(shù)擁有最大的多元語義知識圖譜以及最好的中文語義表示模型,目前可提供30+項技術(shù)工具,囊括了文本審核、機器翻譯、語言生成等多項能力,面向業(yè)界提供多樣、靈活、可定制的服務(wù)與場景解決方案。

    由此可見,今天的成果,背后是十年磨一劍的技術(shù)探索與人才培養(yǎng)。一劍東來的百度,背后凝結(jié)了十年面壁圖破壁的NLP苦功。其實,每次中國AI閃耀于世界賽場的第一線,背后或多或少都藏著這樣的故事。

    免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2019-08-02
    巴別塔風(fēng)云:百度ERNIE 2.0折射出的產(chǎn)業(yè)奇點
    這兩天AI圈有一個廣受關(guān)注的新聞,百度發(fā)布了持續(xù)學(xué)習(xí)的語義理解框架ERNIE2.0,這個模型在1.0版本中文任務(wù)中全面超越BERT的基礎(chǔ)上,英文任務(wù)取得了全新突破,在共計16個中英文任務(wù)上超越了BE

    長按掃碼 閱讀全文