文 | 曾響鈴
來(lái)源 | 科技向令說(shuō)
當(dāng)AI發(fā)展借新基建東風(fēng)進(jìn)一步加速后,每個(gè)垂直門(mén)類都開(kāi)始表現(xiàn)出一邊深化技術(shù)、一邊廣拓生態(tài)的兩大特征。
最近的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)直接表現(xiàn)了這一點(diǎn)。
一次性推出11項(xiàng)發(fā)布,AI技術(shù)的大規(guī)模應(yīng)用進(jìn)程被行業(yè)巨頭加快,而正如百度CTO王海峰所言,“在百度語(yǔ)言與知識(shí)技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個(gè)趨勢(shì),即技術(shù)發(fā)展趨勢(shì)和產(chǎn)業(yè)發(fā)展趨勢(shì),并力爭(zhēng)引領(lǐng)趨勢(shì)?!?作為AI皇冠上的明珠,NLP在一邊繼續(xù)進(jìn)行技術(shù)深化的同時(shí),產(chǎn)業(yè)落地也開(kāi)始齊頭并進(jìn)。
如果從2010年百度成立自然語(yǔ)言處理部算起,NLP從技術(shù)和產(chǎn)業(yè)上全面布局已經(jīng)走過(guò)整整十個(gè)年頭。
作為AI領(lǐng)域發(fā)展時(shí)間最久、積累最豐厚的垂直領(lǐng)域,NLP正在嘗試塑造出一個(gè)產(chǎn)業(yè)智能化從技術(shù)到應(yīng)用的完整范式,對(duì)百度而言,這張AI王牌中的王牌也是時(shí)候打出手了。
一、密集發(fā)布技術(shù)成果后,NLP巨頭的產(chǎn)業(yè)落地呈現(xiàn)三大特征
巨頭的密集動(dòng)作,直接表現(xiàn)出NLP這個(gè)AI排頭兵在產(chǎn)業(yè)落地上的三大特征。
1、技術(shù)“稱王”后,領(lǐng)頭羊正在擔(dān)起行業(yè)責(zé)任
過(guò)去十年,百度大腦在NLP領(lǐng)域積累了大量的技術(shù)成果,例如包括國(guó)家科技進(jìn)步獎(jiǎng)在內(nèi)的20多個(gè)獎(jiǎng)項(xiàng),30多項(xiàng)國(guó)際競(jìng)賽冠軍,發(fā)表學(xué)術(shù)論文超過(guò)300篇,申請(qǐng)專利2000多項(xiàng)。
長(zhǎng)期的數(shù)據(jù)和技術(shù)沉淀讓百度NLP在國(guó)內(nèi)處在了領(lǐng)先的位置,成為中國(guó)NLP發(fā)展的一面旗幟。而這種沉淀即便放到國(guó)際視野下,仍然可以支撐百度進(jìn)入NLP頭部梯隊(duì),代表中國(guó)AI在關(guān)鍵的語(yǔ)言和知識(shí)垂直領(lǐng)域占據(jù)重要的席位,獲得行業(yè)話語(yǔ)權(quán)。
根據(jù)公開(kāi)資料整理
在以絕對(duì)的技術(shù)“稱王”后,百度同時(shí)承擔(dān)起推動(dòng)技術(shù)產(chǎn)業(yè)化落地的責(zé)任。這次推出的中文自然語(yǔ)言處理數(shù)據(jù)共建計(jì)劃『千言』和語(yǔ)言與知識(shí)技術(shù)算力共享計(jì)劃,是領(lǐng)頭羊承擔(dān)行業(yè)責(zé)任、推動(dòng)包括友商在內(nèi)的行業(yè)共同進(jìn)步的體現(xiàn),已經(jīng)脫離競(jìng)爭(zhēng)范疇。
以算力共享計(jì)劃為例,百度準(zhǔn)備在該計(jì)劃中,面向廣大開(kāi)發(fā)者和研究人員開(kāi)放共享百度的算力,初步投入約1億元的資源,邀請(qǐng)不僅限于百度語(yǔ)言與知識(shí)開(kāi)源開(kāi)放技術(shù)用戶還包括更多的中文語(yǔ)言與知識(shí)技術(shù)開(kāi)發(fā)者、研究人員免費(fèi)使用這些算力。
千言數(shù)據(jù)共建計(jì)劃也有類似的資源共享屬性,在這兩大計(jì)劃加持下,百度NLP將以整個(gè)行業(yè)的姿態(tài)共同解決發(fā)展中的技術(shù)挑戰(zhàn)。
2、矩陣式產(chǎn)品推進(jìn),已成為NLP產(chǎn)業(yè)落地的“新常態(tài)”
細(xì)數(shù)此次百度大腦新發(fā)布或升級(jí)的幾個(gè)主要產(chǎn)品,包括:
文心ERNIE語(yǔ)義理解技術(shù)與平臺(tái),面向開(kāi)發(fā)者提供各種NLP開(kāi)發(fā)資源和能力;
TextMind智能文檔分析平臺(tái),面向企業(yè)文檔的規(guī)范化;
智能創(chuàng)作平臺(tái),面向創(chuàng)作者提供的一個(gè)高集成度的內(nèi)容創(chuàng)作平臺(tái),功能方面進(jìn)行了升級(jí);
UNIT智能對(duì)話與定制服務(wù)平臺(tái),各大廠AI都在搞的服務(wù),百度做得最早,現(xiàn)在重新整合進(jìn)行了一次升級(jí);
AI同傳會(huì)議解決方案,利用前沿NLP技術(shù)構(gòu)建的企業(yè)翻譯解決方案。
一股腦推出這些產(chǎn)品,表明NLP巨頭在產(chǎn)業(yè)落地時(shí)典型的矩陣化特征。這其中既有百度原本就占據(jù)優(yōu)勢(shì)的業(yè)務(wù)(例如UNIT、智能創(chuàng)作平臺(tái))的再升級(jí),也有根據(jù)市場(chǎng)需要新開(kāi)發(fā)的能力,例如文心ERNIE、TextMind;
換一個(gè)角度看,這個(gè)矩陣也顯示出百度NLP既能實(shí)現(xiàn)最底層的賦能,也能走向臺(tái)前完成一線解決方案的塑造。
以AI同傳會(huì)議解決方案為例,隨著技術(shù)不斷突破,結(jié)合產(chǎn)品設(shè)計(jì),同傳這個(gè)被認(rèn)為是難度頗高的NLP領(lǐng)域已經(jīng)可以實(shí)用。百度新發(fā)布AI同傳會(huì)議解決方案,讓企業(yè)可以在只用一臺(tái)電腦,一部手機(jī)的情況下就能快速搭建一套同傳服務(wù),參會(huì)人員可以選擇屬于自己的語(yǔ)種,同傳服務(wù)成為語(yǔ)言轉(zhuǎn)換的高效率“樞紐”。
回過(guò)頭來(lái)看,也只有NLP方面有深度積累的巨頭才能完成這樣的產(chǎn)業(yè)落地矩陣構(gòu)建。
3、“降落傘”規(guī)則,支撐AI技術(shù)落地走得更穩(wěn)
合格率99.9%的降落傘會(huì)導(dǎo)致每千名士兵有一人因?yàn)楫a(chǎn)品不合格而失去生命,當(dāng)軍方要求生產(chǎn)廠家負(fù)責(zé)人自己親身檢測(cè)產(chǎn)品后,“難以突破的”合格率馬上被提到了100%。
這個(gè)二戰(zhàn)典故帶來(lái)的“降落傘”規(guī)則在很多當(dāng)代產(chǎn)業(yè)合作中被實(shí)踐,百度NLP也是如此,很多產(chǎn)品或解決方案都有應(yīng)用在百度龐大的互聯(lián)網(wǎng)、科技生態(tài)中的“經(jīng)歷”。
例如,在百度移動(dòng)生態(tài)的內(nèi)容推薦及內(nèi)容審核中,已經(jīng)廣泛存在NLP的身影,即便到了視聽(tīng)內(nèi)容時(shí)代,百度在視頻推薦方面超越行業(yè)的內(nèi)容理解能力,同樣有NLP的功勞。
而不止于移動(dòng)生態(tài),百度多樣化業(yè)務(wù)布局中也存在NLP的印記,例如領(lǐng)先行業(yè)的金融信貸風(fēng)控能力,或者百度最近大力推進(jìn)的智慧醫(yī)療,其中涉及語(yǔ)義和知識(shí)也需要NLP加持。
二、破解“既要-又要”難題,語(yǔ)言與知識(shí)領(lǐng)域的AI已經(jīng)完成三大挑戰(zhàn)
NLP產(chǎn)業(yè)應(yīng)用往往面臨“既要-又要”的表面矛盾,而所謂的產(chǎn)業(yè)落地,某種程度上就是破解這些“無(wú)法兼得”矛盾的過(guò)程。
這從百度NLP的產(chǎn)品或解決方案中可見(jiàn)一斑。
1、既要通用性的便利,又要定制化的深度
一方面,由于通用性,產(chǎn)業(yè)開(kāi)發(fā)者可以基于共有的方案快速實(shí)現(xiàn)產(chǎn)品或解決方案的部署及上線;另一方面,隨著產(chǎn)業(yè)智能化走向深度,不同產(chǎn)業(yè)客戶往往都開(kāi)始追求屬于自己獨(dú)特的定制化能力。
這種通用性和定制化的矛盾,隨著產(chǎn)業(yè)對(duì)AI追求深化將越來(lái)越明顯。
可以看到,百度NLP此次的動(dòng)作,越來(lái)越貼合“魚(yú)和熊掌兼得”的現(xiàn)實(shí)需要。以語(yǔ)義理解技術(shù)與平臺(tái)文心ERNIE為例,一站式能力即能夠?qū)崿F(xiàn)解決方案的快速部署適配,也能夠滿足開(kāi)發(fā)者的個(gè)性化需求。
這是因?yàn)?深度學(xué)習(xí)平臺(tái)飛槳上打造的文心,除了享受到飛槳賦予的能力,還依托于百度領(lǐng)先的NLP技術(shù),集成了預(yù)訓(xùn)練模型、算法集、開(kāi)發(fā)套件、平臺(tái)化服務(wù),這些使得開(kāi)發(fā)者既能夠更簡(jiǎn)單地制作自己的NLP模型,也能夠便捷地融入企業(yè)的特殊需要。
通俗地說(shuō),這是一片已經(jīng)耕好的黑土地,只要撒入不同作物的種子,就能快速長(zhǎng)出自己想要的莊稼。
2、既要成本低,又要效率高,還要“體驗(yàn)”好
NLP產(chǎn)業(yè)落地還有牽扯要素更多的“我全都要”現(xiàn)象——在應(yīng)用開(kāi)發(fā)過(guò)程中,因?yàn)榻当驹鲂У闹餍?希望成本能夠更低、效率可以更高,而開(kāi)發(fā)者在龐雜的開(kāi)發(fā)工作面前又往往還希望體驗(yàn)?zāi)軌蚋谩?/p>
如果在過(guò)去,這種需求大概會(huì)被技術(shù)服務(wù)方懟回來(lái),但隨著平臺(tái)化能力的提升,NLP已經(jīng)完全具備了滿足這種矛盾需求的能力。
仍然以文心為例,它全面降低了NLP的定制開(kāi)發(fā)成本,在強(qiáng)大語(yǔ)義理解能力下對(duì)數(shù)據(jù)標(biāo)注廣度和深度要求降低——90%準(zhǔn)確度的模型,過(guò)去需要5100條數(shù)據(jù),現(xiàn)在可能只要220條數(shù)據(jù);在算力上也類似,由于集成了ERNIE預(yù)訓(xùn)練模型,企業(yè)只需要單機(jī)微調(diào)即可取得世界領(lǐng)先效果的NLP模型,極大降低算力成本。
可以看出,這種成本的降低伴隨著效率的提升,二者是一體兩面的關(guān)系。而更進(jìn)一步看,對(duì)實(shí)際參與開(kāi)發(fā)工作的開(kāi)發(fā)者而言,僅需要配置或編寫(xiě)少量代碼便可完成從模型訓(xùn)練到模型評(píng)估,1周的工作1天完成,這本身也是一種體驗(yàn)上的優(yōu)化。
類似的還有UNIT智能對(duì)話與定制服務(wù)平臺(tái),在本次升級(jí)后數(shù)據(jù)標(biāo)注成本的進(jìn)一步降低30%以上。重點(diǎn)場(chǎng)景預(yù)置的場(chǎng)景化解決方案,能夠幫助開(kāi)發(fā)者以更低的成本、更高的效率完成智能對(duì)話系統(tǒng)的構(gòu)建,而這種構(gòu)建也不需要長(zhǎng)篇大論、邏輯復(fù)雜的編程,只需要調(diào)用對(duì)應(yīng)的模塊即可。
3、既要單環(huán)節(jié)強(qiáng)化,也要全鏈條深入
“既全且深”在過(guò)去是NLP開(kāi)發(fā)者對(duì)平臺(tái)服務(wù)的美好理想,既能夠提供全面的服務(wù),每個(gè)細(xì)分服務(wù)還能夠做到足夠得深。
現(xiàn)在,這種理想已經(jīng)變成現(xiàn)實(shí),它同樣得益于技術(shù)和服務(wù)的長(zhǎng)期積累。
以百度NLP智能創(chuàng)作平臺(tái)為例,該平臺(tái)一年多以來(lái)的自動(dòng)創(chuàng)作文章累計(jì)200萬(wàn)+,相當(dāng)一個(gè)10人團(tuán)隊(duì)至少工作45年;“圖文轉(zhuǎn)視頻能力”上線4個(gè)月,被7000多家客戶使用,自動(dòng)創(chuàng)作短視頻15萬(wàn),相當(dāng)于一個(gè)人至少要工作100年。
在此基礎(chǔ)上,智能創(chuàng)作平臺(tái)進(jìn)行了再升級(jí),一次性推出囊括智能策劃、智能采編和智能審校全鏈條的3大場(chǎng)景方案,而每個(gè)環(huán)節(jié),都十分深度而不只是簡(jiǎn)單的布局。
例如,在智能采編環(huán)節(jié),借助融合文本、視覺(jué)、語(yǔ)音的跨模態(tài)AI技術(shù),一方面提供文章創(chuàng)作多樣、易用的工具,另一方面,還整合了視頻編輯、圖文與視頻互相轉(zhuǎn)換等視頻生產(chǎn)實(shí)用能力,實(shí)際應(yīng)用可以幫助視頻生產(chǎn)速度達(dá)到原有的6倍。
可以認(rèn)為,在百度等巨頭的積極探索下,過(guò)去NLP領(lǐng)域那些不可能、充滿矛盾的產(chǎn)業(yè)應(yīng)用需求,最終將變得稀松平常。
三、讓AI強(qiáng)者恒強(qiáng)的“自增強(qiáng)循環(huán)”,這次AI巨頭又有了新的玩法
在AI發(fā)展領(lǐng)域有典型的來(lái)自實(shí)踐的“自增強(qiáng)循環(huán)”現(xiàn)象,即在深度積累下不斷在自身業(yè)務(wù)、產(chǎn)業(yè)領(lǐng)域進(jìn)行實(shí)踐,將成果反饋,推動(dòng)算法、數(shù)據(jù)等不斷進(jìn)步,自我強(qiáng)化,對(duì)行業(yè)的領(lǐng)先像滾雪球一樣越滾越大。
例如,百度NLP領(lǐng)先行業(yè)的UNIT,自發(fā)布以來(lái),2.7萬(wàn)多開(kāi)發(fā)者在平臺(tái)累積知識(shí)條目總量2.4億,支撐了超過(guò)10萬(wàn)個(gè)智能對(duì)話應(yīng)用,與最終用戶總計(jì)進(jìn)行了超過(guò)4200億次交互。
這些實(shí)踐的強(qiáng)化,反過(guò)來(lái)讓UNIT能力更上一層樓,推出更多更低成本、更高效率、更好開(kāi)發(fā)體驗(yàn)的服務(wù),這種正向循環(huán)讓UNIT超越競(jìng)品越來(lái)越多。
所謂的“強(qiáng)者恒強(qiáng)”,其實(shí)根本上就是來(lái)自于這種“自增強(qiáng)循環(huán)”。
現(xiàn)在,百度在NLP領(lǐng)域推進(jìn)這種“自增強(qiáng)循環(huán)”又多了一種玩法。如果說(shuō)過(guò)去的“自增強(qiáng)”過(guò)程是在自己的地盤(pán)中實(shí)踐推進(jìn),那么百度此次推出的行業(yè)計(jì)劃,則帶有聯(lián)合整個(gè)行業(yè)共同完成“自增強(qiáng)循環(huán)”的意味。
此次百度NLP推出的千言開(kāi)源數(shù)據(jù)計(jì)劃十分典型。
在百度的構(gòu)想中,它試圖“團(tuán)結(jié)”來(lái)自國(guó)內(nèi)多家高校和企業(yè)的數(shù)據(jù)資源研發(fā)者,共同建設(shè)這樣一個(gè)數(shù)據(jù)項(xiàng)目,在更多的“同行”加入下,獲得更豐富的任務(wù)類型、更多的開(kāi)源數(shù)據(jù)集合。
這樣做的好處,是讓計(jì)劃中的每一個(gè)參與者都能享受到整個(gè)行業(yè)的數(shù)據(jù)和模型積累,從復(fù)雜知識(shí)構(gòu)建、語(yǔ)義理解、知識(shí)融合、多模態(tài)融合等角度推動(dòng)技術(shù)的進(jìn)步,畢竟,百度NLP積累再多,也少于整個(gè)行業(yè),而NLP又是一個(gè)極度依賴積累的AI垂直領(lǐng)域。
千言第一期總共涵蓋了7大任務(wù),20多個(gè)中文開(kāi)源數(shù)據(jù)集合,這會(huì)是百度另一種“自增強(qiáng)循環(huán)”的開(kāi)啟,只不過(guò),它依靠的是整個(gè)行業(yè)橫向而不是自身實(shí)踐縱向的推進(jìn)力量,也將惠及整個(gè)行業(yè)。
通過(guò)行業(yè)共建的方式汲取精華獲得群策群力的成長(zhǎng),這是百度AI、NLP更大的手筆。
以這樣的視角再來(lái)看百度在此次峰會(huì)上推出以王海峰為代表的百度NLP“十年十人”,可以認(rèn)為,百度NLP在十年發(fā)展后,已經(jīng)不單被定義為一種屬于企業(yè)個(gè)體的優(yōu)勢(shì)技術(shù),更成為百度推動(dòng)機(jī)器更好地理解世界、服務(wù)于人這種技術(shù)信仰的典型代表,實(shí)現(xiàn)著更高維度的技術(shù)情懷。
總而言之,已經(jīng)完成“技術(shù)扛鼎”的百度NLP,重心已經(jīng)轉(zhuǎn)移到了產(chǎn)業(yè)落地上。作為走在NLP應(yīng)用于產(chǎn)業(yè)智能化最前線的巨頭,百度走出了有自身調(diào)性的路子,也通過(guò)滿足產(chǎn)業(yè)更復(fù)雜深度的方式來(lái)獲得更廣泛的認(rèn)可,以及相對(duì)競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)。與此同時(shí),從競(jìng)爭(zhēng)到競(jìng)合的行業(yè)態(tài)勢(shì),也通過(guò)百度的引導(dǎo)開(kāi)始發(fā)生在NLP領(lǐng)域。
*此內(nèi)容為【科技向令說(shuō)】原創(chuàng),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
【完】
曾響鈴
1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;
2虎嘯獎(jiǎng)評(píng)委;
3作家:【移動(dòng)互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機(jī)會(huì)】等暢銷書(shū)作者;
4《中國(guó)經(jīng)營(yíng)報(bào)》《商界》《商界評(píng)論》《銷售與市場(chǎng)》等近十家報(bào)刊、雜志特約評(píng)論員;
5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;
6“腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)椤白悦襟w”,成為一個(gè)行業(yè);
7騰訊全媒派榮譽(yù)導(dǎo)師、多家科技智能公司傳播顧問(wèn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )