近日,來(lái)自搜狗公司的視覺(jué)研究團(tuán)隊(duì),在國(guó)際自動(dòng)駕駛領(lǐng)域權(quán)威評(píng)測(cè)集Cityscapes上獲得實(shí)例分割評(píng)測(cè)的第?名,擊敗了Nvidia、Facebook、商湯等幾十支強(qiáng)勁的國(guó)際科研機(jī)構(gòu),并一舉刷新了世界記錄,代表中國(guó)向全世界彰顯了我們出色的技術(shù)實(shí)力。
這是今年搜狗繼CVPR大會(huì)上奪得WAD自動(dòng)駕駛識(shí)別挑戰(zhàn)賽冠軍之后,所摘得的又一桂冠。短期內(nèi)連奪兩項(xiàng)世界冠軍,充分證明了搜狗在計(jì)算機(jī)視覺(jué)上已經(jīng)位列行業(yè)領(lǐng)先地位。
Cityscapes評(píng)測(cè)數(shù)據(jù)集是什么?
眾所周知,人工智能技術(shù)在自動(dòng)駕駛領(lǐng)域有著非常廣闊的市場(chǎng)空間,也是最被人們所看好的一大應(yīng)用前景。而如何決定AI判斷識(shí)別路況信息的理解能力,就取決于它的評(píng)測(cè)數(shù)據(jù)集水準(zhǔn)。
Cityscapes評(píng)測(cè)數(shù)據(jù)集在2015年由奔馳公司推動(dòng)發(fā)布,是目前公認(rèn)的自動(dòng)駕駛領(lǐng)域內(nèi)最具權(quán)威性和專業(yè)性的圖像語(yǔ)義分割評(píng)測(cè)集之一,其關(guān)注真實(shí)場(chǎng)景下的城區(qū)道路環(huán)境理解,任務(wù)難度更?,且更貼近于自動(dòng)駕駛等熱門需求。在Cityscapes評(píng)測(cè)數(shù)據(jù)集之中,共分為像素分割和實(shí)例分割兩個(gè)子任務(wù),其中相較于像素分割,實(shí)例分割的難度要更大,也是計(jì)算機(jī)視覺(jué)領(lǐng)域最重要、最具挑戰(zhàn)的任務(wù)之一。
如何讓機(jī)器變得更加“聰明”,具備足夠的學(xué)習(xí)能力,是所有人工智能研發(fā)時(shí)的最大難題,更是國(guó)內(nèi)外科技企業(yè)爭(zhēng)相研究的自動(dòng)駕駛技術(shù)。能夠在Cityscapes評(píng)測(cè)數(shù)據(jù)集中脫穎而出,打破世界紀(jì)錄,意味著搜狗已經(jīng)具備了強(qiáng)大的AI技術(shù)硬實(shí)力。
實(shí)例分割,自動(dòng)駕駛的曙光已現(xiàn)
實(shí)例分割是一個(gè)很綜合的問(wèn)題,融合了目標(biāo)檢測(cè)、圖像分割、圖像分類等多種AI技術(shù)。顧名思義,像素級(jí)別的語(yǔ)義分割,是對(duì)圖像中的每個(gè)像素都劃分出對(duì)應(yīng)的類別,即實(shí)現(xiàn)像素級(jí)別的分類;?分類的具體對(duì)象,即為實(shí)例。那么實(shí)例分割不僅要進(jìn)行像素級(jí)別的分類,還需要在具體的類別基礎(chǔ)上區(qū)別開(kāi)不同的實(shí)例。實(shí)例分割對(duì)自駕汽車、機(jī)器人、視頻監(jiān)控等領(lǐng)域,都有著舉足輕重的重要價(jià)值,獲得全世界科學(xué)研發(fā)界的密切關(guān)注。
Cityscapes評(píng)測(cè)集包含50個(gè)城市不同情況下的街景,以及30類物體標(biāo)注。此次搜狗參加的實(shí)例場(chǎng)景圖像語(yǔ)義分割評(píng)測(cè),類別對(duì)象多、場(chǎng)景復(fù)雜,挑戰(zhàn)難度非常大。面對(duì)復(fù)雜的實(shí)例環(huán)境,搜狗所展示的技術(shù)十分巧妙。
過(guò)去,我們常常會(huì)把AI的關(guān)注點(diǎn)放在單一的車道上,而實(shí)際的路況信息乃是十分復(fù)雜且多變的,必須要求駕駛員有足夠的“眼觀六路耳聽(tīng)八方”的能力,用縱覽全局的目光來(lái)觀察整個(gè)路況?;谶@個(gè)原因,搜狗通過(guò)引?全局編碼模塊,來(lái)顯著提升了全局信息在實(shí)例分割中的影響。全局編碼模塊可以很好地捕獲圖像中的語(yǔ)義信息,并選擇性地突出顯示與實(shí)例相關(guān)聯(lián)的特征映射,從而提升準(zhǔn)確率。
另一方面,在訓(xùn)練過(guò)程中如果只是簡(jiǎn)單地引?每個(gè)像素的分割損失,而不是著重使?場(chǎng)景的全局上下?信息,會(huì)導(dǎo)致嚴(yán)重的類間不平衡問(wèn)題。針對(duì)這一現(xiàn)狀,搜狗引入了一種全局實(shí)例例編碼損失函數(shù)GIE-loss。這種損失函數(shù)會(huì)預(yù)測(cè)場(chǎng)景中出現(xiàn)的實(shí)例類別,來(lái)加強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)全局語(yǔ)義信息的能?。不像傳統(tǒng)的針對(duì)每個(gè)像素的損失函數(shù),GIE-loss對(duì)每個(gè)物體,不管?大?小都是同等對(duì)待的,在使用這個(gè)損失函數(shù)后,?物體的分割效果明顯變好。
(對(duì)比圖1)
(對(duì)比圖2)
(對(duì)比圖3)
通過(guò)上面的結(jié)果對(duì)比圖,我們可以清晰的看出全局編碼模塊的引?,徹底改變了實(shí)例分割傳統(tǒng)算法中遠(yuǎn)近物體不能兼顧的缺點(diǎn),近處物體可以識(shí)別的很好,遠(yuǎn)處小物體的分割效果也提升了非常多,使得最終的AP100指標(biāo)遠(yuǎn)超其他隊(duì)伍。
截至目前,Cityscapes評(píng)測(cè)吸引了近百支隊(duì)伍參賽,包括Facebook、香港中?大學(xué)、商湯和NVIDIA(英偉達(dá))等眾多國(guó)內(nèi)外優(yōu)秀創(chuàng)新企業(yè)和頂尖學(xué)術(shù)機(jī)構(gòu)參加。值得一提的是,在過(guò)去的近兩年時(shí)間里,商湯、港中文團(tuán)隊(duì)與NVIDIA(英偉達(dá))幾乎包攬了所有圖像分割評(píng)測(cè)的冠軍。而首次參賽的搜狗團(tuán)隊(duì),各項(xiàng)評(píng)測(cè)指標(biāo)均遠(yuǎn)超其他隊(duì)伍,打破了世界紀(jì)錄,以無(wú)可爭(zhēng)議的成績(jī)拿下了第一名。
搜狗視覺(jué)研究團(tuán)隊(duì)通過(guò)不斷地算法積累和迭代,建立了一套高效易用的通用檢測(cè)分割框架,可以針對(duì)任務(wù)快速遷移算法模型,達(dá)到實(shí)際應(yīng)用需求。CVPR2018 WAD檢測(cè)任務(wù)和本次實(shí)例分割任務(wù)所用模型基本一致,驗(yàn)證了模型的高效易用性。同時(shí)團(tuán)隊(duì)最近也做了一些簡(jiǎn)單的實(shí)驗(yàn), 在少量代碼改動(dòng)的情況下,僅僅訓(xùn)練幾個(gè)小時(shí),便可以在一些著名的評(píng)測(cè)數(shù)據(jù)集上達(dá)到top的成績(jī)。
聚焦“自然交互+知識(shí)計(jì)算”,將成就搜狗人工智能的未來(lái)之路
人工智能的命題范圍很大,而搜狗選擇的突破口很小。以點(diǎn)帶面,正是王小川為搜狗所規(guī)劃的未來(lái)道路。
一直以來(lái),搜狗都在堅(jiān)持著“自然交互+知識(shí)計(jì)算”的人工智能核心戰(zhàn)略,專注于自然交互領(lǐng)域展開(kāi)發(fā)力。在語(yǔ)音領(lǐng)域,擁有充足真實(shí)語(yǔ)料數(shù)據(jù)優(yōu)勢(shì)的搜狗,把語(yǔ)音識(shí)別與人機(jī)對(duì)話相結(jié)合,發(fā)布了知音引擎,并推出了全球首款商用AI同傳。除了單獨(dú)的語(yǔ)音識(shí)別“聽(tīng)的能力”之外,搜狗還向著合成方向的“說(shuō)的能力”展開(kāi)突破,能夠自動(dòng)學(xué)習(xí)的AI機(jī)器兼具了聽(tīng)、說(shuō)、翻譯等多種能力,位居業(yè)界領(lǐng)先地位。多模態(tài)輸入,已成為了搜狗語(yǔ)音交互的研發(fā)重心。
而在視覺(jué)領(lǐng)域,搜狗也實(shí)現(xiàn)了AI技術(shù)的不斷突破,讓機(jī)器的自然交互變得更加全面。2017年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,搜狗發(fā)布了行業(yè)首款唇語(yǔ)識(shí)別技術(shù),實(shí)現(xiàn)了視覺(jué)與聽(tīng)覺(jué)的首次結(jié)合,幫助機(jī)器以更加多元化的維度來(lái)理解用戶的訴求。在車載、智能家居等垂直場(chǎng)景下,準(zhǔn)確率高達(dá)90%。本次在Cityscapes的實(shí)例場(chǎng)景圖像語(yǔ)義分割評(píng)測(cè)中大獲全勝,更是體現(xiàn)了搜狗對(duì)于視覺(jué)識(shí)別的技術(shù)積累,幫助機(jī)器進(jìn)一步提升各項(xiàng)感知能力的交互水準(zhǔn)。
連續(xù)獲得多項(xiàng)國(guó)際比賽冠軍的搜狗,已經(jīng)證明了自己在人工智能領(lǐng)域的充足技術(shù)底蘊(yùn)。我們有理由相信,在未來(lái)的AI賽道上,占據(jù)領(lǐng)先優(yōu)勢(shì)的搜狗一定能取得更加出色的成績(jī),用實(shí)際的AI產(chǎn)品來(lái)切身改善用戶的交互體驗(yàn)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- GitLab將告別中國(guó)區(qū)用戶:是時(shí)候選擇新的“極狐”或保護(hù)賬號(hào)了
- 蘋果明年推至少22款新品,阿里非洲首站啟動(dòng),科技新品盛宴拉開(kāi)帷幕
- SUSE預(yù)測(cè):未來(lái)私有AI平臺(tái)崛起,讓我們共同見(jiàn)證AI的未來(lái)
- AI伴侶“小奇”:奇富科技重塑金融服務(wù)體驗(yàn)的探索之作
- 揭秘軟銀孫正義神秘芯片計(jì)劃:打造超越NVIDIA的未來(lái)科技新星
- 大模型創(chuàng)企星辰資本獲數(shù)億融資,騰訊啟明等巨頭入局,人工智能新篇章開(kāi)啟
- 大模型獨(dú)角獸階躍星辰融資新動(dòng)態(tài):數(shù)億美金B(yǎng)輪,揭秘星辰未來(lái)之路
- 哪吒汽車創(chuàng)始人資金遭凍結(jié),1986萬(wàn)元股權(quán)風(fēng)波引關(guān)注
- 本田與日產(chǎn)醞釀合并:明年6月敲定協(xié)議,新公司社長(zhǎng)待本田推薦
- 金融大模型新突破:百川智能Baichuan4-Finance引領(lǐng)行業(yè),準(zhǔn)確率領(lǐng)先GPT-4近20%,變革金融業(yè)未來(lái)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。