MIT博士生Mark Hamilton開發(fā)的DenseAV算法,通過音頻和視頻匹配學(xué)習(xí)人類語言。
MIT電氣工程與計(jì)算機(jī)科學(xué)博士生Mark Hamilton,MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)成員,旨在利用機(jī)器理解動(dòng)物的交流方式。為此,他首先創(chuàng)建了一個(gè)從零開始學(xué)習(xí)人類語言的系統(tǒng)。
“有趣的是,靈感來自電影《企鵝的行進(jìn)》中的一幕。一只企鵝在冰上摔倒時(shí)發(fā)出一聲呻吟,就像是在說臟話。這時(shí)我們想,也許我們可以用音頻和視頻來學(xué)習(xí)語言,”Hamilton說?!笆欠裼锌赡茏屢粋€(gè)算法整天看電視,從中找出我們在說什么?”
Hamilton和他的同事們訓(xùn)練了DenseAV模型,通過匹配音頻和視頻來學(xué)習(xí)語言。例如,當(dāng)聽到“在350度下烤蛋糕”時(shí),模型會(huì)尋找蛋糕或烤箱的圖像。在訓(xùn)練DenseAV時(shí),研究人員觀察了模型在聽到聲音時(shí)關(guān)注的像素點(diǎn)。例如,當(dāng)有人說“狗”時(shí),算法會(huì)立即在視頻中尋找狗。這種像素選擇過程可以揭示算法對詞語的理解。
更有趣的是,當(dāng)DenseAV聽到狗叫聲時(shí),它也會(huì)在視頻中尋找狗。這引起了研究團(tuán)隊(duì)的興趣,他們想知道算法是否能區(qū)分“狗”這個(gè)詞和狗叫聲。通過給DenseAV一個(gè)“雙側(cè)大腦”,研究發(fā)現(xiàn),DenseAV的一側(cè)自然專注于語言,例如“狗”這個(gè)詞,另一側(cè)則專注于聲音,如狗叫聲。這表明DenseAV不僅學(xué)會(huì)了詞語的含義和聲音的位置,還學(xué)會(huì)了區(qū)分這些跨模態(tài)的聯(lián)系,而無需人工干預(yù)或書面語言知識。
Hamilton表示,DenseAV可以應(yīng)用于學(xué)習(xí)互聯(lián)網(wǎng)上發(fā)布的大量視頻內(nèi)容,如教學(xué)視頻。另一個(gè)令人興奮的應(yīng)用是理解沒有書面形式的語言,如海豚或鯨魚的交流。最終,研究團(tuán)隊(duì)希望這種方法能用于發(fā)現(xiàn)其他信號對之間的模式,比如地震聲音和地質(zhì)學(xué)之間的關(guān)系。
研究團(tuán)隊(duì)面臨的主要挑戰(zhàn)是無需任何文本輸入學(xué)習(xí)語言。他們的目標(biāo)是從零開始重新發(fā)現(xiàn)語言的含義,避免使用預(yù)訓(xùn)練的語言模型。這種方法受到兒童通過觀察和傾聽環(huán)境來學(xué)習(xí)語言的啟發(fā)。
為了實(shí)現(xiàn)這一目標(biāo),DenseAV使用了兩個(gè)主要組件分別處理音頻和視頻數(shù)據(jù)。這種分離使得算法無法作弊,迫使其識別物體,并為音頻和視頻信號創(chuàng)建詳細(xì)而有意義的特征。DenseAV通過比較音頻和視頻信號對來學(xué)習(xí)哪些信號匹配,哪些信號不匹配。這種稱為對比學(xué)習(xí)的方法不需要標(biāo)注的例子,使DenseAV能夠自行找出語言的重要預(yù)測模式。
DenseAV和以前算法的主要區(qū)別在于,以前的方法只關(guān)注聲音和圖像之間的單一相似性。而DenseAV算法搜索并聚合音頻片段和圖像像素之間的所有可能匹配。這不僅提高了性能,還允許團(tuán)隊(duì)精確定位聲音。
研究人員在包含200萬個(gè)YouTube視頻的AudioSet上訓(xùn)練了DenseAV,并創(chuàng)建了新數(shù)據(jù)集來測試模型的鏈接聲音和圖像的能力。在這些測試中,DenseAV在識別對象名稱和聲音的任務(wù)中優(yōu)于其他頂尖模型,證明了其有效性。
由于涉及的數(shù)據(jù)量巨大,項(xiàng)目完成耗時(shí)約一年。團(tuán)隊(duì)表示,轉(zhuǎn)向大規(guī)模變壓器架構(gòu)帶來了挑戰(zhàn),因?yàn)檫@些模型很容易忽視細(xì)節(jié)。
未來,團(tuán)隊(duì)旨在創(chuàng)建能夠從大量視頻或音頻數(shù)據(jù)中學(xué)習(xí)的系統(tǒng),這對于新的領(lǐng)域至關(guān)重要,因?yàn)檫@些領(lǐng)域可能只有大量的單一模式數(shù)據(jù)。團(tuán)隊(duì)還計(jì)劃通過使用更大的架構(gòu),并可能整合語言模型的知識來提高性能。
“識別和分割圖像中的視覺對象,以及音頻記錄中的環(huán)境聲音和口語詞匯,本身就是各自的難題。DenseAV在通過視覺和聲音觀察世界的過程中,同時(shí)解決這些任務(wù)方面取得了重大進(jìn)展,”未參與此工作的德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)助理教授David Harwath說?!霸撃P蛯λf的具體語言沒有任何假設(shè),因此原則上可以從任何語言的數(shù)據(jù)中學(xué)習(xí)。通過擴(kuò)展到數(shù)千或數(shù)百萬小時(shí)的多種語言視頻數(shù)據(jù),看看DenseAV能學(xué)到什么,將是一件令人興奮的事。”
論文的其他作者包括牛津大學(xué)計(jì)算機(jī)視覺工程教授Andrew Zisserman,Google AI感知研究員John R. Hershey,以及MIT電氣工程與計(jì)算機(jī)科學(xué)教授、CSAIL首席研究員William T. Freeman。他們的研究得到了美國國家科學(xué)基金會(huì)、皇家學(xué)會(huì)研究教授職位和EPSRC視覺AI項(xiàng)目的部分支持。這項(xiàng)工作將在本月的IEEE/CVF計(jì)算機(jī)視覺與模式識別會(huì)議上展示。
本文譯自 MIT CSAIL,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )