VentureBeat稱,Deezer研究員已經(jīng)研發(fā)出了能夠?qū)⒛承└枨c情緒和強度聯(lián)系在一起的AI系統(tǒng),其發(fā)布在Arxiv.org新出版的一篇名為《基于深度神經(jīng)網(wǎng)的音頻歌詞音樂情緒檢測》的論文里。
為了判斷一首歌的情緒,該團隊考慮了音頻信號和歌詞。一開始,他們把音頻信號投入一種帶有重建語言語境模型的神經(jīng)網(wǎng)絡(luò)。然后,通過使用一種存儲超過100萬首當代歌曲的元數(shù)據(jù)集——音樂推薦數(shù)據(jù)集( Million Song Dataset MSD),來教它怎樣判斷一首歌的情緒。再用Last.fm數(shù)據(jù)集,這個數(shù)據(jù)集可以分配標識給來自50多萬個獨一無二標簽的軌跡。許多標簽都是和情緒相關(guān)的,從這些標簽中,超過1萬4000多個英文單詞被賦予兩個刻度等級,和一個詞是多么的積極、消極、安靜、活躍聯(lián)系在一起,來訓練這個AI系統(tǒng)。
MSD只是包含歌曲元數(shù)據(jù),而不是歌曲本身,所以該團隊用些像歌名、藝術(shù)家、專輯名一樣的身份標識,將所有信息給Deezer的目錄羅列出來。約有60%的結(jié)果數(shù)據(jù)集(18,644條軌跡)用來訓練AI,剩下的則用來驗證和進一步測試該系統(tǒng)。
人們認為這種系統(tǒng)可以進一步觀察音樂、歌詞和情緒如何聯(lián)系。
最后,研究員稱,AI相比于更傳統(tǒng)的方式,能夠更好地檢測出歌曲是多么平靜和活躍,但當檢測歌曲有多么積極或消極時,卻和傳統(tǒng)方式表現(xiàn)無異?!八坪踹@次的收獲就是我們的模型,尤其在預測“價”時,能夠揭曉利用音頻和歌詞之間的中間聯(lián)系?!毖芯繂T在論文中寫道。
論文中也提到過,為了真的借助這個產(chǎn)品,一個帶有同步歌詞和音頻的數(shù)據(jù)庫將會大有幫助。如果這樣的數(shù)據(jù)庫存在,那么該團隊認為他們可以更精確的判斷模糊不定的音軌情緒,因為“某些情況,聽眾之間會有很大的波動?!?比如人們不會總是覺得一首歌是積極的還是消極的)。最后,研究員認為,這種系統(tǒng)可以進一步研究音樂、歌詞和情緒是如何聯(lián)系的,還有可能區(qū)分和發(fā)現(xiàn)高音量時未貼標簽的數(shù)據(jù)的深度學習模型。
這與Deezer之前第一次試圖用AI區(qū)分歌曲來看,相去甚遠。去年,Deezer用在Sónar festival的一項挑戰(zhàn)回答了這個問題:“用戶在家時,我們怎樣檢測他們是在聽歌還是恰好在推薦歌曲呢?”。理論上,在未來學習中,Deezer能夠使用這類機器自動地區(qū)分和歸類歌曲——不僅僅是用藝術(shù)家的名字或音樂種類這種基礎(chǔ)的元數(shù)據(jù),而是一些更細致入微的東西,比如情緒。
本文譯自theverge,由譯者 Ayeshanyoga 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )