近日,網(wǎng)易云音樂2篇論文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入選ICASSP2023,論文提出的兩種算法模型均優(yōu)于現(xiàn)有最先進(jìn)模型。
一種是歌唱評(píng)價(jià)算法模型TG-Critic,利用它可以僅依靠一段演唱音頻判斷歌手演唱水平,實(shí)驗(yàn)結(jié)果表明,算法模型評(píng)估的歌曲與人工專家評(píng)價(jià)“演唱水平好”的歌曲,相似度達(dá)91%;另一種是識(shí)別圖像樂譜的算法模型,通過模型識(shí)別圖片中的五線譜,實(shí)驗(yàn)結(jié)果在復(fù)音樂譜上的錯(cuò)誤率最高也僅為2.1%。
據(jù)了解,ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學(xué)、語音與信號(hào)處理會(huì)議,是IEEE主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議,在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。此次入選,代表了網(wǎng)易云音樂在國際舞臺(tái)上,展示出了在音樂音頻領(lǐng)域的技術(shù)實(shí)力。
而且憑借在音樂技術(shù)領(lǐng)域的積累創(chuàng)新,網(wǎng)易云音樂也不斷將前沿領(lǐng)域研究成果應(yīng)用于實(shí)踐。依靠目前準(zhǔn)確率最高的歌曲質(zhì)量評(píng)價(jià)算法,歌唱評(píng)價(jià)將不再依賴人力手工準(zhǔn)備模板物料,歌手也不再需要模仿模板以獲取高分,更鼓勵(lì)歌手的個(gè)性化演繹。而且相比卡拉ok中的傳統(tǒng)歌唱評(píng)價(jià),該模型未來將用于更加豐富的使用場(chǎng)景,如歌曲分發(fā)、優(yōu)質(zhì)歌手挖掘、聲音社交等等領(lǐng)域。而利用識(shí)別圖像樂譜的算法模型,可以將模糊的圖片樂譜準(zhǔn)確識(shí)別,方便轉(zhuǎn)換為利用率更高的格式,服務(wù)于音樂人、用戶在欣賞、教育、創(chuàng)作等場(chǎng)景的需要。
三大技術(shù)創(chuàng)新拆解“開口跪”,將全球最優(yōu)算法準(zhǔn)確率至少提升4%
當(dāng)歌唱老師和專家聽到一首歌,就能迅速可以判斷出歌手的演唱水平,而普通人則會(huì)用“開口跪”表達(dá)夸贊。當(dāng)人們?cè)u(píng)價(jià)歌聲質(zhì)量時(shí),人聲的音色是影響判斷的重要因素。受其啟發(fā),網(wǎng)易云音樂首創(chuàng)提出了一個(gè)音色為指導(dǎo)的歌唱評(píng)價(jià)模型:TG-Critic,將全球最優(yōu)算法準(zhǔn)確率提升4%以上。
據(jù)介紹,網(wǎng)易云音樂音頻實(shí)驗(yàn)室在歌唱評(píng)價(jià)模型的設(shè)計(jì)過程中引入了三個(gè)主要?jiǎng)?chuàng)新點(diǎn):
1.首次在模型中顯式引入音色信息輔助歌聲評(píng)價(jià):研究表明,歌手的"音色"是影響人們對(duì)于歌聲感受的重要因素。但不同于音準(zhǔn)、節(jié)奏等較為簡單的屬性,音色是一系列復(fù)雜而抽象的感受的集合,因此其提取過程更為復(fù)雜,更難被模型直接捕捉到。至今為止的歌聲自動(dòng)評(píng)價(jià)系統(tǒng)中,還沒有研究聚焦音色特征對(duì)于模型預(yù)測(cè)的影響。為了填補(bǔ)這一空缺,團(tuán)隊(duì)創(chuàng)新性地使用原本為“歌手識(shí)別”任務(wù)設(shè)計(jì)的預(yù)訓(xùn)練模型,提取與音色相關(guān)的高級(jí)特征,并將其用作歌聲評(píng)價(jià)模型的輸入。盡管這些特征原本并非為歌聲質(zhì)量設(shè)計(jì),但是來自質(zhì)量標(biāo)簽為“好”和“差”的樣本的特征,在高維空間中分別呈現(xiàn)出較明顯的聚集現(xiàn)象,證明了其與歌聲質(zhì)量的相關(guān)性。
2.遷移高分辨率網(wǎng)絡(luò)結(jié)構(gòu)處理聲譜特征:除了音色特征輸入,團(tuán)隊(duì)從音頻樣本中提取CQT聲譜特征作為模型的主要輸入。為了解決卷積網(wǎng)絡(luò)局部性帶來的問題,團(tuán)隊(duì)將圖像分割領(lǐng)域較為常用的“高分辨率網(wǎng)絡(luò)”遷移到歌聲評(píng)價(jià)任務(wù)中,分別通過高、中、低三個(gè)不同的分辨率分支分別處理特征。通過高分辨率特征捕捉局部信息(如演唱技巧、小瑕疵等)、低分辨率特征捕捉長距離信息(氣息穩(wěn)定性、音準(zhǔn)等),從而實(shí)現(xiàn)保持高效性的同時(shí),提升模型提取有用信息的能力。
3.提出循環(huán)自動(dòng)數(shù)據(jù)標(biāo)注降低人工成本:對(duì)于一個(gè)模型的訓(xùn)練,可靠的標(biāo)注數(shù)據(jù)尤為重要。團(tuán)隊(duì)收集了3萬余條歌聲數(shù)據(jù)樣本,以及其對(duì)應(yīng)的機(jī)器打分(針對(duì)音準(zhǔn)、節(jié)奏等)、紅心數(shù)、評(píng)論數(shù)等可以一定程度反映歌聲質(zhì)量的元數(shù)據(jù)。通過一個(gè)循環(huán)迭代過程,只需要人工標(biāo)注其中小部分樣本,便能獲得足夠可靠的自動(dòng)數(shù)據(jù)標(biāo)簽,大大降低了標(biāo)注所需的人工成本。
實(shí)驗(yàn)結(jié)果表明,在各類公開數(shù)據(jù)集上,網(wǎng)易云音樂提出的TG-Critic均達(dá)到國際最先進(jìn)水平,相比已有算法,準(zhǔn)確率提升至少4%,部分?jǐn)?shù)據(jù)集提升10%以上。而且應(yīng)用于網(wǎng)易云音樂業(yè)務(wù)測(cè)聽的結(jié)果顯示:在音樂人業(yè)務(wù):運(yùn)營評(píng)估歌曲推薦值≥3共159首歌曲中,算法評(píng)價(jià)為“演唱水平好”共144首,準(zhǔn)確率達(dá)90.5%;在直播業(yè)務(wù):運(yùn)營提供100首算法判定“演唱水平好”歌曲的人工驗(yàn)證,準(zhǔn)確率91%;在500+全演唱水平分類實(shí)驗(yàn)中,準(zhǔn)確率81.2%。
據(jù)了解,TG-Critic歌曲質(zhì)量評(píng)價(jià)模型將進(jìn)一步減少人力依賴并擴(kuò)大應(yīng)用場(chǎng)景在直播、音樂人等內(nèi)容分發(fā)場(chǎng)景,可協(xié)助人工挑選優(yōu)質(zhì)內(nèi)容,可服務(wù)于作品審核、分發(fā)或推薦,優(yōu)質(zhì)歌手挖掘在社交、游戲等C端場(chǎng)景,可提供“開口跪挑戰(zhàn)”等運(yùn)營玩法。
懂AI又懂樂理,看圖識(shí)譜技術(shù)上的又一次突破
隨著深度學(xué)習(xí)方法的應(yīng)用,OCR(圖像文字識(shí)別 )近年得到了長足的進(jìn)步,而OMR(圖像樂譜識(shí)別)卻始終處于研究應(yīng)用的初級(jí)階段。由于這個(gè)方向?qū)儆诮徊鎸W(xué)科,既要懂視覺算法又要懂樂理。目前市面上的商業(yè)或開源軟件都不具備可用的準(zhǔn)確率。
因此,網(wǎng)易云音樂音視頻實(shí)驗(yàn)室采用基于端到端的算法識(shí)別路線,優(yōu)化識(shí)別流程:1)拿到一個(gè)樂譜圖片,檢測(cè)圖片中的曲譜位置坐標(biāo);2)提取曲譜區(qū)域,進(jìn)行曲譜識(shí)別,識(shí)別出樂譜中的內(nèi)容信息,如下圖:
針對(duì)該樂譜識(shí)別模型,網(wǎng)易云音樂音頻實(shí)驗(yàn)室也做了多方面的創(chuàng)新,大大提高了準(zhǔn)確性。例如,將Transformer引入到樂譜識(shí)別任務(wù)中,通過該結(jié)構(gòu)可以實(shí)現(xiàn)更大的感受野,有利于對(duì)長序列進(jìn)行預(yù)測(cè),提升識(shí)別準(zhǔn)確率;同時(shí),將樂譜的信息維度將樂譜符號(hào)分為:樂譜符號(hào)全局表征+樂譜符號(hào)局部表征+音符音高。這樣的拆分方式更利于機(jī)器理解和學(xué)習(xí)。
值得注意的是,團(tuán)隊(duì)還精心設(shè)計(jì)了一套樂譜圖片拍攝的方案。為了收集大量真實(shí)的數(shù)據(jù),使用手機(jī)作為拍照工具,模仿最真實(shí)的拍照?qǐng)鼍?,?duì)明、暗光場(chǎng)景的紙質(zhì)樂譜進(jìn)行拍照,以及對(duì)顯示在顯示屏上的樂譜進(jìn)行拍照。
實(shí)驗(yàn)結(jié)果表示,網(wǎng)易云音樂的樂譜識(shí)別算法的準(zhǔn)確性已經(jīng)超過目前最好的端到端音樂譜識(shí)別方法,大幅降低錯(cuò)誤率。下圖中第一行為正確的樂譜識(shí)別結(jié)果,第二行為目前最好的復(fù)音樂譜識(shí)別方法的識(shí)別結(jié)果,第三行為本技術(shù)提出方案的識(shí)別結(jié)果,紅框標(biāo)記的為錯(cuò)誤區(qū)域。
據(jù)介紹,該方法可以準(zhǔn)確地將圖片樂譜轉(zhuǎn)換為midi、musicxml等格式,未來可用于音樂輔助教育、聽歌搜譜等場(chǎng)景中,致力于在音樂欣賞、教育、創(chuàng)作等場(chǎng)景上,為音樂人、用戶提供更好的服務(wù)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )