近日,人工智能領(lǐng)域頂級國際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI,影響因子24.314)再次接收了火山語音團隊有關(guān)機器學(xué)習(xí)的技術(shù)研究成果,即“基于自適應(yīng)遷移核函數(shù)的遷移高斯回歸模型”( ADATPITVE TRANSFER KERNEL LEARNING FOR TRANSFER GAUSSIAN PROCESS REGRESSION)(鏈接:https://ieeexplore.ieee.org/abstract/document/9937157)。
該成果主要針對遷移學(xué)習(xí)在低資源回歸問題中的應(yīng)用做了創(chuàng)新性基礎(chǔ)理論研究,具體包括以下幾個方面:
給出了遷移核函數(shù)的正式數(shù)學(xué)定義。
提出了三種廣義形式的遷移核函數(shù),而且現(xiàn)有的遷移核函數(shù)均可歸納為這三種廣義形式的特例。
提出了兩種改進的遷移核函數(shù),即線性積式核函數(shù)與多項式積式核函數(shù),并驗證了在遷移學(xué)習(xí)中的有效性:一方面展示了遷移效果優(yōu)劣與域相關(guān)性的必然關(guān)聯(lián);另一方面驗證了模型可以高效提升遷移效果的情況。
背景介紹
一直以來,高斯過程回歸模型(Gaussian process regression model, i.e., GP)作為一類基礎(chǔ)的貝葉斯機器學(xué)習(xí)模型,在工程與統(tǒng)計等領(lǐng)域的回歸問題中有著廣泛應(yīng)用。傳統(tǒng)的高斯過程回歸模型需要大量有監(jiān)督數(shù)據(jù)進行訓(xùn)練才可發(fā)揮好的效果,但在具體實踐中,收集和標(biāo)記數(shù)據(jù)是一項昂貴且費時的工程。
相比之下,遷移高斯過程回歸模型(Transfer GP)能夠高效利用不同領(lǐng)域(domain)的數(shù)據(jù)來降低標(biāo)記成本,主要通過設(shè)計遷移核函數(shù)(Transfer Kernel)來實現(xiàn)不同領(lǐng)域之間的數(shù)據(jù)遷移,通過引入域信息來建模域相關(guān)性,從而自適應(yīng)調(diào)控數(shù)據(jù)遷移強度,使異源數(shù)據(jù)應(yīng)用更加高效。
盡管在不同的領(lǐng)域(如計算工程學(xué),地質(zhì)統(tǒng)計學(xué),自然語言處理)都有遷移核函數(shù)的身影,遷移核函數(shù)并沒有一個正式的數(shù)學(xué)定義。基于此,該論文首先提出了正式的遷移核函數(shù)數(shù)學(xué)定義,并總結(jié)了三種廣義形式的遷移核函數(shù)。
基于廣義形式,本文展示了已有的遷移核函數(shù)為廣義形式的一種特例,并討論了其優(yōu)缺點。更進一步,文章提出了兩種改進的遷移核函數(shù),即線性積式核函數(shù)與多項式積式核函數(shù),旨在提高數(shù)據(jù)表征能力和域相關(guān)性的建模能力:具體來說理論證明了如何建模域相關(guān)性以確保提出的遷移核函數(shù)滿足核函數(shù)(kernel)的基本要求(半正定性),并討論了不同域相關(guān)性對應(yīng)的遷移場景;更重要的還展示了改進的遷移核函數(shù)可以無縫應(yīng)用到遷移高斯過程回歸模型中,而不帶來額外的計算負擔(dān),并在一些低資源回歸場景下有效提升遷移效果。
原理闡釋
本文的核心貢獻之一是提出了如下遷移核函數(shù)的正式定義:
基于上述定義,火山語音團隊進一步提出了三種廣義形式的遷移核函數(shù),分別為鏈?zhǔn)綇V義核函數(shù)和式廣義核函數(shù)以及積式廣義核函數(shù),而三種廣義形式分別對應(yīng)三種不同地處理域信息的方式。
現(xiàn)有廣泛應(yīng)用的一類遷移核函數(shù),屬于積式廣義核函數(shù)的一種特例。
的一個重要局限在于其只用一個簡單的參數(shù)化系數(shù)去建模域相關(guān)性,這對于復(fù)雜異構(gòu)的數(shù)據(jù),在表征能力上遠遠不足,所以首先提出了改進的線形積式核函數(shù),形式如下:
可以看出,用兩組基礎(chǔ)核函數(shù)的線形組合來區(qū)別域內(nèi)與域間的計算。這兩組線形組合有著不同的線形系數(shù),,而兩組系數(shù)的比值代表了source 和 target 在基礎(chǔ)核函數(shù) 上的域相關(guān)性。通過應(yīng)用豐富的基礎(chǔ)核函數(shù),可以表征更加復(fù)雜細膩的域相關(guān)性。
接下來的挑戰(zhàn)在于設(shè)計的在符合上述形式的同時,還需滿足核函數(shù)的基本要求,即半正定性(Postive Semi-definite),所以給出了如下定理:
從定理1可以看出,要滿足半正定性,中的線性系數(shù)應(yīng)滿足 ,即域間系數(shù)的值永遠小于等于域內(nèi)系數(shù)的值。其潛在含義是域內(nèi)系數(shù)代表了在 上數(shù)據(jù)遷移的上限能力,因此域間系數(shù)不能超過域內(nèi)系數(shù)。
更具體來說,若,則代表source和target在上完全不相關(guān),則不進行遷移;若, 則代表source和target在上完全相關(guān),則進行全量遷移;若,則代表source和target在上部分相關(guān),則進行部分遷移。
雖然提高了的表征能力,但仍然不能表征非線性的情況。因此本文進一步提出了多項式積式核函數(shù),形式如下:
其中,
上述數(shù)學(xué)形式較為抽象,因此展示如下圖形化結(jié)構(gòu):
可以看出,用兩個基礎(chǔ)核函數(shù)深度網(wǎng)絡(luò)來區(qū)別域內(nèi)與域間的計算,每個基礎(chǔ)核函數(shù)深度網(wǎng)絡(luò)由線形層與乘積層交替組成,例如上述例子中包括三層線形層和兩層乘積層;線形層的每個節(jié)點為上一層的輸出的線形組合,乘積層的每個節(jié)點為上一層相鄰輸出的乘積;每層線形層包含域內(nèi)與域間兩組線形系數(shù),而乘積層不包含可學(xué)習(xí)的參數(shù)。
更進一步,可以展開每個深度網(wǎng)絡(luò),從而得到如下形式的:
可以發(fā)現(xiàn),是的一種高階形式,即用基礎(chǔ)核函數(shù)的多項式形式為新的基礎(chǔ)核函數(shù),從而引入非線性。此外根據(jù)定理1,就可以很容易得到如下推論,從而保證的半正定性。
實驗驗證
除了理論推導(dǎo)之外,文章還展示了豐富的實驗驗證。“我們首先驗證了與準(zhǔn)確學(xué)習(xí)不同領(lǐng)域相關(guān)性的能力??梢钥闯瞿P湍軌蚝芎脤W(xué)習(xí)到兩個領(lǐng)域之間的相關(guān)性,同時還能取得更好的遷移效果, 即更小的均方根差。”火山語音團隊表示。
另外團隊還研究了不同模型在時間序列外推任務(wù)下的遷移效果,即根據(jù)有限的目標(biāo)數(shù)據(jù)和豐富的源數(shù)據(jù)對后續(xù)時序目標(biāo)數(shù)據(jù)的擬合能力,可以看出模型在遷移效果上要遠遠優(yōu)于其他模型。
最后,團隊還在四個現(xiàn)實數(shù)據(jù)集中對模型進行了驗證。與8個SOTA方法相比,模型在不同的遷移回歸任務(wù)中都取得了更好的遷移效果,即更小的均方根差。
火山語音,字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊,長期以來面向字節(jié)跳動內(nèi)部各業(yè)務(wù)線提供優(yōu)質(zhì)的語音AI技術(shù)能力以及全棧語音產(chǎn)品解決方案。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,多篇論文入選各類AI 頂級會議,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說等多款產(chǎn)品上,并通過火山引擎開放給外部企業(yè)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )