精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    噪聲語音識別:谷歌團(tuán)隊(duì)提出全新在線序列到序列模型

    近日谷歌團(tuán)隊(duì)發(fā)布了一篇關(guān)于在線語音識別的序列到序列模型論文,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,該模型可以實(shí)現(xiàn)在線實(shí)時(shí)的語音識別功能,并且對來自不同揚(yáng)聲器的聲音具有識別能力。

    以下內(nèi)容是雷鋒網(wǎng)AI科技評論根據(jù)論文內(nèi)容進(jìn)行的部分編譯。

    論文摘要

    生成式模型一直是語音識別的主要方法。然而,這些模型的成功依賴于使用的精密的組合和復(fù)雜方法。最近,關(guān)于深入學(xué)習(xí)方面的最新研究已經(jīng)產(chǎn)生了一種可以替代生成式模型的識別模型,稱為“序列到序列模型”。這種模型的準(zhǔn)確性幾乎可以與最先進(jìn)的生成模型相匹配。該模型在機(jī)器翻譯,語音識別,圖像標(biāo)題生成等方面取得了相當(dāng)大的經(jīng)驗(yàn)成果。由于這些模型可以在同一個(gè)步驟中端對端地進(jìn)行培訓(xùn),因此該模型是非常易于訓(xùn)練的,但它們在實(shí)踐中卻具有限制,即只能用于離線識別。這是因?yàn)樵撃P鸵笤谝欢卧掗_始時(shí)就輸入序列的整體以供使用,然而這對實(shí)時(shí)語音識別等任務(wù)來說是沒有任何意義的。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 1:本文使用的模型的總體架構(gòu)

    為了解決這個(gè)問題,谷歌團(tuán)隊(duì)最近引入了在線序列模型。這種在線序列模型具有將產(chǎn)生的輸出作為輸入的 特性,同時(shí)還可以保留序列到序列模型的因果性質(zhì)。這些模型具有在任何時(shí)間t產(chǎn)生的輸出將會影響隨后計(jì)算結(jié)果的特征。其中,有一種模型將使用二進(jìn)制隨機(jī)變量來選擇產(chǎn)生輸出的時(shí)間步長。該團(tuán)隊(duì)將這個(gè)模型稱為神經(jīng)自回歸傳感器(NAT)。這個(gè)模型將使用策略梯度方法來訓(xùn)練隨機(jī)變量。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 2:熵正則化對排放位置的影響。 每行顯示為輸入示例的發(fā)射預(yù)測,每個(gè)符號表示3個(gè)輸入時(shí)間步長。 'x'表示模型選擇在時(shí)間步長發(fā)出輸出,而“ - ”則表示相反的情況。 頂線 - 沒有熵懲罰,模型在輸入的開始或結(jié)束時(shí)發(fā)出符號,并且無法獲得有意義的梯度來學(xué)習(xí)模型。 中線 – 使用熵正規(guī)化,該模型及時(shí)避免了聚類排放預(yù)測,并學(xué)習(xí)有意義地?cái)U(kuò)散排放和學(xué)習(xí)模型。 底線 - 使用KL發(fā)散規(guī)則排放概率,同時(shí)也可以緩解聚類問題,盡管不如熵正則化那樣有效。

    通過使用估計(jì)目標(biāo)序列相對于參數(shù)模型的對數(shù)概率的梯度來訓(xùn)練該模型。 雖然這個(gè)模型并不是完全可以微分的,因?yàn)樗褂玫氖遣豢晌⒎值亩M(jìn)制隨機(jī)單元,但是可以通過使用策略梯度法來估計(jì)關(guān)于模型參數(shù)的梯度。更詳細(xì)地說,通過使用監(jiān)督學(xué)習(xí)來訓(xùn)練網(wǎng)絡(luò)進(jìn)行正確的輸出預(yù)測,并使用加強(qiáng)學(xué)習(xí)以訓(xùn)練網(wǎng)絡(luò)來決定何時(shí)發(fā)出各種輸出。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 3:在TIMIT上運(yùn)行示例培訓(xùn)

    圖3b和3c分別示出了混合比例分別為0.25和0.5的兩種情況的訓(xùn)練曲線的實(shí)例。 在這兩種情況下,都可以看出,該模型學(xué)習(xí)了過適合數(shù)據(jù)。

    谷歌團(tuán)隊(duì)還研究使用該模型進(jìn)行噪聲輸入,其中以不同混合比例將兩個(gè)揚(yáng)聲器的單聲道混合語音作為模型的輸入。

    實(shí)驗(yàn)和結(jié)果

    使用這個(gè)模型對兩種不同的語音語料庫進(jìn)行了實(shí)驗(yàn)。 第一組實(shí)驗(yàn)是對TIMIT進(jìn)行了初步實(shí)驗(yàn),以評估可能導(dǎo)致模型穩(wěn)定行為的超參數(shù)。 第二組實(shí)驗(yàn)是在不同混合比例下從兩個(gè)不同的揚(yáng)聲器(一個(gè)男性和一個(gè)女性)混合的語音進(jìn)行的。 這些實(shí)驗(yàn)被稱為Multi-TIMIT。

    A:TIMIT

    TIMIT數(shù)據(jù)集是音素識別任務(wù),其中必須從輸入音頻語音推斷音素序列。有關(guān)訓(xùn)練曲線的示例,請參見圖3。 可以看出,在學(xué)習(xí)有意義的模型之前,該模型需要更多的更新(> 100K)。 然而,一旦學(xué)習(xí)開始,即使模型受到策略梯度的訓(xùn)練,實(shí)現(xiàn)了穩(wěn)定的過程。

    表I顯示了通過這種方法與其他更成熟的模型對TIMIT實(shí)現(xiàn)的結(jié)果。 可以看出,該模型與其他單向模型比較,如CTC,DNN-HMM等。如果結(jié)合更復(fù)雜的功能,如卷積模型應(yīng)該可以產(chǎn)生更好的結(jié)果。 此外,該模型具有吸收語言模型的能力,因此,應(yīng)該比基于CTC和DNNHMM的模型更適合端到端的培訓(xùn),該模型不能固有地捕獲語言模型。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    表I:針對各種模型使用單向LSTM的TIMIT結(jié)果

    B:Multi-TIMIT

    通過從原始TIMIT數(shù)據(jù)混合男性聲音和女性聲音來生成新的數(shù)據(jù)集。 原始TIMIT數(shù)據(jù)對中的每個(gè)發(fā)音都有來自相反性別的聲音。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    表II:Multi-TIMIT的結(jié)果:該表顯示了該模型在不同比例的混合中為干擾語音所實(shí)現(xiàn)的音素誤差率(PER)。 還顯示了深層LSTM 和RNN-自感器 的CTC的結(jié)果

    表II顯示了使用混合揚(yáng)聲器的不同混合比例的結(jié)果。 可以看出,隨著混合比例的增加,模型的結(jié)果越來越糟糕。 對于實(shí)驗(yàn)而言,每個(gè)音頻輸入始終與相同的混音音頻輸入配對。 有趣的是,可以發(fā)現(xiàn),將相同的音頻與多個(gè)混淆的音頻輸入配對會產(chǎn)生更差的結(jié)果,這是由于產(chǎn)生了更為糟糕的過度配對。 這可能是因?yàn)樵撃P蛷?qiáng)大到足以復(fù)制整個(gè)轉(zhuǎn)錄的結(jié)果。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 5:Multi-TIMIT的聲音分布:該圖顯示了在TIMIT中發(fā)出干凈話語的情況下發(fā)出令牌的概率以及Multi-TIMIT中對應(yīng)的噪聲發(fā)音。 可以看出,對于Multi-TIMIT語句,該模型稍稍比TIMIT語句發(fā)出符號要晚一點(diǎn)。

    圖5顯示為示例Multi-TIMIT話語的模型發(fā)出的符號。 并與一個(gè)干凈模型的發(fā)出進(jìn)行比較。 一般來說,與TIMIT發(fā)出的模型相比,該模型選擇稍后再發(fā)布Multi-TIMIT。

    結(jié)論

    在本文中,谷歌團(tuán)隊(duì)引入了一種新的在線序列到序列模型的訓(xùn)練方式,并將其應(yīng)用于具有噪音輸入的環(huán)境。 作為因果模型的結(jié)果,這些模型可以結(jié)合語言模型,并且還可以為相同的音頻輸入生成多個(gè)不同的 轉(zhuǎn)錄結(jié)果。 這使它成為一類非常強(qiáng)大的模型。 即使在與TIMIT一樣小的數(shù)據(jù)集上,該模型依然能夠適應(yīng)混合語音。 從實(shí)驗(yàn)分析的角度來說,每個(gè)揚(yáng)聲器只耦合到一個(gè)干擾揚(yáng)聲器,因此數(shù)據(jù)集的大小是有限的。 通過將每個(gè)揚(yáng)聲器與多個(gè)其他揚(yáng)聲器配對,并將每個(gè)揚(yáng)聲器預(yù)測為輸出,應(yīng)該能夠?qū)崿F(xiàn)更強(qiáng)的魯棒性。 由于這種能力,該團(tuán)隊(duì)希望可以將這些模型應(yīng)用到未來的多通道、多揚(yáng)聲器識別中。

    近日谷歌團(tuán)隊(duì)發(fā)布了一篇關(guān)于在線語音識別的序列到序列模型論文,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,該模型可以實(shí)現(xiàn)在線實(shí)時(shí)的語音識別功能,并且對來自不同揚(yáng)聲器的聲音具有識別能力。

    以下內(nèi)容是雷鋒網(wǎng)AI科技評論根據(jù)論文內(nèi)容進(jìn)行的部分編譯。

    論文摘要

    生成式模型一直是語音識別的主要方法。然而,這些模型的成功依賴于使用的精密的組合和復(fù)雜方法。最近,關(guān)于深入學(xué)習(xí)方面的最新研究已經(jīng)產(chǎn)生了一種可以替代生成式模型的識別模型,稱為“序列到序列模型”。這種模型的準(zhǔn)確性幾乎可以與最先進(jìn)的生成模型相匹配。該模型在機(jī)器翻譯,語音識別,圖像標(biāo)題生成等方面取得了相當(dāng)大的經(jīng)驗(yàn)成果。由于這些模型可以在同一個(gè)步驟中端對端地進(jìn)行培訓(xùn),因此該模型是非常易于訓(xùn)練的,但它們在實(shí)踐中卻具有限制,即只能用于離線識別。這是因?yàn)樵撃P鸵笤谝欢卧掗_始時(shí)就輸入序列的整體以供使用,然而這對實(shí)時(shí)語音識別等任務(wù)來說是沒有任何意義的。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 1:本文使用的模型的總體架構(gòu)

    為了解決這個(gè)問題,谷歌團(tuán)隊(duì)最近引入了在線序列模型。這種在線序列模型具有將產(chǎn)生的輸出作為輸入的 特性,同時(shí)還可以保留序列到序列模型的因果性質(zhì)。這些模型具有在任何時(shí)間t產(chǎn)生的輸出將會影響隨后計(jì)算結(jié)果的特征。其中,有一種模型將使用二進(jìn)制隨機(jī)變量來選擇產(chǎn)生輸出的時(shí)間步長。該團(tuán)隊(duì)將這個(gè)模型稱為神經(jīng)自回歸傳感器(NAT)。這個(gè)模型將使用策略梯度方法來訓(xùn)練隨機(jī)變量。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 2:熵正則化對排放位置的影響。 每行顯示為輸入示例的發(fā)射預(yù)測,每個(gè)符號表示3個(gè)輸入時(shí)間步長。 'x'表示模型選擇在時(shí)間步長發(fā)出輸出,而“ - ”則表示相反的情況。 頂線 - 沒有熵懲罰,模型在輸入的開始或結(jié)束時(shí)發(fā)出符號,并且無法獲得有意義的梯度來學(xué)習(xí)模型。 中線 – 使用熵正規(guī)化,該模型及時(shí)避免了聚類排放預(yù)測,并學(xué)習(xí)有意義地?cái)U(kuò)散排放和學(xué)習(xí)模型。 底線 - 使用KL發(fā)散規(guī)則排放概率,同時(shí)也可以緩解聚類問題,盡管不如熵正則化那樣有效。

    通過使用估計(jì)目標(biāo)序列相對于參數(shù)模型的對數(shù)概率的梯度來訓(xùn)練該模型。 雖然這個(gè)模型并不是完全可以微分的,因?yàn)樗褂玫氖遣豢晌⒎值亩M(jìn)制隨機(jī)單元,但是可以通過使用策略梯度法來估計(jì)關(guān)于模型參數(shù)的梯度。更詳細(xì)地說,通過使用監(jiān)督學(xué)習(xí)來訓(xùn)練網(wǎng)絡(luò)進(jìn)行正確的輸出預(yù)測,并使用加強(qiáng)學(xué)習(xí)以訓(xùn)練網(wǎng)絡(luò)來決定何時(shí)發(fā)出各種輸出。

    谷歌團(tuán)隊(duì)提出全新在線序列到序列模型,可應(yīng)用于噪聲語音識別

    圖. 3:在TIMIT上運(yùn)行示例培訓(xùn)

    圖3b和3c分別示出了混合比例分別為0.25和0.5的兩種情況的訓(xùn)練曲線的實(shí)例。 在這兩種情況下,都可以看出,該模型學(xué)習(xí)了過適合數(shù)據(jù)。

    谷歌團(tuán)隊(duì)還研究使用該模型進(jìn)行噪聲輸入,其中以不同混合比例將兩個(gè)揚(yáng)聲器的單聲道混合語音作為模型的輸入。

    實(shí)驗(yàn)和結(jié)果

    使用這個(gè)模型對兩種不同的語音語料庫進(jìn)行了實(shí)驗(yàn)。 第一組實(shí)驗(yàn)是對TIMIT進(jìn)行了初步實(shí)驗(yàn),以評估可能導(dǎo)致模型穩(wěn)定行為的超參數(shù)。 第二組實(shí)驗(yàn)是在不同混合比例下從兩個(gè)不同的揚(yáng)聲器(一個(gè)男性和一個(gè)女性)混合的語音進(jìn)行的。 這些實(shí)驗(yàn)被稱為Multi-TIMIT。

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2017-07-04
    噪聲語音識別:谷歌團(tuán)隊(duì)提出全新在線序列到序列模型
    近日谷歌團(tuán)隊(duì)發(fā)布了一篇關(guān)于在線語音識別的序列到序列模型論文,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,該模型可以實(shí)現(xiàn)在線實(shí)時(shí)的語音識別功能,并且對來自不同揚(yáng)聲器的聲音具有

    長按掃碼 閱讀全文