精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<rt id="qupyn"></rt><bdo id="qupyn"><tbody id="qupyn"></tbody></bdo>

<small id="qupyn"><pre id="qupyn"></pre></small>

<dd id="qupyn"></dd>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

圖片竟能直接生成逼真音效？這AI模型也太神奇了吧！

人閱讀
2023-02-10 09:57:21
來源：萬千資訊
相關(guān)關(guān)鍵詞

導讀：如今的AI技術(shù)發(fā)展堪稱“very神奇”，文字、圖片竟能一鍵直接生成逼真音效，嗯，妥妥都是因為TA，一款在語音音頻領(lǐng)域“橫空出世”的新模型：Make-An-Audio。

近期AIGC如同“上了熱搜”一般，火熱程度居高不下，當然除了名頭格外響亮，突破也是絕對斐然：輸入自然語言就可自動生成圖像、視頻甚至是3D模型，你說意不意外？

但在音頻音效的領(lǐng)域，AIGC的“福利”似乎還差了一些。主要由于高自由度音頻生成需要依靠大量文本-音頻對數(shù)據(jù)，同時長時波形建模還有諸多困難。為了解決上述疑難，浙江大學與北京大學聯(lián)合火山語音，共同提出了一款創(chuàng)新的、文本到音頻的生成系統(tǒng)，即Make-An-Audio。TA可以將自然語言描述作為輸入，而且是任意模態(tài)（例如文本、音頻、圖像、視頻等）均可，同時輸出符合描述的音頻音效，廣大網(wǎng)友很難不為其可控性以及泛化性點贊。

論文鏈接：
https://arxiv.org/abs/2301.12661

項目鏈接：
https://text-to-audio.github.io

短短兩天，Demo視頻在Twitter上獲得了45K的播放量。

研究團隊公布的演示視頻.jpg

圖1：研究團隊公布的演示視頻

2023年除夕后，以“Make-An-Audio”、 MusicLM等大量音頻合成文章涌現(xiàn)，48小時內(nèi)已經(jīng)有4篇突破性的進展。

網(wǎng)友評論1.jpg

圖2：網(wǎng)友評論1

廣大網(wǎng)友們紛紛表示，AIGC音效合成將會改變電影、短視頻制作的未來。

網(wǎng)友評論2.png

圖3：網(wǎng)友評論2

網(wǎng)友評論3.jpg

圖4：網(wǎng)友評論3

更有群眾發(fā)出這樣的感嘆：“audio is all you need……”

網(wǎng)友評論4.jpg

圖5：網(wǎng)友評論4

這樣的聽覺效果，難道你不愛嗎？

研究團隊已公布部分音頻生成結(jié)果在工作的主頁上：
https://text-to-audio.github.io，該模型除了可以一鍵生成大片音效以外，還可以做音頻修復、圖片生成音頻以及視頻配音等多種任務(wù)。

音頻修復（前）.png

圖6：音頻修復（前）

音頻修復（后）.png

圖6：音頻修復（后）

圖片轉(zhuǎn)音頻樣例輸入.jpg

圖7：圖片轉(zhuǎn)音頻樣例輸入

視頻轉(zhuǎn)音頻樣例輸入.gif

圖7：視頻轉(zhuǎn)音頻樣例輸入

這款“網(wǎng)紅”模型的內(nèi)在技術(shù)原理究竟是？

深度解析“網(wǎng)紅”模型的神奇內(nèi)在，我們還要回到音頻-自然語言對數(shù)據(jù)稀少的客觀問題上，對此浙大北大聯(lián)合火山語音團隊共同提出了Distill-then-Reprogram文本增強策略，即使用教師模型獲得音頻的自然語言描述，再通過隨機重組獲得具有動態(tài)性的訓練樣本。

具體來說，在Distill環(huán)節(jié)中，使用音頻轉(zhuǎn)文本與音頻-文本檢索模型，找到語言缺失(Language-Free)音頻的自然語言描述候選(Candidate)，通過計算候選文本與音頻的匹配相似度，在閾值下取得最佳結(jié)果作為音頻的描述。該方法具有強泛化性，且真實自然語言避免了測試階段的域外文本。“在Reprogram環(huán)節(jié)中，我們從額外的事件數(shù)據(jù)集中隨機采樣，并與當前訓練樣本相結(jié)合，得到全新的概念組合與描述，以擴增模型對不同事件組合的魯棒性?！毖芯繄F隊表示。

Distill-then-Reprogram文本增強策略框架圖.png

圖8：Distill-then-Reprogram文本增強策略框架圖

如上圖所示，自監(jiān)督學習已經(jīng)成功將圖片遷移到音頻頻譜，利用了頻譜自編碼器以解決長音頻序列問題，并基于Latent Diffusion生成模型完成對自監(jiān)督表征的預測，避免了直接預測長時波形。

Make-An-Audio模型系統(tǒng)框架圖.png

圖9：Make-An-Audio模型系統(tǒng)框架圖

此外在研究中團隊還探索了強大的文本條件策略，包括對比式Contrastive Language-Audio Pretraining (CLAP)以及語言模型(LLM) T5， BERT等，驗證了CLAP文本表征的有效與計算友好性。同時還首次使用CLAP Score來評估生成的音頻，可以用于衡量文本和生成場景之間的一致性；使用主、客觀相結(jié)合的評估方式，在benchmark數(shù)據(jù)集測試中驗證了模型的有效性，展示了模型出色的零次樣本學習(Zero-Shot)泛化性等。

Make-An-Audio與基線模型主客觀評測實驗結(jié)果.png

圖10：Make-An-Audio與基線模型主客觀評測實驗結(jié)果

神奇模型的應(yīng)用前景知多少？

總體來看，Make-An-Audio模型實現(xiàn)了高質(zhì)量、高可控性的音頻合成，并提出了“No Modality Left Behind”，對文本條件音頻模型進行微調(diào)(finetune)，即能解鎖對任意模態(tài)輸入的音頻合成(audio/image/video)。

Make-An-Audio首次實現(xiàn)高可控X-音頻的AIGC合成.jpg

圖11：Make-An-Audio首次實現(xiàn)高可控X-音頻的AIGC合成，X可以是文本/音頻/圖像/視頻

在視覺指導的音頻合成上，Make-An-Audio以CLIP文本編碼器為條件，利用其圖像-文本聯(lián)合空間，能夠直接以圖像編碼為條件合成音頻。

Make-An-Audio視覺-音頻合成框架圖.jpg

圖12：Make-An-Audio視覺-音頻合成框架圖

可以預見的是，音頻合成AIGC將會在未來電影配音、短視頻創(chuàng)作等領(lǐng)域發(fā)揮重要作用，而借助Make-An-Audio等模型，或許在未來人人都有可能成為專業(yè)的音效師，都可以憑借文字、視頻、圖像在任意時間、任意地點，合成出栩栩如生的音頻、音效。但現(xiàn)階段Make-An-Audio也并不是完美無缺的，可能由于豐富的數(shù)據(jù)來源以及不可避免的樣本質(zhì)量問題，訓練過程中難免會產(chǎn)生副作用，例如生成不符合文字內(nèi)容的音頻或有害的音頻，所以哪怕Make-An-Audio在技術(shù)上被定位是“輔助藝術(shù)家生成”，但也可能出現(xiàn)創(chuàng)意內(nèi)容被濫用的潛在風險，但可以肯定的一點，AIGC領(lǐng)域的進展確實令人驚喜。

火山語音，長期以來面向字節(jié)跳動各大業(yè)務(wù)線提供全球優(yōu)勢的AI語音技術(shù)能力以及全棧語音產(chǎn)品解決方案，包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來，團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù)，不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合，以實現(xiàn)更大的用戶價值。目前其語音識別和語音合成已經(jīng)覆蓋了多種語言和方言，多篇技術(shù)論文入選各類AI 頂級會議，為抖音、剪映、飛書、番茄小說、Pico等業(yè)務(wù)提供了領(lǐng)先的語音能力，并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場景，通過火山引擎開放給外部企業(yè)。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機器學習 ChatGPT 生成式AI AI芯片 AIGC U-Mail 世界人工智能大會 AI大模型 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 蘋果AI 谷歌AI GenAI 科大訊飛AI學習機百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI AI模型智譜AI SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會 LIFAair AI機器人 AI創(chuàng)企移動AI時代人工智能大會浙大AIF Zain 人工智能技術(shù) AI應(yīng)用 AI醫(yī)療 AI算力人工智能芯片 AI人才 xAI Airtag AI時代騰訊AI AI服務(wù)器 AI算法 AI框架 BrainCo AI投資 Gmail 人工智能計算中心聯(lián)想AI VAIO 人工智能大賽 AI教育 Chain Coremail OPENAIGC開發(fā)者大賽 AI賦能谷歌人工智能 Airwheel AI搜索人工智能名片昇騰AI開發(fā)者創(chuàng)享日 Mirai AI聊天機器人 AI音樂 Airwallex空中云匯 BrainCo強腦科技 AI原生應(yīng)用百度人工智能 AI計算阿爾法蛋AI詞典筆T20 AIOps 阿里AI 英偉達AI芯片 AI基礎(chǔ)設(shè)施蘋果人工智能人工智能+

上一篇

人工智能時代 “機器人+”如何影響人們生活？

下一篇

Omdia調(diào)研： PyTorch、TensorFlow、MindSpore等在中國AI框架市場處于第一梯隊

簡版
原版
投稿
回頂部

2023-02-10

圖片竟能直接生成逼真音效？這AI模型也太神奇了吧！

如今的AI技術(shù)發(fā)展堪稱“very神奇”，文字、圖片竟能一鍵直接生成逼真音效，嗯，妥妥都是因為TA，一款在語音音頻領(lǐng)域“橫空出世”的新模型：Make-An-Audio。

長按掃碼閱讀全文

<rt id="cfdby"></rt>

<source id="cfdby"></source>

<td id="cfdby"></td>