2022年8月,一幅名為《太空歌劇院》的數(shù)字畫(huà)作獲得冠軍同時(shí)引發(fā)了巨大爭(zhēng)議,AIGC(AI產(chǎn)生內(nèi)容:AI-Generated Content)出圈的事件便頻頻出現(xiàn)在大眾視野。同年11月30日OpenAI發(fā)布的聊天機(jī)器人模型ChatGPT免費(fèi)開(kāi)放,更掀起了人們對(duì)AIGC的廣泛興趣,各種花式問(wèn)題,例如改代碼,談學(xué)問(wèn)、問(wèn)人生……ChatGPT的“機(jī)智”與“博學(xué)”令人刮目相看并耳目一新。
ChatGPT之所以引起了廣泛關(guān)注,在于OpenAI 先后發(fā)布了三代GPT模型,每一代模型參數(shù)量都比前一代增長(zhǎng)了10倍甚至100倍,進(jìn)入GPT-3.5代的模型則是采用了RLHF(從人類反饋強(qiáng)化學(xué)習(xí))方式,能夠更好地理解人類語(yǔ)言的含義,即與人類在聊天、文章撰寫(xiě)、解答詢問(wèn)、代碼查錯(cuò)等互動(dòng)時(shí)更像一個(gè)經(jīng)過(guò)“認(rèn)真思考”慎重給出答案的“人”。
面對(duì)圈內(nèi)如此熱點(diǎn),在火山語(yǔ)音音頻合成算法研究員Stephen看來(lái):“之所以AIGC近期表現(xiàn)大熱,與AI生產(chǎn)的內(nèi)容質(zhì)量階梯式提升密不可分。AI作為生產(chǎn)工具觸發(fā)了更高的效率,AIGC則包含了文本生成、音頻生成、圖像生成和視頻生成等諸多方向,也會(huì)反過(guò)來(lái)刺激其背后的人工智能技術(shù)快速發(fā)展,逐漸體現(xiàn)出極大的商業(yè)價(jià)值?!?/p>
聲情并茂與能說(shuō)會(huì)演 或成為AI語(yǔ)音的難點(diǎn)之一
我們經(jīng)常會(huì)感慨,AI作畫(huà)讓你領(lǐng)略的是AI的“想象力”, 以ChatGPT為代表的AI問(wèn)答則讓你因?yàn)槠洳W(xué)與答案的“可讀性”而震驚,而AI語(yǔ)音則考驗(yàn)的是TA能否像真人一樣對(duì)內(nèi)容正確理解后,通過(guò)匹配人設(shè)的音色以及符合當(dāng)時(shí)情景的語(yǔ)氣表達(dá)出來(lái),這一點(diǎn)在火山語(yǔ)音(字節(jié)跳動(dòng)AI Lab 智能語(yǔ)音與音頻團(tuán)隊(duì))與番茄小說(shuō)的合作中屢見(jiàn)不鮮,AI算法生成的語(yǔ)音可以讓你直接去聽(tīng)任何文字版的小說(shuō),而且聽(tīng)起來(lái)“更聰明一點(diǎn)”:差異化的音色配合恰當(dāng)?shù)恼Z(yǔ)氣,在朗讀時(shí)化身“戲精”演繹出“喜怒哀樂(lè)”。
據(jù)了解,要讓AI聲情并茂與能說(shuō)會(huì)演,首先需要確保輸出內(nèi)容不讀錯(cuò),這就需要文本分析模型來(lái)進(jìn)行解析。“在番茄小說(shuō)中,文本分析前端我們采用了 NLP 領(lǐng)域應(yīng)用廣泛的 Transformer 架構(gòu)模型 BERT。主要通過(guò)神經(jīng)網(wǎng)絡(luò)加規(guī)則混合的正則化模型(TN)和多任務(wù)前端模型,結(jié)合長(zhǎng)期的人工規(guī)則修正,不斷提升前端的句級(jí)別精度,并通過(guò)蒸餾、量化等技術(shù)降低了算力需求。”
此外為了讓語(yǔ)音聽(tīng)感更佳,團(tuán)隊(duì)還基于常規(guī) TTS 流程加入了更多功能模塊,實(shí)現(xiàn)了角色歸屬與情感控制。例如在角色歸屬中同樣采用了 bert 結(jié)構(gòu),進(jìn)行對(duì)話判定和指代消歧兩個(gè)任務(wù)的建模,另外也采用了類似的結(jié)構(gòu)進(jìn)行情感預(yù)測(cè)?!巴ǔP≌f(shuō)文字中會(huì)出現(xiàn)多人對(duì)話,每個(gè)說(shuō)話人又有屬于自己的多種情感,如果可以將音色和情感進(jìn)行解耦,就可以更好地控制合成語(yǔ)音的表現(xiàn)力,實(shí)現(xiàn)不同音色與不同情感的靈活組合,這個(gè)很關(guān)鍵。”
重要的一點(diǎn),為了讓AI能夠理解各種類型小說(shuō)的文本,火山語(yǔ)音還率先提出了“AI 文本理解”模型,即一套多任務(wù)的長(zhǎng)文本理解AI系統(tǒng)。能夠自動(dòng)化地從小說(shuō)文本中區(qū)分出對(duì)話的角色、判別出對(duì)話中所想要表達(dá)出的情感、預(yù)測(cè)出合理的句間停頓,極大地提升了精品 AI 有聲書(shū)的制作效率,有效突破了人工標(biāo)注的生產(chǎn)瓶頸。
「AI 文本理解」模型
更進(jìn)一步,火山語(yǔ)音團(tuán)隊(duì)在滿足發(fā)音清晰、韻律連貫、語(yǔ)調(diào)起伏的基礎(chǔ)上,自研半監(jiān)督學(xué)習(xí)的端到端風(fēng)格控制聲學(xué)模型,使聲音遵循普魯契克情感色輪(Plutchik's Wheel of Emotions)的情感類型,表現(xiàn)出開(kāi)心、悲傷、驚訝、恐懼等多種情感色彩,以情感遷移的方式,讓原本沒(méi)有情感的發(fā)音獲得多情感合成的效果。更好表達(dá)“以聲傳情”,將人類語(yǔ)言中常會(huì)出現(xiàn)的「副語(yǔ)言」現(xiàn)象進(jìn)行了精細(xì)化的建模還原,實(shí)現(xiàn)了在有聲書(shū)中常見(jiàn)的重音停頓、疑問(wèn)反問(wèn)、笑聲哭腔、以及各類嘆息、叫喊聲等,達(dá)成了文本內(nèi)容的精彩演繹。
“接近真人播講的效果,使最終的AI語(yǔ)音能夠體現(xiàn)出不同角色在不同上下文環(huán)境里的效果,是我們一直以來(lái)追求的目標(biāo)。未來(lái),我們更希望可以做到,通過(guò)文本-語(yǔ)音聯(lián)合訓(xùn)練大模型,對(duì)不同上下文環(huán)境的文本提取表征,提升角色判別成功率;憑借多話者語(yǔ)音合成大模型,對(duì)情感、風(fēng)格、音色和口音等屬性進(jìn)行解耦并能夠自由遷移;同時(shí)根據(jù)文本描述生成匹配的背景音來(lái)提升有聲書(shū)聆聽(tīng)時(shí)的代入感?!?/p>
提高內(nèi)容質(zhì)量和產(chǎn)生效率才是AIGC的核心價(jià)值
在更多實(shí)踐中我們發(fā)現(xiàn),除了文字和圖像,人們對(duì)語(yǔ)音交互的應(yīng)用范圍更廣,例如,人們?cè)诩抑薪?jīng)常通過(guò)語(yǔ)音交互發(fā)出指令控制各種電器;出行時(shí)通過(guò)車載語(yǔ)音助手完成導(dǎo)航、預(yù)定餐廳等事項(xiàng);以及在辦公場(chǎng)景中高頻率使用的會(huì)議助手等,都離不開(kāi)智能語(yǔ)音方案來(lái)提高內(nèi)容質(zhì)量和生產(chǎn)效率。
對(duì)此火山語(yǔ)音團(tuán)隊(duì)也隨之進(jìn)行了更多相關(guān)的創(chuàng)新性嘗試,例如在短視頻成為全民時(shí)尚的今天,面對(duì)ugc群體視頻創(chuàng)作的隨性記錄以及音頻質(zhì)量不可控等現(xiàn)實(shí)因素,通過(guò)火山語(yǔ)音智能字幕解決方案為視頻創(chuàng)作自動(dòng)添加字幕,不僅可以兼容識(shí)別中、英、粵等常用的語(yǔ)言和方言,還能對(duì)歌曲進(jìn)行識(shí)別。
對(duì)此火山語(yǔ)音音頻理解方向產(chǎn)品經(jīng)理W補(bǔ)充道:“視頻內(nèi)容生產(chǎn)中,傳統(tǒng)加字幕的方式需要?jiǎng)?chuàng)作者對(duì)視頻進(jìn)行數(shù)次聽(tīng)寫(xiě)并校對(duì),還需要根據(jù)起始時(shí)間逐幀對(duì)齊,經(jīng)常10分鐘的視頻需要幾小時(shí)的后期制作時(shí)間才能完成。此外字幕組還要精通多語(yǔ)言并熟悉字幕文件的制作,整體下來(lái)視頻制作成本很高,這對(duì)于當(dāng)今短視頻時(shí)代的個(gè)人創(chuàng)作者或是單純以記錄生活的用戶來(lái)說(shuō)早已高不可及?!?/p>
為了降低創(chuàng)作門(mén)檻,讓所有創(chuàng)作者都能輕松制作高質(zhì)量的視頻內(nèi)容,記錄美好生活,火山語(yǔ)音自研推出了智能字幕解決方案。不僅能夠高效識(shí)別方言與歌曲,還可以對(duì)語(yǔ)種混合以及說(shuō)話唱歌混合的場(chǎng)景有很好的識(shí)別效果;此外還可通過(guò)對(duì)用戶創(chuàng)作內(nèi)容的音頻特性以及領(lǐng)域分析,憑借算法優(yōu)化,大大提升語(yǔ)音識(shí)別對(duì)于噪聲場(chǎng)景、多人說(shuō)話等復(fù)雜場(chǎng)景的表現(xiàn)。尤其面對(duì)移動(dòng)端用戶針對(duì)功能響應(yīng)時(shí)間的較高要求,即希望字幕可以既快且準(zhǔn),對(duì)此火山語(yǔ)音做了大量的工程優(yōu)化和策略,1分鐘的視頻只需2-3秒即可完成。
智能字幕解決方案展示
眾所周知,面對(duì)相同的內(nèi)容,人類對(duì)于音頻信息的獲取效率遠(yuǎn)低于文本信息的獲取效率,而將語(yǔ)音轉(zhuǎn)化成文本被記錄與使用的關(guān)鍵在于語(yǔ)音識(shí)別,例如火山語(yǔ)音推出的“千言轉(zhuǎn)文字,一字勝千言”的實(shí)時(shí)字幕解決方案就是通過(guò)“語(yǔ)音識(shí)別+語(yǔ)音翻譯”的AI鏈路,讓跨國(guó)家、跨語(yǔ)言交流變得更加流暢;通過(guò)自動(dòng)生成會(huì)議記錄與紀(jì)要,做到大大提升與會(huì)者的工作效率,大幅減少會(huì)后整理和會(huì)中記錄的工作量。可以預(yù)見(jiàn)伴隨科技的迅速發(fā)展,AI語(yǔ)音會(huì)為人機(jī)交互增加信息輸出的渠道,為信息獲取提升效率。
同樣面對(duì)AIGC帶來(lái)質(zhì)量以及效率的提升問(wèn)題,在火山語(yǔ)音語(yǔ)音交互產(chǎn)品經(jīng)理Y看來(lái),AIGC確實(shí)有望在智能語(yǔ)音交互的輔助場(chǎng)景中落地,可以實(shí)現(xiàn)包括會(huì)話摘要、話術(shù)推薦、情緒安撫、工單摘要等方向的客服功能,輔助解決方案來(lái)提高生產(chǎn)效率。舉個(gè)例子,在人機(jī)對(duì)話觸發(fā)轉(zhuǎn)人工時(shí),可自動(dòng)生成人機(jī)對(duì)話的對(duì)話摘要,輔助人工更快了解用戶訴求,避免出現(xiàn)突然冷場(chǎng)去翻查聊天記錄的情況;在與人對(duì)話過(guò)程中,通過(guò)對(duì)用戶話術(shù)的理解,運(yùn)用AIGC能力來(lái)生成答案供客服參考,提高了客服對(duì)話的效率。
“此外在異常情況處理方面也可發(fā)揮作用,比方說(shuō)用戶出現(xiàn)煩躁、憤怒等情緒時(shí),AICG或可自動(dòng)生成安撫話術(shù)供客服參考,提升服務(wù)滿意度等。未來(lái),伴隨多模態(tài)技術(shù)和AIGC技術(shù)的不斷成熟,或許通過(guò)虛擬數(shù)字人可取代部分人工,以人機(jī)共生的形態(tài)直接服務(wù)客戶,更顯著降低人力成本,提升服務(wù)效率?!钡裁鞔_表示,如今的AIGC還無(wú)法做到真正獨(dú)立生產(chǎn)內(nèi)容,尚處于輔助人類提升內(nèi)容生產(chǎn)效率的階段。
成本、版權(quán)、實(shí)用性仍是AIGC發(fā)展的瓶頸
不論是ChatGPT給出了驚人回答,還是番茄小說(shuō)中AI演繹出了感人聲音,就連馬斯克也驚嘆:我們離強(qiáng)大到危險(xiǎn)的人工智能不遠(yuǎn)了。這似乎預(yù)示著AIGC的時(shí)代即將來(lái)臨。
然而在AI算法一線工作多年的火山語(yǔ)音音頻合成算法研究員Stephen卻有著更為清醒的判斷,他指出:“AIGC背后的技術(shù),未來(lái)可能會(huì)進(jìn)行多模態(tài)融合,不僅僅是單一模態(tài)的生成式任務(wù),這就像人類在創(chuàng)造內(nèi)容的過(guò)程中也不僅僅是根據(jù)單一形態(tài)的知識(shí)而構(gòu)思出新內(nèi)容。舉個(gè)例子,就像生成交互式數(shù)字人的任務(wù)中,目前主要是人臉、表情、姿態(tài)和動(dòng)作的單獨(dú)預(yù)測(cè),未來(lái)或?qū)⒂靡粋€(gè)生成式模型預(yù)測(cè)這些特征,提升各特征之間的協(xié)同效果,降低分別錄制帶來(lái)的工作量;此外也會(huì)根據(jù)多模態(tài)理解任務(wù)得到的表征,基于正在對(duì)話的用戶的表情、語(yǔ)氣和肢體動(dòng)作,在生成的形象和聲音上給予對(duì)應(yīng)的反饋?!?/p>
除了技術(shù)發(fā)展的預(yù)測(cè),不容忽視的一點(diǎn),目前AIGC在成本、版權(quán)和實(shí)用性上仍存在巨大挑戰(zhàn)。他認(rèn)為目前AIGC成本居高不下,很顯著的表現(xiàn)是高質(zhì)量文本、圖片和視頻生成技術(shù)等,都對(duì)應(yīng)著大量訓(xùn)練和推理階段硬件資源的消耗,這導(dǎo)致高校和研究機(jī)構(gòu)均很難參與其中,不利于行業(yè)發(fā)展的推動(dòng)。
“此外在版權(quán)保護(hù)上,目前生成的內(nèi)容有些可能會(huì)被用來(lái)進(jìn)行非法活動(dòng),因此在內(nèi)容中加入版權(quán)保護(hù),例如圖像和音頻水印變得越來(lái)越重要,但是在加入過(guò)程中,還得考慮不要因?yàn)榧羟?、混合等后處理方式?dǎo)致水印失效?!?/p>
過(guò)去的2022年,盡管在圖片和視頻生成方向的技術(shù)應(yīng)用效果顯著提升,但依然需要大量人工篩選后,內(nèi)容才能實(shí)際落地;而基于長(zhǎng)篇章文本生成上下文相關(guān)的漫畫(huà)和視頻,既要保證場(chǎng)景的連續(xù)性,又要能體現(xiàn)人物的變化,還有大量的技術(shù)難題需要解決,避免人工智能變成“人工智障”是個(gè)挑戰(zhàn),所以實(shí)用性還有更多的提升空間。
我們或許可以這樣認(rèn)為,AIGC作為一種新型的內(nèi)容生產(chǎn)方式,之所以受到關(guān)注,充分說(shuō)明了各行各業(yè)對(duì)于內(nèi)容的渴望,尤其是互聯(lián)網(wǎng)平臺(tái),如何高效理解、創(chuàng)作、互動(dòng)和分發(fā)內(nèi)容,確實(shí)給現(xiàn)今的AI 技術(shù)帶來(lái)了機(jī)遇和挑戰(zhàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )