原標(biāo)題:搜狗發(fā)布全球首個(gè)AI合成主播,上崗新華社,分分鐘合成視頻新聞
在今年的世界互聯(lián)網(wǎng)大會(huì)上,搜狗公司和新華社共同帶來一場別開生面的跨界發(fā)布會(huì)——全球第一個(gè)AI合成主播就此亮相。
AI合成主播?這是什么新東東?
觀眾只要輸入一句既有的新聞文本,屏幕上就會(huì)出現(xiàn)一位虛擬的新聞主播,他不僅會(huì)用和真人一樣的聲音進(jìn)行播報(bào),連唇形、面部表情也能完全吻合。
別說,這個(gè)人工合成主播,無論看上去還是聽起來,都與現(xiàn)實(shí)中的主播的本人播報(bào)沒有太大差別。
是不是很神奇?
原來,這背后是搜狗通過技術(shù)讓機(jī)器以更逼真自然的形象取代冷冰冰的“機(jī)器人”形象,呈現(xiàn)在用戶面前。該技術(shù)能通過人臉關(guān)鍵點(diǎn)檢測、人臉特征提取、人臉重構(gòu)、唇語識(shí)別、情感遷移等多項(xiàng)前沿技術(shù),并結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練后,生成與真人無異的AI分身模型。
該技術(shù)讓機(jī)器首次做到逼真的模擬人類說話時(shí)的聲音、嘴唇動(dòng)作和表情,并且將三者自然匹配,與真人幾乎一致。
這個(gè)隨著首位AI合成主播首次亮相的技術(shù)就是“搜狗分身”技術(shù)。
搜狗公司智能語音事業(yè)部總經(jīng)理王硯峰解釋,通俗來講,就是平時(shí)真人主播面對(duì)鏡頭錄制一段播報(bào)新聞的視頻,搜狗分身憑著這段視頻就能提取真人主播的聲音唇動(dòng)、表情、動(dòng)作等特征,再通過語音合成、唇形合成、表情合成以及深度學(xué)習(xí)等技術(shù),克隆出具備和真人主播同樣播放能力的合成主播,接下來,只要提供文字,合成主播就能準(zhǔn)確無誤地播報(bào)新聞了。
搜狗分身的技術(shù)原理(小標(biāo))
搜狗分身技術(shù)是搜狗人工智能的核心技術(shù)之一,誕生于搜狗“自然交互+知識(shí)計(jì)算”這一人工智能理念之下。具體而言,搜狗分身技術(shù)包含語音合成和圖像生成兩大引擎:
在語音合成引擎中,基于用戶少量的音頻數(shù)據(jù),使用搜狗個(gè)性化語音合成技術(shù),就能快速學(xué)習(xí)用戶音色、韻律、情感等多維度特征,建立輸入文本與輸出音頻信息的關(guān)聯(lián);
在圖像生成引擎中,則使用業(yè)界領(lǐng)先的搜狗人臉識(shí)別、三維人臉重建、表情建模等技術(shù)對(duì)人臉表情動(dòng)作進(jìn)行特征學(xué)習(xí)和建模,建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,最終生成輸出分身視頻。
由于此前的技術(shù)積累,搜狗分身具有高度逼真的特點(diǎn),其自動(dòng)生成的語音、表情、唇動(dòng)等信息完全一致的自然視頻搜狗分身并已達(dá)到商用級(jí)別,這在業(yè)內(nèi)尚屬首次。
其次,由于個(gè)性化定制成本低,搜狗分身僅需使用少量用戶真實(shí)音視頻數(shù)據(jù),即可快速定制出高逼真度的分身模型,該項(xiàng)技術(shù)也領(lǐng)先行業(yè)。
未來的“用武之地”(小標(biāo))
正是有了“搜狗分身”這樣技術(shù)創(chuàng)新的信息傳播形式,未來媒體在融媒體轉(zhuǎn)型、新聞時(shí)效性和跨語種傳播能力等方面都能更加新鮮好玩兒,從而增強(qiáng)我國傳媒業(yè)的國際影響力和全球競爭力。
不僅如此,未來“搜狗分身”技術(shù)還能在娛樂、醫(yī)療、健康、教育、法律等多個(gè)領(lǐng)域提供個(gè)性化內(nèi)容。因?yàn)槿四樧R(shí)別和人臉重建,該技術(shù)產(chǎn)品外在脫離了固有的機(jī)器人形象,而是能夠批量復(fù)制無數(shù)風(fēng)格各異的人類形象,滿足大家的個(gè)性化需求,能夠提升不同行業(yè)和職業(yè)的信息生產(chǎn)傳播效率。
所以,以后在新聞主播之外,學(xué)校、醫(yī)院等場景也都可以出現(xiàn)“搜狗分身”技術(shù)創(chuàng)造出來的虛擬教師、虛擬醫(yī)生、虛擬客服等等。
在解放行業(yè)生產(chǎn)力的同時(shí),“搜狗分身”技術(shù)還能給予用戶更好的個(gè)性化音視頻效果,用AI科技來提高人們的生活體驗(yàn)。
為何是搜狗分身?(小標(biāo))
為何搜狗具備開發(fā)分身技術(shù)并讓其應(yīng)用落地的實(shí)力?這當(dāng)然與搜狗此前在語音識(shí)別、語音翻譯、深度學(xué)習(xí)等人工智能能力分不開。
在人工智能概念火起來之前,以輸入法、搜索引擎起家的搜狗就率先一頭扎進(jìn)AI。而在其AI戰(zhàn)略藍(lán)圖之中,語言自然是最核心的重頭戲。
一直以來,搜狗都堅(jiān)持“自然交互+知識(shí)計(jì)算”的人工智能核心方向,并持續(xù)深耕技術(shù),推動(dòng)技術(shù)向產(chǎn)品的快速轉(zhuǎn)化。
2016年,搜狗發(fā)布了自有人機(jī)交互解決方案——知音引擎;擁有海量真實(shí)數(shù)據(jù)的搜狗,很快又將語音識(shí)別與機(jī)器翻譯技術(shù)相結(jié)合,同年推出全球首款商用AI同傳系統(tǒng)——搜狗同傳,引領(lǐng)了語音翻譯技術(shù)的普及與應(yīng)用。通過數(shù)百場的國際會(huì)議“實(shí)戰(zhàn)”,搜狗同傳獲得了無數(shù)媒體和觀眾的好評(píng),成為當(dāng)下炙手可熱的“AI字幕君”。
同時(shí),搜狗還推出一系列智能硬件,將語音翻譯技術(shù)應(yīng)用到了更廣闊的場景之中,幫助用戶打破了跨國交流時(shí)的語言困境。今年3月,搜狗推出了搜狗旅行翻譯寶,具備離線翻譯功能與拍照翻譯功能,讓馬化騰都為之心動(dòng),在朋友圈里大打廣告。作為首款智能翻譯硬件,它支持42種語言對(duì)話翻譯,解決了旅游場景中用戶聽不懂、看不懂、不會(huì)說等真實(shí)痛點(diǎn)。
隨后搜狗又順勢(shì)推出錄音翻譯筆,為記者等職業(yè)群體提供錄音轉(zhuǎn)寫、對(duì)話翻譯、同聲傳譯等功能,把AI同傳落地到了消費(fèi)級(jí)產(chǎn)品,開拓了語音翻譯的新航道。
在近日剛落幕的2018IWSLT(國際頂級(jí)口語機(jī)器翻譯評(píng)測大賽)上,搜狗擊敗訊飛、阿里巴巴, APPTEK(美國應(yīng)用科技公司)、AFRL(美國空軍研究實(shí)驗(yàn)室)以及KIT(德國卡爾斯魯厄理工學(xué)院)等國際國內(nèi)多個(gè)強(qiáng)勁對(duì)手,一舉奪得了2018年IWSLT大賽Baseline Model(基線模型)賽道冠軍,向世界彰顯了中國AI領(lǐng)域的技術(shù)硬實(shí)力。
IWSLT從2004年開始已經(jīng)舉辦了15屆,每年都吸引了世界各地機(jī)器翻譯領(lǐng)域的頂級(jí)企業(yè)和研究機(jī)構(gòu)參與。
此次摘得IWSLT大賽Baseline Model賽道冠軍,是搜狗繼WMT 2017機(jī)器翻譯頂級(jí)評(píng)測大賽奪冠之后,又一次摘得全球翻譯領(lǐng)域的技術(shù)桂冠。短期內(nèi)連續(xù)登頂世界第一的位置,充分證明了搜狗在翻譯行業(yè)特別是口語翻譯領(lǐng)域的領(lǐng)先地位。
正因?yàn)橐恢鄙罡白匀唤换?知識(shí)計(jì)算”等人工智能技術(shù),搜狗此番才能將分身技術(shù)完美呈現(xiàn),并致力于推廣到更多應(yīng)用場景落地,這才是真正的“科技讓生活更高效、更好玩”的范兒~
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。