從虛擬主播、錄音筆到AI同傳,搜狗這家公司落地了各種各樣的AI應(yīng)用,并且直接讓用戶有所感知。
這些看起來神奇的應(yīng)用背后,搜狗是怎么想的、又是怎么做的呢?
在MEET 2020智能未來大會(huì)上,搜狗AI交互事業(yè)部總經(jīng)理王硯峰,分享了搜狗的技術(shù)路線圖與AI實(shí)踐。
我們根據(jù)其演講速記,整理了核心觀點(diǎn),希望從搜狗的AI落地實(shí)踐中,你也能看見AI落地過程中的新價(jià)值、新邊界和新格局。
關(guān)于MEET2020智能未來大會(huì):量子位主辦,現(xiàn)場(chǎng)20多位行業(yè)大咖分享,1000多名行業(yè)觀眾參與,線上有近百萬從業(yè)者通過直播參與觀看和互動(dòng),包括新華社在內(nèi)的數(shù)十家主流媒體報(bào)道,活動(dòng)整體線上總曝光量超過千萬。
要點(diǎn)
1.當(dāng)傳統(tǒng)行業(yè)面臨增長(zhǎng)瓶頸,通過AI賦能可以帶來生產(chǎn)力變革和突破,最終轉(zhuǎn)化成行業(yè)價(jià)值和用戶價(jià)值。
2.硬件有兩個(gè)發(fā)展趨勢(shì),一方面朝著更便攜的方式發(fā)展,另一方面硬件的IO更加智能。
3.以語言作為核心,左邊是自然交互,右邊是知識(shí)計(jì)算,在自然交互中做語音、圖像,在知識(shí)計(jì)算當(dāng)中做問答、翻譯、對(duì)話,這就是整個(gè)搜狗的AI技術(shù)體系。
4.AI同傳現(xiàn)已不再翻車,雖然趕不上頂級(jí)人類同傳,但能服務(wù)更多場(chǎng)合。
5.針對(duì)用戶的問題,機(jī)器實(shí)時(shí)請(qǐng)求全網(wǎng)的結(jié)果,整理之后再來回答,這一定是未來搜索的形態(tài)。
王硯峰演講分享全文
注:量子位在不改變?cè)獾幕A(chǔ)上進(jìn)行了編輯整理
各位現(xiàn)場(chǎng)的媒體和行業(yè)朋友,大家下午好?,F(xiàn)在由我來給大家分享一下搜狗在2019年AI方面從產(chǎn)品到技術(shù)的思考,以及我們所做的突破。
從錄音筆看AI硬件趨勢(shì)
搜狗錄音筆,是我們?nèi)ツ?月份發(fā)布的一款產(chǎn)品,這款產(chǎn)品從3月份發(fā)布至今,線上平臺(tái)不管是單品銷量還是銷售額都是第一名。很多的媒體朋友都跟我說,現(xiàn)在他們已經(jīng)標(biāo)配了搜狗錄音筆,如果缺少了這個(gè)工具,記錄和寫作的效率就會(huì)受到影響。
隨著手機(jī)行業(yè)的興起,錄音筆行業(yè)是在慢慢萎縮的,每年都是下降的趨勢(shì),右圖的黑線是去年電商訪客數(shù)據(jù)。但是搜狗錄音筆上線后,錄音筆的搜索量反而增長(zhǎng)了。
這就說明,當(dāng)我們面向一個(gè)產(chǎn)生增長(zhǎng)瓶頸的傳統(tǒng)行業(yè)的時(shí)候,AI技術(shù)可以賦能到傳統(tǒng)行業(yè),帶來生產(chǎn)力的變革和突破,最終轉(zhuǎn)化成行業(yè)價(jià)值和用戶價(jià)值。
而且,搜狗錄音筆在京東已經(jīng)有很不錯(cuò)的好評(píng)和復(fù)購(gòu)率了。當(dāng)一個(gè)硬件產(chǎn)品在像京東這樣的平臺(tái)上產(chǎn)生比較不錯(cuò)的復(fù)購(gòu)率的時(shí)候,能在一定程度上代表這個(gè)產(chǎn)品在整個(gè)網(wǎng)民、用戶群體和行業(yè)內(nèi)的口碑。
我們不僅自己做了一個(gè)產(chǎn)品,還希望能夠把我們的能力賦能到錄音筆行業(yè)當(dāng)中,幫助整個(gè)行業(yè)一起往前走。
今年8月份,我們連同索尼錄音筆、愛國(guó)者、紐曼等品牌,成立了一個(gè)AI創(chuàng)新聯(lián)盟,把我們的AI能力提供給錄音筆廠商,實(shí)現(xiàn)他們產(chǎn)品的AI化,包括幫他們實(shí)現(xiàn)好的用戶體驗(yàn)和增值服務(wù)。
現(xiàn)在大家看到的一些新的愛國(guó)者錄音筆、索尼錄音筆,出廠的時(shí)候會(huì)標(biāo)配搜狗聽寫服務(wù),這個(gè)服務(wù)就是搜狗從技術(shù)到產(chǎn)品方面的AI沉淀。
搜狗為什么要做AI錄音筆這個(gè)產(chǎn)品呢?這后面其實(shí)是我們對(duì)于整個(gè)AI硬件的思考。
硬件大概有兩個(gè)發(fā)展趨勢(shì),第一個(gè)發(fā)展趨勢(shì)就是朝著更便攜的方式發(fā)展。以前說硬件是電腦,后來有了Pad,后來有了手機(jī)、手表、耳機(jī),向著越來越便攜、靈活的方式發(fā)展。
另外一個(gè)發(fā)展趨勢(shì)就是硬件的IO更加智能。以前我們最早用電腦的時(shí)候,只能用鍵盤和鼠標(biāo);而現(xiàn)在用手機(jī)的時(shí)候,很多時(shí)候就已經(jīng)在用語音了。
而且不管是錄音筆還是耳機(jī),未來的交互方式更多都是語音,所以本身它會(huì)朝著更IO的方向發(fā)展,尤其未來它會(huì)接管人的感官,甚至有一些生理入侵。其實(shí)已經(jīng)有一些行業(yè)大咖身體里植入了一些芯片,讓芯片給他更好的賦能。
總結(jié)下來,其實(shí)我們搜狗做AI硬件的定位是三點(diǎn):
第一點(diǎn),我們希望我們的AI硬件賦能于人,能夠去提升人的能力,提升人的效率,提升人能力的邊界。
第二點(diǎn),我們希望我們的AI硬件做得更便捷、小巧,方便每個(gè)人攜帶,而不是做一個(gè)在家里的音箱、電視,這不是搜狗AI的發(fā)展方向。
第三點(diǎn),我們的AI硬件以語言為產(chǎn)品的核心,我們希望通過AI的能力在語言方面對(duì)用戶、對(duì)網(wǎng)民做全方位的賦能。
搜狗AI技術(shù)體系
怎么解讀語言AI這件事呢?首先大家應(yīng)該都會(huì)了解語言其實(shí)是人跟人之間溝通的載體,是知識(shí)承載的載體,是信息承載的載體,所以語言在社會(huì)的核心當(dāng)中起到了絕對(duì)重要的作用,是信息的推動(dòng)者,信息的發(fā)展者。人類社會(huì)自從有了語言,就發(fā)生了巨大的變革。
所以,語言是人工智能的一顆明珠,我們一直把語言當(dāng)成我們最核心的AI發(fā)展方向和突破點(diǎn)。我們解決了視覺問題、解決了語音問題,但是圍繞著語言,包括今天NLP的問題仍然沒有得到突破,所以我們希望能夠圍繞語言去盡快推動(dòng)產(chǎn)品的突破,推動(dòng)技術(shù)的進(jìn)步,所以搜狗斷言,我們希望能夠在語言方面做一個(gè)行業(yè)的創(chuàng)新者,去做AI語言技術(shù)行業(yè)的引領(lǐng)者。
我們做AI的時(shí)候,為什么以語言為核心呢?因?yàn)檩斎敕ê退阉鬟@兩個(gè)搜狗的傳統(tǒng)產(chǎn)品,其實(shí)都是圍繞自然語言,輸入法是為了讓用戶有更好的詞庫(kù)、更好的自動(dòng)輸入的能力,讓大家的打字效率得到提升。搜索就是圍繞語言這件事做更好的信息獲取。
所以這是套以語言為核心的AI體系。
在這個(gè)AI體系下,我們分成了兩個(gè)方向,一個(gè)是自然交互,自然交互解決的是人與機(jī)器之間的溝通能力;另一個(gè)是知識(shí)計(jì)算,知識(shí)計(jì)算解決的是,我怎么通過語言的能力從大量的信息當(dāng)中做知識(shí)的挖掘、做對(duì)話、做問答。
最終會(huì)形成兩條產(chǎn)品線,第一條產(chǎn)品線就是AI硬件,圍繞自然交互和語言為核心,做各種硬件形態(tài)的探索。第二條產(chǎn)品線,我們會(huì)圍繞知識(shí)計(jì)算做各種垂直問答,比如搜狗明醫(yī),未來搜狗搜索也會(huì)提升知識(shí)服務(wù)能力。
所以最終這兩件事串起來就是智能助理。搜狗希望以語言AI為核心,做用戶在各個(gè)場(chǎng)景下的智能助理,比如翻譯是出國(guó)場(chǎng)景下的助理,錄音筆是記錄信息場(chǎng)景下的助理,而問答是獲取信息場(chǎng)景下的助理。
我們希望做到語言AI技術(shù)的引領(lǐng)者和創(chuàng)新者。以語言作為核心,左邊是自然交互,右邊是知識(shí)計(jì)算,在自然交互中做語音、圖像,在知識(shí)計(jì)算當(dāng)中做問答、翻譯、對(duì)話,這就是整個(gè)搜狗的AI技術(shù)體系。
搜狗的語音識(shí)別
除了錄音筆,搜狗目前在技術(shù)跟產(chǎn)品上還有很多值得驕傲的點(diǎn)。
第一,就是語音識(shí)別。搜狗在語音識(shí)別方面是相對(duì)做得比較早的,搜狗輸入法今年單日語音輸入調(diào)用次數(shù)峰值超過了8億次,是目前規(guī)模最大的語音輸入法。
但是光有語音輸入,我們覺得不夠,因?yàn)檎Z音輸入的場(chǎng)景是人朝著機(jī)器去說一段信息,然后機(jī)器把信息變成文字發(fā)送給對(duì)方。而在錄音筆的場(chǎng)景下是語音的記錄,而且記錄過程中僅有輸入這么簡(jiǎn)單的一件事。
像大家經(jīng)常面臨的中英文混合的問題,我們已經(jīng)解決了。除了單純的語音識(shí)別,我們先做了說話人的識(shí)別,讓機(jī)器區(qū)分這句話是誰說的,這在錄音筆場(chǎng)景下是非常關(guān)鍵的能力。同時(shí)很多場(chǎng)景中都有一些噪音,我們今年做了一件事,不止用陣列,而是用深度學(xué)習(xí)來降噪,把人的聲音跟背景音做效果很好的切分。
采訪中有很多背景噪聲和其他人的聲音,所以我們聽采訪的時(shí)候聽不清楚。我們提出了ClairVoice降噪算法,通過這個(gè)算法的過濾,噪聲去掉了,原本的聲音變得清晰了。大家看電視新聞的時(shí)候也會(huì)感覺到,很多記者采訪的場(chǎng)景是噪聲很大的,比如大風(fēng)天氣的室外、飛機(jī)場(chǎng)等,通過AI降噪技術(shù),觀眾其實(shí)已經(jīng)聽不到噪聲了。
搜狗的語音合成
語音合成方面,隨著我們?cè)谏疃葘W(xué)習(xí)上的努力,通過我們國(guó)際領(lǐng)先的基于WaveNet、WaveRNN的語音合成技術(shù),我們可以做到更好的效果。
我們用羅輯思維錄音做了語音合成。對(duì)比以前的語音合成,這種語音合成的效果已經(jīng)更接近本人了,它已經(jīng)可以在很多場(chǎng)景下使用了。
但是我們會(huì)覺得光有語音合成不夠,因?yàn)檎Z音合成目前仍然做不到情感豐富、抑揚(yáng)頓挫。
所以我們做了一個(gè)技術(shù)叫語音變聲,比如要給一個(gè)大IP、名人做合成,我們把這個(gè)大IP的聲音采集下來建立一個(gè)模型,形成一個(gè)聲音的皮膚,背后會(huì)有一個(gè)音頻的表演者,這個(gè)表演者是帶有感情的,是抑揚(yáng)頓挫的,然后我們把這個(gè)大IP的聲音皮膚貼到這段音頻上,就能讓這個(gè)大IP的聲音開始情感豐富的說話。
語音變聲會(huì)有很多應(yīng)用場(chǎng)景,比如很多父母自己沒有時(shí)間給家里的小孩講故事,我們就希望能夠把父母的聲音皮膚刻畫出來,未來他的聲音皮膚直接貼到“凱叔講故事”的音頻上,就能夠?qū)崿F(xiàn)用爸爸媽媽的聲音很有情感的給小朋友講一段故事。
比如,我們把凱叔的聲音,用王小川14分鐘的語音數(shù)據(jù)做了訓(xùn)練,形成了這樣一個(gè)“作品”其實(shí)小川平時(shí)講故事的情感肯定不像機(jī)器合成出來的這么飽滿,包括這14分鐘的語音數(shù)據(jù)聽起來非常的平,因此我們?cè)谶@個(gè)場(chǎng)景下會(huì)對(duì)父母?jìng)冇泻艽蟮膸椭?/p>
我們前段時(shí)間做了一個(gè)里程碑式的嘗試。
此前,語音合成一向很難放到付費(fèi)音頻的領(lǐng)域來使用,因?yàn)楦顿M(fèi)音頻聽眾對(duì)音頻質(zhì)量有要求,其實(shí)是一個(gè)音頻表演,交付的是一個(gè)音頻內(nèi)容,聽眾要為這件事買單,所以目前所有的付費(fèi)平臺(tái)都不敢用機(jī)器合成的方式進(jìn)行付費(fèi)音頻的生產(chǎn)。
就在前段時(shí)間我們?cè)诘玫狡脚_(tái)上跟梁寧合作,用轉(zhuǎn)述師的聲音套上梁寧的聲音皮膚來合成音頻。
這樣出來的效果既保留了表演的部分,同時(shí)還帶了梁寧的音色和發(fā)音習(xí)慣,這種方法解決了很多大咖、IP音頻生產(chǎn)中的痛點(diǎn),也是全球第一次在付費(fèi)音頻領(lǐng)域做語音合成的嘗試。之后我們會(huì)和更多的IP合作,也會(huì)看到更多這樣的內(nèi)容。
搜狗分身
同時(shí),我們覺得有語言不夠,因?yàn)槲磥砣藱C(jī)交互的界面一定有語音又有視頻,所以我們做了分身技術(shù),去年年底,我們聯(lián)合新華社推出了AI合成主播,為了讓虛擬分身的效果變得更加逼真,到現(xiàn)在為止我們經(jīng)歷了四代技術(shù)演變。
今年年初的時(shí)候,虛擬主播的面部表情和動(dòng)作還是相對(duì)比較僵硬的,后來我們做的效果就非常的逼真了,如果我不說這是機(jī)器合成的話,可能很多朋友分辨不出來這個(gè)到底是機(jī)器做的還是真人。
我們發(fā)布了第四代合成分身技術(shù)以后,還可以做更多語種,比如我們做了第一個(gè)俄語的合成主播。
另外,這項(xiàng)技術(shù)也在很多的行業(yè)落地,比如說我們幫平安做了AI客服。
因?yàn)槠桨灿幸粋€(gè)需求,在做貸款審核的時(shí)候需要一個(gè)面對(duì)面的客服來進(jìn)行審核,這個(gè)過程是通過網(wǎng)絡(luò)完成的。所以我們幫平安做了一個(gè)虛擬客服的形象,這個(gè)客服早就已經(jīng)上崗了。
目前,我們的AI合成主播在互聯(lián)網(wǎng)法院、新華社、央視,包括在平安已經(jīng)產(chǎn)生了實(shí)際的應(yīng)用。
搜狗AI翻譯
搜狗為什么做翻譯?
因?yàn)樗压吩谧鲚斎敕?、做搜索的時(shí)候,會(huì)遇到跨語言信息表達(dá)和獲取的問題。
現(xiàn)在,華語是全球第一大語言,剩下的語言使用人數(shù)相對(duì)比例更少、有更長(zhǎng)尾的分布,語言的不同會(huì)讓信息和文化的交流產(chǎn)生隔閡。所以我們希望搜狗能通過一個(gè)好的翻譯能力,幫助用戶做更好的信息交流和內(nèi)容獲取。
我們的翻譯到目前為止取得了好幾次行業(yè)內(nèi)的突破。
首先,在2016年11月份,第三次烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,我們首發(fā)了搜狗同傳,這也是世界上第一次把機(jī)器同傳用到了真實(shí)的場(chǎng)景下,并且替代人工同傳。
不久后,我們又在2017年1月份上線了英文搜索,其實(shí)是國(guó)內(nèi)首個(gè)跨語言檢索的搜索引擎,大家搜中文就可以得到英文的內(nèi)容,還可以幫大家翻譯成中文的結(jié)果,尤其是在學(xué)術(shù)、醫(yī)療的領(lǐng)域,很多優(yōu)質(zhì)資源都在外網(wǎng),會(huì)對(duì)大家有很大的幫助。
同年10月份,我們又發(fā)布了搜狗AI翻譯機(jī),也是同類產(chǎn)品中首個(gè)能夠離線翻譯的。因?yàn)槲覀兂鰢?guó)經(jīng)常碰到?jīng)]有網(wǎng)絡(luò)的情況,我們是首個(gè)能夠把離線翻譯做到實(shí)用級(jí)水平的。
后來我們又在2018年的時(shí)候推出了英文到中文的翻譯,因?yàn)楫?dāng)時(shí)國(guó)內(nèi)做同傳都是中文到英文,但實(shí)際上在座的各位看一個(gè)中文演講者的時(shí)候,其實(shí)不需要翻譯內(nèi)容,更多的是對(duì)英文的翻譯。所以我們從更落地、更實(shí)用的方向,做了國(guó)內(nèi)第一個(gè)從英文到中文的同傳。
目前為止,我們?cè)诜g上,尤其是同傳上取得了相對(duì)很實(shí)用的效果。比如說今年我們支持了大概100場(chǎng)跨語言的會(huì)議,像蘋果的發(fā)布會(huì),我們直接給幾個(gè)網(wǎng)站加了同傳進(jìn)行直播。
其實(shí)一年前,大家在很多活動(dòng)現(xiàn)場(chǎng)看到的AI同傳會(huì)變成車禍現(xiàn)場(chǎng),也有一些翻譯效果很不好的情況。但現(xiàn)在,大家看到這個(gè)翻譯的時(shí)候,AI同傳已經(jīng)真的開始進(jìn)入到可用的地步了。
當(dāng)然我們現(xiàn)在的效果還沒法跟頂級(jí)的人類同傳相比,但是我們會(huì)用在更多的場(chǎng)合,因?yàn)楹芏鄨?chǎng)合是沒有好的人類同傳資源的,但是有了機(jī)器同傳,就會(huì)有更好的現(xiàn)場(chǎng)部署,幫助與會(huì)者完成信息的交流。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )