9月21日,中國(guó)人工智能大會(huì)2019(Chinese Congress on Artificial Intelligence 2019,簡(jiǎn)稱“CCAI 2019”)于青島膠州方圓體育中心盛大開(kāi)幕,本屆大會(huì)以“智變?nèi)诤?rdquo;為主題,由中國(guó)人工智能學(xué)會(huì)主辦,是我國(guó)最早發(fā)起舉辦的人工智能大會(huì),聲智科技聯(lián)合創(chuàng)始人兼CTO馮大航受邀出席并發(fā)表演講,此次大會(huì)有超過(guò)100位國(guó)際人工智能領(lǐng)域頂尖人才,800余位國(guó)內(nèi)外人工智能領(lǐng)域?qū)<医淌?、頭部企業(yè)高管及行業(yè)代表,2500余位專業(yè)觀眾共同參會(huì)。
大會(huì)期間,聲智科技聯(lián)合創(chuàng)始人兼CTO馮大航以《智慧城市中聲學(xué)與AI融合技術(shù)的進(jìn)展與應(yīng)用》為主題發(fā)表了演講。馮大航表示,中國(guó)的智慧城市處在一個(gè)快速發(fā)展當(dāng)中,以聲智科技為代表的人工智能企業(yè)將聲學(xué)與人工智能融合應(yīng)用在智慧城市里面的方方面面,例如在智能交通領(lǐng)域進(jìn)行監(jiān)測(cè),安防提出的需求是希望給攝像頭“裝上耳朵”,可以實(shí)現(xiàn)對(duì)異常聲和某些關(guān)鍵詞的監(jiān)測(cè)。又比如應(yīng)用在智能家居里的智能空調(diào)、電視等等,以及應(yīng)用在政務(wù)系統(tǒng)中可以極大的方便市民迅速獲得需要的服務(wù)。這些案例聲智科技都已經(jīng)在參與,并且已經(jīng)有了一些項(xiàng)目完成落地。
基于這些項(xiàng)目經(jīng)驗(yàn),我們將觀察到的現(xiàn)象總結(jié)為兩大趨勢(shì):
一是在技術(shù)上,聲學(xué)與人工智能正在不斷地融合——通過(guò)深度學(xué)習(xí)進(jìn)行信號(hào)處理和語(yǔ)音識(shí)別等,應(yīng)用在智能安防和智慧交通等諸多領(lǐng)域;二是在新的場(chǎng)景下,新的系統(tǒng)架構(gòu)正在形成——章魚(yú)架構(gòu),且具有更強(qiáng)大的計(jì)算和控制能力,基于“章魚(yú)架構(gòu)”的模式聲學(xué)與人工智能融合的案例已經(jīng)應(yīng)用在智慧城市的方方面面。
交通、安防、政務(wù)、教育……城市生活包含著多個(gè)場(chǎng)景,也充滿著各式各樣的設(shè)備。以AI為核心的智能化如若要實(shí)現(xiàn)在城市的廣泛應(yīng)用,自然需要完成在不同設(shè)備間的真正落地。為適應(yīng)這一新需求,更好的服務(wù)客戶,聲智科技推出了SoundAI Azero 智能操作系統(tǒng)。其具有更加智能的終端控制能力、更強(qiáng)大的計(jì)算處理能力、更快速的網(wǎng)絡(luò)傳輸能力以及更個(gè)性化的定制能力。
我們認(rèn)為未來(lái)會(huì)出現(xiàn)更多的“章魚(yú)”系統(tǒng),并且進(jìn)化的更加智能,同時(shí)越來(lái)越多的“章魚(yú)”系統(tǒng)出現(xiàn)后會(huì)產(chǎn)生“智慧的規(guī)模效應(yīng)”,產(chǎn)生一個(gè)更大提新型系統(tǒng)。
據(jù)悉,聲智科技成立于2016年5月,是全球領(lǐng)先的遠(yuǎn)場(chǎng)智能交互系統(tǒng)提供商之一,專注于聲學(xué)語(yǔ)音技術(shù)和語(yǔ)言理解技術(shù),致力于通過(guò)不斷引領(lǐng)真實(shí)環(huán)境下的人機(jī)交互體驗(yàn),實(shí)現(xiàn)“讓機(jī)器更智能”的使命,達(dá)成“用科技改善生活”的愿景。聲智科技核心團(tuán)隊(duì)來(lái)自中科院聲學(xué)所,聚集了全球著名高校的畢業(yè)生和著名企業(yè)的商業(yè)精英,以及中關(guān)村、福布斯、胡潤(rùn)以及IEEE、ACM、ASA、AES、中國(guó)人工智能學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)聲學(xué)學(xué)會(huì)等眾多高端人才。
以下為馮大航演講實(shí)錄:
大家好,我是聲智科技的聯(lián)合創(chuàng)始人兼CTO馮大航,我們公司主要專注于聲學(xué)和人工智能的融合,今天我主要希望分享一下我們公司這幾年在智慧城市中的進(jìn)展與思考。
首先看一些數(shù)據(jù),根據(jù)2013-2017年中國(guó)智慧城市數(shù)量與投資規(guī)模的曲線圖可以發(fā)現(xiàn),無(wú)論是試點(diǎn)的數(shù)量還是投資的規(guī)模都是一個(gè)逐年上漲的過(guò)程,可以說(shuō)中國(guó)的智慧城市是在一個(gè)快速發(fā)展當(dāng)中,我們公司主要做聲學(xué)與人工智能的融合應(yīng)用。聲學(xué)在智慧城市里面也有很多重要的應(yīng)用,例如在智能交通領(lǐng)域進(jìn)行監(jiān)測(cè),安防提出的需求是希望給攝像頭“裝上耳朵”,可以實(shí)現(xiàn)對(duì)異常聲和某些關(guān)鍵詞的監(jiān)測(cè)。又比如應(yīng)用在智能家居里的智能空調(diào)、電視等等,以及應(yīng)用在政務(wù)系統(tǒng)中可以極大的方便市民迅速獲得需要的服務(wù)。這些案例我們都已經(jīng)在參與,并且已經(jīng)有了一些項(xiàng)目完成落地。
基于這些項(xiàng)目經(jīng)驗(yàn),我將觀察到的現(xiàn)象總結(jié)為兩大趨勢(shì):
一是在技術(shù)上,聲學(xué)與人工智能正在不斷地融合。二是在新的場(chǎng)景下,新的系統(tǒng)架構(gòu)正在形成。接下來(lái),我將主要就這兩條脈絡(luò)進(jìn)行闡述。
我們公司產(chǎn)生之初就致力于聲學(xué)與AI的融合,2014年以前聲學(xué)和語(yǔ)音信號(hào)處理以及語(yǔ)音處理的交叉不是特別多,都在獨(dú)立向前發(fā)展,特別是深度學(xué)習(xí)被用于語(yǔ)音識(shí)別以來(lái),語(yǔ)音識(shí)別率得到了很快的提升。
上圖展示了語(yǔ)音識(shí)別出現(xiàn)以來(lái)的錯(cuò)誤率曲線,可以看到,最關(guān)鍵的一點(diǎn)出現(xiàn)在2017年微軟推出一套語(yǔ)音識(shí)別系統(tǒng),其語(yǔ)音識(shí)別錯(cuò)誤率達(dá)到了5.1%,首次低于人類的語(yǔ)音識(shí)別錯(cuò)誤率。人類在數(shù)據(jù)集上達(dá)到什么水平呢?通常,一個(gè)正常人在數(shù)據(jù)集上平均值錯(cuò)誤率是5.9%,即使受過(guò)專業(yè)的訓(xùn)練的人,在這個(gè)數(shù)據(jù)集上錯(cuò)誤率也達(dá)到了5.2%??梢哉f(shuō),至此,語(yǔ)音識(shí)別發(fā)展已經(jīng)達(dá)到非常成熟的程度。
其實(shí)語(yǔ)音識(shí)別在商業(yè)應(yīng)用中受到一些阻力,比如手機(jī)上的語(yǔ)音助手應(yīng)用的不是特別多。但在2014年亞馬遜推出智能音箱以來(lái),語(yǔ)音識(shí)別得到越來(lái)越多的關(guān)注,比如說(shuō)房間的混響、旁邊的背景噪聲以及人聲干擾,在這種情況下,其實(shí)信號(hào)處理是可以做一些工作的,比如我們可以利用麥克風(fēng)陣列將目標(biāo)聲音和噪音區(qū)分開(kāi),從而讓語(yǔ)音識(shí)別率有一個(gè)明顯提升。
這里面便涉及到信號(hào)處理與語(yǔ)音識(shí)別的融合的過(guò)程,接下來(lái)我會(huì)舉一個(gè)更簡(jiǎn)單的例子,當(dāng)然可能更偏于學(xué)術(shù)一些,去解釋一下背后更深層次的原因。
以混響為例,現(xiàn)在我在這里演講,在座的觀眾聽(tīng)到我的聲音其實(shí)是我本人的聲音和經(jīng)過(guò)強(qiáng)烈的反射后的聲音的疊加,在數(shù)學(xué)上怎么表示呢?可以表示為一個(gè)純凈的信號(hào)經(jīng)過(guò)房間重新響應(yīng)得到混響的信號(hào),可想而知,這樣一定不會(huì)得到一個(gè)好的結(jié)果?,F(xiàn)在一些學(xué)者們也在進(jìn)行深入的研究,比如說(shuō)讓語(yǔ)音信號(hào)經(jīng)過(guò)多種房間的重新響應(yīng)再訓(xùn)練網(wǎng)絡(luò),我認(rèn)為這也不是特別完美的一個(gè)過(guò)程。首先,即使在同一個(gè)房間里面每個(gè)點(diǎn)也是不同的,我們有很多的房間,這是很多種組合,相當(dāng)于同一條語(yǔ)音,可能變化出非常多的一種方式,在這種情況下,讓深度學(xué)習(xí)的網(wǎng)絡(luò)去學(xué)習(xí)東西,效果會(huì)有所折扣。
在這個(gè)過(guò)程當(dāng)中,信號(hào)處理完全可以出一個(gè)逆流波器,這不能完全和原聲一模一樣。換言之,就是存在一些偏差,實(shí)際當(dāng)中也有一些非線性效應(yīng),但這種信號(hào)確實(shí)和原來(lái)的信號(hào)更接近了一些,之后我們?cè)僦匦掠?xùn)練網(wǎng)絡(luò),就可以達(dá)到很好的語(yǔ)音識(shí)別的效果。
其實(shí),整個(gè)信號(hào)處理可以做的是什么樣的工作?簡(jiǎn)單一點(diǎn)來(lái)說(shuō),我們要做的是信號(hào)多樣性的問(wèn)題。
左邊的圖是我們當(dāng)前的語(yǔ)音識(shí)別的系統(tǒng)框圖,一般來(lái)說(shuō),信號(hào)回來(lái)之后要做一個(gè)回聲的工作,把設(shè)備自己的聲音去掉。接下來(lái)我們會(huì)做一個(gè)去混響的操作,然后找到說(shuō)話人的位置,做一些波形的工作,把處理后的信號(hào)送到云端,再后面是聲學(xué)模型的結(jié)構(gòu),這就是一個(gè)復(fù)雜的網(wǎng)絡(luò),最終轉(zhuǎn)化成文字。這個(gè)過(guò)程當(dāng)中,從波形形成以后,這個(gè)信號(hào)實(shí)際上也是存在一定的失真,需要對(duì)后來(lái)的網(wǎng)絡(luò)進(jìn)行重新的迭代,讓它對(duì)非線性的部分有一個(gè)學(xué)習(xí)的過(guò)程。大家可以看到,總而言之,整個(gè)過(guò)程還是信號(hào)處理跟語(yǔ)音識(shí)別的集聯(lián)關(guān)系,不是深度的融合。但我們?cè)诓粩嗵剿鳎热缥覀儸F(xiàn)在希望用深度學(xué)習(xí)的網(wǎng)絡(luò)把回聲消除的非線性部分進(jìn)一步去除掉,這個(gè)公式比較簡(jiǎn)單,一個(gè)設(shè)備自己發(fā)出聲音之后,首先利用線性的部分消除掉,就得到下面的公式,這是參考信號(hào)的非線性表達(dá),S(n)是期望的信號(hào),在這里面非線性回聲殘留會(huì)用參考信號(hào)的非線性的關(guān)系來(lái)表達(dá)。我們可以利用神經(jīng)元網(wǎng)絡(luò)進(jìn)行一個(gè)模擬,這樣處理之后,可以得到更好的結(jié)果。
右邊的圖是谷歌的做法,當(dāng)信號(hào)進(jìn)來(lái)之后,同樣進(jìn)行去混響的操作,用后面的兩層網(wǎng)絡(luò)對(duì)波束形成的部分做了一個(gè)擬合的過(guò)程,然后放入聲學(xué)模型當(dāng)中處理。
從這幾個(gè)圖可以看到,最簡(jiǎn)單的是接下來(lái)進(jìn)一步的融合,這個(gè)過(guò)程可能信號(hào)處理發(fā)揮的作用更少一些。但如果兩個(gè)人聲重疊在一起,就很難識(shí)別出來(lái)應(yīng)該識(shí)別哪一個(gè)人聲。
一個(gè)好的系統(tǒng),最本質(zhì)的原因主要在于我們是在自然界這樣一個(gè)復(fù)雜的系統(tǒng)當(dāng)中,一定是存在線性效應(yīng)也存在非線性效應(yīng)。關(guān)于信號(hào)處理,聲學(xué)擅長(zhǎng)解決的是線性部分,深度學(xué)習(xí)擅長(zhǎng)解決的是非線性部分,最好的方式一定是兩者的完美融合。比如說(shuō)鳴笛檢測(cè)需要定位到車(chē)輛的位置,這一過(guò)程信號(hào)處理就可以發(fā)揮作用,通過(guò)深度學(xué)習(xí)把噪聲去掉,智能安防和智慧交通系統(tǒng)也是如此。
以上是技術(shù)方面的闡釋,接下來(lái)我們剖析下系統(tǒng)層面。首先,我們認(rèn)為現(xiàn)在新的系統(tǒng)正在形成,以簡(jiǎn)單的比喻說(shuō)明,可以認(rèn)為是從水母的計(jì)算模式向章魚(yú)的計(jì)算模式進(jìn)行轉(zhuǎn)變。那么章魚(yú)和水母有什么區(qū)別呢?章魚(yú)的頭腦更加聰明,觸手更加靈活,從前可以聯(lián)網(wǎng)的設(shè)備無(wú)外乎就是手機(jī)、平板或電腦,這些設(shè)備計(jì)算能力比較強(qiáng),系統(tǒng)比較統(tǒng)一,用水母的計(jì)算模式完全可以滿足需求。但現(xiàn)在,可以連通網(wǎng)絡(luò)的設(shè)備越來(lái)越多,也存在各種各樣的系統(tǒng)。如何屏蔽這些不同設(shè)備和系統(tǒng)間的差異,盡可能地實(shí)現(xiàn)統(tǒng)一,就必然催生出一套新的系統(tǒng)。在這一方面,亞馬遜走在了最前列, 2014年亞馬遜推出智能音箱的時(shí)候就考慮到這個(gè)問(wèn)題,對(duì)整套系統(tǒng)進(jìn)行徹底的優(yōu)化,將80%的計(jì)算放在云端,把20%不能放在云端的計(jì)算放在端上,這樣做的好處就是不論是再計(jì)算能力還是系統(tǒng)方面,都可以最大化地屏蔽端上的差異。
事實(shí)上,我們也按照這一思路做了一套自己的系統(tǒng),這套系統(tǒng)有什么好處呢?簡(jiǎn)單來(lái)說(shuō),第一點(diǎn)就是可以極大地降低端上的成本,第二點(diǎn)是可以非常方便地進(jìn)行定制,比如說(shuō)采用了我們系統(tǒng)的智能設(shè)備應(yīng)用在酒店中,客人一進(jìn)酒店關(guān)于“餐廳在什么地方”之類的非通用回答的個(gè)性化問(wèn)題,智能設(shè)備完全可以提供正確答案。使用這套系統(tǒng),客戶完全可以在網(wǎng)上定制一個(gè)對(duì)話系統(tǒng),再將其部署到云端,讓酒店的設(shè)備都可以按照這一對(duì)話系統(tǒng)的邏輯進(jìn)行工作。
還有一點(diǎn),當(dāng)設(shè)備接入越來(lái)越多的情況下,其實(shí)可以反過(guò)來(lái)讓云端更加智能。比如詢問(wèn)酒店的餐廳在哪里,這個(gè)問(wèn)題其實(shí)有很多的問(wèn)法,回到前面的例子,其實(shí)這些例子都可以用上述提到的系統(tǒng)進(jìn)行覆蓋。多樣化的提問(wèn)方式可以使得系統(tǒng)定制變得更加簡(jiǎn)化,以剛剛提到的鳴笛監(jiān)測(cè)為例,就可以對(duì)特定的某一時(shí)間段進(jìn)行監(jiān)測(cè),又或者以政務(wù)系統(tǒng)為例,對(duì)于不同省份而言政務(wù)系統(tǒng)肯定是不一樣的。
既然系統(tǒng)有這么多好處,那其背后有沒(méi)有驅(qū)動(dòng)力呢?我們認(rèn)為其背后的驅(qū)動(dòng)因素有四個(gè)關(guān)鍵點(diǎn),首先是新的傳感器或者傳感器的組合,這樣能夠構(gòu)造出新產(chǎn)品,比如智能音箱,這就是在傳統(tǒng)音箱的基礎(chǔ)上簡(jiǎn)單地加了麥克風(fēng)陣列,又比如現(xiàn)在的VR或AR設(shè)備、可穿戴設(shè)備。由于傳感器的組合和新的傳感器的誕生構(gòu)建出來(lái)新的品類,而且這種新品類將會(huì)不斷增加,這一過(guò)程也會(huì)不斷擴(kuò)大,因?yàn)閭鞲衅鞯慕M合方式太多了。
第二,算法方面,其實(shí)現(xiàn)在我們也在講深度學(xué)習(xí)。深度學(xué)習(xí)的算法現(xiàn)在可以說(shuō)發(fā)展得越來(lái)越快,包括語(yǔ)音識(shí)別,在短短兩三年的時(shí)間里整個(gè)系統(tǒng)提升得非???,也為用戶帶來(lái)更好的體驗(yàn)。
還有一點(diǎn),云端計(jì)算能力要足夠強(qiáng),其實(shí)現(xiàn)在的計(jì)算能力也是可以滿足需求的,但云端計(jì)算能力足夠強(qiáng)可以讓我們運(yùn)行更大、更復(fù)雜的網(wǎng)絡(luò)。
最后,還需要網(wǎng)絡(luò)足夠給力,現(xiàn)在我們馬上也進(jìn)入到5G時(shí)代,5G的網(wǎng)速越來(lái)越快,接入網(wǎng)絡(luò)更加的便捷,在這樣大背景下,相信一定有越來(lái)越多的設(shè)備能夠接入到網(wǎng)絡(luò)。整套系統(tǒng)如果滿足以上四點(diǎn),一定可以復(fù)制到更多領(lǐng)域,也會(huì)催生出越來(lái)越多的新產(chǎn)品。
那么在上面兩個(gè)趨勢(shì)下,未來(lái)又會(huì)發(fā)生什么樣的事情呢?我在這里做個(gè)簡(jiǎn)單大膽的預(yù)測(cè)。
未來(lái)幾年內(nèi),可能會(huì)出現(xiàn)越來(lái)越多的“章魚(yú)”系統(tǒng),這個(gè)過(guò)程我們內(nèi)部稱之為“數(shù)據(jù)的規(guī)模效應(yīng)”,簡(jiǎn)單理解就是,在接入“章魚(yú)”系統(tǒng)的設(shè)備越來(lái)越多的情況下,會(huì)產(chǎn)生越來(lái)越多的數(shù)據(jù),這個(gè)數(shù)據(jù)會(huì)反哺算法,讓算法變得更加智能,又使得“章魚(yú)”更加聰明。接下來(lái)將會(huì)有越來(lái)越多的“章魚(yú)”出現(xiàn),我們把目光放得再長(zhǎng)遠(yuǎn)一些比如十年、二十年以后,這些“章魚(yú)”系統(tǒng)會(huì)不會(huì)進(jìn)行一個(gè)裂變呢?比如說(shuō)變成一個(gè)更大的系統(tǒng),這塊我們認(rèn)為也是會(huì)發(fā)生的,我們把這一過(guò)程稱之為“智慧的規(guī)模效應(yīng)”。
如果可以實(shí)現(xiàn)將這些合并成一個(gè)大的系統(tǒng),未來(lái)的確可以像電影中所展現(xiàn)的那樣。但這個(gè)過(guò)程可能還需要一定的時(shí)間,但“章魚(yú)”系統(tǒng)現(xiàn)在正在出現(xiàn),而且未來(lái)會(huì)越來(lái)越多。今天我的分享就到這里,謝謝大家!
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 谷歌秘密探索:Claude模型助其Gemini AI升級(jí),揭秘AI未來(lái)發(fā)展新路徑
- 辛巴病痛自述引淚奔,直播間真情流露
- 歐盟"有條件"批準(zhǔn)巨額并購(gòu):Synopsys對(duì)Ansys的收購(gòu)面臨挑戰(zhàn)
- 新能源車(chē)保費(fèi)高?真實(shí)原因揭秘:拒保背后的秘密
- 三星折疊屏手機(jī)明年計(jì)劃縮減40%出貨量:折疊屏熱潮降溫?
- 華為新機(jī)遇:智能化助力華為超越西方高端品牌的機(jī)會(huì),實(shí)現(xiàn)華麗轉(zhuǎn)身
- 折疊屏鼻祖柔宇折戟沉沙:二拍降價(jià)無(wú)競(jìng)拍者,昔日輝煌成泡影
- 蘋(píng)果與英偉達(dá)恩怨糾葛:自主芯片戰(zhàn)略下的商業(yè)博弈
- 韓國(guó)電纜公司狀告蘋(píng)果侵犯無(wú)線充電專利:一場(chǎng)科技與商業(yè)的碰撞
- 臺(tái)積電三星搶攻明年半導(dǎo)體競(jìng)爭(zhēng):2nm/3nm制程摩拳擦掌,市場(chǎng)風(fēng)向瞬變
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。