精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 綜合快訊 >

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

人閱讀
2018-08-21 10:52:33
來源：北國(guó)網(wǎng)
相關(guān)關(guān)鍵詞
- 云知聲
- 機(jī)器人

“如果機(jī)器在某些現(xiàn)實(shí)的條件下，能夠非常好地模仿人回答問題，讓提問者在相當(dāng)長(zhǎng)時(shí)間里誤認(rèn)它不是機(jī)器，那么機(jī)器就可以被認(rèn)為是能夠思維的。”

—— 阿蘭·圖靈

人機(jī)對(duì)話是人類對(duì)人工智能最初的設(shè)想，也一直是人工智能領(lǐng)域的目標(biāo)之一。

即使我們經(jīng)常聽到“這個(gè)問題我還沒有學(xué)會(huì)”，但是不可否認(rèn)，人工智能已經(jīng)基本實(shí)現(xiàn)”可以說話”了。那么，機(jī)器人是怎樣學(xué)習(xí)的呢?這就需要提到人工智能需求下誕生的一個(gè)新職業(yè)，也是人工智能背后的“隱形者”——數(shù)據(jù)標(biāo)注專員。

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

眾所周知，我們教小孩子認(rèn)識(shí)海豚，就要拿海豚的圖片告訴他，這是海豚。久而久之，他記住了海豚的特征，當(dāng)他去動(dòng)物園看到了海豚，就知道那是海豚。類比機(jī)器人，為了讓機(jī)器人“像人一樣說話”，我們先要教它學(xué)習(xí)，通過大量的學(xué)習(xí)之后，它才能對(duì)事物做出分辨。

在AI領(lǐng)域，教機(jī)器人學(xué)習(xí)必須有大量的訓(xùn)練集和測(cè)試集，訓(xùn)練集通俗說就像是我們學(xué)習(xí)時(shí)做的習(xí)題集，測(cè)試集像我們考試做的試題。測(cè)試集和訓(xùn)練集里的數(shù)據(jù)必須是支持算法可用的標(biāo)注數(shù)據(jù)，而將采集的原始數(shù)據(jù)變成算法可用數(shù)據(jù)的過程叫做“數(shù)據(jù)標(biāo)注”。即對(duì)采集來的文本、圖片、語音數(shù)據(jù)進(jìn)行梳理、整理、定性的過程。而數(shù)據(jù)標(biāo)注專員就成了為人工智能的發(fā)展供應(yīng)重要且源源不斷的“數(shù)據(jù)燃料”的人。

云知聲就有一個(gè)龐大的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)從事數(shù)據(jù)服務(wù)工作，并且，僅有的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)還在云知聲的東南總部廈門公司哦。團(tuán)隊(duì)的小伙伴幾乎每天默默戴著耳機(jī)對(duì)著電腦7-8小時(shí)，真的是此處無聲勝有聲!

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

數(shù)據(jù)標(biāo)注是一項(xiàng)重復(fù)且繁瑣的工作，如果把人工智能比作金字塔，最頂端的是人工智能應(yīng)用(比如機(jī)器人、無人駕駛等)，而最底端的則是數(shù)據(jù)服務(wù)，數(shù)據(jù)服務(wù)既是根基，也是人工智能必要且必不可少的一環(huán)。

數(shù)據(jù)標(biāo)注工作真的像是工廠里的流水線操作嗎?只是重復(fù)性地對(duì)數(shù)據(jù)進(jìn)行標(biāo)注嗎?

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的負(fù)責(zé)人許建說，目前人工智能領(lǐng)域?qū)τ跀?shù)據(jù)采集和標(biāo)注的需求量非常大，數(shù)據(jù)采集后首先進(jìn)行數(shù)據(jù)清洗，清洗之后才是數(shù)據(jù)標(biāo)注，標(biāo)注要求盡可能地詳盡、清楚，最后的審查階段對(duì)標(biāo)記的數(shù)據(jù)進(jìn)行正確率、精確度、完備性等方面的審查。實(shí)際是，數(shù)據(jù)質(zhì)量會(huì)影響到算法效果，一旦標(biāo)注人員出現(xiàn)了錯(cuò)誤，也會(huì)影響到機(jī)器犯錯(cuò)。

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

目前主要有語音、圖像、文本、視頻數(shù)據(jù)的采集標(biāo)注。云知聲日常所涉及的是語音的標(biāo)注，與智能產(chǎn)品進(jìn)行語音交互和我們平時(shí)與人的交流對(duì)話相似，在生活中，你可能突然問你身邊的人，“小云，現(xiàn)在幾點(diǎn)了”，“現(xiàn)在3點(diǎn)十五分”，“小云”就是喚醒詞，“現(xiàn)在幾點(diǎn)了”就是命令詞，喚醒詞和命令詞均要采集。為了讓即便帶有背景嘈雜聲、或是略帶方言口音也能準(zhǔn)確識(shí)別，這背后有一個(gè)數(shù)量龐大的數(shù)據(jù)訓(xùn)練集支撐。每個(gè)語音命令需要采集至少100人的語音數(shù)據(jù)，既要羅列出所有可能的句子，又要搜集盡可能多的人不同的說話方式，覆蓋到地域、性別、各年齡段。

比如我們的PandoraA1客房智能管家，當(dāng)查詢酒店服務(wù)時(shí)，就有多種表達(dá)方式，“提供什么服務(wù)”、“包括哪些服務(wù)”、“有哪些服務(wù)”、“有什么服務(wù)”等。同時(shí)，會(huì)有嚴(yán)格的性別、年齡段、口音采集人數(shù)占比，以保證最終的精準(zhǔn)識(shí)別。

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

對(duì)每一個(gè)采集的詞句，都要做到精細(xì)標(biāo)注，采集的語音需要符合相應(yīng)的技術(shù)要求，標(biāo)注的時(shí)間點(diǎn)要精準(zhǔn)控制在100毫秒以內(nèi)。數(shù)據(jù)標(biāo)注的速度決定了AI 產(chǎn)品的研發(fā)速度，提高標(biāo)注的效率也就顯得很重要。

為了配合數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的工作廈門展廳還藏著一個(gè)神秘的聲學(xué)實(shí)驗(yàn)室，這里可以說是整個(gè)公司最安靜的地方了。

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

聲學(xué)實(shí)驗(yàn)室的主要用途是采集原始聲音數(shù)據(jù)，為了貼近產(chǎn)品實(shí)際使用場(chǎng)景，整個(gè)裝修布置符合家居場(chǎng)景。

實(shí)驗(yàn)室采用減振隔聲墻體，房間被墻體隔開，墻面、吊頂與外部房間沒有任何剛性連接，完全與外界隔絕。墻內(nèi)的吸聲材料主要由多孔的玻璃纖維板組成，具有較好的聲音吸收能力，除了吸聲材料外，聲學(xué)實(shí)驗(yàn)室四周還布置了窗簾，可以讓聲音充分?jǐn)U散，使整個(gè)空間內(nèi)的聲場(chǎng)均勻分布。地板采用的是地磚和吸聲地毯，實(shí)現(xiàn)實(shí)驗(yàn)室與建筑基座的分隔，無反射和回聲。

聲學(xué)實(shí)驗(yàn)室內(nèi)五臟俱全—標(biāo)準(zhǔn)麥克風(fēng)、高保真音箱、聲卡……應(yīng)有盡有。

許建說，為了達(dá)到設(shè)備在實(shí)際應(yīng)用場(chǎng)景中達(dá)到最優(yōu)效果，在聲學(xué)實(shí)驗(yàn)室采集時(shí)就要模擬真實(shí)環(huán)境，需要覆蓋不同的噪音、信噪比、距離和角度。

為了保證支持遠(yuǎn)講的語音產(chǎn)品出廠前的效果，在前期的采集階段就要把產(chǎn)品在實(shí)際應(yīng)用中受到的噪音干擾和不同距離、角度的聲音效果考慮進(jìn)去。

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

像我們有些設(shè)備是支持5米遠(yuǎn)講識(shí)別的，就要求錄音人距離錄音設(shè)備一米、三米、五米距離的錄音數(shù)據(jù)，同時(shí)會(huì)設(shè)置0°、-30°、-60°等不同角度的設(shè)備疊加采集。經(jīng)常在采集的過程中根據(jù)場(chǎng)景需要加入音樂噪聲、電視噪聲、辦公噪聲、室外噪聲等，模擬出真實(shí)場(chǎng)景的噪音干擾。

人工智能的發(fā)展，催生了數(shù)據(jù)標(biāo)注這個(gè)新職業(yè)，隨著人工智能大規(guī)模的落地應(yīng)用，至少在未來的五六年內(nèi)，人工智能像是一個(gè)嗷嗷待哺的嬰兒，等待著數(shù)據(jù)的喂養(yǎng)。數(shù)據(jù)標(biāo)注專員賦予冷冰冰的機(jī)器以鮮活的“生命”，教他們我們的知識(shí)，讓他們變得有“溫度”。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

QuestMobile報(bào)告：小鎮(zhèn)中青年線上月活規(guī)模達(dá)3.07億，72%傾向高頻品牌消費(fèi)

拼多多

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2018-08-21

云知聲數(shù)據(jù)標(biāo)注團(tuán)隊(duì)：我們是怎樣教機(jī)器人說話的

“如果機(jī)器在某些現(xiàn)實(shí)的條件下，能夠非常好地模仿人回答問題，讓提問者在相當(dāng)長(zhǎng)時(shí)間里誤認(rèn)它不是機(jī)器，那么機(jī)器就可以被認(rèn)為是能夠思維的。

長(zhǎng)按掃碼閱讀全文

<abbr id="66166"></abbr>

<rp id="66166"><table id="66166"></table></rp>