2017年6月24日,又拍云旗下技術(shù)沙龍 Open Talk 來到人工智能公司最為集中的城市之一——深圳,探討了“大數(shù)據(jù)和機(jī)器學(xué)習(xí)最佳實(shí)踐”這一熱門話題;阿基米公社的活動(dòng)現(xiàn)場(chǎng)擠滿了被話題吸引來的觀眾。
大數(shù)據(jù)、機(jī)器學(xué)習(xí)已經(jīng)成為研究人工智能不能或缺的兩大要素,本次Open Talk的講師來自華為、數(shù)果科技、又拍云等公司在大數(shù)據(jù)、機(jī)器學(xué)習(xí)領(lǐng)域頗有實(shí)戰(zhàn)經(jīng)驗(yàn)的工程師,分享了各自業(yè)務(wù)在大數(shù)據(jù)、機(jī)器學(xué)習(xí)方面的實(shí)踐經(jīng)驗(yàn),深受現(xiàn)場(chǎng)觀眾認(rèn)可。此次Open Talk由IT大咖說提供直播支持。
訓(xùn)練人工智能,如何搭配硬件?
“內(nèi)容識(shí)別”是又拍云于2017年推出的首個(gè)人工智能產(chǎn)品,可應(yīng)用于圖片、直播、點(diǎn)播等場(chǎng)景,智能識(shí)別色情、廣告、暴恐等不良內(nèi)容,其中鑒黃識(shí)別率已經(jīng)高達(dá)99.7%。
在Open Talk現(xiàn)場(chǎng),負(fù)責(zé)又拍云“內(nèi)容識(shí)別”開發(fā)工作的葉靖,在《又拍云的深度學(xué)習(xí)實(shí)踐》的分享中,介紹了又拍云在開發(fā)“內(nèi)容識(shí)別”項(xiàng)目的過程中,所用到的各種工具和技術(shù),以及又拍云在人工智能方面的各種嘗試,面臨的挑戰(zhàn)等。
又拍云“內(nèi)容識(shí)別”的開發(fā)基于超千億張的圖片數(shù)據(jù),以及深度神經(jīng)網(wǎng)絡(luò),“最重要的一個(gè)工具就是GPU,GPU性能好,CPU運(yùn)算速度都是50幾毫秒,但GPU可以達(dá)到0.17毫秒。但GPU還有很多不足的地方,GPU對(duì)硬件依賴性很高又不易擴(kuò)展,不能像內(nèi)存那樣擴(kuò)展到100多G;此外還需要針對(duì)GPU重寫算法,CPU的代碼不能直接拿到GPU上跑,而且比較復(fù)雜?!比~靖分享了對(duì)研發(fā)“人工智能”時(shí)候的硬件選擇,也介紹了其中存在的問題:“GPU從數(shù)據(jù)、內(nèi)存拷貝數(shù)據(jù)的速度比較慢慢,寫代碼時(shí)要盡量避免內(nèi)存的拷貝?!?/p>
“我們選擇了4張1070顯卡,配置了SSD,因?yàn)楹芏鄶?shù)據(jù)從機(jī)械硬盤讀取的話嚴(yán)重影響訓(xùn)練速度。在CPU上,為了突破CPU的通道限制,我們選擇了8核CPU*2的配置。在操作系統(tǒng)的選擇上,又拍云采用了Ubuntu 16.04,一開始選擇了14.04,結(jié)果出現(xiàn)了一大堆的問題?!比~靖好不藏私的分享內(nèi)容,引起了現(xiàn)場(chǎng)觀眾熱烈的提問。
海量用戶數(shù)據(jù)的處理妙招
人工智能的訓(xùn)練需要大數(shù)據(jù),面臨大數(shù)據(jù)的處理也需要人工智能的參與。數(shù)果智能聯(lián)合創(chuàng)始人、首席架構(gòu)師黃強(qiáng)在本次 Open Talk 上分享了《海量用戶行為數(shù)據(jù)的儲(chǔ)存和分析》。
“用一句話來說,用戶行為數(shù)據(jù)就是用戶在產(chǎn)品上的操作行為的記錄?!秉S強(qiáng)高度概括了用戶行為數(shù)據(jù)的含義,“其中包括了時(shí)間、地點(diǎn)、頁面信息等信息?!币话闫髽I(yè)的用戶數(shù)到了幾十萬,用戶一天下來做的所有的操作行為,像一個(gè)用戶行為數(shù)據(jù)包含用戶的IP、sessionID、imei、終端ID,這個(gè)數(shù)據(jù)量是非常龐大的,每一天就是一個(gè)App都是幾百億甚至上千億的數(shù)據(jù)量。
這些數(shù)據(jù)里,高基數(shù)的維度很多?!拔艺J(rèn)為基數(shù)在百萬以上就比較高了?!秉S強(qiáng)認(rèn)為。什么是基數(shù)?比如說用戶ID有一個(gè)很大的量,一個(gè)維度下有多少個(gè)不重復(fù)的值,這種值就可以叫ID,如果基數(shù)很高,這個(gè)值會(huì)非常多。高基數(shù)產(chǎn)生的數(shù)據(jù)量非常龐大,幾千萬到上千億都是有可能,還有用戶行為是持續(xù)的。這些都是用戶行為數(shù)據(jù)的處理難點(diǎn)。
黃強(qiáng)分享了用戶行為數(shù)據(jù)處理環(huán)節(jié)的幾個(gè)步驟:第一步是采集,通過SDK等方式、工具采集數(shù)據(jù);采集到數(shù)據(jù)之后需要進(jìn)行存儲(chǔ),“數(shù)據(jù)量非常大,需要拆成很多份,采用分布式資源,才能最大化利用一臺(tái)設(shè)備的計(jì)算資源?!币?yàn)閿?shù)據(jù)被拆散了,所以數(shù)據(jù)處理還需要加入“查詢”功能,把查詢結(jié)果做一個(gè)合并,輸出最終結(jié)果。此外就是數(shù)據(jù)的索引,克分為倒排索引和正向索引兩種方式。
數(shù)據(jù)很重要,更重要的是呈現(xiàn)方式和互通
華為消費(fèi)者BG數(shù)據(jù)分析架構(gòu)師王在清作為壓軸嘉賓,帶來了《數(shù)據(jù)分析與洞察》。王在清 因工作需求,從市場(chǎng)銷售分析投入到數(shù)據(jù)分析領(lǐng)域,后續(xù)進(jìn)入架構(gòu)、數(shù)據(jù)挖掘等領(lǐng)域,曾參與多項(xiàng)跨國(guó)企業(yè)的全球BI/DW 建設(shè)工作,擅長(zhǎng)分析物(產(chǎn)品、事件)與人(客戶、員工)。
在活動(dòng)現(xiàn)場(chǎng),王在清主要介紹了華為消費(fèi)者BG的數(shù)字化建設(shè)與數(shù)據(jù)驅(qū)動(dòng),從建立數(shù)據(jù)體系到分析洞察應(yīng)用。
很多年前,許多公司都在落地信息化,建了一大堆IT系統(tǒng),“但全部都是數(shù)據(jù)孤島,數(shù)據(jù)跟數(shù)據(jù)沒有什么連接。從現(xiàn)在回來看,這些數(shù)據(jù)開始建設(shè)的時(shí)候,就應(yīng)該有一個(gè)統(tǒng)一的視圖,借助統(tǒng)一的視圖完善數(shù)據(jù)的關(guān)聯(lián)。一開始有一個(gè)整合視圖以后,還可以是數(shù)據(jù)島,但是島與島的交通線是一致的,而不是事后兩邊各建一個(gè)橋,運(yùn)氣不好還建兩座橋?!?/p>
王在清認(rèn)為,做數(shù)據(jù)分析和做洞察,必須要基于統(tǒng)一的做法,“否則挖掘出來的數(shù)據(jù)沒有辦法解釋,沒有辦法解釋的數(shù)據(jù)就不是數(shù)據(jù)報(bào)告的結(jié)果。我們必須要先建立整體的數(shù)據(jù)視圖,或許還是十幾套IT系統(tǒng),但是所有的數(shù)據(jù)定義是一致的。
王在清的分享當(dāng)中,提出一個(gè)觀點(diǎn):數(shù)據(jù)只有“快速、簡(jiǎn)單、可視”才會(huì)產(chǎn)生價(jià)值。實(shí)現(xiàn)數(shù)據(jù)可視化數(shù)又可以分為三個(gè)步驟:先進(jìn)入hindsight,再進(jìn)入insight,最后進(jìn)入foresight。
Open Talk No.33講師的分享詳情,將后續(xù)更新在又拍云微信公眾號(hào)上,歡迎大家持續(xù)關(guān)注。
- 哪吒汽車創(chuàng)始人被限制高消費(fèi),新品牌仍需努力破局
- 日本純電動(dòng)乘用車銷量下滑,比亞迪逆襲超越豐田:綠色革命的新動(dòng)態(tài)
- 馬斯克預(yù)測(cè):未來人形機(jī)器人產(chǎn)量激增,或?qū)⒚磕攴叮衲陮⒅圃鞌?shù)千臺(tái)
- 特斯拉股東二度批準(zhǔn)馬斯克高額薪酬仍遭否決,公司上訴:薪酬案不公
- 互聯(lián)網(wǎng)巨頭齊聚知乎,王寧、王莆中等發(fā)問未來,2025“互聯(lián)網(wǎng)十問”引人注目
- 未來AI技術(shù)風(fēng)向標(biāo):2025年聚焦具身智能,這些領(lǐng)域或成熱門趨勢(shì)
- 英偉達(dá)新顯卡升級(jí):美光GDDR7能否帶來游戲革命?
- B站獨(dú)攬央視春晚轉(zhuǎn)播權(quán):獨(dú)家彈幕視頻,重溫歷史與創(chuàng)新之旅
- 賈躍亭全新品牌首款MPV諜照曝光:這輛車究竟藏著什么秘密?
- 哪吒汽車調(diào)整渠道:直營(yíng)縮水,經(jīng)銷商模式待定,新車市走向何方?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。