作為人工智能“三駕馬車”之一,高效智能的計算能力對 AI 技術(shù)的演進(jìn)至關(guān)重要。如何針對不同 AI 數(shù)據(jù)場景下,實現(xiàn)計算效率的提升,是各大計算技術(shù)研究機(jī)構(gòu)、云廠商以及相關(guān)開源社區(qū)的研究熱點。
12 月 8 日-9 日,第 2 屆數(shù)據(jù)編排峰會(DATA ORCHESTRATION SUMMIT 2020)將在線上召開。在為期兩天的開源社區(qū)會議中,大會將圍繞如何基于最新的開源技術(shù),如Alluxio、Apache Spark、Apache Airflow、Presto、TensorFlow、Kubernetes 等,構(gòu)建云原生或混合云數(shù)據(jù)和 AI 平臺這一話題展開討論,并重點關(guān)注其中關(guān)鍵性數(shù)據(jù)工程方面的挑戰(zhàn)和解決方案。
本次峰會的演講嘉賓邀請到諸多云、數(shù)據(jù)和 AI/ML 等領(lǐng)域富有遠(yuǎn)見的專家學(xué)者,包括來自加州伯克利大學(xué)的 Apache Spark 創(chuàng)始人 Ion Stoica 教授,英特爾 CTO Parviz Peiravi 以及 Alluxio 創(chuàng)始人李浩源博士。同時,來自云知聲、阿里巴巴、Comcast、Electronic Arts、Facebook、Google,京東和騰訊等公司的技術(shù)專家也將先后帶來精彩的技術(shù)報告,分享業(yè)界領(lǐng)先的數(shù)據(jù)架構(gòu)、現(xiàn)實案例、現(xiàn)場演示以及從業(yè)人員最佳實踐。
云知聲很早就開始布局建設(shè)業(yè)界領(lǐng)先的 GPU/CPU 異構(gòu) Atlas 計算平臺和分布式文件存儲系統(tǒng),該計算集群可為 AI 計算提供高性能計算和海量數(shù)據(jù)的存儲訪問能力,在公司向 AI 多領(lǐng)域技術(shù)橫向擴(kuò)展和縱向迭代中發(fā)揮了至關(guān)重要的作用。
本次峰會,云知聲作為國內(nèi)唯一受邀 AI 公司將帶來名為“Speeding Up In Atlas Deep Learning Platform with Alluxio+Fluid”的分享,系統(tǒng)闡釋云知聲在人工智能基礎(chǔ)建設(shè)與云原生原創(chuàng)技術(shù)領(lǐng)域的創(chuàng)新發(fā)展路徑。
本次分享中,針對目前深度學(xué)習(xí)訓(xùn)練平臺非結(jié)構(gòu)數(shù)據(jù)訓(xùn)練過程中 I/O 瓶頸問題,云知聲提出在存儲層和計算層引入 Alluxio 緩存層的解決方案,技術(shù)團(tuán)隊通過和 Alluxio、阿里巴巴以及南京大學(xué)合作開源項目 Fluid 對Alluxio 緩存引擎進(jìn)行統(tǒng)一的編排管理。架構(gòu)圖如下圖所示:
在新架構(gòu)的加持下,三種典型 AI 非結(jié)構(gòu)化數(shù)據(jù)類型:大文件、中等文件和海量小文件均取得大幅的加速效果。針對海量小文件語音降噪任務(wù)、以及大文件 OCR 任務(wù)加速效果如下。其中,在海量小文件訓(xùn)練場景中,讀取緩存相對于直接讀取底層存儲平均增速 10 倍。
在大文件場景,在訓(xùn)練任務(wù)早期階段,讀取緩存相對于直接讀取底層存儲平均有 30 倍的加速效果,當(dāng)數(shù)據(jù)集全部加載到內(nèi)存時,兩者速度基本一致。
在加速訓(xùn)練的同時,新架構(gòu)可以大幅度減少 I/O 帶寬的占用并進(jìn)一步提升 GPU 使用率,針對海量小文件降噪任務(wù)、以及大文件 OCR 任務(wù) I/O 占用及 GPU 使用率如下:
在海量小文件訓(xùn)練場景中,讀取緩存相對于直接讀取底層存儲計算節(jié)點 I/O 由 230Mb/s 下降到 0Mb/s,表明海量小文件訓(xùn)練前已全部加載到緩存中,訓(xùn)練過程中無需占用 I/O;GPU 平均使用率由 82.76% 提升到90.24%,表明消除 I/O 瓶頸可以提高海量小文件訓(xùn)練資源使用效率。
在大文件訓(xùn)練場景中,提前預(yù)熱相對于讀取底層存儲到緩存,計算節(jié)點 I/O 由 1300Mb/s 下降到 0Mb/s,表明海量小文件訓(xùn)練前已全部加載到緩存中,無需占用I/O;讀取緩存相對于直接讀取底層存儲計算節(jié)點 GPU平均使用率由 69.59% 提升到 91.46%,表明消除 I/O 瓶頸可以提高大文件訓(xùn)練任務(wù)資源使用效率。
針對不同的數(shù)據(jù)場景,基于 Fluid 和 Alluxio 緩存加速引擎已經(jīng)在 Atlas 計算平臺進(jìn)行充分驗證。不但緩解了集群 I/O 壓力,而且極大的提高了模型訓(xùn)練的速度以及 GPU 使用效率,為實現(xiàn) AI 算法的快速驗證和迭代奠定計算基礎(chǔ)。
云知聲在實現(xiàn)內(nèi)部計算平臺技術(shù)迭代的同時,也積極參與和擁抱開源社區(qū),是 KubeFlow、Istio、Fluid 社區(qū)的積極關(guān)注和貢獻(xiàn)者,為開源社區(qū)技術(shù)進(jìn)步貢獻(xiàn)自己的力量。
截止 2020 年,Atlas 計算平臺已經(jīng)超過一億億次每秒的浮點計算能力,為在人工智能新領(lǐng)域的拓展奠定了強(qiáng)大的計算資源基礎(chǔ)。通過協(xié)同利用 AI 底層計算平臺資源,也支撐起云知聲從語音識別、語義理解到機(jī)器翻譯、計算機(jī)視覺等多維人工智能技術(shù)領(lǐng)域的持續(xù)快速突破。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )