6月21日,在華為開發(fā)者大會2024上,華為云CTO張宇昕以“AI Native的華為云,系統(tǒng)創(chuàng)新 X 服務(wù)重塑,賦能萬千開發(fā)者”為主題發(fā)表演講,全面介紹了華為云如何通過“為AI” 進行全棧系統(tǒng)性創(chuàng)新,同時“用AI” 重塑系列云服務(wù),從而打造AI Native的云。并正式發(fā)布了華為云存儲重磅新品EMS彈性內(nèi)存存儲服務(wù)。
張宇昕表示,目前AI業(yè)界普遍認(rèn)為顯存容量和帶寬不足已經(jīng)成為限制AI訓(xùn)練和推理過程中算力發(fā)揮的關(guān)鍵障礙,這就是業(yè)界常說的AI內(nèi)存墻難題。華為云為解決該難題,首創(chuàng)EMS彈性內(nèi)存存儲服務(wù),在NPU計算層和持久化存儲層的兩層架構(gòu)之間增加彈性內(nèi)存存儲層,成功打破AI內(nèi)存墻,實現(xiàn)顯存按需擴展。目前EMS彈性內(nèi)存存儲服務(wù)已經(jīng)在華為內(nèi)部IT系統(tǒng)和多個行業(yè)核心業(yè)務(wù)系統(tǒng)得到應(yīng)用。
華為云CTO張宇昕
據(jù)相關(guān)統(tǒng)計數(shù)據(jù),顯存容量增長速度遠(yuǎn)遠(yuǎn)落后于大模型存儲需求的增長速度。如下圖所示,典型的Transformer大模型的參數(shù)量每兩年以240倍的速度增長,而業(yè)界典型的AI NPU卡的顯存容量僅每兩年翻兩倍。這種大模型參數(shù)量與AINPU卡顯存容量增長速度之間的巨大差距,意味著在訓(xùn)練和推理時客戶往往不得不采用堆砌AINPU卡數(shù)量的方式獲得更大的顯存容量,這將造成大量昂貴AI算力的浪費,增加了客戶的AI訓(xùn)練和推理的成本。
圖:SOTA 模型的參數(shù)量增長趨勢和 AI 硬件顯存容量增長趨勢
本次華為云發(fā)布的EMS彈性內(nèi)存存儲服務(wù),基于Memory Pooling專利技術(shù),將顯存與DRAM進行池化和整合,把傳統(tǒng)的云基礎(chǔ)設(shè)施“計算-存儲”分離池化的兩層架構(gòu)升級為“計算-內(nèi)存-存儲”分離池化的三層架構(gòu)。AI算力和內(nèi)存(顯存+DRAM)進行了解耦,實現(xiàn)了“顯存擴展”、“算力卸載”、“以存代算”三大功能來打破AI內(nèi)存墻。
大模型訓(xùn)練通常采用參數(shù)并行,將模型參數(shù)分別存到多張卡的顯存中。在使用EMS后,通過“顯存擴展”功能我們將模型參數(shù)進行分層存儲,頻繁更新的參數(shù)存儲在顯存中,不頻繁更新的參數(shù)存儲在EMS中,這樣就不再需要依賴增加AI加速卡來堆砌顯存容量了。華為云只用了不到一半的NPU卡就存下了盤古大模型 5.0,NPU部署數(shù)量降低了50%。
大模型推理過程包括模型計算和KV相關(guān)的計算,其中模型計算顯存占用較小,但是算力需求卻很高。與之相反,KV相關(guān)計算的顯存占用很大,AI算力需求卻并不高。這兩種計算過程對算力和顯存容量的不同需求造成AI NPU卡不能很好地發(fā)揮性能。例如,華為的一款NPU卡在運行大模型推理時本來只能支持8個并發(fā)。我們將KV相關(guān)計算任務(wù)卸載到EMS中,而模型計算仍在NPU中進行。單卡的并發(fā)提升到了16個,AI推理性能提升100%。
最后是以存代算。大模型推理中為了節(jié)省顯存,歷史對話的KV計算結(jié)果都不會保存,后續(xù)推理都只能重新計算KV,導(dǎo)致新推理請求的首Token時延超過1秒,影響了推理體驗?,F(xiàn)在,通過EMS對顯存進行擴展后,我們可以將歷史KV計算結(jié)果保存在EMS中,供后續(xù)推理直接調(diào)用。優(yōu)化后推理首Token時延降低到0.2秒以內(nèi),降低了80%。
EMS彈性內(nèi)存存儲是業(yè)界云廠商中首個在實際場景中得到使用的內(nèi)存存儲服務(wù),通過Memory Pooling專利技術(shù)實現(xiàn)了“顯存擴展”、“算力卸載”、“以存代算”三大功能來打破內(nèi)存墻。不僅如此,面向整個AI場景,華為云還形成了EMS彈性內(nèi)存存儲+SFS Turbo彈性文件存儲+OBS對象存儲的AI-Native智算存儲解決方案,實現(xiàn)萬億模型存的下,訓(xùn)練任務(wù)恢復(fù)快,海量數(shù)據(jù)存的起,全面引領(lǐng)AI時代數(shù)據(jù)存儲變革,幫助客戶構(gòu)建AI Native的基礎(chǔ)設(shè)施。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )