精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

華為云發(fā)布EMS彈性內(nèi)存存儲服務(wù)，打破AI內(nèi)存墻

人閱讀
2024-06-22 22:03:29
來源：鳳凰網(wǎng)科技
相關(guān)關(guān)鍵詞
- 華為云

6月21日，在華為開發(fā)者大會2024上，華為云CTO張宇昕以“AI Native的華為云，系統(tǒng)創(chuàng)新 X 服務(wù)重塑，賦能萬千開發(fā)者”為主題發(fā)表演講，全面介紹了華為云如何通過“為AI” 進行全棧系統(tǒng)性創(chuàng)新，同時“用AI” 重塑系列云服務(wù)，從而打造AI Native的云。并正式發(fā)布了華為云存儲重磅新品EMS彈性內(nèi)存存儲服務(wù)。

張宇昕表示，目前AI業(yè)界普遍認(rèn)為顯存容量和帶寬不足已經(jīng)成為限制AI訓(xùn)練和推理過程中算力發(fā)揮的關(guān)鍵障礙，這就是業(yè)界常說的AI內(nèi)存墻難題。華為云為解決該難題，首創(chuàng)EMS彈性內(nèi)存存儲服務(wù)，在NPU計算層和持久化存儲層的兩層架構(gòu)之間增加彈性內(nèi)存存儲層，成功打破AI內(nèi)存墻，實現(xiàn)顯存按需擴展。目前EMS彈性內(nèi)存存儲服務(wù)已經(jīng)在華為內(nèi)部IT系統(tǒng)和多個行業(yè)核心業(yè)務(wù)系統(tǒng)得到應(yīng)用。

華為云CTO張宇昕

據(jù)相關(guān)統(tǒng)計數(shù)據(jù)，顯存容量增長速度遠(yuǎn)遠(yuǎn)落后于大模型存儲需求的增長速度。如下圖所示，典型的Transformer大模型的參數(shù)量每兩年以240倍的速度增長，而業(yè)界典型的AI NPU卡的顯存容量僅每兩年翻兩倍。這種大模型參數(shù)量與AINPU卡顯存容量增長速度之間的巨大差距，意味著在訓(xùn)練和推理時客戶往往不得不采用堆砌AINPU卡數(shù)量的方式獲得更大的顯存容量，這將造成大量昂貴AI算力的浪費，增加了客戶的AI訓(xùn)練和推理的成本。

圖：SOTA 模型的參數(shù)量增長趨勢和 AI 硬件顯存容量增長趨勢

本次華為云發(fā)布的EMS彈性內(nèi)存存儲服務(wù)，基于Memory Pooling專利技術(shù)，將顯存與DRAM進行池化和整合，把傳統(tǒng)的云基礎(chǔ)設(shè)施“計算-存儲”分離池化的兩層架構(gòu)升級為“計算-內(nèi)存-存儲”分離池化的三層架構(gòu)。AI算力和內(nèi)存(顯存+DRAM)進行了解耦，實現(xiàn)了“顯存擴展”、“算力卸載”、“以存代算”三大功能來打破AI內(nèi)存墻。

大模型訓(xùn)練通常采用參數(shù)并行，將模型參數(shù)分別存到多張卡的顯存中。在使用EMS后，通過“顯存擴展”功能我們將模型參數(shù)進行分層存儲，頻繁更新的參數(shù)存儲在顯存中，不頻繁更新的參數(shù)存儲在EMS中，這樣就不再需要依賴增加AI加速卡來堆砌顯存容量了。華為云只用了不到一半的NPU卡就存下了盤古大模型 5.0，NPU部署數(shù)量降低了50%。

大模型推理過程包括模型計算和KV相關(guān)的計算，其中模型計算顯存占用較小，但是算力需求卻很高。與之相反，KV相關(guān)計算的顯存占用很大，AI算力需求卻并不高。這兩種計算過程對算力和顯存容量的不同需求造成AI NPU卡不能很好地發(fā)揮性能。例如，華為的一款NPU卡在運行大模型推理時本來只能支持8個并發(fā)。我們將KV相關(guān)計算任務(wù)卸載到EMS中，而模型計算仍在NPU中進行。單卡的并發(fā)提升到了16個，AI推理性能提升100%。

最后是以存代算。大模型推理中為了節(jié)省顯存，歷史對話的KV計算結(jié)果都不會保存，后續(xù)推理都只能重新計算KV，導(dǎo)致新推理請求的首Token時延超過1秒，影響了推理體驗?，F(xiàn)在，通過EMS對顯存進行擴展后，我們可以將歷史KV計算結(jié)果保存在EMS中，供后續(xù)推理直接調(diào)用。優(yōu)化后推理首Token時延降低到0.2秒以內(nèi)，降低了80%。

EMS彈性內(nèi)存存儲是業(yè)界云廠商中首個在實際場景中得到使用的內(nèi)存存儲服務(wù)，通過Memory Pooling專利技術(shù)實現(xiàn)了“顯存擴展”、“算力卸載”、“以存代算”三大功能來打破內(nèi)存墻。不僅如此，面向整個AI場景，華為云還形成了EMS彈性內(nèi)存存儲+SFS Turbo彈性文件存儲+OBS對象存儲的AI-Native智算存儲解決方案，實現(xiàn)萬億模型存的下，訓(xùn)練任務(wù)恢復(fù)快，海量數(shù)據(jù)存的起，全面引領(lǐng)AI時代數(shù)據(jù)存儲變革，幫助客戶構(gòu)建AI Native的基礎(chǔ)設(shè)施。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡版
原版
投稿
回頂部

<thead id="jksni"></thead>

<strike id="jksni"></strike>