上兩周剛剛召開的NVIDIA GTC 2024大會,已經(jīng)成為IT業(yè)界影響力最大的會議。與會人員超過17000人,規(guī)模超過當年喬布斯的蘋果發(fā)布會。在會上,NVIDIA發(fā)布了新的芯片、軟件和方案,展示了在AI時代的絕對霸主地位和龐大的野心。
實際上,黃(仁勛)教主已經(jīng)掩飾不住NVIDIA的野心了:在GPU市場占有率超過80%的NVIDIA,還發(fā)布了數(shù)據(jù)中心整體解決方案,力圖主導這個超過1萬億美元的龐大市場。
不過,即使強如NVIDIA,在構(gòu)建AI系統(tǒng)的時候,仍然選擇了標配外置專業(yè)存儲。雖然HBM(高帶寬內(nèi)存)取代了DDR內(nèi)存,但是外置專業(yè)存儲一直獨立存在。就像當年雄霸天下的Oracle數(shù)據(jù)庫,同樣也是標配外置專業(yè)存儲(EMC、華為等)。
注:2024 NVIDIA GTC大會期間,NVIDIA開設(shè)存儲專場panel座談,邀請業(yè)界頭部存儲廠商及大客戶,共同研討如何通過存儲來解決AI時代面臨的一系列挑戰(zhàn)。
為什么存儲對AI如此重要?NVIDIA為什么要廣泛的與主流存儲廠商合作,而不是自己做存儲?我們將逐層展開,撥云見日,探尋背后的真相。
一、NVIDIA不僅僅想賣芯片,其野心是賣整個數(shù)據(jù)中心方案,以GPU+CUDA為核心構(gòu)建了AI數(shù)據(jù)中心全棧架構(gòu),其中標配外置專業(yè)存儲。
我們都知道,數(shù)據(jù)中心IT堆棧中,計算、存儲和網(wǎng)絡是三大核心組件。
在計算側(cè),NVIDIA通過自研GPU和DPU來加速取代CPU算力;網(wǎng)絡側(cè),NVIDIA通過收購Mellanox,加速推廣IB網(wǎng)絡;存儲側(cè),廣泛與主流存儲廠商(DELL EMC、NetApp、Pure Storage、DDN、IBM、Vast Data、WEKA……)合作,從OVX(數(shù)據(jù)中心推理)、DGX basepod(企業(yè)AI訓練集群)到DGX superpod(大規(guī)模訓練集群)再到DGX supercomputer(超大規(guī)模訓練集群),不變的是里面都標配外置專業(yè)存儲。
二、為什么在NVIDIA的方案架構(gòu)中,外置專業(yè)存儲是“必配品”?
1. AI和傳統(tǒng)應用不同,傳統(tǒng)應用主要是產(chǎn)生數(shù)據(jù)并存下來;而AI自身新產(chǎn)生的數(shù)據(jù)很少,主要是利用現(xiàn)有的存量數(shù)據(jù),即“喂數(shù)據(jù)進去,吐出來的是訓練好的大模型和Token(標記)”。
2.缺數(shù)據(jù),無AI。數(shù)據(jù)的質(zhì)量決定了AI的高度。AI需要大量的高質(zhì)量數(shù)據(jù)從哪里來?最普遍的做法是首先獲取大量的互聯(lián)網(wǎng)公開數(shù)據(jù)作為基礎(chǔ)性輸入,然后最核心的還是結(jié)合企業(yè)內(nèi)部的數(shù)據(jù),包括核心生產(chǎn)數(shù)據(jù)和歷史存量數(shù)據(jù)對模型進行訓練。
3.當今企業(yè)80%以上的數(shù)據(jù)仍存放在數(shù)據(jù)中心,其余少量在邊緣和云上。在數(shù)據(jù)中心,專業(yè)的外置存儲是企業(yè)數(shù)據(jù)的核心載體。因此,只有將NVIDIA AI系統(tǒng)與外置存儲相連,才能快速形成數(shù)據(jù)的閉環(huán),支撐AI大模型的訓練。而在大模型完成訓練,面向行業(yè)應用落地的時候(如RAG推理),AI應用必須與生產(chǎn)存儲相連接,直接調(diào)用企業(yè)生產(chǎn)數(shù)據(jù)。因此,無論在大模型的訓練階段,還是行業(yè)應用推理階段,AI系統(tǒng)都必須配套外置專業(yè)存儲,才能讓企業(yè)數(shù)據(jù),特別是生產(chǎn)數(shù)據(jù)直接變成AI的“燃料”。
4.隨著AI大模型的加速迭代,參數(shù)規(guī)模和數(shù)據(jù)量成萬倍的增長,如何快速做好EB級數(shù)據(jù)的加載和準備,把數(shù)據(jù)快速喂給大模型成為提升訓練效率的瓶頸之一;同時,在訓練過程中需要不斷保存checkpoint,以便因故障中斷/訓練效果不達預期時重新訓練,對checkpoint的保存和讀取速度也極大了影響了訓練效率。而外置存儲從誕生之初就是為了解決數(shù)據(jù)的保存和讀取問題,外置存儲的一小步性能優(yōu)化,對AI系統(tǒng)的訓練效率有巨大的提升,這也是NVIDIA系統(tǒng)選擇外置存儲的一大原因。
5.而在行業(yè)應用推理階段,由于場景眾多、AI新應用層出不窮,如何為解決數(shù)據(jù)pipeline成為關(guān)鍵問題。主流存儲廠商均提供跨邊緣、數(shù)據(jù)中心和云的數(shù)據(jù)流動、統(tǒng)一管理和數(shù)據(jù)加速功能,簡化了AI應用對數(shù)據(jù)的訪問和處理過程,讓大模型應用部署和運行更加簡單高效。
三、既然存儲這么重要,為什么NVIDIA自己不做存儲,或者像收購Mallenox一樣直接收購一家存儲廠商,而是堅定的與主流存儲廠商開展合作?
1.IT產(chǎn)業(yè),全棧通吃不是主流,沒有一家廠商可以搞定全部的客戶需求,封閉架構(gòu)無法持久,分層合作才是關(guān)鍵。NVIDIA瞄準的是整個AI數(shù)據(jù)中心市場,但是它本質(zhì)上是一家計算平臺公司,通過定義好系統(tǒng)架構(gòu),開放合作,能夠滿足不同階段的多樣化客戶需求,與伙伴一起共同建設(shè)面向未來的數(shù)據(jù)中心。
2.NVIDIA如果自己重新做一套存儲產(chǎn)品,本質(zhì)上也無法取代客戶當前的生產(chǎn)存儲,也無法有效利用客戶的生產(chǎn)數(shù)據(jù)。NVIDIA想要的是掌控算力平臺,當前聯(lián)合外置專業(yè)存儲廠商是上策。
3.以存儲為代表的傳統(tǒng)IT廠商,在企業(yè)和運營商客戶已耕耘二三十年,有大量的客戶基礎(chǔ)和數(shù)據(jù)存量,NVIDIA和存儲廠商合作,本質(zhì)上是把原來以CPU為中心的伙伴拉攏到自己身邊,通過聯(lián)合方案,讓存儲廠商帶著NVIDIA的軟硬件一起銷售,擴大客戶和產(chǎn)品覆蓋面;同時,存儲廠商具備成熟的企業(yè)級交付服務能力,這也是NVIDIA所不擅長的??偠灾?,NVIDIA和存儲的合作是互惠互利、合作共贏的。
四、對于中國區(qū)市場客戶的啟示
無論客戶采用什么算力平臺(NVIDIA/昇騰/…),存儲絕對不容忽視。NVIDIA的系統(tǒng)無論集群規(guī)模大小,均標配外置專業(yè)存儲。對于中國的客戶而言,無論當前的AI集群處于什么階段(規(guī)劃中/建設(shè)中),我們都強烈建議立即關(guān)注存儲的配套建設(shè)問題,對存儲的“小”投入,將帶來AI系統(tǒng)效率的“大”提升。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。