AI作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),正成為發(fā)展新質(zhì)生產(chǎn)力的重要引擎。預(yù)計未來兩年,AI大模型將落地50%+行業(yè)場景,引領(lǐng)廣泛的智能化革命。數(shù)據(jù)作為AI產(chǎn)業(yè)鏈的基礎(chǔ)要素,其規(guī)模與質(zhì)量直接決定了AI智算的廣度與深度。
在AI大模型的全生命周期中,包含4個關(guān)鍵環(huán)節(jié):
● 數(shù)據(jù)歸集:數(shù)據(jù)采集方式多樣,需兼容NFS、SMB、S3等多種存儲協(xié)議,構(gòu)建超大容量、靈活適應(yīng)的“數(shù)據(jù)倉庫”。
● 數(shù)據(jù)預(yù)處理:針對數(shù)據(jù)在此階段的復(fù)雜性與無序性,需構(gòu)建可靈活應(yīng)對混合IO負載與多變讀寫模式的存儲架構(gòu)。
● 模型訓練:需高效加載數(shù)據(jù)至GPU進行計算,對存儲性能有嚴格要求(高IOPS、高帶寬、低延遲),以確保訓練過程的流暢與高效。
● 推理應(yīng)用:需快速加載海量模型文件,單個文件大小在幾十GB至上百GB不等。若同時啟動數(shù)十個推理業(yè)務(wù),整體數(shù)據(jù)量將達幾十至上百TB,對讀取效率提出較高要求。
在整個流程中,模型訓練是最重要的一環(huán),對存儲系統(tǒng)性能要求極高。為確保訓練任務(wù)如期完成,實現(xiàn)訓練數(shù)據(jù)快速加載、GPU無等待、Checkpoint(AI大模型訓練過程中定期保存的模型狀態(tài)快照)快速保存與恢復(fù)的目標,通常需要存儲系統(tǒng)提供數(shù)百GB/s的帶寬,以及千萬級的IOPS處理能力。
以自然語言處理(NLP)在大型預(yù)訓練語言模型GPT3中的Checkpoint保存場景為例,175B的參數(shù)規(guī)模,其Checkpoint文件達3TB左右,若要在30s內(nèi)完成Checkpoint文件的保存,其寫帶寬需達到100GB/s。為此,亟需構(gòu)建高性能、高可擴展性的數(shù)據(jù)存儲底座,以支撐AI大模型的核心業(yè)務(wù)流程。
憑借在數(shù)據(jù)存儲領(lǐng)域十余年的創(chuàng)新與積淀,宏杉科技精耕細作,以MC27000-MOFS高性能分布式并行存儲系統(tǒng)與MacroDisk智能盤柜為核心,打造智算中心AI存儲解決方案,為AI大模型的精研之路奠定堅實基礎(chǔ)。
MC27000-MOFS高性能分布式并行存儲,提供高效運行引擎
數(shù)據(jù)歸集和預(yù)處理階段,MOFS系統(tǒng)可構(gòu)建基于傳統(tǒng)HDD硬盤的海量數(shù)據(jù)資源池,支持NFS/CIFS/HDFS協(xié)議互訪與多節(jié)點并發(fā)讀寫,極大地加速了數(shù)據(jù)的導(dǎo)入與處理。其單集群單文件系統(tǒng)容量可達1000PB,文件數(shù)量達千億級,充分滿足AI智算對海量數(shù)據(jù)的處理需求。
在模型訓練和推理階段,MOFS系統(tǒng)可提供全NVMe介質(zhì)的高性能資源池,通過部署增強型客戶端,并融合客戶端切片、MPI-IO、RDMA網(wǎng)絡(luò)、小文件聚合等先進技術(shù),系統(tǒng)單節(jié)點混合讀寫性能可達30GB/s以上,實現(xiàn)了數(shù)據(jù)的高效處理與流暢傳輸。
MacroDisk智能盤柜,打造穩(wěn)定存儲底座
當前,Lustre/GPFS等并行文件系統(tǒng)已被廣泛應(yīng)用于AI訓練流程之中,成為驅(qū)動AI智算發(fā)展的關(guān)鍵力量。然而,Lustre的多個數(shù)據(jù)存儲單元(OSS)并未自帶數(shù)據(jù)保護功能,當一個客戶端或節(jié)點發(fā)生故障時,其中的數(shù)據(jù)在重新啟動前將不可訪問。因此,存算分離是此架構(gòu)下提升系統(tǒng)整體可靠性的關(guān)鍵路徑。
在Lustre/GPFS并行文件系統(tǒng)+集中式存儲的整體架構(gòu)下,宏杉科技以MacroDisk智能盤柜為關(guān)鍵硬件支撐,面向HPC、AI等場景,無縫對接客戶Lustre/GPFS等原有并行文件系統(tǒng),為AI訓練構(gòu)建了極致性能、極致可靠的存儲資源池。
MacroDisk支持NVMe over ROCE+INOF、NVMe over FC兩種高速數(shù)據(jù)傳輸方式,單套設(shè)備即可提供100w IOPS、20GB/s帶寬;采用雙控制器Active-Active架構(gòu),確保數(shù)據(jù)的高效讀寫及訪問;集成磁盤監(jiān)測、慢盤檢測、磁盤診斷等功能,實現(xiàn)對磁盤健康狀況的實時監(jiān)控與精準維護;引入CRAID3.0技術(shù),采用22+3或者23+2的比例進行數(shù)據(jù)硬盤和校驗硬盤的配置,在保障數(shù)據(jù)安全的同時,實現(xiàn)高達92%的空間利用率,為AI智算中心的穩(wěn)定運行與未來發(fā)展提供了強有力的支撐。
隨著國家政策的持續(xù)推動與技術(shù)趨勢的加速演進,AI智算正邁向更加高效、智能、安全的新紀元。作為一站式數(shù)據(jù)存儲專家,宏杉科技將緊跟行業(yè)發(fā)展脈搏,以數(shù)賦智,用更多前沿創(chuàng)新方案助力AI產(chǎn)業(yè)“新藍海”的開拓。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )